CN111445906A - 基于大数据的语音生成方法、装置、设备及介质 - Google Patents
基于大数据的语音生成方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN111445906A CN111445906A CN202010127344.4A CN202010127344A CN111445906A CN 111445906 A CN111445906 A CN 111445906A CN 202010127344 A CN202010127344 A CN 202010127344A CN 111445906 A CN111445906 A CN 111445906A
- Authority
- CN
- China
- Prior art keywords
- speaker
- robot
- audio
- emotion
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 38
- 230000008451 emotion Effects 0.000 claims abstract description 187
- 230000005236 sound signal Effects 0.000 claims abstract description 87
- 230000002996 emotional effect Effects 0.000 claims abstract description 18
- 238000013507 mapping Methods 0.000 claims description 85
- 238000004590 computer program Methods 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 230000010354 integration Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 5
- 208000037656 Respiratory Sounds Diseases 0.000 description 4
- 206010037833 rales Diseases 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000366 juvenile effect Effects 0.000 description 3
- 241001446467 Mama Species 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/04—Details of speech synthesis systems, e.g. synthesiser structure or memory management
- G10L13/047—Architecture of speech synthesisers
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/22—Interactive procedures; Man-machine interfaces
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/26—Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Toys (AREA)
- Manipulator (AREA)
Abstract
本发明公开了一种基于大数据的语音生成方法,包括:获取说话人音频信号;对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;根据所述说话人的音频因素获取说话人的情感标签;获取所述说话人的情感标签对应的机器人的情感标签;根据所述机器人的情感标签获取机器人的音频因素;根据所述机器人的音频因素生成待输出的机器人音频信号。本发明实现了在机器人对话中融入情感因素,使得机器人可与用户进行富有情感的对话,有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。
Description
技术领域
本发明涉及信息技术领域,尤其涉及一种基于大数据的语音生成方法、装置、设备及介质。
背景技术
人机对话是计算机的一种工作方式,即计算机操作员或用户与计算机之间,通过控制台或终端显示屏幕,以对话方式进行工作。目前的人机对话场景中,机器人的对话语音是不带情感的,话术也非常生硬和单一,对于用户来说,对话体验欠佳,从而无法提供情感类服务,无法应用到例如心理咨询、疏通情感等场景中,应用场景受限。
因此,寻找一种方法解决现有人机对话中的对话语音不带情感、话术生硬和单一的问题成为本领域技术人员亟需解决的技术问题。
发明内容
本发明实施例提供了一种基于大数据的语音生成方法、装置、设备及介质,以解决现有人机对话中的对话语音不带情感、话术生硬和单一的问题。
一种基于大数据的语音生成方法,包括:
获取说话人音频信号;
对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
根据所述说话人的音频因素获取说话人的情感标签;
获取所述说话人的情感标签对应的机器人的情感标签;
根据所述机器人的情感标签获取机器人的音频因素;
根据所述机器人的音频因素生成待输出的机器人音频信号。
可选地,所述对所述说话人音频信号进行音频分析,得到所述说话人的音频因素包括:
通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则;
获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息;
获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息;
获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
可选地,所述根据所述说话人的音频因素获取说话人的情感标签包括:
根据业务场景设置说话人的音频因素与情感标签之间的映射关系;
根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系,得到所述说话人的情感标签。
可选地,所述获取所述说话人的情感标签对应的机器人的情感标签包括:
根据业务场景设置对话情感映射关系,所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签;
根据说话人的情感标签查询所述对话情感映射关系,得到机器人的情感标签。
可选地,所述根据所述机器人的情感标签获取机器人的音频因素包括:
根据业务场景设置机器人的情感标签与音频因素之间的映射关系;
根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系,得到所述机器人的音频因素。
可选地,所述根据所述机器人的音频因素生成待输出的机器人音频信号包括:
通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息;
根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
一种基于大数据的语音生成装置,包括:
音频信号获取模块,用于获取说话人音频信号;
音频信号分析模块,用于对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
第一标签获取模块,用于根据所述说话人的音频因素获取说话人的情感标签;
第二标签获取模块,用于获取所述说话人的情感标签对应的机器人的情感标签;
音频因素获取模块,用于根据所述机器人的情感标签获取机器人的音频因素;
音频信号生成模块,用于根据所述机器人的音频因素生成待输出的机器人音频信号。
可选地,所述音频信号分析模块包括:
建立单元,用于通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则;
音调获取单元,用于获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息;
音色获取单元,用于获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息;
语速获取单元,用于获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的语音生成方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的语音生成方法。
本发明实施例预先建立说话人的音频因素、情感标签及关联两者,建立机器人的音频因素、情感标签及关联两者,并关联说话人的情感标签与机器人的情感标签;在进行人机对话时,获取说话人的音频信号;对所述音频信号进行音频分析,得到所述说话人的音频因素;然后根据所述说话人的音频因素获取说话人的情感标签;接着获取所述说话人的情感标签对应的机器人的情感标签;根据所述机器人的情感标签获取机器人的音频因素;最后根据所述机器人的音频因素生成待输出的机器人音频信号;从而实现在机器人对话中融入情感因素,使得机器人可与用户进行富有情感的对话,有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于大数据的语音生成方法的一流程图;
图2是本发明一实施例中基于大数据的语音生成方法中步骤S102的一流程图;
图3是本发明一实施例中基于大数据的语音生成方法中步骤S103的一流程图;
图4是本发明一实施例中基于大数据的语音生成方法中步骤S104的一流程图;
图5是本发明一实施例中基于大数据的语音生成方法中步骤S105的一流程图;
图6是本发明一实施例中基于大数据的语音生成方法中步骤S106的一流程图;
图7是本发明一实施例中基于大数据的语音生成装置的一原理框图;
图8是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下对本实施例提供的基于大数据的语音生成方法进行详细的描述。本发明实施例提供的基于大数据的语音生成方法的目的是为了克服现有人机对话中的对话语音不带情感、话术生硬和单一而导致的对话体验欠佳、应用场景受限的问题,实现人工智能(Artificial Intelligence,英文缩写为AI)调整机器人的对话语音情感。首先通过使用大量的音频素材建立音调映射关系、音色映射关系、语速规则;然后根据用户的对话音频查询所述音调映射关系、音色映射关系以及语速规则,得到用户的情感标签;基于所述情感标签确定机器人的对话情感,并按照所述机器人的对话情感处理待输出的音频信息,生成机器人的对话音频,最后输出所述对话音频;从而实现在机器人对话中融入情感因素,使得机器人可以富有情感的与用户进行对话,有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。
在一实施例中,如图1所示,一种基于大数据的语音生成方法,包括如下步骤:
在步骤S101中,获取说话人音频信号。
在这里,本发明实施例对获取的说话人音频信号进行去重噪声处理,排除干扰信息,以便后续获得准确的情感信息。
在步骤S102中,对所述说话人音频信号进行音频分析,得到所述说话人的音频因素。
在这里,所述音频因素是指描述声音特性的要素,包括但不限于音调信息、音色信息以及语速信息。其中音调是指说话人声音的高低,音色信息是指说话人声音的品质和特性,语速信息是指说话人说话的速度。本发明实施例预先设置音调分析模块、音色分析模块以及语速分析模块,并建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则,以实现对说话人音频信号进行音频分析。
可选地,图2示出了本发明实施例提供的步骤S102的具体实现流程。如图2所示,步骤S102所述的对所述说话人音频信号进行音频分析,得到所述说话人的音频因素包括:
在步骤S201中,通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则。
在这里,音调信息与音频的频率有关。本实施例通过将带有音调标注信息的大数据音频素材输入所述音调分析模块,进行机器学习,以识别声音的频率与音调之间的关系,建立频率与音调之间的映射关系。其中,所述音调标注包括但不限于高音音频、中音音频以及低音音频。
音色信息与音频的波形有关。在本发明实施例中,所述音色信息包括年龄信息与情感信息。本发明实施例通过分析音频的波形分别获取年龄信息和情感信息。对于年龄信息,本实施例通过将带有年龄特性标注的大数据音频素材输入所述音色分析模块,进行机器学习,以识别声音的波形与年龄信息之间的关系,建立波形与年龄信息之间的映射关系。年龄特性标注为具有年龄特征的角色标注,年龄特征用于表示年龄大小,角色用于表示性别、性格,因此所述年龄特性标注包括但不限于男童音女童音、少女音、少年音、大叔音、大妈音、老年音。对于情感信息,本实施例通过将带有情感特性标注的大数据音频素材输入所述音色分析模块,进行机器学习,以识别声音的波形与情感信息之间的关系,建立波形与情感信息之间的映射关系。其中,所述情感特性标注为具有情感特征的标注,包括但不限于欢快、高兴、兴奋、悲伤、惊讶、好奇。
语速信息与说话快慢有关,本发明实施例根据人类说话的常规语速设置相关的语速规则。首先通过将大数据音频素材输入所述语速分析模块,进行机器学习,得到人类在预设单位时间内的常规说话字数以及说话字数的正太分布,根据正太分布以常规说话字数为基础划分出多个语速等级,以建立语速规则。可选地,对于每一个音频素材,所述语速分析模块可通过识别相邻的两次停顿(例如2s不说话,认为是停顿),获取该两次停顿之间的时间信息,并统计该两次停顿之间的说话字数,根据说话字数与时间信息计算预设时间单位内的说话字数;遍历所有输入的大数据音频素材,得到多个预设时间单位内的说话字数,并对所述预设时间单位内的说话字数进行分布分析,得到人类在预设时间单位内的常规说话字数以及说话字数的正太分布。每一个语速规则为在预设时间单位内的说话字数与语速等级之间的对应关系;示例性地,假设经过语速分析模块得到的常规说话字数为每分钟[200-250)字,对应设置为语速等级5时,往下每分钟[0-50)、[50-100)、[100-150)、[150-200)字时分别对应设置语速等级1、2、3、4,往上每分钟[250-275)、[275-300)、[300-325)、[325-350)字时分别对应设置语速等级6、7、8、9,供9条语速规则。
在步骤S202中,获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息。
在对说话者进行音频分析时,将说话人音频信号输入训练好的所述音调分析模块,通过音调分析模块识别说话人音频信号的频率信息,以及将识别得到的频率信息和频率与音调之间的映射关系进行匹配,得到说话人的音调信息。
在步骤S203中,获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息。
同理,对于说话人的音色信息,将说话人音频信号输入训练好的所述音色分析模块,通过音色分析模块识别说话人音频信号的波形信息,以及将识别得到的波形信息和波形与音色之间的映射关系进行匹配,具体为将识别得到的波形信息和波形与年龄信息之间的映射关系、波形与情感信息之间的映射关系进行匹配,得到说话人的年龄信息和情感信息。
在步骤S204中,获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
对于说话人的语速信息,将说话人音频信号输入训练好的所述语速分析模块,通过所述语速分析模块识别相邻的两次停顿(例如2s不说话,认为是停顿),获取该两次停顿之间的时间信息,并统计该两次停顿之间的说话字数,根据说话字数与时间信息计算在预设时间单位内的说话字数,再将所述预设时间单位内的说话字数和语速规则进行匹配,得到语速等级,从而得到说话人的语速信息。
在步骤S103中,根据所述说话人的音频因素获取说话人的情感标签。
所述说话人的情感标签是指基于说话人的音频因素得到的说话人在当前业务场景下的整体情感信息。在上述实施例中,所述音频因素包括音调信息、音色信息以及语速信息,所述说话人的情感标签是指基于说话人的音调信息、音色信息以及语速信息得到的说话人的整体情感信息。可选地,图3示出了本发明实施例提供的步骤S103的具体实现流程。如图3所示,步骤S103所述的根据所述说话人的音频因素获取说话人的情感标签包括:
在步骤S301中,根据业务场景设置说话人的音频因素与情感标签之间的映射关系。
在这里,本发明实施例根据不同的业务场景,设置说话人的音频因素与情感标签之间的映射关系,以定义说话人的情感模型。每一个业务场景对应一条或多条说话人的音频因素与情感标签之间的映射关系。业务场景不同,相同的音频因素对应的说话人的情感标签不完全相同。示例性地,在游乐场中,音调信息为大声说话3级、音色信息为高兴的萝莉音4级别、语速信息为语速等级6,对应的说话人的情感标签为兴奋激动的萝莉8级;在一般场所中,音调信息为大声说话3级、音色信息为高兴的萝莉音4级别、语速信息为语速等级6,对应的说话人的情感标签为开心的萝莉4级。
在步骤S302中,根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系,得到所述说话人的情感标签。
在得到说话人的音频因素之后,获取当前业务场景下的说话人的音频因素与情感标签之间的映射关系,然后基于说话人的音频因素,查询所获取的映射关系,得到说话人的情感标签,从而得到用户在当前业务场景中的整体情感信息。
在步骤S104中,获取所述说话人的情感标签对应的机器人的情感标签。
如前所述,所述说话人的情感标签是指基于说话人的音频因素得到的说话人在当前业务场景下的整体情感信息。对应的,机器人的情感标签是指在当前业务场景下机器人面对说话人的应有的整体情感信息。可选地,图4示出了本发明实施例提供的步骤S104的具体实现流程。如图4所示,步骤S104所述的获取所述说话人的情感标签对应的机器人的情感标签包括:
在步骤S401中,根据业务场景设置对话情感映射关系,所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签。
在这里,本实施例基于人类对话情感常理,根据业务场景设置说话人的情感标签与机器人的情感标签之间的对应关系,以定义人机情感模型,实现基于说话人的对话情感选择机器人的对话情感。不同的业务场景对应的对话映射关系是不相同的。示例性地,在普通对话场景中,当说话人的情感标签是欢快时,对应机器人的情感标签也是欢快,那么机器人将以欢快的情感进行对话;在心理咨询场景中,当说话人的情感标签是悲伤时,对应机器人的情感标签是感同身受,那么机器人将以安慰的情感进行对话;在交友场景中,当说话人的情感标签是少年兴奋5级,对应的机器人的情感标签是少女兴奋5级,那么机器人将以少女兴奋5级的情感进行对话。
在步骤S402中,根据说话人的情感标签查询所述对话情感映射关系,得到机器人的情感标签。
在得到说话人的情感标签之后,获取当前业务场景下的对话情感映射关系,然后基于说话人的情感标签,查询所获取的对话情感映射关系,得到机器人的情感标签,从而得到在当前业务场景中机器人面对用户的应有的整体情感信息。
通过配置对话情感映射关系,由三对三(说话人的音频、语速、音色对机器人的音频、语速、音色)简化为一对一(说话人的情感标签对机器人的情感标签)进行配置,极大地简化了在实际应用中配置机器人整体情感的逻辑;在物理层面上,实现从底层的语音处理技术中抽离出来,使得开发员或者业务员一目了然,便于开发员或者业务员在不同的业务场景中配置人机情感模型。
在步骤S105中,根据所述机器人的情感标签获取机器人的音频因素。
如前所述,机器人的情感标签是指在当前业务场景下机器人面对说话人的应有的整体情感信息。本实施例中所研究的音频因素包括但不限于音调信息、音色信息以及语速信息。因此,在生成待输出的机器人音频信号时,本发明实施例基于机器人的情感标签确定待输出的机器人音频信号的音调信息、音色信息以及语速信息。可选地,图5示出了本发明实施例提供的步骤S105的具体实现流程。如图5所示,步骤S105所述的根据所述机器人的情感标签获取机器人的音频因素包括:
在步骤S501中,根据业务场景设置机器人的情感标签与音频因素之间的映射关系。
在这里,本发明实施例根据不同的业务场景,设置机器人的情感标签与音频因素之间的映射关系,以定义机器人的情感模型。每一个业务场景对应一条或多条机器人的情感标签与音频因素之间的映射关系。业务场景不同,相同的机器人的情感标签对应的音频因素不完全相同。
在步骤S502中,根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系,得到所述机器人的音频因素。
在得到机器人的情感标签之后,获取当前业务场景下的机器人的情感标签与音频因素之间的映射关系,然后基于机器人的情感标签,查询所获取的映射关系,得到机器人的音频因素,即在当前业务场景中机器人面对说话人应该具有的音调信息、音色信息以及语速信息。
在步骤S106中,根据所述机器人的音频因素生成待输出的机器人音频信号。
在这里,所述机器人音频信号是指机器人回应说话人的对话音频。本发明实施例直接根据当前业务场景中机器人面对说话人应该具有的音调信息、音色信息以及语速信息生成机器人音频信号。可选地,图6示出了本发明实施例提供的步骤S106的具体实现流程。如图6所示,步骤S106所述的根据所述机器人的音频因素生成待输出的机器人音频信号包括:
在步骤S601中,通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息。
在这里,本发明实施例采用HMM声学模型技术将说话人音频信号转换为对应的文本信息。然后通过命名实体识别和关系抽取技术,根据所述说话人的文本信息从预设的大数据对话表中获取机器人的文本信息。应当理解,所述机器人的文本信息为机器人回应说话人的文本信息,与说话人的文本信息是对应的,是机器人音频信号的内容。所述大数据对话表中预先存储了人机对话中说话人的文本信息及对应的机器人文本信息。
在步骤S602中,根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
在得到机器人的文本信息之后,将所述机器人的文本信息和机器人的音频因素传入信号发生器。所述信号发生器是指TIS语音合成技术,信号发生器将参照所述机器人的音频因素和所述机器人的文本信息生成对应的机器人音频信号,实现人机之间的情感对话。
综上所述,本发明实施例通过使用大量的音频素材建立音调映射关系、音色映射关系、语速映射关系;然后根据用户的对话音频查询所述音调映射关系、音色映射关系以及语速映射关系,得到用户的情感标签;基于所述情感标签确定机器人的对话情感,并按照所述机器人的对话情感处理待输出的音频信息,生成机器人的对话音频,最后输出所述对话音频;从而实现在机器人对话中融入情感因素,使得机器人可与用户进行富有情感的对话,有效地解决了现有人机对话中的对话语音不带情感、话术生硬和单一的问题。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于大数据的语音生成装置,该基于大数据的语音生成装置与上述实施例中基于大数据的语音生成方法一一对应。如图7所示,该基于大数据的语音生成装置包括音频信号获取模块71、音频信号分析模块72、第一标签获取模块73、第二标签获取模块74、音频因素获取模块75、音频信号生成模块76。各功能模块详细说明如下:
音频信号获取模块71,用于获取说话人音频信号;
音频信号分析模块72,用于对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
第一标签获取模块73,用于根据所述说话人的音频因素获取说话人的情感标签;
第二标签获取模块74,用于获取所述说话人的情感标签对应的机器人的情感标签;
音频因素获取模块75,用于根据所述机器人的情感标签获取机器人的音频因素;
音频信号生成模块76,用于根据所述机器人的音频因素生成待输出的机器人音频信号。
可选地,所述音频信号分析模块72包括:
建立单元,用于通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则;
音调获取单元,用于获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息;
音色获取单元,用于获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息;
语速获取单元,用于获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
可选地,所述第一标签获取模块73包括:
第一映射关系设置单元,用于根据业务场景设置说话人的音频因素与情感标签之间的映射关系;
第一标签获取单元,用于根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系,得到所述说话人的情感标签。
可选地,所述第二标签获取模块74包括:
第二映射关系设置单元,用于根据业务场景设置对话情感映射关系,所述对话情感映射关系包括说话人的情感标签与机器人的情感标签之间的对应关系;
第二标签获取单元,用于根据说话人的情感标签查询所述对话情感映射关系,得到机器人的情感标签。
可选地,所述音频因素获取模块75包括:
第三映射关系设置单元,用于根据业务场景设置机器人的情感标签与音频因素之间的映射关系;
音频因素获取单元,用于根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系,得到所述机器人的音频因素。
可选地,所述音频信号生成模块76包括:
文本信息获取单元,用于通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息;
音频信号生成单元,用于根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
关于基于大数据的语音生成装置的具体限定可以参见上文中对于基于大数据的语音生成方法的限定,在此不再赘述。上述基于大数据的语音生成装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的语音生成方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取说话人音频信号;
对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
根据所述说话人的音频因素获取说话人的情感标签;
获取所述说话人的情感标签对应的机器人的情感标签;
根据所述机器人的情感标签获取机器人的音频因素;
根据所述机器人的音频因素生成待输出的机器人音频信号。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于大数据的语音生成方法,其特征在于,包括:
获取说话人音频信号;
对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
根据所述说话人的音频因素获取说话人的情感标签;
获取所述说话人的情感标签对应的机器人的情感标签;
根据所述机器人的情感标签获取机器人的音频因素;
根据所述机器人的音频因素生成待输出的机器人音频信号。
2.如权利要求1所述的基于大数据的语音生成方法,其特征在于,所述对所述说话人音频信号进行音频分析,得到所述说话人的音频因素包括:
通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则;
获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息;
获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息;
获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
3.如权利要求1或2所述的基于大数据的语音生成方法,其特征在于,所述根据所述说话人的音频因素获取说话人的情感标签包括:
根据业务场景设置说话人的音频因素与情感标签之间的映射关系;
根据所述说话人的音频因素查询所述说话人的音频因素与情感标签之间的映射关系,得到所述说话人的情感标签。
4.如权利要求1或2所述的基于大数据的语音生成方法,其特征在于,所述获取所述说话人的情感标签对应的机器人的情感标签包括:
根据业务场景设置对话情感映射关系,所述对话情感映射关系包括说话人的情感标签及其对应的机器人的情感标签;
根据说话人的情感标签查询所述对话情感映射关系,得到机器人的情感标签。
5.如权利要求1或2所述的基于大数据的语音生成方法,其特征在于,所述根据所述机器人的情感标签获取机器人的音频因素包括:
根据业务场景设置机器人的情感标签与音频因素之间的映射关系;
根据所述机器人的情感标签查询所述机器人的情感标签与音频因素之间的映射关系,得到所述机器人的音频因素。
6.如权利要求1或2所述的基于大数据的语音生成方法,其特征在于,所述根据所述机器人的音频因素生成待输出的机器人音频信号包括:
通过命名实体识别和关系抽取技术从大数据对话表中获取所述说话人音频信号的文本信息对应的机器人的文本信息;
根据所述机器人的音频因素将所述机器人的文本信息转换为待输出的机器人音频信号。
7.一种基于大数据的语音生成装置,其特征在于,所述装置包括:
音频信号获取模块,用于获取说话人音频信号;
音频信号分析模块,用于对所述说话人音频信号进行音频分析,得到所述说话人的音频因素;
第一标签获取模块,用于根据所述说话人的音频因素获取说话人的情感标签;
第二标签获取模块,用于获取所述说话人的情感标签对应的机器人的情感标签;
音频因素获取模块,用于根据所述机器人的情感标签获取机器人的音频因素;
音频信号生成模块,用于根据所述机器人的音频因素生成待输出的机器人音频信号。
8.如权利要求7所述的基于大数据的语音生成装置,其特征在于,所述音频信号分析模块包括:
建立单元,用于通过机器学习建立频率与音调之间的映射关系、波形与音色之间的映射关系以及语速规则;
音调获取单元,用于获取所述说话人音频信号的频率信息,根据所述频率信息查询频率与音调之间的映射关系,得到说话人的音调信息;
音色获取单元,用于获取所述说话人音频信号的波形信息,根据所述波形信息查询波形与音色之间的映射关系,得到说话人的音色信息,所述音色信息包括情感信息和年龄信息;
语速获取单元,用于获取所述说话人音频信号中两次停顿之间的时间间隔以及说话字数,根据所述时间间隔和说话字数匹配所述语速规则,得到说话人的语速信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至6任一项所述的基于大数据的语音生成方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述的基于大数据的语音生成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127344.4A CN111445906A (zh) | 2020-02-28 | 2020-02-28 | 基于大数据的语音生成方法、装置、设备及介质 |
PCT/CN2020/105040 WO2021169170A1 (zh) | 2020-02-28 | 2020-07-28 | 基于大数据的语音生成方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010127344.4A CN111445906A (zh) | 2020-02-28 | 2020-02-28 | 基于大数据的语音生成方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111445906A true CN111445906A (zh) | 2020-07-24 |
Family
ID=71650673
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010127344.4A Pending CN111445906A (zh) | 2020-02-28 | 2020-02-28 | 基于大数据的语音生成方法、装置、设备及介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111445906A (zh) |
WO (1) | WO2021169170A1 (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112423106A (zh) * | 2020-11-06 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种自动翻译伴音的方法及系统 |
WO2021169170A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 基于大数据的语音生成方法、装置、设备及介质 |
CN114566187A (zh) * | 2020-11-27 | 2022-05-31 | Gn 奥迪欧有限公司 | 具有会话后表示的系统、电子装置和相关方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10593349B2 (en) * | 2016-06-16 | 2020-03-17 | The George Washington University | Emotional interaction apparatus |
JP6766675B2 (ja) * | 2017-02-15 | 2020-10-14 | トヨタ自動車株式会社 | 音声対話装置 |
CN107393529A (zh) * | 2017-07-13 | 2017-11-24 | 珠海市魅族科技有限公司 | 语音识别方法、装置、终端及计算机可读存储介质 |
CN109215679A (zh) * | 2018-08-06 | 2019-01-15 | 百度在线网络技术(北京)有限公司 | 基于用户情绪的对话方法和装置 |
CN109274819A (zh) * | 2018-09-13 | 2019-01-25 | 广东小天才科技有限公司 | 通话时用户情绪调整方法、装置、移动终端及存储介质 |
CN109346076A (zh) * | 2018-10-25 | 2019-02-15 | 三星电子(中国)研发中心 | 语音交互、语音处理方法、装置和系统 |
CN110211563B (zh) * | 2019-06-19 | 2024-05-24 | 平安科技(深圳)有限公司 | 面向情景及情感的中文语音合成方法、装置及存储介质 |
CN111445906A (zh) * | 2020-02-28 | 2020-07-24 | 深圳壹账通智能科技有限公司 | 基于大数据的语音生成方法、装置、设备及介质 |
-
2020
- 2020-02-28 CN CN202010127344.4A patent/CN111445906A/zh active Pending
- 2020-07-28 WO PCT/CN2020/105040 patent/WO2021169170A1/zh active Application Filing
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021169170A1 (zh) * | 2020-02-28 | 2021-09-02 | 深圳壹账通智能科技有限公司 | 基于大数据的语音生成方法、装置、设备及介质 |
CN112423106A (zh) * | 2020-11-06 | 2021-02-26 | 四川长虹电器股份有限公司 | 一种自动翻译伴音的方法及系统 |
CN114566187A (zh) * | 2020-11-27 | 2022-05-31 | Gn 奥迪欧有限公司 | 具有会话后表示的系统、电子装置和相关方法 |
CN114566187B (zh) * | 2020-11-27 | 2023-08-22 | Gn 奥迪欧有限公司 | 操作包括电子装置的系统的方法、电子装置及其系统 |
US11790887B2 (en) | 2020-11-27 | 2023-10-17 | Gn Audio A/S | System with post-conversation representation, electronic device, and related methods |
Also Published As
Publication number | Publication date |
---|---|
WO2021169170A1 (zh) | 2021-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108962255B (zh) | 语音会话的情绪识别方法、装置、服务器和存储介质 | |
CN111445906A (zh) | 基于大数据的语音生成方法、装置、设备及介质 | |
JP5598998B2 (ja) | 音声翻訳システム、第一端末装置、音声認識サーバ装置、翻訳サーバ装置、および音声合成サーバ装置 | |
CN111048064B (zh) | 基于单说话人语音合成数据集的声音克隆方法及装置 | |
CN107818798A (zh) | 客服服务质量评价方法、装置、设备及存储介质 | |
CN112309365B (zh) | 语音合成模型的训练方法、装置、存储介质以及电子设备 | |
CN107564531A (zh) | 基于声纹特征的会议记录方法、装置及计算机设备 | |
US20220334795A1 (en) | System and method for providing a response to a user query using a visual assistant | |
CN110473546A (zh) | 一种媒体文件推荐方法及装置 | |
US20130253932A1 (en) | Conversation supporting device, conversation supporting method and conversation supporting program | |
CN111261151A (zh) | 一种语音处理方法、装置、电子设备及存储介质 | |
WO2023116660A2 (zh) | 一种模型训练以及音色转换方法、装置、设备及介质 | |
CN101253547B (zh) | 语音对话方法和系统 | |
JP6488417B1 (ja) | ワークショップ支援システムおよびワークショップ支援方法 | |
CN106911832A (zh) | 一种语音记录的方法及装置 | |
JP2006178334A (ja) | 語学学習システム | |
CN114462376A (zh) | 基于rpa和ai的庭审笔录生成方法、装置、设备及介质 | |
JP2005196020A (ja) | 音声処理装置と方法並びにプログラム | |
JP2018132623A (ja) | 音声対話装置 | |
CN113077536B (zh) | 一种基于bert模型的嘴部动作驱动模型训练方法及组件 | |
JP2015036826A (ja) | コミュニケーション処理装置、コミュニケーション処理方法、及び、コミュニケーション処理プログラム | |
CN113223487B (zh) | 一种信息识别方法及装置、电子设备和存储介质 | |
JP6389348B1 (ja) | 音声データ最適化システム | |
US20240029712A1 (en) | Speech recognition using cadence patterns | |
JP6386690B1 (ja) | 音声データ最適化システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |