CN116844521A - 语音输出方法及装置 - Google Patents
语音输出方法及装置 Download PDFInfo
- Publication number
- CN116844521A CN116844521A CN202310804734.4A CN202310804734A CN116844521A CN 116844521 A CN116844521 A CN 116844521A CN 202310804734 A CN202310804734 A CN 202310804734A CN 116844521 A CN116844521 A CN 116844521A
- Authority
- CN
- China
- Prior art keywords
- voice
- audio data
- information
- feature
- characteristic information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 238000012545 processing Methods 0.000 claims abstract description 55
- 230000003993 interaction Effects 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 32
- 230000008451 emotion Effects 0.000 claims description 120
- 230000008859 change Effects 0.000 claims description 42
- 238000012549 training Methods 0.000 claims description 25
- 230000004044 response Effects 0.000 claims description 22
- 230000002996 emotional effect Effects 0.000 claims description 8
- 206010027940 Mood altered Diseases 0.000 claims description 3
- 230000007510 mood change Effects 0.000 claims description 3
- 230000006854 communication Effects 0.000 description 11
- 230000036651 mood Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000002452 interceptive effect Effects 0.000 description 4
- 230000002194 synthesizing effect Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 206010044565 Tremor Diseases 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000003672 processing method Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 239000013589 supplement Substances 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L13/00—Speech synthesis; Text to speech systems
- G10L13/02—Methods for producing synthetic speech; Speech synthesisers
- G10L13/033—Voice editing, e.g. manipulating the voice of the synthesiser
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/04—Time compression or expansion
- G10L21/055—Time compression or expansion for synchronising with other signals, e.g. video signals
Abstract
本发明提供一种语音输出方法及装置,该方法包括:采集虚拟形象与用户语音交互过程中用户的第一音频数据;获得第一音频数据对应的第一语音特征信息;将第一语音特征信息输入音频处理模型,获得第二语音特征信息;引导虚拟形象基于第二语音特征信息输出第二音频数据。
Description
技术领域
本发明涉及计算机技术领域,特别是涉及一种语音输出方法及装置。
背景技术
随着计算机语音合成技术的不断进步,虚拟形象语音交互成为人们关注的热点。语音交互是通过虚拟形象播放应答语音的一种人机交互方式。目前的虚拟形象的语音交互过程中,虚拟形象的语音问答都是设定好的机械声音,无法表达出更深层次的含义,影响用户的交互体验。
发明内容
有鉴于此,本发明提供一种检测范围调整方法及装置。
一种语音输出方法,包括:
采集虚拟形象与用户语音交互过程中所述用户的第一音频数据;
获得所述第一音频数据对应的第一语音特征信息;
将所述第一语音特征信息输入音频处理模型,获得第二语音特征信息;
引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据。
上述的方法,所述获得所述第一音频数据对应的第一语音特征信息,包括:
分析所述第一音频数据,获得所述第一音频数据的第一语音特征,所述第一语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个;
基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息。
上述的方法,所述基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息,包括以下至少之一:
分析所述第一音频数据的情绪特征,获得所述第一音频数据对应的情绪变化信息和/或语调信息;
处理所述第一音频数据的音色特征,获得所述第一音频数据对应的音色信息;
分析所述第一音频数据的内容风格特征,获得所述第一音频数据所对应文本内容的读音信息。
上述的方法,所述第二语音特征信息对应第二语音特征,所述第二语音特征表征与所述第一语音特征相匹配的情绪特征、音色特征或者内容风格特征;
或者;
所述第二语音特征信息对应第二语音特征,所述第二语音特征表征所述用户关联的日常联系人的情绪特征、音色特征或者内容风格特征;
所述引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据,包括:引导所述虚拟形象基于所述第二语音特征信息模拟所述用户关联的日常联系人输出第二音频数据。
上述的方法,所述引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据,还包括:
基于所述第一音频数据对应的文本内容,获得所述第一音频数据对应的应答内容;
基于所述应答内容及所述第二语音特征信息,生成第二音频数据;
引导所述虚拟形象输出所述第二音频数据。
上述的方法,所述基于所述应答内容及所述第二语音特征信息,生成第二音频数据,包括:
生成所述应答内容对应的初始音频数据;
基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,获得第二音频数据,所述第二语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个。
上述的方法,所述基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,包括以下至少之一:
如果所述第二语音特征至少包括情绪特征,获得所述情绪特征对应的情绪类型以及语调类型,基于所述情绪类型及所述语调类型调整所述初始音频数据;
如果所述第二语音特征至少包括音色特征,获得所述音色特征对应的音色参数,基于所述音色参数调整所述初始音频数据;
如果所述第二语音特征至少包括内容风格特征,获得所述应答内容对应的内容读音,基于所述内容读音调整所述初始音频数据。
上述的方法,所述方法还包括:
采集所述用户与所述用户关联的日常联系人的语音交互数据,所述语音交互数据包括第三音频数据和第四音频数据,所述第三音频数据包括至少一个第一语句音频,所述第四音频数据包括至少一个第二语句音频,所述第一语句音频与第二语句音频关联;
获得所述第一语句音频对应的第三语音特征信息;
获得与所述第一语句音频关联的第二语句音频的第四语音特征信息,所述第三语音特征信息与所述第四语音特征信息互相匹配;
利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型。
上述的方法,所述第三语音特征信息至少包括情绪变化信息和/或语调信息;
所述利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型,包括:
基于所述第三语音特征信息,获得所述第一语句音频对应的情绪变化特征值;
在所述情绪变化特征值满足预设参数条件的情况下,利用所述第三语音特征信息及所述第四语音特征信息,训练所述音频处理模型;
其中,所述参数条件表征情绪变化特征值达到第一阈值。
一种语音输出装置,包括:
采集单元,用于采集虚拟形象与用户语音交互过程中所述用户的第一音频数据;
获取单元,用于获得所述第一音频数据对应的第一语音特征信息;
输入单元,用于将所述第一语音特征信息输入音频处理模型,获得第二语音特征信息;
输出单元,用于引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种语音输出方法的方法流程图;
图2为本发明实施例提供的一种语音输出方法的又一方法流程图;
图3为本发明实施例提供的一种语音输出方法的示意图;
图4为本发明实施例提供的一种语音输出方法的又一示意图;
图5为本发明实施例提供的一种语音输出装置的装置结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本申请中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本发明可用于众多通用或专用的计算装置环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器装置、包括以上任何装置或设备的分布式计算环境等等。
本发明实施例提供了一种语音输出方法,该方法可以应用在多种系统平台,其执行主体可以为计算机终端或各种移动设备的处理器,所述方法的方法流程图如图1所示,具体包括:
S101:采集虚拟形象与用户语音交互过程中用户的第一音频数据。
在本发明中,通过声音采集模块实时采集用户与虚拟形象的对话内容,获得用户的第一音频数据。
S102:获得第一音频数据对应的第一语音特征信息。
其中,第一语音特征信包括情绪变化信息、语调信息、音色信息以及第一音频数对应的文本内容的读音信息中的至少一个。
具体的,获得第一音频数据对应的第一语音特征信息的方式具体包括:
分析第一音频数据,获得第一音频数据的第一语音特征;基于第一语音特征,获得第一音频数据对应的第一语音特征信息。其中,第一语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个。情绪特征包括情绪变化特征和语调特征。
需要说明的是,分析第一音频数据,获得第一语音特征的方式具体可以包括以下方式:
(1)将第一音频数据输入情绪识别模型,获得第一音频数据对应的情绪特征。
(2)对第一音频数据进行音色捕捉,获得目标的音色特征。
(3)将第一音频数据输入语音识别模型,获得第一音频数据对应的内容风格特征。
进一步地,基于第一语音特征,获得第一音频数据对应的第一语音特征信息的具体实施方式包括以下之一:
实施方式一:分析第一音频数据的情绪特征,获得第一音频数据对应的情绪变化信息和/或语调信息。
实施方式二:处理第一音频数据的音色特征,获得第一音频数据对应的音色信息。
实施方式三:分析第一音频数据的内容风格特征,获得第一音频数据所对应文本内容的读音信息。
情绪变化信息包含用户输出第一音频数据时的情绪变化,及其对应的情绪变化值。例如:情绪变化信息表征用户一直处于开心状态,则该用户的情绪变化为保持开心状态,情绪变化值为0;情绪变化信息表征用户从开心变成生气,则用户情绪变化为开心到生气,情绪变化值为负值。用户情绪变化特征值的计算方式为:ΔP=[ΔP1,ΔP2,ΔP3…,ΔP>0代表着用户情绪由坏变好,ΔP<0代表着用户情绪由好变坏。
需要说明的是,如果用户的当前的情绪表示开心,则用户当前情绪的情绪特征值为正值,如果用户当前的情绪表示生气,则用户当前情绪的情绪特征值为负值。情绪特征值p可从生气到开心设置p∈[-10,10],0为正常情绪值,情绪特征值p的绝对值大小代表着情绪强度,例如-10代表极生气,10代表极开心。
语调信息包含用户说话的语调类型,语调类型可以包括柔和、低沉、疑问、反问、开朗、委屈以及颤抖等。语调可以代表说话人的情绪状态,柔和的声音表示对方的心情很好;声音颤抖表示对方很激动或紧张;声音低沉表示对方正处于一种同情的状态;语调阴阳怪气通常是在冷嘲热讽;用鼻音发出哼声则代表傲慢、不屑、恼怒通过语调类型可以初步体现用户的情绪状况。
音色信息包含音色类型,例如低沉的、细致的以及粗犷的音色等。通过音色信息可以反应用户的性别和年龄。
读音信息包含文本内容中每个词汇的拼音以及读法。根据读音信息可以反应用户对特殊词汇的读法习惯。例如,对于特殊词汇“APP”,一般用户的习惯按照音标/’aep/进行发音,但有些用户习惯将“APP”中的三个字母分开读,因此通过读音信息,确定用户对特殊词汇的读音习惯。
S103:将第一语音特征信息输入音频处理模型,获得第二语音特征信息。
其中,第二语音特征信包括情绪变化信息、语调信息、音色信息以及第一音频数对应的文本内容的读音信息中的至少一个。
需要说明的是,音频处理模型为神经网络模型,应用训练数据对音频处理模型进行训练,使得音频处理模型输出的第二语音特征信息与第一语音特征信息更加匹配。
S104:引导虚拟形象基于第二语音特征信息输出第二音频数据。
可以理解的是,通过第二语音特征信息合成第二音频数据,并引导虚拟形象输出第二音频数据。其中,可以利用语音合成模型基于第二语音特征信息对应的第二语音特征,合成音频数据。
本发明实施例提供的方法中,用户与虚拟形象在进行语音交互的过程中,采集用户说话的第一音频数据。获得第一音频数据对应的第一语音特征信息,将第一语音特征信息输入音频处理模型,由音频处理模型输出与第一语音特征信息相匹配的第二语音特征信息。基于第二语音特征信息合成第二音频数据,由虚拟形象输出第二音频数据。本发明通过识别用户的语音特征信息,确定用户与虚拟形象在沟通过程中用户的情绪、语调、音色以及特殊词汇的读音等表示用户说话特点的语音特征信息,由音频处理模型根据用户的说话特征匹配与用户说话特点相互匹配的虚拟形象语音特征信息,根据模型输出的语音特征信息,合成虚拟形象输出的音频数据,使得虚拟形象与用户进行语音沟通的过程中,语音输出过程更贴近真人的说话方式,进而提高用户的语音交互体验。
本发明实施例中,音频处理模型在根据第一语音特征信息输出第二语音特征信息的过程中,可以根据第一语音特征信息对应的第一语音特征,对第一语音特征进行特征匹配,输出对应的第二语音特征信息;也可以结合与用户频繁沟通的日常联系人的语音特征,输出对应的第二语音特征信息。
在一种实施方式中,第二语音特征信息对应第二语音特征,第二语音特征表征为与第一语音特征信息对应的第一语音特征相匹配的情绪特征、音色特征或内容风格特征。其中,音频处理模型在根据第一语音特征信息输出第二语音特征信息的过程中,音频处理模型基于第一语音特征信息对应的第一语音特征,确定与第一语音特征相匹配的第二语音特征,并输出第二语音特征对应的第二语音特征信息。
例如:第一语音特征为情绪特征,该情绪特征表征用户当前情绪为生气,则与该情绪特征匹配的第二语音特征可以是表示柔和的情绪特征、温柔的音色特征或者是与用户读音相同的内容风格特征。
其中,利用音频处理模型基于第一语音特征信息,匹配对应的第二语音特征信息,在音频处理模型训练过程中,根据训练数据学习用户的情绪、语调、音色以及读音等,对用户性格进行了解,使得在向音频处理模型输入第一语音特征之后能够结合用户性格匹配对应的语音特征。
在另一种实施方式中,第二语音特征信息对应第二语音特征,第二语音特征表征用户关联的日常联系人的情绪特征、音色特征或者内容风格特征。引导虚拟形象基于第二语音特征信息输出第二音频数据的过程具体为:引导虚拟形象基于所述第二语音特征信息模拟用户关联的日常联系人输出第二音频数据。其中,音频处理模型在根据第一语音特征信息输出第二语音特征信息的过程中,音频处理模型基于第一语音特征信息对应的第一语音特征,匹配日常联系人的语音特征,并输出对应的第二语音特征信息。
其中,如果需要第二语音特征表征用户关联的日常联系人的情绪特征、音色特征或者内容风格特征,则在对音频处理模型进行训练的过程,需要获取用户与日常联系人之间的语音交互数据对模型进行训练。
本发明实施例中,参考图2,音频处理模型的训练过程具体包括:
S201:采集用户与用户关联的日常联系人的语音交互数据,语音交互数据包括第三音频数据和第四音频数据,第三音频数据包括至少一个第一语句音频,第四音频数据包括至少一个第二语句音频,第一语句音频与第二语句音频关联。
可选的,在获得语音交互数据之前,需要向用户发送授权请求,以在通过用户的授权后,采集用户与日常联系人进行语音交互过程中的语音交互信息。
需要说明的是,在获得语音交互数据后,对语音交互数据进行音频分离,获得第三音频数据和第四音频数据。其中,第三音频数据为用户输出的音频数据,第四音频数据为日常联系人输出的音频数据。第二语句音频是日常联系人根据用户输出的第一语句音频对应的沟通内容做出回复的回复内容。
还需要说明的是,在采集语音交互数据的过程中,可以根据用户的授权信息采集用户选定的用户与至少一个日常联系人进行日常语音交互的的语音交互数据。
S202:获得第一语句音频对应的第三语音特征信息。
需要说明的是,第三语音特征信息包括情绪变化信息、语调信息、音色信息、文本内容以及读音信息中的至少一个。
S203:获得与第一语句音频关联的第二语句音频的第四语音特征信息。
其中,第三语音特征信息与第四语音特征信息互相匹配。
需要说明的是,第四语音特征信息包括情绪变化信息、语调信息、音色信息、文本内容以及读音信息中的至少一个。
S204:利用第三语音特征信息及第四语音特征信息,训练音频处理模型。
可以理解的是,将第三语音特征信息作为训练数据,第四语音特征信息作为训练目标对音频处理模型进行训练。其对应的训练过程为:将第三语音特征信息输入音频处理模型,获得音频处理模型输出的输出信息。应用第四语音特征信息对输出信息进行验证,获得音频处理模型的损失函数,并根据损失函数调整音频处理模型的模型参数,并重新训练音频处理模型,直至获得的损失函数达到收敛条件。
需要说明的是,第三音频数据中包含至少一个第一语句音频,从第三音频数据中选择符合条件的第一语句音频对应的第三语音特征信息作为训练数据对音频处理模型进行训练。
其中,第三语音特征信息至少包括情绪变化信息和/或语调信息;利用第三语音特征信息及第四语音特征信息,训练音频处理模型,具体可以包括:
基于第三语音特征信息,获得第一语句音频对应的情绪变化特征值;在情绪变化特征值满足预设参数条件的情况下,利用第三语音特征信息及第四语音特征信息,训练所述音频处理模型;其中,参数条件表征情绪变化特征值达到第一阈值。
本发明中,如果不需要虚拟形象输出的音频数据与用户关联的日常联系人相似,可以采集任意说话人与用户进行语音交互的语音交互数据对音频处理模型进行训练。参考图3,对音频处理模型进行训练的具体实施方式可以是:
获得用户与说话人的语音交互数据;对语音交互数据进行数据分离,获得用户的第三音频数据和说话人的第四音频数据。获取第三音频数据对应的情绪特征信息,第四音频数据对应的音色信息、语调信息、情绪特征信息和文本内容;基于第三音频数据对应的情绪特征信息,第四音频数据对应的音色信息、语调信息、情绪特征信息和文本内容训练音频处理模型。
在音频处理模型训练的过程中,可以以用户的情绪特征为监测目标,当发现用户情绪出现突变时,记录下此句话前后与用户进行对话的说话人的声纹信息、情绪特征信息、语调信息与谈话内容等。当用户与说话人完成对话后,根据双方的交互数据对模型进行训练,每一组音频数据具有相同的维度,即用户每一个情绪变化特征与说话人的音频数据一一对应。说话人语气语调包含了用户与说话人交流过程中的语气状态,结合用户的情绪特征可判断出,何种的语气语调可以让用户情绪更好;情绪特征值代表着用户与说话人交流过程中,说话人的情绪特征值,可结合语气语调一起判断对用户情绪特征值的影响;文字内容包含用户与说话人的交流内容,在用户情绪发生较大突变时,交流内容更具有参考价值,通过语义分析,理解让用户情绪发生突变的内容含义,可以让虚拟人与用户交互时避免生成使用户情绪变差的交流文字,保留可以让用户情绪变好的非信息类文字;虚拟人将带有用户情绪变化特征的交互数据补充到情绪生成模型;情绪生成模型中,虚拟人可自由设置音色、语气语调和文字。根据保存交互数据中用户情绪特征值较大的说话人音色、语气语调、情绪特征值、文字数据,从而提高对应声音音色、语气语调和文字的调用权重;经过交互数据的补充,不断地完善带有用户个人性格特点的情绪生成模型,加深虚拟人对用户性格的了解,提高虚拟人与用户之间的交流体验。
本发明实施例提供的方法中,在获得音频处理模型输出的第二语音特征信息后,引导虚拟形象基于第二语音特征信息输出第二音频数据的具体实施方式还包括:
基于所述第一音频数据对应的文本内容,获得第一音频数据对应的应答内容;基于应答内容及第二语音特征信息,生成第二音频数据;引导虚拟形象输出第二音频数据。
参考图4,本发明实施例中,通过ASR(语音识别模型)获得第一音频数据文本内容和第一语音特征信息,提取文本内容中的关键词,并根据该关键词从知识图库中查找与该文本内容对应的应答内容,将第一语音特征信息输入音频处理模型获得第二语音特征信息,应用TTS(语音合成模型)基于应答内容与第二语音特征信息合成第二音频数数据。即虚拟形象按照第二语音特征信息中包含的情绪特征变化信息、语调信息、音色信息以及读音信息等输出应答内容对应的音频数据。
具体的,生成第二音频数据的过程包括:生成应答内容对应的初始音频数据;基于第二语音特征信息对应的第二语音特征,调整初始音频数据,获得第二音频数据。其中,第二语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个。
需要说明的是,生成的应答内容对应的初始音频数据不带有情绪特征,在初始音频数据的基础上加入第二语音特征信息对应的第二语音特征,获得的第二音频数据具有人的情绪、音色、语调以及偏好的读音等。
其中,基于第二语音特征信息对应的第二语音特征,调整初始音频数据,包括以下至少之一:
如果所述第二语音特征至少包括情绪特征,获得情绪特征对应的情绪类型以及语调类型,基于情绪类型及所述语调类型调整初始音频数据。其中,如果第二语音特征信息中包含情绪变化信息和语调信息,表征该第二语音特征包含情绪特征,根据第二语音特征信息中的情绪变化信息和语调信息确定情绪特征对应的情绪类型以及语调类型。例如:如果情绪变化信息表征情绪变化值大于预设的阈值(例如大于5),则需要以开心的情绪与用于进行沟通,则调整初始音频数据中的情绪为开心,如果语调信息表示为开朗,则调整初始音频数据中的语调为开朗。
如果第二语音特征至少包括音色特征,获得音色特征对应的音色参数,基于音色参数调整所述初始音频数据。其中,如果第二语音特征信息中包含音色信息,表示第二语音也正包含音色特征,通过音色信息确定声音的低沉的程度、尖细的程度、稚嫩的程度以及成熟的程度等,以此获得参数,并利用音色参数调整初始音频数据中的音色。
如果第二语音特征至少包括内容风格特征,获得应答内容对应的内容读音,基于所述内容读音调整所述初始音频数据。其中,如果第二语音特征信息中包含读音信息,表示第二语音也正包含内容风格特征,通过读音信息,可以确定应答内容中每个词汇的内容读音,并根据内容读音调整初始音频数据。
基于上述实施例提供的方法,实现虚拟形象的语音输出过程可以为是:用户通过联系人进行语音互动交流;在获得用户许可后,捕捉用户交流过程中捕捉用户的说话习惯,包括用户提出的高频问题和关键词等并对说话习惯的高频问题进行记录;针对用户说话习惯、高频问题和关键字生成特定问答内容的语音;同时开启音色捕捉功能;用户音色捕捉许可后,获取用户指定的日常联系人的音色,通过对话等进行捕捉;运用自然语言处理和音色处理技术对收集的数据进行处理;将获取的音色与特定的问答内容语音结合生成特定的语音。
应用本发明实施例提供的方法,通过捕捉用户的说话习惯以及用户与日常联系人之间的说话习惯进行学习,虚拟形象根据特定语音进行语音输出,使得用户可以得到熟悉的声音和对话的陪伴。
上述各个实施例的具体实施过程及其衍生方式,均在本发明的保护范围之内。
与图1所述的方法相对应,本发明实施例还提供了一种语音输出装置,用于对图1中方法的具体实现,本发明实施例提供的语音输出装置可以应用计算机终端或各种移动设备中,其结构示意图如图5所示,具体包括:
采集单元501,用于采集虚拟形象与用户语音交互过程中所述用户的第一音频数据;
获取单元502,用于获得所述第一音频数据对应的第一语音特征信息;
输入单元503,用于将所述第一语音特征信息输入音频处理模型,获得第二语音特征信息;
输出单元504,用于引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据。
本发明实施例提供的装置中,用户与虚拟形象在进行语音交互的过程中,采集用户说话的第一音频数据。获得第一音频数据对应的第一语音特征信息,将第一语音特征信息输入音频处理模型,由音频处理模型输出与第一语音特征信息相匹配的第二语音特征信息。基于第二语音特征信息合成第二音频数据,由虚拟形象输出第二音频数据。本发明通过识别用户的语音特征信息,确定用户与虚拟形象在沟通过程中用户的情绪、语调、音色以及特殊词汇的读音等表示用户说话特点的语音特征信息,由音频处理模型根据用户的说话特征匹配与用户说话特点相互匹配的虚拟形象语音特征信息,根据模型输出的语音特征信息,合成虚拟形象输出的音频数据,使得虚拟形象与用户进行语音沟通的过程中,语音输出过程更贴近真人的说话方式,进而提高用户的语音交互体验。
本发明实施例提供的装置中,获取单元502获得所述第一音频数据对应的第一语音特征信息具体用于:
分析所述第一音频数据,获得所述第一音频数据的第一语音特征,所述第一语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个;
基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息。
其中,所述获取单元502基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息,包括以下至少之一:
分析所述第一音频数据的情绪特征,获得所述第一音频数据对应的情绪变化信息和/或语调信息;
处理所述第一音频数据的音色特征,获得所述第一音频数据对应的音色信息;
分析所述第一音频数据的内容风格特征,获得所述第一音频数据所对应文本内容的读音信息。
本发明实施例提供的装置中,所述第二语音特征信息对应第二语音特征,所述第二语音特征表征与所述第一语音特征相匹配的情绪特征、音色特征或者内容风格特征;
或者;
所述第二语音特征信息对应第二语音特征,所述第二语音特征表征所述用户关联的日常联系人的情绪特征、音色特征或者内容风格特征;
所述输出单元504引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据具体用于:引导所述虚拟形象基于所述第二语音特征信息模拟所述用户关联的日常联系人输出第二音频数据。
本发明实施例提供的装置中,所述输出单元504引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据还用于:
基于所述第一音频数据对应的文本内容,获得所述第一音频数据对应的应答内容;
基于所述应答内容及所述第二语音特征信息,生成第二音频数据;
引导所述虚拟形象输出所述第二音频数据。
本发明实施例提供的装置中,所述输出单元504基于所述应答内容及所述第二语音特征信息,生成第二音频数据,具体用于:
生成所述应答内容对应的初始音频数据;
基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,获得第二音频数据,所述第二语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个。
本发明实施例提供的装置中,所述输出单元504基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,包括以下至少之一:
如果所述第二语音特征至少包括情绪特征,获得所述情绪特征对应的情绪类型以及语调类型,基于所述情绪类型及所述语调类型调整所述初始音频数据;
如果所述第二语音特征至少包括音色特征,获得所述音色特征对应的音色参数,基于所述音色参数调整所述初始音频数据;
如果所述第二语音特征至少包括内容风格特征,获得所述应答内容对应的内容读音,基于所述内容读音调整所述初始音频数据。
本发明实施例提供的装置中,还包括:
训练单元,用于采集所述用户与所述用户关联的日常联系人的语音交互数据,所述语音交互数据包括第三音频数据和第四音频数据,所述第三音频数据包括至少一个第一语句音频,所述第四音频数据包括至少一个第二语句音频,所述第一语句音频与第二语句音频关联;获得所述第一语句音频对应的第三语音特征信息;获得与所述第一语句音频关联的第二语句音频的第四语音特征信息,所述第三语音特征信息与所述第四语音特征信息互相匹配;利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型。
本发明实施例提供的装置中,第三语音特征信息至少包括情绪变化信息和/或语调信息;
所述训练单元利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型,具体用于:
基于所述第三语音特征信息,获得所述第一语句音频对应的情绪变化特征值;
在所述情绪变化特征值满足预设参数条件的情况下,利用所述第三语音特征信息及所述第四语音特征信息,训练所述音频处理模型;
其中,所述参数条件表征情绪变化特征值达到第一阈值。
以上本发明实施例公开的语音输出装置中各个单元及子单元的具体工作过程,可参见本发明上述实施例公开的语音输出方法中的对应内容,这里不再进行赘述。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现。
为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种语音输出方法,包括:
采集虚拟形象与用户语音交互过程中所述用户的第一音频数据;
获得所述第一音频数据对应的第一语音特征信息;
将所述第一语音特征信息输入音频处理模型,获得第二语音特征信息;
引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据。
2.根据权利要求1所述的方法,所述获得所述第一音频数据对应的第一语音特征信息,包括:
分析所述第一音频数据,获得所述第一音频数据的第一语音特征,所述第一语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个;
基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息。
3.根据权利要求2所述的方法,所述基于所述第一语音特征,获得所述第一音频数据对应的第一语音特征信息,包括以下至少之一:
分析所述第一音频数据的情绪特征,获得所述第一音频数据对应的情绪变化信息和/或语调信息;
处理所述第一音频数据的音色特征,获得所述第一音频数据对应的音色信息;
分析所述第一音频数据的内容风格特征,获得所述第一音频数据所对应文本内容的读音信息。
4.根据权利要求1-3任一所述的方法,所述第二语音特征信息对应第二语音特征,所述第二语音特征表征与所述第一语音特征相匹配的情绪特征、音色特征或者内容风格特征;
或者;
所述第二语音特征信息对应第二语音特征,所述第二语音特征表征所述用户关联的日常联系人的情绪特征、音色特征或者内容风格特征;
所述引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据,包括:引导所述虚拟形象基于所述第二语音特征信息模拟所述用户关联的日常联系人输出第二音频数据。
5.根据权利要求2或3所述的方法,所述引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据,还包括:
基于所述第一音频数据对应的文本内容,获得所述第一音频数据对应的应答内容;
基于所述应答内容及所述第二语音特征信息,生成第二音频数据;
引导所述虚拟形象输出所述第二音频数据。
6.根据权利要求5所述的方法,所述基于所述应答内容及所述第二语音特征信息,生成第二音频数据,包括:
生成所述应答内容对应的初始音频数据;
基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,获得第二音频数据,所述第二语音特征包括情绪特征、音色特征以及内容风格特征中的至少一个。
7.根据权利要求6所述的方法,所述基于所述第二语音特征信息对应的第二语音特征,调整所述初始音频数据,包括以下至少之一:
如果所述第二语音特征至少包括情绪特征,获得所述情绪特征对应的情绪类型以及语调类型,基于所述情绪类型及所述语调类型调整所述初始音频数据;
如果所述第二语音特征至少包括音色特征,获得所述音色特征对应的音色参数,基于所述音色参数调整所述初始音频数据;
如果所述第二语音特征至少包括内容风格特征,获得所述应答内容对应的内容读音,基于所述内容读音调整所述初始音频数据。
8.根据权利要求1所述的方法,所述方法还包括:
采集所述用户与所述用户关联的日常联系人的语音交互数据,所述语音交互数据包括第三音频数据和第四音频数据,所述第三音频数据包括至少一个第一语句音频,所述第四音频数据包括至少一个第二语句音频,所述第一语句音频与第二语句音频关联;
获得所述第一语句音频对应的第三语音特征信息;
获得与所述第一语句音频关联的第二语句音频的第四语音特征信息,所述第三语音特征信息与所述第四语音特征信息互相匹配;
利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型。
9.根据权利要求8所述的方法,所述第三语音特征信息至少包括情绪变化信息和/或语调信息;
所述利用所述第三语音特征信息及第四语音特征信息,训练所述音频处理模型,包括:
基于所述第三语音特征信息,获得所述第一语句音频对应的情绪变化特征值;
在所述情绪变化特征值满足预设参数条件的情况下,利用所述第三语音特征信息及所述第四语音特征信息,训练所述音频处理模型;
其中,所述参数条件表征情绪变化特征值达到第一阈值。
10.一种语音输出装置,包括:
采集单元,用于采集虚拟形象与用户语音交互过程中所述用户的第一音频数据;
获取单元,用于获得所述第一音频数据对应的第一语音特征信息;
输入单元,用于将所述第一语音特征信息输入音频处理模型,获得第二语音特征信息;
输出单元,用于引导所述虚拟形象基于所述第二语音特征信息输出第二音频数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804734.4A CN116844521A (zh) | 2023-06-30 | 2023-06-30 | 语音输出方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310804734.4A CN116844521A (zh) | 2023-06-30 | 2023-06-30 | 语音输出方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116844521A true CN116844521A (zh) | 2023-10-03 |
Family
ID=88168426
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310804734.4A Pending CN116844521A (zh) | 2023-06-30 | 2023-06-30 | 语音输出方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116844521A (zh) |
-
2023
- 2023-06-30 CN CN202310804734.4A patent/CN116844521A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lavan et al. | Flexible voices: Identity perception from variable vocal signals | |
Ramakrishnan | Recognition of emotion from speech: A review | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
Aloufi et al. | Emotionless: Privacy-preserving speech analysis for voice assistants | |
Kim et al. | Automatic intelligibility assessment of dysarthric speech using phonologically-structured sparse linear model | |
Gaddy et al. | Digital voicing of silent speech | |
US11922946B2 (en) | Speech transcription from facial skin movements | |
Park et al. | Towards understanding speaker discrimination abilities in humans and machines for text-independent short utterances of different speech styles | |
An et al. | Disentangling style and speaker attributes for tts style transfer | |
Wu et al. | Exemplar-based emotive speech synthesis | |
Qadri et al. | A critical insight into multi-languages speech emotion databases | |
Stoll | Finding difficult speakers in automatic speaker recognition | |
Jreige et al. | VocaliD: Personalizing text-to-speech synthesis for individuals with severe speech impairment | |
Yu et al. | Antifake: Using adversarial audio to prevent unauthorized speech synthesis | |
Padmini et al. | Age-Based Automatic Voice Conversion Using Blood Relation for Voice Impaired. | |
WO2023012546A1 (en) | Deciphering of detected silent speech | |
CN116844521A (zh) | 语音输出方法及装置 | |
Srivastava | Speaker anonymization: representation, evaluation and formal guarantees | |
Matsumoto et al. | Speech-like emotional sound generation using wavenet | |
Chignoli | Speech components in phonetic characterisation of speakers: a study on complementarity and redundancy of conveyed information | |
Moore | " I'm Having Trouble Understanding You Right Now": A Multi-DimensionalEvaluation of the Intelligibility of Dysphonic Speech | |
Raitio | Voice source modelling techniques for statistical parametric speech synthesis | |
Lovely et al. | Rule-based lip-syncing algorithm for virtual character in voice chatbot | |
Székely | Expressive speech synthesis in human interaction | |
Khan et al. | Conversational AI for companionship |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |