CN111951832B

CN111951832B - 一种语音分析用户对话情绪的方法及装置

Info

Publication number: CN111951832B
Application number: CN202010857917.9A
Authority: CN
Inventors: 李旭滨; 范红亮
Original assignee: Shanghai Maosheng Intelligent Technology Co ltd
Current assignee: Shanghai Maosheng Intelligent Technology Co ltd
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2023-01-13
Anticipated expiration: 2040-08-24
Also published as: CN111951832A

Abstract

本申请实施例提供的一种语音分析用户对话情绪的方法及装置，该方法通过抽取与用户语音数据相对应的若干真实语音部分；对每一真实语音部分进行切割处理，以获取若干短时语音片段；根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态；将相邻且相同的若干短时情绪状态合并为第一稳定情绪状态，其中，一第一稳定情绪状态与一真实语音部分相对应，根据若干第一稳定情绪状态获取第二稳定情绪状态；通过本申请，解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及具有滞后性和不确定性的问题，实现了在用户说话的同时，直接分析用户的语音信息，可以实时地获取说话人的情绪的技术效果。

Description

一种语音分析用户对话情绪的方法及装置

技术领域

本申请涉及人机交互领域，特别是涉及一种语音分析用户对话情绪的方法及装置。

背景技术

目前在智能终端进行人机对话的情况下，智能终端可以将获取到的用户语音数据转换为文本数据，然后通过该文本数据获取用户情绪。具体地，智能终端可以通过语音识别系统将用户语音数据转换为文本数据，然后将该文本数据发送到语言理解系统，以获取与用户语音数据相对应的语义理解，然后智能终端根据该语义理解感知获取用户情绪。

相关技术中，感知用户情绪比较依赖于语音识别系统识别文本的准确性，若文本识别发出错误，那么也会直接导致智能终端获取错误的用户情绪，从而影响用户的人机对话体验；且语音识别系统也只能在用户说完一句话之后，才能将用户语音数据进行转换为文本数据，然后再获取与用户语音数据相对应的语义理解，从而具有严重的滞后性；且在智能终端与用户进行人机对话的情况下，用户可以使用不同的情绪表达出相同的用户语音数据，从而会使智能终端获取到错误的用户情绪，具有严重的不确定性。

目前针对相关技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题，尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种语音分析用户对话情绪的方法及装置，以至少解决相关技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及具有滞后性和不确定性的问题。

第一方面，本发明提供了一种语音分析用户对话情绪的方法，包括：

获取用户语音数据，并抽取与所述用户语音数据相对应的若干真实语音部分，其中，若干所述真实语音部分均为非静音语音数据；

对每一所述真实语音部分进行切割处理，以获取若干短时语音片段，其中，每一所述真实语音部分包括至少一所述短时语音片段；

根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态，其中，一所述短时语音片段与一所述短时情绪状态相对应；

将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态，其中，一所述第一稳定情绪状态与一所述真实语音部分相对应；

判断若干所述第一稳定情绪状态是否相同；

在若干所述第一稳定情绪状态相同的情况下，将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态，其中，所述用户语音数据与一所述第二稳定情绪相对应。

进一步地，在判断若干所述第一稳定情绪状态是否相同之后，还包括：

在若干所述第一稳定情绪状态不相同的情况下，将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态，其中，所述用户语音数据与若干所述第二稳定情绪相对应。

进一步地，在根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态之前，所述方法还包括：

获取带有情绪特征标签的若干训练语音数据，其中，所述情绪特征标签包括正面情绪特征、负面情绪特征；

根据若干所述训练语音数据，训练并构建情绪识别模型。

进一步地，在若干所述第一稳定情绪状态相同的情况下，将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态之后，所述方法还包括：

对所述用户语音数据进行语音识别处理，以获取与所述用户语音数据相对应的文本数据；

生成与所述文本数据相对应的应答文本数据；

获取与所述第二稳定情绪状态相对应的应答情绪状态；

生成与所述应答文本数据以及所述应答情绪状态相对应的应答语音数据。

进一步地，将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态包括：

在若干所述短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干所述第一短时情绪状态之间存在不相邻的若干第二短时情绪状态的情况下，移除不相邻的若干所述第二短时情绪状态；

将相邻且相同的若干所述第一短时情绪状态合并为若干所述第一稳定情绪状态。

进一步地，将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态还包括：

在若干所述短时情绪状态包括若干相邻且相同的第一短时情绪状态且若干事实第一短时情绪状态之间存在不相邻的若干第二短时情绪状态以及不相邻的若干所述第一短时情绪状态的情况下，移除不相邻的若干所述第一短时情绪状态以及不相邻的若干所述第二短时情绪状态；

第二方面，本发明提供了一种语音分析用户对话情绪的装置，包括：

抽取模块，用于获取用户语音数据，并抽取与所述用户语音数据相对应的若干真实语音部分，其中，若干所述真实语音部分为非静音语音部分；

切割模块，用于对每一所述真实语音部分进行切割处理，以获取若干短时语音片段，其中，每一所述真实语音部分包括至少一所述短时语音片段；

解码模块，用于根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态，其中，一所述短时语音片段与一所述短时情绪状态相对应；

合并模块，用于将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态，其中，一所述第一稳定情绪状态与一所述真实语音部分相对应，且在若干所述第一稳定情绪状态相同的情况下，将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态，其中，所述用户语音数据与一所述第二稳定情绪相对应；

判断模块，用于判断若干所述第一稳定情绪状态是否相同。

进一步地，所述合并模块还用于在若干所述第一稳定情绪状态不相同的情况下，将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态，其中，所述用户语音数据与若干所述第二稳定情绪相对应。

进一步地，还包括；

第一获取模块，用于获取带有情绪特征标签的若干训练语音数据，其中，所述情绪特征标签包括正面情绪特征、负面情绪特征；

构建模块，用于根据若干所述训练语音数据，训练并构建所述情绪识别模型。

进一步地，还包括：

第二获取模块，用于获取所述用户语音数据；

语音识别模块，用于对所述用户语音数据进行语音识别处理，以获取与所述用户语音数据相对应的文本数据；

文本生成模块，用于生成与所述文本数据相对应的应答文本数据；

第三获取模块，用于获取与所述第二稳定情绪状态相对应的应答情绪状态；

语音生成模块，用于生成与所述应答文本数据以及所述应答情绪状态相对应的应答语音数据。

进一步地，还包括：

移除模块，用于在若干所述短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干第一短时情绪状态之间存在若干不相邻的第二短时情绪状态的情况下，移除不相邻的若干所述第二短时情绪状态；

所述合并模块还用于将相邻且相同的若干所述第一短时情绪状态合并为若干第一稳定情绪状态。

第三方面，本发明还提供了一种计算机设备，包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的语音分析用户对话情绪的方法。

第四方面，本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上第一方面所述的语音分析用户对话情绪的方法。

相比于相关技术，本申请实施例提供的一种语音分析用户对话情绪的方法及装置，通过获取用户语音数据，并抽取与用户语音数据相对应的若干真实语音部分，其中，若干真实语音部分均为非静音语音数据；对每一真实语音部分进行切割处理，以获取若干短时语音片段，其中，每一真实语音部分包括至少一短时语音片段；根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态，其中，一短时语音片段与一短时情绪状态相对应；将相邻且相同的若干短时情绪状态合并为第一稳定情绪状态，其中，一第一稳定情绪状态与一真实语音部分相对应；判断第一稳定情绪状态是否相同；在若干第一稳定情绪状态相同的情况下，将若干第一稳定情绪状态合并生成一第二稳定情绪状态，其中，用户语音数据与一第二稳定情绪相对应，解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题，实现了在用户说话的同时，直接分析用户的语音信息，可以实时地获取说话人的情绪的技术效果。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图一；

图2是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图二；

图3是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图三；

图4是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图四；

图5是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图五；

图6是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图一；

图7是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图二；

图8是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图三；

图9是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图四；

图10是根据本发明实施例的一种语音分析用户对话情绪的方法的应用场景图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行描述和说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。基于本申请提供的实施例，本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其他类似情景。此外，还可以理解的是，虽然这种开发过程中所作出的努力可能是复杂并且冗长的，然而对于与本申请公开的内容相关的本领域的普通技术人员而言，在本申请揭露的技术内容的基础上进行的一些设计，制造或者生产等变更只是常规的技术手段，不应当理解为本申请公开的内容不充分。

在本申请中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域普通技术人员显式地和隐式地理解的是，本申请所描述的实施例在不冲突的情况下，可以与其它实施例相结合。

除非另作定义，本申请所涉及的技术术语或者科学术语应当为本申请所属技术领域内具有一般技能的人士所理解的通常意义。本申请所涉及的“一”、“一个”、“一种”、“该”等类似词语并不表示数量限制，可表示单数或复数。本申请所涉及的术语“包括”、“包含”、“具有”以及它们任何变形，意图在于覆盖不排他的包含；例如包含了一系列步骤或模块(单元)的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可以还包括没有列出的步骤或单元，或可以还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。本申请所涉及的“连接”、“相连”、“耦接”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电气的连接，不管是直接的还是间接的。本申请所涉及的“多个”是指两个或两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，“A和/或B”可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。本申请所涉及的术语“第一”、“第二”、“第三”等仅仅是区别类似的对象，不代表针对对象的特定排序。

本发明的一种语音分析用户对话情绪的方法及装置，可应用于人机交互中，能够在获取用户语音数据的情况下，实时输出与用户语音数据相对应的用户情绪，然后根据用户情绪生成相对应的应答情绪，从而解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题，实现了在用户说话的同时，直接分析用户的语音信息，以实时地获取说话人的情绪的技术效果。

图1是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图一，请参见图1，该方法包括如下步骤：

步骤S102，获取用户语音数据，并抽取与用户语音数据相对应的若干真实语音部分，其中，若干真实语音部分均为非静音语音数据；

步骤S104，对每一真实语音部分进行切割处理，以获取若干短时语音片段，其中，每一真实语音部分包括至少一短时语音片段；

步骤S106，根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态，其中，一短时语音片段与一短时情绪状态相对应；

步骤S108，将相邻且相同的若干短时情绪状态合并为第一稳定情绪状态，其中，一第一稳定情绪状态与一真实语音部分相对应；

步骤S110，判断若干第一稳定情绪状态是否相同，在若干第一稳定情绪状态相同的情况下执行步骤S112，在若干第一稳定情绪状态不相同的情况下执行步骤S114；

步骤S112，在若干第一稳定情绪状态相同的情况下，将若干第一稳定情绪状态合并生成一第二稳定情绪状态，其中，用户语音数据与一第二稳定情绪相对应；

步骤S114，在若干第一稳定情绪状态不相同的情况下，将相邻且相同的第一稳定情绪状态合并生成若干第二稳定情绪状态，其中，用户语音数据与若干第二稳定情绪相对应。

其中，在获取用户语音数据的情况下，若检测到静音语音数据，则将静音语音数据进行剔除，以获取非静音语音数据，然后将该非静音语音数据分割为若干真实语音部分，且将若干真实语音部分切割为若干短时语音片段。

例如，在用户语音数据为“我今天···看到了张三”的情况下，可以将中间的静音语音数据进行移除，仅获取非静音语音数据，也即仅获取“我今天”、“看到了张三”。其中，“···”用于指示静音语音数据。

其中，可以根据实际需求，将若干真实语音部分切割为时长相同的若干短时语音数据，也可以将若干真实语音部分切割为时长不同的若干短时语音数据，以更为精准的获取用户情绪。

在一些实施例中，在步骤S106中，可以将一短时语音片段解码为一短时情绪状态，然后将该短时情绪状态与相邻且相同的短时情绪状态进行合并，以形成一稳定情绪状态。

在一些实施例中，在步骤S106中，可以将一时长较长的短时语音片段解码为若干短时子情绪状态，然后将相同的若干短时子情绪状态合并为一短时情绪状态，以更为精准地获取用户情绪。

例如，在将一时长较长的短时语音片段解码为3个相同的短时子情绪状态的情况下，可以将3个相同的短时子情绪状态合并为一短时情绪状态。

在一些实施例中，在步骤S108中，一真实语音部分可以与一第一稳定状态相对应。

例如，在将一真实语音部分切割为10个短时语音片段的情况下，将10个短时语音片段解码为10个短时情绪状态，若该10个短时情绪状态均相同，则将该10个短时语音情绪状态合并为第一稳定情绪状态，也即该真实语音部分与该第一稳定情绪状态相对应。

在一些实施例中，在步骤S108中，一真实语音部分可以对应于若干第一稳定情绪状态，以精准地获取用户情绪。具体地，在真实语音部分的时长较长的情况下，用户可以以多种情绪表达该真实语音部分，所以该真实语音部分也就对应于若干第一稳定情绪状态。

例如，在将一真实语音部分切割为10个短时语音片段的情况下，将10个短时语音片段解码为10个短时情绪状态，且前5个短时情绪状态均相同，后5个短时情绪状态均相同且与前5个短时情绪状态均不同，此时则将前5个短时情绪状态合并为一第一稳定情绪状态，将后5个短时情绪状态合并为另一第一稳定情绪状态，也即一真实语音部分与两个第一稳定情绪状态相对应，从而精准的获取用户情绪。

在一些实施例中，在步骤S112中，若干第一稳定情绪状态均相同，可以将该若干第一稳定情绪状态合并为一第二稳定情绪状态。

例如，在根据用户语音数据获取3段真实语音部分的情况下，获取与该3段真实语音部分相对应的3个第一稳定情绪状态，其中，一真实语音部分与一第一稳定情绪状态相对应，若这3个第一稳定情绪状态均相同，则把该3个稳定情绪状态合并为一第二稳定情绪状态，也即用户语音数据与一第二稳定情绪状态相对应。

在一些实施例中，在步骤S114中，若干第一稳定情绪状态不相同，即若干第一稳定情绪状态包括相邻且相同的若干第三稳定情绪状态以及相邻且相同的若干第四稳定情绪状态，将相邻且相同的若干第三稳定情绪状态合并为一第二稳定情绪状态，将相邻且相同的若干第四稳定情绪状态合并为另一第二稳定情绪状态，也即用户语音数据与一第二稳定情绪状态以及另一第二稳定情绪状态相对应，从而精准地获取用户情绪。

例如，在根据用户语音数据获取4段真实语音部分的情况下，根据4段真实语音部分获取4个第一稳定情绪状态，若4个第一稳定情绪状态包括2个相邻且相同的第三稳定情绪状态和2个相邻且相同的第四稳定情绪状态，可以将2个相邻且相同的第三稳定情绪状态合并为一第二稳定情绪状态，将2个相邻且相同的第四稳定情绪状态合并为另一第二稳定情绪状态，也即用户语音数据分别与一第二稳定情绪状态和另一第二稳定情绪状态相对应，从而精准地获取用户情绪。

通过步骤S102至步骤S114，解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题，实现了在用户说话的同时分析用户语音数据，实时获取用户情绪的技术效果。

图2是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图二，请参见图2，在根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态之前，该方法还包括如下步骤：

步骤S202，获取带有情绪特征标签的若干训练语音数据，其中，情绪特征标签包括正面情绪特征、负面情绪特征；

步骤S204，根据若干训练语音数据，训练并构建情绪识别模型。

其中，正面情绪特征标签可以包括开心情绪特征标签、快乐情绪特征标签等，负面特征标签可以包括生气情绪特征标签、悲伤情绪特征标签等。

其中，情绪特征标签还可以包括中性情绪特征标签，如平淡情绪特征标签、害羞情绪特征标签等。

其中，情绪识别模型用于将用户语音数据实时转换为与用户语音数据相对应的情绪状态。例如，在情绪识别模型接收到用户语音数据为“今天天气真好啊！”的情况下，情绪识别模型可以实时根据用户语音数据识别与用户语音数据相对应的情绪状态，即生成“开心”的情绪状态。

在一些实施例中，在构建情绪识别模型的情况下，还可以对情绪识别模型进行动态更新。具体地，可以增加情绪识别模型所能识别的情绪特征或减少情绪识别模型所能识别的情绪特征。

例如，在情绪识别模型不能识别“纠结”的情绪状态的情况下，此时可以获取若干带有“纠结”情绪特征标签的若干训练语音数据，并根据该若干训练语音数据训练情绪识别模型，以使情绪识别模型能够识别“纠结”的情绪状态。

通过步骤S202至步骤S204，解决了现有技术中不能实时根据用户语音数据获取用户情绪的问题。

图3是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图三，请参见图3，在若干第一稳定情绪状态相同的情况下，将若干第一稳定情绪状态合并生成一第二稳定情绪状态；或在若干第一稳定情绪状态不相同的情况下，将相邻且相同的第一稳定情绪状态合并生成若干第二稳定情绪状态之后，该方法包括如下步骤：

步骤S302，对用户语音数据进行语音识别处理，以获取与用户语音数据相对应的文本数据；

步骤S304，生成与文本数据相对应的应答文本数据；

步骤S306，获取与第二稳定情绪状态相对应的应答情绪状态；

步骤S308，生成与应答文本数据以及应答情绪状态相对应的应答语音数据。

在一些实施例中，在步骤S302和步骤S304中，可以通过语音识别引擎将用户语音数据转换为文本数据，然后对该文本数据进行语义识别，获取与用户数据相对应的用户意图，然后根据用户意图生成应答文本数据，从而获取与用户意图相对应的应答文本数据，以提升用户的人机交互体验，

在一些实施例中，可以根据实际场景选择与第二稳定情绪状态相对应的应答情绪状态。其中，应答情绪状态为正面情绪状态、负面情绪状态、中性情绪状态中的至少一种。例如，在第二稳定情绪状态为正面情绪状态的情况下，应答情绪状态可以是正面情绪状态、中性情绪状态中的至少一种；在第二稳定情绪状态为负面情绪状态的情况下，应答情绪状态可以是正面情绪状态、中性情绪状态、负面情绪状态中的至少一种；在第二稳定情绪状态为中性情绪状态的情况下，应答情绪状态可以是正面情绪状态、中性情绪状态中的至少一种。

在一些实施例中，在步骤S306中，在第二稳定情绪状态为单一情绪状态的情况下，应答情绪状态可以为单一情绪状态。

例如，在第二稳定情绪状态仅表现为“开心”的情绪状态的情况下，此时可以将“开心”的情绪状态作为应答情绪状态，以迎合用户情绪。

在一些实施例中，在步骤S306中，在第二稳定情绪状态为单一情绪状态的情况下，应答情绪状态可以为若干不同的情绪状态，以提高用户的人机交互体验。

例如，在用户语音数据为“今天人太多了，我没抢到回家的车票”的情况下，若情绪识别模型识别到用户情绪状态仅为“生气”的情绪状态，此时可以获取两种情绪状态作为应答情绪状态，也即应答情绪状态为“生气”的情绪状态和“开心”的情绪状态，然后生成与两种情绪状态相对应的应答语音数据；然后根据“生气”的情绪状态生成第一应答子语音数据“是呀，今天买票的人太多了”，根据“开心”的情绪状态生成第二应答子语音数据“那我们明天再试试吧，说不定能买到车票呢”；最后根据第一应答子语音数据和第二应答子语音数据生成应答语音数据“是呀，今天买票的人太多了，那我们明天再试试吧，说不定能买到车票呢”，从而将用户引导向正面的情绪，提高用户的人机交互体验。

在一些实施例中，在步骤S306中，在第二稳定情绪状态为若干不同的情绪状态的情况下，应答情绪状态可以为单一情绪状态。

例如，在用户语音数据为“我喜欢喝可乐，但妈妈不让我喝可乐”的情况下，此时情绪识别模型识别到与用户语音数据相对应的第二稳定情绪状态包括两种情绪状态，分别为与用户语音数据“我喜欢喝可乐”相对应的“开心”的情绪状态、与用户语音数据“但妈妈不让我喝可乐”相对应的“失落”的情绪状态，此时应答情绪状态可以只包括“开心”的情绪状态，然后生成与“开心”的情绪状态相对应的应答语音数据，即“那我们喝点其他饮料吧”，将用户引导向正面的情绪状态，提高用户的人机交互体验。

在一些实施例中，在步骤S306中，在第二稳定情绪状态为若干不同的情绪状态的情况下，此时应答情绪状态可以为若干不同的情绪状态。

例如，在用户语音数据为“我喜欢c国，但是不喜欢a国”的情况下，此时获取与用户语音数据“我喜欢c国”相对应的“开心”的情绪状态、与用户语音数据“但是不喜欢a国”相对应的“生气”的情绪状态，此时应答语音状态也可以包括“开心”的情绪状态、“生气”的情绪状态以迎合用户情绪，此时可以根据应答情绪状态生成相对应的应答语音数据“我喜欢c国，不喜欢a国”。

在一些实施例中，在获取到应答文本数据和应答情绪状态的情况下，根据应答文本数据和应答情绪状态生成应答语音数据，以提高用户的人机交互体验。

例如，在用户语音数据为“我喜欢小明，但不喜欢小红”的情况下，此时将该用户语音数据转换为文本数据，并根据该文本数据获取用户意图，即“喜欢小明，不喜欢小红”，并获用户语音数据中的情绪，即用户在前半段提到小明的情况下，为“开心”的情绪状态，在后半段提到小红的情况下，为“生气”的情绪状态，此时可以根据用户意图以及用户情绪生成应答语音数据，此时应答语音数据可以为“你为什么喜欢小明呀”，从而将用户引导向正面情绪，舍弃负面情绪，进而提高了人机交互体验。

通过步骤S302至步骤S308，根据用户意图和用户情绪生成与用户语音数据相对应的应答语音数据，提高了用户的人机交互体验。

图4是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图四，请参见图4，将相邻且相同的若干短时情绪状态合并为若干第一稳定情绪状态包括：

步骤S402，在若干短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干第一短时情绪状态之间存在不相邻的若干第二短时情绪状态的情况下，移除若干不相邻的第二短时情绪状态；

步骤S404，将相邻且相同的若干第一短时情绪状态合并为若干第一稳定情绪状态。

例如，在若干短时情绪状态分别为“111121112111”的情况下，其中，“1”用于指示第一短时情绪状态、“2”用于指示第二短时情绪状态，在若干第一短时情绪状态之间存在若干不相邻的两个第二短时情绪状态，此时移除两个第二短时情绪状态，并将剩余的若干相邻且相同的若干短时情绪状态合并为1个第一稳定情绪状态。

通过步骤S402至步骤S404，在根据用户语音数据实时识别用户语音情绪的情况下，提高了识别用户语音情绪的准确率。

图5是根据本发明实施例的一种语音分析用户对话情绪的方法的流程图五，请参见图5，将相邻且相同的若干短时情绪状态合并为若干第一稳定情绪状态还包括：

步骤S502，在若干短时情绪状态包括若干相邻且相同的第一短时情绪状态且若干第一短时情绪状态之间存在不相邻的若干第二短时情绪状态以及不相邻的若干第一短时情绪状态的情况下，移除不相邻的若干第一短时情绪状态以及不相邻的若干第二短时情绪状态；

步骤S504，将相邻且相同的若干第一短时情绪状态合并为若干第一稳定情绪状态。

例如，在若干短时情绪状态分别为“111121111212111”的情况下，其中，“1”用于指示第一短时情绪状态、“2”用于指示第二短时情绪状态，此时移除若干相邻且相同的若干第一短时情绪状态中的不相邻的一第一短时情绪状态以及两个不相邻的第二短时情绪状态，然后将剩下的若干第一短时情绪状态合并为1个第一稳定情绪状态。

通过步骤S502至步骤S504，在根据用户语音数据实时识别用户语音情绪的情况下，进一步提高了识别用户语音情绪的准确率。

对应于上述一种语音分析用户对话情绪的方法，本发明还提供了一种语音分析用户对话情绪的装置，用于实现上述实施例以及优选实施例，已经进行过说明的不在进行赘述。

图6是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图一，请参见图6，该装置600包括：

抽取模块601，用于抽取与用户语音数据相对应的若干真实语音部分，其中，若干真实语音部分为非静音语音部分；

切割模块602，与抽取模块601连接，用于对每一真实语音部分进行切割处理，以获取若干短时语音片段，其中，每一真实语音部分包括至少一短时语音片段；

解码模块603，与切割模块602连接，用于根据情绪识别模型将若干短时语音片段解码为若干短时情绪状态，其中，一短时语音片段与一短时情绪状态相对应；

合并模块604，与解码模块603连接，用于将相邻且相同的若干短时情绪状态合并为第一稳定情绪状态，其中，一第一稳定情绪状态与一真实语音部分相对应，以及用于在若干第一稳定情绪状态相同的情况下，将若干第一稳定情绪状态合并生成一第二稳定情绪状态，其中，用户语音数据与一第二稳定情绪相对应；或用于在若干第一稳定情绪状态不相同的情况下，将相邻且相同的第一稳定情绪状态合并生成若干第二稳定情绪状态，其中，用户语音数据与若干第二稳定情绪相对应。

判断模块605，与合并模块604连接，用于判断第一稳定情绪状态是否相同。

通过抽取模块601抽取用户语音数据中的若干真实语音部分，切割模块602将每一真实语音部分切割为若干短时语音片段，解码模块603将若干短时语音片段解码为若干短时情绪状态，合并模块604将若干短时情绪状态合并为若干第一稳定情绪状态，判断模块605判断若干第一稳定情绪状态是否相同，在若干第一稳定情绪状态相同的情况下，合并模块604将若干第一稳定情绪状态合并为第二稳定情绪状态；在若干第一稳定情绪状态不同的情况下，合并模块604将相邻且相同的若干第一稳定情绪状态合并为若干第二稳定情绪状态。解决了在将用户语音数据转换为文本数据而获取用户情绪的情况下，会获取错误的用户情绪以及获取用户情绪具有滞后性和不确定性的问题，实现了在用户说话的同时，直接分析用户的语音信息，可以实时地获取说话人的情绪的技术效果。

图7是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图二，请参见图7，还包括：

第一获取模块606，用于获取带有情绪特征标签的若干训练语音数据，其中，情绪特征标签包括正面情绪特征、负面情绪特征；

构建模块607，与第一获取模块606连接，用于根据若干训练语音数据，训练并构建情绪识别模型。

构建模块606还与解码模块603连接，解码模块603通过构建模块606构建的情绪识别模型，将若干短时语音片段解码为若干短时情绪状态。

通过第一获取模块606获取若干训练语音数据，构建模块607根据若干训练语音数据构建情绪识别模型，从而能够使解码模块603通过情绪识别模型实时获取与若干短时语音片段相对应的若干短时情绪状态，解决了现有技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下，不能实时获取用户情绪的问题。

图8是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图三，请参见图8，还包括：

第二获取模块608，与抽取模块601连接，用于获取用户语音数据，使抽取模块601能够抽取用户语音数据中的若干真实语音部分；

语音识别模块609，与第二获取模块608连接，用于对用户语音数据进行语音识别处理，以获取与用户语音数据相对应的文本数据；

文本生成模块610，与语音识别模块609连接，用于生成与文本数据相对应的应答文本数据；

第三获取模块611，与合并模块604连接，用于获取与第二稳定情绪状态相对应的应答情绪状态；

语音生成模块612，分别文本生成模块610、第三获取模块611连接，用于生成与应答文本数据以及应答情绪状态相对应的应答语音数据。

通过第二获取模块608获取用户语音数据，语音识别模块609获取与用户语音数据相对应的文本数据，文本生成模块610生成与文本数据相对应的应答文本数据，以及第三获取模块611获取与第二稳定情绪状态相对应的应答情绪状态，语音生成模块612根据应答文本数据以及应答情绪状态生成相对应的应答语音数据，从而能够更为及时的根据用户情绪生成应答语音数据，解决了现有技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下，具有滞后性的问题。

图9是根据本发明实施例的一种语音分析用户对话情绪的装置的结构框图四，请参见图9，还包括：

移除模块613，与合并模块604连接，用于在若干短时情绪状态包括相邻且相同的若干第一短时情绪状态且若干第一短时情绪状态之间存在若干不相邻的第二短时情绪状态的情况下，移除不相邻的若干第二短时情绪状态；

合并模块604还用于将相邻且相同的若干第一短时情绪状态合并为若干第一稳定情绪状态。

通过移除模块613将若干第一短时情绪状态之间所存在若干不相邻的第二短时情绪状态进行移除，合并模块604将相邻且相同的若干第一短时情绪状态合并为第一稳定情绪状态，解决了现有技术中在将用户语音数据转换为文本数据而获取用户情绪的情况下，具有不确定性的问题，从而能够准确的识别用户语音情绪。

例如，如图10所示，在获取用户语音数据的情况下，抽取用户语音数据中的两段真实语音部分，也即两段非静音语音片段，该两段真实语音部分可以分别为speech1和speech2，然后将speech1切割为3个短时语音片段分别为seg1、seg2以及seg3，将speech2切割为4个短时语音片段，分别为seg4、seg5、seg6以及seg7，然后获取与7个短时语音片段相对应的7个短时情绪状态，也即emo1、emo2、emo3、emo4、emo5、emo6以及emo7，其中，emo1与seg1相对应、emo2与seg2相对应、emo3与seg3相对应、emo4与seg4相对应、emo5与seg5相对应、emo6与seg6相对应以及emo7与seg7相对应，然后将相邻且相同的短时情绪状态合并为两个第一稳定情绪状态，两个第一稳定情绪状态分别为EMO1、EMO2，也即将emo1、emo2以及emo3合并为EMO1，将emo4、emo5、emo6以及emo7合并为EMO2，其中，EMO1与speech1相对应，EMO2与speech2相对应，然后在EMO1与EMO2相同的情况下，将EMO1、EMO2合并为一第二稳定情绪状态，也即用户语音数据所对应的情绪状态为第二稳定情绪状态；在EMO1和EMO2不同的情况下，也就不用将EMO1、EMO2进行合并，也即该用户语音数据所对应的用户情绪为EMO1、EMO2。

另外，本申请实施例的一种语音分析用户对话情绪的方法可以由计算机设备来实现。计算机设备的组件可以包括但不限于处理器以及存储有计算机程序指令的存储器。

在一些实施例中，处理器可以包括中央处理器(CPU)，或者特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者可以被配置成实施本申请实施例的一个或多个集成电路。

在一些实施例中，存储器可以包括用于数据或指令的大容量存储器。举例来说而非限制，存储器可包括硬盘驱动器(Hard Disk Drive，简称为HDD)、软盘驱动器、固态驱动器(Solid State Drive，简称为SSD)、闪存、光盘、磁光盘、磁带或通用串行总线(UniversalSerial Bus，简称为USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下，存储器可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器可在数据处理装置的内部或外部。在特定实施例中，存储器是非易失性(Non-Volatile)存储器。在特定实施例中，存储器包括只读存储器(Read-Only Memory，简称为ROM)和随机存取存储器(RandomAccess Memory，简称为RAM)。在合适的情况下，该ROM可以是掩模编程的ROM、可编程ROM(Programmable Read-Only Memory，简称为PROM)、可擦除PROM(ErasableProgrammable Read-Only Memory，简称为EPROM)、电可擦除PROM(Electrically ErasableProgrammable Read-Only Memory，简称为EEPROM)、电可改写ROM(ElectricallyAlterable Read-Only Memory，简称为EAROM)或闪存(FLASH)或者两个或更多个以上这些的组合。在合适的情况下，该RAM可以是静态随机存取存储器(Static Random-AccessMemory，简称为SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，简称为DRAM)，其中，DRAM可以是快速页模式动态随机存取存储器(Fast Page Mode DynamicRandomAccess Memory，简称为FPMDRAM)、扩展数据输出动态随机存取存储器(ExtendedDate Out Dynamic Random Access Memory，简称为EDODRAM)、同步动态随机存取内存(Synchronous Dynamic Random-Access Memory，简称SDRAM)等。

存储器可以用来存储或者缓存需要处理和/或通信使用的各种数据文件，以及处理器所执行的可能的计算机程序指令。

处理器通过读取并执行存储器中存储的计算机程序指令，以实现上述实施例中的任意一种语音分析用户对话情绪的的方法。

在其中一些实施例中，计算机设备还可包括通信接口和总线。其中，处理器、存储器、通信接口通过总线连接并完成相互间的通信。

通信接口用于实现本申请实施例中各模块、装置、单元和、或设备之间的通信。通信接口还可以实现与其他部件例如：外接设备、图像、数据采集设备、数据库、外部存储以及图像、数据处理工作站等之间进行数据通信。

总线包括硬件、软件或两者，将计算机设备的部件彼此耦接在一起。总线包括但不限于以下至少之一：数据总线(Data Bus)、地址总线(Address Bus)、控制总线(ControlBus)、扩展总线(Expansion Bus)、局部总线(Local Bus)。举例来说而非限制，总线可包括图形加速接口(Accelerated Graphics Port，简称为AGP)或其他图形总线、增强工业标准架构(Extended Industry Standard Architecture，简称为EISA)总线、前端总线(FrontSide Bus，简称为FSB)、超传输(Hyper Transport，简称为HT)互连、工业标准架构(Industry Standard Architecture，简称为ISA)总线、无线带宽(InfiniBand)互连、低引脚数(Low Pin Count，简称为LPC)总线、存储器总线、微信道架构(Micro ChannelArchitecture，简称为MCA)总线、外围组件互连(Peripheral Component Interconnect，简称为PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SerialAdvancedTechnologyAttachment，简称为SATA)总线、视频电子标准协会局部(Video ElectronicsStandardsAssociation Local Bus，简称为VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线可包括一个或多个总线。尽管本申请实施例描述和示出了特定的总线，但本申请考虑任何合适的总线或互连。

另外，结合上述实施例中的语音分析用户对话情绪的方法，本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令；该计算机程序指令被处理器执行时实现上述实施例中的任意一种语音分析用户对话情绪的方法。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因0此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种语音分析用户对话情绪的方法，其特征在于，包括：

判断若干所述第一稳定情绪状态是否相同；

2.根据权利要求1所述的方法，其特征在于，在判断若干所述第一稳定情绪状态是否相同之后，还包括：

3.根据权利要求1所述的方法，其特征在于，在根据情绪识别模型将若干所述短时语音片段解码为若干短时情绪状态之前，所述方法还包括：

根据若干所述训练语音数据，训练并构建情绪识别模型。

4.根据权利要求1所述的方法，其特征在于，在若干所述第一稳定情绪状态相同的情况下，将若干所述第一稳定情绪状态合并生成一第二稳定情绪状态之后，所述方法还包括：

生成与所述文本数据相对应的应答文本数据；

获取与所述第二稳定情绪状态相对应的应答情绪状态；

5.根据权利要求1所述的方法，其特征在于，将相邻且相同的若干所述短时情绪状态合并为第一稳定情绪状态包括：

6.一种语音分析用户对话情绪的装置，其特征在于，包括：

抽取模块，用于抽取与所述用户语音数据相对应的若干真实语音部分，其中，若干所述真实语音部分为非静音语音部分；

判断模块，用于判断若干所述第一稳定情绪状态是否相同。

7.根据权利要求6所述的装置，其特征在于，所述合并模块还用于在若干所述第一稳定情绪状态不相同的情况下，将相邻且相同的若干所述第一稳定情绪状态合并生成若干第二稳定情绪状态，其中，所述用户语音数据与若干所述第二稳定情绪相对应。

8.根据权利要求6所述的装置，其特征在于，还包括；

9.根据权利要求6所述的装置，其特征在于，还包括：

第二获取模块，用于获取所述用户语音数据；

10.根据权利要求6所述的装置，其特征在于，还包括：