CN113889149B

CN113889149B - 语音情感识别方法及装置

Info

Publication number: CN113889149B
Application number: CN202111205078.3A
Authority: CN
Inventors: 李建强; 宋长伟; 付光晖
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-10-15
Filing date: 2021-10-15
Publication date: 2023-08-29
Anticipated expiration: 2041-10-15
Also published as: CN113889149A

Abstract

本发明提供一种语音情感识别方法及装置，其中方法包括：获取原始语音集，原始语音集包括对话者语音和说话者语音；将原始语音集输入至语音情感识别模型，获得语音情感识别模型输出的说话者语音的识别结果；其中，语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于对话者语音对说话者语音的影响对说话者语音进行语音情感识别；识别标签是根据语音样本预先确定的，并与语音样本一一对应；语音样本包括对话者语音样本和说话者语音样本。本发明提供的语音情感识别方法，将对话者对说话者的情感影响和说话者自身情绪结合，对说话者语音的情感进行识别，提高了语音情感识别正确率。

Description

语音情感识别方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种语音情感识别方法及装置。

背景技术

现有技术中对语音情感识别通常是对单一语音片段进行语音情感识别。现有技术中的语音情感识别方法将单一的原始语音数据输入至语音识别模块，获得转换后的文字，将转换后的文字输入至文本特征提取模块，得到文本特征，将原始语音数据输入至语音特征提取模块得到语音特征，再将语音特征和文本特征对齐后输入分类模块，获得分类结果。

虽然现有技术对单一语音片段的语音特征和文本特征进行了融合，但没有考虑到在真实语境中，对话者的语音会对当前说话者的情感状态产生影响，现有技术中的语音情感识别方法中忽略了对话者语音，导致语音情感识别存在识别准确率低的问题。

发明内容

本发明提供一种语音情感识别方法及装置，用以解决现有技术中语音情感识别存在识别准确率低的缺陷，提高了语音情感识别的准确率。

第一方面，本发明提供一种语音情感识别方法，包括：获取原始语音集，所述原始语音集包括对话者语音和说话者语音；将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果；其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音样本包括对话者语音样本和说话者语音样本。

可选的，所述语音情感识别模型包括：特征提取模块、多模态特征融合模块、对话者影响力模块和分类模块；所述将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果，具体包括：将所述原始语音集输入至所述特征提取模块，获得所述特征提取模块输出的语音特征、文本特征、第一矩阵和第二矩阵；将所述语音特征和所述文本特征输入至所述多模态特征融合模块，获得所述多模态特征融合模块输出的融合特征；将所述融合特征、所述第一矩阵和所述第二矩阵输入至所述对话者影响力模块，获得所述对话者影响力模块输出的影响融合特征；将所述影响融合特征输入至分类模块，获得所述分类模块输出的识别结果；其中，所述第一矩阵用于分离所述对话者语音对所述说话者语音的影响；所述第二矩阵用于分离所述说话者语音的信息。

可选的，所述将所述融合特征、所述第一矩阵和所述第二矩阵输入至对话者影响力模块，获得影响融合特征，具体包括：基于所述融合特征和所述第一矩阵获得影响信息矩阵，所述影响信息矩阵用于表示所述对话者语音对所述说话者的影响；将所述影响信息矩阵与内容向量相加获得第二融合特征，所述内容向量是基于所述融合特征获得的；将所述第二融合特征与所述第二矩阵点乘，获得所述影响融合特征。

可选的，所述基于所述融合特征和所述第一矩阵获得影响信息矩阵，具体包括：将所述融合特征经过第一全连接层，获得查询矩阵；将所述融合特征经过第二全连接层，获得被查矩阵；将所述融合特征经过第三全连接层，获得内容向量；基于所述第一矩阵、所述查询矩阵、所述被查矩阵、所述内容向量和预设影响力公式获得所述影响信息矩阵。

可选的，所述预设影响力公式为：其中，Y为所述影响信息矩阵，/>为softmax函数，K为所述查询矩阵，Q^T为所述被查矩阵的转置，mask1为所述第一矩阵，V为所述内容向量。

可选的，所述将所述影响融合特征输入至分类模块，获得所述分类模块输出的识别结果，具体包括：将所述影响融合特征依次输入长短期记忆循环神经网络、全连接层和softmax函数，获得分类结果。

可选的，所述将所述语音特征和所述文本特征输入至多模态特征融合模块，获得融合特征，具体包括：基于所述语音特征与所述原始语音集中每一句语音的对应关系，和所述文本特征与所述原始语音集中每一句语音的对应关系，将所述语音特征和所述文本特征进行对齐；将所述对齐后的语音特征和所述文本特征进行拼接融合，得到所述融合特征。

第二方面，本发明还提供一种语音情感识别装置，包括：获取单元，用于获取原始语音集，所述原始语音集包括对话者语音和说话者语音；识别单元，用于将所述原始语音集输入至语音情感识别模型，输出所述说话者语音的识别结果；其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音情感识别模型用于基于所述对话者语音的影响对所述说话者语音进行语音情感识别。

第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音情感识别方法的步骤。

第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音情感识别方法的步骤。

第五方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音情感识别方法的步骤。

本发明提供的语音情感识别方法及装置，基于对话者语音对说话者语音的影响对说话者语音进行语音情感识别，通过将对话者对说话者的情感影响和说话者自身情绪演化结合，对说话者语音的情感类别进行识别，提高了语音情感识别正确率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的语音情感识别方法的流程示意图；

图2是本发明实施例提供的语音情感识别模型的数据处理示意图；

图3是本发明实施例提供的对话者影响力模块的数据处理示意图；

图4是本发明实施例提供的语音情感识别装置的结构示意图；

图5是本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图3描述本发明实施例提供的语音情感识别方法。

参考图1，图1是本发明实施例提供的语音情感识别方法的流程示意图。本发明实施例提供的语音情感识别方法，包括：

步骤110，获取原始语音集，原始语音集包括对话者语音和说话者语音；

步骤120，将原始语音集输入至语音情感识别模型，获得语音情感识别模型输出的说话者语音的识别结果；

其中，语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于对话者语音对说话者语音的影响对说话者语音进行语音情感识别；识别标签是根据语音样本预先确定的，并与语音样本一一对应；语音样本包括对话者语音样本和说话者语音样本。

下面，对上述步骤在具体实施例中的可能的实现方式做进一步说明。

具体地，语音情感识别是对二人对话中的其中一人进行情感分析，情感分析对象为说话者，另外一个人为对话者。原始语音集包括对话者语音和说话者语音，对话者语音可以为一句或多句语音，说话者语音也可以为一句或多句语音，可以预先设置原始语音集中的语音数量。可以理解的是，语音的前后顺序会对语音情感识别造成影响，因此原始语音集是预先按照对话中语音的时间先后顺序排列的。

一个实施例中，为了充分考虑对话者对说话者的影响信息，可以在一段对话中选取二人共11句对话。一段对话中语音句数不足11句的情况下，以空白语音对语音区域进行补充，一段对话中语音句数超过11句的情况下，在对话前后区域进行语音选择。并按照对话顺序对11句语音进行排序。如，一段对话中只有9句语音，可以在对话的前后分别补充两句空白语音；一段对话中有12句语音，可以选择删除第一句语音或第十二句语音。

具体地，识别标签可以包括生气、高兴、伤心和中性等情感标签，识别结果是对原始语音集中的说话者的所有语句的最终情感识别结果，可以包括生气、高兴、伤心和中性等。

现有的研究大多是在单一语音片段上进行语音情感识别。然而，情绪并不是瞬间的状态，它是一种受真实动态交互场景中的上下文影响的进化状态。在复杂的人际互动情境中，一个人的情绪状态会受到自身情绪演化和对话者行为的影响。

现有技术中的语音情感识别方法对语音特征和文本特征进行了融合识别，但是没有考虑对话者的语音对说话者的情感产生的影响，因此本发明实施例提供一种语音情感识别方法，输入至语音情感识别模型的原始语音集中，除了说话者语音外，还包括对话者语音，并基于对话者语音对说话者语音的影响对说话者语音进行语音情感识别，将对话者对说话者的情感影响和说话者自身情绪演化结合，对说话者语音的情感类别进行识别，提高了语音情感识别正确率。

可选的，参考图2，图2是本发明实施例提供的语音情感识别模型的数据处理示意图。本发明实施例提供的语音情感识别模型包括：特征提取模块、多模态特征融合模块、对话者影响力模块和分类模块；

将原始语音集输入至语音情感识别模型，获得语音情感识别模型输出的说话者语音的识别结果，具体包括：

步骤210，将原始语音集输入至特征提取模块，获得特征提取模块输出的语音特征、文本特征、第一矩阵和第二矩阵；

步骤220，将语音特征和文本特征输入至多模态特征融合模块，获得多模态特征融合模块输出的融合特征；

步骤230，将融合特征、第一矩阵和第二矩阵输入至对话者影响力模块，获得对话者影响力模块输出的影响融合特征；

步骤240，将影响融合特征输入至分类模块，获得分类模块输出的识别结果；

其中，第一矩阵用于分离对话者语音对说话者语音的影响；第二矩阵用于分离说话者语音的信息。

对于将原始语音集输入至特征提取模块，获得特征提取模块输出的语音特征的情况，即通过特征提取模块从语音中提取能够有效表示情感的信息，并将其量化为数值。可以使用opensmile工具对原始语音集中的每一句语音提取语音特征，每一句语音的语音特征为行向量，长度为88。将所有语音的语音特征按照语音顺序合并为矩阵，得到原始语音集的语音特征，原始语音集的语音特征大小为N×88，N为原始语音集中的语音数量。如原始语音集中的语音数量为11句，可以得到语音特征矩阵S_11×88。

对于将原始语音集输入至特征提取模块，获得特征提取模块输出的文字特征的情况，即通过特征提取模块将语音转换为文字，从文字中提取能够有效表示情感的信息，并将其量化为数值。可以使用语音转文本工具将单纯的语音转换为文本，使用bert模型对每一句语音对应的文本提取文本特征，每一句语音的文本特征为行向量，长度为768。将所有语音的文本特征按照语音顺序合并为矩阵，得到原始语音集的文本特征，文本特征的大小为N×768，N为原始语音集中的语音数量。如原始语音集中的语音数量为11句，可以得到文字特征矩阵T_11×768。

对于将原始语音集输入至特征提取模块，获得特征提取模块输出的第一矩阵的情况，第一矩阵参与对话者影响力模块的运算，用于分离对话者语音对说话者语音的影响，矩阵大小为N×N，N为原始语音集中的语音数量。如原始语音集中的语音数量为11句，第一矩阵大小为11×11。第一矩阵元素公式如下所示：

式中，mask_i,j为第一矩阵中第i行第j列的矩阵元素。

一个实施例中，原始语音集中包括4句语音，第一句语音为对话者语音，第二句语音为说话者语音，第三句语音为对话者语音，第四句语音为说话者语音，则第一矩阵为：

对于将原始语音集输入至特征提取模块，获得特征提取模块输出的第二矩阵的情况，第二矩阵参与对话者影响力模块的运算，第二矩阵可以区分对话者和说话者，用于分离说话者语音的信息。第二矩阵的矩阵大小为N×856，N为原始语音集中的语音数量。如原始语音集中的语音数量为11句，第二矩阵大小为11×856。第二矩阵中，如果第i句语音为对话者，则第i行矩阵为0，如果第i句语音为说话者，则第i行矩阵为1。第二矩阵元素公式如下所示：

式中，mask2_i,j为第二矩阵中第i行第j列的矩阵元素。

可以理解的是，当原始语音集中的对话者语音和说话者语音顺序确定时，可以确定第一矩阵和第二矩阵。因此当原始语音集确定时，第一矩阵和第二矩阵可以在参与对话者影响力模块计算之前的任意时间点得到，本实施例将第一矩阵和第二矩阵作为特征提取模块的输出，是为了预先得到第一矩阵和第二矩阵，便于第一矩阵和第二矩阵参与后续计算。

语音特征中包含声学情感信息和韵律情感信息,文本特征包含文本情感信息。相较于单一特征的情感信息，将语音特征与文本特征融合得到的融合特征中的情感信息更为丰富，可以提高语音情感识别的准确性。

可选的，将语音特征和文本特征输入至多模态特征融合模块，获得融合特征，具体包括：

基于语音特征与原始语音集中每一句语音的对应关系，和文本特征与原始语音集中每一句语音的对应关系，将语音特征和文本特征进行对齐；

将对齐后的语音特征和文本特征进行拼接融合，得到融合特征。

将文本特征和语音特征按照每一句对齐，并且进行拼接融合得到融合特征F，融合特征F的矩阵大小为N×856，N为原始语音集中的语音数量。如原始语音集中的语音数量为11句，融合特征F大小为11×856。

一个实施例中，原始语音集中的语音数量为5句，以简化后的语音特征Y和文本特征W做一简单的示例：

简化后的语音特征Y如下所示：

式中，Y表示语音特征，y₁表示语音特征的第一行，即第一句语音的语音特征，y₂表示语音特征的第二行，即第二句语音的语音特征，y₃表示语音特征的第三行，即第三句语音的语音特征，y₄表示语音特征的第四行，即第四句语音的语音特征，y₅表示语音特征的第五行，即第五句语音的语音特征。

简化后的文本特征W如下所示：

式中，W表示文本特征，w₁表示文本特征的第一行，即第一句语音的文本特征，w₂表示文本特征的第二行，即第二句语音的文本特征，w₃表示文本特征的第三行，即第三句语音的文本特征，w₄表示文本特征的第四行，即第四句语音的文本特征，w₅表示文本特征的第五行，即第五句语音的文本特征。

将文本特征和语音特征按照每一句对齐，并且进行拼接融合得到融合特征F如下所示：

式中，F表示融合特征，Y表示语音特征，W表示文本特征。

对话者影响力模块的目的是计算对话者对说话者的影响力，同时将该影响融合到说话者信息中。对话者影响力模块使用注意力机制获取对话者和说话者的影响力权重，然后将对话者信息融合到说话者信息中。

可选的，参考图3，图3是本发明实施例提供的对话者影响力模块的数据处理示意图。将融合特征、第一矩阵和第二矩阵输入至对话者影响力模块，获得影响融合特征，具体包括：

步骤310，基于融合特征和第一矩阵获得影响信息矩阵，影响信息矩阵用于表示对话者语音对说话者的影响；

可选的，基于融合特征和第一矩阵获得影响信息矩阵，具体包括：

将融合特征经过第一全连接层，获得查询矩阵；

将融合特征经过第二全连接层，获得被查矩阵；

将融合特征经过第三全连接层，获得内容向量；

基于第一矩阵、查询矩阵、被查矩阵、内容向量和预设影响力公式获得影响信息矩阵。

一个实施例中，一个原始语音集中包括11句语音，通过特征提取模块获得原始语音集的融合特征F，矩阵大小为11×856。

将融合特征F经过第一全连接层，获得查询矩阵K，矩阵大小仍为11×856。

将融合特征F经过第二全连接层，获得被查矩阵Q，矩阵大小仍为11×856。

将融合特征F经过第三全连接层，获得内容向量V，矩阵大小仍为11×856。

查询矩阵K、被查矩阵Q和内容向量V的矩阵大小均为N×856，N为原始语音集中的语音数量。查询矩阵K、被查矩阵Q和内容向量V均由融合特征F经过全连接层得到，但是作用不同。查询矩阵K和被查矩阵Q由多个特征向量组成的，每一个特征向量代表一句语音。

内容向量V，仍是特征矩阵，每一个特征向量代表一句语音，用于表征融合特征F的内容。

可选的，预设影响力公式为：

其中，Y为所述影响信息矩阵，为softmax函数，K为所述查询矩阵，Q^T为所述被查矩阵的转置，mask1为所述第一矩阵，V为内容向量，K×Q^T为第一权重矩阵Wa，K×Q^T·mask1为第二权重矩阵Wb,/>为第三权重矩阵Wc。

被查矩阵Q和查询矩阵K用于相似度计算，得到第一权重矩阵W_a。将被查矩阵Q的转置和查询矩阵K做外积，得到第一权重矩阵W_a，第一权重矩阵元素Wa_i,j代表第i句与第j句的相似度，即第i句对第j句的重要程度。相似度越高，表明第i句对第j句影响越大，因此权重也越高。

由于需要的是对话中对话者某一句语音对在后的说话者的语音的影响权重，所以将第一权重矩阵W_a和第一矩阵做内积，覆盖无用权重，只保留对话者对下文说话者影响的权重得到第二权重矩阵W_b，第二权重矩阵W_b矩阵大小为N×N，N为原始语音集中的语音数量。第二权重矩阵W_b表示在前的对话者语音对在后的说话者语音的重要程度，即在前的对话者语音对在后的说话者语音的影响力。

将第二权重矩阵W_b通过softmax函数得到第三权重矩阵Wc，第三权重矩阵Wc矩阵大小为N×N，N为原始语音集中的语音数量。该步骤用于将矩阵的值转化为非负数，且所有值的和为1。

用第三权重矩阵Wc和内容向量V做外积，即对内容向量V加权，得到影响信息矩阵Y。影响信息矩阵Y的矩阵大小为N×856，N为原始语音集中的语音数量。影响信息矩阵Y代表对话者对说话者的影响力。

步骤320，将影响信息矩阵与内容向量相加获得第二融合特征，内容向量是基于融合特征获得的；

将影响信息矩阵Y和内容向量V进行矩阵相加从而融合得到第二融合特征矩阵V′，即将对话者影响信息和说话者自身信息进行融合。第二融合特征矩阵V′的矩阵大小为N×856，N为原始语音集中的语音数量。

第二融合特征可以通过公式表示如下：

其中，V′为第二融合特征，V为内容向量，Y为所述影响信息矩阵，为softmax函数，K为所述查询矩阵，Q^T为所述被查矩阵的转置，mask1为所述第一矩阵，K×Q^T为第一权重矩阵，(K×Q^T·mask1)为第二权重矩阵,/>为第三权重矩阵。

步骤330，将第二融合特征与第二矩阵点乘，获得影响融合特征。

通过将第二融合特征与第二矩阵点乘，覆盖掉第二融合特征中的对话者语音信息，只保留说话者信息，获得影响融合特征。

可选的，将影响融合特征输入至分类模块，获得分类模块输出的识别结果，具体包括：

将影响融合特征依次输入长短期记忆循环神经网络、全连接层和softmax函数，获得分类结果。

一个实施例中，将影响融合特征通过长短期记忆循环神经网络LSTM学习上下文信息，然后通过全连接层降维，最后使用softmax函数进行分类。分类公式为：

其中，V″表示影响融合特征，lstm表示长短期记忆循环神经网络，fc表示全连接层，表示softmax函数。

本发明实施例提供的语音情感识别方法，输入至语音情感识别模型的原始语音集中，除了说话者语音外，还包括对话者语音，并基于对话者语音对说话者语音的影响对说话者语音进行语音情感识别，将对话者对说话者的情感影响和说话者自身情绪演化结合，对说话者语音的情感类别进行识别，提高了语音情感识别正确率。

下面对本发明提供的语音情感识别装置进行描述，下文描述的语音情感识别装置与上文描述的语音情感识别方法可相互对应参照。

参考图4，图4是本发明实施例提供的语音情感识别装置的结构示意图。本发明实施例提供的语音情感识别装置，包括：获取单元410和识别单元420；

获取单元410，用于获取原始语音集，原始语音集包括对话者语音和说话者语音；

识别单元420，用于将原始语音集输入至语音情感识别模型，输出说话者语音的识别结果；

其中，语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的；识别标签是根据语音样本预先确定的，并与语音样本一一对应；语音情感识别模型用于基于对话者语音的影响对说话者语音进行语音情感识别。

在此需要说明的是，本发明实施例提供的上述装置，能够实现上述方法实施例所实现的所有方法步骤，且能够达到相同的技术效果，在此不再对本实施例中与方法实施例相同的部分及有益效果进行具体赘述。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行语音情感识别方法，该方法包括：获取原始语音集，所述原始语音集包括对话者语音和说话者语音；将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果；其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音样本包括对话者语音样本和说话者语音样本。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的语音情感识别方法，该方法包括：获取原始语音集，所述原始语音集包括对话者语音和说话者语音；将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果；其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音样本包括对话者语音样本和说话者语音样本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的语音情感识别方法，该方法包括：获取原始语音集，所述原始语音集包括对话者语音和说话者语音；将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果；其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音样本包括对话者语音样本和说话者语音样本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音情感识别方法，其特征在于，包括：

获取原始语音集，所述原始语音集包括对话者语音和说话者语音；

将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果；

其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的，用于基于所述对话者语音对所述说话者语音的影响对所述说话者语音进行语音情感识别；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音样本包括对话者语音样本和说话者语音样本；

所述语音情感识别模型包括：特征提取模块、多模态特征融合模块、对话者影响力模块和分类模块；

所述将所述原始语音集输入至语音情感识别模型，获得所述语音情感识别模型输出的所述说话者语音的识别结果，具体包括：

将所述原始语音集输入至所述特征提取模块，获得所述特征提取模块输出的语音特征、文本特征、第一矩阵和第二矩阵；

将所述语音特征和所述文本特征输入至所述多模态特征融合模块，获得所述多模态特征融合模块输出的融合特征；

将所述融合特征、所述第一矩阵和所述第二矩阵输入至所述对话者影响力模块，获得所述对话者影响力模块输出的影响融合特征；

将所述影响融合特征输入至分类模块，获得所述分类模块输出的识别结果；

其中，所述第一矩阵用于分离所述对话者语音对所述说话者语音的影响；所述第二矩阵用于分离所述说话者语音的信息。

2.根据权利要求1所述的语音情感识别方法，其特征在于，所述将所述融合特征、所述第一矩阵和所述第二矩阵输入至对话者影响力模块，获得影响融合特征，具体包括：

基于所述融合特征和所述第一矩阵获得影响信息矩阵，所述影响信息矩阵用于表示所述对话者语音对所述说话者的影响；

将所述影响信息矩阵与内容向量相加获得第二融合特征，所述内容向量是基于所述融合特征获得的；

将所述第二融合特征与所述第二矩阵点乘，获得所述影响融合特征。

3.根据权利要求2所述的语音情感识别方法，其特征在于，所述基于所述融合特征和所述第一矩阵获得影响信息矩阵，具体包括：

将所述融合特征经过第一全连接层，获得查询矩阵；

将所述融合特征经过第二全连接层，获得被查矩阵；

将所述融合特征经过第三全连接层，获得内容向量；

基于所述第一矩阵、所述查询矩阵、所述被查矩阵、所述内容向量和预设影响力公式获得所述影响信息矩阵。

4.根据权利要求3所述的语音情感识别方法，其特征在于，所述预设影响力公式为：

其中，Y为所述影响信息矩阵，为softmax函数，K为所述查询矩阵，Q^T为所述被查矩阵的转置，mask1为所述第一矩阵，V为所述内容向量。

5.根据权利要求2-4中任一项所述的语音情感识别方法，其特征在于，所述将所述影响融合特征输入至分类模块，获得所述分类模块输出的识别结果，具体包括：

将所述影响融合特征依次输入长短期记忆循环神经网络、全连接层和softmax函数，获得分类结果。

6.根据权利要求2-4中任一项所述的语音情感识别方法，其特征在于，所述将所述语音特征和所述文本特征输入至多模态特征融合模块，获得融合特征，具体包括：

基于所述语音特征与所述原始语音集中每一句语音的对应关系，和所述文本特征与所述原始语音集中每一句语音的对应关系，将所述语音特征和所述文本特征进行对齐；

将所述对齐后的语音特征和所述文本特征进行拼接融合，得到所述融合特征。

7.一种语音情感识别装置，其特征在于，包括：

获取单元，用于获取原始语音集，所述原始语音集包括对话者语音和说话者语音；

识别单元，用于将所述原始语音集输入至语音情感识别模型，输出所述说话者语音的识别结果；

其中，所述语音情感识别模型是基于语音样本以及对应的识别标签进行训练后得到的；所述识别标签是根据所述语音样本预先确定的，并与所述语音样本一一对应；所述语音情感识别模型用于基于所述对话者语音的影响对所述说话者语音进行语音情感识别；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至6任一项所述语音情感识别方法的步骤。

9.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6任一项所述语音情感识别方法的步骤。