CN109192225A

CN109192225A - 语音情感识别和标注的方法及装置

Info

Publication number: CN109192225A
Application number: CN201811140940.5A
Authority: CN
Inventors: 徐迎庆; 胡佳雄; 胡效竹; 叶星宇; 徐千尧; 王楠
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-09-28
Filing date: 2018-09-28
Publication date: 2019-01-11
Anticipated expiration: 2038-09-28
Also published as: CN109192225B

Abstract

本发明实施例提供一种语音情感识别和标注方法及装置，该方法包括：对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。本发明实施例通过语音和文本双通道的情感识别，在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息，从而减少了语音识别过程中情感信息的缺失。

Description

语音情感识别和标注的方法及装置

技术领域

本发明实施例涉及自然语音处理领域，更具体地，涉及一种语音情感识别和标注的方法及装置。

背景技术

语音识别是将人们说话得到的语音音频转换成文本。参见图2，在传统的语音识别STT流程中，直接利用神经网络模型对语音音频进行识别，识别得到文本。但是，语音交互是自然交互方式的重要形式，语音音频中不仅包含了文本内容所表达的信息，也包含了一部分纯文本所无法表达的情感信息。因此，现有技术中的语音识别方法会造成所表达的情感信息的缺失。

发明内容

为了解决上述问题，本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的语音情感识别和标注的方法及装置。

根据本发明实施例的第一方面，提供一种语音情感识别和标注的方法，该方法包括：对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

根据本发明实施例第二方面，提供了一种语音情感识别和标注的装置，该装置包括：识别模块，用于对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；标注模块，用于结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

根据本发明实施例的第三方面，提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音情感识别和标注的方法。

根据本发明实施例的第四方面，提供了一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面的各种可能的实现方式中任一种可能的实现方式所提供的语音情感识别和标注的方法。

本发明实施例提供的语音情感识别和标注的方法及装置，通过对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息，以及对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；并结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，采用表情符号对识别文本进行标注。由于通过语音和文本双通道的情感识别，在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息，从而减少了语音识别过程中情感信息的缺失。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些图获得其他的附图。

图1为本发明实施例提供的语音情感识别和标注的方法的流程示意图；

图2为现有技术提供的语音情感识别和标注的方法的流程示意图；

图3为本发明另一实施例提供的语音情感识别和标注的方法的流程示意图；

图4为本发明又一实施例提供的语音情感识别和标注的方法的流程示意图；

图5为本发明实施例提供的语音情感识别和标注的装置的结构示意图；

图6为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中语音音频转换成文本的过程中存在的情感缺失的缺陷，本发明实施例提供一种语音情感识别和标注的方法。参见图1，该方法包括：

101、对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息。

其中，参见图3，语音音频的情感信息具体可以从两方面体现：第一方面情感信息是识别文本所携带的情感信息，这是由说话人所说的话的语义本身决定的；第二方面情感信息是语音音频的声学特征所携带的情感信息，这是由说话人说话时的情绪决定的。因此，本发明实施例分别对识别文本和语音音频进行情感识别，获得用于表示上述第一方面情感信息的文本情感信息以及用于表示上述第二方面情感信息的语音情感信息。而在执行步骤101前，可对待识别的语音音频进行语音识别，获得识别文本，本发明实施例对语音识别的方式不作限定。另外，在步骤101中，本发明实施例对识别文本进行文本情感识别以及对语音情感识别的先后顺序不作限定。

102、结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

具体地，首先对根据步骤101中识别获得的文本情感信息及语音情感信息进行结合，本发明实施例对结合的方式不作限定，例如采用加权求和的方式。结合后能够获得一个综合语音情感信息和文本情感信息两方面、可以作为最终的用于表示语音音频的情感信息的综合情感信息。由于表情符号能够对情感信息进行表示，因此可对综合情感信息进行匹配，获得对应的表情符号。其中，本发明实施例对匹配的方式不作限定，例如可以预先构建一个数据库，该数据库中存储有多种表情符号以及每种表情符号对应的情感信息，从而在匹配时，可以在该数据库中匹配到与综合情感信息对应的表情符号。其中，本发明实施例对表情符号的类别不作限定，包括但不限于emoji表情。在匹配到对应的表情符号后，可以对识别文本进行标注，例如将表情符号插入到识别文本中合适的位置，最终获得了带有表情符号的识别文本。

本发明实施例提供的语音情感识别和标注的方法，通过对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息，以及对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；并结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，采用表情符号对识别文本进行标注。由于通过语音和文本双通道的情感识别，在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息，从而减少了语音识别过程中情感信息的缺失。

基于上述实施例的内容，作为一种可选实施例，提供一种对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息的方法，包括但不限于：

步骤1、对识别文本进行切分，获得多个短句，并计算获得每个短句在情感量化坐标系下的情感量化坐标。

具体地，参见图4，由于识别文本可能是由多个句子组成的长文本，因此，首先根据识别文本中标点符号的断句对识别文本进行切分，将整个识别文本切分成多个短句。之后以每个短句作为处理单元，然后计算出每个短句在情感量化坐标系下的情感量化坐标。其中，情感量化坐标系中的每个坐标值都能够表征一种情感信息，从而可以利用情感量化坐标来表征每个短句所对应的情感信息。

步骤2、对情感量化坐标进行线性扩展映射，获得文本坐标，文本坐标用于表示对应的短句的文本情感信息。其中，对情感量化坐标进行线性扩展映射的目的是让不同的表情符号区别更大，在之后的和语音坐标加权求和的时候可以有更好的结果。具体地，在获得每个短句对应的情感量化坐标后，将其进行线性扩展得到文本坐标，表示文本中的情感信息。

本发明实施例通过利用情感量化坐标系，能够采用文本坐标的方式表征每个短句所对应的情感信息。

基于上述实施例的内容，作为一种可选实施例，提供一种计算获得每个短句对应的情感量化坐标的方法，包括但不限于：计算获得每个短句对应的置信度最高的表情符号；将表情符号对应的情感量化坐标作为对应的短句的情感量化坐标。

其中，可以利用神经网络计算获得每个短句对应的置信度最高的表情符号。具体地，由于情感量化坐标系为表情符号的V-A映射(Valence-Arousal是一种量化情感的二维模型)，即每个表情符号在该情感量化坐标系中都有对应的一个坐标值。因此，为了获得每个短句对应的情感量化坐标，可先通过表情符号匹配外源库函数，计算获得每个短句对应的置信度最高的表情符号，再将匹配获得的表情符号所对应的情感量化坐标作为该短句的情感量化坐标。另外，本发明实施例对获取每个表情符号在情感量化坐标系中对应的坐标的方式不作限定，包括但不限于：通过在线的表情符号坐标收集系统收集在大量人群中收集人们所理解的表情符号所对应的V-A坐标(即情感量化坐标)，分析调研结果最终得出每个表情符号所对应的V-A坐标。因此，本发明实施例可通过利用表情符号获得每个短句对应的情感量化坐标。

基于上述实施例的内容，作为一种可选实施例，提供一种对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息的方法，包括但不限于：

步骤1、对语音音频的声学特征进行情感分析，获得语音音频在情感量化坐标系下的情感向量值。其中，情感分析的方式具体可以使用开源算法，本发明实施例对此不作限定。另外，为了在步骤102中对语音情感信息及文本情感信息进行结合，因此语音通道的情感向量值是在情感量化坐标系中下的。

步骤2、对情感向量值依次进行非线性函数过滤和线性扩展映射，获得语音偏移向量，语音偏移向量用于表示语音音频的语音情感信息。其中，线性扩展采用的是f(x)＝x3，其目的是在语音情感较为强烈的时候(x>1)增加之后文本语音求和时语音的权重。其中，将语音情感识别通道中的情感向量值经过非线性函数过滤后再进行线性扩展得到语音偏移向量，该语音偏移向量用于表示语音中情感。

另外，应当说明的是，上述获得语音音频的语音情感信息的方法是以整段语音音频为处理单元进行处理的，但与对识别文本进行情感识别类似的，可先对语音音频进行切分，获得每个短句对应的语音音频；之后采用类似的方法获得每个短句对应的语音音频的语音偏移向量，同样可以实现本发明实施例的目的。

基于上述实施例的内容，作为一种可选实施例，提供一种对语音音频的声学特征进行情感分析，获得语音音频在情感量化坐标下的情感向量值的方法，包括但不限于：对语音音频的声学特征进行情感分析，获得多维向量，其中，多维向量中的每个分量代表一种情感的权值；将在情感量化坐标系中设定的每种情感的基向量组与多维向量进行矩阵乘运算，获得语音音频在情感量化坐标系下的情感向量值。

具体地，对语音音频进行情感分析后可以获得多维向量，由于多维向量中的每个分量均为一种情感的权值，因此多维向量整体能够表征一种情感信息。为了在情感量化坐标系下对语音音频的情感信息进行表示，可预先在情感量化坐标系下设定每种情感的基向量组，然后用多维向量与基向量组进行矩阵乘运算，获得情感量化坐标系下的情感向量值。该情感向量值在情感量化坐标系下对语音通道的情感信息进行表征。

基于上述实施例的内容，作为一种可选实施例，多维向量为四维向量，情感包括愤怒、开心、平和以及沮丧。即采用上述四种情感的综合来表征语音音频的情感信息。

基于上述实施例的内容，作为一种可选实施例，提供一种结合语音情感信息及文本情感信息，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注的方法，包括但不限于：对于每个短句，将短句的文本坐标与语音音频的语音偏移向量进行加权求和，获得短句对应的目标情感量化坐标；匹配获得与目标情感量化坐标对应的表情符号，并采用表情符号对短句进行标注。

具体地，将文本坐标和语音偏移向量进行加权求和得到短句对应的最终的V-A坐标(即目标情感量化坐标)，再依据表情符号集的V-A坐标，找到与短句的V-A坐标相匹配的表情符号(即找到坐标轴上欧式距离最小的表情符号)。最终将各短句与它们所对应的表情符号组合成带有表情符号的长文本。

基于上述实施例的内容，本发明实施例提供了一种语音情感识别和标注的装置，该语音情感识别装置用于执行上述方法实施例中的语音情感识别方法。参见图5，该装置包括：识别模块501和标注模块502，其中：识别模块501，用于对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；标注模块502，用于结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

其中，本发明实施例对识别模块501识别文本进行文本情感识别以及对语音情感识别的先后顺序不作限定。标注模块502对根据识别模块501中识别获得的文本情感信息及语音情感信息进行结合，本发明实施例对结合的方式不作限定，例如采用加权求和的方式。由于表情符号能够对情感信息进行表示，因此标注模块502可对综合情感信息进行匹配，获得对应的表情符号。在匹配到对应的表情符号后，标注模块502可以对识别文本进行标注，例如将表情符号插入到识别文本中合适的位置，最终获得了带有表情符号的识别文本。

本发明实施例提供的语音情感识别和标注的装置，通过对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息，以及对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；并结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，采用表情符号对识别文本进行标注。由于通过语音和文本双通道的情感识别，在语音识别的过程中给识别文本标注了合适的表情符号来表征识别文本中语句的情感信息，从而减少了语音识别过程中情感信息的缺失。

本发明实施例提供了一种电子设备，如图6所示，该设备包括：处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604，其中，处理器601，通信接口602，存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储器603上并可在处理器601上运行的计算机程序，以执行上述各实施例提供的语音情感识别和标注的方法，例如包括：对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的语音情感识别和标注的方法，例如包括：对语音音频的识别文本进行文本情感识别，获得语音音频的文本情感信息；对语音音频的声学特征进行语音情感识别，获得语音音频的语音情感信息；结合语音情感信息及文本情感信息后，匹配获得对应的表情符号，并采用表情符号对识别文本进行标注。

以上所描述的电子设备等实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种语音情感识别和标注的方法，其特征在于，包括：

对语音音频的识别文本进行文本情感识别，获得所述语音音频的文本情感信息；对所述语音音频的声学特征进行语音情感识别，获得所述语音音频的语音情感信息；

结合所述语音情感信息及所述文本情感信息后，匹配获得对应的表情符号，并采用所述表情符号对所述识别文本进行标注。

2.根据权利要求1所述的方法，其特征在于，所述对语音音频的识别文本进行文本情感识别，获得所述语音音频的文本情感信息，包括：

对所述识别文本进行切分，获得多个短句，并计算获得每个所述短句在情感量化坐标系下的情感量化坐标；

对所述情感量化坐标进行线性扩展映射，获得文本坐标，所述文本坐标用于表示对应的所述短句的文本情感信息。

3.根据权利要求2所述的方法，其特征在于，所述计算获得每个所述短句对应的情感量化坐标，包括：

计算获得每个所述短句对应的置信度最高的所述表情符号；

将所述表情符号对应的情感量化坐标作为对应的所述短句的情感量化坐标。

4.根据权利要求2所述的方法，其特征在于，所述对所述语音音频的声学特征进行语音情感识别，获得所述语音音频的语音情感信息，包括：

对所述语音音频的声学特征进行情感分析，获得所述语音音频在所述情感量化坐标系下的情感向量值；

对所述情感向量值依次进行非线性函数过滤和线性扩展映射，获得语音情感偏移向量，所述语音情感偏移向量用于表示所述语音音频的所述语音情感信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述语音音频的声学特征进行情感分析，获得所述语音音频在所述情感量化坐标下的情感向量值，包括：

对所述语音音频的声学特征进行情感分析，获得多维向量，其中，所述多维向量中的每个分量代表一种情感的权值；

将在所述情感量化坐标系中设定的每种所述情感的基向量组与所述多维向量进行矩阵乘运算，获得所述语音音频在所述情感量化坐标系下的情感向量值。

6.根据权利要求5所述的方法，其特征在于，所述结合所述语音情感信息及所述文本情感信息，匹配获得对应的表情符号，并采用所述表情符号对所述识别文本进行标注，包括：

对于每个所述短句，将所述短句的所述文本坐标与所述语音音频的所述语音偏移向量进行加权求和，获得所述短句对应的目标情感量化坐标；

匹配获得与所述目标情感量化坐标对应的所述表情符号，并采用所述表情符号对所述短句进行标注。

7.根据权利要求5所述的方法，其特征在于，所述多维向量为四维向量，所述情感包括愤怒、开心、平和以及沮丧。

8.一种语音情感识别和标注的装置，其特征在于，包括：

识别模块，用于对语音音频的识别文本进行文本情感识别，获得所述语音音频的文本情感信息；对所述语音音频的声学特征进行语音情感识别，获得所述语音音频的语音情感信息；

标注模块，用于结合所述语音情感信息及所述文本情感信息后，匹配获得对应的表情符号，并采用所述表情符号对所述识别文本进行标注。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述语音情感识别和标注的方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述语音情感识别和标注的方法的步骤。