CN110675859A

CN110675859A - 结合语音与文本的多情感识别方法、系统、介质及设备

Info

Publication number: CN110675859A
Application number: CN201910836911.0A
Authority: CN
Inventors: 林伟伟; 吴铨辉
Original assignee: South China University of Technology SCUT
Current assignee: GUANGDONG LVAN INDUSTRY AND COMMERCE CO.,LTD.
Priority date: 2019-09-05
Filing date: 2019-09-05
Publication date: 2020-01-10
Anticipated expiration: 2039-09-05
Also published as: CN110675859B

Abstract

本发明公开了一种结合语音与文本的多情感识别方法、系统、介质及设备，方法包括获取由多个音频段组成的目标音频，并使用语音识别技术转换为对应的多个文本信息；基于音频信息的语音特征获得音频情感识别信息，基于文本信息的文本特征获得文本情感识别信息；使用新的结合方法将这两种识别情感进行结合，获得对应音频段的目标情感信息。该新的结合方法为基于语音识别情感向量与文本识别情感向量，通过对这两种向量内不同情感信息进行不同的组合，再使用这些不同的组合进行情感结合模型的训练。本发明使用语音与文本的识别情感向量，从而保证语音情感分析与文本情感分析部分互相独立，既能够解决两极情感分析问题，也能够应用到多情感分析的场景。

Description

结合语音与文本的多情感识别方法、系统、介质及设备

技术领域

本发明涉及人机交互领域，特别涉及一种结合语音与文本的多情感识别方法、系统、介质及设备。

背景技术

随着互联网进一步普及以及信息技术的不断发展，人们越来越认识到信息的重要性。而人工智能技术的不断深入研究为获取更多种类的信息提供了可能性。社群媒体等随着互联网的发展也再仅仅是传递信息的平台，开始允许用户创建自己的账号，同时成为收集信息的平台。越来越多的平台发现用户的情感信息是一种十分有价值的信息，它能够表达用户对某一事物的喜恶。例如为用户提供要交流反馈服务的产品都希望能够获得用户的情感信息，从而更好地改进提升自己的服务质量。很多平台在用户留意系统中给用户提供了评分系统，甚至我们能够对其他用户的评论进行评价。这是较流行并较易实现的收集用户情感信息的方法。但有时，在用户的留言中所携带的隐式情感信息具有更高的价值，因此我们需要用到情感识别的方法识别出留言中隐藏的情感信息。

上述的分析方法中，可采用基于语音或是文本的情感识别方法对用户的语音或文本输入进行分析。语音的情感识别方法主要依靠声学特征对待识别样本进行情感分析。由于声波的特征以及许多研究人员多年在波型信息方面的研究，在声音维度的情感识别已经有着不错的成果。然而语音情感识别没有考虑待识别样本本身想要表达的语义。而文本的情感识别由于自然语言的复杂性，因此文本的情感识别没有像语音情感识别那样成熟，同样文本情感识别也没有考虑到同一句话用不同语气演绎能表达不同的情感。在使用不同的方式进行情感识别时，对用户在该方式下的情感表达的强度十分依赖。用户用平淡的语气说出高兴的事情时，基于语音的情感识别就比不上文本情感识别，反之亦然。

根据上文所述，单靠一种方式的情感识别，很难对用户的情感进行准确决断。因此也有一些研究者提出结合多种维度的情感识别方法。孙晓等学者提出的一种面向人机交互的多类信息耦合的情感识别方法中，同时利用到语音的声学特征与文本的文本特征进行情感识别。这个方法中存在一个问题，这两种特征被同时作为一个神经网络的输入，因此在网络模型进行训练的过程中，这两种不同的输入之间将会互相影响，但是不同领域的特征之间不应该互相影响。而在刘海波等学者提出的情感信息的确定方法和装置中，语音情感识别与文本情感识别的工作分别使用两个网络完成，因此在语音情感识别与文本情感识别的过程中，它们两者之间互不影响。在获得语音识别情感与文本识别情感之后，该方法提出两种能够结合语音识别情感与文本识别情感的方法，一是当其中一个识别情感属于无明显情感倾向的情感，如平淡时，最终的结果将取另一个表达更强烈情感的识别情感。这种结合方法只适用于两个既得识别情感分别为强烈情感和平淡情感的情况。另一种结合方法是给定一个值为0到1语音情感权重a，那么可得出文本情感权重为(1-a)，最终识别情感＝(语音识别情感*a)+(文本识别情感*(1-a))。这种结合方法较适用于两极情感，如开心与不开心的情感，或是害怕与不害怕的情感，而难以适用于多情感识别，如高兴、伤心、生气、惊讶同时存在的情境。

现有技术仅能解决不同的两极情感识别任务，而无法处理多情感识别任务的技术问题，目前尚未提出有效的解决方案。因此，充分利用语音情感信息和文本情感信息，发现语音情感特征与文本情感特征之间的关系，是本领域技术人员亟待解决的问题之一。

发明内容

本发明的主要目的在于克服现有技术的缺点与不足，提供一种结合语音与文本的多情感识别方法、系统、介质及设备，能够充分利用语音和文本中的情感特征进行多个情感的识别。

为了达到上述目的，本发明采用以下技术方案：

本发明提供的一种结合语音与文本的多情感识别方法，包括下述步骤：

获取目标音频，所述目标音频由多个音频段组成，所述目标音频包含第一语音特征，所述第一语音特征用于生成第一神经网络和语音识别工具的输入；

从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征，所述第一文本特征用于生成第二神经网络和文本识别工具的输入；

基于第一语音特征获得第一语音情感识别信息，所述第一语音情感识别信息为第一情感向量，用于提供从目标音频中提取的语音情感信息；

基于所述第一文本特征获得第一文本情感识别信息，所述第一文本情感识别信息为第二情感向量，用于提供从目标音频中提取的文本情感信息；

基于所述第一语音情感识别信息与所述第一文本情感识别信息，将第一语音情感识别信息与所述第一文本情感识别信息结合，确定所述目标音频的目标情感；具体为：

使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练，以确定第三神经网络的参数，所述第三神经网络将被用于目标情感的获取，在第三神经网络的训练过程中，反向传播过程不会影响第一神经网络与第二神经网络的参数，从而保证第一神经网络与第二神经网络的独立性。

作为优选的技术方案，在获取目标音频前，还包括下述步骤：

使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练，从而确定第一神经网络模型参数的取值，所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取；所述第二语音情感识别信息为训练语音情感识别信息，用于第一深度神经网络模型的训练。

使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练，从而确定第二神经网络模型参数的取值，所述第二神经网络将被用于第一文本情感识别信息的获取；所述第二文本信息为训练文本信息，用于第二深度神经网络模型的训练，所述第二文本情感识别信息为训练文本情感识别信息，用于第二深度神经网络模型的训练。

作为优选的技术方案，所述第一语音情感识别信息为第一情感向量v₁(e_1,1,e_1,2,e_1,3...e_1,n)，其中，e_1,1至e_1,n代表所述语音特征被识别为各种情感的概率。

所述第一文本情感识别信息为第二情感向量v₂(e_2,1,e_2,2,e_2,3...e_2,n)，其中，e_2,1至e_2,n代表所述文本特征被识别为各种情感的概率。

作为优选的技术方案，语音情感和文本情况输出的不是某一种情感，而是情感的概率组合，根据Softmax方法，各情感概率计算如下：

其中，d为1或2，代表语音或文本，n代表情感分类总数,为模型参数。

作为优选的技术方案，所述将第一语音情感识别信息与所述第一文本情感识别信息结合，具体为：

卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征：卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵，n为可识别目标情感的数量；

对池化层进行池化处理，池化层可根据不同的池化窗口划分规则进行最大池化操作，提取出两个情感向量不同情感之间较有价值的关系特征；

利用全连接层和Softmax层之后获得最后的目标情感，全连接层将前面得出的特征整合为可能情感的特征值，最后通过Softmax层获得各可能情感为目标情感的概率；

通过Back-Propagation进行模型参数的调整，根据损失函数

对权重w和偏差b求偏导，使用偏导结果进行梯度下降对w和b进行更新，梯度下降w_i+1＝w_i-ηΔw_i，其中η为学习率，w_i和w_i+1分别为迭代前后的权重。

作为优选的技术方案，第三神经网络训练过程的输入为由语音情感分析结果和文本情感分析结果组成的矩阵，该矩阵确保两个分析结果中所有不同的情感信息都有机会形成组合，矩阵形式如下：

其中，v₁和v₂代表语音与文本情感识别向量，“<<x”代表向量中所有元素向左位移x，位移时将向量左边部分溢出元素往向量右边填充。

本发明还提供了一种结合语音与文本的多情感识别系统，包括：

目标音频获取模块，用于获取目标音频，所述目标音频由多个音频段组成，且所述目标音频包含第一语音特征；

第一转换模块，用于从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征；

第一语音特征获得模块，用于基于所述第一语音特征获得第一语音情感识别信息；

第一文本特征获得模块，用于基于所述第一文本特征获得第一文本情感识别信息；

目标情感确定模块，用于基于所述第一语音情感识别信息与所述第一文本情感识别信息，确定所述目标音频的目标情感。

本发明还提供了一种存储介质，包括存储的程序，所述程序被处理器执行时，实现所述的结合语音与文本的多情感识别方法。

本发明还提供了一种计算设备，包括处理器以及用于存储处理器可执行程序的存储器，所述处理器执行存储器存储的程序时，实现所述的结合语音与文本的多情感识别方法。

本发明与现有技术相比，具有如下优点和有益效果：

(1)在进行语音情感识别和文本情感识别时，所获得的语音情感识别信息和文本情感识别信息为多情感向量，向量中的每一维代表给出的语音特征或文本特征与各种情感的关系。这种多情感向量的表达方式能够保留语音特征和文本特征中更多的情感信息，为之后语音识别情感和文本识别情感的结合提供更多的有用信息。

(2)进行语音识别情感和文本识别情感结合时，与直接使用语音特征和文本特征作为情感结合模型的输入比较，该方法的优点是保证语音特征与文本特征之间互不影响，它们所带的情感信息将能够在各自领域的情感分析中被充分利用，之后的情感结合训练也不会影响前面语音或文本的情感模型。结合的过程不是简单的二者取其一，也不是对于两极情感的权重取值，而是能够对多种不同情感进行识别。

(3)进行语音识别情感和文本识别情感结合时，基于两种情感识别向量，将两种向量中的不同情感元素进行不同组合。不同于常用的直接串联的方法简单地将两种情感向量进行首尾相接，该方法的情感信息组合允许我们充分发现语音与文本的不同情感之间的关系，并最终确定这些不同组合关系与目标情感之间的关系。

附图说明

图1为结合语音与文本的多情感识别模型图；

图2为本实施方式中语音与文本的多情感识别方法的流程图；

图3为本实施方式中一种基于语音情感识别向量与文本情感识别向量构造的情感矩阵示例。

具体实施方式

下面结合附图对本发明作进一步的详细描述。所描述的实施例仅为本发明的一部分实施例，本发明的实施和保护范围不限于此。需要说明的是，本发明的权利要求、说明书及附图中所述的“第一”、“第二”是用于区分相似对象的术语，而不是指示对应对象的顺序。

实施例1

如图1所示，本实施例1结合语音与文本的多情感识别方法，包括下述步骤：

步骤S201，获取目标音频；

在获取目标音频时，可以是终端主动或通过用户操作指令被动获取，或是其他来源发送的音频，又或是已收集整理的音频语料库。获取目标音频的作用为识别其中的情感信息，以及获取其中的文本信息用于文本情感识别。上述文本信息包括但不限于一个句子、一个段落或一个篇章。

情感信息是指说话者在进行口头表达时所要表达的个人情感，如喜怒哀乐等。

步骤S202，提取目标音频的语音特征；

获取语音特征的目的在于生成之后第一神经网络和语音识别工具的输入。语音特征包括：Mel频率倒谱系数MFCC、感知加权线性预测PLP、Filter-bank特征、音调、语音能量、反映说话人声学差异的I-VECT0R特征等。本实例中的使用的特征可以为上述中的一个或多个。

步骤S203，语音识别提取文本信息。

使用语音识别工具提取音频中的文本信息，获得第一文本信息。所述第一文本信息将用于文本情感识别。语音识别工具可以为现存的语音识别引擎，或是使用训练语料库进行训练获得的新的语音识别神经网络。语音识别工具的作用语音可以根据实际需求进行选择，可以为中文、英文或其他不同语言。

步骤S204，文本信息预处理。

文本信息的预处理包括：文本的分词、去除停用词(Stop words)、词向量化。文本的分词对文本特征提取有重要作用，如例句“今天是星期天，我和朋友去看了一场电影。”分词结果为：今天、是、星期天、我、和、朋友、去、看了、一场、电影。句子中的主谓宾等结构以及名词动词被分别提取出来。

停用词是指将文本信息中对文本分析没有作用的词语，如“的”、“呢”等。去除停用词的目的是加强神经网络的学习能力，提高神经网络的文本分析准确度。

词向量化是指用一个向量的形式来表达一个词，其作用在于将输入的文本信息转化为数值的形式，以作为神经网络的输入。词向量化的有多种不同的算法，主要有词袋、CBOW和Skip-gram算法。可以选择适合的算法进行词向量化模型的训练，或是采用已训练好的词向量化模型，如GloVe。

步骤S205，第二神经网络进行文本情感识别。

以上述词向量作为输入，使用第二神经网络进行文本情感识别，获得第一文本识别情感。第一文本识别情感为第二情感向量v₂(e_2,1,e_2,2,e_2,3...e_2,n)，向量的各个维度代表对应情感的概率。

第二神经网络模型可使用已训练好的模型，或是使用训练文本进行模型训练，又或是使用其他传统机器学习算法。模型的训练，如使用在文本分析领域中准确度较高的CNN-LSTM模型。训练的过程包括：

(1)对训练文本进行如上述文本预处理过程。

(2)CNN部分的卷积层进行特征提取，池化层进行池化处理。

(3)LSTM部分进行特征的顺序输入，每个神经元通过其记录的细胞状态影响下一次输入的输出结果。

(4)最后经过Softmax层获得各个情感的预测值。

(5)通过Back-Propagation进行模型参数的调整。

步骤S206，第一神经网络进行语音情感识别。

使用上述语音特征作为输入，使用第一神经网络进行语音情感识别，获得第一语音识别情感。第一语音识别情感为第一情感向量v₁(e_1,1,e_1,2,e_1,3...e_1,n)，向量的各个维度代表对应情感的概率。

第一神经网络模型可使用已训练好的模型，或是使用训练音频进行模型训练，又或是使用其他传统机器学习算法。模型的训练，如使用在CNN模型。训练的过程包括：

(1)卷积层进行特征提取，池化层进行池化处理。

(2)最后经过Softmax层获得各个情感的预测值。

(3)通过Back-Propagation进行模型参数的调整。

步骤S207，语音识别情感和文本识别情感的结合。

语音识别情感与文本识别情感的方法可以采用传统机器学习算法，也可以使用深度学习的方法。如使用CNN模型，其步骤包括：

(1)卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征：

卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵，n为可识别目标情感的数量。如图2所示，矩阵的第i行以及第i+1行分别为r_i(e_1,1,e_1,2,e_1,3,e_1, ₄...e_1,n)，r_i+1(e_2,i,e_2,i+1...e_2,n,e_2,1,e_2,2...e_2,i-1)。其中，i为奇数，r_i由第一情感向量中的元素组成，r_i+1由第二情感向量中的元素组成。这个新矩阵的每个元素可以用e’_j,k表示，这个矩阵通过两个情感向量之间不同情感一一对应的方式，允许提取两个情感向量的不同情感之间的关系特征。使用不同的卷积核对输入矩阵进行卷积，卷积后获得的新特征可以用c_j,k表示，c_j,k＝f(w*e’_j,k+b)。

(2)池化层进行池化处理。

这一层可以根据不同的池化窗口划分规则进行最大池化操作，提取出两个情感向量不同情感之间较有价值的关系特征。

(3)全连接层和Softmax层之后获得最后的目标情感。

全连接层将前面得出的特征整合为可能情感的特征值，最后通过Softmax层获得各可能情感为目标情感的概率。

(4)通过Back-Propagation进行模型参数的调整。

根据损失函数

对权重w和偏差b求偏导，使用偏导结果进行梯度下降对w和b进行更新。梯度下降w_i+1＝w_i-ηΔw_i，其中η为学习率，w_i和w_i+1分别为迭代前后的权重。

使用这个模型的好处是可以充分利用和发现语音和文本中的情感信息的关系。如说话者在表达惊喜的事情的时候，文本信息表达的内容明显为高兴，而语音信息表达为害怕的概率最高，概率第二高的是惊喜，因为害怕和惊喜在语音表达时有很多相似点。结合语音与文本的识别情感，我们可以发现最终情感应为惊喜。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

实施例2

如图3所示，本实施例提供了一种结合语音与文本的多情感识别系统，该系统包括目标音频获取模块、第一转换模块、第一语音特征获得模块、第一文本特征获得模块、以及目标情况确定模块，各个模块的具体功能如下：

所述目标音频获取模块，用于获取目标音频，所述目标音频由多个音频段组成，且所述目标音频包含第一语音特征；

所述第一转换模块，用于从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征；

所述第一语音特征获得模块，用于基于所述第一语音特征获得第一语音情感识别信息；

所述第一文本特征获得模块，用于基于所述第一文本特征获得第一文本情感识别信息；

所述目标情感确定模块，用于基于所述第一语音情感识别信息与所述第一文本情感识别信息，确定所述目标音频的目标情感。

在此需要说明的是，上述实施例提供的系统仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

可以理解，上述实施例的机器人系统所使用的术语“第一”、“第二”等可用于描述各种模块，但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。

实施例3:

本实施例提供了一种存储介质，该存储介质存储有一个或多个程序，所述程序被处理器执行时，实现上述实施例1的结合语音与文本的多情感识别方法，如下：

获取目标音频，所述目标音频由多个音频段组成，且所述目标音频包含第一语音特征；

从所述目标音频中转换出第一文本信息，所述第一文本信息包含第一文本特征；

基于所述第一语音特征获得第一语音情感识别信息；

基于所述第一文本特征获得第一文本情感识别信息；

基于所述第一语音情感识别信息与所述第一文本情感识别信息，确定所述目标音频的目标情感。

本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。

实施例4：

本实施例提供了一种计算设备，该计算设备包括处理器和存储器，存储器存储有一个或多个程序，处理器执行存储器存储的程序时，实现上述实施例1的结合语音与文本的多情感识别方法，如下：

基于所述第一语音特征获得第一语音情感识别信息；

基于所述第一文本特征获得第一文本情感识别信息；

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.结合语音与文本的多情感识别方法，其特征在于，包括下述步骤：

2.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，在获取目标音频前，还包括下述步骤：

3.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，在获取目标音频前，还包括下述步骤：

4.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，所述第一语音情感识别信息为第一情感向量v₁(e_1,1,e_1,2,e_1,3...e_1,n)，其中，e_1,1至e_1,n代表所述语音特征被识别为各种情感的概率。

5.根据权利要求4所述结合语音与文本的多情感识别方法，其特征在于，语音情感和文本情况输出的不是某一种情感，而是情感的概率组合，根据Softmax方法，各情感概率计算如下：

6.根据权利要求1所述结合语音与文本的多情感识别方法，其特征在于，所述将第一语音情感识别信息与所述第一文本情感识别信息结合，具体为：

通过Back-Propagation进行模型参数的调整，根据损失函数

7.根据权利要求4所述结合语音与文本的多情感识别方法，其特征在于，第三神经网络训练过程的输入为由语音情感分析结果和文本情感分析结果组成的矩阵，该矩阵确保两个分析结果中所有不同的情感信息都有机会形成组合，矩阵形式如下：

8.结合语音与文本的多情感识别系统，其特征在于，包括：

9.存储介质，包括存储的程序，其特征在于：所述程序被处理器执行时，实现权利要求1-7任一项所述的结合语音与文本的多情感识别方法。

10.计算设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于：所述处理器执行存储器存储的程序时，实现权利要求1-7任一项所述的结合语音与文本的多情感识别方法。