CN108305641B

CN108305641B - 情感信息的确定方法和装置

Info

Publication number: CN108305641B
Application number: CN201710524470.1A
Authority: CN
Inventors: 刘海波
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2017-06-30
Filing date: 2017-06-30
Publication date: 2020-04-07
Anticipated expiration: 2037-06-30
Also published as: CN108305641A

Abstract

本发明公开了一种情感信息的确定方法和装置。其中，该方法包括：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征；将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。本发明解决了相关技术中无法准确识别说话者的情感信息的技术问题。

Description

情感信息的确定方法和装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种情感信息的确定方法和装置。

背景技术

现在，伴随着多媒体内容的增加，从市场上需求可进行短时间内的视听的内容概要技术。此外，内容的种类呈现多样化的趋势，例如电影、连续剧、家庭录像、新闻、纪录片、音乐内容、生活实时场景、网络小说、文字新闻等，对应于此，试听者的视听要求也越来越多样化。

伴随着这种视听要求的多样化，需要用于对试听者的视听要求立即检索、提示要观看的适配、场面的技术。例如内容概要技术，即基于包含的文字信息而概要内容，在内容概要技术中，通过对文字信息进行分析，从而确定文字信息携带的情感，如笑、生气、悲伤等。

上述的分析方法中，可采用基于音频的情感检测方法对说话者的音频进行检测，使用音频进行情感检测，对说话者具有比较明显的情感表达的情况具有比较好的作用，当说话人的情感表达不强烈，比如一个很高兴的事情，用很平淡的语气表达出来，此时音频中几乎不带有用于表达高兴的特征，对于这种情况，基于语音的情感检测就失去作用，没有办法根据语音特征进行准确判决，甚至可能得到错误的判决结果。

针对相关技术中无法准确识别说话者的情感信息的技术问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种情感信息的确定方法和装置，以至少解决相关技术中无法准确识别说话者的情感信息的技术问题。

根据本发明实施例的一个方面，提供了一种情感信息的确定方法，该确定方法包括：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征；将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。

根据本发明实施例的另一方面，还提供了一种情感信息的确定装置，该确定装置包括：第一获取单元，用于获取目标音频；识别单元，用于从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征；第二获取单元，用于将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。

在本发明实施例中，在获取目标音频时，从目标音频中识别出第一文本信息，然后通过第一深度神经网络模型根据第一文本特征和第一语音特征确定目标音频的目标情感信息，利用多个维度的特征(语音特征和文本特征)来确定目标音频的目标情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的情感信息的确定方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图；

图3是根据本发明实施例的一种可选的进行训练的流程图；

图4是根据本发明实施例的一种可选的情感信息的确定方法的流程图；

图5是根据本发明实施例的一种可选的情感信息的确定装置的示意图；

图6是根据本发明实施例的一种可选的情感信息的确定装置的示意图；

图7是根据本发明实施例的一种可选的情感信息的确定装置的示意图；以及

图8是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种情感信息的确定方法的方法实施例。

可选地，在本实施例中，上述情感信息的确定方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。本发明实施例的情感信息的确定方法可以由服务器102来执行，也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的情感信息的确定方法也可以是由安装在其上的客户端来执行。

当本发明实施例的情感信息的确定方法由服务器或终端来单独执行时，直接在服务器或终端上来执行与本申请的方法对应的程序代码即可。

当本发明实施例的情感信息的确定方法由服务器和终端共同来执行时，由终端发起识别目标音频的需求，此时，由终端将待识别的目标语音发送给服务器，再由服务器来执行与本申请的方法对应的程序代码，并将识别的结果反馈给终端。

下面以在服务器或终端上来执行与本申请的方法对应的程序代码为例详述本申请的实施例，图2是根据本发明实施例的一种可选的情感信息的确定方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，获取目标音频。

可以是终端主动获取目标音频，或者接收其它设备发送的目标音频，或者在目标指令的触发下获取目标音频。目标指令相当于用户或者终端触发的用于识别目标音频的指令。获取目标音频是为了识别目标音频的情感信息，该情感信息为通过目标音频表述文本信息时所表露(包括但不局限于通过文本中的字眼或文字、音频中的音调、音色等所表露出的)出来的情感信息。

上述的文本信息是指一个句子或多个句子的组合，一个文本包括但不局限于一个句子(Sentence)、一个段落(Paragraph)或者一个篇章(Discourse)。

情感信息是用于描述说话者情感的信息，如在聊到某件事时，表达出与高兴相关的情感(高兴、平淡、悲伤)，如接收到别人道歉时，表达出与原谅相关的情感(原谅、不置可否、不原谅)等。

步骤S204，从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征。

从目标音频中识别出第一文本信息，是指通过语音识别的方式识别出目标音频所表达的第一文本信息(此处识别出的第一文本信息可能与实际表述的文本信息存在细微区别)。

对于语音识别而言，语音特征包括以下几方面的特征：感知加权线性预测PLP(Perceptual Linear Predictive)、Mel频率倒谱系数MFCC(Mel-Frequency CepstralCoefficients)、FBANK(Filter-bank特征)、音调PITCH(如高低音)、语音能量ENERGY、I-VECTOR(反映说话人声学差异的一种重要特征)等。本申请中的使用的特征可以为上述中的一个或多个，优选地使用多个。第一语音特征为目标音频具有的语音特征。

对于文本识别而言，可以通过语音识别引擎从目标音频中识别出上述的第一文本信息，文本信息的文本特征包括文本中每个短语或词汇的情感类型、情感倾向、情感强度等特征，还可以是短语之间的关联关系特征等。第一文本特征为第一文本信息具有的文本特征。

步骤S206，将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息(即表述第二文本信息时得到的音频)。第二语音特征为训练音频具有的语音特征。第二文本特征为第二文本信息具有的文本特征。

在确定目标音频的目标情感信息时，综合考虑了第一文本信息具有的文本特征和目标音频具有的语音特征，相对于相关技术中，仅采用基于音频的情感检测方法对说话者的音频进行检测而言，既可以使用音频进行情感检测，对说话者具有比较明显的情感表达的情况具有比较好的作用，但当说话人的情感表达不强烈，比如一个很高兴的事情，用很平淡的语气表达出来时，音频中几乎不带有用于表达高兴的特征，对于这种情况，还可以使用基于文本的情感检测方法对说话者的音频中的文本信息进行检测，从而可以根据文本特征进行准确判决，以弥补仅仅通过音频来进行情感检测的不足，达到提高判决结果的准确度的效果。

另外，不同于通过不同的模型来对目标音频的第一语音特征和第一文本特征进行分别处理，本申请通过第一深度神经网络模型同时考虑了目标音频的第一语音特征和第一文本特征，相对于仅考虑语音特征或文本特征而言，所涉及的维度更多，能够充分挖掘语音特征和文本特征内部的关联，根据该关联关系确定的目标音频的目标情感信息准确度更高。

通过上述步骤S202至步骤S206，在获取目标音频时，从目标音频中识别出第一文本信息，然后通过第一深度神经网络模型根据第一文本特征和第一语音特征确定目标音频的目标情感信息，利用多个维度的特征(语音特征和文本特征)来确定目标音频的目标情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

仅采用基于音频的情感检测方法的模型对说话者的音频进行检测而言，对说话者具有比较明显的情感表达的情况具有比较好的作用，使用基于文本的情感检测方法的模型对说话者的音频中的文本信息具有比较明显的情感表达的情况具有比较好的作用，然而，何时(即什么样的场景或什么样的语音)利用基于音频的情感检测方法的模型进行检测，何时利用基于文本的情感检测方法的模型进行检测是未知的，不可能提前预知使用哪一种方法来对当前待检测音频的检测效果更好。

申请人考虑到，对于某些情感比较明显的文本若使用平淡的语气表述(如情感为高兴的文本若使用平淡的语气表述)，使用基于文本的情感检测方法的识别效果明显较好，对于某些情感比平淡显的文本若使用带明显情感的语气表述(如比较平淡的文本用高兴的语气表述)，基于音频的情感检测方法的识别效果明显较好，上述情感比较明显的文本可以使用平淡的语气或情感比较明显的语气表述，情感比较平淡的文本也可以使用带显著情感的语气或平淡的语气表述，不会出现某些正向情感比较明显的文本使用反向情感的语气表述，如带高兴情感色彩的文本使用悲伤的语气来表述。

因此，在上述认识的基础上，只要语音或文字带明显的情感色彩(即第一情感等级的情感信息)，则可以确定目标语音为带有情感色彩的语音。通过对第二深度神经网络模型进行训练，由于是使用训练音频和第二文本信息(多个维度的信息)进行训练，则可以充分挖掘音频和文本信息之间的关联关系，避免出现上述采用多个模型来分别识别音频和文本信息时出现的问题，从而提高识别准确度，具体的训练方案如下：

本申请的训练过程主要分为两个部分，第一部分是训练文本分类CNN模型(卷积神经网络模型)，第二部分是训练文本音频DNN模型(深度神经网络模型)。

(1)CNN训练过程

在获取目标音频之前，按照如下方式对CNN进行训练：将第二文本信息作为第二卷积神经网络模型的输入，以对第二卷积神经网络模型进行训练，对第二卷积神经网络模型进行训练包括为第二卷积神经网络模型中的参数赋值，将第二卷积神经网络模型输出的第二文本信息的第二文本特征作为第二深度神经网络模型的输入；在第二深度神经网络模型输出的第二情感信息与训练音频的第一情感信息匹配的情况下，将对参数赋值后的第二卷积神经网络模型设置为第一卷积神经网络模型。

具体而言，CNN训练过程如图3所示：

步骤S301，对第二文本进行分词。

对训练语句进行分词，比如对例句“今天发工资了，我非常开心”分词的结果为：今天、发工资、了、我、非常、开心。这个训练的语句的情感标签(实际情感信息)是高兴。

步骤S302，通过Word2vector对分词后的词语进行词向量化。

词向量顾名思义是用一个向量的形式表示一个词。由于机器学习任务需要把输入量化成数值表示，然后通过充分利用计算机的计算能力，计算得出最终想要的结果，所以需要将词向量化。

根据训练语句中分词的个数，形成一个n*k的矩阵，其中，n是训练语句词的个数，k为向量vector的维数，这个矩阵的类型可以是固定的，也可以是动态的，根据具体的情况进行选择。

目前word2vector有比较多并且稳定的算法，本申请可以选择CBOW和Skip-gram实现，对于CBOW算法模型和Skip-gram算法模型，可以Huffman树作为基础，Huffman树中非叶节点存储的中间向量的初始化值是零向量，而叶节点对应的单词的词向量是随机初始化的。

步骤S303，第二卷积神经网络模型的卷积层进行特征提取。

前一步生成的n*k矩阵，经过卷积层，得到若干个列数为1的矩阵，这个层类似一个特征提取层，生成n个词，k维的vector矩阵，这条句子可以表示为：

x_i:i+j是词x₁,x₂,...,x_i+j的组合，符号

表示布尔运算异或逻辑运算，一个卷积操作相当于一个滤波器，使用窗长为l的词产生一个新的特征，新的特征可以用c_i表示，则卷积操作为：

c_i＝f(w·x_i:i+l-1+b)，这个滤波器可以对{x_1:l,x_2:l,...,x_n-l+1:n}不同词组合产生一个新的特征序列c＝[c₁,c₂,...,c_n-l+1]，使用多个滤波器对应不同的窗长可以产生多个列为1的矩阵。

步骤S304，第二卷积神经网络模型的池层进行池化处理。

前一步生成的若干个列为1的矩阵，可以根据实际情况选取最大或者最大的几个作为新的特征，经过这一层之后形成固定维数的特征，可以解决句子长短的问题。

步骤S305，第二卷积神经网络模型的神经网络层处理得到分类结果(也即第二文本特征)。

通过前一步使用m个滤波器，如果每个滤波器通过池操作选取最大的值作为新的特征，那么就形成一个m维的新的特征

(

表示第m个滤波器的特征序列c中的特征值最大的特征，m的取值大于1)，通过一个NN层y_i＝w·z+b(w表示权重，b表示偏差)，通过多个NN层，得到最终的输出(即第二文本特征)。

步骤S306，通过第二卷积神经网络模型的Back-Propagation(BP层)对参数进行调整优化。

前一步生成的输出与真实的输出通过合适的损失函数(通常是最大熵和最小均方误差函数作为损失函数)，使用随机梯度下降法，对CNN模型的参数进行更新，经过多轮迭代使模型达到最优。

随机梯度下降W_i+1＝W_i-η△W_i，其中η是学习率，W_i为迭代前的权重(即模型中的参数)，W_i+1为迭代后的权重。

最大熵损失函数：

对损失函数对权重w和偏差b求偏导，使用随机梯度下降法逐轮对w和b进行更新。

BP算法是从最后一层逐层像对前面不同层的w和b进行更新，训练过程完成后得到CNN模型(第一卷积神经网络模型)。

(2)文本和音频的DNN共同训练过程

在获取目标音频之前，通过使用训练音频和第二文本信息对第二深度神经网络模型进行训练，可以确定第二深度神经网络模型中参数的取值，确定了参数的取值之后的第二深度神经网络模型即为第一深度神经网络模型。

需要说明的是，训练音频具有第二语音特征，第二文本信息具有第二文本特征，在使用训练音频和第二文本信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型时，可以通过如下方式实现：

将第二语音特征和第二文本特征作为第二深度神经网络模型的输入，以对第二深度神经网络模型进行训练，以挖掘语音特征和文本特征这二者与情感信息直接的关联关系进行挖掘，其中，对第二深度神经网络模型进行训练包括为第二深度神经网络模型中的参数赋值，训练音频携带有第一情感信息。在第二情感信息与第一情感信息不匹配的情况下，调整赋予第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的第二深度神经网络模型输出的第二情感信息与第一情感信息匹配；在第二深度神经网络模型输出的第二情感信息与第一情感信息匹配的情况下，将对参数赋值后的第二深度神经网络模型设置为第一深度神经网络模型。

具体而言，DNN训练过程如图3所示：

当CNN模型训练完毕之后，使用CNN模型输出的结果(也即上述的第二文本特征)作为新的特征与语音特征一起送到DNN中去训练DNN模型，其中CNN输出的结果可以是卷积层，也可以是池层以及输出层的结果，以及这几种的融合。

步骤S307，对训练音频进行分帧。

语音信号因为是准稳态信号，在处理时常把信号分帧，每帧长度约20ms-30ms，在这一区间内把语音信号看作为稳态信号，只有稳态的信息才能进行信号处理，所以要先分帧。

步骤S308，对训练音频分帧后的语音帧进行特征提取，语音特征、情感批注、文本特征送到DNN模型中。

对训练语音进行特征提取，提取的特征可以有很多种，比如PLP，MFCC，FBANK，PITCH，ENERGY，I-VECTOR等，可以提取这多种特征中的一个或者多个，本申请优先使用的特征是多种特征的融合。

步骤S309，对语音特征和文本特征进行组合。

根据文本特征生成的不同位置有三种不同的组合方式，第一种使用池层之后的特征，第二种使用NN层之后的特征，第三种使用输出层之后的特征，融合的方式都是一样的，音频特征提取固定维度(如m维)的特征，和CNN生成的n维特征(不同位置输出的特征n的值可能不同)，重新组合成m+n维的新的特征，送到DNN模型中。

步骤S310，对DNN模型(也即第二深度神经网络模型)进行训练。

文本和音频特征组合成新的特征进行DNN训练，DNN中间层之间的传递与CNN中的NN层是一样的，权重参数更新的方法与CNN一样，根据训练特征生成的输出与实际批注之间误差，损失函数对w和b求偏导，使用Back-Propagation(BP)和随机梯度下降法对w和b进行更新，方法和CNN的一样；BP算法是从最后一层逐层对前面不同层的w和b进行更新，训练过程完成后得到DNN模型(第一深度神经网络模型)。

需要说明的是，上述的训练过程实际是在挖掘情感信息与语音特征、第一文本特征这二者之间的关联关系，以使得到的第一深度神经网络模型能够根据关联关系识别出情感信息。

在完成了上述的训练之后，即可使用训练好的模型进行情感识别，下面结合步骤S202至步骤S206进行详述。

在步骤S202提供的技术方案中，获取目标音频，如在终端上获取用户通过音频输入设备(如麦克风)输入的一段音频。

在步骤S204提供的技术方案中，从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征。

声学特征的提取与选择是语音识别的一个重要环节，声学特征的提取既是一个信息大幅度压缩的过程，也是一个信号解卷过程，目的是使模式划分器能更好地划分。由于语音信号的时变特性，特征提取必须在一小段语音信号上进行，也即进行短时分析。这一段被认为是平稳的分析区间称之为帧，帧与帧之间的偏移通常取帧长的1/2或1/3。通常提取目标音频中的语音特征的过程中，可对信号进行预加重以提升高频，对信号加窗以避免短时语音段边缘的影响。上述的得到第一文本信息的过程可以通过语音识别引擎实现。

在步骤S206提供的技术方案中，在将第一语音特征和第一文本特征作为第一深度神经网络模型的输入之前，可以通过第一卷积神经网络模型识别出第一文本信息具有的第一文本特征。

在将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息时，可将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，以使第一深度神经网络模型根据关联关系识别出与第一语音特征和第一文本特征关联的目标情感信息，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；获取第一深度神经网络模型输出的目标情感信息。

可选地，在获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息之后，播放目标音频并展示目标音频的目标情感信息；接收用户的反馈信息，反馈信息中包括用于指示识别出的目标情感信息是否正确的指示信息，在不正确的情况下，反馈信息中还包括用户根据播放的目标音频识别出的实际情感信息。

若识别出的目标情感信息不正确，则说明卷积神经网络模型和深度神经网络模型的识别准确度有待提高，尤其是对于这一类识别错误的音频信息，其识别率更差，此时，利用负反馈机制来提高识别率，具体可利用这一类识别错误的音频信息按照上述的方式对卷积神经网络模型和深度神经网络模型进行重新训练，对两个模型中的参数进行重新赋值，以提高其识别准确率。

作为一种可选的实施例，下面结合图4进一步详述本申请的实施例：

步骤S401，对目标音频进行分帧。

在处理时把信号分帧为长度约20ms-30ms的语音帧，在这一区间内把语音信号可看作为稳态信号，进而便于进行信号处理。

步骤S402，提取目标音频分帧后的语音特征(也即声学特征)。

识别出的语音特征包括但不局限于感知加权线性预测PLP、Mel频率倒谱系数MFCC、FBANK、音调PITCH、语音能量ENERGY、I-VECTOR中的多个。

步骤S403，对于得到的多个语音特征，取其中固定维数的特征(如特征值最大的多个)。

步骤S404，通过语音识别引擎ASR对目标音频进行语音识别，得到第一文本信息。

步骤S405，对第一文本信息(也即音频标注文本)进行分词，如对“明天就要放假了，我好开心啊”分词的结果为：明天、就要、放假、了、我、好、开心、啊。

步骤S406，通过Word2vector对分词后的词语进行词向量化。

步骤S407，通过机器学习算法(包括卷积操作、池操作等)对得到的向量特征进行处理，得到第一文本信息的文本特征向量(也即第一文本特征)。

步骤S408，对语音特征和文本特征进行组合。

步骤S409，DNN模型根据特征对情感信息进行识别。

在DNN模型内部已经学习到了文本特征和语音特征这两个变量与不同类型的情感信息之间的关联关系，此时，DNN模型可以根据输入的第一文本特征和第一语音特征，识别出对应的情感信息。

在本申请的实施例中，输入音频，经过特征提取，特征提取分为两种一种用于语音识别，经过语音识别引擎，得到语音识别结果，语音识别结果经过分词，Word2vector，进入CNN模型生成文本特征，与音频生成的特征组合到一起生成新的特征然后送到DNN模型中，得到最终结果，由于同时考虑了文本特征和语音特征这两个维度的特征，可以使得识别结果更为准确。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

根据本发明实施例，还提供了一种用于实施上述情感信息的确定方法的情感信息的确定装置。图5是根据本发明实施例的一种可选的情感信息的确定装置的示意图，如图5所示，该装置可以包括：第一获取单元51、识别单元52以及第二获取单元53。

第一获取单元51，用于获取目标音频。

识别单元52，用于从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征。

第二获取单元53，用于将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。

需要说明的是，该实施例中的第一获取单元51可以用于执行本申请实施例1中的步骤S202，该实施例中的识别单元52可以用于执行本申请实施例1中的步骤S204，该实施例中的第二获取单元53可以用于执行本申请实施例1中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，在获取目标音频时，从目标音频中识别出第一文本信息，然后通过第一深度神经网络模型根据第一文本特征和第一语音特征确定目标音频的目标情感信息，利用多个维度的特征(语音特征和文本特征)来确定目标音频的目标情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

可选地，仅采用基于音频的情感检测方法的模型对说话者的音频进行检测而言，对说话者具有比较明显的情感表达的情况具有比较好的作用，使用基于文本的情感检测方法的模型对说话者的音频中的文本信息具有比较明显的情感表达的情况具有比较好的作用，然而，何时(即什么样的场景或什么样的语音)利用基于音频的情感检测方法的模型进行检测，何时利用基于文本的情感检测方法的模型进行检测是未知的，不可能提前预知使用哪一种方法来对当前待检测音频的检测效果更好。

因此，在上述认识的基础上，只要语音或文字带明显的情感色彩(即第一情感等级的情感信息)，则可以确定目标语音为带有情感色彩的语音。通过对第二深度神经网络模型进行训练，由于是使用训练音频和第二文本信息(多个维度的信息)进行训练，则可以充分挖掘音频和文本信息之间的关联关系，避免出现上述采用多个模型来分别识别音频和文本信息时出现的问题，从而提高识别准确度。

如图6所示，具体的训练方案可以通过该装置的训练单元54实现，训练单元在获取目标音频之前，使用训练音频和第二文本信息对第二深度神经网络模型进行训练，以确定第二深度神经网络模型中参数的取值，并将确定了参数的取值之后的第二深度神经网络模型设置为第一深度神经网络模型。

可选地，训练音频具有第二语音特征，第二文本信息具有第二文本特征，如图7所示，训练单元54包括：

训练模块541，用于将第二语音特征和第二文本特征作为第二深度神经网络模型的输入，以对第二深度神经网络模型进行训练，其中，对第二深度神经网络模型进行训练包括为第二深度神经网络模型中的参数赋值，训练音频携带有第一情感信息；

设置模块542，用于在第二深度神经网络模型输出的第二情感信息与第一情感信息匹配的情况下，将对参数赋值后的第二深度神经网络模型设置为第一深度神经网络模型，第一深度神经网络模型用于根据关联关系识别情感信息，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

调整模块543，用于在第二情感信息与第一情感信息不匹配的情况下，调整赋予第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的第二深度神经网络模型输出的第二情感信息与第一情感信息匹配。

可选地，本申请的装置还可以包括卷积神经网络模型训练模块，用于在获取目标音频之前，执行如下操作：将第二文本信息作为第二卷积神经网络模型的输入，以对第二卷积神经网络模型进行训练，其中，对第二卷积神经网络模型进行训练包括为第二卷积神经网络模型中的参数赋值；将第二卷积神经网络模型输出的第二文本信息的第二文本特征作为第二深度神经网络模型的输入；在第二深度神经网络模型输出的第二情感信息与训练音频的第一情感信息匹配的情况下，将对参数赋值后的第二卷积神经网络模型设置为第一卷积神经网络模型。

可选地，在将第一语音特征和第一文本特征作为第一深度神经网络模型的输入之前，通过第一卷积神经网络模型识别出第一文本信息具有的第一文本特征。

可选地，识别单元从目标音频中识别出第一文本信息时，通过语音识别引擎从目标音频中识别出第二文本信息，其中，语音识别引擎用于识别出音频中的文本信息。

本申请的第二获取单元可包括：输入模块，用于将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，以使第一深度神经网络模型根据关联关系识别出与第一语音特征和第一文本特征关联的目标情感信息，其中，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；获取模块，用于获取第一深度神经网络模型输出的目标情感信息。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

实施例3

根据本发明实施例，还提供了一种用于实施上述情感信息的确定方法的服务器或终端(即电子装置)。

图8是根据本发明实施例的一种终端的结构框图，如图8所示，该终端可以包括：一个或多个(图8中仅示出一个)处理器801、存储器803、以及传输装置805(如上述实施例中的发送装置)，如图8所示，该终端还可以包括输入输出设备807。

其中，存储器803可用于存储软件程序以及模块，如本发明实施例中的情感信息的确定方法和装置对应的程序指令/模块，处理器801通过运行存储在存储器803内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的情感信息的确定方法。存储器803可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器803可进一步包括相对于处理器801远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置805用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置805包括一个网络适配器(NetworkInterface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置805为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器803用于存储应用程序。

处理器801可以通过传输装置805调用存储器803存储的应用程序，以执行下述步骤：获取目标音频；从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征；将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。

处理器801还用于执行下述步骤：将第二语音特征和第二文本特征作为第二深度神经网络模型的输入，以对第二深度神经网络模型进行训练，其中，对第二深度神经网络模型进行训练包括为第二深度神经网络模型中的参数赋值，训练音频携带有第一情感信息；在第二深度神经网络模型输出的第二情感信息与第一情感信息匹配的情况下，将对参数赋值后的第二深度神经网络模型设置为第一深度神经网络模型，其中，第一深度神经网络模型用于根据关联关系识别情感信息，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；其中，在第二情感信息与第一情感信息不匹配的情况下，调整赋予第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的第二深度神经网络模型输出的第二情感信息与第一情感信息匹配。

采用本发明实施例，在获取目标音频时，从目标音频中识别出第一文本信息，然后通过第一深度神经网络模型根据第一文本特征和第一语音特征确定目标音频的目标情感信息，利用多个维度的特征(语音特征和文本特征)来确定目标音频的目标情感信息，可以解决相关技术中无法准确识别说话者的情感信息的技术问题，进而达到提高识别说话者的情感信息的准确度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例1和实施例2中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图8所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，终端还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例4

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行情感信息的确定方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S11，获取目标音频；

S12，从目标音频中识别出第一文本信息，目标音频具有第一语音特征，第一文本信息具有第一文本特征；

S13，将第一语音特征和第一文本特征作为第一深度神经网络模型的输入，并获取第一深度神经网络模型根据第一语音特征和第一文本特征确定的目标音频的目标情感信息，第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，训练音频用于表述第二文本信息。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S21，将第二语音特征和第二文本特征作为第二深度神经网络模型的输入，以对第二深度神经网络模型进行训练，其中，对第二深度神经网络模型进行训练包括为第二深度神经网络模型中的参数赋值，训练音频携带有第一情感信息；

S22，在第二深度神经网络模型输出的第二情感信息与第一情感信息匹配的情况下，将对参数赋值后的第二深度神经网络模型设置为第一深度神经网络模型，其中，第一深度神经网络模型用于根据关联关系识别情感信息，关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；其中，在第二情感信息与第一情感信息不匹配的情况下，调整赋予第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的第二深度神经网络模型输出的第二情感信息与第一情感信息匹配。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种情感信息的确定方法，其特征在于，包括：

获取目标音频；

从所述目标音频中识别出第一文本信息，其中，所述目标音频具有第一语音特征，所述第一文本信息具有第一文本特征；

将所述第一语音特征和所述第一文本特征作为第一深度神经网络模型的输入，并获取所述第一深度神经网络模型根据所述第一语音特征和所述第一文本特征确定的所述目标音频的目标情感信息，其中，所述第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，所述训练音频用于表述所述第二文本信息，所述训练音频具有第二语音特征，所述第二文本信息具有第二文本特征，对所述第二深度神经网络模型进行训练包括为所述第二深度神经网络模型中的参数赋值，所述训练音频携带有第一情感信息。

2.根据权利要求1所述的方法，其特征在于，在获取所述目标音频之前，所述方法还包括：

使用所述训练音频和所述第二文本信息对所述第二深度神经网络模型进行训练，以确定所述第二深度神经网络模型中参数的取值，并将确定了所述参数的取值之后的所述第二深度神经网络模型设置为所述第一深度神经网络模型。

3.根据权利要求2所述的方法，其特征在于，使用所述训练音频和所述第二文本信息对所述第二深度神经网络模型进行训练，以确定所述第二深度神经网络模型中参数的取值，并将确定了所述参数的取值之后的所述第二深度神经网络模型设置为所述第一深度神经网络模型包括：

将所述第二语音特征和所述第二文本特征作为所述第二深度神经网络模型的输入，以对所述第二深度神经网络模型进行训练；

在所述第二深度神经网络模型输出的第二情感信息与所述第一情感信息匹配的情况下，将对参数赋值后的所述第二深度神经网络模型设置为所述第一深度神经网络模型，其中，所述第一深度神经网络模型用于根据关联关系识别情感信息，所述关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

其中，在所述第二情感信息与所述第一情感信息不匹配的情况下，调整赋予所述第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的所述第二深度神经网络模型输出的第二情感信息与所述第一情感信息匹配。

4.根据权利要求1至3中任一项所述的方法，其特征在于，在将所述第一语音特征和所述第一文本特征作为第一深度神经网络模型的输入之前，所述方法还包括：

通过第一卷积神经网络模型识别出所述第一文本信息具有的第一文本特征。

5.根据权利要求4所述的方法，其特征在于，在获取目标音频之前，所述方法还包括：

将所述第二文本信息作为第二卷积神经网络模型的输入，以对所述第二卷积神经网络模型进行训练，其中，对所述第二卷积神经网络模型进行训练包括为所述第二卷积神经网络模型中的参数赋值；

将所述第二卷积神经网络模型输出的所述第二文本信息的所述第二文本特征作为第二深度神经网络模型的输入；

在所述第二深度神经网络模型输出的第二情感信息与所述训练音频的第一情感信息匹配的情况下，将对参数赋值后的所述第二卷积神经网络模型设置为所述第一卷积神经网络模型。

6.根据权利要求1所述的方法，其特征在于，从所述目标音频中识别出第一文本信息包括：

通过语音识别引擎从所述目标音频中识别出所述第二文本信息，其中，所述语音识别引擎用于识别出音频中的文本信息。

7.根据权利要求1所述的方法，其特征在于，将所述第一语音特征和所述第一文本特征作为第一深度神经网络模型的输入，并获取所述第一深度神经网络模型根据所述第一语音特征和所述第一文本特征确定的所述目标音频的目标情感信息包括：

将所述第一语音特征和所述第一文本特征作为所述第一深度神经网络模型的输入，以使所述第一深度神经网络模型根据关联关系识别出与所述第一语音特征和所述第一文本特征关联的所述目标情感信息，其中，所述关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

获取所述第一深度神经网络模型输出的所述目标情感信息。

8.一种情感信息的确定装置，其特征在于，包括：

第一获取单元，用于获取目标音频；

识别单元，用于从所述目标音频中识别出第一文本信息，其中，所述目标音频具有第一语音特征，所述第一文本信息具有第一文本特征；

第二获取单元，用于将所述第一语音特征和所述第一文本特征作为第一深度神经网络模型的输入，并获取所述第一深度神经网络模型根据所述第一语音特征和所述第一文本特征确定的所述目标音频的目标情感信息，其中，所述第一深度神经网络模型是使用训练音频和第二文本信息对第二深度神经网络模型进行训练得到的，所述训练音频用于表述所述第二文本信息，所述训练音频具有第二语音特征，所述第二文本信息具有第二文本特征，对所述第二深度神经网络模型进行训练包括为所述第二深度神经网络模型中的参数赋值，所述训练音频携带有第一情感信息。

9.根据权利要求8所述的装置，其特征在于，所述装置还包括：

训练单元，用于在获取所述目标音频之前，使用所述训练音频和所述第二文本信息对所述第二深度神经网络模型进行训练，以确定所述第二深度神经网络模型中参数的取值，并将确定了所述参数的取值之后的所述第二深度神经网络模型设置为所述第一深度神经网络模型。

10.根据权利要求9所述的装置，其特征在于，所述训练单元包括：

训练模块，用于将所述第二语音特征和所述第二文本特征作为所述第二深度神经网络模型的输入，以对所述第二深度神经网络模型进行训练；

设置模块，用于在所述第二深度神经网络模型输出的第二情感信息与所述第一情感信息匹配的情况下，将对参数赋值后的所述第二深度神经网络模型设置为所述第一深度神经网络模型，所述第一深度神经网络模型用于根据关联关系识别情感信息，所述关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

调整模块，用于在所述第二情感信息与所述第一情感信息不匹配的情况下，调整赋予所述第二深度神经网络模型中参数的取值，以使调整赋予参数的取值后的所述第二深度神经网络模型输出的第二情感信息与所述第一情感信息匹配。

11.根据权利要求8所述的装置，其特征在于，所述第二获取单元包括：

输入模块，用于将所述第一语音特征和所述第一文本特征作为所述第一深度神经网络模型的输入，以使所述第一深度神经网络模型根据关联关系识别出与所述第一语音特征和所述第一文本特征关联的所述目标情感信息，其中，所述关联关系用于描述情感信息与语音特征、第一文本特征之间的关联关系；

获取模块，用于获取所述第一深度神经网络模型输出的所述目标情感信息。

12.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至7任一项中所述的方法。

13.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至7任一项中所述的方法。