CN111524534A

CN111524534A - 一种语音分析方法、系统、设备及存储介质

Info

Publication number: CN111524534A
Application number: CN202010203792.8A
Authority: CN
Inventors: 王愈; 李健; 武卫东
Original assignee: Beijing Sinovoice Technology Co Ltd
Current assignee: Beijing Sinovoice Technology Co Ltd
Priority date: 2020-03-20
Filing date: 2020-03-20
Publication date: 2020-08-11
Anticipated expiration: 2040-03-20
Also published as: CN111524534B

Abstract

本申请提供了一种语音分析方法、系统、设备及存储介质，涉及数据处理技术领域。旨在融合语音中语音和文本的特点，综合预测话语语音所表达的情感。所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型。所述方法包括：通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；将所述文本信息输入所述中间层特征提取模型，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；将所述中间层特征输入所述情感分类模型，得到所述语音的情感类型。

Description

一种语音分析方法、系统、设备及存储介质

技术领域

本申请涉及数据处理技术领域，特别是涉及一种语音分析方法、系统、设备及存储介质。

背景技术

语言是人类沟通的工具，不管是书面的还是口头的语言，既传达语义又传达感情。在人机交互场景乃至人工智能应用领域，自动情感分类(判断)是一个重要课题。例如在自动智能客服系统中，如果能够判断在交互过程中用户的情感状态，就能更好地选择应答方案和措辞；再如自动质检分析系统中，企业需要监控坐席人员的应答服务质量，核心之一就是判断坐席人员的态度是否客气、相应的客户那边的情感状态是否有不适反应。所有这些应用需求都需要自动情感分类算法来满足。

现有技术下的自动情感分类算法只能根据相关人员陈述语句时的发音特点，或者根据相关人员话语中的文字内容单方面地进行情感分类。但实际上，单一的发音特点或者文字内容都不能够准确地表达出相关人员通过话语表达的情感。文字内容中，一个中性词语一般表达和平的情感，但如果以反讽的语气说出该中性词语，表达的就是愤怒感；一段急促的话语，也会因为所用词汇的不同，造成话语所表达的情感不同。因此，无论是单纯地通过语音进行情感分类，还是通过文本进行情感分类，都不能达到良好的效果。

发明内容

本申请实施例提供一种语音分析方法、系统、设备及存储介质，旨在融合话语中语音和文本的特点，综合预测话语所表达的情感。

本申请实施例第一方面提供一种语音分析方法，应用于语音分析系统，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型，所述方法包括：

通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；

将所述文本信息输入所述中间层特征提取模型，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；

将所述中间层特征输入所述情感分类模型，得到所述语音的情感类型。

可选地，所述中间层特征提取模型是通过以下步骤训练得到的：

将多个语音样本输入所述语音识别模型，得到对应的多个文本样本，并提取所述语音识别模型中的声学模型输出的多个音素概率向量样本，其中，对应同一语音样本的文本样本和音素概率向量样本组成一个第一样本对；

利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练；

将经过多次训练后的第一预设模型确定为所述中间层特征提取模型。

可选地，所述中间层特征提取模型包括：编码层、中间层以及解码层；利用所述多个语音中任一语音对应的第一样本对，对第一预设模型进行训练，包括：

将所述任一语音对应的第一样本对中的文本样本输入所述编码层；

从所述编码层的预设词表中提取所述文本样本中每个字对应的文字向量，并输入所述中间层；

对所述文本样本中每个字进行音素预测，得到对应的音素向量，并对所述文本样本中每个字对应的文字向量和音素向量进行信息融合，得到中间层特征；

将所述中间层特征输入所述解码层，输出预测得到的所述文本样本的第一个字的第一预测音素概率向量；

根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正，并将修正后的第一预测音素概率向量返回所述解码层；

根据所述中间层特征和所述修正后的第一预测音素概率向量，输出预测得到的所述文本样本的第二个字的第二预测音素概率向量；

重复上述步骤，直至所述解码层输出所述文本样本的最后一个字的预测音素概率向量。

可选地，所述中间层特征提取模型还包括：注意力机制层；对所述文本样本中每个字进行音素预测，得到对应的音素向量，包括：

按照所述注意力机制层预设的权重，对所述文本样本中每个字进行音素预测，得到对应的音素向量；

在根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正之后，所述方法还包括：

根据所述修正后的第一预测音素概率向量，对所述注意力机制层预设的权重进行调整，以根据调整后的权重，利用所述多个语音中下一语音对应的第一样本对，对所述第一预设模型继续进行训练。

可选地，所述情感分类模型是通过以下步骤训练得到的：

获得多个语音样本，每个语音样本对应一个预先标记的情感类型标签；

将多个语音样本输入所述中间层特征提取模型，得到所述多个语音样本各自对应的中间层特征样本，其中，对应同一语音样本的情感类型标签和中间层特征样本组成一个第二样本对；

利用所述多个语音各自对应的第二样本对，对第二预设模型进行训练；

将经过多次训练后的第二预设模型确定为所述情感分类模型。

本申请实施例第二方面提供语音分析系统，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型；

所述语音识别模型连接所述中间层特征提取模型，用于通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；

所述中间层特征提取模型连接所述语音识别模型和所述情感分类模型，用于根据所述语音识别模型输入的所述文本信息，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；

所述情感分类模型用于根据所述中间层特征提取模型输入的所述中间层特征，得到所述语音的情感类型。

可选地，所述语音分析系统还包括：

第一样本获取模块，用于将多个语音样本输入所述语音识别模型，得到对应的多个文本样本，并提取所述语音识别模型中的声学模型输出的多个音素概率向量样本，其中，对应同一语音样本的文本样本和音素概率向量样本组成一个第一样本对；

第一训练模块，用于利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练；

确定中间层特征提取模型模块，将经过多次训练后的第一预设模型确定为所述中间层特征提取模型。

可选地，所述第一训练模块包括：

样本输入子模块，用于将所述任一语音对应的第一样本对中的文本样本输入所述编码层；

提取子模块，用于从所述编码层的预设词表中提取所述文本样本中每个字对应的文字向量，并输入所述中间层；

信息融合子模块，用于对所述文本样本中每个字进行音素预测，得到对应的音素向量，并对所述文本样本中每个字对应的文字向量和音素向量进行信息融合，得到中间层特征；

第一预测子模块，用于将所述中间层特征输入所述解码层，输出预测得到的所述文本样本的第一个字的第一预测音素概率向量；

修正子模块，用于根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正，并将修正后的第一预测音素概率向量返回所述解码层；

第二预测子模块，根据所述中间层特征和所述修正后的第一预测音素概率向量，输出预测得到的所述文本样本的第二个字的第二预测音素概率向量；

循环训练子模块，用于重复上述步骤，直至所述解码层输出所述文本样本的最后一个字的预测音素概率向量。

可选地，所述信息融合子模块包括：

音素向量预测子单元，用于按照所述注意力机制层预设的权重，对所述文本样本中每个字进行音素预测，得到对应的音素向量；

所述语音分析系统还包括：

权重调整模块，用于根据所述修正后的第一预测音素概率向量，对所述注意力机制层预设的权重进行调整，以根据调整后的权重，利用所述多个语音中下一语音对应的第一样本对，对所述第一预设模型继续进行训练。

可选地，所述语音分析系统还包括：

第二样本获取模块，用于获得多个语音样本，每个语音样本对应一个预先标记的情感类型标签；

中间层特征提取模块，用于将多个语音样本输入所述中间层特征提取模型，得到所述多个语音样本各自对应的中间层特征样本，其中，对应同一语音样本的情感类型标签和中间层特征样本组成一个第二样本对；

第二训练模块，用于利用所述多个语音各自对应的第二样本对，对第二预设模型进行训练；

情感分类模型确定模块，用于将经过多次训练后的第二预设模型确定为所述情感分类模型。

本申请实施例第三方面提供一种可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时，实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现本申请第一方面所述的方法的步骤。

本申请实施例利用语音识别模型中的声学模型输出的音素概率向量能够代表不同人的发音特征的性质，联合语音识别模型输出文本信息，对构建的深度神经网络模型进行训练，得到能够对同一语音对应的文本信息和发音特征进行信息融合的中间层特征提取模型。基于中间层特征提取模型的中间层特征进行情感预测，联合了根据语音进行情感预测，和根据文本的语义进行情感分类的优点，既能从语义判断语音的情感倾向，又能从语音的发音判断情感倾向，整体上拟合人可以联合语音听感和语义理解综合判断语音表达情感的效果。从源头上优于单纯根据语音进行情感预测，或根据文本进行预测。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提出的训练中间层特征提取模型的步骤流程图；

图2是中间层特征提取模型的神经网络架构图；

图3是本申请实施例训练情感分类模型的步骤流程图；

图4是本申请实施例提出的语音分析方法的步骤流程图；

图5是本申请实施例提出的语音分析系统的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

申请人发现，现有技术中，对一段语音进行自动情感分类的准确度较低。主要原因是，相关领域的情感分类，分为独立的两个方向：单纯地根据语音的发音特点进行情感分类，或者单纯地根据语音的组成文字进行情感分类。忽略一个客观事实，人在判断一段语音的表达情感时，是结合了听感和语义综合判断的。例如在自动智能客服系统中，获得用户的话语语音“什么时候发货”，若只根据文字内容判断用户当前的情感，直接得出用户当前处于平和状态。但用户当时陈述“什么时候发货”的话语时，可能是用的反讽的语气或者是欢快的语音，由此可见，单纯地根据文字内容或是根据发音特点根本无法准确地判断用户的情感。

除此之外，相关领域根据语音的发音特点进行情感分的情感分类模型，是基于语音样本的音频特征参数和标注好的情感类型训练得到的。音频特征参数是使用特定的音频信号分析算法对音频样本处理后得到的，常见的音频特征参数有：与频谱相关的MFCC(梅尔频率倒谱系数)、音高相关系数、音量相关的增益值等。其中，MFCC(梅尔频率倒谱系数)描述发音细节，包含了说话人的个人特性。然而对于语音情感分类需求来说，反倒需要无视个人差异而寻找多数人表达情感的发音共性。

若以不同人的音频作为样本，提取后的MFCC(梅尔频率倒谱系数)作为样本特征进行学习，会导致机器学习无法分辨MFCC(梅尔频率倒谱系数)所代表的是个人的情感表达习惯的特征，还是适用于不同人普遍表达的情感特征。可以理解的是，对于两个不同的MFCC(梅尔频率倒谱系数)，机器学习无法分辨出MFCC(梅尔频率倒谱系数)的不同是由情感不同导致的，还是由说话的个体不同导致的。进而从理论上就决定了基于音频特征参数训练得到的情感分类模型，无法准确、清晰、稳定地根据对情感分类。并且音频特征参数不能表达不同人的发音共性，基于音频特征参数训练得到的情感分类模型也只满足特定单人的情感分类，普适性并不实用。

鉴于上述问题，申请人提出一种能够结合语音的发音特点和语音对应的文字语义特点，对语音的情感进行预测的方法。

应用于语音分析系统，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型。

首先训练得到中间层特征提取模型和情感分类模型。

图1是本申请实施例提出的训练中间层特征提取模型的步骤流程图。如图1所示：

步骤S11：将多个语音样本输入所述语音识别模型，得到对应的多个文本样本，并提取所述语音识别模型中的声学模型输出的多个音素概率向量样本，其中，对应同一语音样本的文本样本和音素概率向量样本组成一个第一样本对；

语音识别模型是已经训练完成的语音识别系统，例如开源的KALDI平台。语音识别系统的作用是，对于任意输入的音频，能够得到音频所表达的文本信息。例如，将客服的一段回答语音输入语音识别系统，可以得到回答语音表达的文本是“已发货”。

语音识别系统中具有声学模型，对于输入的每帧音频，声学模型能够得到当前帧音频是每种音素的概率。例如，汉语语音识别系统中，假如预设的音素列表是

共70个，则训练完成的汉语语音识别系统中的声学模型，输出的音素概率向量PPGs是一个70维的向量[x1,x2,........,x70]，音素概率向量中的每个元素都是介于0-1之间的概率，70个元素的总和等于1。

音素是根据语音的自然属性划分出来的最小语音单位。从声学性质来看，音素是从音质角度划分出来的最小语音单位。从生理性质来看，一个发音动作形成一个音素。相同发音动作发出的音就是同一音素，不同发音动作发出的音就是不同音素。如〔吗ma〕中，a的发音可能是ɑ，也可能是Λ。对音素的分析，一般是根据发音动作来描写的。如〔m〕的发音动作是：上唇和下唇闭拢，声带振动，气流从鼻腔流出发音。用语音学术语来说，就是双唇鼻音。因此音素概率向量能够代表不同人发音的共性，例如都做相同的发音动作，发出的就是ɑ的音，都做另一种发音动作，发出的就是Λ的音。

音素概率向量为Phonetic posteriorgrams，简称PPGs，现有的语音识别模型中的声学模型能够基于语音输出准确的音素概率向量(PPGs)。

并且现有语音识别模型的意义是弥平个人的发音差异，并寻找多数人说同样内容的发音共性，因此，将语音样本输入语音识别模型，从语音识别模型的声学模型输出的音素概率向量能够表达不同人发音的共性特征，结合同一语音样本完整地经过语音识别模型的计算，最终输出的文本样本，能给情感分类算法提供一个边界清晰的样本分布空间，便于分类算法发挥到最大效能，最终获得更稳定更准确的分类效果。

音素概率向量作为声学模型的输出，和其本身具有的能够代表不同人发音的共性的特点，音素概率向量可以作为不同人发音的共性的特征。

多个语音样本可以来源于线上或者线下各种语音，通过人工标注的方法，对样本标注情感标签，例如愤怒、喜悦、中性等，经过语音识别模型后，对应同一语音样本的文本样本和音素概率向量样本，以及对应同一语音样本标注的情感标签作为共同训练情感分类模型的基础。

对应同一语音样本的文本样本和音素概率向量样本各自表达发音特征和文本特征，从而在训练情感分类模型之前，需要得到对应同一语音的文本特征和发音特征的融合特征。因此，本申请实施例以文本样本和音素概率向量样本训练深度神经网络模型，对对应同一语音样本的文本样本和音素概率向量样本进行信息融合，得到中间层特征表达同一语音的发音特征和文字特征。

步骤S12：利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练；

步骤S13：将经过多次训练后的第一预设模型确定为所述中间层特征提取模型。

第一预设模型是搭建的深度神经网络模型，本申请实施例提出具体训练第一预设模型得到中间层特征提取模型的方法。

参考图2，图2是中间层特征提取模型的神经网络架构图。图2中的PPGS为解码层输出的音素概率向量。

中间层特征提取模型采用Encoder-Attention-Decoder(三段式复合结构)结构，Encoder代表编码，Attention代表注意力机制，Decoder代表解码，因此中间层特征提取模型包括编码层、中间层以及解码层。

步骤S21：将所述任一语音对应的第一样本对中的文本样本输入所述编码层；

例如，将一帧语音样本输入语音识别模型后，得到对应的文本是“你好哦”，提取语音识别模型中的声学模型的输出得到6个70维的音素概率向量，音素概率向量的格式是[3、7、10......5、16、2]，其中数字代表每个发音是某种音素的概率。假设[3、7、10......5、16、2]是发音哦的音素概率向量，16对应的是

那么认为发音哦对应的音素是

文本“你好哦”和6个70维的音素概率向量作为第一样本对第一预设模型进行训练。

步骤S22：从所述编码层的预设词表中提取所述文本样本中每个字对应的文字向量，并输入所述中间层；

文本“你好哦”输入编码层，在编码层预存的词表中提取每个字对应的文字向量。

预设词表的维度取决于文字向量的维度和文字向量的数量。例如，预设词表对应存储了5000个文字，那么该词表的维度是5000×256，其中256是每一个文字向量的长度，256也可以用其他数值替换，主要取决于构建模型时设置的精度等。

步骤S23：对所述文本样本中每个字进行音素预测，得到对应的音素向量，并对所述文本样本中每个字对应的文字向量和音素向量进行信息融合，得到中间层特征；

文字向量和音素向量的信息融合可以采用向量拼接的方式。

中间层还可以连接注意力机制层，注意力机制层有预设的权重，权重是每个字对某个字发音的贡献。例如“你好哦”三个字，在对你进行音素向量预测时，若权重是[5,2,3],那么你字对“你”的发音贡献最大，进一步预测出你的音素是

若权重是[3,1,6],那么哦字对“你”的发音贡献最大，进一步预测出你的音素是[ηI]。

可以理解的是，在一般说话时，反讽的语气具有某个语气词，那么该语气词可影响前面字的发音，从而影响整句话表达的感情。例如“哟，下雨了”，和“下雨了”，人在说这两句话的时候，每个字的发音因为语气词的不同，发音方式也会不同，从而造成了音素的不同。

权重正是根据文本上下文，调整对字进行音素预测的准确度。

鉴于此，本申请实施例提出在中间层对文本样本中每个字进行音素预测时，还包括如下子步骤：

步骤S23-1：按照所述注意力机制层预设的权重，对所述文本样本中每个字进行音素预测，得到对应的音素向量；

步骤S24:将所述中间层特征输入所述解码层，输出预测得到的所述文本样本的第一个字的第一预测音素概率向量；

解码层依据每个字的音素向量得到每个字对应的预测音素概率向量。在模型训练初期，会出现预测偏差的问题，本申请将语音识别模型中声学模型输出的准确的音素概率向量样本，与每个字对应的预测音素概率向量进行比对和修正。

修正方法具体可以应用损失函数、强化学习等方法，本申请实施例对此不多作讨论。

解码层可以由多个解码单元连接而成，每一个解码单元负责一个发音或一个字的音素概率向量预测。

步骤S25：根据所述第一样本对中的音素概率向量样本，对所述第一预测音素概率向量进行修正，并将修正后的第一预测音素概率向量返回所述解码层；

对于解码层中预测第一个发音的音素概率向量的解码单元，没有修正的音素概率向量的输入，可以用一个格式向量代替音素概率向量输入解码层。可以理解的是格式向量也是一个70维的概率向量。

对于“你好哦”的语音，声学模型的输出的是6个70维的音素概率向量样本，拿出其中第一个音素概率向量样本和第二个音素概率向量样本，对解码层输出的预测的对你字的预测音素概率向量进行修正；或拿出其中第一个音素概率向量样本，对解码层输出的对你字的第一个发音n的预测音素概率向量进行修正。

修正后的测音素概率向量是对应同一语音的准确的发音特征，将其反向递归输入解码层，以使对应第一个字或第一个发音准确的音素概率向量，正影响下一个字或下一个发音的音素概率向量。

步骤S26：根据所述中间层特征和所述修正后的第一预测音素概率向量，输出预测得到的所述文本样本的第二个字的第二预测音素概率向量；

步骤S27：重复上述步骤，直至所述解码层输出所述文本样本的最后一个字的预测音素概率向量

每一次解码层输出预测音素概率向量时，都会以从声学模型得到的准确的音素概率向量样本进行修正，并将修正后的音素概率向量反向递归到解码层，影响下一次的输出预测音素概率向量，可以理解的是，每一次将修正后的音素概率向量反向递归到解码层，都会提高解码层得到预测音素概率向量的准确性。

并且，每一次将修正后的音素概率向量反向递归到解码层，也会调整注意力机制层预设的权重分布，以使权重分布更加合理，进而使中间层对音素的预测更加准确。具体每个解码单元连接对应的注意力机制，每个解码单元的注意力机制都会给注意力机制层反馈音素概率向量的修正信息。

步骤S28：根据所述修正后的第一预测音素概率向量，对所述注意力机制层预设的权重进行调整，以根据调整后的权重，利用所述多个语音中下一语音对应的第一样本对，对所述第一预设模型继续进行训练。

示例地，语音识别模型中的声学模型输出“你好哦”对应的6个音素概率向量，根据6个音素概率向量得到“你好哦”的音素是

n对应的是音素概率向量X₁，I对应的是音素概率向量X₂，

对应的是音素概率向量X₃，ɑ对应的是音素概率向量X₄，

对应的是音素概率向量X₅，

对应的是音素概率向量X₆。

中间层预测的“你好哦”的音素是

中间层将“你好哦”对应的文字向量和音素是

进行信息融合，得到具有发音特征和文字特征的中间层特征。中间层特征输入解码层后，解码层首先得到第一个发音对应的音素η的音素概率向量是X₁’，以X₁修正X₁’，得到第一个发音准确的音素概率向量X₁，将X₁输入解码层，使解码层结合X₁和中间层特征输出第二个字的音素概率向量X₂’，可以理解的是X₂’经过X₁的影响，其对应的音素可能仍然是

也可能是更为准确的I，以X₂修正X₂’，同理地，还会以X₃修正X₃’，以X₄修正X₄’，以X₅修正X₅’，以X₆修正X₆’，将X₃修正X₃’后得到的音素概率向量输入解码层，会影响解码层对X₅’、X₆’的预测结果。

除此之外，每一次将修正后的X₁至X₆输入解码层，都会调整解码层中，与中间层连接的注意力机制层的权重分布，经过多个样本对(文本样本和音素样本)的训练后，权重分布可以达到可以准确预测音素的效果，即权重分布准确地表示了每个字对某一字发音的影响。

示例地，注意力机制层的关于第一字发音的权重分布原本是[5,2,3],表示“你”字对你的发音影响最大，中间层根据[5,2,3]的权重分布，得到“你”的音素是

经过声学模型输出的音素概率样本的修正后，注意力机制层的关于第一字发音的权重分布原本是[3,1,6]，其中“哦”对你的发音影响最大，中间层根据权重分布[3,1,6]预测得到“你”的音素是[ηI]。对应到特定情境中，在打招呼时，人们会说“你好”，表达的情感是平和或喜悦，但加上语气词哦，“你好哦”就很可能是反问，表达的情感可能是讽刺，以本申请实施例提出的中间层特征提取模型，对字的发音特征(音素)的预测，结合了语境和上下文，更加准确。进一步地，以融合了语音对应的文本特征和准确的发音特征的中间层特征，训练情感分类模型，使情感分类模型能够基于语音的发音特点和文字的语义特点对情感进行预测，克服了现有技术中，只能根据文字语义预测情感，或只能根据发音特点预测情感的局限。

本申请实施例进一步提出训练情感分类模型的方法。参考图3，图3是本申请实施例训练情感分类模型的步骤流程图。

步骤S31：获得多个语音样本，每个语音样本对应一个预先标记的情感类型标签；

从将语音样本输入语音识别模型得到文本样本和音素概率样本，再到将文本样本和音素概率样本训练中间层特征提取模型，得到能够基于文本样本准确预得出中间层特征的中间层特征提取模型，进而将文本样本输入训练完成的中间层特征提取模型得到中间层特征样本，无论是文本样本、音素概率样本和中间层特征样本都基于同一语音样本得到的。因此，可以将语音的情感标签直接作为中间层特征样本的情感标签，也可以单独根据中间层特征样本进行情感标注。

步骤S32：将多个语音样本输入所述中间层特征提取模型，得到所述多个语音样本各自对应的中间层特征样本，其中，对应同一语音样本的情感类型标签和中间层特征样本组成一个第二样本对；

步骤S33：利用所述多个语音各自对应的第二样本对，对第二预设模型进行训练；

步骤S34：将经过多次训练后的第二预设模型确定为所述情感分类模型。

第二预设模型可以是TextCNN(卷积神经网络)，将第二样本对[中间层特征,情感标签]输入卷积神经网络中，进行特征提取等操作，输出是表示情感类型概率的softmax(逻辑回归)向量，softmax向量表示每种情感类型的概率似然度。一般最高概率对应的情感就是最终的情感预测结果。经过多个[中间层特征,情感标签]样本对的训练，情感分类模型能够根据中间层特征准确地预测出语音表达的情感。

将训练完成的中间层特征提取模型与情感分类模型和语音识别模型(例如开源KALDI平台)连接，得到语音分析系统。

图4是本申请实施例提出的语音分析方法的步骤流程图。如图4所示，语音分析方法包括以下步骤：

步骤S41：通过所述语音识别模型对输入的语音进行识别，得到所述语音对应的文本信息；

步骤S42：将所述文本信息输入所述中间层特征提取模型，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；

步骤S43：将所述中间层特征输入所述情感分类模型，得到所述语音的情感类型。

语音识别模型对输入的语音进行识别，输出语音对应的文字。假设语音对应的文字是“天气真好”。语音对应将“天气真好”的文本输入中间层特征提取模型。

中间层特征提取模型经过多个基于同一语音的[文本，音素概率向量]样本对的训练，能准确地得到具有语音对应文本的文字信息，和语音对应的发音信息的融合信息。中间层特征提取模型根据在预设的词表中提取“天气真好”的文本每个字的文字向量，再根据注意力机制层的权重，预测“天气真好”每个发音的音素，将发音的音素和文字向量进行信息融合，得到中间层特征。中间层特征可以是向量或者矩阵。

中间层特征提取模型得到中间层特征后，中间层特征输入训练完成的情感分类模型，得到中间层特征对应语音的情感。

基于同一发明构思，本申请实施例提供一种语音分析系统。参考图5，图5是本申请实施例提出的语音分析系统的结构示意图。如图5所示，所述语音分析系统包括：语音识别模型51、预先训练的中间层特征提取模型52以及预先训练的情感分类模型53；

所述语音识别模型51连接所述中间层特征提取模型52，用于通过所述语音识别模型51对输入的语音进行识别，得到所述语音对应的文本信息；

所述中间层特征提取模型52连接所述语音识别模型51和所述情感分类模型53，用于根据所述语音识别模型51输入的所述文本信息，得到融合所述文本信息和所述语音对应的音素概率向量的中间层特征；

所述情感分类模型53用于根据所述中间层特征提取模型52输入的所述中间层特征，得到所述语音的情感类型。

可选地，所述语音分析系统还包括：

可选地，所述第一训练模块包括：

可选地，所述信息融合子模块包括：

所述语音分析系统还包括：

可选地，所述语音分析系统还包括：

对于系统实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

基于同一发明构思，本申请另一实施例提供一种可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的语音分析方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的语音分析方法中的步骤。

本说明书中的各个实施例均采用递进或说明的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、系统、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、系统、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种语音分析方法、系统、设备及存储介质，进行了详细介绍，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种语音分析方法，其特征在于，应用于语音分析系统，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述中间层特征提取模型是通过以下步骤训练得到的：

3.根据权利要求2所述的方法，其特征在于，所述中间层特征提取模型包括：编码层、中间层以及解码层；利用所述多个语音各自对应的第一样本对，对第一预设模型进行训练，包括：

4.根据权利要求3所述方法，其特征在于，所述中间层特征提取模型还包括：注意力机制层；对所述文本样本中每个字进行音素预测，得到对应的音素向量，包括：

根据修正后的所述第一预测音素概率向量，对所述注意力机制层预设的权重进行调整，以根据调整后的权重，利用所述多个语音中下一语音对应的第一样本对，对所述第一预设模型继续进行训练。

5.根据权利要求1所述的方法，所述情感分类模型是通过以下步骤训练得到的：

6.一种语音分析系统，其特征在于，所述语音分析系统包括：语音识别模型、预先训练的中间层特征提取模型以及预先训练的情感分类模型；

7.根据权利要求6所述的语音分析系统，其特征在于，所述语音分析系统还包括：

8.根据权利要求7所述的语音分析系统，其特征在于，所述第一训练模块包括：

9.一种可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5任一所述的方法中的步骤。

10.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-5任一所述的方法的步骤。