CN110910903B

CN110910903B - 语音情绪识别方法、装置、设备及计算机可读存储介质

Info

Publication number: CN110910903B
Application number: CN201911228396.4A
Authority: CN
Inventors: 吴学阳; 姜迪; 汤耀华; 徐倩
Original assignee: WeBank Co Ltd
Current assignee: WeBank Co Ltd
Priority date: 2019-12-04
Filing date: 2019-12-04
Publication date: 2023-03-21
Anticipated expiration: 2039-12-04
Also published as: CN110910903A

Abstract

本发明公开了一种语音情绪识别方法、装置、设备及计算机可读存储介质，所述方法包括：对待识别语音数据进行音素转换得到待识别音素序列；将待识别音素序列输入音素分类器得到音素情绪分类结果，其中，音素分类器至少基于文本数据所转换的音素序列预先训练得到的；将待识别语音数据输入预设语音分类器得到语音情绪分类结果；对音素情绪分类结果和语音情绪分类结果进行融合得到待识别语音数据的情绪识别结果。本发明实现了充分利用语音数据中的情绪信息，提高了情绪识别结果的准确率，提升了情绪识别效果。

Description

语音情绪识别方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种语音情绪识别方法、装置、设备及计算机可读存储介质。

背景技术

情绪识别在智能人机交互系统，特别是自动客户服务系统中起到非常重要的作用。比如，在自动客服系统中，系统需要即时识别用户对话中表露出来的情绪，以便针对情绪采取相应的措施，如当用户感到愤怒时及时进行安抚，这对提升用户体验和应用效率非常重要。如今，智能人机交互系统走向语音化，对语音的情绪识别显得尤为重要。

现有的语音情绪识别方法主要是通过机器识别将语音数据先转换为文本，再对文本采用基于文本的情绪识别方法进行情绪识别。然而这种识别方法将语音数据转换为文本，基于文本进行情绪识别，仅利用了语音数据中文本信息所反映的情绪信息，损失了语音数据中的非文本情绪信息，使得情绪识别效果差。

发明内容

本发明的主要目的在于提供一种语音情绪识别方法、装置、设备及计算机可读存储介质，旨在解决目前将语音转换为文本，再基于文本进行情绪识别的方法识别效果差的技术问题。

为实现上述目的，本发明提供一种语音情绪识别方法，所述语音情绪识别方法包括：

对待识别语音数据进行音素转换得到待识别音素序列；

将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的；

将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果；

对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。

可选地，所述对待识别语音数据进行音素转换得到待识别音素序列的步骤之前，还包括：

获取第一文本训练数据、第一语音训练数据和与各条训练数据对应的第一情绪标注；

将所述第一文本训练数据进行音素转换得到第一音素序列，将所述第一语音训练数据转换得到第二音素序列；

采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器。

可选地，所述采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器的步骤之后，还包括：

获取第二语音训练数据、与所述第二语音训练数据构成平行语料的第二文本训练数据，和与所述第二语音训练数据对应的第二情绪标注；

采用所述第二语音训练数据作为所述预设语音分类器的输入数据，采用所述第二语音训练数据和所述第二文本训练数据分别转换的音素序列作为所述音素分类器的输入数据，对所述预设语音分类器和所述音素分类器的输出数据进行融合，并基于所述第二情绪标注和融合结果对所述预设语音分类器和所述音素分类器进行融合微调。

可选地，所述将所述第一文本训练数据进行音素转换得到第一音素序列的步骤包括：

将所述第一文本训练数据按照词语与音素之间的预设映射关系，转换得到第一音素序列。

可选地，所述将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果的步骤包括：

从所述待识别语音数据中提取音频特征，其中，所述音频特征至少包括对数梅尔倒声谱图、音调、音量和强度中的一项；

将所述音频特征输入预设语音分类器得到语音情绪分类结果。

可选地，所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括：

对所述音素情绪分类结果和所述语音情绪分类结果进行加权平均，根据加权平均的结果得到所述待识别语音数据的情绪识别结果。

对所述音素情绪分类结果和所述语音情绪分类结果进行向量拼接；

将向量拼接的结果输入预设神经网络得到所述待识别语音数据的情绪识别结果。

此外，为实现上述目的，本发明还提供一种语音情绪识别装置，所述语音情绪识别装置包括：

转换模块，用于对待识别语音数据进行音素转换得到待识别音素序列；

第一输入模块，用于将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的；

第二输入模块，用于将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果；

融合模块，用于对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。

此外，为实现上述目的，本发明还提供一种语音情绪识别设备，所述语音情绪识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如上所述的语音情绪识别方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序被处理器执行时实现如上所述的语音情绪识别方法的步骤。

本发明中，在本实施例中，通过对待识别语音数据进行音素转换得到待识别音素序列；将待识别音素序列输入音素分类器得到音素情绪分类结果，其中，音素分类器至少基于文本数据所转换的音素序列预先训练得到的；将待识别语音数据输入预设语音分类器得到语音情绪分类结果；对音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。由于音素分类器通过文本数据所转换的音素序列训练得到，使得音素分类器学习到了音素序列中的语义信息，从而使得输出的音素情绪分类结果既包含了音素序列本身的发音特征所反映的情绪信息，还包含了音素序列中语义信息所反映的情绪信息；也即通过跨模态迁移技术，为单模态的语音数据补全了文本模态的信息。由于最终的情绪识别结果融合了音素情绪分类结果和语音情绪分类结果，使得待识别语音数据的文本语义信息所包含的情绪信息、发音特征所包含的情绪信息和音频特征所包含的情绪信息均被考虑在内，反映在最终的情绪识别结果中，实现了充分利用待识别语音数据中的情绪信息，从而提高了情绪识别结果的准确率，提升了情绪识别效果。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的结构示意图；

图2为本发明语音情绪识别方法第一实施例的流程示意图；

图3为本发明实施例涉及的一种语音数据的情绪识别过程示意图；

图4为本发明实施例涉及的一种音素分类器和语音分类器的训练过程示意图；

图5为本发明语音情绪识别装置较佳实施例的功能示意图模块图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明实施例提供了一种语音情绪识别设备，参照图1，图1是本发明实施例方案涉及的硬件运行环境的结构示意图。

需要说明的是，图1即可为语音情绪识别设备的硬件运行环境的结构示意图。本发明实施例语音情绪识别设备可以是PC，也可以是智能手机、智能电视机、平板电脑、便携计算机等具有显示功能的终端设备。

如图1所示，该语音情绪识别设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，语音情绪识别设备还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。本领域技术人员可以理解，图1中示出的语音情绪识别设备结构并不构成对语音情绪识别设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及语音情绪识别程序。

在图1所示的语音情绪识别设备中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的语音情绪识别程序，并执行以下操作：

对待识别语音数据进行音素转换得到待识别音素序列；

进一步地，所述对待识别语音数据进行音素转换得到待识别音素序列的步骤之前，处理器1001可以用于调用存储器1005中存储的语音情绪识别程序，还执行以下操作：

进一步地，所述采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器的步骤之后，处理器1001可以用于调用存储器1005中存储的语音情绪识别程序，还执行以下操作：

进一步地，所述将所述第一文本训练数据进行音素转换得到第一音素序列的步骤包括：

进一步地，所述将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果的步骤包括：

进一步地，所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括：

基于上述的硬件结构，提出本发明语音情绪识别方法的各个实施例。

参照图2，本发明语音情绪识别方法第一实施例提供一种语音情绪识别方法，需要说明的是，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。本发明语音情绪识别方法的各个实施例的执行主体可以是PC、智能手机、智能电视机、平板电脑和便携计算机等终端设备，为便于描述，在以下各实施例省略执行主体进行阐述。所述语音情绪识别方法包括：

步骤S10，对待识别语音数据进行音素转换得到待识别音素序列；

目前的对语音转换为文本，再基于文本进行情绪识别的方式，仅利用了语音数据中文本信息所反映的情绪信息，而未利用到语音数据中的非文本情绪信息，从而使得情绪识别效果差。具体地，由于语音情绪变化时文字的发音会变，而文字不会变，将语音转换为文本，损失了语音中的发音特征，从而导致情绪识别不准确，识别效果差。

基于此，本实施例中提出基一种基于音素的跨模态的语音情绪识别方法，以解决上述技术问题。其中，在本实施例中，音素是指构成语言语音的声音单位，例如“鲜”(xiān)字的音素可以是“x”、“i”、“ā”和、“n”。音素代表了物理上的发音单位，即是一个字或词的组成单位，又反应了语音中的具体发音。音素的具体定义无统一标准，但只要在系统中使用一致的方案即可。

本发明实施例提出跨模态情绪识别的概念：跨模态(cross-modal)指的是跨越了不同的模态，在本发明中指的是跨越“文本模态”和“语音模态”，两者一个以文本呈现，一个以声波呈现。与之相关的概念是“多模态”，指的是以不同的模态作为输入从而同时利用。本实施例中所提出的跨模态与多模态不同，旨在以一个模态作为输入，而通过机器学习预测其它模态信息从而辅助情绪识别任务，也即，在语音情绪识别的场景，旨在以语音模态作为输入，通过机器学习补全其文本模态信息，从而基于文本模态信息辅助情绪识别任务。

具体地，参照图3，在本实施例中，对待识别语音数据进行音素转换，得到待识别音素序列。其中，待识别语音数据指需要进行情绪识别的语音数据，基于应用场景不同，待识别语音数据的来源不同。如在智能客服应用场景中，待识别语音数据可以是系统接收到的用户的语音数据。待识别音素序列是指对待识别语音数据进行转换得到的音素序列。音素序列是由音素组成的序列，具体表现形式可以是向量。在本实施例中，对语音数据转换为音素序列的方式，可采用现有的语音识别技术(Automatic Speech Recognition，ASR)中进行音素转换的方式。现有的语音识别技术通常包含两部分，第一步从语音转换到音素序列，称为声学模型反映了说话人的物理发音；第二步实现音素到文本的转换，融合了语言模型。

步骤S20，将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的；

将待识别音素序列输入音素分类器，得到音素情绪分类结果。其中，音素分类器可以是神经网络，如深度神经网络，输入数据可以是音素序列，输出的音素情绪分类结果可以是情绪类别，如愤怒、高兴、悲伤等，也可以是表征情绪类别特征的向量；预先通过包含音素序列和情绪标注的训练数据对音素分类器进行训练，训练方式可采用一般的神经网络的有监督训练方式；训练音素分类器所采用的音素序列，至少包括文本数据所转换的音素序列。具体地，可以预先采集用于对音素分类器进行训练的文本数据，并对采集的文本数据进行情绪类别的标注，可采用人工标注的方式。相比于对语音的标注，对文本进行标注比较简单，能够节省大量的人力财力成本；将采集的文本数据对应转换为音素序列，采用文本数据转换的音素序列对音素分类器进行训练。

需要说明的是，语音数据所转换的音素序列与文本数据所转换的音素序列对应的音素空间一致，或者可以对音素序列进行处理，使得两者对应的音素空间一致，从而使得两者可以共用一个音素分类器。

在本实施例中，通过文本数据所转换的音素序列对音素分类器进行训练，由于文本模态为音素序列赋予了语义信息，使得训练得到的音素分类器通过文本模态习得了语义信息；将待识别语音所转换的音素序列输入习得了语义信息的音素分类器，使得输出的音素情绪分类结果既包含了音素序列本身的发音特征所反映的情绪信息，还包含了音素序列中语义信息所反映的情绪信息。也即本实施例中，将文本模态的文本语义信息，通过音素这一中介跨模态迁移到了语音模态中，即通过跨模态迁移技术，为单模态的语音数据补全了文本模态的信息，从而实现了利用从文本模态习得的语义信息辅助语音数据的情绪识别。

步骤S30，将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果；

将待识别语音数据输入预设语音分类器，得到语音情绪分类结果。其中，预设语音分类器可以是神经网络，如深度神经网络，输入数据可以是语音数据，或预处理后的语音数据，输出的语音情绪分类结果可以是情绪类别，如愤怒、高兴、悲伤等，也可以是表征情绪类别特征的向量；可以预先通过包含语音数据和情绪标注的训练数据对语音分类器进行训练，训练方式可采用一般的神经网络的有监督训练方式。由于语音分类器的输入数据是原始的语音数据，基于语音数据的音频特征进行情绪分类，使得输出的语音情绪分类结果包含了语音数据的音频特征所反映的情绪信息。

进一步地，所述步骤S30包括：

步骤S301，从所述待识别语音数据中提取音频特征，其中，所述音频特征至少包括对数梅尔倒声谱图、音调、音量和强度中的一项；

从待识别语音数据中提取音频特征，音频特征至少包括对数梅尔倒声谱图、音调、音量和强度中的一项。为使得语音分类器能够基于更丰富的音频特征进行情绪特征的提取和分类，音频特征还可包括对数梅尔倒声谱图、音调、音量和强度以外的其他音频特征。

步骤S302，将所述音频特征输入预设语音分类器得到语音情绪分类结果。

将音频特征输入预设语音分类器得到语音情绪分类结果，具体地，由语音分类器基于语音数据的音频特征，提取出音频特征中所包含的情绪特征，进而根据情绪特征得到语音情绪分类结果。

步骤S40，对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。

对音素情绪分类结果和语音情绪分类结果进行融合，得到待识别语音数据的情绪识别结果。具体地，融合的方式可以有很多种，如当音素情绪分类结果和语音情绪分类结果是表征情绪类别特征的向量时，可对两个向量求平均值，将结果输入一个融合分类器，由融合分类器输出最终的情绪识别结果，如情绪类别。融合分类器也可以采用神经网络，并预先与音素分类器和语音分类器进行联合训练得到。

进一步地，所述步骤S40包括：

步骤S401，对所述音素情绪分类结果和所述语音情绪分类结果进行加权平均，根据加权平均的结果得到所述待识别语音数据的情绪识别结果。

具体地，音素情绪分类结果和语音情绪分类结果还可以是表示某个情绪类别的概率值，可以对两个概率值进行加权平均得到一个融合概率值，根据融合概率值确定待识别语音数据的情绪类别。其中，加权平均的权重值可以预先进行设置，如可以采用训练音素分类器和训练语音分类器所采用的训练数据的比例作为权重比例。

在本实施例中，通过对待识别语音数据进行音素转换得到待识别音素序列；将待识别音素序列输入音素分类器得到音素情绪分类结果，其中，音素分类器至少基于文本数据所转换的音素序列预先训练得到的；将待识别语音数据输入预设语音分类器得到语音情绪分类结果；对音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。由于音素分类器通过文本数据所转换的音素序列训练得到，使得音素分类器学习到了音素序列中的语义信息，从而使得输出的音素情绪分类结果既包含了音素序列本身的发音特征所反映的情绪信息，还包含了音素序列中语义信息所反映的情绪信息；也即通过跨模态迁移技术，为单模态的语音数据补全了文本模态的信息。由于最终的情绪识别结果融合了音素情绪分类结果和语音情绪分类结果，使得待识别语音数据的文本语义信息所包含的情绪信息、发音特征所包含的情绪信息和音频特征所包含的情绪信息均被考虑在内，反映在最终的情绪识别结果中，实现了充分利用待识别语音数据中的情绪信息，从而提高了情绪识别结果的准确率，提升了情绪识别效果。

并且，现有采用语音转文本，基于文本进行情绪识别的方法受限于机器识别的效果，机器转录文本的效果差也导致了最终情绪识别效果差，而本实施例中，通过将语音数据转换为音素序列的正确率高于转为为文本的正确率，从而避免了因转录文本的误差导致最终的情绪识别误差。

并且，本实施例中的基于音素的跨模态的情绪识别方式只需要输入语音数据，相比于多模态的情绪识别方式，能够应用于仅通过语音交互的智能客服系统中，无需视频在内的多模态输入，从而扩大了情绪识别的应用范围。

进一步的，基于上述第一实施例，本发明语音情绪识别方法第二实施例提供一种语音情绪识别方法。在本实施例中，所述语音情绪识别方法还包括：

步骤S50，获取第一文本训练数据、第一语音训练数据和与各条训练数据对应的第一情绪标注；

进一步地，在本实施例中，可以对音素分类器进行单独训练。具体地，获取第一文本训练数据、第一语音训练数据，以及各条训练数据对应的第一情绪标注。其中，第一文本训练数据和第一语音训练数据可以是不对应的，也即文本与语音并不一定不一一对应，并且，第一文本训练数据的数据量可以大于第一语音训练数据。

步骤S60，将所述第一文本训练数据进行音素转换得到第一音素序列，将所述第一语音训练数据转换得到第二音素序列；

将第一文本训练数据进行音素转换得到第一音素序列。将第一语音训练数据转换得到第二音素序列。具体地，将语音训练数据转换为音素序列的方式与上述第一实施例中所采用的语音转音素方式相同，在此不再详细赘述。

进一步地，所述步骤S60包括：

步骤S601，将所述第一文本训练数据按照词语与音素之间的预设映射关系，转换得到第一音素序列。

可以预先设置各个词语与音素之间的映射关系，如采用一个词典对映射关系进行记录，对第一文本训练数据中组成句子的各个词语，按照该映射关系，对应转换为音素，再按照词语组成句子的顺序将音素组合在一起得到第一音素序列。

步骤S70，采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器。

采用第一音素序列、第二音素序列和第一情绪标注对待训练音素分类器进行训练得到音素分类器。具体的训练过程与一般的神经网络的有监督训练过程类似，在此不作详细赘述。由于第一音素序列是文本训练数据所转换得到的，使得音素分类器能够学习到音素序列中的语义信息。并且，文本训练数据与语音训练数据可以是独立的，从而可以采用大量的文本训练数据对音素分类器进行充分训练。由于文本转音素得到的是标准发音，和实际情况存在偏差，在本实施例中，采用第一语音训练数据所转换的第二音素序列对音素分类器进行训练，可以修正偏差，从而使得音素分类器能够得到更准确的结果。

进一步地，所述步骤S70之后，还包括：

步骤S80，获取第二语音训练数据、与所述第二语音训练数据构成平行语料的第二文本训练数据，和与所述第二语音训练数据对应的第二情绪标注；

参照图4所示的训练过程示意图，在单独训练音素分类器和语音分类器后，还可以对音素分类器和语音分类器进行融合微调。具体地，可以获取第二语音训练数据、与第二语音训练数据构成平行语料的第二文本训练数据，以及与第二语音训练数据对应的第二情绪标签。其中，平行语料是指同一语料对应的文本数据和语音数据。第二语音训练数据可与第一语音训练数据不同，第二文本训练数据可与第一文本训练数据不同，并且第二语音训练数据、第二文本训练数据的数据量，可以小于第一语音训练数据和第一文本训练数据的数据量。

步骤S90，采用所述第二语音训练数据作为所述预设语音分类器的输入数据，采用所述第二语音训练数据和所述第二文本训练数据分别转换的音素序列作为所述音素分类器的输入数据，对所述预设语音分类器和所述音素分类器的输出数据进行融合，并基于所述第二情绪标注和融合结果对所述预设语音分类器和所述音素分类器进行融合微调。

采用第二语音训练数据作为预设语音分类器的输入数据。将第二语音训练数据转换得到音素序列，将第二文本训练数据转换得到音素序列，将两部分音素序列均作为音素分类器的输入数据。对语音分类器的的输出数据和音素分类器的输出数据进行融合，具体地，可以是将两个输出数据进行向量拼接或加权平均，将结果输入一个采用神经网络的融合分类器，得到融合结果，通过第二情绪标注与融合结果计算损失函数和梯度值，进而对融合分类器、语音分类器和音素分类器的各个参数进行微调。具体融合微调的过程可采用一般神经网络的有监督训练过程。

进一步地，步骤S40包括：

S402，对所述音素情绪分类结果和所述语音情绪分类结果进行向量拼接；

在本实施例中，与上述融合微调的过程对应地，提出另一种融合音素情绪分类结果和语音情绪分类结果的方式。具体地，在通过得到待识别语音数据的音素情绪分类结果和语音情绪分类结果后，对音素情绪分类结果和语音情绪分类结果进行向量拼接，向量拼接的方式可以采用常用的向量拼接方式。

S403，将向量拼接的结果输入预设神经网络得到所述待识别语音数据的情绪识别结果。

将向量拼接的结果输入预设神经网络得到待识别语音数据的情绪识别结果。其中，预设神经网络可以是上述通过融合微调后的融合分类器。

在本实施例中，通过对音素分类器和语音分类器进行融合微调，使得对通过音素分类器得到的音素情绪分类结果，和通过语音分类器得到的语音分类器结果进行融合得到的最终的情绪识别结果更加准确，从而提升了语音情绪识别的效果。

此外本发明实施例还提出一种语音情绪识别装置，参照图5，所述语音情绪识别装置包括：

转换模块10，用于对待识别语音数据进行音素转换得到待识别音素序列；

第一输入模块20，用于将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的；

第二输入模块30，用于将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果；

融合模块40，用于对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果。

进一步地，所述语音情绪识别装置还包括：

获取模块，用于获取第一文本训练数据、第一语音训练数据和与各条训练数据对应的第一情绪标注；

所述转换模块10还用于将所述第一文本训练数据进行音素转换得到第一音素序列，将所述第一语音训练数据转换得到第二音素序列；

训练模块，用于采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器。

进一步地，所述获取模块还用于获取第二语音训练数据、与所述第二语音训练数据构成平行语料的第二文本训练数据，和与所述第二语音训练数据对应的第二情绪标注；

所述训练模块还用于采用所述第二语音训练数据作为所述预设语音分类器的输入数据，采用所述第二语音训练数据和所述第二文本训练数据分别转换的音素序列作为所述音素分类器的输入数据，对所述预设语音分类器和所述音素分类器的输出数据进行融合，并基于所述第二情绪标注和融合结果对所述预设语音分类器和所述音素分类器进行融合微调。

进一步地，所述转换模块10还用于：

进一步地，所述第二输入模块30包括：

提取单元，用于从所述待识别语音数据中提取音频特征，其中，所述音频特征至少包括对数梅尔倒声谱图、音调、音量和强度中的一项；

输入单元，用于将所述音频特征输入预设语音分类器得到语音情绪分类结果。

进一步地，所述融合模块还用于对所述音素情绪分类结果和所述语音情绪分类结果进行加权平均，根据加权平均的结果得到所述待识别语音数据的情绪识别结果。

进一步地，所述融合模块还用于：

本发明语音情绪识别装置的具体实施方式的拓展内容与上述语音情绪识别方法各实施例基本相同，在此不做赘述。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序被处理器执行时实现如上所述语音情绪识别方法的步骤。

本发明语音情绪识别设备和计算机可读存储介质的具体实施方式的拓展内容与上述语音情绪识别方法各实施例基本相同，在此不做赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种语音情绪识别方法，其特征在于，所述语音情绪识别方法包括：

对待识别语音数据进行音素转换得到待识别音素序列；

将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的，语音数据所转换的音素序列与文本数据所转换的音素序列对应的音素空间一致，或者通过对音素序列进行处理，使得语音数据所转换的音素序列与文本数据所转换的音素序列对应的音素空间一致；

2.如权利要求1所述的语音情绪识别方法，其特征在于，所述对待识别语音数据进行音素转换得到待识别音素序列的步骤之前，还包括：

3.如权利要求2所述的语音情绪识别方法，其特征在于，所述采用所述第一音素序列、所述第二音素序列和所述第一情绪标注对待训练音素分类器进行训练得到所述音素分类器的步骤之后，还包括：

4.如权利要求2所述的语音情绪识别方法，其特征在于，所述将所述第一文本训练数据进行音素转换得到第一音素序列的步骤包括：

5.如权利要求1所述的语音情绪识别方法，其特征在于，所述将所述待识别语音数据输入预设语音分类器得到语音情绪分类结果的步骤包括：

6.如权利要求1至5任一项所述的语音情绪识别方法，其特征在于，所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括：

7.如权利要求1至5任一项所述的语音情绪识别方法，其特征在于，所述对所述音素情绪分类结果和所述语音情绪分类结果进行融合得到所述待识别语音数据的情绪识别结果的步骤包括：

8.一种语音情绪识别装置，其特征在于，所述语音情绪识别装置包括：

第一输入模块，用于将所述待识别音素序列输入音素分类器得到音素情绪分类结果，其中，所述音素分类器至少基于文本数据所转换的音素序列预先训练得到的，语音数据所转换的音素序列与文本数据所转换的音素序列对应的音素空间一致，或者通过对音素序列进行处理，使得语音数据所转换的音素序列与文本数据所转换的音素序列对应的音素空间一致；

9.一种语音情绪识别设备，其特征在于，所述语音情绪识别设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的语音情绪识别程序，所述语音情绪识别程序被所述处理器执行时实现如权利要求1至7中任一项所述的语音情绪识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有语音情绪识别程序，所述语音情绪识别程序被处理器执行时实现如权利要求1至7中任一项所述的语音情绪识别方法的步骤。