CN114360584A - 一种基于音素级的语音情感分层式识别方法及系统 - Google Patents
一种基于音素级的语音情感分层式识别方法及系统 Download PDFInfo
- Publication number
- CN114360584A CN114360584A CN202111461421.0A CN202111461421A CN114360584A CN 114360584 A CN114360584 A CN 114360584A CN 202111461421 A CN202111461421 A CN 202111461421A CN 114360584 A CN114360584 A CN 114360584A
- Authority
- CN
- China
- Prior art keywords
- phoneme
- feature vector
- emotion
- sentence
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开一种基于音素级的语音情感分层式识别方法及系统,涉及智能语音处理技术。针对现有技术中情感识别效果较差的问题提出本方案,获取语音信号依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取,最后识别出语音信息的情感分类;提取出的音素特征向量作为字特征向量提取的输入数据;提取出的字特征向量作为句子特征向量提取的输入数据;提取出的句子特征向量作为情感分类识别的输入数据。优点在于,充分考虑语音信号的特性,先以音素为单位对语音信号进行局部建模,随后以字为单位对音素特征进行局部建模,最后对所有的字特征进行全局建模,能有效提取出语音信号中的信息。使用深度学习模型,提高了对语音情感识别的准确率。
Description
技术领域
本发明涉及智能语音处理技术,尤其涉及一种基于音素级的语音情感分层式识别方法及系统。
背景技术
人机交互系统伴随着计算机的发展而来,是人与计算机之间交流与通信的媒介。在人机交互的过程中让计算机知晓使用者的情绪,能让计算机的反馈更加人性化,拉近人与机器的距离。情感识别的目的就是赋予机器感受人类情绪的能力,能够让机器及时知晓人类的情绪从而做出相应的判断与反应,进而让机器的行为更贴近人类的行为,提高类人能力,具有非常大的科学价值。说话作为人类表达自我最直接的方式,语音信号中含有非常丰富的情感信息,基于语音的情感识别也成为了情感识别研究中的重点。
目前的研究做法使用机器学习或深度学习方法直接对整段语音信号进行处理。会导致模型的参数量与计算量较大,建模困难,效率低下。将所有语音帧特征拼接在一起后视为一张图像输入进识别系统,没有结合语音信号中天然的结构特性,忽略了语音信号中的局部特征,导致情感识别的效果较差。因此,有必要开发一种适合语音信号的高效建模方式进行情感识别。
发明内容
本发明目的在于提供一种基于音素级的语音情感分层式识别方法及系统,以解决上述现有技术存在的问题。
本发明所述一种基于音素级的语音情感分层式识别方法,获取语音信号并进行分帧后,依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取,最后识别出原始语音信息的情感分类;
提取出的音素特征向量作为字特征向量提取的输入数据;
提取出的字特征向量作为句子特征向量提取的输入数据;
提取出的句子特征向量作为情感分类识别的输入数据。
对分帧后的每一帧语音信号进行短时傅里叶变换得到对应的特征向量。
通过音素强对齐得到语音信号中每一个音素的开始时间与结束时间,以及得到每一个字的开始时间与结束时间。
通过音素的开始时间与结束时间确定每一个音素所包含的帧,对每一个音素内所包含的帧的特征向量进行建模,随后通过平均池化得到对应的音素特征向量。
对特征向量进行建模是通过深度自注意力网络与平均池化完成,先对输入的特征向量进行线性变换,其数学公式为:
其中,Wa是维度为n×n的相关矩阵;
通过相关矩阵Wa计算注意力输出:
其中,Xa是一次自注意力计算的输出;
进行多次的自注意力计算并将多个Xai输出拼接在一起,然后输入到一个线性变换层,得到深度自注意力网络最终的输出:
XA=concat(Xa1,Xa2,Xa3…XaM)Wo;
其中,M为人为设定的自注意力计算次数,Wo是线性变换层的可学习参数,XA是深度自注意力网络最终的输出矩阵;
通过平均池化,得到该音素的特征向量:
P=meanpool(XA);
其中,meanpool(·)代表平均池化操作,P是c维的音素的特征向量。
通过字的开始时间与结束时间确定每一个字所包含的音素,并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模,随后通过平均池化得到每一个字的特征向量,对输入特征向量实现进一步的特征提取与压缩。
对输入特征向量实现进一步的特征提取与压缩,其数学公式为:
通过平均池化,得到该字的特征向量:
其中,W是c维的字的特征向量;
通过深度自注意力网络对句子中所有的字的特征向量进行全局建模,随后通过平均池化得到该句子的特征向量,其数学公式为:
通过平均池化,得到该句子的特征向量:
其中,Xs是c维的句子的特征向量。
采用多层感知机神经网络进行情感分类识别,其数学表达形式如下:
第一个隐藏层与输入层的连接公式:
H1=Activation(W1×Xs+b1);
其中Activation(·)是激活函数,W1是维度为m1×c的矩阵,m1是第一个隐藏层的神经元个数,b1是维度为m1的列向量,H1是第一个隐藏层的输出;
第一个隐藏层与第二个隐藏层之间的连接公式:
H2=Activation(W2×H1+b2);
其中,W2是维度为m2×m1的矩阵,m2是第二个隐藏层的神经元个数,b2是维度为m2的列向量,H2是第二个隐藏层的输出;
第二个隐藏层与输出层之间的连接公式:
Y=W3×H2+b3;
其中,W3是维度为m3×m2的矩阵,m3是需要分类的情感类别数,b3是维度为m3的列向量,Y是多层感知机的输出。
所述深度自注意力网络在训练阶段准备不同情感标签的说话样本作为训练数据,进行音素特征向量提取、字特征向量提取、句子特征向量提取以及情感分类识别的运算训练;得到识别损失L;在训练的过程中最小化识别损失L,并把梯度回传到系统参数上,然后采用梯度下降法对系统参数进行更新;识别损失L的数学公式为:
一种基于音素级的语音情感分层式识别系统,利用所述方法进行语音信息的情感分类。
本发明所述一种基于音素级的语音情感分层式识别方法及系统,其优点在于,充分考虑语音信号的特性,先以音素为单位对语音信号进行局部建模,随后以字为单位对音素特征进行局部建模,最后对所有的字特征进行全局建模,能有效提取出语音信号中的信息。使用深度学习模型,提高了对语音情感识别的准确率。
附图说明
图1是本发明所述一种基于音素级的语音情感分层式识别方法的流程示意图;
图2是本发明所述音素特征向量提取的流程示意图;
图3是本发明所述字特征向量提取的流程示意图;
图4是本发明所述句子特征向量提取的流程示意图。
具体实施方式
本发明所述一种基于音素级的语音情感分层式识别系统包括了依次信号连接的拾音模块、音素级局部建模模块、字级局部建模模块、句子级全局建模模块以及识别模块。音素级局部建模模块、字级局部建模模块、句子级全局建模模块以及识别模块均通过深度自注意力网络与平均池化完成特征提取运算。
所述语音情感分层式识别系统通过本发明所述一种基于音素级的语音情感分层式识别方法进行语音信息的情感分类。所述音素级局部建模模块对语音信号中的每一个音素进行局部建模,得到每一个音素的特征向量。所述字级局部建模模块对语音信号中的每一个字内的所有音素特征向量进行局部建模,得到每一个字的特征向量。所述句子级全局建模模块对语音信号中的所有字的特征向量进行全局建模,得到该句子的特征向量。所述识别模块对句子的特征向量进行识别,得到该句子所蕴含的情感信息。
本发明所述一种基于音素级的语音情感分层式识别方法如图1至图4所示,具体如下:所述音素级局部建模模块对输入的语音信号进行分帧并对每一帧语音信号进行短时傅里叶变换得到每一帧的特征向量,通过音素强对齐工具得到语音信号中每一个音素的开始时间与结束时间以及语音信号中每一个字的开始时间与结束时间。所述音素级局部建模模块通过音素的开始时间与结束时间确定每一个音素所包含的帧,并通过深度自注意力网络对每一个音素内所包含的帧的特征向量进行建模,随后通过平均池化得到每一个音素的特征向量,对原始输入特征进行了特征提取与压缩。
深度自注意力网络的数学表达形式如下:
先对输入特征进行线性变换,其数学公式为:
其中,Wa是维度为n×n的相关矩阵。
通过相关矩阵Wa计算注意力输出:
其中,Xa是一次自注意力计算的输出。
进行多次的自注意力计算并将多个Xai输出拼接在一起,然后输入进一个线性变换层,得到深度自注意力网络最终的输出。其数学公式为:
XA=concat(Xa1,Xa2,Xa3…XaM)Wo
其中,M为人为设定的自注意力计算次数,Wo是线性变换层的可学习参数,XA是深度自注意力网络最终的输出矩阵。
通过平均池化,得到该音素的特征向量:
P=meanpool(XA);
其中,meanpool(·)代表平均池化操作,P是c维的音素的特征向量。
进一步地,所述字级局部建模模块通过字的开始时间与结束时间确定每一个字所包含的音素,并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模,随后通过平均池化得到每一个字的特征向量,对输入特征实现进一步的特征提取与压缩,其数学公式为:
通过平均池化,得到该字的特征向量:
其中,W是c维的字的特征向量;
进一步地,所述句子级全局建模模块通过深度自注意力网络对句子中所有的字的特征向量进行全局建模,随后通过平均池化得到该句子的特征向量,其数学公式为:
通过平均池化,得到该句子的特征向量:
其中,Xs是c维的句子的特征向量。
进一步地,所述识别模块采用层数为3的多层感知机神经网络,其数学表达形式如下:
第一个隐藏层与输入层的连接公式:
H1=Activation(W1×Xs+b1)
其中,Activation(·)是激活函数,W1是维度为m1×c的矩阵,m1是第一个隐藏层的神经元个数,b1是维度为m1的列向量,H1是第一个隐藏层的输出。
隐藏层与隐藏层之间的连接公式:
H2=Activation(W2×H1+b2)
其中,W2是维度为m2×m1的矩阵,m2是第二个隐藏层的神经元个数,b2是维度为m2的列向量,H2是第二个隐藏层的输出。
最后一个隐藏层与输出层之间的连接公式:
Y=W3×H2+b3
其中,W3是维度为m3×m2的矩阵,m3是需要分类的情感类别数,b3是维度为m3的列向量,Y是多层感知机的输出。
进一步地,所述基于音素级的语音情感分层式识别方法、系统包括训练阶段和测试阶段。
进一步地,所述基于音素级的语音情感分层式识别方法、系统的训练阶段,准备不同情感标签的说话样本作为训练数据。然后同时训练所述的音素级局部建模模块、字级局部建模模块、句子级全局建模模块、识别模块。所有的训练样本依次输入音素级局部建模模块、字级局部建模模块、句子级全局建模模块、识别模块,得到识别损失L。在训练的过程中最小化识别损失L,并把梯度回传到系统参数上,然后采用梯度下降法对系统参数进行更新。识别损失L的数学公式为:
系统参数P0的更新公式为:
对于本领域的技术人员来说,可根据以上描述的技术方案以及构思,做出其它各种相应的改变以及形变,而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。
Claims (10)
1.一种基于音素级的语音情感分层式识别方法,其特征在于,获取语音信号并进行分帧后,依次进行音素特征向量提取、字特征向量提取以及句子特征向量提取,最后识别出原始语音信息的情感分类;
提取出的音素特征向量作为字特征向量提取的输入数据;
提取出的字特征向量作为句子特征向量提取的输入数据;
提取出的句子特征向量作为情感分类识别的输入数据。
2.根据权利要求1所述一种基于音素级的语音情感分层式识别方法,其特征在于,对分帧后的每一帧语音信号进行短时傅里叶变换得到对应的特征向量。
3.根据权利要求2所述一种基于音素级的语音情感分层式识别方法,其特征在于,通过音素强对齐得到语音信号中每一个音素的开始时间与结束时间,以及得到每一个字的开始时间与结束时间。
4.根据权利要求3所述一种基于音素级的语音情感分层式识别方法,其特征在于,通过音素的开始时间与结束时间确定每一个音素所包含的帧,对每一个音素内所包含的帧的特征向量进行建模,随后通过平均池化得到对应的音素特征向量。
5.根据权利要求4所述一种基于音素级的语音情感分层式识别方法,其特征在于,对特征向量进行建模是通过深度自注意力网络与平均池化完成,先对输入的特征向量进行线性变换,其数学公式为:
其中,Wa是维度为n×n的相关矩阵;
通过相关矩阵Wa计算注意力输出:
其中,Xa是一次自注意力计算的输出;
进行多次的自注意力计算并将多个Xai输出拼接在一起,然后输入到一个线性变换层,得到深度自注意力网络最终的输出:
XA=concat(Xa1,Xa2,Xa3…XaM)Wo;
其中,M为人为设定的自注意力计算次数,Wo是线性变换层的可学习参数,XA是深度自注意力网络最终的输出矩阵;
通过平均池化,得到该音素的特征向量:
P=meanpool(XA);
其中,meanpool(·)代表平均池化操作,P是c维的音素的特征向量。
6.根据权利要求5所述一种基于音素级的语音情感分层式识别方法,其特征在于,通过字的开始时间与结束时间确定每一个字所包含的音素,并通过深度自注意力网络对每一个字中所包含的音素的特征向量进行建模,随后通过平均池化得到每一个字的特征向量,对输入特征向量实现进一步的特征提取与压缩。
7.根据权利要求6所述一种基于音素级的语音情感分层式识别方法,其特征在于,对输入特征向量实现进一步的特征提取与压缩,其数学公式为:
通过平均池化,得到该字的特征向量:
其中,W是c维的字的特征向量;
通过深度自注意力网络对句子中所有的字的特征向量进行全局建模,随后通过平均池化得到该句子的特征向量,其数学公式为:
通过平均池化,得到该句子的特征向量:
其中,Xs是c维的句子的特征向量。
8.根据权利要求7所述一种基于音素级的语音情感分层式识别方法,其特征在于,采用多层感知机神经网络进行情感分类识别,其数学表达形式如下:
第一个隐藏层与输入层的连接公式:
H1=Activation(W1×Xs+b1);
其中,Activation(·)是激活函数,W1是维度为m1×c的矩阵,m1是第一个隐藏层的神经元个数,b1是维度为m1的列向量,H1是第一个隐藏层的输出;
第一个隐藏层与第二个隐藏层之间的连接公式:
H2=Activation(W2×H1+b2);
其中,W2是维度为m2×m1的矩阵,m2是第二个隐藏层的神经元个数,b2是维度为m2的列向量,H2是第二个隐藏层的输出;
第二个隐藏层与输出层之间的连接公式:
Y=W3×H2+b3;
其中,W3是维度为m3×m2的矩阵,m3是需要分类的情感类别数,b3是维度为m3的列向量,Y是多层感知机的输出。
10.一种基于音素级的语音情感分层式识别系统,其特征在于,利用如权利要求1-9任一所述方法进行语音信息的情感分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111461421.0A CN114360584A (zh) | 2021-12-02 | 2021-12-02 | 一种基于音素级的语音情感分层式识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111461421.0A CN114360584A (zh) | 2021-12-02 | 2021-12-02 | 一种基于音素级的语音情感分层式识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114360584A true CN114360584A (zh) | 2022-04-15 |
Family
ID=81097378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111461421.0A Withdrawn CN114360584A (zh) | 2021-12-02 | 2021-12-02 | 一种基于音素级的语音情感分层式识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114360584A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN115456114A (zh) * | 2022-11-04 | 2022-12-09 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
-
2021
- 2021-12-02 CN CN202111461421.0A patent/CN114360584A/zh not_active Withdrawn
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN114566189B (zh) * | 2022-04-28 | 2022-10-04 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
CN115456114A (zh) * | 2022-11-04 | 2022-12-09 | 之江实验室 | 一种模型训练和业务执行的方法、装置、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Latif et al. | Deep representation learning in speech processing: Challenges, recent advances, and future trends | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
WO2021072875A1 (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN112818861B (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN110647612A (zh) | 一种基于双视觉注意力网络的视觉对话生成方法 | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
CN108986798B (zh) | 语音数据的处理方法、装置及设备 | |
Li et al. | Learning fine-grained cross modality excitement for speech emotion recognition | |
CN114973062A (zh) | 基于Transformer的多模态情感分析方法 | |
CN112101044B (zh) | 一种意图识别方法、装置及电子设备 | |
CN114360584A (zh) | 一种基于音素级的语音情感分层式识别方法及系统 | |
CN112151030A (zh) | 一种基于多模态的复杂场景语音识别方法和装置 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN113065344A (zh) | 一种基于迁移学习和注意力机制的跨语料库情感识别方法 | |
Zhao et al. | End-to-end-based Tibetan multitask speech recognition | |
Huang et al. | Speech emotion recognition using convolutional neural network with audio word-based embedding | |
Poncelet et al. | Low resource end-to-end spoken language understanding with capsule networks | |
Basak et al. | Challenges and Limitations in Speech Recognition Technology: A Critical Review of Speech Signal Processing Algorithms, Tools and Systems. | |
CN111653270A (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
Mehra et al. | Improving speech command recognition through decision-level fusion of deep filtered speech cues | |
CN112700796B (zh) | 一种基于交互式注意力模型的语音情感识别方法 | |
CN115795010A (zh) | 一种外部知识辅助的多因素层次建模共情对话生成方法 | |
Zhu et al. | A hybrid acoustic model based on pdp coding for resolving articulation differences in low-resource speech recognition | |
CN115033695A (zh) | 一种基于常识知识图谱的长对话情感检测方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20220415 |