CN112712824B - 一种融合人群信息的语音情感识别方法和系统 - Google Patents

一种融合人群信息的语音情感识别方法和系统 Download PDF

Info

Publication number
CN112712824B
CN112712824B CN202110322720.XA CN202110322720A CN112712824B CN 112712824 B CN112712824 B CN 112712824B CN 202110322720 A CN202110322720 A CN 202110322720A CN 112712824 B CN112712824 B CN 112712824B
Authority
CN
China
Prior art keywords
network
mel
information
crowd
emotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110322720.XA
Other languages
English (en)
Other versions
CN112712824A (zh
Inventor
李太豪
郑书凯
刘昱龙
裴冠雄
马诗洁
谢冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202110322720.XA priority Critical patent/CN112712824B/zh
Publication of CN112712824A publication Critical patent/CN112712824A/zh
Application granted granted Critical
Publication of CN112712824B publication Critical patent/CN112712824B/zh
Priority to PCT/CN2021/115694 priority patent/WO2022198923A1/zh
Priority to PCT/CN2022/070728 priority patent/WO2022199215A1/zh
Priority to US17/845,908 priority patent/US11837252B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Psychiatry (AREA)
  • Hospice & Palliative Care (AREA)
  • Child & Adolescent Psychology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统,该方法包括以下步骤:S1、采集用户语音信号;S2、预处理语音信号,获取梅尔谱;S3、切除梅尔谱前后静音段;S4、通过人群分类网络获取深度人群信息;S5、通过梅尔谱预处理网络获取梅尔谱深度信息;S6、通过SENet融合特征,获取融合信息;S7、通过分类网络,得到情感识别结构。本发明融合人群信息特征,使情感特征提取更加准确,通过SENet的通道注意力机制进行信息融合,能够有效的进行深度特征的提取,提高整体识别精度。

Description

一种融合人群信息的语音情感识别方法和系统
技术领域
本发明属于人工智能领域,具体涉及一种融合人群信息的语音情感识别方法和系统。
背景技术
语言交互是人类最早的交流方式之一,因此语音成为了人类表达情感的主要方式。随着人机交互的兴起,智能的进行语音情感分析也越发重要起来。目前情感主要的分类方式是上世纪Ekman提出的7种情感,分别为:中性、开心、悲伤、生气、害怕、厌恶、惊讶。
当前主流的语音情感识别方法是基于传统算法或者基于简单神经网络架构的深度学习方法。基于传统方法的基本流程为:对语音进行特征提取、通过特征对语音进行情感分类。其中语音特征通常有梅尔频率倒谱系数、梅尔频谱、过零率、基频等。基于深度学习的方法基本流程与传统方法一样,只是传统方法分类器用的是SVM等传统算法,深度学习用的是神经网络分类器。目前深度学习方法使用的特征有梅尔频率倒谱系数和梅尔频谱,网络通常只是简单的几层RNN或者几层CNN作为分类器。
在目前的技术中,因为只考虑了语音的浅层信息,使用了简单的网络结构,所以情感识别识别率都比较低,泛化性也比较差。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提供了基于SENet融合人群信息和梅尔谱特征信息,有效提高语音情感识别准确率的方法和系统,其具体技术方案如下:
一种融合人群信息的语音情感识别方法,包括如下步骤:
S1:通过录音采集设备,采集用户音频信号,表示为
Figure 195DEST_PATH_IMAGE001
S2:对采集的音频信号
Figure 386177DEST_PATH_IMAGE001
,进行预处理,生成梅尔谱图信号,表示为
Figure 634755DEST_PATH_IMAGE002
S3:对生成的梅尔谱图信号
Figure 764385DEST_PATH_IMAGE002
,计算不同时间帧梅尔谱图的能量大小,通过设置 阈值,切除前后静音段,得到长度为T的梅尔谱图信号,表示为
Figure 296867DEST_PATH_IMAGE003
S4:将S3得到的
Figure 322592DEST_PATH_IMAGE003
输入人群分类网络,得到人群深度特征信息
Figure 58466DEST_PATH_IMAGE004
S5:将S3得到的
Figure 991787DEST_PATH_IMAGE003
输入梅尔谱预处理网络,得到梅尔谱深度特征信息
Figure 378775DEST_PATH_IMAGE005
S6:将S4提取的人群深度特征信息
Figure 840981DEST_PATH_IMAGE004
和S5提取的梅尔谱深度特征信息
Figure 64152DEST_PATH_IMAGE005
通过 通道注意力网络SENet进行融合,得到融合特征
Figure 270005DEST_PATH_IMAGE006
S7:将S6融合后的特征
Figure 527811DEST_PATH_IMAGE006
,通过池化层后,输入人群分类网络进行情感识别。
进一步的,所述人群分类网络由三层LSTM网络结构构成,所述步骤S4具体包括如下步骤:
S4_1:首先将输入的长度为T的梅尔谱图信号
Figure 675764DEST_PATH_IMAGE003
,有重叠的切分成三段
Figure 386231DEST_PATH_IMAGE007
等长 度的梅尔谱片段,切分方法为0到
Figure 130197DEST_PATH_IMAGE007
切分成第一段,
Figure 242509DEST_PATH_IMAGE008
Figure 310433DEST_PATH_IMAGE009
切分成第二段,
Figure 773775DEST_PATH_IMAGE007
到T切分成 第三段;
S4_2:将S4_1切分好的三个梅尔谱片段,依次输入到三层LSTM网络中,并取LSTM网 络输出的最后一个输出作为最终状态,三个梅尔谱片段最终获得3个隐含特征,最后将3个 隐含特征进行取平均,得到最终的人群深度特征信息
Figure 55852DEST_PATH_IMAGE004
进一步的,所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成,所述 步骤S5具体包括如下步骤:首先将长度为T的梅尔谱图信号
Figure 288250DEST_PATH_IMAGE003
扩充成三维矩阵;然后利 用所述的ResNet网络结构采用2层卷积加最大池化的结构,提取梅尔谱图信息中与表示情 感的相关的信息;再利用FMS网络架构对ResNet网络提取出的信息进行有效组合,最后得到 梅尔谱深度特征信息
Figure 778006DEST_PATH_IMAGE005
进一步的,所述步骤S6具体包括如下步骤:
S6_1:所述人群深度特征信息
Figure 197486DEST_PATH_IMAGE004
是空间
Figure 548833DEST_PATH_IMAGE010
中的一维向量,其中C代表通道维度; 所述梅尔谱深度特征信息
Figure 370159DEST_PATH_IMAGE005
是空间
Figure 47128DEST_PATH_IMAGE011
中的三维矩阵,其中T代表时间维度,W代表宽 度维度,C代表通道维度;通过SENet网络,将
Figure 203172DEST_PATH_IMAGE005
在时间维度T和宽度维度W上做全局平均池 化,转换成C维向量,得到空间
Figure 92630DEST_PATH_IMAGE010
的一维向量
Figure 299621DEST_PATH_IMAGE012
,具体的,
Figure 881912DEST_PATH_IMAGE013
其中,
Figure 525251DEST_PATH_IMAGE014
另外,
Figure 483980DEST_PATH_IMAGE015
全局平均池化公式如下:
Figure 14319DEST_PATH_IMAGE016
S6_2:将S6_1得到的
Figure 767511DEST_PATH_IMAGE012
与人群深度特征信息
Figure 914459DEST_PATH_IMAGE017
进行拼接,得到拼接特征
Figure 663496DEST_PATH_IMAGE018
,表达式为:
Figure 313920DEST_PATH_IMAGE019
S6_3:将S6_2得到的拼接特征
Figure 972435DEST_PATH_IMAGE018
输入两层全连接网络,得到通道权重向量
Figure 341099DEST_PATH_IMAGE020
,其 中,全连接网络的计算公式如下:
Figure 625319DEST_PATH_IMAGE021
其中,Y表示网络的输出,X表示网络的输入,W表示网络的权重参数,b表示网络的偏置参数;
S6_4:将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息
Figure 395829DEST_PATH_IMAGE022
,得到情感特 征矩阵,将情感特征矩阵在维度
Figure 225245DEST_PATH_IMAGE023
上做全局平均池化,得到融合特征
Figure 81205DEST_PATH_IMAGE024
进一步的,所述步骤S7具体包括如下步骤:
S7_1:将S6得到的
Figure 169116DEST_PATH_IMAGE024
,经过池化层后,输入到两层全连接网络,得到7维特征向量
Figure 794132DEST_PATH_IMAGE025
,其中7表示所有的情感类别数;
S7_2:将S7_1得到的特征向量:
Figure 794449DEST_PATH_IMAGE026
作为Softmax算子的自变量,计算Softmax的最终 值,做为输入音频属于每一类情感的概率值,最后取类别概率值最大的作为最终的音频情 感类别,其中Softmax的计算公式如下:
Figure 137706DEST_PATH_IMAGE027
其中的e为常量。
一种融合人群信息的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据;
情感预测模块,用于通过设计的网络模型处理梅尔谱特征,预测用户音频的情感类型;
数据存储模块,用于利用MySQL数据库,存储用户的语音数据和情感标签数据。
进一步的,所述语音信号采集模块采用高保真单麦克风或者麦克风阵列。
进一步的,所述预处理,包括:预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成梅尔谱特征;其中采用谱减法对语音进行静音去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行梅尔谱特征提取。
本发明的优点如下:
1、本发明的语音情感识别方法,融合人群信息对语音情感进行识别,由于不同人群在生理发育上的不同,导致声带形态构造不同,从而影响人的发音效果,例如:儿童的发音清脆、尖锐,老人的声音浑浊、低沉,另外,成年男子的声音通常比成年女子声音更加低沉,因此,融合人群信息能够更加有效提取语音中的蕴含的情感信息;
2、本发明的语音情感识别方法,利用LSTM取最后一个输出和全局池化技术,能够忽略语音长度限制,实现不同长度语音进行情感识别;
3、本发明的语音情感识别方法,利用SENet进行信息融合,能够通过SENet的通道注意力机制,有效提取网络中的重要信息,提高模型整体精度;
4、本发明的语音情感识别系统具有情感分析结果及原始对话语音存储功能,能够帮助做出合理分析和建议,例如用于智能电话客服服务质量评估场景,智能语音对话机器人用户满意度分析场景、语音留言情感分析场景、视频内语音情感类别分析场景等。
附图说明
图1为本发明的语音情感识别系统的结构示意图;
图2为本发明的语音情感识别方法的流程示意图;
图3为本发明的语音情感识别方法的网络结构示意图;
图4 ResNet与FMS融合的网络结构示意图。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图,对本发明作进一步详细说明。
如图1所示,一种融合人群信息的语音情感识别系统,包括:
语音信号采集模块,用于采集用户语音信号,一般采用高保真单麦克风或者麦克风阵列,以降低语音信号采集的失真度;
语音信号预处理模块,用于将采集到的语音信号进行预处理,对语音进行端点检测,去除语音前后静音段,生成可用于神经网络处理的数据,具体为:该模块通过对语音进行预加重、分帧、加窗、短时傅里叶变换、三角函数滤波、静音去除等操作,将语音信号从时域信号转换到频域信号,即从音频采样转换成梅尔谱特征,用于后续处理;其中采用谱减法对语音进行去噪,采用Z变换方法对语音进行预加重,采用短时傅里叶变换方法对语音进行梅尔谱提取;
情感预测模块,用于通过设计的网络模型处理梅尔谱特征,预测用户音频的情感类型;
数据存储模块,用于利用MySQL等数据库,存储用户的语音数据和情感标签数据。
如图2所示,一种使用融合人群信息的语音情感识别系统的方法,包括如下步骤:
S1:通过录音采集设备,采集用户音频信号,表示为
Figure 780040DEST_PATH_IMAGE028
S2:对采集的音频信号
Figure 508830DEST_PATH_IMAGE028
,进行预加重、短时傅里叶变换等预处理,生成梅尔谱 图信号,表示为
Figure 211207DEST_PATH_IMAGE029
,梅尔谱是一个维度为
Figure 776181DEST_PATH_IMAGE030
的矩阵。
S3:对生成的梅尔谱图信号
Figure 222205DEST_PATH_IMAGE029
,计算不同时间帧梅尔谱图的能量大小,通过设置 阈值,切除前后静音段,得到网络输入是维度为
Figure 821814DEST_PATH_IMAGE031
的梅尔谱图信号,表示为
Figure 681710DEST_PATH_IMAGE032
其中,所述切除前后静音段,采用累加各帧不同频率维度的梅尔谱图的能量,通过设置阈值去除能量低于该阈值的帧,实现去除静音帧。
S4:将S3得到的
Figure 733980DEST_PATH_IMAGE032
输入人群分类网络,得到人群深度特征信息
Figure 452537DEST_PATH_IMAGE033
,该人群分类 网络由三层LSTM网络结构构成,LSTM网络是一种能够有效解决长序列依赖问题的递归神经 网络结构,多层LSTM常用于解决例如语音这样的序列相关的问题。具体的,包括如下步骤:
S4_1:首先将输入的长度为T的梅尔谱,有重叠的切分成三段
Figure 906652DEST_PATH_IMAGE034
等长度的梅尔谱片 段,切分方法为0到
Figure 934520DEST_PATH_IMAGE034
切分成第一段,
Figure 739665DEST_PATH_IMAGE035
Figure 996334DEST_PATH_IMAGE036
切分成第二段,
Figure 304955DEST_PATH_IMAGE034
到T切分成第三段;
S4_2:将S4_1切分好的三段梅尔谱,依次输入到三层LSTM网络中,并取LSTM网络输 出的最后一个输出作为最终状态。通过此方法,三个梅尔谱片段最终获得3个维度为256的 隐含特征,最后将三个特征进行取平均,作为最终的人群深度特征信息
Figure 503724DEST_PATH_IMAGE033
。三层LSTM可以 有效提取梅尔谱这种较长时序序列的信息;取LSTM最后一个状态和求平均能够有效去除梅 尔谱中与人群信息无关的文本内容等信息,提高人群信息提取的准确度。
S5:将S3得到的
Figure 265007DEST_PATH_IMAGE032
输入梅尔谱预处理网络,得到梅尔谱深度特征信息
Figure 590946DEST_PATH_IMAGE037
所述梅尔谱预处理网络结构由ResNet网络级联FMS网络,具体网络结构如图4所 示,梅尔谱预处理网络处理步骤为:首先将维度为
Figure 754074DEST_PATH_IMAGE038
的梅尔谱扩充成
Figure 140056DEST_PATH_IMAGE039
的三 维矩阵,然后通过ResNet与FMS网络结构进行梅尔谱特征的深度信息处理,生成维度为
Figure 169061DEST_PATH_IMAGE040
的深度梅尔谱特征;ResNet网络结构采用2层卷积加最大池化的结构,提取梅 尔谱中与表示情感的相关的信息,然后再利用FMS网络架构对ResNet网络提取出的信息进 行有效的组合,得到更加合理的与情感相关的特征。
ResNet网络能够在拓展网络深度,提高网络学习能力的同时,解决深度学习中出现的梯度消失问题;FMS网络能够有效进行网络中的信息提取,有助于ResNet网络高效的提取网络中的有用信息。
S6:将S4提取的人群深度特征信息
Figure 33112DEST_PATH_IMAGE033
和S5提取的梅尔谱深度特征信息
Figure 316326DEST_PATH_IMAGE037
通过通 道注意力网络SENet进行融合,如图3所示,得到融合特征
Figure 873209DEST_PATH_IMAGE041
,具体步骤包括:
S6_1:步骤S4得到的人群深度特征信息
Figure 874663DEST_PATH_IMAGE033
是空间
Figure 807984DEST_PATH_IMAGE042
中的一维向量,其中C代表通 道维度;步骤S5得到的梅尔谱深度特征信息
Figure 932322DEST_PATH_IMAGE037
是空间
Figure 660107DEST_PATH_IMAGE043
中的三维矩阵,其中T代表时 间维度,W代表宽度维度,C代表通道维度;通过通道注意力网络SENet,将
Figure 148857DEST_PATH_IMAGE037
在时间维度和 宽度维度上做全局平均池化,转换成C维向量,得到
Figure 620290DEST_PATH_IMAGE042
空间的一维向量
Figure 612516DEST_PATH_IMAGE044
,具体的,
Figure 26049DEST_PATH_IMAGE045
其中,
Figure 470937DEST_PATH_IMAGE046
则平均池化后的特征为:
Figure 746060DEST_PATH_IMAGE047
全局平均池化公式如下:
Figure 858373DEST_PATH_IMAGE048
S6_2:将S6_1得到的
Figure 927960DEST_PATH_IMAGE049
与人群深度特征信息
Figure 374991DEST_PATH_IMAGE033
进行拼接,得到拼接特征
Figure 188226DEST_PATH_IMAGE050
,表达式为:
Figure 420624DEST_PATH_IMAGE051
S6_3:将S6_2得到的拼接特征
Figure 395533DEST_PATH_IMAGE050
输入两层全连接网络,得到通道权重向量
Figure 346172DEST_PATH_IMAGE052
。具 体的,全连接网络的计算公式如下:
Figure 697519DEST_PATH_IMAGE053
其中的,Y表示网络的输出,X表示网络的输入,W表示网络的权重参数,b表示网络的偏置参数;
S6_4:将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息
Figure 33691DEST_PATH_IMAGE037
,得到融合特 征
Figure 445081DEST_PATH_IMAGE041
所述SENet通过网络自动计算各个通道的权重系数,能够有效增强网络中提取的重要信息,同时降低无用信息的权重。另外,加入人群信息的SENet,能够根据不同人群,侧重提取与该人群发音特点的相关信息,进一步提高情感识别的准确率。
S7:将S6融合后的特征
Figure 617436DEST_PATH_IMAGE041
,通过一层池化层后,输入人群分类网络进行情感识别, 即:将
Figure 506895DEST_PATH_IMAGE054
的三维矩阵转换成256维的一维向量,输入到分类网络进行情感识别, 所述分类网络由一层256维的全连接网络加一层7维的全连接网络构成,最后将输出的7维 特征通过Softmax算子进行情感7分类的概率计算,以概率最大者为最终的情感类别,具体 的,包括如下步骤:
S7_1:将S6得到的
Figure 713885DEST_PATH_IMAGE041
,经过池化层后,输入到两层全连接网络,得到7维特征向量
Figure 271076DEST_PATH_IMAGE055
,其中7表示所有的情感类别数;
S7_2:将S7_1得到的特征向量:
Figure 930727DEST_PATH_IMAGE056
作为Softmax算子的自变量,计算Softmax的最终 值,做为输入音频属于每一类情感的概率值,最后取类别概率值最大的作为最终的音频情 感类别,其中Softmax的计算公式如下:
Figure 889456DEST_PATH_IMAGE027
其中的e为常量。
综上所述,本实施提供的方法,通过融合人群信息,增加了音频情感特征提取的准确性,能够增加整个模型的情感识别能力。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种融合人群信息的语音情感识别方法,包括如下步骤:
S1:通过录音采集设备,采集用户音频信号,表示为Xaudio
S2:对采集的音频信号Xaudio,进行预处理,生成梅尔谱图信号,表示为Xmel
S3:对生成的梅尔谱图信号Xmel,计算不同时间帧梅尔谱图的能量大小,通过设置阈值,切除前后静音段,得到长度为T的梅尔谱图信号,表示为Xinput
S4:将S3得到的Xinput输入人群分类网络,得到人群深度特征信息Hp
S5:将S3得到的Xinput输入梅尔谱预处理网络,得到梅尔谱深度特征信息Hm
S6:将S4提取的人群深度特征信息Hp和S5提取的梅尔谱深度特征信息Hm通过通道注意力网络SENet进行融合,得到融合特征Hf
S7:将S6融合后的特征Hf,通过池化层后,输入人群分类网络进行情感识别;
所述人群分类网络由三层LSTM网络结构构成,所述步骤S4具体包括如下步骤:
S4_1:首先将输入的长度为T的梅尔谱图信号Xinput,有重叠的切分成三段
Figure FDA0003064332480000011
等长度的梅尔谱片段,切分方法为0到
Figure FDA0003064332480000012
切分成第一段,
Figure FDA0003064332480000013
Figure FDA0003064332480000014
切分成第二段,
Figure FDA0003064332480000015
到T切分成第三段;
S4_2:将S4_1切分好的三个梅尔谱片段,依次输入到三层LSTM网络中,并取LSTM网络输出的最后一个输出作为最终状态,三个梅尔谱片段最终获得3个隐含特征,最后将3个隐含特征进行取平均,得到最终的人群深度特征信息Hp
2.如权利要求1所述的一种融合人群信息的语音情感识别方法,其特征在于,所述步骤S5的梅尔谱预处理网络由ResNet网络级联FMS网络组成,所述步骤S5具体包括如下步骤:首先将长度为T的梅尔谱图信号Xinput扩充成三维矩阵;然后利用所述的ResNet网络结构采用2层卷积加最大池化的结构,提取梅尔谱图信息中与表示情感的相关的信息;再利用FMS网络架构对ResNet网络提取出的信息进行有效组合,最后得到梅尔谱深度特征信息Hm
3.如权利要求1所述的一种融合人群信息的语音情感识别方法,其特征在于,所述步骤S6具体包括如下步骤:
S6_1:所述人群深度特征信息Hp是空间RC中的一维向量,其中C代表通道维度;所述梅尔谱深度特征信息Hm是空间RT×W×C中的三维矩阵,其中T代表时间维度,W代表宽度维度,C代表通道维度;通过SENet网络,将Hm在时间维度T和宽度维度W上做全局平均池化,转换成C维向量,得到空间RC的一维向量Hp_avg,具体的,
Hm=[H1,H2,H3,...,HC]
其中,
Figure FDA0003064332480000021
另外,
Figure FDA0003064332480000022
全局平均池化公式如下:
Figure FDA0003064332480000023
S6_2:将S6_1得到的Hp_avg与人群深度特征信息Hp进行拼接,得到拼接特征Hc,表达式为:
Figure FDA0003064332480000024
S6_3:将S6_2得到的拼接特征Hc输入两层全连接网络,得到通道权重向量Wc,其中,全连接网络的计算公式如下:
Y=Q*X+b
其中,Y表示网络的输出,X表示网络的输入,Q表示网络的权重参数,b表示网络的偏置参数;
S6_4:将S6_3得到的权重参数乘以S5得到的深度梅尔谱特征信息Hm,得到情感特征矩阵,将情感特征矩阵在维度T×W上做全局平均池化,得到融合特征Hf
4.如权利要求1所述的一种融合人群信息的语音情感识别方法,其特征在于,所述步骤S7具体包括如下步骤:
S7_1:将S6得到的Hf,经过池化层后,输入到两层全连接网络,得到7维特征向量Hb,其中7表示所有的情感类别数;
S7_2:将S7_1得到的特征向量:
Figure FDA0003064332480000031
作为Softmax算子的自变量,计算Softmax的最终值,做为输入音频属于每一类情感的概率值,最后取类别概率值最大的作为最终的音频情感类别,其中Softmax的计算公式如下:
Figure FDA0003064332480000032
其中的e为常量。
CN202110322720.XA 2021-03-26 2021-03-26 一种融合人群信息的语音情感识别方法和系统 Active CN112712824B (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN202110322720.XA CN112712824B (zh) 2021-03-26 2021-03-26 一种融合人群信息的语音情感识别方法和系统
PCT/CN2021/115694 WO2022198923A1 (zh) 2021-03-26 2021-08-31 一种融合人群信息的语音情感识别方法和系统
PCT/CN2022/070728 WO2022199215A1 (zh) 2021-03-26 2022-01-07 一种融合人群信息的语音情感识别方法和系统
US17/845,908 US11837252B2 (en) 2021-03-26 2022-06-21 Speech emotion recognition method and system based on fused population information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110322720.XA CN112712824B (zh) 2021-03-26 2021-03-26 一种融合人群信息的语音情感识别方法和系统

Publications (2)

Publication Number Publication Date
CN112712824A CN112712824A (zh) 2021-04-27
CN112712824B true CN112712824B (zh) 2021-06-29

Family

ID=75550314

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110322720.XA Active CN112712824B (zh) 2021-03-26 2021-03-26 一种融合人群信息的语音情感识别方法和系统

Country Status (3)

Country Link
US (1) US11837252B2 (zh)
CN (1) CN112712824B (zh)
WO (2) WO2022198923A1 (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112712824B (zh) * 2021-03-26 2021-06-29 之江实验室 一种融合人群信息的语音情感识别方法和系统
CN113593537B (zh) * 2021-07-27 2023-10-31 华南师范大学 基于互补特征学习框架的语音情感识别方法及装置
CN113808620B (zh) * 2021-08-27 2023-03-21 西藏大学 一种基于cnn和lstm的藏语语音情感识别方法
CN114387997B (zh) * 2022-01-21 2024-03-29 合肥工业大学 一种基于深度学习的语音情感识别方法
CN114566189B (zh) * 2022-04-28 2022-10-04 之江实验室 基于三维深度特征融合的语音情感识别方法及系统
CN117475360B (zh) * 2023-12-27 2024-03-26 南京纳实医学科技有限公司 基于改进型mlstm-fcn的音视频特点的生物特征提取与分析方法

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6173260B1 (en) * 1997-10-29 2001-01-09 Interval Research Corporation System and method for automatic classification of speech based upon affective content
CN102222500A (zh) * 2011-05-11 2011-10-19 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN105869657A (zh) * 2016-06-03 2016-08-17 竹间智能科技(上海)有限公司 语音情感辨识系统及方法
CN108154879B (zh) * 2017-12-26 2021-04-09 广西师范大学 一种基于倒谱分离信号的非特定人语音情感识别方法
WO2019225801A1 (ko) * 2018-05-23 2019-11-28 한국과학기술원 사용자의 음성 신호를 기반으로 감정, 나이 및 성별을 동시에 인식하는 방법 및 시스템
CN108899049A (zh) * 2018-05-31 2018-11-27 中国地质大学(武汉) 一种基于卷积神经网络的语音情感识别方法及系统
CN109146066A (zh) * 2018-11-01 2019-01-04 重庆邮电大学 一种基于语音情感识别的虚拟学习环境自然交互方法
CN109935243A (zh) * 2019-02-25 2019-06-25 重庆大学 基于vtlp数据增强及多尺度时频域空洞卷积模型的语音情感识别方法
CN109817246B (zh) * 2019-02-27 2023-04-18 平安科技(深圳)有限公司 情感识别模型的训练方法、情感识别方法、装置、设备及存储介质
CN110047516A (zh) * 2019-03-12 2019-07-23 天津大学 一种基于性别感知的语音情感识别方法
CN110021308B (zh) * 2019-05-16 2021-05-18 北京百度网讯科技有限公司 语音情绪识别方法、装置、计算机设备和存储介质
CN110164476B (zh) * 2019-05-24 2021-07-27 广西师范大学 一种基于多输出特征融合的blstm的语音情感识别方法
CN110491416B (zh) * 2019-07-26 2022-02-25 广东工业大学 一种基于lstm和sae的电话语音情感分析与识别方法
CN110852215B (zh) * 2019-10-30 2022-09-06 国网江苏省电力有限公司电力科学研究院 一种多模态情感识别方法、系统及存储介质
CN111292765B (zh) * 2019-11-21 2023-07-28 台州学院 一种融合多个深度学习模型的双模态情感识别方法
CN111429948B (zh) * 2020-03-27 2023-04-28 南京工业大学 一种基于注意力卷积神经网络的语音情绪识别模型及方法
CN112037822B (zh) * 2020-07-30 2022-09-27 华南师范大学 基于ICNN与Bi-LSTM的语音情感识别方法
CN112435689B (zh) * 2020-11-10 2021-08-17 罗科仕管理顾问有限公司 语音聊天机器人职位面试系统中的情感识别
CN112712824B (zh) * 2021-03-26 2021-06-29 之江实验室 一种融合人群信息的语音情感识别方法和系统

Also Published As

Publication number Publication date
WO2022198923A1 (zh) 2022-09-29
US20220328065A1 (en) 2022-10-13
US11837252B2 (en) 2023-12-05
CN112712824A (zh) 2021-04-27
WO2022199215A1 (zh) 2022-09-29

Similar Documents

Publication Publication Date Title
CN112712824B (zh) 一种融合人群信息的语音情感识别方法和系统
CN113408385B (zh) 一种音视频多模态情感分类方法及系统
Deshwal et al. A language identification system using hybrid features and back-propagation neural network
CN109767756B (zh) 一种基于动态分割逆离散余弦变换倒谱系数的音声特征提取算法
CN107731233A (zh) 一种基于rnn的声纹识别方法
CN110211594B (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
Sarma et al. An ANN based approach to recognize initial phonemes of spoken words of Assamese language
Venkatesan et al. Automatic language identification using machine learning techniques
CN113611286B (zh) 一种基于共性特征提取的跨语种语音情感识别方法和系统
Nawas et al. Speaker recognition using random forest
CN113571095B (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
Raghib et al. Emotion analysis and speech signal processing
Aggarwal et al. Application of genetically optimized neural networks for hindi speech recognition system
Duong Development of accent recognition systems for Vietnamese speech
Kumar et al. Transfer learning based convolution neural net for authentication and classification of emotions from natural and stimulated speech signals
CN117312548A (zh) 一种多源异构灾情数据融合理解方法
Kawade et al. Speech Emotion Recognition Using 1D CNN-LSTM Network on Indo-Aryan Database
Mouaz et al. A new framework based on KNN and DT for speech identification through emphatic letters in Moroccan dialect
JP7159655B2 (ja) 感情推定システムおよびプログラム
Jagadeeshwar et al. ASERNet: Automatic speech emotion recognition system using MFCC-based LPC approach with deep learning CNN
Gupta et al. Comparative analysis of machine learning algorithms on gender classification using Hindi speech data
Xia et al. Research on speech accurate recognition technology based on deep learning DNN-HMM
Jeevan et al. Speech Emotion Recognition Using Machine Learning
CN113689886B (zh) 语音数据情感检测方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant