CN116434786A - 融合文本语义辅助的教师语音情感识别方法 - Google Patents

融合文本语义辅助的教师语音情感识别方法 Download PDF

Info

Publication number
CN116434786A
CN116434786A CN202310420005.9A CN202310420005A CN116434786A CN 116434786 A CN116434786 A CN 116434786A CN 202310420005 A CN202310420005 A CN 202310420005A CN 116434786 A CN116434786 A CN 116434786A
Authority
CN
China
Prior art keywords
emotion
text
voice
representing
gru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310420005.9A
Other languages
English (en)
Inventor
熊余
钟鑫
蔡婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chongqing University of Post and Telecommunications
Original Assignee
Chongqing University of Post and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University of Post and Telecommunications filed Critical Chongqing University of Post and Telecommunications
Priority to CN202310420005.9A priority Critical patent/CN116434786A/zh
Publication of CN116434786A publication Critical patent/CN116434786A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2123/00Data types
    • G06F2123/02Data types in the time domain, e.g. time-series data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及一种融合文本语义辅助的教师语音情感识别方法,属于语音情感识别技术领域。该方法包括:对采集到的数据进行清洗和预处理,将语音数据自动转换为文本数据;使用CNN和GRU分别提取语音声谱图的空间信息和时间信息,使用Bi‑GRU提取文本的语义信息;将文本中的情感词与语音序列进行细粒度对齐,并使用注意力权重矩阵来解决嵌入差异问题,同时通过语音和文本的跨模态语义嵌入来完成情感细化;通过特征层融合方法,利用键值对注意力机制将语音、文本两种不同模态的情感特征融合为新的特征,完成教师情感的识别。本发明可以准确地对教师的隐晦情感进行情感分类,解决教师语音情感识别中因存在隐晦情感,导致情感误分类问题。

Description

融合文本语义辅助的教师语音情感识别方法
技术领域
本发明属于语音情感识别技术领域,涉及一种融合文本语义辅助的教师语音情感识别方法。
背景技术
在真实课堂中,教师作为教学的指引人,其一言一行都深刻影响着学生的学习体验。根据成就情绪控制价值理论可知,积极情绪可以增强学习动机,而消极情绪会损害学习,如焦虑会降低内在动机,导致学习者的学习兴趣逐渐降低。由此可知,教师授课时情感的波动,与学生的学习活动有着紧密的联系。而教师由于职业的特殊性以及个人性格原因,有的教师需要树立威严的形象以便于管理,或者有的教师本身不苟言笑,因此,他们表达的情感往往是模棱两可的。例如,教师在讲课过程中的语音特征是语气舒展、语调平缓,声音能量无太大波动,然而将其语音内容转化为文本可知,该教师在重点强调知识点的理解,在文本模态中体现的是积极的情感,而语音模态中却是中性的情感,这就导致在对教师情感进行识别的过程中产生很多误分类的样本,将教师的情感错误地归类为中性情感或者作为无情感标签而丢弃,这不但降低了中性情感的识别率,而且也因为舍弃太多有情感的语音数据使得数据集质量严重下降。可见,有必要根据教师授课语音的特殊性,对识别模型进行修正,重点识别出语音中存在的隐晦情感,提高中性情感的识别率。
近年来,随着计算机技术的快速发展,强大的性能使得计算机可以处理更复杂、更宏大的数据,深度学习技术的蓬勃发展,使深度学习技术逐步取代机器学习技术成为语音情感识别的主要分析方法。基于深度学习技术的情感识别是利用深度学习模型自动学习数据中的特征,进而完成情感的识别和分类。它与传统机器学习技术的情感识别相比,能够自动检测和提取数据中复杂的结构和特征,不需要手动提取和调整特征;能够从给定的原始数据中提取特征,而不需要特征提取预处理;以及能够处理未标记的数据等多个优点。其中,深度神经网络是基于前馈的结构,该结构由输入和输出之间的一个或多个隐藏层组成,被成功应用于语音情感识别的情感分类。文献[SUN L,ZOU B,FU S,et al.Speech emotionrecognition based on DNN-decision tree SVM model[J].Speech Communication,2019,115:29-37.]提出一种基于DNN混合模型的语音情感识别方法,该模型不但可以准确地对语音信号进行情感分类,而且还重点关注某些特有情感的识别。循环神经网络在语音情感识别和自然语言处理等基于语音的分类中非常有效,文献[MIRSAMADI S,BARSOUM E,ZHANG C.Automatic speech emotion recognition using recurrent neural networkswith local attention[C].IEEE International Conference on Acoustics,Speech andSignal Processing.USA,2017:2227-2231.]利用RNN学习与情感相关的短时间声学特征,并利用局部注意力机制使模型专注提取情感更突出的特定区域,以提高模型的识别率,RNN虽然可以提取短时语音的情感特征,但是在处理长序列时,会出现梯度消失和梯度爆炸的问题。为此,引入长短期记忆网络,它可有效解决RNN所不能处理的问题。文献[XIE Y,LIANGR,LIANG Z,et al.Speech emotion classification using attention-based LSTM[J].IEEE/ACM Transactions on Audio,Speech,and Language Processing,2019,27(11):1675-1685.]提出基于注意力机制的LSTM模型,利用帧级语音特征与LSTM相结合进行语音情感识别,取得良好的性能。CNN因其可以提取丰富的空间信息而被引入到SER中,文献[SATT A,ROZENBERG S,HOORY R.Efficient emotion recognition from speech usingdeep learning on spectrograms[C].Interspeech.Sweden,2017:1089-1093.]利用语音的频谱信息,通过CNN提取语音的空间信息后利用LSTM获取语音的时间信息,极大地提高了情感识别的准确性。
与通用场景情感分类不同的是,教学场景下一般不会出现诸如恐惧的消极情感,而对学习者来说会出现困惑、专注、自信等特有的教学情感,为此文献[徐振国,张冠文,孟祥增,等.基于深度学习的学习者情感识别与应用[J].电化教育研究,2019,40(02):87-94.]提出基于CNN的情感识别方法,通过利用3层卷积网络来识别学习者面部表情中所蕴含的情感。除了从面部表情识别获得情感外,学习者在回答教师提问和互相讨论时的语音中也有着不同的情感。在利用语音识别技术对教师活动和情感进行识别的研究中,文献[骆祖莹,赵琦琦,段福庆.基于教师近场语音的课堂教学过程自动分析[J].现代教育技术,2021,31(08):76-84.]对教师近场语音进行识别,通过识别语音片段在时间维度上的长短,将课堂教学分为讲授、讨论、提问、自习等四类教学活动,但这是通过提取语音的时间序列进行教学活动的分类,识别的是教师教学活动而非教师情感。文献[LIANG J,ZHANG X Y,ZHAO ZH.Speech emotion recognition of teachers in classroom teaching[C].ChineseControl and Decision Conference.China,2020:5045-5050.]设计了一种情感检测音频处理系统,使用RNN构建语音情感识别分类模型,通过提取教师演讲语音的声学特征来判断他们的情感。文献[李勇帆,李里程.情感计算在网络远程教育系统中的应用:功能、研究现状及关键问题[J].现代远程教育研究,2013(02):100-106.]将教师的情感粗粒度地分为积极情感和消极情感,但这样的二分类问题相对简单,且未考虑到课堂教学场景下占较大比重的中性情感的识别。
一般对于教师而言,其授课情感的表露是隐晦的,多数模型由于无法提取语音中隐晦的情感而导致模型性能的降低。因此如何深度挖掘教师语音中隐藏的情感,提升对中性情感的识别率是亟待解决的问题。由于教学场景的特殊性,已有的情感识别模型不能很好地识别教师语音中的隐晦情感,导致模型将其他情感类别误分类为中性情感,降低了模型对于中性情感的识别率,进而降低了模型的整体识别率。
发明内容
有鉴于此,本发明的目的在于提供一种融合文本语义辅助的教师语音情感识别方法,弥补教育场景中因普遍存在隐晦情感特征,导致情感分类模型误分类的问题,提升教师情感分类的准确性。
为达到上述目的,本发明提供如下技术方案:
一种融合文本语义辅助的教师语音情感识别方法,其包括以下步骤:
S1、数据预处理阶段:获取语音数据并对数据进行清洗与预处理,获取语音声谱图;将语音转换为文本,对文本进行数据清洗和文本词嵌入;
S2、语音特征提取阶段:利用CNN和GRU分别提取声谱图中的空间特征以及时间特征;
S3、文本语义辅助提取阶段:利用GRU提取文本的语义特征,即提取文本情感特征;
S4、异构嵌入阶段:将文本序列的情感词与语音中的序列进行细粒度对齐,并使用注意力权重矩阵来解决嵌入差异问题,同时通过语音和文本的跨模态语义嵌入来进行情感细化;
S5、特征融合阶段:通过特征层融合方法,利用键值对注意力机制将语音、文本两个不同模态的情感特征融合为新的特征;
S6、情感分类阶段:将步骤S5获取的新特征输入到GRU中进行特征提取,然后在softmax函数中进行计算,输出对应情感标签的概率分布。
进一步地,步骤S2具体为,使用CNN模型进行局部空间感知,将空间特征建模为时序问题,再利用GRU获取时序特征,最终获得声谱图的空间信息xs和时间信息xt
CNN计算方式为:
Figure BDA0004186389720000031
式中,f表示激活函数,di-1表示第i-1层特征图的数量以及用于生成第i层第j个特征图卷积核的深度,2η表示卷积核的通道数,bi,j表示偏置参数,λ表示卷积核的通道数,τ表示卷积核的深度,
Figure BDA0004186389720000032
表示CNN在第i层第j个特征图上的输出;
将GRU直接取代CNN中的全连接层,GRU计算方式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0004186389720000041
Figure BDA0004186389720000042
式中,xt表示当前时刻的输入;ht-1表示前一时刻的隐藏状态;σ(·)和tanh(·)为两个激活函数,Wz表示GRU更新门的权重矩阵;Wr表示GRU重置门的权重矩阵;W表示GRU的整体的权重矩阵;
Figure BDA0004186389720000043
表示GRU的候选隐藏状态。
得到语音特征提取阶段的输出为A={a1,a2,…,ai},
Figure BDA0004186389720000044
其中/>
Figure BDA0004186389720000045
表示两个向量的拼接。
进一步地,步骤S3具体为,将语音转换得来的文本数据进行分词和预处理,并构建文本表示,通过独热编码完成词嵌入的量化表示,然后输入到BiGRU网络中;
前向GRU的隐藏单元为
Figure BDA0004186389720000046
Figure BDA0004186389720000047
后向GRU的隐藏单元为
Figure BDA0004186389720000048
Figure BDA0004186389720000049
BiGRU的最终隐藏单元状态为ht
Figure BDA00041863897200000410
将BiGRU的隐藏状态作为输出t,则文本语义特征辅助提取阶段的输出为T=[t1,t2,…,ti]。
进一步地,步骤S4中,利用语义嵌入来学习语音帧和文本单词之间的对齐,使情感词与语音中的序列在时间上进行细粒度对齐,具体如下:
给定一个编码的语音嵌入A和文本嵌入T,将第i个语音帧ai和第j个文本情感词tj对齐:
Figure BDA00041863897200000411
对其进行归一化处理,得到语音序列的注意力权值α′ij
Figure BDA00041863897200000412
式中,δ表示用于防止梯度爆炸的比例因子;
语音帧当前的输出为uj
Figure BDA0004186389720000051
利用注意力机制学习文本感知权重ω=(ωa,ωs),分别用于重新校准语音和文本的特征表示;首先从文本和语音嵌入空间中提取隐藏的语义状态h=(ha,ht):
ha,ht=fmean(A,T)
式中,fmean(·)表示平均池化,ha和ht分别表示语音和文本嵌入空间的隐藏状态;
将语义状态附加到相应的语音和文本特征中,得到初始权重
Figure BDA0004186389720000052
和/>
Figure BDA0004186389720000053
对权重ω进行归一化操作:
Figure BDA0004186389720000054
利用归一化操作后的权重
Figure BDA0004186389720000055
来重新校准语音和文本的相关特征:
Figure BDA0004186389720000056
Figure BDA0004186389720000057
异构嵌入阶段的输出分别为语音U={u1,u2,…,um}和文本T={t1,t2,…,tn}。
进一步地,步骤S5具体为:计算查询特征qt和每个键ki的注意力得分eti,即利用语音特征为文本特征打分:
Figure BDA0004186389720000058
式中,w表示可训练的参数矩阵;
其次,使用softmax函数对注意力得分做归一化处理:
αi=Attention(qt,K,V)=∑iαivi
得到每个键的权重αi,将权重αi和其对应的值vi加权作为注意力输出;
最后利用注意力权重分布来获取文本特征中的重要信息,从而获得新的文本特征表示M;
同理,利用文本特征提取语音特征的重要信息,获得新的文本特征表示N;
将语音和文本的情感特征进行拼接,获得新特征
Figure BDA0004186389720000059
Figure BDA00041863897200000510
表示两个向量的拼接。
进一步地,步骤S6具体为:将新特征输入GRU模型提取语音情感特征,然后将语音情感特征输入到全连接层完成情感映射,输出为某个情感的条件概率,再利用softmax函数计算情感类别pc
Figure BDA0004186389720000061
式中,N表示情感标签分类个数;pc表示预测为某个类别的概率;tanh(·)表示激活函数;Oi表示步骤S5中获取的新特征;Wf,Wi分别表示预测模型的可训练权重矩阵;bf,bi分别表示模型的偏置向量;
采用交叉熵损失函数对模型进行训练,加入L2正则化以防止模型出现过拟合:
Figure BDA0004186389720000062
式中,D表示情感分类的类别数量;p′c表示真实的情感标签;pc表示预测的情感标签;
Figure BDA0004186389720000063
表示L2的权重;θ表示所有的参数集合。
本发明的有益效果在于:
(1)本发明在教师语音情感识别任务中,除了提取语音中固有的情感特征外,还提取了文本中蕴含的语义信息,通过键值对注意力机制将两个模态的情感特征进行融合,增强了模型对教师隐晦情感特征的识别效果。
(2)本发明使用CNN和GRU进行语音特征和语义特征的提取,相对于其他模型,CNN和GRU可以更好地提取语音中蕴含的空间信息和时间信息,可以更好地捕捉教师语音中的情感特征。
(3)本发明使用BiGRU网络替代了LSTM网络,GRU相对于LSTM,内部结构减少一个门控单元,但是却能够实现与LSTM相当的功能。此外,GRU的训练参数减少,模型拟合速度更快。
(4)本发明使用融合后的情感特征进行情感分类任务,可以有效地解决教育场景中因普遍存在隐晦情感,导致情感分类模型误分类的问题。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:
图1为本发明教师语音情感识别方法的原理示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
如图1所示为一种融合文本语义辅助的教师语音情感识别方法,主要用于教育场景下真实课堂的教师语音情感识别,该方法具体为:
步骤一:利用录音设备获取教师的语音数据,可以线下采集真实课堂的教师语音,也可以提取网络优质课中教师的音频,再对数据标签进行人工标注,将语音通过量化、去噪、分帧加窗等预处理,将语音分为10S一个片段,并通过多人独立听取教师音频,进而标注其中的情感,然后整理多人标注的情感标签,对标注的冲突标签进行重新标注或者将该数据舍弃。通过快速傅里叶变换将教师语音转换成声谱图,利用自动语音识别技术将教师语音内容转换成文本形式来辅助教师的语音情感识别,所得文本内容经过清洗、分词、去噪等预处理后通过独热编码转化为向量进行词嵌入。
步骤二:使用CNN模型依次进行局部空间感知,将空间特征建模为时序问题,利用GRU获取教师语音的时序特征,最终获得教师语音声谱图的空间信息xs和时间信息xt,CNN最大的优点是能够局部连接来捕捉数据的局部特征,以及共享卷积核和权重共享,在降低模型参数的前提下,减少了过拟合现象的产生。
CNN计算公式如下:
Figure BDA0004186389720000081
其中,f表示激活函数;di-1为第i-1层特征图的数量和用于生成第i层第j个特征图卷积核ωi,j的深度;2η为卷积核的通道数;bij表示偏置参数;λ表示卷积核的通道数,τ表示卷积核的深度,表示CNN在第i层第j个特征图上的输出。
为了便于提取时间信息,将GRU直接取代CNN中的全连接层,GRU的计算公式如下:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure BDA0004186389720000083
Figure BDA0004186389720000084
其中,rt代表重置门,用来控制需要保留多少上一个向量的隐藏状态信息ht-1,zt代表更新门,控制需要从上一个词中遗忘多少信息,需要加入多少当前词语的隐藏状态信息ht,xt表示语音的输入向量,σ、tanh代表两种类型的激活函数,Wz表示GRU更新门的权重矩阵,Wr表示GRU重置门的权重矩阵,W表示GRU的整体的权重矩阵,
Figure BDA0004186389720000085
表示GRU的候选隐藏状态。
最终教师语音特征提取阶段的输出为A={a1,a2,…,ai},特别地,
Figure BDA0004186389720000086
其中/>
Figure BDA0004186389720000087
表示两个向量的拼接。
步骤三:将语音转换得来的文本数据进行分词,预处理,构建文本表示。利用自动语音识别技术将语音转换为文本,并校正转换文本的错误文字表示,通过独热编码完成词嵌入的量化表示,然后输入到BiGRU网络中,完成对模型的训练。
前向GRU的隐藏单元为
Figure BDA0004186389720000088
Figure BDA0004186389720000089
后向GRU的隐藏单元为
Figure BDA00041863897200000810
Figure BDA00041863897200000811
BiGRU的最终隐藏单元状态为ht
Figure BDA00041863897200000812
将BiGRU的隐藏状态作为输出t,则文本语义特征辅助提取阶段的输出为T=[t1,t2,…,ti]。
步骤四:利用语义嵌入来学习教师语音帧和转换后的文本单词之间的对齐,使得情感词与语音中的序列在时间上进行细粒度对齐,而不是强制对齐,同时通过语音和文本的跨模态语义嵌入来完成情感细化。具体来说,给定一个编码的教师语音嵌入A和文本嵌入T,将第i个语音帧ai和第j个文本情感词tj对齐:
Figure BDA0004186389720000091
对其进行归一化处理,得到语音序列的注意力权值α'ij
Figure BDA0004186389720000092
δ表示用于防止梯度爆炸的比例因子。语音帧当前的输出为uj
Figure BDA0004186389720000093
利用注意力机制来学习文本感知权重ω=(ωas),分别用于重新校准语音和文本的特征表示。
首先从文本和语音嵌入空间中提取隐藏的语义状态h=(ha,ht):
ha,ht=fmean(A,T)
其中,fmean(·)表示平均池化;ha和ht分别表示语音和文本嵌入空间的隐藏状态。
将语义状态附加到相应的语音和文本特征中,得到初始权重
Figure BDA0004186389720000094
和/>
Figure BDA0004186389720000095
对权重ω进行归一化操作:
Figure BDA0004186389720000096
之后利用归一化操作后的权重来重新校准语音和文本的相关特征:
Figure BDA0004186389720000097
Figure BDA0004186389720000098
最终语音和文本在语义嵌入阶段的输出分别为U={u1,u2,…,um}和T={t1,t2,…,tn}。
步骤五:语音、文本的融合策略主要有特征层融合、模型层融合和决策层融合。特征层融合将两个模态的特征直接拼接、加权、求和,从而得到全新的特征。其具有简单高效,充分保留原始信息的优点,但若数据过大会引起维度爆炸等问题;模型层融合是将两个特征分别进行编码,然后将两个特征在模型层进行融合,该方法可以实现不同模态之间的交互,但由于语音和文本的数据差异性,模型层融合比较复杂,且特征提取速度较慢。决策层融合指两个不同模态之间各自互不影响,对各个模态的情感识别结果进行加权融合,决策层融合虽然不存在维度爆炸的问题,但其也忽视了不同模态之间的相关性。
出于对数据和模型复杂度的综合考虑,选择特征层融合方法来实现语音和文本的特征融合。但是传统的特征融合会产生很多零向量,导致丢失许多有用的信息,因此,利用键值对注意力机制来完成特征的有效融合:
首先计算查询特征qt和每个键ki的注意力得分eti,即利用语音特征为文本特征打分:
Figure BDA0004186389720000101
式中,w表示可训练的参数矩阵。
其次,使用softmax函数对注意力得分做归一化处理:
αi=Attention(qt,K,V)=∑iαivi
得到每个键的权重αi,将权重αi和其对应的值vi加权作为注意力输出。最后利用注意力权重分布来获取文本特征中的重要信息,从而获得新的文本特征表示M。
同理,利用文本特征提取语音特征的重要信息,获得新的文本特征表示N。
最后将语音和文本的情感特征拼接,获得新特征
Figure BDA0004186389720000102
Figure BDA0004186389720000103
表示两个向量的拼接。
步骤六:将融合后的新特征作为输入,借助情感分类器进行分类。将新特征输入GRU模型提取语音情感特征,然后将其输入到全连接层完成情感映射,输出为教师的某种情感的条件概率,再利用softmax函数计算情感类别pc
Figure BDA0004186389720000104
其中,N表示情感标签分类个数;pc表示预测为某个类别的概率;tanh(·)表示激活函数;Oi表示步骤S5中获取的新特征;Wf,Wi分别表示预测模型的可训练权重矩阵;bf,bi分别表示模型的偏置向量。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (7)

1.一种融合文本语义辅助的教师语音情感识别方法,其特征在于:该方法包括以下步骤:
S1、数据预处理阶段:获取语音数据并对数据进行清洗与预处理,获取语音声谱图;将语音转换为文本,对文本进行数据清洗和文本词嵌入;
S2、语音特征提取阶段:利用CNN和GRU分别提取声谱图中的空间特征以及时间特征;
S3、文本语义辅助提取阶段:利用GRU提取文本的语义特征,即提取文本情感特征;
S4、异构嵌入阶段:将文本序列的情感词与语音中的序列进行细粒度对齐,并使用注意力权重矩阵来解决嵌入差异问题,同时通过语音和文本的跨模态语义嵌入来进行情感细化;
S5、特征融合阶段:通过特征层融合方法,利用键值对注意力机制将语音、文本两个不同模态的情感特征融合为新的特征;
S6、情感分类阶段:将步骤S5获取的新特征输入到GRU中进行特征提取,然后在softmax函数中进行计算,输出对应情感标签的概率分布。
2.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S2具体为,使用CNN模型进行局部空间感知,将空间特征建模为时序问题,再利用GRU获取时序特征,最终获得声谱图的空间信息xs和时间信息xt
3.根据权利要求2所述的教师语音情感识别方法,其特征在于:CNN计算方式为:
Figure FDA0004186389710000011
式中,f表示激活函数,di-1表示第i-1层特征图的数量以及用于生成第i层第j个特征图卷积核的深度,2η表示卷积核的通道数,bi,j表示偏置参数,λ表示卷积核的通道数,τ表示卷积核的深度,
Figure FDA0004186389710000012
表示CNN在第i层第j个特征图上的输出。
将GRU直接取代CNN中的全连接层,GRU计算方式为:
zt=σ(Wz·[ht-1,xt])
rt=σ(Wr·[ht-1,xt])
Figure FDA0004186389710000013
Figure FDA0004186389710000014
式中,xt表示当前时刻的输入;ht-1表示前一时刻的隐藏状态;σ(·)和tanh(·)为两个激活函数,Wz表示GRU更新门的权重矩阵;Wr表示GRU重置门的权重矩阵;W表示GRU的整体的权重矩阵;
Figure FDA0004186389710000015
表示GRU的候选隐藏状态。
得到语音特征提取阶段的输出为A={a1,a2,…,ai},
Figure FDA0004186389710000016
其中/>
Figure FDA0004186389710000017
表示两个向量的拼接。
4.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S3具体为,将语音转换得来的文本数据进行分词和预处理,并构建文本表示,通过独热编码完成词嵌入的量化表示,然后输入到BiGRU网络中;
前向GRU的隐藏单元为
Figure FDA0004186389710000021
Figure FDA0004186389710000022
后向GRU的隐藏单元为
Figure FDA0004186389710000023
Figure FDA0004186389710000024
BiGRU的最终隐藏单元状态为ht
Figure FDA0004186389710000025
将BiGRU的隐藏状态作为输出t,则文本语义特征辅助提取阶段的输出为T=[t1,t2,…,ti]。
5.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S4中,利用语义嵌入来学习语音帧和文本单词之间的对齐,使情感词与语音中的序列在时间上进行细粒度对齐,具体如下:
给定一个编码的语音嵌入A和文本嵌入T,将第i个语音帧和第j个文本情感词对齐:
Figure FDA0004186389710000026
对其进行归一化处理,得到语音序列的注意力权值α′ij
Figure FDA0004186389710000027
式中,δ表示用于防止梯度爆炸的比例因子;
语音帧当前的输出为uj
Figure FDA0004186389710000028
利用注意力机制学习文本感知权重ω=(ωas),分别用于重新校准语音和文本的特征表示;首先从文本和语音嵌入空间中提取隐藏的语义状态h=(ha,ht):
ha,ht=fmean(A,T)
式中,fmean(·)表示平均池化,ha和ht分别表示语音和文本嵌入空间的隐藏状态;
将语义状态附加到相应的语音和文本特征中,得到初始权重
Figure FDA0004186389710000029
和/>
Figure FDA00041863897100000210
对权重ω进行归一化操作:
Figure FDA0004186389710000031
利用归一化操作后的权重
Figure FDA0004186389710000032
来重新校准语音和文本的相关特征:
Figure FDA0004186389710000033
Figure FDA0004186389710000034
异构嵌入阶段的输出分别为语音U={u1,u2,…,um}和文本T={t1,t2,…,tn}。
6.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S5具体为:计算查询特征qt和每个键ki的注意力得分eti,即利用语音特征为文本特征打分:
Figure FDA0004186389710000035
式中,w表示可训练的参数矩阵;
其次,使用softmax函数对注意力得分做归一化处理:
αi=Attention(qt,K,V)=∑iαivi
得到每个键的权重αi,将权重αi和其对应的值vi加权作为注意力输出;
最后利用注意力权重分布来获取文本特征中的重要信息,从而获得新的文本特征表示M;同理,利用文本特征提取语音特征的重要信息,获得新的文本特征表示N;
将语音和文本的情感特征进行拼接,获得新特征
Figure FDA0004186389710000036
Figure FDA0004186389710000037
表示两个向量的拼接。
7.根据权利要求1所述的教师语音情感识别方法,其特征在于:步骤S6具体为:将新特征输入GRU模型提取语音情感特征,然后将语音情感特征输入到全连接层完成情感映射,输出为某个情感的条件概率,再利用softmax函数计算情感类别pc
Figure FDA0004186389710000038
式中,N表示情感标签分类个数;pc表示预测为某个类别的概率;tanh(·)表示激活函数;Oi表示步骤S5中获取的新特征;Wf、Wi分别表示预测模型的可训练权重矩阵;bf、bi分别表示模型的偏置向量;
采用交叉熵损失函数对模型进行训练,加入L2正则化以防止模型出现过拟合:
Figure FDA0004186389710000039
式中,D表示情感分类的类别数量;p′c表示真实的情感标签;pc表示预测的情感标签;
Figure FDA0004186389710000041
表示L2的权重;θ表示所有的参数集合。
CN202310420005.9A 2023-04-19 2023-04-19 融合文本语义辅助的教师语音情感识别方法 Pending CN116434786A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310420005.9A CN116434786A (zh) 2023-04-19 2023-04-19 融合文本语义辅助的教师语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310420005.9A CN116434786A (zh) 2023-04-19 2023-04-19 融合文本语义辅助的教师语音情感识别方法

Publications (1)

Publication Number Publication Date
CN116434786A true CN116434786A (zh) 2023-07-14

Family

ID=87085097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310420005.9A Pending CN116434786A (zh) 2023-04-19 2023-04-19 融合文本语义辅助的教师语音情感识别方法

Country Status (1)

Country Link
CN (1) CN116434786A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409780A (zh) * 2023-12-14 2024-01-16 浙江宇宙奇点科技有限公司 一种应用于ai数字人语音交互方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117409780A (zh) * 2023-12-14 2024-01-16 浙江宇宙奇点科技有限公司 一种应用于ai数字人语音交互方法及系统
CN117409780B (zh) * 2023-12-14 2024-02-27 浙江宇宙奇点科技有限公司 一种应用于ai数字人语音交互方法及系统

Similar Documents

Publication Publication Date Title
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN111275085B (zh) 基于注意力融合的在线短视频多模态情感识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN110188343B (zh) 基于融合注意力网络的多模态情感识别方法
Harwath et al. Jointly discovering visual objects and spoken words from raw sensory input
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108806667A (zh) 基于神经网络的语音与情绪的同步识别方法
CN108269133A (zh) 一种结合人体识别和语音识别的智能广告推送方法及终端
CN112069484A (zh) 基于多模态交互式的信息采集方法及系统
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN110853680A (zh) 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN114973062A (zh) 基于Transformer的多模态情感分析方法
CN112101044B (zh) 一种意图识别方法、装置及电子设备
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
CN110211594A (zh) 一种基于孪生网络模型和knn算法的说话人识别方法
CN112329438A (zh) 基于域对抗训练的自动谎言检测方法及系统
CN115329779A (zh) 一种多人对话情感识别方法
CN112597841B (zh) 一种基于门机制多模态融合的情感分析方法
Chen et al. Distilled binary neural network for monaural speech separation
CN114385802A (zh) 一种融合主题预测和情感推理的共情对话生成方法
CN116434786A (zh) 融合文本语义辅助的教师语音情感识别方法
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination