CN112750466A - 用于视频面试的语音情感识别方法 - Google Patents
用于视频面试的语音情感识别方法 Download PDFInfo
- Publication number
- CN112750466A CN112750466A CN202011481877.9A CN202011481877A CN112750466A CN 112750466 A CN112750466 A CN 112750466A CN 202011481877 A CN202011481877 A CN 202011481877A CN 112750466 A CN112750466 A CN 112750466A
- Authority
- CN
- China
- Prior art keywords
- feature
- network
- output
- voice
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 27
- 230000008451 emotion Effects 0.000 claims abstract description 34
- 230000002457 bidirectional effect Effects 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 24
- 239000013598 vector Substances 0.000 claims description 16
- 239000011159 matrix material Substances 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000002996 emotional effect Effects 0.000 claims description 7
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000013528 artificial neural network Methods 0.000 claims description 4
- 230000008859 change Effects 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000002790 cross-validation Methods 0.000 claims description 2
- 230000002708 enhancing effect Effects 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000010276 construction Methods 0.000 claims 1
- 230000008569 process Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 230000009467 reduction Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Hospice & Palliative Care (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Child & Adolescent Psychology (AREA)
- Image Analysis (AREA)
Abstract
本发明披露一种用于视频面试的语音情感识别方法。该方法包括以下步骤:首先提取情感语音特征全局后采用SVM‑RFE特征排序算法降维度得到最优特征子集,并对其进行注意力加权,然后将加权后的特征子集输入双向长短时记忆网络学习特征层上下文并获得最初情感预测结果,再利用情感标签值对另一独立的双向长短时记忆网络训练学习标签层上下文信息并在初步情感预测结果的基础上完成最终预测。本发明提出的用于视频面试的语音情感识别方法有效改善了情感分类的性能,提高了语音情感识别的准确率。
Description
技术领域
本发明涉及文本语音信号处理,深度学习技术,尤其涉及一种用于视频面试的语音情感识别方法。
背景技术
随着互联网的高速发展,计算机在我们生活中承担着越来越重要的教学,为减轻面试官的工作量以及有效防范疫情,近年来越来越多企业着重视频面试,而作为最直接最有效的信息之一的语音,在视频面试中发挥着极其重要的作用。
语音情感识别的方法有很多。但以往的语音情感识别往往忽略了语音中语句的前后联系性,分析当前情感语句的前后句或若干句情感信息能有效提升联系语句的语音情感识别小伙。但仅仅基于上下文的语音情感识别一般只能简单地将上下文多帧特征直接作为输入而忽略了每帧各自的特点,并且多局限于特征层上下文。同时在现有的语音数据库中,语音情感特征可能变化十分迅速,而说话人的情感状态却变化缓慢,这种差异性也是语音情感识别中必须考虑的。
综上所述,现有的技术存在的问题是:
(1)现有的语音情感识别方法忽略了语音中语句的前后联系性,缺乏时序信息,影响识别准确率;
(2)现有的语音情感识别方法忽略了每帧各自的特征信息,且多局限于特征层上下文,影响识别准确率;
(3)现有的语音情感识别方法忽略了语音情感特征与说话人情感状态的差异性,影响识别准确率。
发明内容
为了克服上述缺陷,本发明提供一种用于视频面试的语音情感识别方法,该方法能有效改善情感分类的性能,正确识别语音中语句的前后联系性和时序信息,能有效提高语音情感识别的准确率。
本发明为了解决其技术问题所采用的技术方案是:一种用于视频面试的语音情感识别方法,包含以下步骤:
步骤1:制作语音情感数据集SEMAINE和RECOLA,并将数据集分为训练集,验证集和测试集;
步骤2:构建深度学习网络,该网络包括能很好学习语音序列数据的时间上下文信息的双向长短时记忆模块,以及能增强标签层上下文细节特征的注意力机制模块;
步骤3:构建均方根误差、一致性相关系数作为损失函数;
步骤4:将经过预处理的音频-标签数据流以较小的批尺寸分别送入特征层网络以及标签层网络进行训练,利用定义好的损失函数和优化器反向传播网络梯度,使用交叉验证方法检验网络性能,最终使网络收敛至最佳状态,并保存训练好的模型用于直接使用;
步骤5:利用得到的模型对语音测试数据集进行最终识别;
本发明的进一步技术方案是:所述步骤2中深度学习网络搭建如下:
提取语音情感特征全集。本发明使用开源软件OpenSMILE对输入的语音进行特征提取,包含过零量、能量、基频、谐波噪声比、梅尔频率倒谱系数等16个低层次语音情感特征,并在这些低层特征基础上应用最大值、最小值、均值、标准差等方式得到语音情感特征参数集;
在特征全集上使用SVM-RFE特征排序算法进行子集特征选择,其中SVM目标函数为:
s.t.yi(w·xi+b)≥1,i=1,2,...,k.
当剔除第i个特征后J的变化为:
其中:ΔJ(i)≈(Δwi)2,特征权重向量w对分类面y=w·x+b的贡献值;
构建带有注意力机制的双向长短时记忆网络,包含输入门、遗忘门、记忆单元、输出门、隐层输出。定义如下:
输入门:
it=σ(Wxixt+Whixt-1+bi)
遗忘门:
ft=σ(Wxfxt+Whfxt-1+bf)
记忆单元:
ct=ft*ct-1*tanh(Wxcxt+Whcxt-1+bc)
输出门:
ot=σ(Wxoxt+Whoxt-1+bo)
隐层输出:
ht=ot*tanh(ct)
其中Wx#(代表Wxi,Wxf,Wxc,Wxo)是输入xt与记忆模块间连接矩阵,Wh#(代表Whi,Whf,Whc,Who)为隐含层上一时刻输出ht-1与记忆模块间连接矩阵,b#(代表bi,bf,bc,bo)为偏置向量,σ是sigmoid函数,*为向量间逐个元素相乘计算符号,当前时刻隐含层输出ht将作为下一时刻输入;
接着对注意力进行加权,最后通过Softmax函数进行归一化处理,其中带有注意力加权机制的双向长短时记忆网络定义如下:
et=Attend(xt+st-1+αt-1)
x'tp=atpxtp
其中Attend(·)为计算注意力得分et的神经网络,xt为当前时刻输入,st-1为上一时刻预测值,αt-1为上一时刻注意力权值,etp为第p帧注意力得分,atp为注意力权值,xtp为第p帧特征向量,x'tp为第p帧注意力权值atp对xtp加权得到考虑p帧特征贡献程度信息后的第p帧特征表示;
把经过注意力加权得到的特征表示输入到双向长短时记忆网络中,并通过特征层上下文学习得到语音情感最初的预测值,其中特征层上下文可以如下定义:
其中是网络的输出,是均值随机产生,H(·)是接收当前时刻上一隐藏层节点的输出当前隐藏层节点上一时刻的输出和当前隐藏层节点上一时刻记忆单元的输出3个数据作为输入,运算后输出当前时刻当前隐藏层节点的输出和当前时刻当前隐藏层节点记忆单元的输出 和是H(·)计算函数在两个方向上的运用;
再引入语音情感标签序列对标签层上下文进行学习,进一步加强语音情感识别的准确率;
进一步地,所述步骤3中损失函数构造如下:
其中y'1,y'2,y'3,...,y'T-1,y'T为双向长短时记忆网络输出得到的初步识别结果,RRMSE为输出与标签序列之间的损失函数值;
其中y为维度情感标注值序列数据,y'为模型实际输出数据,ρ为两个序列数据的皮尔森相关系数,μy和μy'分别代表两个序列数据的均值,δy和δy'分别表示两个序列数据的方差。
本发明的有益效果是:本发明方法包括以下步骤:首先提取情感语音特征全局后采用SVM-RFE特征排序算法降维度得到最优特征子集,并对其进行注意力加权,然后将加权后的特征子集输入双向长短时记忆网络学习特征层上下文并获得最初情感预测结果,再利用情感标签值对另一独立的双向长短时记忆网络训练学习标签层上下文信息并在初步情感预测结果的基础上完成最终预测。故本发明提出的用于视频面试的语音情感识别方法能有效改善了情感分类的性能,提高语音情感识别的准确率。
附图说明
图1是本发明用于视频面试的语音情感识别方法的完整网络结构图;
图2是本发明用于视频字幕的文本行检测方法的SVM-RFE特征选择算法流程图。
具体实施方式
实施例:下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本发明提供的一种用于视频面试的语音情感识别方法,具体说明如下:
选择语音情感数据集SEMAINE和RECOLA作为训练数据集。本发明是在Windows 10操作系统上进行,开发语言为Python3.6,集成开发环境为Pycharm,深度学习框架是GPU版本的TensorFlow。硬件配置CPU为四核八线程的i7-7700,其主频3.60GHz,内存为16GB,GPU为NVIDIA GTX 1060。
构建各个网络模块,网络的整体结构图如图1所示。具体说明如下:
嵌入注意力机制并结合层级上下文的语音情感识别网络:该网络模块如图1所示,由语音情感特征全集模块、子集层特征选择模块、注意力加权模块和特征层、标签层上下文学习网络构成。首先使用开源软件OpenSMILE对输入的语音进行特征提取,包含过零量、能量、基频、谐波噪声比、梅尔频率倒谱系数等16个低层次语音情感特征,并在这些低层特征基础上应用最大值、最小值、均值、标准差等方式得到语音情感特征参数集,再通过SVM-RFE特征选择算法对特征参数集进行特征降维并获取最优特征子集,紧接着送入注意力加权模块,计算通过神经网络计算输入特征xt的注意力权值αt对P帧特征分别加权,加权后的特征x't替换xt作为双向长短时记忆网络的输入,最后通过两次层级上下文学习来识别语音情感,其中特征层上下文得到最初识别结果,标签层上下文得到最终识别结果。
进一步的,网络中的SVM-RFE特征选择算法具体说明如下:
SVM-RFE特征选择算法如图2所示,根据支持向量机建模过程中的特征权重不断迭代淘汰排名靠后的特征从而实现特征排序,其中k代表特征维数。SVM分类器常用排序系数是各特征对目标函数具有的判别信息量,即特征权重向量w对分类面y=w·x+b的贡献值,权重wi越大表明该特征含有的判别信息越多,对决策函数影响越大。因此更新特征排序表进行递归训练直至得到特征全集最终排序结果。
其中SVM目标函数为:
s.t.yi(w·xi+b)≥1,i=1,2,...,k.
当剔除第i个特征后J的变化为:
其中:ΔJ(i)≈(Δwi)2,因此SVM-RFE以||w||2为排序准则可以保证特征排序过程中优先保留量大的特征子集,从而实现特征降维减小后续识别的计算复杂度。
进一步的,网络中的注意力加权具体说明如下:
构建带有注意力机制的双向长短时记忆网络,包含输入门、遗忘门、记忆单元、输出门、隐层输出。定义如下:
输入门:
it=σ(Wxixt+Whixt-1+bi)
遗忘门:
ft=σ(Wxfxt+Whfxt-1+bf)
记忆单元:
ct=ft*ct-1*tanh(Wxcxt+Whcxt-1+bc)
输出门:
ot=σ(Wxoxt+Whoxt-1+bo)
隐层输出:
ht=ot*tanh(ct)
其中Wx#(代表Wxi,Wxf,Wxc,Wxo)是输入xt与记忆模块间连接矩阵,Wh#(代表Whi,Whf,Whc,Who)为隐含层上一时刻输出ht-1与记忆模块间连接矩阵,b#(代表bi,bf,bc,bo)为偏置向量,σ是sigmoid函数,*为向量间逐个元素相乘计算符号,当前时刻隐含层输出ht将作为下一时刻输入,接着对注意力进行加权,最后通过Softmax函数进行归一化处理,
注意力加权是模型学习调整对来自不同时刻的帧特征给予不同的关注度:
et=Attend(xt+st-1+αt-1)
x'tp=atpxtp
其中Attend(·)为计算注意力得分et的神经网络,xt为当前时刻输入,st-1为上一时刻预测值,αt-1为上一时刻注意力权值,etp为第p帧注意力得分,atp为注意力权值,xtp为第p帧特征向量,x'tp为第p帧注意力权值atp对xtp加权得到考虑p帧特征贡献程度信息后的第p帧特征表示;
进一步的,网络中的两次层级上下文学习具体说明如下:
两次层级上下文使用的都是多层双向长短时记忆网络。假设双向长短时记忆网络一共有N层,第一层是输入层,第二层到第N-1层是双向长短时记忆层,第N层是输出层,特征上下文学习阶段公式如下:
其中是网络的输出,是均值随机产生,H(·)是接收当前时刻上一隐藏层节点的输出当前隐藏层节点上一时刻的输出和当前隐藏层节点上一时刻记忆单元的输出个数据作为输入,运算后输出当前时刻当前隐藏层节点的输出和当前时刻当前隐藏层节点记忆单元的输出 和是H(·)计算函数在两个方向上的运用;
用于特征层上下文学习的BLSTM1与用于标签层上下文学习的BLSTM2网络参数训练均采用BPTT算法。设t时刻网络输入层向量为x(t),隐层向量为h(t),输出层向量为o(t),输入层与隐层间连接矩阵为V,隐层与隐层间连接矩阵为U,隐层与输出层间连接矩阵为W,隐层与输出层的偏置分别为b和a。hP(t)和oP(t)分别为第p帧在t时刻的隐层变量和输出变量,δP(vp(t))和δP(up(t))分别为第p帧在t时刻输出层误差反向信号变量和隐层误差反向信号向量,LP为模型总损失,分别为对权值W、V、U的偏导,分别为对偏置a和b的偏导。
hP(t)=f(uP(t))=f(VxP(t)+UhP(t-1)+b),
oP(t)=g(vP(t))=f(WhP(t)+a)
随着时间从t=T到1反向传播,计算第p帧在t时刻输出层和隐藏的误差反向信号变量:
δP(vP(t))=oP(t)-yP(t)·g'(vP(t)),
δP(uP(t))=[WTδP(vP(t))]·f'(uP(t))
更新权值W、V、U和偏置a和b的偏导:
本发明使用均方根误差、一致性相关系数作为损失函数:
特征层上下文学习阶段将注意力加权后的特征序列x'1(x'1,x'2,x'3,...,x'T-1,x'T)输入BLSTM1,计算输出与标签序列(y1,y2,y3,...,yT-1,yT)之间的均方根误差作为训练时的损失函数:
其中y'1,y'2,y'3,...,y'T-1,y'T为双向长短时记忆网络输出得到的初步识别结果,RRMSE为输出与标签序列之间的损失函数值;
其中y为维度情感标注值序列数据,y'为模型实际输出数据,ρ为两个序列数据的皮尔森相关系数,μy和μy'分别代表两个序列数据的均值,δy和δy'分别表示两个序列数据的方差。
本发明针对语音情感识别提出基于层级上下文和注意力机制的BLSTM模型,首先原始特征全集经过特征选择得到最优特征子集,消除高维数低层次特征的冗余性和不稳定性;然后对特征子集进行注意力加权,充分考虑输人各帧特征中的时间信息,使模型对输人层中每帧特征给予不同关注度;其次学习加权后的特征序列上下文信息得到初步情感预测结果,最后在上述初步结果基础上增加标签层上下文学习做最终识别。本发明抓住语音情感在表达过程中的连续性特点,利用BLSTM网络学习语音情感特征序列以及语音情感标签值序列两层级的上下文信息,综合考虑其差异性。实验结果表明,本文模型不仅提升了对情感语音信号的建模能力,而且有效提高了语音情感识别准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内,因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (2)
1.一种用于视频面试的语音情感识别方法,其特征在于:包含以下步骤:
步骤1:制作语音情感数据集SEMAINE和RECOLA,并将数据集分为训练集,验证集和测试集;
步骤2:构建深度学习网络,该网络包括能很好学习语音序列数据的时间上下文信息的双向长短时记忆模块,以及能增强标签层上下文细节特征的注意力机制模块,网络搭建步骤如下:
步骤3:构建均方根误差、一致性相关系数作为损失函数:
其中y'1,y'2,y'3,...,y'T-1,y'T为双向长短时记忆网络输出得到的初步识别结果,RRMSE为输出与标签序列之间的损失函数值;
其中y为维度情感标注值序列数据,y'为模型实际输出数据,ρ为两个序列数据的皮尔森相关系数,μy和μy'分别代表两个序列数据的均值,δy和δy'分别表示两个序列数据的方差;
步骤4:将经过预处理的音频-标签数据流以较小的批尺寸分别送入特征层网络以及标签层网络进行训练,利用定义好的损失函数和优化器反向传播网络梯度,使用交叉验证方法检验网络性能,最终使网络收敛至最佳状态,并保存训练好的模型用于直接使用;
步骤5:利用得到的模型对语音测试数据集进行最终识别。
2.根据权利要求1所述的用于视频面试的语音情感识别方法,其特征在于:所述步骤2中包括以下步骤:
步骤2.1:本发明使用开源软件OpenSMILE对输入的语音进行特征提取,包含过零量、能量、基频、谐波噪声比、梅尔频率倒谱系数等16个低层次语音情感特征,并在这些低层特征基础上应用最大值、最小值、均值、标准差等方式得到语音情感特征参数集;
步骤2.2:在特征全集上使用SVM-RFE特征排序算法进行子集特征选择,其中SVM目标函数为:
s.t.yi(w·xi+b)≥1,i=1,2,...,k.
当剔除第i个特征后J的变化为:
其中:ΔJ(i)≈(Δwi)2,特征权重向量w对分类面y=w·x+b的贡献值;
步骤2.3:构建带有注意力机制的双向长短时记忆网络,
构建带有注意力机制的双向长短时记忆网络,包含输入门、遗忘门、记忆单元、输出门、隐层输出;定义如下:
输入门:
it=σ(Wxixt+Whixt-1+bi)
遗忘门:
ft=σ(Wxfxt+Whfxt-1+bf)
记忆单元:
ct=ft*ct-1*tanh(Wxcxt+Whcxt-1+bc)
输出门:
ot=σ(Wxoxt+Whoxt-1+bo)
隐层输出:
ht=ot*tanh(ct)
其中Wx#(代表Wxi,Wxf,Wxc,Wxo)是输入xt与记忆模块间连接矩阵,Wh#(代表Whi,Whf,Whc,Who)为隐含层上一时刻输出ht-1与记忆模块间连接矩阵,b#(代表bi,bf,bc,bo)为偏置向量,σ是sigmoid函数,*为向量间逐个元素相乘计算符号,当前时刻隐含层输出ht将作为下一时刻输入;
接着并对注意力进行加权,最后通过Softmax函数进行归一化处理,其中带有注意力加权机制的双向长短时记忆网络定义如下:
et=Attend(xt+st-1+αt-1)
x'tp=atpxtp
其中Attend(·)为计算注意力得分et的神经网络,xt为当前时刻输入,st-1为上一时刻预测值,αt-1为上一时刻注意力权值,etp为第p帧注意力得分,atp为注意力权值,xtp为第p帧特征向量,x'tp为第p帧注意力权值atp对xtp加权得到考虑p帧特征贡献程度信息后的第p帧特征表示;
步骤2.4:把经过注意力加权得到的特征表示输入到双向长短时记忆网络中,并通过特征层上下文学习得到语音情感最初的预测值,其中特征层上下文可以如下定义:
其中1≤t≤T,2≤n≤N-1,y'是网络的输出,是均值随机产生,H(·)是接收当前时刻上一隐藏层节点的输出当前隐藏层节点上一时刻的输出和当前隐藏层节点上一时刻记忆单元的输出3个数据作为输入,运算后输出当前时刻当前隐藏层节点的输出和当前时刻当前隐藏层节点记忆单元的输出和是H(·)计算函数在两个方向上的运用;
步骤2.5:再引入语音情感标签序列对标签层上下文进行学习,进一步加强语音情感识别的准确率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011481877.9A CN112750466A (zh) | 2020-12-15 | 2020-12-15 | 用于视频面试的语音情感识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011481877.9A CN112750466A (zh) | 2020-12-15 | 2020-12-15 | 用于视频面试的语音情感识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112750466A true CN112750466A (zh) | 2021-05-04 |
Family
ID=75649267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011481877.9A Pending CN112750466A (zh) | 2020-12-15 | 2020-12-15 | 用于视频面试的语音情感识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112750466A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095598A (zh) * | 2021-05-07 | 2021-07-09 | 国网山东省电力公司经济技术研究院 | 一种多能负荷预测方法、系统、设备和介质 |
-
2020
- 2020-12-15 CN CN202011481877.9A patent/CN112750466A/zh active Pending
Non-Patent Citations (1)
Title |
---|
程艳芬 等: "嵌入注意力机制并结合层级上下文的语音情感识别", 《哈尔滨工业大学学报》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113095598A (zh) * | 2021-05-07 | 2021-07-09 | 国网山东省电力公司经济技术研究院 | 一种多能负荷预测方法、系统、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Gelly et al. | Optimization of RNN-based speech activity detection | |
Chien et al. | Bayesian recurrent neural network for language modeling | |
Fayek et al. | Towards real-time speech emotion recognition using deep neural networks | |
US10325200B2 (en) | Discriminative pretraining of deep neural networks | |
US11210470B2 (en) | Automatic text segmentation based on relevant context | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
Mingote et al. | Optimization of the area under the ROC curve using neural network supervectors for text-dependent speaker verification | |
Elleuch et al. | Arabic handwritten characters recognition using deep belief neural networks | |
CN111460132B (zh) | 一种基于图卷积神经网络的生成式会议摘要方法 | |
CN110321418A (zh) | 一种基于深度学习的领域、意图识别和槽填充方法 | |
US11929060B2 (en) | Consistency prediction on streaming sequence models | |
US11735190B2 (en) | Attentive adversarial domain-invariant training | |
Deng et al. | Foundations and Trends in Signal Processing: DEEP LEARNING–Methods and Applications | |
Sun et al. | Speech emotion recognition based on genetic algorithm–decision tree fusion of deep and acoustic features | |
Wu et al. | Acoustic to articulatory mapping with deep neural network | |
Radzikowski et al. | Dual supervised learning for non-native speech recognition | |
CN113255366A (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
Mingote et al. | Class token and knowledge distillation for multi-head self-attention speaker verification systems | |
JP6973192B2 (ja) | 言語モデルを利用する装置、方法及びプログラム | |
Shin et al. | End-to-end task dependent recurrent entity network for goal-oriented dialog learning | |
CN112750466A (zh) | 用于视频面试的语音情感识别方法 | |
Sun et al. | Subspace Gaussian mixture based language modeling for large vocabulary continuous speech recognition | |
Shahamiri | Neural network-based multi-view enhanced multi-learner active learning: theory and experiments | |
Feng et al. | Projected minimal gated recurrent unit for speech recognition | |
Ding et al. | Improving knowledge distillation of CTC-trained acoustic models with alignment-consistent ensemble and target delay |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210504 |