CN112216307A - 语音情感识别方法以及装置 - Google Patents
语音情感识别方法以及装置 Download PDFInfo
- Publication number
- CN112216307A CN112216307A CN201910631571.8A CN201910631571A CN112216307A CN 112216307 A CN112216307 A CN 112216307A CN 201910631571 A CN201910631571 A CN 201910631571A CN 112216307 A CN112216307 A CN 112216307A
- Authority
- CN
- China
- Prior art keywords
- data
- phoneme
- train
- frame
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 79
- 230000002996 emotional effect Effects 0.000 claims abstract description 189
- 230000004927 fusion Effects 0.000 claims abstract description 143
- 238000012549 training Methods 0.000 claims description 146
- 230000008451 emotion Effects 0.000 claims description 128
- 239000013598 vector Substances 0.000 claims description 52
- 238000013528 artificial neural network Methods 0.000 claims description 48
- 230000015654 memory Effects 0.000 claims description 47
- 230000000306 recurrent effect Effects 0.000 claims description 26
- 210000005069 ears Anatomy 0.000 claims description 15
- 238000013507 mapping Methods 0.000 claims description 8
- 238000013473 artificial intelligence Methods 0.000 abstract description 18
- 230000006870 function Effects 0.000 description 72
- 230000008569 process Effects 0.000 description 26
- 239000011159 matrix material Substances 0.000 description 24
- 238000010586 diagram Methods 0.000 description 20
- 210000002569 neuron Anatomy 0.000 description 18
- 238000004364 calculation method Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 17
- 230000004913 activation Effects 0.000 description 16
- 238000013461 design Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 238000013145 classification model Methods 0.000 description 8
- 238000013500 data storage Methods 0.000 description 8
- 230000003993 interaction Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- MHABMANUFPZXEB-UHFFFAOYSA-N O-demethyl-aloesaponarin I Natural products O=C1C2=CC=CC(O)=C2C(=O)C2=C1C=C(O)C(C(O)=O)=C2C MHABMANUFPZXEB-UHFFFAOYSA-N 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- 238000010606 normalization Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 206010048909 Boredom Diseases 0.000 description 2
- 206010041349 Somnolence Diseases 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 238000011217 control strategy Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005538 encapsulation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000008570 general process Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000002904 solvent Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Processing (AREA)
- Document Processing Apparatus (AREA)
- Machine Translation (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种语音情感识别方法、装置以及系统,可应用于人工智能领域语音识别场景。所述方法包括:获取语音数据,其中,语音数据包括t个语音帧I1,I2,…,It;将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St;将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;根据语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt;将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;将融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定语音数据的情感状态。
Description
技术领域
本申请涉及语音识别领域,尤其涉及一种语音情感识别方法以及装置。
背景技术
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、 延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及 应用系统。换句话说,人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产 出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也就是研究各种智能机 器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能领域的研究包括 机器人,自然语言处理,计算机视觉,决策与推理,人机交互,推荐与搜索,AI基础理论等。
在人工智能中,情感交互在人类信息的沟通中具有重要的意义,研究显示,人类交流中 80%的信息都是情感性的信息。因此,情感计算是实现人性化的人机交互过程中必不可少的 部分,情感识别与理解技术是人机交互的基础性技术之一。
现有技术中主要通过语音的声学特征对情感状态进行识别,但是,声学特征中混合了大 量干扰信息,导致情感状态识别的精度不高。
发明内容
为了解决上述问题,本申请提供了一种语音情感识别方法以及装置,能够有效地提高情 感状态识别的精度。
第一方面,提供了一种语音情感识别方法,包括:
通过传感器获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It,t为正整数;
通过处理器将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音帧I1,I2,…, It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根据人耳的生理特 性提取出来的数据;
通过处理器将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1,I2,…, It各自的所属的音素M1,M2,…,Mt;
通过处理器,并根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt, 确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据用于表 示所述语音数据中的音素的特征;
通过处理器将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;
通过处理器将所述融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定所述语音 数据的情感状态。
上述方案中,情感状态识别模型采用了融合数据进行语音数据的情感状态预测,并且, 融合数据不仅包括情感声学特征数据,还包括音素数据,即,还利用不蕴含情感状态的相关 信息的音素数据辅助进行情感状态的识别,因此,能够有效地提高情感状态识别的效率。
在一些可能的设计中,所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…, Nt进行融合,从而得到融合数据R1,R2,…,Rt,可以包括:
通过处理器以向量拼接的方式,将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合从而得到融合数据R1,R2,…,Rt。
具体地,可以通过处理器并以以下的向量拼接的方式将情感声学特征数据Si和音素数据 Ni进行数据融合,从而得到融合数据Ri,其中,1≤i≤t,并且,i为整数:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算 得到的音素数据。在一种可能的实施方式中,音素数据Ni可以表示为:
(pi,xi,yi),
其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的 音素类型,yi用于表示第i帧语音帧的音素时长,音素概率为语音帧属于各个音素的概率组 成的数据,音素类型包括元音类型、辅音类型以及静音类型,音素时长为同一音素的持续时 长。
在一些可能的设计中,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt,state为情感状态,Emoforecast()为融 合数据R与情感状态state的映射关系。
具体地,情感预测模型包括循环神经网络RNN、自注意力模型以及分类器,所述方法包 括:
将融合数据R1,R2,…,Rt输入RNN,从而得到循环结果h1,h2,…,ht;
将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征;
将高维情感特征输入分类器,从而确定所述语音数据的情感状态。
更具体地,所述RNN、所述自注意力模型以及所述分类器集成在同一个神经网络,并且, 所述RNN、所述自注意力模型以及所述分类器可以分别是所述神经网络中的不同层。
在一些可能的设计中,对所述音素识别模型进行训练时采用的数据为第一训练数据,其 中,所述第一训练数据为不蕴含情感状态的相关信息的语音数据;对所述情感状态识别模型 进行训练时采用的数据为第二训练数据,其中,所述第二训练数据为蕴含情感状态的相关信 息的语音数据。
上述方案中,在训练的过程中,对音素识别模型进行训练时可以采集不蕴含情感状态的 相关信息的语音数据,对情感状态识别模型进行训练时需要采集蕴含情感状态的相关信息的 语音数据。由于不蕴含情感状态的相关信息的语音数据的采集比较容易,数量也比较多,蕴 含情感状态的相关信息的语音数据的采集难度比较高,数量也比较少,因此,本申请能够利 用不蕴含情感状态的相关信息的语音数据辅助进行情感状态的识别,有效增加情感状态的识 别训练数据的数量,进而能够更好地对情感状态识别模型进行训练,从而提高情感状态识别 的准确性。
第二方面,提供了一种情感状态识别模型的训练方法,包括:
获取训练数据,其中,所述训练数据包括p个训练语音帧train1,train2,…,trainp,p为正整数;
将训练语音帧train1,train2,…,trainp分别输入声学特征识别模型,从而得到语音 帧训练语音帧train1,train2,…,trainp各自的情感声学特征数据feature1,feature2,…, featurep,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1,phoneme2,…,phonemep;
根据所述训练语音帧train1,train2,…,trainp各自的所属的音素phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素 数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特征;
将所述情感声学特征数据feature1,feature2,…,featurep和所述音素数据data1,data2,…, datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
获取所述训练数据的情感状态;
通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状态识别模型进行训 练。
在一些可能的设计中,所述情感声学特征数据feature1,feature2,…,featurep和所述音 素数据data1,data2,…,datap进行融合,从而得到fuse1,fuse2,…,fusep,可以包括:
通过处理器以向量拼接的方式,将情感声学特征数据feature1,feature2,…,featurep和 音素数据data1,data2,…,datap进行融合从而得到融合数据fuse1,fuse2,…,fusep。
具体地,可以通过处理器并以以下的向量拼接的方式将情感声学特征数据featurei和音素 数据datai进行数据融合,从而得到融合数据fusei,其中,1≤i≤p,并且,i为整数:
fusei=featurei+datai;
其中,featurei为从第i帧训练语音帧提取得到的情感声学特征数据,datai为根据第i帧 训练语音帧计算得到的音素数据。在一种可能的实施方式中,音素数据datai可以表示为:
(probabilityi,typei,lengthi),
其中,i为自然数,0<i≤p,probabilityi为第i帧训练语音帧的音素概率,typei用于表示 第i帧训练语音帧的音素类型,lengthi用于表示第i帧训练语音帧的音素时长,音素概率为训 练语音帧属于各个音素的概率组成的数据,音素类型包括元音类型、辅音类型以及静音类型, 音素时长为同一音素的持续时长。
在一些可能的设计中,情感预测模型可以表示为:
State=Emoforecast(fuse)
其中,fuse为融合数据,fuse包括fuse1,fuse2,…,fusep,state为情感状态,Emoforecast()为融合数据fuse与情感状态state的映射关系。
第三方面,提供了一种语音情感识别装置,包括:获取模块、声学特征识别模型、音素 识别模型、确定模块、融合模块以及情感状态识别模型;
所述获取模块用于获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It, t为正整数;
所述声学特征识别模型用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根据人耳的生理特性提取 出来的数据;
所述音素识别模型用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;
所述确定模块用于根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据用于表 示所述语音数据中的音素的特征;
所述融合模块用于将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…, Nt进行融合,从而得到融合数据R1,R2,…,Rt;
所述情感状态识别模型用于根据所述融合数据R1,R2,…,Rt确定所述语音数据的情感 状态。
在一些可能的设计中,所述融合模块用于通过处理器以向量拼接的方式,将情感声学特 征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合从而得到融合数据R1,R2,…,Rt。
具体地,所述融合模块用于以以下的向量拼接的方式将情感声学特征数据Si和音素数据 Ni进行数据融合,从而得到融合数据Ri,其中,1≤i≤t,并且,i为整数:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算 得到的音素数据。
更具体地,音素数据Ni可以表示为:
(pi,xi,yi),
其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的 音素类型,yi用于表示第i帧语音帧的音素时长,音素概率为语音帧属于各个音素的概率组 成的数据,音素类型包括元音类型、辅音类型以及静音类型,音素时长为同一音素的持续时 长。
在一些可能的设计中,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt,state为情感状态,Emoforecast()为融 合数据R与情感状态state的映射关系。
具体地,情感预测模型包括循环神经网络RNN、自注意力模型以及分类器,所述方法包 括:
将融合数据R1,R2,…,Rt输入RNN,从而得到循环结果h1,h2,…,ht;
将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征;
将高维情感特征输入分类器,从而确定所述语音数据的情感状态。
更具体地,所述RNN、所述自注意力模型以及所述分类器集成在同一个神经网络,并且, 所述RNN、所述自注意力模型以及所述分类器可以分别是所述神经网络中的不同层。
在一些可能的设计中,对所述音素识别模型进行训练时采用的数据为第一训练数据,其 中,所述第一训练数据为不蕴含情感状态的相关信息的语音数据;对所述情感状态识别模型 进行训练时采用的数据为第二训练数据,其中,所述第二训练数据为蕴含情感状态的相关信 息的语音数据。
第四方面,提供了一种训练设备,包括:获取模块、声学特征识别模型、确定模块、融 合模块以及训练模块,
所述获取模块用于获取训练数据,其中,所述训练数据包括p个训练语音帧train1, train2,…,trainp,p为正整数;
所述声学特征识别模型用于将训练语音帧train1,train2,…,trainp分别输入声学特 征识别模型,从而得到语音帧训练语音帧train1,train2,…,trainp各自的情感声学特征 数据feature1,feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性提取 出来的数据;
所述获取模块用于获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素 phoneme1,phoneme2,…,phonemep;
所述确定模块用于根据所述训练语音帧train1,train2,…,trainp各自的所属的音素 phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特 征;
所述融合模块用于将所述情感声学特征数据feature1,feature2,…,featurep和所述音素 数据data1,data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
所述获取模块用于获取所述训练数据的情感状态;
所述训练模块用于通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状 态识别模型进行训练。
在一些可能的设计中,所述融合模块用于以向量拼接的方式,将情感声学特征数据 featur1e,feature2,…,featurep和音素数据data1,data2,…,datap进行融合从而得到融合 数据fuse1,fuse2,…,fusep。
具体地,所述融合模块用于以以下的向量拼接的方式将情感声学特征数据featurei和音素 数据datai进行数据融合,从而得到融合数据fusei,其中,1≤i≤p,并且,i为整数:
fusei=featurei+datai;
其中,featurei为从第i帧训练语音帧提取得到的情感声学特征数据,datai为根据第i帧 训练语音帧计算得到的音素数据。在一种可能的实施方式中,音素数据datai可以表示为:
(probabilityi,typei,lengthi),
其中,i为自然数,0<i≤p,probabilityi为第i帧训练语音帧的音素概率,typei用于表示 第i帧训练语音帧的音素类型,lengthi用于表示第i帧训练语音帧的音素时长,音素概率为训 练语音帧属于各个音素的概率组成的数据,音素类型包括元音类型、辅音类型以及静音类型, 音素时长为同一音素的持续时长。
在一些可能的设计中,情感预测模型可以表示为:
State=Emoforecast(fuse)
其中,fuse为融合数据,fuse包括fuse1,fuse2,…,fusep,state为情感状态,Emoforecast()为融合数据fuse与情感状态state的映射关系。
第五方面,提供了一种识别设备,包括:处理器和存储器,所述处理器执行所述存储器 中的代码执行如第一方面任一项所述的方法。
第六方面,提供了一种训练设备,包括:处理器和存储器,所述处理器执行所述存储器 中的代码执行如第二方面任一项所述的方法。
第七方面,提供了一种计算机可读存储介质,包括指令,当所述指令在计算机上运行时, 使得所述计算机执行如第一方面任一项或者第二方面任一项所述的方法。
第八方面,提供了一种计算机程序产品,当所述计算机程序产品被计算机读取并执行时, 如第一方面任一项或者第二方面任一项所述的方法将被执行。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背 景技术中所需要使用的附图进行说明。
图1是本发明实施例提供的一种人工智能主体框架示意图;
图2是本申请涉及的一种多维情感空间的结构示意图;
图3是本申请涉及的一种音素识别模型的结构示意图;
图4是本申请提供的一种情感预测模型的结构示意图;
图5是本申请提供的一种循环神经网络的结构示意图;
图6是本申请提供的一种语音情感识别方法的流程示意图;
图7是本申请提供的一种语音情感识别装置的结构示意图;
图8是本申请提供的一种识别设备的结构示意图;
图9是本申请提供的一种芯片硬件结构图;
图10是本申请提供的一种云系统的结构示意图;
图11是本申请提供的一种情感状态识别模型的训练方法的流程示意图;
图12是本申请提供的一种训练设备的结构示意图;
图13是本申请提供的一种系统架构的结构示意图。
具体实施方式
图1示出一种人工智能主体框架示意图,该主体框架描述了人工智能系统总体工作流程, 适用于通用的人工智能领域需求。
下面从“智能信息链”(水平轴)和“IT价值链”(垂直轴)两个维度对上述人工智能主题框架进行阐述。
“智能信息链”反映从数据的获取到处理的一列过程。举例来说,可以是智能信息感知、 智能信息表示与形成、智能推理、智能决策、智能执行与输出的一般过程。在这个过程中, 数据经历了“数据—信息—知识—智慧”的凝练过程。
“IT价值链”从人智能的底层基础设施、信息(提供和处理技术实现)到系统的产业生 态过程,反映人工智能为信息技术产业带来的价值。
(1)基础设施:
基础设施为人工智能系统提供计算能力支持,实现与外部世界的沟通,并通过基础平台 实现支撑。通过传感器与外部沟通;计算能力由智能芯片(CPU、NPU、GPU、ASIC、FPGA等硬件加速芯片)提供;基础平台包括分布式计算框架及网络等相关的平台保障和支持,可以包括云存储和计算、互联互通网络等。举例来说,传感器和外部沟通获取数据,这些数据提供给基础平台提供的分布式计算系统中的智能芯片进行计算。
(2)数据
基础设施的上一层的数据用于表示人工智能领域的数据来源。数据涉及到图形、图像、 语音、文本,还涉及到传统设备的物联网数据,包括已有系统的业务数据以及力、位移、液 位、温度、湿度等感知数据。
(3)数据处理
数据处理通常包括数据训练,机器学习,深度学习,搜索,推理,决策等方式。
其中,机器学习和深度学习可以对数据进行符号化和形式化的智能信息建模、抽取、预 处理、训练等。
推理是指在计算机或智能系统中,模拟人类的智能推理方式,依据推理控制策略,利用 形式化的信息进行机器思维和求解问题的过程,典型的功能是搜索与匹配。
决策是指智能信息经过推理后进行决策的过程,通常提供分类、排序、预测等功能。
(4)通用能力
对数据经过上面提到的数据处理后,进一步基于数据处理的结果可以形成一些通用的能 力,比如可以是算法或者一个通用系统,例如,翻译,文本的分析,计算机视觉的处理,语 音识别,图像的识别等等。
(5)智能产品及行业应用
智能产品及行业应用指人工智能系统在各领域的产品和应用,是对人工智能整体解决方 案的封装,将智能信息决策产品化、实现落地应用,其应用领域主要包括:智能制造、智能 交通、智能家居、智能医疗、智能安防、自动驾驶,平安城市,智能终端等。
本申请提供的语音情感识别方法是人工智能中的一个细分领域,除了具有上述人工智能 的普遍性特征之外,还具有语音情感识别本身的独有特征,下面将进行详细的介绍。
为了便于理解,下面先对本申请涉及的语音情感识别方法要识别的情感状态进行详细的 介绍。情感状态用于描述人对客观事物所持的态度体验。情感状态的表示方式包括两种:离 散表示和维度表示。其中,离散表示为通过兴奋、高兴、欢乐、愉悦、被吸引、平静、放松、 中立、宁静、瞌睡、无聊、失望、悲伤、紧张、气恼、害怕、生气、恐惧、愤怒、狂怒等等。维度表示可以将情感状态表示为多维情感空间中的点。例如,如图2所示,多维情感空间可以是激活度-效价空间,其中,横纵是效价,纵轴是激活度。所以,一种情感状态可以表示为激活度-效价空间中的一个点(g1,g2),g1为该情感状态在横轴上的投影,g2为该情感状 态在纵轴上的投影。为了陈述简便,下面将以情感状态为离散表示为例进行说明。
在人机交互领域,语音情感识别系统可以根据语音数据识别用户的情感状态,从而调整 应对策略。例如,语音自动服务系统可以通过语音情感识别系统发现情感状态为愤怒的用户, 并将他们的电话及时转给人工客服;远程教育系统可以通过语音情感识别系统发现情感状态 为无聊的学生,从而及时调整授课重点或者进度;医疗系统可以通过语音情感识别系统识别 抑郁症患者的情感状态,从而调整治疗方向等等。
语音情感识别系统可以按照时间顺序从音频中截取出t帧用于进行情感状态识别的语音 帧I1,I2,…,It,以作为语音数据。其中,t为自然数。可以理解,上述t帧语音帧中相邻 两帧语音帧之间的时间间隔可以是相等的,也可以是不相等的,此处不作具体限定。
语音情感识别系统可以从语音数据中分别提取得到情感声学特征以及音素数据,下面将 分别进行详细的介绍。
(1)语音情感识别系统从语音数据中提取情感声学特征数据。
语音情感识别系统将语音数据(包括t帧语音帧I1,I2,…,It)分别输入声学特征识别模型,从而得到t帧语音帧的情感声学特征数据S1,S2,…,St。具体地,语音情感识别 系统根据语音帧I1确定情感声学特征数据S1,语音情感识别系统根据语音帧I2确定情感声学 特征数据S2,…,语音情感识别系统根据语音帧It确定情感声学特征数据St。其中,情感声 学特征数据为从语音帧提取出来的特征数据。在一具体的实施例中,情感声学特征数据可以是根据人耳的生理特性,从语音帧提取出来的多维向量,也就是说,多维向量包含了对应的语音帧的内容信息,例如,梅尔频率倒谱系数1到12维(mel frequency cepstrumcoefficient1 –12,MFCC1–12),基频(fundmental frequency,F0),当前帧包含语音的概率(prob.of voicing),均方根能量(RMS energy),过零率(zero-crossing rate)。可选地,情感声学特 征数据还可以包括MFCC 1–12,F0,Prob.of voicing,RMS energy,Zero-Crossing Rate等等 特征的一阶差分。举个例子说明,RMS energy的一阶差分等于第i帧语音帧的RMS energy 减去第i-1帧的RMS energy。
(2)语音情感识别系统从语音数据中提取音素数据。
语音情感识别系统将语音数据(包括t帧语音帧I1,I2,…,It)分别输入音素识别模型,从而得到t帧语音帧的音素M1,M2,…,Mt。具体地,语音情感识别系统根据语音帧 I1确定音素M1,语音情感识别系统根据语音帧I2确定音素M2,…,语音情感识别系统根据 语音帧It确定音素Mt。其中,音素是根据语音的自然属性划分出来的最小语音单位,依据音 节里的发音动作来分析,一个动作构成一个音素。例如,汉语音节ā(啊)只有一个音素, ài(爱)有两个音素,dāi(呆)有三个音素等等。音素可以包括元音音素、辅音音素以及 静音音素。元音音素包括a、e、i、o、u…等等。辅音音素包括b、f、h、k、t…等等。静音 音素即不是元音音素,也不是辅音音素,静音音素可以表示为sil。应理解,上述举例中只以 汉语进行举例,但是,在实际应用中,还可以是英语、法语、德语、日语、汉语等等世界上 任一种语言,此处不作具体限定。
以第i帧语音帧Ii为例,语音情感识别系统将语音帧Ii输入音素识别模型,从而得到语 音帧Ii中包含的音素Mi。
音素识别模型可以是分类模型。其中,分类模型中的分类包括:a、e、i、o、u…b、f、h、 k、t…等等。也就是说,分类模型中的分类的数量C等于汉语中所有音素的总数C。这里,语音情感识别系统将语音帧Ii输入分类模型可以分别计算出语音帧Ii属于各个音素的概率(例如,后验概率)pi1,pi2,…,piC,并选择概率最高的音素作为识别结果。
在一具体的实施例中,如图3所示,音素识别模型包括深度神经网络(deep neuralnetworks, DNN)以及隐马尔可夫模型(hidden markov model,HMM)。其中,深度神经网络包括输入 层、隐藏层以及输出层。
以语音帧Ii为例,语音帧Ii的音素可以是将语音帧Ii输入至音素识别模型中提取得到的。 其中,i为自然数,并且,1≤i≤t。
(1)将语音帧Ii输入DNN计算得到语音帧Ii属于各个音素的观察概率。
输入层:
假设输入层的输入为语音帧Ii的声学特征数据Ki,输出和输入相等,即,不对输入进行 任何处理。其中,声学特征数据Ki为对语音帧Ii进行声学特征提取得到的数据,例如,可以 是MFCC1-12或者更高的维度,此处不作具体限定。为了陈述简便,此处假设输入层不作任 何处理,但是,在实际应用中,可以对输入层进行归一化等等处理,此处不作具体限定。
隐藏层:
将输入层输出的语音帧Ii的情感声学特征数据Si作为隐藏层的输入,假设总共L(L≥2) 层隐藏层,设Zl表示第l层的输出结果,当l=1时,Z1=Si,其中,1≤l≤L,那么,第l层和 第l+1层之间的关系为:
al+1=WlZl+bl
Zl+1=fl+1(al+1)
其中,Wl为第l层的权值向量,bl为第l层的偏置向量,al+1为第l+1层的中间向量,fl +1为第l+1层的激励函数,Zl+1为第l+1层的隐藏层结果。激励函数可以是sigmoid函数,双曲正切函数,Relu函数,ELU(Exponential Linear Units)函数等等中的任意一种。
输出层:
假设第L层的第一输出结果ZL具体为(z1,z2,…,zC),则语音帧i属于第j(1≤j≤C)个 音素的观察概率可以是通过softmax函数计算得到:
其中,p'j为第j个音素的观察概率,e为自然数,zj为第L层的输出ZL中的第j个元素, zk为第L层的输出ZL中的第k个元素。可以理解,上述例子中以softmax函数为例进行说明, 但是,在实际的应用中,还可以采用逻辑斯谛函数(logistic)函数等等,此处不作具体限定。
由此,音素识别模型可以分别计算出语音帧i属于各个音素的观察概率p'i1,p'i2,…,p'iC。
为了简便起见,上面只陈述了语音帧i属于各个音素的观察概率,实际上,语音帧I1,I2,…, It各自属于各个音素的观察概率的识别均与语音帧Ii属于各个音素的观察概率相类似,此处 不再展开赘述。
上述fl+1以及l可以是人为设置的,此处不作具体限定。上述权重向量Wl以及偏置值bl可 以是通过大量已知语音帧的音素标签进行训练后得到的。
(2)语音帧I1,I2,…,It各自属于各个音素的观察概率输入HMM计算得到语音帧I1,I2,…,It各自属于各个音素的后验概率。
(3)根据语音帧I1,I2,…,It各自属于各个音素的后验概率确定语音帧I1,I2,…,It各自所属的音素M1,M2,…,Mt。例如,语音帧Ii可以选择语音帧Ii属于各个音素的后 验概率中最大的后验概率对应的音素作为语音帧Ii所属的音素Mi等等。
应理解,上述音素识别模型仅仅作为一种举例,在实际应用中,音素识别模型还可以是 其他的形式,例如,可以是不包括HMM的识别模型等等,此处不作具体限定。
语音情感识别系统根据t帧语音帧的音素M1,M2,…,Mt,确定t帧语音帧的音素数据N1,N2,…,Nt。音素数据用于表示所述语音数据中的音素的特征。音素数据可以包括音 素概率,音素类型以及音素时长。音素概率为语音帧属于各个音素的概率组成的数据,例如, 对于语音帧i,其对应的音素概率pi为pi1,pi2,…,piC组成的数据。音素类型可以包括元音类型、辅音类型以及静音类型。其中,当音素为a、e、i、o、u…等等时,该音素为元音类型; 当音素为b、f、h、k、t…等等时,该音素属于辅音类型;当音素既不是元音音素,又不是辅 音音素时,该音素为静音类型。音素时长为同一音素的持续时长,例如,同一音素的连续帧 数。
对于第i帧语音帧,音素数据Ni可以表示为(pi,xi,yi),其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的音素类型。例如,当xi的值为(0,0,1) 时,表示第i帧语音帧的音素类型为元音类型,当xi的值为(0,1,0)时,表示第i帧语音帧的 音素类型为辅音类型,当xi的值为(1,0,0)时,表示第i帧语音帧的音素类型为静音类型。yi用于表示第i帧语音帧的音素时长。音素概率的计算方式已经在上文中进行清楚的说明,下 面将以举例的方式说明音素类型和音素时长的计算方式,假设语音情感识别系统通过音素识 别模型对24帧语音帧进行的音素识别的结果为:
sil sil sil n n i i i i sil sil sil h h a a a o o o sil sil sil sil。
可以看出,第一个音素sil的音素类型为静音类型,音素时长为3帧,第二个音素n的音 素类型辅音类型,音素时长为2帧,第三个音素i的音素类型为元音类型,音素时长为4帧, 第四个音素sil的音素类型为静音类型,音素时长为3帧,第五个音素h的音素类型为辅音类 型,音素时长为2帧,第六个音素a的音素类型为元音类型,音素时长为3帧,第七个音素 o的音素类型为元音类型,音素时长为3帧,第八个音素sil的音素类型为静音类型,音素时 长为4帧。
在情感声学特征数据和获取音素数据之后,语音情感识别系统可以将情感声学特征数据 和音素数据进行数据融合从而得到融合数据。
在一具体的实施方式中,语音情感识别系统可以通过向量拼接的方式,将情感声学特征 数据和音素数据进行融合从而得到融合数据(R1,R2,…,Rt)。具体地,语音情感识别系 统将情感声学特征数据S1和音素数据N1进行向量拼接,从而得到融合数据R1,语音情感识别 系统将情感声学特征数据S2和音素数据N2进行向量拼接,从而得到融合数据R2,…,语音 情感识别系统将情感声学特征数据St和音素数据Nt进行向量拼接,从而得到融合数据Rt。可 以理解,上述向量拼接仅仅是数据融合的一种示例,在其他的实施方式中,还可以通过其他 方法进行数据融合,此处不作具体限定。
以第i帧语音帧Ii为例,语音情感识别系统通过以下的向量拼接的方式进行数据融合,从 而得到融合数据Ri:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算 得到的音素数据。
为了简便起见,上面只陈述了语音帧Ii的数据融合,实际上,语音帧I1,I2,…,It各自的数据融合均与语音帧Ii的数据融合相类似,此处不再展开赘述。
为了提高识别的准确性,语音情感识别系统还可以将音素类型为静音类型的首尾语音帧 去掉,但是,保留音素类型为静音类型的中间语音帧。举个例子说明:假设语音情感识别系 统通过音素识别模型对24帧语音帧进行的音素识别的结果为:
sil sil sil n n i i i i sil sil sil h h a a a o o o sil sil sil sil。
将音素类型为静音类型的首尾语音帧去掉,但是,保留音素类型为静音类型的中间语音 帧,可以得到如下结果:
sil sil sil n n i i i i sil sil sil h h a a a o o o sil sil sil sil。
这里,音素类型为静音类型的首尾语音帧不能反映用户的情感状态,因而,可以将其去 掉以提高识别的准确率。但是,音素类型为静音类型的中间语音帧是能够反映用户的情感状 态,因此,需要将其保留。
在确定融合数据之后,语音情感识别系统将融合数据(R1,R2,…,Rt)输入情感预测模型进行分类,从而得到情感状态。
在一具体的实施例中,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt。State为情感状态,Emoforecast()为融 合数据与情感状态的映射关系。Emoforecast()可以是通过大量的已知情感状态和已知融合数 据进行训练得到的。在一具体的实施例中,情感预测模型可以如图3所示,将融合数据R1, R2,…,Rt分别输入情感预测模型,从而得到情感状态。
在一更具体的实施例中,如图4所示,情感预测模型可以包括循环神经网络(Recurrent Neural Networks,RNN)、自注意力模型以及分类器。其中,RNN可以包括双向长短期记忆 模型(Long Short-Term Memory,LSTM)等等。
(1)将融合数据(R1,R2,…,Rt)输入RNN计算得到循环结果h1,h2,…,ht。其中, RNN包括神经元1,神经元2至神经元t。如图5所示,以下为RNN中的神经元1,神经元 2至神经元t中的计算过程:
在神经元1中:
首先,根据语音帧I1中的融合数据R1以及初始输出值h0计算得到遗忘值f1:
然后,根据语音帧I1中的融合数据R1,初始输入值C0,初始输出值h0以及遗忘值f1计算 得到输入值C1:
最后,根据语音帧I1中的融合数据R1,初始输出值h0以及输入值C1,计算得到h1:
h1=o1tanh(C1)
在神经元2中:
首先,根据语音帧I2中的融合数据R2以及输出值h1计算得到遗忘值f2:
然后,根据语音帧I2中的融合数据R2,输入值C1,输出值h1以及遗忘值f2计算得到输入值C2:
最后,根据语音帧I2中的融合数据R2,输出值h1以及输入值C2计算得到h2:
h2=o11tanh(C2)
……;
在神经元t中:
首先,根据语音帧It中的融合数据Rt,以及输出值ht-1计算得到遗忘值ft:
然后,根据语音帧It中的融合数据Rt,输入值Ct-1,输出值ht-1以及遗忘值ft计算得到输 入值Ct:
最后,根据语音帧It中的融合数据Rt,输出值ht-1以及输入值Ct确定ht:
ht=ottanh(Ct)
这里,h1,h2,…,ht构成了循环神经网络的输出的循环结果。
可以理解,上述初始输入值C0,初始输出值h0可以是人工设置的,权值矩阵W1 f至Wt f, 权值矩阵W1 i至Wt i,权值矩阵W1 c至Wt c,偏置值至偏置值至偏置值至偏置值至均是通过大量已知循环神经网络的输出结果与已知融合数据R进行训练得到的。
(2)将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征,其中,D为情 感状态的总数量。其中,自注意力模型包括自注意力子模型以及全连接层。
将循环结果h1,h2,…,ht输入自注意力子模型,从而得到m个注意值A1,A2,…,Am:
在循环神经网络计算得到输出结果h1,h2,…,ht之后,自注意力模型根据循环神经网络的 输出结果(h1,h2,…,ht),计算得到m个注意值A1,A2,…,Am。下面将以注意值Aj为例说明 注意值是如何计算得到的,1≤j≤m:
其中,a1j,a2j,…,atj为第j组注意力权重,h1,h2,…,ht为循环神经网络的输出的循环结果。
将m个注意值A1,A2,…,Am输入全连接层,从而得到高维情感特征。
(3)将高维情感特征输入Softmax分类器,从而得到语音数据(包括t帧语音帧I1,I2,…, It)的属于各个情感状态state1,state2,…,stateD的概率。其中,D为情感状态的总数量。 上述例子中以softmax分类器为例进行说明,但是,在实际应用中,还可以采用logistic分类 器,此处不作具体限定。
由此,语音情感识别系统可以分别计算出语音数据属于各个情感状态的概率,并根据语 音数据属于各个情感状态的概率确定语音数据所属的情感状态。
可以理解,上述循环神经网络、自注意力模型以及分类器可以分别是三个不同的神经网 络,也可以集成在同一个神经网络中。当循环神经网络、自注意力模型以及分类器集成在同 一个神经网络时,循环神经网络、自注意力模型以及分类器可以分别是该神经网络中的不同 层。
下面将通过具体的实验数据说明采用本申请的语音情感识别方法能够比现有技术的语音 情感识别方法提高识别精度。
使用500说话人语音数据库做实验,其中成人250人,儿童250人,说话人覆盖各年龄 段和性别,每人包含200句语音,语音中各情感类型数量均衡。对成人和儿童分别选取200 人做训练集,剩余50人做测试集。实验结果如下:
可以看到本申请的语音情感识别方法的准确度能够比现有技术的语音情感识别方法的准 确度提高12%左右。
前述的内容详细地介绍了通过训练好的音素识别模型和训练好的情感状态识别模型识别 语音数据的情感状态的过程,但是,在进行识别之前,需要分别对未训练好的音素识别模型 和未训练好的情感状态识别模型进行训练,从而得到训练好的音素识别模型和训练好的情感 状态识别模型。下面将分别对未训练好的音素识别模型和未训练好的情感状态识别模型进行 训练。
(1)对未训练好的音素识别模型进行训练的过程具体为:获取大量已知语音帧和大量已 知语音帧对应的音素。这里,已知语音帧可以是从不蕴含情感状态的相关信息的语音数据(可 以称之为第一训练数据)中提取得到的语音帧。也就是说,已知语音帧可以是在说话者没有 感情流露的时候采集到的语音帧。然后,将大量已知语音帧和大量已知语音帧对应的音素多 次输入未训练好的音素识别模型进行重复训练,直到音素识别模型能够正确对音素进行识别。 对于单次训练来说,因为音素识别模型的输出尽可能的接近真正想要预测的值,所以,可以 将某帧已知语音帧输入音素识别模型,从而得到该已知语音帧的预测值,并将该语音帧对应 的音素作为真正想要的目标值,比较当前音素识别模型的预测值和真正想要的目标值,再根 据两者之间的差异情况来更新每一层音素识别模型的权重向量(当然,在第一次更新之前通 常会有初始化的过程,即为音素识别模型中的各层预先配置参数),比如,如果音素识别模 型的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到音素识别模型能够预 测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的差异”, 这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量预测值和 目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高表示差异 越大,那么音素识别模型的训练就变成了尽可能缩小这个loss的过程。
(2)对未训练好的情感状态识别模型进行训练的过程具体为:获取大量已知融合数据和 大量已知融合数据对应的情感状态。这里,已知融合数据可以是从蕴含情感状态的相关信息 的语音数据(可以称之为第二训练数据)中计算得到的融合数据(融合数据的计算方法可以 参见上文)。然后,将大量已知融合数据和大量已知融合数据对应的情感状态多次输入未训 练好的情感状态识别模型进行重复训练,直到情感状态识别模型能够正确对情感状态进行识 别。对于单次训练来说,因为情感状态识别模型的输出尽可能的接近真正想要预测的值,所 以,可以将某已知融合数据输入情感状态识别模型,从而得到该已知融合数据的预测值,并 将该已知融合数据对应的情感状态作为真正想要的目标值,比较当前情感状态识别模型的预 测值和真正想要的目标值,再根据两者之间的差异情况来更新音素识别模型中的循环神经网 络的每一层的权重向量以及自注意力模型中的注意力权重(当然,在第一次更新之前通常会 有初始化的过程,即为情感状态识别模型中的各层预先配置参数),比如,如果情感状态识 别模型的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到情感状态识别模 型能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的 差异”,这便是损失函数(loss function)或目标函数(objective function),它们是用于衡量 预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高 表示差异越大,那么情感状态识别模型的训练就变成了尽可能缩小这个loss的过程。
在训练的过程中,对音素识别模型进行训练时可以采集不蕴含情感状态的相关信息的语 音数据,对情感状态识别模型进行训练时需要采集蕴含情感状态的相关信息的语音数据。由 于不蕴含情感状态的相关信息的语音数据的采集比较容易,数量也比较多,蕴含情感状态的 相关信息的语音数据的采集难度比较高,数量也比较少,因此,本申请能够利用不蕴含情感 状态的相关信息的语音数据辅助进行情感状态的识别,有效增加情感状态的识别训练数据的 数量,进而能够更好地对情感状态识别模型进行训练,从而提高情感状态识别的准确性。
参阅图6,图6是本申请提供的一种语音情感识别方法的流程示意图。本实施例的语音 情感识别方法,包括:
S101:通过传感器获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It,t为正整数。
S102:通过处理器将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音 帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根 据人耳的生理特性提取出来的数据。
在本申请具体的实施例中,情感声学特征数据为从语音帧提取出来的特征数据。在一具 体的实施例中,情感声学特征数据可以是根据人耳的生理特性,从语音帧提取出来的多维向 量,也就是说,多维向量包含了对应的语音帧的内容信息,例如,梅尔频率倒谱系数1到12 维(mel frequency cepstrum coefficient1–12,MFCC1–12),基频(fundmentalfrequency, F0),当前帧包含语音的概率(prob.of voicing),均方根能量(RMS energy),过零率 (zero-crossing rate)。可选地,情感声学特征数据还可以包括MFCC 1–12,F0,Prob.of voicing, RMS energy,Zero-Crossing Rate等等特征的一阶差分。举个例子说明,RMS energy的一阶差 分等于第i帧语音帧的RMS energy减去第i-1帧的RMS energy。
在本申请具体的实施例中,语音情感识别系统将语音数据(包括t帧语音帧I1,I2,…, It)分别输入声学特征识别模型,从而得到t帧语音帧的情感声学特征数据S1,S2,…,St。 具体地,语音情感识别系统根据语音帧I1确定情感声学特征数据S1,语音情感识别系统根据 语音帧I2确定情感声学特征数据S2,…,语音情感识别系统根据语音帧It确定情感声学特征 数据St。
S103:通过处理器将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1, I2,…,It各自的所属的音素M1,M2,…,Mt。
在本申请具体的实施例中,音素是根据语音的自然属性划分出来的最小语音单位,依据 音节里的发音动作来分析,一个动作构成一个音素。例如,汉语音节ā(啊)只有一个音素, ài(爱)有两个音素,dāi(呆)有三个音素等等。音素可以包括元音音素、辅音音素以及 静音音素。元音音素包括a、e、i、o、u…等等。辅音音素包括b、f、h、k、t…等等。静音 音素即不是元音音素,也不是辅音音素,静音音素可以表示为sil。应理解,上述举例中只以汉语进行举例,但是,在实际应用中,还可以是英语、法语、德语、日语、汉语等等世界上 任一种语言,此处不作具体限定。
在本申请具体的实施例中,语音情感识别系统将语音数据(包括t帧语音帧I1,I2,…, It)分别输入音素识别模型,从而得到t帧语音帧的音素M1,M2,…,Mt。具体地,语音情感识别系统根据语音帧I1确定音素M1,语音情感识别系统根据语音帧I2确定音素M2,…,语音情感识别系统根据语音帧It确定音素Mt。
在本申请具体的实施例中,音素识别模型可以是分类模型。其中,分类模型中的分类包 括:a、e、i、o、u…b、f、h、k、t…等等。也就是说,分类模型中的分类的数量C等于汉语中所有音素的总数C。这里,语音情感识别系统将语音帧Ii输入分类模型可以分别计算出语音帧Ii属于各个音素的概率(例如,后验概率)pi1,pi2,…,piC,并选择概率最高的音素作为识别结果。
在一具体的实施例中,音素识别模型包括深度神经网络(deep neural networks,DNN) 以及隐马尔可夫模型(hidden markov model,HMM)。其中,深度神经网络包括输入层、隐 藏层以及输出层。
以语音帧Ii为例,语音帧Ii的音素可以是将语音帧Ii输入至音素识别模型中提取得到的。 其中,i为自然数,并且,1≤i≤t。
(1)将语音帧Ii输入DNN计算得到语音帧Ii属于各个音素的观察概率。
输入层:
假设输入层的输入为语音帧Ii的声学特征数据Ki,输出和输入相等,即,不对输入进行 任何处理。其中,声学特征数据Ki为对语音帧Ii进行声学特征提取得到的数据,例如,可以 是MFCC1-12或者更高的维度,此处不作具体限定。为了陈述简便,此处假设输入层不作任 何处理,但是,在实际应用中,可以对输入层进行归一化等等处理,此处不作具体限定。
隐藏层:
将输入层输出的语音帧Ii的情感声学特征数据Si作为隐藏层的输入,假设总共L(L≥2) 层隐藏层,设Zl表示第l层的输出结果,当l=1时,Z1=Si,其中,1≤l≤L,那么,第l层和 第l+1层之间的关系为:
al+1=WlZl+bl
Zl+1=fl+1(al+1)
其中,Wl为第l层的权值向量,bl为第l层的偏置向量,al+1为第l+1层的中间向量,fl +1为第l+1层的激励函数,Zl+1为第l+1层的隐藏层结果。激励函数可以是sigmoid函数,双曲正切函数,Relu函数,ELU(Exponential Linear Units)函数等等中的任意一种。
输出层:
假设第L层的第一输出结果ZL具体为(z1,z2,…,zC),则语音帧i属于第j(1≤j≤C)个 音素的观察概率可以是通过softmax函数计算得到:
其中,p'j为第j个音素的观察概率,e为自然数,zj为第L层的输出ZL中的第j个元素, zk为第L层的输出ZL中的第k个元素。可以理解,上述例子中以softmax函数为例进行说明, 但是,在实际的应用中,还可以采用逻辑斯谛函数(logistic)函数等等,此处不作具体限定。
由此,音素识别模型可以分别计算出语音帧i属于各个音素的观察概率p'i1,p'i2,…,p'iC。
为了简便起见,上面只陈述了语音帧i属于各个音素的观察概率,实际上,语音帧I1,I2,…, It各自属于各个音素的观察概率的识别均与语音帧Ii属于各个音素的观察概率相类似,此处 不再展开赘述。
上述fl+1以及l可以是人为设置的,此处不作具体限定。上述权重向量Wl以及偏置值bl可 以是通过大量已知语音帧的音素标签进行训练后得到的。
(2)语音帧I1,I2,…,It各自属于各个音素的观察概率输入HMM计算得到语音帧I1,I2,…,It各自属于各个音素的后验概率。
(3)根据语音帧I1,I2,…,It各自属于各个音素的后验概率确定语音帧I1,I2,…,It各自所属的音素M1,M2,…,Mt。例如,语音帧Ii可以选择语音帧Ii属于各个音素的后 验概率中最大的后验概率对应的音素作为语音帧Ii所属的音素Mi等等。
应理解,上述音素识别模型仅仅作为一种举例,在实际应用中,音素识别模型还可以是 其他的形式,例如,可以是不包括HMM的识别模型等等,此处不作具体限定。
S104:通过处理器,并根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据 用于表示所述语音数据中的音素的特征。
在本申请具体的实施例中,音素数据可以包括音素概率,音素类型以及音素时长。音素 概率为语音帧属于各个音素的概率组成的数据,例如,对于语音帧i,其对应的音素概率pi为 pi1,pi2,…,piC组成的数据。音素类型可以包括元音类型、辅音类型以及静音类型。其中,当 音素为a、e、i、o、u…等等时,该音素为元音类型;当音素为b、f、h、k、t…等等时,该音素属于辅音类型;当音素既不是元音音素,又不是辅音音素时,该音素为静音类型。音素时长为同一音素的持续时长,例如,同一音素的连续帧数。
对于第i帧语音帧,音素数据Ni可以表示为(pi,xi,yi),其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的音素类型。例如,当xi的值为(0,0,1) 时,表示第i帧语音帧的音素类型为元音类型,当xi的值为(0,1,0)时,表示第i帧语音帧的 音素类型为辅音类型,当xi的值为(1,0,0)时,表示第i帧语音帧的音素类型为静音类型。yi用于表示第i帧语音帧的音素时长。音素概率的计算方式已经在上文中进行清楚的说明,下 面将以举例的方式说明音素类型和音素时长的计算方式,假设语音情感识别系统通过音素识 别模型对24帧语音帧进行的音素识别的结果为:
sil sil sil n n i i i i sil sil sil h h a a a o o o sil sil sil sil。
可以看出,第一个音素sil的音素类型为静音类型,音素时长为3帧,第二个音素n的音 素类型辅音类型,音素时长为2帧,第三个音素i的音素类型为元音类型,音素时长为4帧, 第四个音素sil的音素类型为静音类型,音素时长为3帧,第五个音素h的音素类型为辅音类 型,音素时长为2帧,第六个音素a的音素类型为元音类型,音素时长为3帧,第七个音素 o的音素类型为元音类型,音素时长为3帧,第八个音素sil的音素类型为静音类型,音素时 长为4帧。
S105:通过处理器将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt。
在本申请具体的实施例中,语音情感识别系统可以通过向量拼接的方式,将情感声学特 征数据和音素数据进行融合从而得到融合数据(R1,R2,…,Rt)。具体地,语音情感识别 系统将情感声学特征数据S1和音素数据N1进行向量拼接,从而得到融合数据R1,语音情感识 别系统将情感声学特征数据S2和音素数据N2进行向量拼接,从而得到融合数据R2,…,语 音情感识别系统将情感声学特征数据St和音素数据Nt进行向量拼接,从而得到融合数据Rt。 可以理解,上述向量拼接仅仅是数据融合的一种示例,在其他的实施方式中,还可以通过其 他方法进行数据融合,此处不作具体限定。
以第i帧语音帧Ii为例,语音情感识别系统通过以下的向量拼接的方式进行数据融合,从 而得到融合数据Ri:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算 得到的音素数据。
为了简便起见,上面只陈述了语音帧Ii的数据融合,实际上,语音帧I1,I2,…,It各自的数据融合均与语音帧Ii的数据融合相类似,此处不再展开赘述。
为了提高识别的准确性,语音情感识别系统还可以将音素类型为静音类型的首尾语音帧 去掉,但是,保留音素类型为静音类型的中间语音帧。举个例子说明:假设语音情感识别系 统通过音素识别模型对24帧语音帧进行的音素识别的结果为:
sil sil sil n n i i i i sil sil sil h h a a a o o o sil sil sil sil。
将音素类型为静音类型的首尾语音帧去掉,但是,保留音素类型为静音类型的中间语音 帧,可以得到如下结果:
将音素类型为静音类型的首尾语音帧去掉,但是,保留音素类型为静音类型的中间语音 帧,可以得到如下结果:
这里,音素类型为静音类型的首尾语音帧不能反映用户的情感状态,因而,可以将其去 掉以提高识别的准确率。但是,音素类型为静音类型的中间语音帧是能够反映用户的情感状 态,因此,需要将其保留。
S106:通过处理器将所述融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定所述语音数据的情感状态。
在本申请具体的实施例中,情感状态用于描述人对客观事物所持的态度体验。情感状态 的表示方式包括两种:离散表示和维度表示。其中,离散表示为通过兴奋、高兴、欢乐、愉 悦、被吸引、平静、放松、中立、宁静、瞌睡、无聊、失望、悲伤、紧张、气恼、害怕、生 气、恐惧、愤怒、狂怒等等。维度表示可以将情感状态表示为多维情感空间中的点。例如, 多维情感空间可以是激活度-效价空间,其中,横纵是效价,纵轴是激活度。所以,一种情感 状态可以表示为激活度-效价空间中的一个点(g1,g2),g1为该情感状态在横轴上的投影, g2为该情感状态在纵轴上的投影。
在本申请具体的实施例中,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt。State为情感状态,Emoforecast()为融 合数据与情感状态的映射关系。Emoforecast()可以是通过大量的已知情感状态和已知融合数 据进行训练得到的。在一具体的实施例中,将融合数据R1,R2,…,Rt分别输入情感预测模型,从而得到情感状态。
在一更具体的实施例中,情感预测模型可以包括循环神经网络(RecurrentNeural Networks, RNN)、自注意力模型以及分类器。其中,RNN可以包括双向长短期记忆模型(Long Short-Term Memory,LSTM)等等。
(1)将融合数据(R1,R2,…,Rt)输入RNN计算得到循环结果h1,h2,…,ht。其中, RNN包括神经元1,神经元2至神经元t。以下为RNN中的神经元1,神经元2至神经元t 中的计算过程:
在神经元1中:
首先,根据语音帧I1中的融合数据R1以及初始输出值h0计算得到遗忘值f1:
然后,根据语音帧I1中的融合数据R1,初始输入值C0,初始输出值h0以及遗忘值f1计算 得到输入值C1:
最后,根据语音帧I1中的融合数据R1,初始输出值h0以及输入值C1,计算得到h1:
h1=o1tanh(C1)
在神经元2中:
首先,根据语音帧I2中的融合数据R2以及输出值h1计算得到遗忘值f2:
然后,根据语音帧I2中的融合数据R2,输入值C1,输出值h1以及遗忘值f2计算得到输入值C2:
最后,根据语音帧I2中的融合数据R2,输出值h1以及输入值C2计算得到h2:
h2=o11tanh(C2)
……;
在神经元t中:
首先,根据语音帧It中的融合数据Rt,以及输出值ht-1计算得到遗忘值ft:
然后,根据语音帧It中的融合数据Rt,输入值Ct-1,输出值ht-1以及遗忘值ft计算得到输 入值Ct:
最后,根据语音帧It中的融合数据Rt,输出值ht-1以及输入值Ct确定ht:
ht=ottanh(Ct)
这里,h1,h2,…,ht构成了循环神经网络的输出的循环结果。
可以理解,上述初始输入值C0,初始输出值h0可以是人工设置的,权值矩阵W1 f至Wt f, 权值矩阵W1 i至Wt i,权值矩阵W1 c至Wt c,偏置值至偏置值至偏置值至偏置值至均是通过大量已知循环神经网络的输出结果与已知融合数据R进行训练得到的。
(2)将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征,其中,D为情 感状态的总数量。其中,自注意力模型包括自注意力子模型以及全连接层。
将循环结果h1,h2,…,ht输入自注意力子模型,从而得到m个注意值A1,A2,…,Am:
在循环神经网络计算得到输出结果h1,h2,…,ht之后,自注意力模型根据循环神经网络的 输出结果(h1,h2,…,ht),计算得到m个注意值A1,A2,…,Am。下面将以注意值Aj为例说明 注意值是如何计算得到的,1≤j≤m:
其中,a1j,a2j,…,atj为第j组注意力权重,h1,h2,…,ht为循环神经网络的输出的循环结果。
将m个注意值A1,A2,…,Am输入全连接层,从而得到高维情感特征。
(3)将高维情感特征输入Softmax分类器,从而得到语音数据(包括t帧语音帧I1,I2,…, It)的属于各个情感状态state1,state2,…,stateD的概率。其中,D为情感状态的总数量。 上述例子中以softmax分类器为例进行说明,但是,在实际应用中,还可以采用logistic分类 器,此处不作具体限定。
由此,语音情感识别系统可以分别计算出语音数据属于各个情感状态的概率,并根据语 音数据属于各个情感状态的概率确定语音数据所属的情感状态。
可以理解,上述循环神经网络、自注意力模型以及分类器可以分别是三个不同的神经网 络,也可以集成在同一个神经网络中。当循环神经网络、自注意力模型以及分类器集成在同 一个神经网络时,循环神经网络、自注意力模型以及分类器可以分别是该神经网络中的不同 层。
参阅图7,图7是本申请提供的一种语音情感识别装置的结构示意图。本实施例的语音 情感识别装置,包括:获取模块110、声学特征识别模型120、音素识别模型130、确定模块 140、融合模块150以及情感状态识别模型160。
所述获取模块110用于获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…, It,t为正整数。
所述声学特征识别模型120用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根据人耳的生理特性提 取出来的数据。
所述音素识别模型130用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt。
所述确定模块140用于根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据 用于表示所述语音数据中的音素的特征。
所述融合模块150用于将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt。
所述情感状态识别模型160用于根据所述融合数据R1,R2,…,Rt确定所述语音数据的 情感状态。
为了陈述简便,本实施例并没有对语音数据、情感声学特征数据、音素数据、声学特征 识别模型、音素识别模型、融合数据、情感状态识别模型、情感状态的概念进行详细的介绍, 也没有对语音数据的获取方式、情感声学特征数据的提取方式、音素数据的提取方式、情感 声学特征数据和音素数据的融合方式、通过情感状态识别模型进行情感状态预测的方式以及 情感状态识别模型的训练方式进行详细的介绍,具体将参见图2至图6以及相关描述。
参阅图8,图8是本申请提供的一种识别设备的结构示意图。本实施例的识别设备包括: 一个或多个第一处理器210、传感器220、通信接口230、外部存储器240、第二处理器250 以及总线260。其中,第一处理器210、传感器220、通信接口230、外部存储器240以及第二处理器250之间可以通过总线260连接。
第一处理器210包括一个或者多个通用处理器,其中,通用处理器可以是能够处理电子 指令的任何类型的设备,包括中央处理器(Central Processing Unit,CPU)、微处理器、微控 制器、主处理器、控制器以及ASIC(Application Specific Integrated Circuit,专用集成电路) 等等。第一处理器210执行各种类型的数字存储指令,例如存储在存储器230中的软件或者 固件程序,它能使识别设备提供较宽的多种服务。例如,第一处理器210能够执行程序或者 处理数据,以执行本文讨论的方法的至少一部分。
传感器220可以包括音频采集装置,用于直接获取已有音频、利用音频处理软件捕获截 取声音、用音频输入装置(例如,麦克风)录制声音,并将音频转换为音频数据。
通信接口230可以为有线接口(例如以太网接口),用于与其他识别设备或用户进行通 信。
外部存储器240可以包括易失性存储器(Volatile Memory),例如随机存取存储器(Random Access Memory,RAM);存储器也可以包括非易失性存储器(Non-VolatileMemory),例如 只读存储器(Read-Only Memory,ROM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive,HDD)或固态硬盘(Solid-State Drive,SSD)存储器还可以包括上述种类的存储器的 组合。外部存储器240可以存储有程序代码以及程序数据。
其中,所述第一处理器210通过调用外部存储器240中的程序代码,用于执行以下步骤:
通过传感器220获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It,t为正整数;
通过第二处理器250将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语 音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为 根据人耳的生理特性提取出来的数据;
通过第二处理器250将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1, I2,…,It各自的所属的音素M1,M2,…,Mt;
通过第一处理器210并根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据 用于表示所述语音数据中的音素的特征;
通过第一处理器210将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…, Nt进行融合,从而得到融合数据R1,R2,…,Rt;
通过第二处理器250将所述融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定 所述语音数据的情感状态。
为了陈述简便,本实施例并没有对语音数据、情感声学特征数据、音素数据、声学特征 识别模型、音素识别模型、融合数据、情感状态识别模型、情感状态的概念进行详细的介绍, 也没有对语音数据的获取方式、情感声学特征数据的提取方式、音素数据的提取方式、情感 声学特征数据和音素数据的融合方式、通过情感状态识别模型进行情感状态预测的方式以及 情感状态识别模型的训练方式进行详细的介绍,具体将参见图2至图6以及相关描述。
参阅图9,图9是本申请提供的一种芯片硬件结构图。图8所示的第二处理器可以是图9 所示的芯片中实现,也可以说,图6所示的语音情感识别方法中的部分步骤可以在图9所示 的芯片中实现,图7所示的语音情感识别装置中的部分功能可以设置在图9所示的芯片中。 下面将以芯片为神经网络处理器NPU为例进行说明。NPU作为协处理器挂载到主CPU(Host CPU)上,由Host CPU分配任务。NPU的核心部分为运算电路,通过控制器304控制运算电路303提取存储器中的矩阵数据并进行乘法运算。
在一些实现中,运算电路303内部包括多个处理单元(Process Engine,PE)。在一些实 现中,运算电路303是二维脉动阵列。运算电路303还可以是一维脉动阵列或者能够执行例 如乘法和加法这样的数学运算的其它电子线路。在一些实现中,运算电路303是通用的矩阵 处理器。
举例来说,假设有输入矩阵A,权重矩阵B,输出矩阵C。运算电路从权重存储器302中取矩阵B相应的数据,并缓存在运算电路中每一个PE上。运算电路从输入存储器301中 取矩阵A数据与矩阵B进行矩阵运算,得到的矩阵的部分结果或最终结果,保存在累加器208accumulator中。
统一存储器306用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制 器305Direct Memory Access Controller,DMAC被搬运到权重存储器302中。输入数据也通 过DMAC被搬运到统一存储器306中。
BIU为Bus Interface Unit即,总线接口单元310,用于AXI总线与DMAC和取指存储器 509Instruction Fetch Buffer的交互。
总线接口单元310(Bus Interface Unit,简称BIU),用于取指存储器309从外部存储器 获取指令,还用于存储单元访问控制器305从外部存储器获取输入矩阵A或者权重矩阵B的 原数据。
DMAC主要用于将外部存储器DDR中的输入数据搬运到统一存储器306或将权重数据 搬运到权重存储器302中或将输入数据数据搬运到输入存储器301中。
向量计算单元307多个运算处理单元,在需要的情况下,对运算电路的输出做进一步处 理,如向量乘,向量加,指数运算,对数运算,大小比较等等。主要用于神经网络中非卷积 /FC层网络计算,如Pooling(池化),Batch Normalization(批归一化),Local ResponseNormalization(局部响应归一化)等。
在一些实现种,向量计算单元能307将经处理的输出的向量存储到统一缓存器306。例 如,向量计算单元307可以将非线性函数应用到运算电路303的输出,例如累加值的向量, 用以生成激活值。在一些实现中,向量计算单元307生成归一化的值、合并值,或二者均有。 在一些实现中,处理过的输出的向量能够用作到运算电路303的激活输入,例如用于在神经 网络中的后续层中的使用。
控制器304连接的取指存储器(instruction fetch buffer)309,用于存储控制器304使用 的指令;
统一存储器306,输入存储器301,权重存储器302以及取指存储器309均为On-Chip存 储器。外部存储器私有于该NPU硬件架构。
其中,图3和图4所示的音素识别模型以及情感状态识别模型中各层的运算可以由权重 存储器302或向量计算单元307执行。此外,声学特征识别模型中的各层的运算可以由权重 存储器302或向量计算单元307执行。
参见图10,图10是本申请提供的一种云系统的结构示意图。识别设备410由一个或多 个服务器实现,可选的,与其它计算设备配合,例如:数据存储、路由器、负载均衡器等设备;识别设备410可以布置在一个物理站点上,或者分布在多个物理站点上。识别设备410可以使用数据存储系统450中的数据,或者调用数据存储系统450中的程序代码实现图6所示的语音情感识别方法,具体地,识别设备410可以执行如下步骤:
识别设备410用于通过传感器获取语音数据,其中,所述语音数据包括t个语音帧I1, I2,…,It,t为正整数;
识别设备410用于通过第二处理器将语音帧I1,I2,…,It分别输入声学特征识别模型, 从而得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学 特征数据为根据人耳的生理特性提取出来的数据;
识别设备410用于通过第二处理器将语音帧I1,I2,…,It分别输入音素识别模型,从 而得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;
识别设备410用于通过第一处理器并根据所述语音帧I1,I2,…,It各自的所属的音素M1, M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中, 音素数据用于表示所述语音数据中的音素的特征;
识别设备410用于通过第一处理器将所述情感声学特征数据S1,S2,…,St和所述音素 数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;
识别设备410用于通过第二处理器将所述融合数据R1,R2,…,Rt输入情感状态识别模 型,从而确定所述语音数据的情感状态。
用户可以操作各自的用户设备(例如本地设备401和本地设备402)与识别设备410进 行交互。每个本地设备可以表示任何计算设备,例如个人计算机、计算机工作站、智能手机、 平板电脑、智能摄像头、智能汽车或其他类型蜂窝电话、媒体消费设备、可穿戴设备、机顶 盒、游戏机等。
每个用户的本地设备可以通过任何通信机制/通信标准的通信网络与识别设备410进行交 互,通信网络可以是广域网、局域网、点对点连接等方式,或它们的任意组合。
在另一种实现中,识别设备410的一个方面或多个方面可以由每个本地设备实现,例如, 本地设备401可以为识别设备410提供本地数据或反馈计算结果。
需要注意的,识别设备410的所有功能也可以由本地设备实现。例如,本地设备401实 现识别设备410的的功能并为自己的用户提供服务,或者为本地设备402的用户提供服务。
为了陈述简便,本实施例并没有对语音数据、情感声学特征数据、音素数据、声学特征 识别模型、音素识别模型、融合数据、情感状态识别模型、情感状态的概念进行详细的介绍, 也没有对语音数据的获取方式、情感声学特征数据的提取方式、音素数据的提取方式、情感 声学特征数据和音素数据的融合方式、通过情感状态识别模型进行情感状态预测的方式以及 情感状态识别模型的训练方式进行详细的介绍,具体将参见图2至图6以及相关描述。
参阅图11,图11是本申请提供的一种情感状态识别模型的训练方法的流程示意图。本 实施方式的情感状态识别模型的训练方法,包括如下步骤:
S201:获取训练数据,其中,所述训练数据包括p个训练语音帧train1,train2,…,trainp,p为正整数;
S202:将训练语音帧train1,train2,…,trainp分别输入声学特征识别模型,从而得 到语音帧训练语音帧trai1n,train2,…,trainp各自的情感声学特征数据featur1e,feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
S203:获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1, phoneme2,…,phonemep;
S204:根据所述训练语音帧train1,train2,…,trainp各自的所属的音素phoneme1, phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素 数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特征;
S205将所述情感声学特征数据feature1,feature2,…,featurep和所述音素数据data1, data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
S206:获取所述训练数据的情感状态;
S207:通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状态识别模型 进行训练。
可以理解,图11所示的训练中的步骤S201至步骤S205的执行过程与图6中的语音情感 识别方法中的步骤S101至步骤S105的执行过程相类似,具体请参见图6以及相关描述,此 处不再展开描述。
参阅图12,图12是本申请提供的一种训练设备的结构示意图。本实施方式的训练设备 包括:获取模块501、声学特征识别模型502、确定模块503、融合模块504以及训练模块505,
所述获取模块501用于获取训练数据,其中,所述训练数据包括p个训练语音帧train1, train2,…,trainp,p为正整数;
所述声学特征识别模型502用于将训练语音帧train1,train2,…,trainp分别输入声 学特征识别模型,从而得到语音帧训练语音帧train1,train2,…,trainp各自的情感声学 特征数据feature1,feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性 提取出来的数据;
所述获取模块501用于获取语音帧训练语音帧train1,train2,…,trainp各自所属的 音素phoneme1,phoneme2,…,phonemep;
所述确定模块503用于根据所述训练语音帧train1,train2,…,trainp各自的所属的 音素phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特征;
所述融合模块504用于将所述情感声学特征数据feature1,feature2,…,featurep和所述 音素数据data1,data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
所述获取模块501用于获取所述训练数据的情感状态;
所述训练模块505用于通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情 感状态识别模型进行训练。
参阅图13,图13是本申请提供的一种系统架构的结构示意图。数据采集设备606用于 采集训练数据和情感状态并存入数据库603,训练设备602基于数据库603中维护的训练数 据和情感状态生成目标模型/规则601。下面将更详细地描述训练设备602如何基于训练语音 数据数据得到目标模型/规则601,目标模型/规则601能够对语音数据进行预测,从而确定所 述语音数据的情感状态。具体地,
训练设备602从数据库603获取训练数据,其中,所述训练数据包括p个训练语音帧train1, train2,…,trainp,p为正整数;
训练设备602将训练语音帧train1,train2,…,trainp分别输入声学特征识别模型610, 从而得到语音帧训练语音帧train1,train2,…,trainp各自的情感声学特征数据feature1, feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
训练设备602获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1,phoneme2,…,phonemep。在一具体的实施例中,训练设备602可以通过音素 识别模型611对训练语音帧train1,train2,…,trainp进行识别,从而确定各自所属的音 素phoneme1,phoneme2,…,phonemep。在另一具体的实施例中,语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1,phoneme2,…,phonemep也可以是人工 输入的。
训练设备602根据所述训练语音帧train1,train2,…,trainp各自的所属的音素phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特 征;
训练设备602将所述情感声学特征数据feature1,feature2,…,featurep和所述音素数据 data1,data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
训练设备602获取所述训练数据的情感状态;
训练设备602通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状态识 别模型进行训练,从而生成目标模型/规则601。
在训练时,因为希望情感状态识别模型的输出尽可能的接近真正想要预测的值,所以可 以通过比较当前情感状态识别模型的预测值和真正想要的目标值,再根据两者之间的差异情 况来更新情感状态识别模型中每一层神经网络的权重向量(当然,在第一次更新之前通常会 有初始化的过程,即为情感状态识别模型中的各层预先配置参数),比如,如果情感状态识 别模型的预测值高了,就调整权重向量让它预测低一些,不断的调整,直到情感状态识别模 型能够预测出真正想要的目标值。因此,就需要预先定义“如何比较预测值和目标值之间的 差异”,这便是损失函数(loss function)或目标函数(objectivefunction),它们是用于衡量 预测值和目标值的差异的重要方程。其中,以损失函数举例,损失函数的输出值(loss)越高 表示差异越大,那么情感状态识别模型的训练就变成了尽可能缩小这个loss的过程。
训练设备602得到的目标模型/规则可以应用不同的系统或设备中。在图13中,执行设 备601配置有I/O接口607,与外部设备进行数据交互,“用户”可以通过客户设备604向I/O 接口607输入数据。
执行设备601可以调用数据存储系统605中的数据、代码等,也可以将数据、指令等存 入数据存储系统605中。
计算模块608使用目标模型/规则601对输入的融合数据进行处理,从而得到该融合数据 对应的情感状态。
最后,I/O接口607将处理结果返回给客户设备604,提供给用户。
更深层地,训练设备602可以针对不同的目标,基于不同的数据生成相应的目标模型/规 则601,以给用户提供更佳的结果。
在图13中所示情况下,用户可以手动指定输入执行设备601中的数据,例如,在I/O接 口607提供的界面中操作。另一种情况下,客户设备604可以自动地向I/O接口607输入数据并获得结果,如果客户设备604自动输入数据需要获得用户的授权,用户可以在客户设备240中设置相应权限。用户可以在客户设备604查看执行设备601输出的结果,具体的呈现形式可以是显示、声音、动作等具体方式。客户设备604也可以作为数据采集端将采集到的训练数据存入数据库603。
值得注意的,图13仅是本发明实施例提供的一种系统架构的示意图,图中所示设备、器 件、模块等之间的位置关系不构成任何限制,例如,在图13中,数据存储系统605相对执行 设备601是外部存储器,在其它情况下,也可以将数据存储系统605置于执行设备601中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当 使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包 括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产 生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算 机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从 一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从 一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线) 或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进 行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或 多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例 如,软盘、存储盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。
Claims (18)
1.一种语音情感识别方法,其特征在于,包括:
获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It,t为正整数;
将语音帧I1,I2,…,It分别输入声学特征识别模型,从而得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
将语音帧I1,I2,…,It分别输入音素识别模型,从而得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;
根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据用于表示所述语音数据中的音素的特征;
将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;
将所述融合数据R1,R2,…,Rt输入情感状态识别模型,从而确定所述语音数据的情感状态。
2.根据权利要求1所述的方法,其特征在于,将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt,包括:
以向量拼接的方式,将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合从而得到融合数据R1,R2,…,Rt。
3.根据权利要求2所述的方法,其特征在于,以以下的向量拼接的方式将情感声学特征数据Si和音素数据Ni进行数据融合,从而得到融合数据Ri,其中,1≤i≤t,并且,i为整数:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算得到的音素数据。
4.根据权利要求3所述的方法,其特征在于,音素数据Ni可以表示为:
(pi,xi,yi),
其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的音素类型,yi用于表示第i帧语音帧的音素时长,音素概率为语音帧属于各个音素的概率组成的数据,音素类型包括元音类型、辅音类型以及静音类型,音素时长为同一音素的持续时长。
5.根据权利要求1至4任一权利要求所述的方法,其特征在于,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt,state为情感状态,Emoforecast()为融合数据R与情感状态state的映射关系。
6.根据权利要求5所述的方法,其特征在于,情感预测模型包括循环神经网络RNN、自注意力模型以及分类器,所述方法包括:
将融合数据R1,R2,…,Rt输入RNN,从而得到循环结果h1,h2,…,ht;
将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征;
将高维情感特征输入分类器,从而确定所述语音数据的情感状态。
7.根据权利要求6所述的方法,其特征在于,所述RNN、所述自注意力模型以及所述分类器集成在同一个神经网络,并且,所述RNN、所述自注意力模型以及所述分类器可以分别是所述神经网络中的不同层。
8.一种情感状态识别模型的训练方法,其特征在于,包括:
获取训练数据,其中,所述训练数据包括p个训练语音帧train1,train2,…,trainp,p为正整数;
将训练语音帧train1,train2,…,trainp分别输入声学特征识别模型,从而得到语音帧训练语音帧train1,train2,…,trainp各自的情感声学特征数据feature1,feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1,phoneme2,…,phonemep;
根据所述训练语音帧train1,train2,…,trainp各自的所属的音素phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特征;
将所述情感声学特征数据feature1,feature2,…,featurep和所述音素数据data1,data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
获取所述训练数据的情感状态;
通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状态识别模型进行训练。
9.一种语音情感识别装置,其特征在于,包括:获取模块、声学特征识别模型、音素识别模型、确定模块、融合模块以及情感状态识别模型;
所述获取模块用于获取语音数据,其中,所述语音数据包括t个语音帧I1,I2,…,It,t为正整数;
所述声学特征识别模型用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的情感声学特征数据S1,S2,…,St,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
所述音素识别模型用于根据语音帧I1,I2,…,It得到语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt;
所述确定模块用于根据所述语音帧I1,I2,…,It各自的所属的音素M1,M2,…,Mt,确定所述语音帧I1,I2,…,It各自的音素数据N1,N2,…,Nt,其中,音素数据用于表示所述语音数据中的音素的特征;
所述融合模块用于将所述情感声学特征数据S1,S2,…,St和所述音素数据N1,N2,…,Nt进行融合,从而得到融合数据R1,R2,…,Rt;
所述情感状态识别模型用于根据所述融合数据R1,R2,…,Rt确定所述语音数据的情感状态。
10.根据权利要求9所述的装置,其特征在于,所述融合模块用于以向量拼接的方式,将情感声学特征数据S1,S2,…,St和音素数据N1,N2,…,Nt进行融合从而得到融合数据R1,R2,…,Rt。
11.根据权利要求10所述的装置,其特征在于,所述融合模块用于以以下的向量拼接的方式将情感声学特征数据Si和音素数据Ni进行数据融合,从而得到融合数据Ri,其中,1≤i≤t,并且,i为整数:
Ri=Si+Ni;
其中,Si为从第i帧语音帧提取得到的情感声学特征数据,Ni为根据第i帧语音帧计算得到的音素数据。
12.根据权利要求11所述的装置,其特征在于,音素数据Ni可以表示为:
(pi,xi,yi),
其中,i为自然数,0<i≤t,pi为第i帧语音帧的音素概率,xi用于表示第i帧语音帧的音素类型,yi用于表示第i帧语音帧的音素时长,音素概率为语音帧属于各个音素的概率组成的数据,音素类型包括元音类型、辅音类型以及静音类型,音素时长为同一音素的持续时长。
13.根据权利要求9至12任一权利要求所述的装置,其特征在于,情感预测模型可以表示为:
State=Emoforecast(R)
其中,R为融合数据,R包括R1,R2,…,Rt,state为情感状态,Emoforecast()为融合数据R与情感状态state的映射关系。
14.根据权利要求13所述的装置,其特征在于,情感预测模型包括循环神经网络RNN、自注意力模型以及分类器,所述方法包括:
将融合数据R1,R2,…,Rt输入RNN,从而得到循环结果h1,h2,…,ht;
将循环结果h1,h2,…,ht输入自注意力模型,从而得到高维情感特征;
将高维情感特征输入分类器,从而确定所述语音数据的情感状态。
15.根据权利要求14所述的装置,其特征在于,所述RNN、所述自注意力模型以及所述分类器集成在同一个神经网络,并且,所述RNN、所述自注意力模型以及所述分类器可以分别是所述神经网络中的不同层。
16.一种训练设备,其特征在于,包括:获取模块、声学特征识别模型、确定模块、融合模块以及训练模块,
所述获取模块用于获取训练数据,其中,所述训练数据包括p个训练语音帧train1,train2,…,trainp,p为正整数;
所述声学特征识别模型用于将训练语音帧train1,train2,…,trainp分别输入声学特征识别模型,从而得到语音帧训练语音帧train1,train2,…,trainp各自的情感声学特征数据feature1,feature2,…,featurep,其中,情感声学特征数据为根据人耳的生理特性提取出来的数据;
所述获取模块用于获取语音帧训练语音帧train1,train2,…,trainp各自所属的音素phoneme1,phoneme2,…,phonemep;
所述确定模块用于根据所述训练语音帧train1,train2,…,trainp各自的所属的音素phoneme1,phoneme2,…,phonemep,确定所述训练语音帧train1,train2,…,trainp各自的音素数据data1,data2,…,datap,其中,音素数据用于表示训练数据中的音素的特征;
所述融合模块用于将所述情感声学特征数据feature1,feature2,…,featurep和所述音素数据data1,data2,…,datap进行融合,从而得到融合数据fuse1,fuse2,…,fusep;
所述获取模块用于获取所述训练数据的情感状态;
所述训练模块用于通过所述融合数据fuse1,fuse2,…,fusep和所述情感状态对情感状态识别模型进行训练。
17.一种识别设备,其特征在于,包括:处理器和存储器,所述处理器执行所述存储器中的代码执行如权利要求1至8任一权利要求所述的方法。
18.一种计算机可读存储介质,其特征在于,包括指令,当所述指令在计算机上运行时,使得所述计算机执行如权利要求1至8任一权利要求所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631571.8A CN112216307B (zh) | 2019-07-12 | 2019-07-12 | 语音情感识别方法以及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910631571.8A CN112216307B (zh) | 2019-07-12 | 2019-07-12 | 语音情感识别方法以及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112216307A true CN112216307A (zh) | 2021-01-12 |
CN112216307B CN112216307B (zh) | 2023-05-16 |
Family
ID=74047893
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910631571.8A Active CN112216307B (zh) | 2019-07-12 | 2019-07-12 | 语音情感识别方法以及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112216307B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
CN113334397A (zh) * | 2021-04-30 | 2021-09-03 | 北京智能工场科技有限公司 | 一种情绪识别的实体机器人装置 |
CN113724697A (zh) * | 2021-08-27 | 2021-11-30 | 北京百度网讯科技有限公司 | 模型生成方法、情绪识别方法、装置、设备及存储介质 |
CN114360500A (zh) * | 2021-09-14 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置、电子设备及存储介质 |
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
WO2022227507A1 (zh) * | 2021-04-27 | 2022-11-03 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
US11630999B2 (en) * | 2019-12-19 | 2023-04-18 | Dish Network Technologies India Private Limited | Method and system for analyzing customer calls by implementing a machine learning model to identify emotions |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
JP2018146803A (ja) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | 音声合成装置及びプログラム |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
-
2019
- 2019-07-12 CN CN201910631571.8A patent/CN112216307B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018146803A (ja) * | 2017-03-06 | 2018-09-20 | 日本放送協会 | 音声合成装置及びプログラム |
CN108460009A (zh) * | 2017-12-14 | 2018-08-28 | 中山大学 | 嵌入情感词典的注意力机制循环神经网络文本情感分析法 |
CN108806667A (zh) * | 2018-05-29 | 2018-11-13 | 重庆大学 | 基于神经网络的语音与情绪的同步识别方法 |
CN108877801A (zh) * | 2018-06-14 | 2018-11-23 | 南京云思创智信息科技有限公司 | 基于多模态情绪识别系统的多轮对话语义理解子系统 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11630999B2 (en) * | 2019-12-19 | 2023-04-18 | Dish Network Technologies India Private Limited | Method and system for analyzing customer calls by implementing a machine learning model to identify emotions |
CN113096642A (zh) * | 2021-03-31 | 2021-07-09 | 南京地平线机器人技术有限公司 | 语音识别方法和装置、计算机可读存储介质、电子设备 |
WO2022227507A1 (zh) * | 2021-04-27 | 2022-11-03 | 深圳市优必选科技股份有限公司 | 唤醒程度识别模型训练方法及语音唤醒程度获取方法 |
CN113334397A (zh) * | 2021-04-30 | 2021-09-03 | 北京智能工场科技有限公司 | 一种情绪识别的实体机器人装置 |
CN113724697A (zh) * | 2021-08-27 | 2021-11-30 | 北京百度网讯科技有限公司 | 模型生成方法、情绪识别方法、装置、设备及存储介质 |
CN114360500A (zh) * | 2021-09-14 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 语音识别方法和装置、电子设备及存储介质 |
CN114566189A (zh) * | 2022-04-28 | 2022-05-31 | 之江实验室 | 基于三维深度特征融合的语音情感识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112216307B (zh) | 2023-05-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112216307B (zh) | 语音情感识别方法以及装置 | |
CN112348075B (zh) | 一种基于情景注意力神经网络的多模态情感识别方法 | |
CN111312245B (zh) | 一种语音应答方法、装置和存储介质 | |
CN111368993B (zh) | 一种数据处理方法及相关设备 | |
JP6951712B2 (ja) | 対話装置、対話システム、対話方法、およびプログラム | |
Tan et al. | The artificial intelligence renaissance: deep learning and the road to human-level machine intelligence | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN112883149B (zh) | 一种自然语言处理方法以及装置 | |
CN112818861A (zh) | 一种基于多模态上下文语义特征的情感分类方法及系统 | |
CN107972028A (zh) | 人机交互方法、装置及电子设备 | |
CN114676234A (zh) | 一种模型训练方法及相关设备 | |
CN110795549B (zh) | 短文本对话方法、装置、设备及存储介质 | |
KR20210052036A (ko) | 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법 | |
CN115631267A (zh) | 生成动画的方法及装置 | |
Verkholyak et al. | Modeling short-term and long-term dependencies of the speech signal for paralinguistic emotion classification | |
CN110751260A (zh) | 电子设备、任务处理的方法以及训练神经网络的方法 | |
CN114724224A (zh) | 一种用于医疗护理机器人的多模态情感识别方法 | |
CN111862952A (zh) | 一种去混响模型训练方法及装置 | |
CN115937369A (zh) | 一种表情动画生成方法、系统、电子设备及存储介质 | |
KR20210079061A (ko) | 정보 처리 방법 및 정보 처리 장치 | |
KR20230120790A (ko) | 가변적 언어모델을 이용한 음성인식 헬스케어 서비스 | |
CN115879524A (zh) | 一种模型训练方法及其相关设备 | |
CN113792537A (zh) | 一种动作生成方法以及装置 | |
KR20210078122A (ko) | 정보 처리 방법 및 정보 처리 장치 | |
CN117877125B (zh) | 动作识别及其模型训练方法、装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |