CN108806667B - 基于神经网络的语音与情绪的同步识别方法 - Google Patents

基于神经网络的语音与情绪的同步识别方法 Download PDF

Info

Publication number
CN108806667B
CN108806667B CN201810533830.9A CN201810533830A CN108806667B CN 108806667 B CN108806667 B CN 108806667B CN 201810533830 A CN201810533830 A CN 201810533830A CN 108806667 B CN108806667 B CN 108806667B
Authority
CN
China
Prior art keywords
voice
training
emotion
neural network
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810533830.9A
Other languages
English (en)
Other versions
CN108806667A (zh
Inventor
仲元红
樊涛
吴雪松
毛薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seven Teng Robot Co ltd
Original Assignee
Chongqing University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chongqing University filed Critical Chongqing University
Priority to CN201810533830.9A priority Critical patent/CN108806667B/zh
Publication of CN108806667A publication Critical patent/CN108806667A/zh
Application granted granted Critical
Publication of CN108806667B publication Critical patent/CN108806667B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于神经网络的语音与情绪的同步识别方法,步骤1:建立语音特征训练样本集;步骤2:建立同步识别模型,卷积神经网络的输出端分别连接有语音识别模型与情绪识别模块;步骤3:利用语音特征训练样本集、语音代价函数与情绪代价函数对语音识别模型与情绪识别模型迭代交替训练,代价函数反向传递以交替更新卷积神经网络的权值,从而使得卷积神经网络用于语言特征提取的权值能够同时适用于语音识别与情绪识别;步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。本发明能够对语音信号进行语音和情绪的同步识别,系统复杂度低,提高识别效率,能够通过同步识别的方式提高语音识别与情绪识别的准确性。

Description

基于神经网络的语音与情绪的同步识别方法
技术领域
本发明涉及音频数据处理领域,尤其涉及一种能够同时识别音频数据中的语音与情绪的方法。
背景技术
语音识别技术是指将语音信号转变为相应的文本或命令的技术。早期语音识别是建立在声学模型和语言模型以及解码的基础上,训练时需要同时训练声学模型和语言模型,因此在识别时要综合声学模型和语言模型的得分得到的标签,还要进行解码才是识别的结果。这种方式存在着模型复杂,模型的通用性不高,准确度较低以及实时性较差的缺点。另外,语音信号中除包含义能转化成文本信息的语义信息外,还包括了说话者的情绪,大多数情况下,说话内容相同,但是情绪不同,说话者的状态会大相径庭。
目前电话客服系统主要采用对电话进行录音存档,这种方式有着存储量大,不便查找的问题,同时人工打分对服务过程评价存在着恶意评分的问题。通过对音频的转换,以文字的方式进行储存,不仅减少了空间的占用,也为方便对特殊内容进行检索。从语音中挖掘出说话人的情绪,对情绪或者情绪的变化进行分析,便可以得出客户对服务的满意程度,可以省去评价的环节,对客服的服务态度做出客观的评价。
此外,随着语音交互设备在车载系统的普及,语音情绪识别功能也开始用于监控情绪、保障驾驶安全。研究发现,积极的情绪可以促使驾驶者更好地驾驶,减少危险驾驶的行为。当驾驶者处于情绪不稳定的状态时,系统可以给予提醒,或者自动调节驾驶参数以防止事故的发生;系统也可以根据驾驶者的情绪提供关怀式的语音,提高驾驶体验。
不仅如此,语音识别与情绪识别的结合还可应用于此外,随着医疗技术和语音分析技术的进步,通过声音诊断病情也将成为可能,通过患者的特定语音特征,辅助医生诊断抑郁症等心理疾病。
因此,在语音识别的同时进行情绪识别,对提高各个领域的智能化水平具有重要意义。但是,目前语音识别和情绪识别是独立进行的,并且未考虑到语音和情绪之间的相互关性,还未对语音识别和情绪识别进行良好的融合。
发明内容
针对上述现有技术的不足,本发明提供一种基于神经网络的语音与情绪的同步识别方法,解决现有技术中语音识别和情绪识别独立进行不能同步识别语音和情绪的技术问题,能够对语音信号进行语音和情绪的同步识别,提高识别效率,还能够通过同步识别的方式提高语音识别与情绪识别的准确性。
为了解决上述技术问题,本发明采用了如下的技术方案:一种基于神经网络的语音与情绪的同步识别方法,包括以下步骤:
步骤1:建立语音特征训练样本集,语音特征训练样本集中包含若干语音特征输入矩阵,每个语音特征输入矩阵均对应有音素特征理论输出矩阵Fx和情绪特征理论输出矩阵Fy,其中,Fx={x1,...xi,...,xn},xi表示音素特征理论输出矩阵Fx中的第i个音素特征理论输出向量,每个音素特征理论输出向量均对应有音素标签;Fy={y1,...yj,...,ym},yj表示情绪特征理论输出矩阵Fy中的第j个情绪特征理论输出向量,每个情绪特征理论输出向量均对应有情绪标签;
步骤2:建立同步识别模型,所述同步识别模型包括用于对输入的语音特征矩阵进行降维与降噪处理的卷积神经网络,所述卷积神经网络的输出端分别连接有语音识别模型与情绪识别模型;
步骤3:采用语音特征训练样本集以及代价函数对同步识别模型进行训练,所述代价函数包括用于训练语音识别模型的语音代价函数L(θ)1以及用于训练情绪识别模型的情绪代价函数L(θ)2;对语音识别模型与情绪识别模型迭代交替训练,从而使得卷积神经网络用于语言特征提取的权值能够交替更新;每利用语音代价函数L(θ)1训练一次语音识别模型后,则将语音代价函数L(θ)1的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于语音特征提取的权值;每利用情绪代价函数L(θ)2训练一次情绪识别模型后,则将情绪代价函数L(θ)2的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;训练完成后,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别;
步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。
优选的,交替训练按如下步骤进行:
步骤301:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;
步骤302:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第t次训练的语音代价函数
Figure BDA0001677170630000031
的值,将语音代价函数
Figure BDA0001677170630000032
的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音识别模型与卷积神经网络用于特征提取的权值;
步骤303:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数
Figure BDA0001677170630000033
的值,将情绪代价函数
Figure BDA0001677170630000034
的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;
步骤304:根据预先设定的语音代价函数的期望值判断语音代价函数
Figure BDA0001677170630000035
的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数
Figure BDA0001677170630000036
是否收敛;
若不能同时收敛,则令t=t+2,并回到步骤302;
若同时满足收敛,则在语音识别模型中保存以语音代价函数
Figure BDA0001677170630000037
的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数
Figure BDA0001677170630000041
的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数
Figure BDA0001677170630000042
的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。
优选的,所述语音识别模型包括能够从语音特征矩阵中提取音素特征矩阵的语音识别深度特征提取神经网络以及用于根据音素标签将音素特征矩阵转化文本的CTC时序分类模块;所述情绪识别模型包括能够从语音特征矩阵中提取情绪特征矩阵并能输出对应情绪标签的情绪识别深度特征提取神经网络。
优选的,所述语音识别深度特征提取神经网络包括第一双向LSTM循环神经网络,第一双向LSTM循环神经网络的输入端与卷积神经网络的输出端连接;所述情绪识别深度特征提取神经网络包括第二双向LSTM循环神经网络,第二双向LSTM循环神经网络的输入端与卷积神经网络的输出连接。
优选的,所述语音识别深度特征提取神经网络还包括第一DNN深度神经网络,第一DNN深度神经网络的输入端、输出端分别与第一双向LSTM循环神经网络输出端、CTC时序分类模块输入端连接;所述情绪识别深度特征提取神经网络还包括第二DNN深度神经网络,第二DNN深度神经网络的输入端与第二双向LSTM循环神经网络输出端连接。
优选的,在训练阶段语音识别模型的音素特征训练输出矩阵为
Figure BDA0001677170630000043
Figure BDA0001677170630000044
Figure BDA0001677170630000045
表示音素特征训练输出矩阵
Figure BDA0001677170630000046
中的第i个音素特征训练输出向量;在训练阶段情绪识别模型的情绪特征训练输出矩阵为
Figure BDA0001677170630000047
Figure BDA0001677170630000048
Figure BDA0001677170630000049
表示情绪特征训练输出矩阵
Figure BDA00016771706300000410
中的第j个情绪特征训练输出向量;
语音代价函数L(θ)1的计算公式为:
Figure BDA00016771706300000411
其中,
Figure BDA00016771706300000412
为交叉熵:
Figure BDA00016771706300000413
Figure BDA0001677170630000051
为方差:
Figure BDA0001677170630000052
R(θ)为防止训练过程中出现过拟合的正则项,λ1为权重系数;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure BDA0001677170630000053
其中,
Figure BDA0001677170630000054
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure BDA0001677170630000055
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
情绪代价函数L(θ)2的计算公式为:
Figure BDA0001677170630000056
其中,其中,
Figure BDA0001677170630000057
为交叉熵:
Figure BDA0001677170630000058
Figure BDA0001677170630000059
为方差:
Figure BDA00016771706300000510
R(θ)为防止训练过程中出现过拟合的正则项;
c2为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure BDA00016771706300000511
其中,
Figure BDA00016771706300000512
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure BDA00016771706300000513
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差。
优选的,语音识别模型与情绪识别模型双向通信连接,使得在训练阶段语音识别模型能将音素特征训练输出矩阵
Figure BDA00016771706300000514
发送给情绪识别模型,并且情绪识别模型能够将情绪特征训练输出矩阵
Figure BDA00016771706300000515
发送给语音识别模型;其中,
Figure BDA00016771706300000516
Figure BDA00016771706300000517
表示音素特征训练输出矩阵
Figure BDA00016771706300000518
中的第i个音素特征训练输出向量;
Figure BDA00016771706300000519
Figure BDA00016771706300000520
表示情绪特征训练输出矩阵
Figure BDA00016771706300000521
中的第j个情绪特征训练输出向量。
优选的,语音代价函数L(θ)1的计算公式为:
Figure BDA0001677170630000061
其中,
Figure BDA0001677170630000062
为交叉熵:
Figure BDA0001677170630000063
Figure BDA0001677170630000064
为方差:
Figure BDA0001677170630000065
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure BDA0001677170630000066
其中,
Figure BDA0001677170630000067
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure BDA0001677170630000068
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure BDA0001677170630000069
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure BDA00016771706300000610
MVx为音素特征训练输出向量的均值方差矩阵:
Figure BDA00016771706300000611
MVy为情绪特征训练输出向量的均值方差矩阵;
情绪代价函数L(θ)2的计算公式为:
Figure BDA00016771706300000612
其中,
Figure BDA00016771706300000613
为交叉熵:
Figure BDA00016771706300000614
Figure BDA00016771706300000615
为方差:
Figure BDA00016771706300000616
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c2为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure BDA0001677170630000071
其中,
Figure BDA0001677170630000072
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure BDA0001677170630000073
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure BDA0001677170630000074
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure BDA0001677170630000075
MVx为音素特征训练输出向量的均值方差矩阵:
Figure BDA0001677170630000076
MVy为情绪特征训练输出向量的均值方差矩阵。
与现有技术相比,本发明具有以下有益效果:
1、同步识别模型中语音识别模型与情绪识别模型共用同一卷积神经网络对语音特征矩阵进行降维与降噪处理,简化了同步识别模型的结构,大大降低了数据处理量,并且在输入层保证了语音识别与情绪识别的同步性;对同步识别模型进行交替训练,使得语音识别模型与情绪识别模型共用的卷积神经网络的用于语音特征提取的权值能同时适用于语音识别与情绪识别。
2、音素特征深度根据网络根据卷积神经网络提取出的语音特征矩阵进一不提取语音识别需要的音素特征矩阵,情绪识别深度特征提取神经网络根据网络根据卷积神经网络提取出的情绪特征矩阵。
3、语音识别模型与情绪识别模型双向通信连接还进行双向通信连接,使得语音识别结果与情绪识别结果能够相互影响:分别交换音素特征训练输出向量与情绪特征训练输出向量,从而计算语音代价函数与情绪代价函数,获得能够将音素识别与情绪识别相互关联用于语音特征提取的权值。
4、由于本发明在训练完成后所获得的用于语音特征提取的权值是情绪与音素相互影响的结果,因此在利用本发明的同步识别模型进行语音与情绪的同步识别时,虽然语音识别与情绪识别独立并行进行,但是语音识别模型与情绪识别模型中用于语音特征提取的权值是同时考虑情绪与语音的相互影响的,因此,不仅能通过独立并行识别提高识别效率和实时性,还能在用于语音特征提取的权值作用下,分别提高语音识别与情绪识别的准确性。
附图说明
图1是具体实施方式1中同步识别模型训练过程的原理框图;
图2是具体实施方式1中基于神经网络的语音与情绪的同步识别方法的总体流程图;
图3是具体实施方式1中利用训练完成后的同步识别模型识别语音信号的流程图;
图4是具体实施方式2中同步识别模型训练过程的原理框图。
具体实施方式
下面结合附图和优选实施方式对本发明作进一步的详细说明。
具体实施方式1
一种基于神经网络的语音与情绪的同步识别方法,如图2所示,包括以下步骤:
步骤1:建立语音特征训练样本集,语音特征训练样本集中包含若干语音特征输入矩阵,每个语音特征输入矩阵均对应有音素特征理论输出矩阵Fx和情绪特征理论输出矩阵Fy,其中,Fx={x1,...xi,...,xn},xi表示音素特征理论输出矩阵Fx中的第i个音素特征理论输出向量,每个音素特征理论输出向量均对应有音素标签;Fy={y1,...yj,...,ym},yj表示情绪特征理论输出矩阵Fy中的第j个情绪特征理论输出向量,每个情绪特征理论输出向量均对应有情绪标签;
步骤2:建立同步识别模型,所述同步识别模型包括用于对输入的语音特征矩阵进行降维与降噪处理的卷积神经网络,所述语音特征矩阵由若干语音特征向量组成,所述卷积神经网络的输出端分别连接有语音识别模型与情绪识别模型;
步骤3:采用语音特征训练样本集以及代价函数对同步识别模型进行训练,所述代价函数包括用于训练语音识别模型的语音代价函数L(θ)1以及用于训练情绪识别模型的情绪代价函数L(θ)2;如图1所示,对语音识别模型与情绪识别模型迭代交替训练,从而使得卷积神经网络用于语言特征提取的权值能够交替更新;每利用语音代价函数L(θ)1训练一次语音识别模型后,则将语音代价函数L(θ)1的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于语音特征提取的权值;每利用情绪代价函数L(θ)2训练一次情绪识别模型后,则将情绪代价函数L(θ)2的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;训练完成后,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别;
步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。
本具体实施方式中交替训练按如下步骤进行:
步骤301:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;
步骤302:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第t次训练的语音代价函数
Figure BDA0001677170630000091
的值,将语音代价函数
Figure BDA0001677170630000092
的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音识别模型与卷积神经网络用于特征提取的权值;
步骤303:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数
Figure BDA0001677170630000093
的值,将情绪代价函数
Figure BDA0001677170630000094
的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;在更新卷积神经网络的权值时,可以利用情绪代价函数或语音代价函数中的正则项,得到一个稀疏权值矩阵,进而可以用于语音特征提取。
步骤304:根据预先设定的语音代价函数的期望值判断语音代价函数
Figure BDA0001677170630000101
的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数
Figure BDA0001677170630000102
是否收敛;
若不能同时收敛,则令t=t+2,并回到步骤302;
若同时满足收敛,则在语音识别模型中保存以语音代价函数
Figure BDA0001677170630000103
的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数
Figure BDA0001677170630000104
的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数
Figure BDA0001677170630000105
的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。
由于语音识别模型与情绪识别模型是交替进行训练的,避免了语音识别模型训练完成后,再来训练情绪识别模型,造成卷积神经网络中用于语音特征提取的权值变化剧烈,然而通过交替训练的方式,卷积神经网络中用于语音特征提取的权值是通过微小的变化来累积进行更新的,因此,交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。
本具体实施方式中,所述语音识别模型包括能够从语音特征矩阵中提取音素特征矩阵的语音识别深度特征提取神经网络以及用于根据音素标签将音素特征矩阵转化文本的CTC时序分类模块;所述情绪识别模型包括能够从语音特征矩阵中提取情绪特征矩阵并能输出对应情绪标签的情绪识别深度特征提取神经网络。
本具体实施方式中,所述语音识别深度特征提取神经网络包括第一双向LSTM循环神经网络,第一双向LSTM循环神经网络的输入端与卷积神经网络的输出端连接;所述情绪识别深度特征提取神经网络包括第二双向LSTM循环神经网络,第二双向LSTM循环神经网络的输入端与卷积神经网络的输出连接。
本具体实施方式中,所述语音识别深度特征提取神经网络还包括第一DNN深度神经网络,第一DNN深度神经网络的输入端、输出端分别与第一双向LSTM循环神经网络输出端、CTC时序分类模块输入端连接;所述情绪识别深度特征提取神经网络还包括第二DNN深度神经网络,第二DNN深度神经网络的输入端与第二双向LSTM循环神经网络输出端连接。
本具体实施方式中,在训练阶段语音识别模型的音素特征训练输出矩阵为
Figure BDA0001677170630000111
Figure BDA0001677170630000112
Figure BDA0001677170630000113
表示音素特征训练输出矩阵
Figure BDA0001677170630000114
中的第i个音素特征训练输出向量;在训练阶段情绪识别模型的情绪特征训练输出矩阵为
Figure BDA0001677170630000115
Figure BDA0001677170630000116
Figure BDA0001677170630000117
表示情绪特征训练输出矩阵
Figure BDA0001677170630000118
中的第j个情绪特征训练输出向量;
语音代价函数L(θ)1的计算公式为:
Figure BDA0001677170630000119
其中,
Figure BDA00016771706300001110
为交叉熵:
Figure BDA00016771706300001111
Figure BDA00016771706300001112
为方差:
Figure BDA00016771706300001113
R(θ)为防止训练过程中出现过拟合的正则项,λ1为权重系数;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure BDA00016771706300001114
其中,
Figure BDA00016771706300001115
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure BDA00016771706300001116
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
情绪代价函数L(θ)2的计算公式为:
Figure BDA0001677170630000121
其中,其中,
Figure BDA0001677170630000122
为交叉熵:
Figure BDA0001677170630000123
Figure BDA0001677170630000124
为方差:
Figure BDA0001677170630000125
R(θ)为防止训练过程中出现过拟合的正则项;
c2为为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure BDA0001677170630000126
其中,
Figure BDA0001677170630000127
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure BDA0001677170630000128
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差。
本具体实施方式中,所述卷积神经网络包含用于消除时间差异的时间卷积层与用于减少相位变化的频域卷积层,频域卷积层的输入端与时间卷积层的输入端连接,频域卷积层的输出端同时与语音识别模型、情绪识别模型的输入端连接。
如图3所示,本具体实施方式中,语音信号在输入同步识别模型进行识别前,进行预处理,以初步提取语音信号中的语音特征矩阵,所述语音特征矩阵中的语音特征向量包含以下32维语音特征:12维梅尔频谱倒谱系数MFCC、12维线性预测倒谱系数LPCC、过零率、短时能量、基频、共振峰、谱熵、频谱通量、频谱通量以及频谱滚降点;在进行语音识别时,卷积层同时向语音识别模型与情绪识别模型输出语音特征向量,语音识别模型与情绪识别模型同时分别独立根据输入的语音特征向量进行语音识别和情绪识别。
具体实施方式2
本具体实施方式是针对具体实施方式1进行的改进,改进之处主要在于同步识别模型结构的改进和训练过程中代价函数的改进,同步识别模型结构的改进如下:语音识别模型与情绪识别模型双向通信连接,使得在训练阶段语音识别模型能将音素特征训练输出矩阵
Figure BDA0001677170630000131
发送给情绪识别模型,并且情绪识别模型能够将情绪特征训练输出矩阵
Figure BDA0001677170630000132
发送给语音识别模型;其中,
Figure BDA0001677170630000133
Figure BDA0001677170630000134
表示音素特征训练输出矩阵
Figure BDA0001677170630000135
中的第i个音素特征训练输出向量;
Figure BDA0001677170630000136
Figure BDA0001677170630000137
表示情绪特征训练输出矩阵
Figure BDA0001677170630000138
中的第j个情绪特征训练输出向量。
基于上述同步识别模型的改进,交替训练按如下步骤进行:
步骤401:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;
步骤402:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第i次训练的语音代价函数
Figure BDA0001677170630000139
的值,将语音代价函数
Figure BDA00016771706300001310
的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于特征提取的权值;并将当前次训练得到的音素特征训练输出矩阵
Figure BDA00016771706300001311
发送给情绪识别模型,使得情绪代价函数能够根据音素特征训练输出矩阵
Figure BDA00016771706300001312
进行计算;
步骤403:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数
Figure BDA00016771706300001313
的值,将情绪代价函数
Figure BDA00016771706300001314
的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;并将当前次训练得到的情绪特征训练输出矩阵
Figure BDA00016771706300001315
发送给语音识别模型,使得语音代价函数能够根据情绪特征训练输出矩阵
Figure BDA00016771706300001316
进行计算;
步骤404:根据预先设定的语音代价函数的期望值判断语音代价函数
Figure BDA00016771706300001317
的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数
Figure BDA00016771706300001318
的值是否收敛;若不能同时收敛,则令t=t+2,并回到步骤302;
若同时满足收敛,则在语音识别模型中保存以语音代价函数
Figure BDA0001677170630000141
的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数
Figure BDA0001677170630000142
的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数
Figure BDA0001677170630000143
的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。
本具体实施中,语音代价函数L(θ)1的计算公式为:
Figure BDA0001677170630000144
其中,
Figure BDA0001677170630000145
为交叉熵:
Figure BDA0001677170630000146
Figure BDA0001677170630000147
为方差:
Figure BDA0001677170630000148
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure BDA0001677170630000149
其中,
Figure BDA00016771706300001410
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure BDA00016771706300001411
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure BDA00016771706300001412
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure BDA00016771706300001413
MVx为音素特征训练输出向量的均值方差矩阵:
Figure BDA00016771706300001414
MVy为情绪特征训练输出向量的均值方差矩阵;
情绪代价函数L(θ)2的计算公式为:
Figure BDA0001677170630000151
其中,
Figure BDA0001677170630000152
为交叉熵:
Figure BDA0001677170630000153
Figure BDA0001677170630000154
为方差:
Figure BDA0001677170630000155
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c2为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure BDA0001677170630000156
其中,
Figure BDA0001677170630000157
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure BDA0001677170630000158
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure BDA0001677170630000159
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure BDA00016771706300001510
MVx为音素特征训练输出向量的均值方差矩阵:
Figure BDA00016771706300001511
MVy为情绪特征训练输出向量的均值方差矩阵。
本具体实施方式中由于训练过程中考虑到了语音与情绪的相互关系,即情绪代价函数考虑了语音识别结果对情绪识别的影响,语音代价函数考虑了情绪识别结果对语音识别的影响,从而使得语音识别模型中用于语音特征提取的权值能够提取到隐含的情绪特征,同样,情绪识别模型中用于语音特征提取的权值能够提取到隐含的音素特征。
为了使本发明更容易理解,现进行如下举例说明:设语音特征训练样本集中的一个语音特征输入矩阵则对应了一段语音A,一段语音为一句话,一句话中的一个发音对应多个语音特征向量,一个语音特征向量对应一个音素标签(音素标签为声母、韵母),一个语音特征输入矩阵对应一个情绪标签(可将情绪分为“高兴”、“惊喜”、“愤怒”、“中性”、“悲伤”、“害怕”等,为了简化还可大致分为三类“正面、”“中性”以及“负面”,分别对应的情绪标签为“1”“0”“-1”),该段语音的真实语义为“报酬”,说话者的情绪为“高兴”,那么整个语音特征输入矩阵对应的音素标签集为“baochou”,情绪标签为“1”。
将语音A输入同步识别模型中进行训练时,卷积神经网络对原始语音信号进行降维降噪,然后分别输入给语音识别模型和情绪识别模型,语音识别深度特征提取神经网络得到了个音素特征训练输出矩阵,所对应的音素标签集“baochou”,该音素标签集对应的文本信息可能是“报酬”也可能是“报仇”由于所对应的情绪标签为“1”,那么CTC时序分类模块则将音素标签集“baochou”进行文本对齐得到“报酬”而不是“报仇”。
经过上述训练后,再输入相同的语音信息A进行识别时,则能准确的识别出“报酬”的文本信息,而避免识别成“报仇”等文本信息,从而大大提高了语音识别的准确性,
同样,若语音特征训练样本集中有一段语音信息B,其真实语义为“太棒了”,情绪为“喜悦”,那么语音信息B的语音特征输入矩阵所对应的音素标签集为“taibangle”,情绪标签为“1”。
将语音B输入同步识别模型中进行训练,卷积神经网络对原始语音信号进行降维降噪,然后分别输入给语音识别模型和情绪识别模型,情绪识别深度特征提取神经网络得到了情绪特征训练输出矩阵,该情绪特征训练输出矩阵对应的情绪标签可能是“1”也可能是“0”,由于CTC时序分类模块中音素标签集为“taibangle”,那么经过多次训练后情绪识别深度特征提取神经网络则会输出情绪标签“1”。
经过上述训练后,再输入相同的语音信息B进行识别时,则能准确的识别出正面情绪标签“1”,而避免识别成负面或中性情绪,从而大大提高了情绪识别的准确性。

Claims (10)

1.一种基于神经网络的语音与情绪的同步识别方法,其特征在于:包括以下步骤:
步骤1:建立语音特征训练样本集,语音特征训练样本集中包含若干语音特征输入矩阵,每个语音特征输入矩阵均对应有音素特征理论输出矩阵Fx和情绪特征理论输出矩阵Fy,其中,Fx={x1,...xi,...,xn},xi表示音素特征理论输出矩阵Fx中的第i个音素特征理论输出向量,每个音素特征理论输出向量均对应有音素标签;Fy={y1,...yj,...,ym},yj表示情绪特征理论输出矩阵Fy中的第j个情绪特征理论输出向量,每个情绪特征理论输出向量均对应有情绪标签;
步骤2:建立同步识别模型,所述同步识别模型包括用于对输入的语音特征矩阵进行降维与降噪处理的卷积神经网络,所述卷积神经网络的输出端分别连接有语音识别模型与情绪识别模型;
步骤3:采用语音特征训练样本集以及代价函数对同步识别模型进行训练,所述代价函数包括用于训练语音识别模型的语音代价函数L(θ)1以及用于训练情绪识别模型的情绪代价函数L(θ)2;对语音识别模型与情绪识别模型迭代交替训练,从而使得卷积神经网络用于语言特征提取的权值能够交替更新;每利用语音代价函数L(θ)1训练一次语音识别模型后,则将语音代价函数L(θ)1的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音模型与卷积神经网络用于语音特征提取的权值;每利用情绪代价函数L(θ)2训练一次情绪识别模型后,则将情绪代价函数L(θ)2的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;训练完成后,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别;
步骤4:采用训练完成后的同步识别模型同步识别语音信号中的语音与情绪。
2.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:交替训练按如下步骤进行:
步骤301:初始化同步识别模型的用于语音特征提取的权值,包括卷积神经网络用于语音特征提取的权值、语音识别模型用于语音特征提取的权值以及情绪识别模型用于语音特征提取的权值;初始化t=1;
步骤302:从卷积神经网络输入语音特征训练样本集中的一个语音样本,对语音识别模型进行训练,设当前次训练为第t次,t∈{1,3,5,....,2n-1},得到第t次训练的语音代价函数
Figure FDA0002401323810000021
的值,将语音代价函数
Figure FDA0002401323810000022
的值从语音识别模型输出端反向传递至卷积神经网络,以更新语音识别模型与卷积神经网络用于特征提取的权值;
步骤303:从卷积神经网络输入语音样本,对情绪识别模型进行训练,设当前次训练为第t+1次训练,得到第t+1次训练的情绪代价函数
Figure FDA0002401323810000023
的值,将情绪代价函数
Figure FDA0002401323810000024
的值从情绪识别模型输出端反向传递至卷积神经网络,以更新情绪识别模型与卷积神经网络用于语音特征提取的权值;
步骤304:根据预先设定的语音代价函数的期望值判断语音代价函数
Figure FDA0002401323810000025
的值是否收敛,并同时根据预先设定的情绪代价函数的期望值判断情绪代价函数
Figure FDA0002401323810000026
是否收敛;
若不能同时收敛,则令t=t+2,并回到步骤302;
若同时满足收敛,则在语音识别模型中保存以语音代价函数
Figure FDA0002401323810000027
的值反向传递更新得到的用于语音特征提取的权值,并且在情绪识别模型中保存以情绪代价函数
Figure FDA0002401323810000028
的值反向传递更新得到的用于语音特征提取的权值,同时在卷积神经网络中保存以情绪代价函数
Figure FDA0002401323810000029
的值反向传递更新得到的用于语音特征提取的权值;交替训练完成,卷积神经网络中用于语音特征提取的权值能够同时适用于语音识别与情绪识别。
3.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:所述语音识别模型包括能够从语音特征矩阵中提取音素特征矩阵的语音识别深度特征提取神经网络以及用于根据音素标签将音素特征矩阵转化文本的CTC时序分类模块;所述情绪识别模型包括能够从语音特征矩阵中提取情绪特征矩阵并能输出对应情绪标签的情绪识别深度特征提取神经网络。
4.根据权利要求3所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:所述语音识别深度特征提取神经网络包括第一双向LSTM循环神经网络,第一双向LSTM循环神经网络的输入端与卷积神经网络的输出端连接;所述情绪识别深度特征提取神经网络包括第二双向LSTM循环神经网络,第二双向LSTM循环神经网络的输入端与卷积神经网络的输出连接。
5.根据权利要求4所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:所述语音识别深度特征提取神经网络还包括第一DNN深度神经网络,第一DNN深度神经网络的输入端、输出端分别与第一双向LSTM循环神经网络输出端、CTC时序分类模块输入端连接;所述情绪识别深度特征提取神经网络还包括第二DNN深度神经网络,第二DNN深度神经网络的输入端与第二双向LSTM循环神经网络输出端连接。
6.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:在训练阶段语音识别模型的音素特征训练输出矩阵为
Figure FDA0002401323810000031
Figure FDA0002401323810000032
Figure FDA0002401323810000033
表示音素特征训练输出矩阵
Figure FDA0002401323810000034
中的第i个音素特征训练输出向量;在训练阶段情绪识别模型的情绪特征训练输出矩阵为
Figure FDA0002401323810000035
Figure FDA0002401323810000036
Figure FDA0002401323810000037
表示情绪特征训练输出矩阵
Figure FDA0002401323810000038
中的第j个情绪特征训练输出向量;
语音代价函数L(θ)1的计算公式为:
Figure FDA0002401323810000039
其中,
Figure FDA00024013238100000310
为交叉熵:
Figure FDA00024013238100000311
Figure FDA00024013238100000312
为方差:
Figure FDA00024013238100000313
R(θ)为防止训练过程中出现过拟合的正则项,λ1为权重系数;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure FDA0002401323810000041
其中,
Figure FDA0002401323810000042
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure FDA0002401323810000043
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
情绪代价函数L(θ)2的计算公式为:
Figure FDA0002401323810000044
其中,其中,
Figure FDA0002401323810000045
为交叉熵:
Figure FDA0002401323810000046
Figure FDA0002401323810000047
为方差:
Figure FDA0002401323810000048
R(θ)为防止训练过程中出现过拟合的正则项;
c2为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure FDA0002401323810000049
其中,
Figure FDA00024013238100000410
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure FDA00024013238100000411
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差。
7.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:语音识别模型与情绪识别模型双向通信连接,使得在训练阶段语音识别模型能将音素特征训练输出矩阵
Figure FDA00024013238100000412
发送给情绪识别模型,并且情绪识别模型能够将情绪特征训练输出矩阵
Figure FDA00024013238100000413
发送给语音识别模型;其中,
Figure FDA00024013238100000414
Figure FDA00024013238100000415
表示音素特征训练输出矩阵
Figure FDA00024013238100000416
中的第i个音素特征训练输出向量;
Figure FDA00024013238100000417
Figure FDA00024013238100000418
表示情绪特征训练输出矩阵
Figure FDA00024013238100000419
中的第j个情绪特征训练输出向量。
8.根据权利要求7所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:语音代价函数L(θ)1的计算公式为:
Figure FDA0002401323810000051
其中,
Figure FDA0002401323810000052
为交叉熵:
Figure FDA0002401323810000053
Figure FDA0002401323810000054
为方差:
Figure FDA0002401323810000055
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c1为语音相关系数损失函数,Lρc1=1-ρc1,ρc1表示音素特征理论输出向量与音素特征训练输出向量之间的相关系数;
ρc1的计算公式如下:
Figure FDA0002401323810000056
其中,
Figure FDA0002401323810000057
为音素特征理论输出向量与音素特征训练输出向量的协方差矩阵,
Figure FDA0002401323810000058
分别为音素特征理论输出矩阵方差、音素特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure FDA0002401323810000059
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure FDA00024013238100000510
MVx为音素特征训练输出向量的均值方差矩阵:
Figure FDA00024013238100000511
MVy为情绪特征训练输出向量的均值方差矩阵;
情绪代价函数L(θ)2的计算公式为:
Figure FDA00024013238100000512
其中,
Figure FDA00024013238100000513
为交叉熵:
Figure FDA00024013238100000514
Figure FDA00024013238100000515
为方差:
Figure FDA00024013238100000516
λ1、λ2均为权重系数,R(θ)为防止训练过程中出现过拟合的正则项;
c2为情绪相关系数损失函数,Lρc2=1-ρc2;其中,ρc2表示情绪特征理论输出向量与情绪特征训练输出向量之间的相关系数;
ρc2的计算公式如下:
Figure FDA0002401323810000061
其中,
Figure FDA0002401323810000062
为情绪特征理论输出向量与情绪特征训练输出向量的协方差矩阵,
Figure FDA0002401323810000063
分别为情绪特征理论输出矩阵方差、情绪特征训练输出矩阵方差;
Jtxtem为灵敏度矩阵:
Figure FDA0002401323810000064
Fx为音素特征理论输出矩阵,Fy为情绪特征理论输出矩阵;
Figure FDA0002401323810000065
MVx为音素特征训练输出向量的均值方差矩阵:
Figure FDA0002401323810000066
MVy为情绪特征训练输出向量的均值方差矩阵。
9.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:所述卷积神经网络包含用于消除时间差异的时间卷积层与用于减少相位变化的频域卷积层,频域卷积层的输入端与时间卷积层的输入端连接,频域卷积层的输出端同时与语音识别模型、情绪识别模型的输入端连接。
10.根据权利要求1所述的基于神经网络的语音与情绪的同步识别方法,其特征在于:语音信号在输入同步识别模型进行识别前,进行预处理,以初步提取语音信号中的语音特征矩阵,所述语音特征矩阵中的语音特征向量包含以下语音特征:12维梅尔频谱倒谱系数MFCC、12维线性预测倒谱系数LPCC、过零率、短时能量、基频、共振峰、谱熵、频谱通量、频谱通量以及频谱滚降点;在进行语音识别时,卷积层同时向语音识别模型与情绪识别模型输出语音特征向量,语音识别模型与情绪识别模型同时分别独立根据输入的语音特征向量进行语音识别和情绪识别。
CN201810533830.9A 2018-05-29 2018-05-29 基于神经网络的语音与情绪的同步识别方法 Active CN108806667B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810533830.9A CN108806667B (zh) 2018-05-29 2018-05-29 基于神经网络的语音与情绪的同步识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810533830.9A CN108806667B (zh) 2018-05-29 2018-05-29 基于神经网络的语音与情绪的同步识别方法

Publications (2)

Publication Number Publication Date
CN108806667A CN108806667A (zh) 2018-11-13
CN108806667B true CN108806667B (zh) 2020-04-17

Family

ID=64089225

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810533830.9A Active CN108806667B (zh) 2018-05-29 2018-05-29 基于神经网络的语音与情绪的同步识别方法

Country Status (1)

Country Link
CN (1) CN108806667B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109858553B (zh) * 2019-01-31 2023-12-12 锦图计算技术(深圳)有限公司 驾驶状态的监测模型更新方法、更新装置及存储介质
CN110261109B (zh) * 2019-04-28 2020-12-08 洛阳中科晶上智能装备科技有限公司 一种基于双向记忆循环神经网络的滚动轴承故障诊断方法
CN110738984B (zh) * 2019-05-13 2020-12-11 苏州闪驰数控系统集成有限公司 人工智能cnn、lstm神经网络语音识别系统
CN110097894B (zh) * 2019-05-21 2021-06-11 焦点科技股份有限公司 一种端到端的语音情感识别的方法和系统
CN110379441B (zh) * 2019-07-01 2020-07-17 特斯联(北京)科技有限公司 一种基于对抗型人工智能网络的语音服务方法与系统
CN112216307B (zh) * 2019-07-12 2023-05-16 华为技术有限公司 语音情感识别方法以及装置
CN110428678A (zh) * 2019-08-12 2019-11-08 重庆工业职业技术学院 一种计算机在线教学管理系统
CN110890096A (zh) * 2019-10-12 2020-03-17 深圳供电局有限公司 一种基于语音分析的智能语音系统及方法
CN110992987B (zh) * 2019-10-23 2022-05-06 大连东软信息学院 语音信号中针对通用特定语音的并联特征提取系统及方法
CN110910903B (zh) * 2019-12-04 2023-03-21 深圳前海微众银行股份有限公司 语音情绪识别方法、装置、设备及计算机可读存储介质
CN111182162B (zh) * 2019-12-26 2023-04-25 深圳壹账通智能科技有限公司 基于人工智能的电话质检方法、装置、设备和存储介质
CN111613223B (zh) * 2020-04-03 2023-03-31 厦门快商通科技股份有限公司 语音识别方法、系统、移动终端及存储介质
CN112489662A (zh) * 2020-11-13 2021-03-12 北京沃东天骏信息技术有限公司 用于训练语音处理模型的方法和装置
CN112599116B (zh) * 2020-12-25 2022-07-08 思必驰科技股份有限公司 语音识别模型训练方法和语音识别联邦训练系统
CN112992119B (zh) * 2021-01-14 2024-05-03 安徽大学 基于深度神经网络的口音分类方法及其模型
CN113299281A (zh) * 2021-05-24 2021-08-24 青岛科技大学 基于声学文本融合的驾驶员尖锐高音识别预警方法及系统
CN113114541B (zh) * 2021-06-15 2021-09-14 上海兴容信息技术有限公司 一种判断网络节点之间能否建立网络连接的方法和系统
CN113505665B (zh) * 2021-06-28 2023-06-20 哈尔滨工业大学(深圳) 基于视频的学生在校情绪判读方法以及装置
CN114420109B (zh) * 2022-03-28 2022-06-21 北京沃丰时代数据科技有限公司 语音性别联合识别方法、装置、电子设备及存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US7222075B2 (en) * 1999-08-31 2007-05-22 Accenture Llp Detecting emotions using voice signal analysis
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
DE60115653T2 (de) * 2001-10-05 2006-08-10 Sony Deutschland Gmbh Verfahren zur Detektion von Emotionen, unter Verwendung von Untergruppenspezialisten
WO2017104875A1 (ko) * 2015-12-18 2017-06-22 상명대학교 서울산학협력단 음성의 톤, 템포 정보를 이용한 감정인식 방법 및 그 장치
CN107305773B (zh) * 2016-04-15 2021-02-09 美特科技(苏州)有限公司 语音情绪辨识方法
CN106782602B (zh) * 2016-12-01 2020-03-17 南京邮电大学 基于深度神经网络的语音情感识别方法
CN106847309A (zh) * 2017-01-09 2017-06-13 华南理工大学 一种语音情感识别方法
WO2018227169A1 (en) * 2017-06-08 2018-12-13 Newvoicemedia Us Inc. Optimal human-machine conversations using emotion-enhanced natural speech
CN107506722A (zh) * 2017-08-18 2017-12-22 中国地质大学(武汉) 一种基于深度稀疏卷积神经网络人脸情感识别方法
CN107633225A (zh) * 2017-09-18 2018-01-26 北京金山安全软件有限公司 一种信息获得方法及装置
CN108010516A (zh) * 2017-12-04 2018-05-08 广州势必可赢网络科技有限公司 一种语义独立的语音情绪特征识别方法及装置
CN108053840A (zh) * 2017-12-29 2018-05-18 广州势必可赢网络科技有限公司 一种基于pca-bp的情绪识别方法及系统

Also Published As

Publication number Publication date
CN108806667A (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN108806667B (zh) 基于神经网络的语音与情绪的同步识别方法
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
CN101930735B (zh) 语音情感识别设备和进行语音情感识别的方法
EP4002362A1 (en) Method and apparatus for training speech separation model, storage medium, and computer device
CN102800316B (zh) 基于神经网络的声纹识别系统的最优码本设计方法
Casale et al. Speech emotion classification using machine learning algorithms
CN101645271B (zh) 发音质量评估系统中的置信度快速求取方法
CN107633842A (zh) 语音识别方法、装置、计算机设备及存储介质
KR20170009338A (ko) 음성 인식을 위한 모델 구축 장치 및 음성 인식 장치 및 방법
CN103065629A (zh) 一种仿人机器人的语音识别系统
KR102221513B1 (ko) 음성 감정 인식 방법 및 시스템
CN111081219A (zh) 一种端到端的语音意图识别方法
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN116304973A (zh) 一种基于多模态融合的课堂教学情感识别方法和系统
CN114420169B (zh) 情绪识别方法、装置及机器人
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
CN114898779A (zh) 融合多模态的语音情感识别方法及系统
Farooq et al. Mispronunciation detection in articulation points of Arabic letters using machine learning
Wang et al. Design and implementation of an English pronunciation scoring system for pupils based on DNN-HMM
Cao et al. Emotion recognition from children speech signals using attention based time series deep learning
CN116775870A (zh) 一种结合大模型的对话意图识别方法
CN112700796B (zh) 一种基于交互式注意力模型的语音情感识别方法
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
Bansod et al. Speaker Recognition using Marathi (Varhadi) Language
CN115186083B (zh) 一种数据处理方法、装置、服务器、存储介质及产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20210510

Address after: 401120 No.1-4, 16th floor, no.6, Yangliu North Road, Yubei District, Chongqing

Patentee after: Chongqing QiTeng Technology Co.,Ltd.

Address before: 400044 No. 174 Sha Jie street, Shapingba District, Chongqing

Patentee before: Chongqing University

PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: Synchronous recognition of speech and emotion based on Neural Network

Effective date of registration: 20210618

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chongqing branch

Pledgor: Chongqing QiTeng Technology Co.,Ltd.

Registration number: Y2021500000023

PE01 Entry into force of the registration of the contract for pledge of patent right
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 401120 No.1-4, 16th floor, no.6, Yangliu North Road, Yubei District, Chongqing

Patentee after: Seven Teng Robot Co.,Ltd.

Address before: 401120 No.1-4, 16th floor, no.6, Yangliu North Road, Yubei District, Chongqing

Patentee before: Chongqing QiTeng Technology Co.,Ltd.

PM01 Change of the registration of the contract for pledge of patent right
PM01 Change of the registration of the contract for pledge of patent right

Change date: 20221009

Registration number: Y2021500000023

Pledgor after: Seven Teng Robot Co.,Ltd.

Pledgor before: Chongqing QiTeng Technology Co.,Ltd.

PC01 Cancellation of the registration of the contract for pledge of patent right
PC01 Cancellation of the registration of the contract for pledge of patent right

Date of cancellation: 20230925

Granted publication date: 20200417

Pledgee: China Minsheng Banking Corp Chongqing branch

Pledgor: Seven Teng Robot Co.,Ltd.

Registration number: Y2021500000023

PE01 Entry into force of the registration of the contract for pledge of patent right
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: A Synchronous Recognition Method for Speech and Emotion Based on Neural Networks

Effective date of registration: 20231019

Granted publication date: 20200417

Pledgee: Chongqing Yuzhong Sub branch of China Construction Bank Corp.

Pledgor: Seven Teng Robot Co.,Ltd.

Registration number: Y2023980061902