CN110675860A - 基于改进注意力机制并结合语义的语音信息识别方法及系统 - Google Patents
基于改进注意力机制并结合语义的语音信息识别方法及系统 Download PDFInfo
- Publication number
- CN110675860A CN110675860A CN201910905808.7A CN201910905808A CN110675860A CN 110675860 A CN110675860 A CN 110675860A CN 201910905808 A CN201910905808 A CN 201910905808A CN 110675860 A CN110675860 A CN 110675860A
- Authority
- CN
- China
- Prior art keywords
- lstm
- channel information
- voice
- frame
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000007246 mechanism Effects 0.000 title claims abstract description 41
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000013135 deep learning Methods 0.000 claims abstract description 9
- 239000000284 extract Substances 0.000 claims abstract description 3
- 230000006870 function Effects 0.000 claims description 18
- 239000013598 vector Substances 0.000 claims description 14
- 230000008451 emotion Effects 0.000 claims description 13
- 230000004927 fusion Effects 0.000 claims description 11
- 230000002996 emotional effect Effects 0.000 claims description 10
- 230000006872 improvement Effects 0.000 claims description 9
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000003860 storage Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 5
- 238000009432 framing Methods 0.000 claims description 5
- 230000008901 benefit Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000013518 transcription Methods 0.000 claims description 3
- 230000035897 transcription Effects 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 2
- 230000008909 emotion recognition Effects 0.000 description 22
- 238000010586 diagram Methods 0.000 description 9
- 238000012549 training Methods 0.000 description 9
- 238000012360 testing method Methods 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000011160 research Methods 0.000 description 5
- 230000004913 activation Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000000052 comparative effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000008034 disappearance Effects 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000006996 mental state Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000002474 experimental method Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 239000000126 substance Substances 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种基于改进注意力机制并结合语义的语音信息识别方法及系统,对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征;构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
Description
技术领域
本公开属于语音信息处理以及机器学习的技术领域,涉及一种基于改进注意力机制并结合语义的语音信息识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
随着人工智能的发展、深度学习的应用以及计算机科学的不断进步,相关领域的应用也逐渐活跃起来。对于语音情感识别技术的研究与发展产生了巨大的推动力,促使其成为人工智能研究领域的非常重要的一个方向。自动语音情感识别技术的出现,弥补了普通语音识别技术中对于语音信息分析不足的缺点,可以在获得语音语义的信息之外,能够获得人的精神状态或情绪状态等信息。也是这个重要的原因,让语音情感识别技术越来越多的出现在各个领域的应用中。在电话服务中,可以很大的提高顾客满意度;在汽车驾驶中,可以有效的观测驾驶员的精神状态;在未来的安全监控系统中,可以对公共场所因为情绪失控发生的暴力情况进行有效的避免。因此,语音情感识别的研究是一件非常具有经济价值与社会价值的研究,其技术的发展与进步对于推动社会发展与和谐具有很大意义。
为了实现语音情感的自动识别,很多学者在机器学习算法方面做了大量的研究工作,如支持向量机,贝叶斯分类器和决策树等算法,但上述方法大部分使用语音的全局特征,虽然在语音情感识别上取得一定的效果,均忽略了语音信号是一种时序序列的特性,没有将情感在时序变化上的信息考虑在内。解决该矛盾的一个思路是循环神经网络(Recurrent neural network,RNN)中 Schnidhuber提出的长短时记忆神经网络(Long-Short Term Memory,LSTM),通过门控机制解决传统RNN模型对长时时序序列处理能力有限的问题,同时克服了梯度消失问题使神经网络可以针对长时序列建模问题进行训练。
在使用LSTM进行语音情感识别的过程中,受神经翻译中注意力机制的启发。使用加权汇集策略,通过一串权重参数,从LSTM输出序列中学习得到每一帧输出的重要程度,然后进行合并。权重参数就是一个注意力分配的系数,给哪一帧输出多少注意力。
另外,传统的语音情感识别研究将语音和文本切割开来,分别讨论。语音中并不能完全体现完整的情感信息,语义中富含的情感信息无法得到充分利用,也是当前需要解决的问题。
发明内容
本公开为了解决上述问题,提出了一种基于改进注意力机制并结合语义的语音信息识别方法及系统,本公开在语音通道上,受神经机器翻译中注意机制思想的启发,通过改进的注意力机制,引入了一种新的加权汇集策略,专注于包含强烈情感特征的话语的特定部分,还同时考虑到了相邻时间帧对其输出的影响,具有更好的时间感受野。在语义通道上,结合自然语言处理中的文本情感识别,对语义信息进行分析。最后通过融合技术,将语音语义信息结合起来,能够很好地提高语音识别性能。
根据一些实施例,本公开采用如下技术方案:
一种基于改进注意力机制并结合语义的语音信息识别方法,包括以下步骤:
对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征;
构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;
对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;
融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
作为可选择的实施方式,利用LSTM模型处理得到的声学特征。
通过维持一个细胞状态并使用三个加法门控制信息的遗忘、新增和输出,将反向传播的导数计算从原来的乘法形式变为累加形式,因此避免了梯度消失问题,使处理“长时依赖”问题变为可能。
作为可选择的实施方式,利用注意力机制对LSTM模型的输出进行加权汇集,通过权重学习到LSTM输出序列中每一时间帧的重要程度。即专注于包含强烈情感特征的话语的特定部分,然后对注意力机制进行改进,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM输出序列每一帧可以关联并利用到相邻帧的信息。
相较于传统的Attention来说,改进的Attention不仅可以突出包含强烈情感特征的话语部分,还可以利用到相邻帧之间的信息,具有更好的时间感受野。通过改进的Attention对LSTM进行处理,最后得到语音通道高级特征。
作为可选择的实施方式,利用自动语音识别模型,从语言数据转化到对话的文本数据,对于每个话语的文本转录,使用预训练Glove模型嵌入,获得每个话语的向量,利用矩阵的方式表示语义信息,利用LSTM处理长序列的优势,并适量增加深度,使用双层LSTM对语义信息进行处理,随后经过全连接层得到语义通道的高层深度学习特征。
作为可选择的实施方式,融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果的具体过程包括:
语音通道信息特征和语义通道信息特征串连得到融合特征,并对融合特征用全连接层进行操作,输出经过全连接层与Softmax层得到最后的情感分类结果,其最终的损失函数为多分类交叉熵函数,所有可训练参数的初始化准则为截断高斯分布,更新准则为梯度下降法。
一种基于改进注意力机制并结合语义的语音信息识别系统,包括:
语音通道信息特征提取模块,被配置为对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征,构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;
语义通道信息特征提取模块,被配置为对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;
融合模块,被配置为融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行所述的基于改进注意力机制并结合语义的语音信息识别方法。
一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行所述的基于改进注意力机制并结合语义的语音信息识别方法。
与现有技术相比,本公开的有益效果为:
本公开基于改进注意力机制结合语义的语音情感识别方法,通过改进的注意力机制,不仅对含有情感色彩大的帧进行了突出,还同时考虑到了相邻时间帧对其输出的影响,具有更好的时间感受野。同时使用很少的参数就完成了情感识别性能的提升。另外融合语义信息,对原始语音进行了互补,方法巧妙。
本公开提取的结果能够具有语音感情信息,语音识别结果更加准确,具有广阔的应用前景,例如在电话服务中,可以获取顾客的情绪,更加准确的服务,很大的提高顾客满意度;在汽车驾驶中,可以有效的观测驾驶员的精神状态,帮助进行驾驶指导或警告;在未来的安全监控系统中,可以对公共场所因为情绪失控发生的暴力情况进行有效的避免。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本实施例的流程图;
图2是改制注意力机制中加权值αt在整段语音的作用;
图3(a)-(b)是IEMOCAP数据库下语音单通道对比准确率随训练时间变化的测试集结果图;
图4(a)-(b)是IEMOCAP数据库下语音,文本及融合对比准确率随训练时间变化的测试集结果图;
图5是IEMOCAP数据库下基于改进注意力机制结合语义的语音情感识别方法所得到的混淆矩阵。
具体实施方式:
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
如图1所示,本实施例的基于改进注意力机制结合语义的语音情感识别方法。本发明使用IEMOCAP数据库来验证所提出的算法,具体包括以下步骤。
步骤1.对于IEMOCAP数据库进行训练集与测试集的划分。将整个数据库的前4个部分作为训练集,第5个部分作为测试集。本实施例只考虑IEMOCAP数据库中的4种情感,具体包括愤怒,快乐,中立和悲伤。
步骤2.语音通道上对原始语音数据进行分帧。在0.2秒窗口中计算特征,并以0.1秒步长和16kHz采样率移动它,保持最多100帧或大约10秒的输入,零填充额外信号。这是为了输入LSTM网络时保持数据大小的一致性。然后对处理后的序列进行声学特征提取,并以每个话语的(34,100)特征向量结束。其详细声学特征如下表1所示,其中[]内标注的是特征的维度:
表1语音特征集合表
步骤3.对于步骤2中的帧特征X=(x1,x2,...,xt),xt∈R34×1,t=1,2,...,100,将X中每一个列向量依次输入到LSTM网络中,对于时刻t的输入xt经过LSTM神经网络得到ht的计算过程如下:
遗忘门(Foget Gate):如公式(1)所示
ft=σ(Wf*[ht-1,xt]+bf) (1)
其和为LSTM网络遗忘门的连接权值和偏置,是可训练的。[ht-1,xt]表示向量ht-1与向量xt拼接,其中[ht-1,xt]=[ht-1 Txt T]T,xt∈R34×1,σ(·)表示神经网络sigmoid激活函数,下同。
输入门(Input Gate):如公式(2),(3)所示
it=σ(Wi·[ht-1,xt]+bi) (2)
细胞状态更新(Cell State Update):如公式(4)所示
输出门(Output Gate):如公式(5)、(6)所示
ot=σ(Wo·[ht-1,xt]+bo) (5)
ht=ot·tanh(Ct) (6)
步骤4.进行时域卷积相关与加权汇集。首先使用传统的Attention机制处理 LSTM每一时间帧输出ht,在每个时间帧t,计算注意力机制参数向量u和输出ht之间的内积,其中向量u是可训练的。接着将Softmax函数应用于结果,以获得总和为1的帧的最终权重集,以此作为对最终话语所表达情感的贡献得分。其公式如下:
然后对传统的Attention进行改进,将第t帧的输出ht进行时域卷积。可以理解为是考虑当前帧输出的同时利用了前后帧的信息,其中第t帧ht有d1个特征,即拥有t个向量将ht作为H的一个列向量,则有矩阵对于卷积运算,使用跨越所有d1特征的2D内核(宽度为k,步长为1,是可训练的)。首先,使用相同填充的方式samepadding,其中ht零填充为ht′,t零填充至t′=t+2,得到填充后的矩阵H1,若用为相邻k帧内信息的集体映射,它可解释为该k帧的关联输出。用表示的是列向量的第q个特征,它由下式给出:
最后步骤4的输出特征为
步骤5.将通过已有的高准确率的自动语音识别模型,从语音数据转化到对话的文本数据。对于IEMOCAP来说,有现成的文本数据提供,直接对其进行使用。
步骤6.对于每个话语的文本转录,使用维度300的预训练Glove模型嵌入,以及最大单词序列长度500,以获得每个话语的(300,500)向量。这样就能把语义信息已矩阵的方式表示出来,即每个对话为W1∈R300×500。
步骤7.利用LSTM处理长序列的优势,并适量增加深度,使用双层LSTM对 W1进行处理,随后经过全连接层,得到语义通道的高层深度学习特征z1。
步骤9.将步骤8的输出z′经过全连接层(激活函数为relu,输出维度为情感分类个数)与Softmax层得到最后的情感分类结果,其最终的损失函数为多分类交叉熵函数,所有可训练参数的初始化准则为截断高斯分布,更新准则为梯度下降法。
步骤10.训练整个情感识别网络,并对其性能进行综合测评,评价标准为加权准确性weighted accuracy,未加权准确性unweighted accuracy,以及分数F1,如公式(10-14)所示:
其中pi为预测值,qi为实际值,weighted accuracy是通常的准确度,其计算为所有示例的正确答案的一部分。
其中c为类别,其想法是仅在一个类中获取准确性,然后在所有类中平均这些值。
在二分类中,TP是预测为正,实际为正的数量;FP是预测为正,实际为负的数量;TN是预测为负,实际为负的数量;FN是预测为负,实际为正的数量, F1-Score是precision和recall的调和平均数。对于多分类来说,将n分类的评价拆成n个二分类的评价,计算每个二分类的F1 score,n个F1 score的平均值即为所用。
模型训练的超参数如下表2所示:
表2模型超参数表
参数 | 值 |
学习率 | 0.0005 |
优化器 | Adam |
批量大小 | 128 |
Dropout系数 | 0.5 |
时域卷积核宽度k | 3 |
对比实验:
为对比步骤4中改进注意力机制的优势,本发明在测试集上,将基于传统注意力机制的LSTM-Attention与传统LSTM-NoAttention做对比实验,如图3(a) -(b)是IEMOCAP数据库下语音单通道对比准确率随训练时间变化的测试集结果图;横轴为训练的epoch数,纵轴为识别准确率(weighted Accuracy)。可以发现单纯使用LSTM只能达到56.58%的带权重准确率。而使用本实施例的改进注意力机制,本实施例相较于传统LSTM-NoAttention和传统注意力机制的 LSTM-Attention分别有了5.48%和1.13%的带权重准确率weightedaccuracy提升。并在无权重准确率及F1分数上有6.25%,0.0847及0.025%,0.0137的提升。另外只需要增加少量的参数就有整体识别性能的提升。图2上部分是两个不同测试示例的对应语音原始波形,下部分是其获得的注意力权重(αt)。获得的权重表明引入改进的注意力机制实现了基于RNN的情绪动态分类所需的两个特性。一个特性是信号中的静音帧被自动分配非常小的权重,非静音帧的权重相对较大,另一个特性是与相邻时间帧有关。所以,改进的注意力机制模型不仅仅关注能量,而且能够考虑不同语言部分的情感内容。
表3 IEMOCAP数据库上语音单通道对比识别性能:
通过表4可以理解到对于文本处理来说,LSTM还是具有自己的优势的,因此在结合文本通道时,选择Text-LSTM。图4(a)-(b)是IEMOCAP数据库下语音,文本及融合对比准确率随训练时间变化的测试集结果图。可以看到结合后的模型相较于语音单通道与文本单通道有了巨大的提升。带权重准确率 weighted accuracy分别提升了6.19%和2.43%。根据表5,明显的看出结合语音语义得到的巨大提升,相较于语音单通道无权重准确率与F1分数提高了12.75%和0.0703;相较于语义文本单通道提高了2.25%和0.0275。
图5为最终模型的混淆矩阵,其横坐标为预测的标签,纵坐标为真实标签,其颜色深度代表数据量的多少,颜色越深数据量越多。
表4 IEMOCAP数据库上语义文本单通道对比识别性能
表5 IEMOCAP数据库下语音,文本及融合对比识别性能
表6 IEMOCAP数据库下语音,文本融合维度权重对比识别性能
可以看出当d1=d2时,其情感识别的性能最好。
综上所述,本实施例的基于改进注意力机制结合语义的语音情感识别方法,通过改进的注意力机制与语义方面的补充,大大提高了情感识别性能。而且不仅对含有情感色彩大的帧进行了突出,还同时考虑到了相邻时间帧对其输出的影响,具有更好的时间感受野。同时使用很少的参数就完成了情感识别性能的提升。另外结合语义也对语义中富含的情感信息充分利用,对于整体情感识别是有巨大帮助的。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。
Claims (8)
1.一种基于改进注意力机制并结合语义的语音信息识别方法,其特征是:包括以下步骤:
对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征;
构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;
对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;
融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
2.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法,其特征是:利用LSTM模型处理得到的声学特征。
3.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法,其特征是:利用注意力机制对LSTM模型的输出进行加权汇集,通过权重学习到LSTM输出序列中每一时间帧的重要程度。即专注于包含强烈情感特征的话语的特定部分,然后对注意力机制进行改进,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM输出序列每一帧可以关联并利用到相邻帧的信息。
4.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法,其特征是:利用自动语音识别模型,从语言数据转化到对话的文本数据,对于每个话语的文本转录,使用预训练Glove模型嵌入,获得每个话语的向量,利用矩阵的方式表示语义信息,利用LSTM处理长序列的优势,并适量增加深度,使用双层LSTM对语义信息进行处理,随后经过全连接层得到语义通道的高层深度学习特征。
5.如权利要求1所述的一种基于改进注意力机制并结合语义的语音信息识别方法,其特征是:融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果的具体过程包括:
语音通道信息特征和语义通道信息特征串连得到融合特征,并对融合特征用全连接层进行操作,输出经过全连接层与Softmax层得到最后的情感分类结果,其最终的损失函数为多分类交叉熵函数,所有可训练参数的初始化准则为截断高斯分布,更新准则为梯度下降法。
6.一种基于改进注意力机制并结合语义的语音信息识别系统,其特征是:包括:
语音通道信息特征提取模块,被配置为对原始语音数据进行预处理,进行加窗分帧,并对每一帧提取声学特征,构建LSTM模型,通过改进注意力机制优化LSTM模型,将LSTM中的输出序列进行时域卷积,长度跨越单帧上的所有特征,让LSTM模型输出序列每一帧可以关联并利用到相邻帧的信息,得到语音通道信息特征;
语义通道信息特征提取模块,被配置为对于原始语音数据进行自动语音识别,得到对话的文本数据,对于得到的文本数据行进词向量化预处理,对于词向量化后的文本序列,用双层LSTM与全连接层得到高层深度学习特征,得到语义通道信息特征;
融合模块,被配置为融合语音通道信息特征和语义通道信息特征,得到最终语音识别结果。
7.一种计算机可读存储介质,其特征是:其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行权利要求1-5中任一项所述的基于改进注意力机制并结合语义的语音信息识别方法。
8.一种终端设备,其特征是:包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行权利要求1-5中任一项所述的基于改进注意力机制并结合语义的语音信息识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905808.7A CN110675860A (zh) | 2019-09-24 | 2019-09-24 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910905808.7A CN110675860A (zh) | 2019-09-24 | 2019-09-24 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110675860A true CN110675860A (zh) | 2020-01-10 |
Family
ID=69077423
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910905808.7A Pending CN110675860A (zh) | 2019-09-24 | 2019-09-24 | 基于改进注意力机制并结合语义的语音信息识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675860A (zh) |
Cited By (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111508487A (zh) * | 2020-04-13 | 2020-08-07 | 深圳市友杰智新科技有限公司 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111680591A (zh) * | 2020-05-28 | 2020-09-18 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN112382278A (zh) * | 2020-11-18 | 2021-02-19 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112466297A (zh) * | 2020-11-19 | 2021-03-09 | 重庆兆光科技股份有限公司 | 一种基于时域卷积编解码网络的语音识别方法 |
CN112489637A (zh) * | 2020-11-03 | 2021-03-12 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
CN112580366A (zh) * | 2020-11-30 | 2021-03-30 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
CN112949684A (zh) * | 2021-01-28 | 2021-06-11 | 天津大学 | 一种基于强化学习框架的多模态检测对话情感信息的方法 |
CN112967737A (zh) * | 2021-04-07 | 2021-06-15 | 广州伟宏智能科技有限公司 | 一种对话文本的深度学习情感识别方法 |
CN113010683A (zh) * | 2020-08-26 | 2021-06-22 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及系统 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN113408539A (zh) * | 2020-11-26 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 数据识别方法、装置、电子设备及存储介质 |
WO2022147692A1 (zh) * | 2021-01-06 | 2022-07-14 | 京东方科技集团股份有限公司 | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 |
CN115188389A (zh) * | 2021-04-06 | 2022-10-14 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN115206305A (zh) * | 2022-09-16 | 2022-10-18 | 北京达佳互联信息技术有限公司 | 语义文本的生成方法、装置、电子设备及存储介质 |
WO2023222090A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的信息推送方法和装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN109285562A (zh) * | 2018-09-28 | 2019-01-29 | 东南大学 | 基于注意力机制的语音情感识别方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110032645A (zh) * | 2019-04-17 | 2019-07-19 | 携程旅游信息技术(上海)有限公司 | 文本情感识别方法、系统、设备以及介质 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
-
2019
- 2019-09-24 CN CN201910905808.7A patent/CN110675860A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108597541A (zh) * | 2018-04-28 | 2018-09-28 | 南京师范大学 | 一种增强愤怒与开心识别的语音情感识别方法及系统 |
CN109285562A (zh) * | 2018-09-28 | 2019-01-29 | 东南大学 | 基于注意力机制的语音情感识别方法 |
CN109614895A (zh) * | 2018-10-29 | 2019-04-12 | 山东大学 | 一种基于attention特征融合的多模态情感识别的方法 |
CN110032645A (zh) * | 2019-04-17 | 2019-07-19 | 携程旅游信息技术(上海)有限公司 | 文本情感识别方法、系统、设备以及介质 |
CN110059662A (zh) * | 2019-04-26 | 2019-07-26 | 山东大学 | 一种深度视频行为识别方法及系统 |
CN110097894A (zh) * | 2019-05-21 | 2019-08-06 | 焦点科技股份有限公司 | 一种端到端的语音情感识别的方法和系统 |
Non-Patent Citations (2)
Title |
---|
CHAN WOO LEE等: ""Convolutional Attention Networks for Multimodal Emotion Recognition from Speech and Text Data"", 《PROCEEDINGS OF THE FIRST GRAND CHALLENGE AND WORKSHOP ON HUMAN MULTIMODAL LANGUAGE (CHALLENGE-HML)》 * |
黄晓辉等: ""基于循环神经网络的藏语语音识别声学模型"", 《中文信息学报》 * |
Cited By (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111429938A (zh) * | 2020-03-06 | 2020-07-17 | 江苏大学 | 一种单通道语音分离方法、装置及电子设备 |
CN111508487A (zh) * | 2020-04-13 | 2020-08-07 | 深圳市友杰智新科技有限公司 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
CN111508487B (zh) * | 2020-04-13 | 2023-07-18 | 深圳市友杰智新科技有限公司 | 基于膨胀机制的特征提取方法及语音命令识别方法 |
CN111524519A (zh) * | 2020-05-28 | 2020-08-11 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111680591A (zh) * | 2020-05-28 | 2020-09-18 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN111680591B (zh) * | 2020-05-28 | 2023-01-13 | 天津大学 | 一种基于特征融合和注意力机制的发音反演方法 |
CN111524519B (zh) * | 2020-05-28 | 2022-09-30 | 中国科学技术大学 | 采用高级特征融合的端到端多通道语音识别方法 |
CN111816166A (zh) * | 2020-07-17 | 2020-10-23 | 字节跳动有限公司 | 声音识别方法、装置以及存储指令的计算机可读存储介质 |
CN111816159A (zh) * | 2020-07-24 | 2020-10-23 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN111816159B (zh) * | 2020-07-24 | 2022-03-01 | 腾讯科技(深圳)有限公司 | 一种语种识别方法以及相关装置 |
CN113010683A (zh) * | 2020-08-26 | 2021-06-22 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及系统 |
CN113010683B (zh) * | 2020-08-26 | 2022-11-29 | 齐鲁工业大学 | 基于改进图注意力网络的实体关系识别方法及系统 |
CN112489637A (zh) * | 2020-11-03 | 2021-03-12 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112489637B (zh) * | 2020-11-03 | 2024-03-26 | 北京百度网讯科技有限公司 | 语音识别方法和装置 |
CN112382278A (zh) * | 2020-11-18 | 2021-02-19 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112382278B (zh) * | 2020-11-18 | 2021-08-17 | 北京百度网讯科技有限公司 | 流式语音识别结果显示方法、装置、电子设备和存储介质 |
CN112466297B (zh) * | 2020-11-19 | 2022-09-30 | 重庆兆光科技股份有限公司 | 一种基于时域卷积编解码网络的语音识别方法 |
CN112466297A (zh) * | 2020-11-19 | 2021-03-09 | 重庆兆光科技股份有限公司 | 一种基于时域卷积编解码网络的语音识别方法 |
CN113408539A (zh) * | 2020-11-26 | 2021-09-17 | 腾讯科技(深圳)有限公司 | 数据识别方法、装置、电子设备及存储介质 |
CN112580366A (zh) * | 2020-11-30 | 2021-03-30 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112580366B (zh) * | 2020-11-30 | 2024-02-13 | 科大讯飞股份有限公司 | 情绪识别方法以及电子设备、存储装置 |
CN112420028A (zh) * | 2020-12-03 | 2021-02-26 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
CN112420028B (zh) * | 2020-12-03 | 2024-03-19 | 上海欣方智能系统有限公司 | 一种用于对语音信号进行语义识别的系统及方法 |
WO2022121150A1 (zh) * | 2020-12-10 | 2022-06-16 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
CN112599122A (zh) * | 2020-12-10 | 2021-04-02 | 平安科技(深圳)有限公司 | 基于自注意力机制和记忆网络的语音识别方法及装置 |
CN112541356A (zh) * | 2020-12-21 | 2021-03-23 | 山东师范大学 | 一种生物医学命名实体识别的方法和系统 |
WO2022147692A1 (zh) * | 2021-01-06 | 2022-07-14 | 京东方科技集团股份有限公司 | 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质 |
CN112949684B (zh) * | 2021-01-28 | 2022-07-29 | 天津大学 | 一种基于强化学习框架的多模态检测对话情感信息的方法 |
CN112949684A (zh) * | 2021-01-28 | 2021-06-11 | 天津大学 | 一种基于强化学习框架的多模态检测对话情感信息的方法 |
CN115188389A (zh) * | 2021-04-06 | 2022-10-14 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN115188389B (zh) * | 2021-04-06 | 2024-04-05 | 京东科技控股股份有限公司 | 基于神经网络的端到端语音增强方法、装置 |
CN112967737A (zh) * | 2021-04-07 | 2021-06-15 | 广州伟宏智能科技有限公司 | 一种对话文本的深度学习情感识别方法 |
CN113268974B (zh) * | 2021-05-18 | 2022-11-29 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
CN113268974A (zh) * | 2021-05-18 | 2021-08-17 | 平安科技(深圳)有限公司 | 多音字发音标注方法、装置、设备及存储介质 |
WO2023222090A1 (zh) * | 2022-05-20 | 2023-11-23 | 青岛海尔电冰箱有限公司 | 基于深度学习的信息推送方法和装置 |
CN115206305B (zh) * | 2022-09-16 | 2023-01-20 | 北京达佳互联信息技术有限公司 | 语义文本的生成方法、装置、电子设备及存储介质 |
CN115206305A (zh) * | 2022-09-16 | 2022-10-18 | 北京达佳互联信息技术有限公司 | 语义文本的生成方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110675860A (zh) | 基于改进注意力机制并结合语义的语音信息识别方法及系统 | |
CN108597541B (zh) | 一种增强愤怒与开心识别的语音情感识别方法及系统 | |
Lopez-Moreno et al. | On the use of deep feedforward neural networks for automatic language identification | |
US10008209B1 (en) | Computer-implemented systems and methods for speaker recognition using a neural network | |
Sultana et al. | Bangla speech emotion recognition and cross-lingual study using deep CNN and BLSTM networks | |
CN105760852A (zh) | 一种融合脸部表情和语音的驾驶员情感实时识别方法 | |
Levitan et al. | Combining Acoustic-Prosodic, Lexical, and Phonotactic Features for Automatic Deception Detection. | |
Pinto et al. | Exploiting contextual information for improved phoneme recognition | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
Joshi et al. | A Study of speech emotion recognition methods | |
Gupta et al. | Speech emotion recognition using svm with thresholding fusion | |
Adiba et al. | Towards immediate backchannel generation using attention-based early prediction model | |
CN114898779A (zh) | 融合多模态的语音情感识别方法及系统 | |
Cao et al. | Speaker-independent speech emotion recognition based on random forest feature selection algorithm | |
Praksah et al. | Analysis of emotion recognition system through speech signal using KNN, GMM & SVM classifier | |
Elbarougy | Speech emotion recognition based on voiced emotion unit | |
CN106297769A (zh) | 一种应用于语种识别的鉴别性特征提取方法 | |
Sivaram et al. | Data-driven and feedback based spectro-temporal features for speech recognition | |
Shah et al. | Articulation constrained learning with application to speech emotion recognition | |
KR102429656B1 (ko) | 화자 인식을 위한 음성인식기 기반 풀링 기법의 화자 임베딩 추출 방법 및 시스템, 그리고 이를 위한 기록매체 | |
Lingampeta et al. | Human emotion recognition using acoustic features with optimized feature selection and fusion techniques | |
Shekofteh et al. | MLP-based isolated phoneme classification using likelihood features extracted from reconstructed phase space | |
Rammohan et al. | Speech signal-based modelling of basic emotions to analyse compound emotion: Anxiety | |
Malla et al. | A DFC taxonomy of Speech emotion recognition based on convolutional neural network from speech signal | |
Shanta et al. | A comparative analysis of different approach for basic emotions recognition from speech |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200110 |