CN111128240B - 一种基于对抗语义擦除的语音情感识别方法 - Google Patents

一种基于对抗语义擦除的语音情感识别方法 Download PDF

Info

Publication number
CN111128240B
CN111128240B CN201911317659.9A CN201911317659A CN111128240B CN 111128240 B CN111128240 B CN 111128240B CN 201911317659 A CN201911317659 A CN 201911317659A CN 111128240 B CN111128240 B CN 111128240B
Authority
CN
China
Prior art keywords
speech
voice
emotion
features
recognition model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911317659.9A
Other languages
English (en)
Other versions
CN111128240A (zh
Inventor
王曰海
邓梦霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201911317659.9A priority Critical patent/CN111128240B/zh
Publication of CN111128240A publication Critical patent/CN111128240A/zh
Application granted granted Critical
Publication of CN111128240B publication Critical patent/CN111128240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于对抗语义擦除的语音情感识别方法,包括:(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别。该方法能够快速准确地基于输入的语音数据识别语音情感类别。

Description

一种基于对抗语义擦除的语音情感识别方法
技术领域
本发明涉及一种离散语音情感识别领域,尤其涉及一种基于对抗语义擦除的语音情感识别方法。
背景技术
语音是人交流沟通的主要方式,也是最自然、最主流的人机交互方式之一。然而在语音交互过程中,系统大多只是学习了语音的内容,却往往忽略语音中所蕴含的情感信息,导致使用者感觉到死板和挫败,而语音情感识别则是改善用户体验感的一种新型交互技术。
语音情感识别是指通过语音中蕴含的情感信息,判断说话人此时的情感状态。在日常生活和交流中,人可以通过情绪感知来判断对方的状态和喜好,因此用户也期待计算机能感知和判断他的情绪和喜好,并做出自然的回应,让使用者得到更好的人机交互体验。随着移动通信技术和互联网技术的发展,语音情感识别在远程教育、电子游戏、智能玩具、陪伴机器人等多方面有着重要的应用价值。
现有语义情感识别研究大多在以下两个方面进行优化:一是提取更具表征力的语音情感特征,包括谱相关特征、韵律特征、声音质量特征、神经网络瓶颈输出等自制特征以及上述特征的融合特征等。二是选择更具识别能力的识别器,包括传统的机器学习分类器和深度学习分类器。
然而不同于语义信息,语音中的情感信息作为一个高维度特征,具有很强的不确定性和主观性,人工很难制定的有效的语音特征提取策略。同时在小数据量限制的情况下,基于统计学意义的深度学习方法也很容易受到不同语义差异间的干扰,导致现有方法识别结果准确率较低,跨数据集识别效果差。因此如何在语音情感识别中去除语义信息的干扰,提高识别准确率和跨数据集表现力,成为了本领域内技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种基于对抗语义擦除的语音情感识别方法,该方法能够快速准确地基于输入的语音数据识别语音情感类别。
为实现上述发明目的,本发明提供的技术方案为:
一种基于对抗语义擦除的语音情感识别方法,包括以下步骤:
(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;
(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;
(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别;
所述语音识别模型和所述语音情感识别模型的网络结构相同,经过对抗训练确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
与现有技术相比,本发明具有的有益效果为:
(1)本发明通过基于语音识别任务和语音情感识别任务之间学习到的语音特征的对抗性,在语音情感识别中去除了语义内容的干扰,提高了语音情感识别的准确率以及模型跨数据集跨语种的表现能力。
(2)本发明在小数据量的限制下,利用大数据量的语音识别任务进行辅助,提取了更纯正的语音情感特征,克服了语音情感数据量少的困难。
(3)本发明使用的是除语义之外的情感信息,能有效克服“言不由衷”、情感掩饰的使用情景,识别更真实的情感状态。
(4)本发明主要应用于针对独居老人和学龄前儿童的陪伴机器人,并针对相关场景进行了任务适应,具有很高的商业应用价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动前提下,还可以根据这些附图获得其他附图。
图1是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的流程图;
图2是本发明实施例提供的对原始语音数据进行预处理获得输入特征的过程;
图3是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的总体框架图;
图4(a)~图4(d)是本发明实施例提供的识别准确率图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例对本发明进行进一步的详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本发明,并不限定本发明的保护范围。
图1是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的流程图;图2是本发明实施例提供的对原始语音数据进行预处理获得输入特征的过程;图3是本发明实施例提供的基于对抗语义擦除的语音情感识别方法的总体框架图;参见图1~3,该语音情感识别方法包括以下步骤:
步骤1,获取原始语音数据,并对原始语音数据进行预处理获得输入特征。
步骤1中,对原始语音数据依次进行分帧加窗、傅里叶变换(FFT)和复数分解提取原始语音数据对应的时频谱中的实部谱,并对实部谱进行数据平滑,获得输入特征。
具体地,采用以下平滑函数对实部谱进行数据平滑,
log 1p=log(x+1)
其中,x表示输入的待平滑数据。
步骤2,利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征。
该语音识别模型是利用大量语音识别数据训练获得的,由于语音识别模型在大量不同语义内容、不同情绪状态的测试样本中表现优秀,因此可以证明该语音识别模型学习到了去除了情感信息影响的有效语义特征。
步骤3,利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别。
由于语音情感识别模型和语音识别模型在语音识别任务和语音情感识别任务之间的特征点对抗性,采用采用语义擦除的方法从语音情感识别模型的第二特征提取器输出的语音特征中除去语音识别模型的第一特征提取器输出的语义特征。
具体地,采用特征相减、异或、卷积、特征融合中的至少一种方式从语音特征中擦除所述语义特征获得情感特征。具体地,所述特征融合包括主成成分分析(PCA)、奇异值分解(SVD)等。
其中,特征相减擦除方法如下:
Figure BDA0002326277810000051
其中,Fs表示语义特征,Fa表示语音特征,Fe表示情感特征,
本发明中,所述语音识别模型和语音情感识别模型采用深度学习网络经对抗训练获得。
具体地,所述语音识别模型和语音情感识别模型采用CNN和RNN相结合的网络,经对抗训练获得。
具体地,所述语音识别模型和语音情感识别模型的训练过程为:
获得语音情感识别数据集,并对语音情感识别数据集中的语音数据进行预处理获得输入特征,该输入特征以及对应的识别语义和语音情感类别组成训练样本,构成语音情感训练集;
搭建网络结构相同的语音识别模型和所述语音情感识别模型;
获得语音识别数据集,对语音识别数据集中的语音数据,进行与语音情感识别相同的预处理,获得语音识别输入特征,并使用CTC损失函数和该语音识别输入特征,预训练语音识别模型;
使用语音情感训练集同时训练语音情感模型和微调(fine tuning)预训练后的语音识别模型,训练步骤如下:
(1)使用语音情感训练集中的语音输入数据和识别语义,用CTC损失函数微调包含第一特征提取器和第一识别器在内的语音识别模型参数;
(2)提取第一特征提取器输出的语义特征;
(3)将语音情感训练集中的语音输入数据输入第二特征提取器,其输出除擦除步骤(2)中的语义特征后,输入第二识别器,利用交叉熵损失函数训练情感分类后,更新包含第二特征提取器和第二识别器在内的语音情感模型参数,并微调第一特征提取器参数;
重复步骤以上步骤,直至模型训练稳定;
(4)重复步骤以上步骤,直至模型训练稳定训练结束后;
确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
上述基于对抗语义擦除的语音情感识别方法可以应用到独居老人和学龄前儿童生活陪伴中,原始语音数据可以为英语和德语等语言,识别的语音情感类别包括悲伤、愤怒、开心以及中性四种情绪类别。
图4(a)~图4(d)为本发明实施例提供的识别准确率图,具体表示使用语义擦除和未使用情况下分别在德语和英语数据集上的结果。由图4(a)~图4(d)可知,使用了语义擦除的方法在德语数据集上准确率提高了约2%,在英语数据集上也能保证高准确率并提高系统训练的稳定性。同时使用了语义擦除方法后,英语数据集上训练好的模型在德语数据集上的预测准确率提高了6%,德语数据集上训练好的模型在英语数据集上的预测准确率提高了0.59%,该结果表明该基于对抗语义擦除的语音情感识别方法能有效提高语音情感识别准确率,并且能提高模型跨数据集跨语种的表现能力。
以上所述的具体实施方式对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的最优选实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于对抗语义擦除的语音情感识别方法,其特征在于,所述方法包括以下步骤:
(1)获取原始语音数据,并对原始语音数据进行预处理获得输入特征;
(2)利用包含第一特征提取器和第一识别器的语音识别模型对输入特征进行识别,获得识别语义,同时提取特征提取器输出的语义特征;
(3)利用包含第二特征提取器和第二识别器的语音情感识别模型的第二特征提取器对输入特征进行提取获得语音特征,从语音特征中擦除所述语义特征获得情感特征,利用第二识别器识别对输入的情感特征进行识别,输出语音情感类别;
所述语音识别模型和所述语音情感识别模型的网络结构相同,经过对抗训练确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
2.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(1)中,对原始语音数据依次进行分帧加窗、傅里叶变换和复数分解提取原始语音数据对应的时频谱中的实部谱,并对实部谱进行数据平滑,获得输入特征。
3.如权利要求2所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(1)中,采用以下平滑函数对实部谱进行数据平滑,
log 1p=log(x+1)
其中,x表示输入的待平滑数据。
4.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,步骤(3)中,采用特征相减、异或、卷积、特征融合中的至少一种方式从语音特征中擦除所述语义特征获得情感特征。
5.如权利要求4所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述特征融合包括主成成分分析、奇异值分解。
6.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型采用深度学习网络经对抗训练获得。
7.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型采用CNN和RNN相结合的网络,经对抗训练获得。
8.如权利要求1所述的基于对抗语义擦除的语音情感识别方法,其特征在于,所述语音识别模型和语音情感识别模型的训练过程为:
获得语音情感识别数据集,并对语音情感识别数据集中的语音数据进行预处理获得输入特征,该输入特征以及对应的识别语义和语音情感类别组成训练样本,构成语音情感训练集;
搭建网络结构相同的语音识别模型和所述语音情感识别模型;
获得语音识别数据集,对语音识别数据集中的语音数据,进行与语音情感识别相同的预处理,获得语音识别输入特征,并使用CTC损失函数和该语音识别输入特征,预训练语音识别模型;
使用语音情感训练集同时训练语音情感模型和微调预训练后的语音识别模型,训练步骤如下:
(1)使用语音情感训练集中的语音输入数据和识别语义,用CTC损失函数微调包含第一特征提取器和第一识别器在内的语音识别模型参数;
(2)提取第一特征提取器输出的语义特征;
(3)将语音情感训练集中的语音输入数据输入第二特征提取器,其输出除擦除步骤(2)中的语义特征后,输入第二识别器,利用交叉熵损失函数训练情感分类后,更新包含第二特征提取器和第二识别器在内的语音情感模型参数,并微调第一特征提取器参数;
(4)重复步骤以上步骤,直至模型训练稳定;
训练结束后,确定网络参数,从所述语音识别模型中输入层起提取任意个网络层组成第一特征提取器,剩下网络层组成第一识别器;从所述语音情感识别模型中输入层起提取与第一特征提取器相同个数的网络层组成第二特征提取器,剩下网络层组成第二识别器。
CN201911317659.9A 2019-12-19 2019-12-19 一种基于对抗语义擦除的语音情感识别方法 Active CN111128240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911317659.9A CN111128240B (zh) 2019-12-19 2019-12-19 一种基于对抗语义擦除的语音情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911317659.9A CN111128240B (zh) 2019-12-19 2019-12-19 一种基于对抗语义擦除的语音情感识别方法

Publications (2)

Publication Number Publication Date
CN111128240A CN111128240A (zh) 2020-05-08
CN111128240B true CN111128240B (zh) 2022-05-17

Family

ID=70500931

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911317659.9A Active CN111128240B (zh) 2019-12-19 2019-12-19 一种基于对抗语义擦除的语音情感识别方法

Country Status (1)

Country Link
CN (1) CN111128240B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111710349B (zh) * 2020-06-23 2023-07-04 长沙理工大学 一种语音情感识别方法、系统、计算机设备和存储介质
CN112905776B (zh) * 2021-03-17 2023-03-31 西北大学 一种情感对话模型构建方法、情感对话系统及方法
CN113436649B (zh) * 2021-06-25 2023-03-21 武汉大晟极科技有限公司 一种语音情感标定辅助方法及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN102893326A (zh) * 2011-05-11 2013-01-23 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法
CN106227054A (zh) * 2016-08-30 2016-12-14 广东美的制冷设备有限公司 一种基于用户情感的温度控制方法、系统和家电

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130018875A1 (en) * 2011-07-11 2013-01-17 Lexxe Pty Ltd System and method for ordering semantic sub-keys utilizing superlative adjectives

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101930735A (zh) * 2009-06-23 2010-12-29 富士通株式会社 语音情感识别设备和进行语音情感识别的方法
CN102893326A (zh) * 2011-05-11 2013-01-23 北京航空航天大学 结合情感点的汉语语音情感提取及建模方法
CN102723078A (zh) * 2012-07-03 2012-10-10 武汉科技大学 基于自然言语理解的语音情感识别方法
CN103258532A (zh) * 2012-11-28 2013-08-21 河海大学常州校区 一种基于模糊支持向量机的汉语语音情感识别方法
CN105609116A (zh) * 2015-12-23 2016-05-25 东南大学 一种语音情感维度区域的自动识别方法
CN106227054A (zh) * 2016-08-30 2016-12-14 广东美的制冷设备有限公司 一种基于用户情感的温度控制方法、系统和家电

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向语音情感识别的深度学习算法研究;朱芳枚;《硕士学位论文》;20190531;I136-130 *

Also Published As

Publication number Publication date
CN111128240A (zh) 2020-05-08

Similar Documents

Publication Publication Date Title
Chen et al. Two-layer fuzzy multiple random forest for speech emotion recognition in human-robot interaction
Venkataramanan et al. Emotion recognition from speech
CN107578775B (zh) 一种基于深度神经网络的多分类语音方法
CN111128240B (zh) 一种基于对抗语义擦除的语音情感识别方法
Kamaruddin et al. Cultural dependency analysis for understanding speech emotion
Schuller et al. Emotion recognition in the noise applying large acoustic feature sets
US20170270922A1 (en) Smart home control method based on emotion recognition and the system thereof
CN105047194B (zh) 一种用于语音情感识别的自学习语谱图特征提取方法
CN111312245B (zh) 一种语音应答方法、装置和存储介质
Kumbhar et al. Speech emotion recognition using MFCC features and LSTM network
CN111402928B (zh) 基于注意力的语音情绪状态评估方法、装置、介质及设备
CN108986798B (zh) 语音数据的处理方法、装置及设备
KR20210070213A (ko) 음성 사용자 인터페이스
Noroozi et al. Supervised vocal-based emotion recognition using multiclass support vector machine, random forests, and adaboost
Shahriar et al. Classifying maqams of Qur’anic recitations using deep learning
CN108831450A (zh) 一种基于用户情绪识别的虚拟机器人人机交互方法
Alghifari et al. On the use of voice activity detection in speech emotion recognition
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
Shah et al. Speech emotion recognition based on SVM using MATLAB
CN114360584A (zh) 一种基于音素级的语音情感分层式识别方法及系统
Lanjewar et al. Speech emotion recognition: a review
CN117219046A (zh) 一种交互语音情感控制方法及系统
CN116434758A (zh) 声纹识别模型训练方法、装置、电子设备及存储介质
Nazid et al. Improved speaker-independent emotion recognition from speech using two-stage feature reduction
CN114758676A (zh) 一种基于深度残差收缩网络的多模态情感识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant