CN113808622A - 基于中文语音和文本的情感识别系统及方法 - Google Patents

基于中文语音和文本的情感识别系统及方法 Download PDF

Info

Publication number
CN113808622A
CN113808622A CN202111089938.1A CN202111089938A CN113808622A CN 113808622 A CN113808622 A CN 113808622A CN 202111089938 A CN202111089938 A CN 202111089938A CN 113808622 A CN113808622 A CN 113808622A
Authority
CN
China
Prior art keywords
features
convolution module
information
layer
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111089938.1A
Other languages
English (en)
Other versions
CN113808622B (zh
Inventor
刘晓瑞
葛树志
许玉蕊
马桂金
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qingdao University
Original Assignee
Qingdao University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qingdao University filed Critical Qingdao University
Priority to CN202111089938.1A priority Critical patent/CN113808622B/zh
Publication of CN113808622A publication Critical patent/CN113808622A/zh
Application granted granted Critical
Publication of CN113808622B publication Critical patent/CN113808622B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明公开了一种基于中文语音和文本的情感识别系统,其包括依次连接的语音和文本信息提取单元、预处理操作单元和特征提取单元,语音和文本信息提取单元基于神经网络将获取的语音信息转换成相应的文本信息;预处理操作单元用于对原始的语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC,对文本信息进行分词和去停用词处理后,通过word2vec建立词典获得词向量;特征提取单元3用于梅尔频率倒谱系数MFCC和词向量的特征提取和融合,从而获取最后的情感识别结果。通过实验验证该系统最终识别准确率达到90.02%,相比于传统的双模态情感识别网络,在相同数据集的情况下,准确率提高了7.5%。

Description

基于中文语音和文本的情感识别系统及方法
技术领域
本发明涉及情感识别技术领域,具体涉及一种基于中文语音和文本的情感识别系统及方法。
背景技术
情感识别是人机交互的重要组成部分,现阶段,不同的情感识别运用到不同领域,如远程教学,辅助驾驶,心理诊断等。准确的情感识别有利于更好的情感反馈和辅助相关任务的完成。然而人类情感的表达并不是由单一状态决定的,在复杂的多样的环境中,情感的表达方式也是多种多样,因此这给情感识别任务带来了极大的挑战。情感的持续时间长短不一并且不同人的表达和感知情绪的方式各异,有效地提升情感识别地鲁棒性和准确性是研究者追求的目标。中文相比于英文,结构复杂,表达多样化,情感关键词的提取也较为困难,且数据库较少。这些因素加大了对中文情感识别的困难,所以对中文进行情感识别具有一定的挑战性。
发明内容
本发明的目的是针对现有技术存在的问题,提供一种基于中文语音和文本的情感识别系统及方法。
为了实现上述目的,本发明采用以下技术方案:
一种基于中文语音和文本的情感识别系统,包括依次连接的语音和文本信息提取单元、预处理操作单元和特征提取单元,语音和文本信息提取单元基于神经网络将获取的语音信息转换成相应的文本信息;预处理操作单元用于对原始的语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC,对文本信息进行分词和去停用词处理后,通过word2vec建立词典获得词向量;特征提取单元3用于梅尔频率倒谱系数MFCC和词向量的特征提取和融合,从而获取最后的情感识别结果。
进一步地,所述特征提取单元包括依次连接的主模块、并联卷积模块和记忆网络,其中,主模块包括语音预处理单元和文本预处理单元,语音预处理单元用于对梅尔频率倒谱系数MFCC进行处理得到语音信息的浅层特征,文本预处理单元用于对词向量的进行处理得到文本信息的浅层特征,语音信息的浅层特征和文本信息的浅层特征的输出通道和大小保持一致,并联卷积模块包括结构相同的第一并联卷积模块、第二并联卷积模块和第三并联卷积模块,第一并联卷积模块与语音预处理单元连接,用于对语音信息的浅层特征进行进一步的语音特征提取,第二并联卷积模块与文本预处理单元连接,用于对文本信息的浅层特征进行进一步的文本特征提取,第一并联卷积模块、第二并联卷积模块输出端均与第三并联卷积模块连接,第三并联卷积模块用于将第一并联卷积模块和第二并联卷积模块提取的特征拼接后进行深层特征提取。
进一步地,所述语音预处理单元由传统卷积层、第一深度可分离卷积层、池化层和第二深度可分离卷积层依次连接而成。
进一步地,文本预处理单元由依次连接的嵌入层和双向长短时记忆网络组成。
进一步地,第一并联卷积模块、第二并联卷积模块和第三并联卷积模块结构相同,均包括并联的深度卷积模块、普通卷积模块和池化卷积模块,所述深度卷积模块包括深度可分离卷积层、LeakyReLU激活函数和批量归一化层,所述普通卷积模块包括传统卷积层、LeakyReLU激活函数和批量归一化层,池化卷积模块包括池化层,普通卷积模块和池化卷积模块提取到的特征通过拼接融合方式得到新的特征,拼接后的特征和深度卷积模块提取到的特征通过相加融合的方式提取到最终的特征。
记忆网络其包括依次连接的第一双向长短时记忆网络、第二双向长短时记忆网络和注意力机制,第一双向长短时记忆网络和第二双向长短时记忆网络结构相同,用于获取上下文信息,确保时序信息的连续性,注意力机制用于突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征。
一种基于中文语音和文本的情感识别方法,具备包括以下步骤:
S1、语音和文本信息提取单元通过麦克风获取外界输入的声音并经过简单的神经网络提取出相应的语音信息,利用神经网络将获取到的声音转换成相应的文本信息;
S2、然后,将获取的语音信息和文本信息分别送入相应的预处理操作单元进行预处理操作;语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC;原始的文本信号经过分词和去停用词处理后,通过word2vec建立词典获得词向量。
S3、最后,将处理后的语音和文本信息送入特征提取单元中,进行相应的特征提取,从而获取最后的情感识别结果。
步骤S3又具体细分为以下步骤:
S301、将接收到的梅尔频率倒谱系数MFCC送入主模块中,在主模块中依次经过传统卷积层、深度可分离卷积层、池化层和深度可分离卷积层的作用实现对梅尔频率倒谱系数MFCC的浅层特征提取,得到语音信息的浅层特征;
S302、将接收到的词向量送入主模块中,在主模块中依次经过嵌入层和双向长短时记忆网络实现对词向量的浅层特征提取,得到文本信息的浅层特征;
S303、语音信息的浅层特征输入到第一并联卷积模块中,在第一并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,语音信息的浅层特征经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,语音信息的浅层特征经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层做归一化处理;在池化模块中,语音信息的浅层特征只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到语音信息的深度特征;
S304、与步骤S303同时,文本信息的浅层特征输入到第二并联卷积模块,在第二并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,文本信息的浅层特征经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,文本信息的浅层特征经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层做归一化处理;在池化模块中,文本信息的浅层特征只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到文本信息的深度特征;
S305、步骤S303和步骤S305最终输出的语音信息的深度特征和文本信息的深度特征均输入到第三并联卷积模块,在第三并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层N做归一化处理;在池化模块中,只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到融合信息的深度特征;
S306、步骤S305输出的融合信息的深度特征通过两层双向长短时记忆网络获取上下文信息,确保时序信息的连续性,然后通过添加注意力机制,突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征。
本发明与现有技术相比,具有如下优点:
(1)特征提取单元将卷积神经网络与循环神经网络相结合,卷积神经网络通过挖掘局部信息聚合获取整体信息,相比于循环神经网络减少训练参数,防止梯度消失;循环神经网络则可以对整个序列建模并捕捉获取长期依赖关系,从而获取连续信息的相关信息;
(2)设计了并联卷积模块,该模块包含第一并联卷积模块,第二并联卷积模块和第三并联卷积模块,这些模块均是将深度卷积模块、普通卷积模块和池化模块并联,实现对相同数据同时进行特征提取;然后将普通卷积模块和池化模块所提取的特征进行拼接融合,从而充分提取该层的特征信息,增加了最终输出特征的多样性;最后将拼接后的特征与深度卷积模块所提取的信息进行相加融合,对每个维度的特征进行增强和补充,突出重要特征信息,确保充分提取上层信息;此外,池化层删除了前一层的冗余信息;深度可分离卷积层相比于传统卷积层减少了训练参数,从而进一步实现网络轻量化;
(3)为确保模型的鲁棒性和识别准确率,选择在并联卷积模块进行语音信息和文本信息的融合,在该模块进行融合既保证了相关信息的充分融合,同时,又因已使用卷积神经网络对原始输入信号进行浅层特征提取,防止冗余信息对识别的干扰,并且,相对于在双向长短时记忆网络中融合,还可以减少训练参数,确保了模型的轻量化。
附图说明
图1为本发明的涉及的基于中文语音和文本的情感识别系统的模型结构示意图。
图2为本发明涉及的特征提取单元的网络结构图。
图3为本发明涉及的并联模块结构示意图。
图标符号说明:
1:语音和文本信息提取单元,2:预处理操作单元,3:特征提取单元,31:主模块,32:并联卷积模块,33:记忆模块,32A:第一并联卷积,32B:第二并联卷积,32C:第三并联卷积,321:深度卷积模块,322:普通卷积模块,323:池化模块,MFCC:梅尔频率倒谱系数,B:双向长短时记忆网络,A:注意力机制,C:传统卷积层,S:深度可分离卷积层,P:池化层,E:嵌入层,N:批量归一化层,L:LeakyReLU激活函数
具体实施方式
下面给出的实施例以对本发明作进一步说明。有必要在此指出的是以下实施例不能理解为对本发明保护范围的限制,如果该领域的技术熟练人员根据上述本发明内容对本发明做出一些非本质的改进和调整,仍属于本发明保护范围。
实施例1
本实施涉及的一种基于中文语音和文本的情感识别系统,包括依次连接的语音和文本信息提取单元1、预处理操作单元2和特征提取单元3,语音和文本信息提取单元1基于神经网络将获取的语音信息转换成相应的文本信息;预处理操作单元2用于对原始的语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC,其中,梅尔频率倒谱系数MFCC是一种在进行自动语音识别和说话人判断中广泛运用的特征,其是根据人耳听觉特征提取出来的,与赫兹频率成非线性对应关系;对文本信息进行分词和去停用词处理后,通过word2vec建立词典获得词向量;特征提取单元3用于梅尔频率倒谱系数MFCC和词向量的特征提取和融合,从而获取最后的情感识别结果。
进一步地,所述特征提取单元3包括依次连接的主模块31、并联卷积模块32和记忆网络33,其中,主模块31包括语音预处理单元和文本预处理单元,语音预处理单元用于对梅尔频率倒谱系数MFCC进行处理得到语音信息的浅层特征,文本预处理单元用于对词向量的进行处理得到文本信息的浅层特征,语音信息的浅层特征和文本信息的浅层特征的输出通道和大小保持一致,并联卷积模块32包括结构相同的第一并联卷积模块32A、第二并联卷积模块32B和第三并联卷积模块32C,第一并联卷积模块32A与语音预处理单元连接,用于对语音信息的浅层特征进行进一步的语音特征提取,第二并联卷积模块32B与文本预处理单元连接,用于对文本信息的浅层特征进行进一步的文本特征提取,第一并联卷积模块32A、第二并联卷积模块32B输出端均与第三并联卷积模块32C连接,第三并联卷积模块32C用于将第一并联卷积模块32A和第二并联卷积模块32B提取的特征拼接后进行深层特征提取,从而最终获取较为准确的情感状态,并且保证了输入信息的连续性。
进一步地,所述语音预处理单元由传统卷积层C、第一深度可分离卷积层S、池化层P和第二深度可分离卷积层S依次连接而成,其中,传统卷积层C通过参数共享、局部感知的方式提取所需要的特征,同时降低了网络参数和保障了网络的稀疏性;而第一深度可分离卷积层S和第二深度可分离卷积层S则是在传统卷积层C的基础上进行了很小的改动,即将上一层的多通道的特征,首先将其拆分为单通道的特征,然后对他们分别进行卷积,最后重新堆叠到一起,从而进一步减少训练参数;对于池化层P,通过汇合操作使网络更关注于是否存在某些特征,同时还起到特征降维和防止过拟合发生的作用。
进一步地,文本预处理单元由依次连接的嵌入层E和双向长短时记忆网络B组成,其中,嵌入层E的作用是增加特征之间的关联性,提高网络的识别准确率;双向长短时记忆网络B可以有效地学习时间序列中的动态信息,避免了长期依赖和梯度爆炸地问题,从而能更好地理解上下文信息对该时刻状态的影响;因此,嵌入层E后增加双向长短时记忆网络B可以维持文本之间的序列关系。所述嵌入层E的增加可以增强特征之间的相关性,为保证语音和文本信息融合的可行性,经过主模块31进行浅层特征提取后的语音和文本的输出维度和通道数保持一致,然后再送入并联卷积模块32中。
进一步地,第一并联卷积模块32A、第二并联卷积模块32B和第三并联卷积模块32C结构相同,均包括并联的深度卷积模块321、普通卷积模块322和池化卷积模块323,所述深度卷积模块321包括深度可分离卷积层S、LeakyReLU激活函数L和批量归一化层N,深度可分离卷积层S用于提取输入信息的特征,并且相比于采用传统卷积还可以减少训练参数,保障模型的轻量化,LeakyReLU激活函数L用于增强模块的表达能力,批量归一化层N用于归一化处理,所述普通卷积模块322包括传统卷积层C、LeakyReLU激活函数L和批量归一化层N,传统卷积层C用于提取输入信息的特征,充分挖掘并提取输入信息的特征,保证了信息的完整性和可靠性,LeakyReLU激活函数L用于增强模块的表达能力,批量归一化层N用于归一化处理,池化卷积模块323包括池化层P,池化层P用于提取输入信息的特征,通过过池化的作用提取相邻信息间的重要信息,并且在一定程度上防止过拟合发生,普通卷积模块322和池化卷积模块323提取到的特征通过拼接融合方式得到新的特征,拼接后的特征和深度卷积模块321提取到的特征通过相加融合的方式提取到最终的特征,融合后的新特征既增加了特征的多样性,同时也保证了信息的准确性;除此之外,第一并联卷积模块32A和第二并联卷积模块32B分别对语音和文本进行深度特征提取,然后将提取到的特征进行融合后输入第三并联卷积32C,通过第三并联卷积32C对融合后的信息再进行特征提取,既保障了融合后相关特征的充分提取,并且相比于将融合后的信息直接输入到记忆网络中,还能防止信息冗余和错乱,提高模型最终的识别准确率;
记忆网络33为基于注意力机制的双向长短时记忆网络,其包括两层相同的双向长短时记忆网络B和注意力机制A,双向长短时记忆网络B用于获取上下文信息,确保时序信息的连续性,注意力机制A用于突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征。
一种基于中文语音和文本的情感识别方法,具备包括以下步骤:
S1、语音和文本信息提取单元1通过麦克风获取外界输入的声音并经过简单的神经网络提取出相应的语音信息,利用神经网络将获取到的声音转换成相应的文本信息。
具体地,进行情感识别时,被识别者利用麦克风以普通话的方式表达当时的情感,从麦克风收集到的声音信号通过麦克风将声音信号输入到该情感识别系统中。
S2、然后,将获取的语音信息和文本信息分别送入相应的预处理操作单元2进行预处理操作。
具体地,语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC;原始的文本信号经过分词和去停用词处理后,通过word2vec建立词典获得词向量。
S3、最后,将处理后的语音和文本信息送入特征提取单元3中,进行相应的特征提取,从而获取最后的情感识别结果。
步骤S3又具体细分为以下步骤:
S301、将接收到的梅尔频率倒谱系数MFCC送入主模块31中,在主模块31中依次经过传统卷积层C、深度可分离卷积层S、池化层P和深度可分离卷积层S的作用实现对梅尔频率倒谱系数MFCC的浅层特征提取,得到语音信息的浅层特征;
S302、将接收到的词向量送入主模块31中,在主模块31中依次经过嵌入层E和双向长短时记忆网络B实现对词向量的浅层特征提取,得到文本信息的浅层特征;
S303、语音信息的浅层特征输入到第一并联卷积模块32A中,在第一并联卷积模块32A中同时进入深度卷积模块321、普通卷积模块322和池化卷积模块323进行深度特征提取,在深度卷积模块321中,语音信息的浅层特征经过深度可分离卷积层S的特征提取,然后再利用LeakyReLU激活函数L增强模块的表达能力,最后送入批量归一化层N做归一化处理;在普通卷积模块322中,语音信息的浅层特征经过传统卷积层C的特征提取,然后利用LeakyReLU激活函数L增强其表达能力,最后送入批量归一化层N做归一化处理;在池化模块323中,语音信息的浅层特征只需经过池化层P进行特征提取然后输出;最终普通卷积模块322输出的特征与池化模块323输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块321输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到语音信息的深度特征;
S304、与步骤S303同时,文本信息的浅层特征输入到第二并联卷积模块32B,在第二并联卷积模块32B中同时进入深度卷积模块321、普通卷积模块322和池化卷积模块323进行深度特征提取,在深度卷积模块321中,文本信息的浅层特征经过深度可分离卷积层S的特征提取,然后再利用LeakyReLU激活函数L增强模块的表达能力,最后送入批量归一化层N做归一化处理;在普通卷积模块322中,文本信息的浅层特征经过传统卷积层C的特征提取,然后利用LeakyReLU激活函数L增强其表达能力,最后送入批量归一化层N做归一化处理;在池化模块323中,文本信息的浅层特征只需经过池化层P进行特征提取然后输出;最终普通卷积模块322输出的特征与池化模块323输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块321输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到文本信息的深度特征;
S305、步骤S303和步骤S305最终输出的语音信息的深度特征和文本信息的深度特征均输入到第三并联卷积模块32C,在第三并联卷积模块32C中同时进入深度卷积模块321、普通卷积模块322和池化卷积模块323进行深度特征提取,在深度卷积模块321中,经过深度可分离卷积层S的特征提取,然后再利用LeakyReLU激活函数L增强模块的表达能力,最后送入批量归一化层N做归一化处理;在普通卷积模块322中,经过传统卷积层C的特征提取,然后利用LeakyReLU激活函数L增强其表达能力,最后送入批量归一化层N做归一化处理;在池化模块323中,只需经过池化层P进行特征提取然后输出;最终普通卷积模块322输出的特征与池化模块323输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块321输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到融合信息的深度特征;
S306、步骤S305输出的融合信息的深度特征通过两层双向长短时记忆网络B获取上下文信息,确保时序信息的连续性,然后通过添加注意力机制A,突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征,最终识别出被识别者当时的情感状态。通过实验验证最终识别准确率达到90.02%,相比于传统的双模态情感识别网络,在相同数据集的情况下,准确率提高了7.5%。

Claims (7)

1.一种基于中文语音和文本的情感识别系统,其特征在于,包括依次连接的语音和文本信息提取单元、预处理操作单元和特征提取单元,语音和文本信息提取单元基于神经网络将获取的语音信息转换成相应的文本信息;预处理操作单元用于对原始的语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC,对文本信息进行分词和去停用词处理后,通过word2vec建立词典获得词向量;特征提取单元3用于梅尔频率倒谱系数MFCC和词向量的特征提取和融合,从而获取最后的情感识别结果;
所述特征提取单元包括依次连接的主模块、并联卷积模块和记忆网络,其中,主模块包括语音预处理单元和文本预处理单元,语音预处理单元用于对梅尔频率倒谱系数MFCC进行处理得到语音信息的浅层特征,文本预处理单元用于对词向量的进行处理得到文本信息的浅层特征,语音信息的浅层特征和文本信息的浅层特征的输出通道和大小保持一致,并联卷积模块包括结构相同的第一并联卷积模块、第二并联卷积模块和第三并联卷积模块,第一并联卷积模块与语音预处理单元连接,用于对语音信息的浅层特征进行进一步的语音特征提取,第二并联卷积模块与文本预处理单元连接,用于对文本信息的浅层特征进行进一步的文本特征提取,第一并联卷积模块、第二并联卷积模块输出端均与第三并联卷积模块连接,第三并联卷积模块用于将第一并联卷积模块和第二并联卷积模块提取的特征拼接后进行深层特征提取。
2.根据权利要求1所述的基于中文语音和文本的情感识别系统,所述语音预处理单元由传统卷积层、第一深度可分离卷积层、池化层和第二深度可分离卷积层依次连接而成。
3.根据权利要求2所述的基于中文语音和文本的情感识别系统,文本预处理单元由依次连接的嵌入层和双向长短时记忆网络组成。
4.根据权利要求3所述的基于中文语音和文本的情感识别系统,第一并联卷积模块、第二并联卷积模块和第三并联卷积模块结构相同,均包括并联的深度卷积模块、普通卷积模块和池化卷积模块,所述深度卷积模块包括深度可分离卷积层、LeakyReLU激活函数和批量归一化层,所述普通卷积模块包括传统卷积层、LeakyReLU激活函数和批量归一化层,池化卷积模块包括池化层,普通卷积模块和池化卷积模块提取到的特征通过拼接融合方式得到新的特征,拼接后的特征和深度卷积模块提取到的特征通过相加融合的方式提取到最终的特征。
5.根据权利要求6所述的基于中文语音和文本的情感识别系统,记忆网络其包括依次连接的第一双向长短时记忆网络、第二双向长短时记忆网络和注意力机制,第一双向长短时记忆网络和第二双向长短时记忆网络结构相同,用于获取上下文信息,确保时序信息的连续性,注意力机制用于突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征。
6.一种基于中文语音和文本的情感识别方法,其特征在于,具备包括以下步骤:S1、语音和文本信息提取单元通过麦克风获取外界输入的声音并经过简单的神经网络提取出相应的语音信息,利用神经网络将获取到的声音转换成相应的文本信息;
S2、然后,将获取的语音信息和文本信息分别送入相应的预处理操作单元进行预处理操作;语音信息经过预加重、分帧和加窗处理被转换成梅尔频率倒谱系数MFCC;原始的文本信号经过分词和去停用词处理后,通过word2vec建立词典获得词向量。
S3、最后,将处理后的语音和文本信息送入特征提取单元中,进行相应的特征提取,从而获取最后的情感识别结果。
7.根据权利要求6所述的基于中文语音和文本的情感识别方法,其特征在于,具备包括以下步骤:步骤S3又具体细分为以下步骤:
S301、将接收到的梅尔频率倒谱系数MFCC送入主模块中,在主模块中依次经过传统卷积层、深度可分离卷积层、池化层和深度可分离卷积层的作用实现对梅尔频率倒谱系数MFCC的浅层特征提取,得到语音信息的浅层特征;
S302、将接收到的词向量送入主模块中,在主模块中依次经过嵌入层和双向长短时记忆网络实现对词向量的浅层特征提取,得到文本信息的浅层特征;
S303、语音信息的浅层特征输入到第一并联卷积模块中,在第一并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,语音信息的浅层特征经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,语音信息的浅层特征经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层做归一化处理;在池化模块中,语音信息的浅层特征只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到语音信息的深度特征;
S304、与步骤S303同时,文本信息的浅层特征输入到第二并联卷积模块,在第二并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,文本信息的浅层特征经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,文本信息的浅层特征经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层做归一化处理;在池化模块中,文本信息的浅层特征只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到文本信息的深度特征;
S305、步骤S303和步骤S305最终输出的语音信息的深度特征和文本信息的深度特征均输入到第三并联卷积模块,在第三并联卷积模块中同时进入深度卷积模块、普通卷积模块和池化卷积模块进行深度特征提取,在深度卷积模块中,经过深度可分离卷积层的特征提取,然后再利用LeakyReLU激活函数增强模块的表达能力,最后送入批量归一化层做归一化处理;在普通卷积模块中,经过传统卷积层的特征提取,然后利用LeakyReLU激活函数增强其表达能力,最后送入批量归一化层N做归一化处理;在池化模块中,只需经过池化层进行特征提取然后输出;最终普通卷积模块输出的特征与池化模块输出的特征通过拼接的方式相融合,融合后的特征再与深度卷积模块输出的特征进行相加融合,从而输出对上一层信息做的最终特征提取,得到融合信息的深度特征;
S306、步骤S305输出的融合信息的深度特征通过两层双向长短时记忆网络获取上下文信息,确保时序信息的连续性,然后通过添加注意力机制,突出需要注意的部分,抑制其他无用信息,快速提取重要的数据特征。
CN202111089938.1A 2021-09-17 2021-09-17 基于中文语音和文本的情感识别系统及方法 Active CN113808622B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111089938.1A CN113808622B (zh) 2021-09-17 2021-09-17 基于中文语音和文本的情感识别系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111089938.1A CN113808622B (zh) 2021-09-17 2021-09-17 基于中文语音和文本的情感识别系统及方法

Publications (2)

Publication Number Publication Date
CN113808622A true CN113808622A (zh) 2021-12-17
CN113808622B CN113808622B (zh) 2023-04-07

Family

ID=78895658

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111089938.1A Active CN113808622B (zh) 2021-09-17 2021-09-17 基于中文语音和文本的情感识别系统及方法

Country Status (1)

Country Link
CN (1) CN113808622B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420169A (zh) * 2022-03-31 2022-04-29 北京沃丰时代数据科技有限公司 情绪识别方法、装置及机器人
WO2023222088A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 语音识别与分类方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111145786A (zh) * 2019-12-17 2020-05-12 深圳追一科技有限公司 语音情感识别方法和装置、服务器、计算机可读存储介质
CN111968679A (zh) * 2020-10-22 2020-11-20 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112668559A (zh) * 2021-03-15 2021-04-16 冠传网络科技(南京)有限公司 一种多模态信息融合的短视频情感判定装置及方法
WO2021164147A1 (zh) * 2020-02-19 2021-08-26 平安科技(深圳)有限公司 基于人工智能的服务评价方法、装置、设备及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108717856A (zh) * 2018-06-16 2018-10-30 台州学院 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN109614895A (zh) * 2018-10-29 2019-04-12 山东大学 一种基于attention特征融合的多模态情感识别的方法
CN111145786A (zh) * 2019-12-17 2020-05-12 深圳追一科技有限公司 语音情感识别方法和装置、服务器、计算机可读存储介质
WO2021164147A1 (zh) * 2020-02-19 2021-08-26 平安科技(深圳)有限公司 基于人工智能的服务评价方法、装置、设备及存储介质
CN111968679A (zh) * 2020-10-22 2020-11-20 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112668559A (zh) * 2021-03-15 2021-04-16 冠传网络科技(南京)有限公司 一种多模态信息融合的短视频情感判定装置及方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114420169A (zh) * 2022-03-31 2022-04-29 北京沃丰时代数据科技有限公司 情绪识别方法、装置及机器人
WO2023222088A1 (zh) * 2022-05-20 2023-11-23 青岛海尔电冰箱有限公司 语音识别与分类方法和装置

Also Published As

Publication number Publication date
CN113808622B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Makino et al. Recurrent neural network transducer for audio-visual speech recognition
US20240038218A1 (en) Speech model personalization via ambient context harvesting
CN113808622B (zh) 基于中文语音和文本的情感识别系统及方法
Seo et al. Wav2kws: Transfer learning from speech representations for keyword spotting
CN106294774A (zh) 基于对话服务的用户个性化数据处理方法及装置
CN111326178A (zh) 基于卷积神经网络的多模态语音情感识别系统及方法
CN114267347A (zh) 一种基于智能语音交互的多模态拒识方法和系统
Ramadani et al. A new technology on translating Indonesian spoken language into Indonesian sign language system.
CN207718803U (zh) 多信源语音区分识别系统
CN116682463A (zh) 一种多模态情感识别方法及系统
CN115114437A (zh) 基于bert和双分支网络的胃镜文本分类系统
KR20220063818A (ko) 음성감성 분석 시스템 및 방법
Muni et al. Deep learning techniques for speech emotion recognition
Liu et al. End-to-End Chinese Lip-Reading Recognition Based on Multi-modal Fusion
Lee et al. Video Multimodal Emotion Recognition System for Real World Applications
Nair et al. Transfer learning for speech based emotion recognition
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
CN116469390A (zh) 语音识别方法、装置、电子设备和存储介质
US11893982B2 (en) Electronic apparatus and controlling method therefor
JPH06161495A (ja) 音声認識装置
CN116501902A (zh) 多模态的电影情感识别方法和装置、设备、存储介质
Hanumesh et al. Semantic Enrichment of Video Content using NLP Transformer Networks
Singh et al. Audio Narration of a Scene for Visually Disabled using Smart Goggle
Mittal Automated Human Emotion Recognition from Speech Using Convolutional Neural Networks
CN117708752A (zh) 一种基于视音频信息融合的情绪识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant