CN110675859A - 结合语音与文本的多情感识别方法、系统、介质及设备 - Google Patents

结合语音与文本的多情感识别方法、系统、介质及设备 Download PDF

Info

Publication number
CN110675859A
CN110675859A CN201910836911.0A CN201910836911A CN110675859A CN 110675859 A CN110675859 A CN 110675859A CN 201910836911 A CN201910836911 A CN 201910836911A CN 110675859 A CN110675859 A CN 110675859A
Authority
CN
China
Prior art keywords
emotion
text
information
voice
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910836911.0A
Other languages
English (en)
Other versions
CN110675859B (zh
Inventor
林伟伟
吴铨辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGDONG LVAN INDUSTRY AND COMMERCE CO.,LTD.
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201910836911.0A priority Critical patent/CN110675859B/zh
Publication of CN110675859A publication Critical patent/CN110675859A/zh
Application granted granted Critical
Publication of CN110675859B publication Critical patent/CN110675859B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Child & Adolescent Psychology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种结合语音与文本的多情感识别方法、系统、介质及设备,方法包括获取由多个音频段组成的目标音频,并使用语音识别技术转换为对应的多个文本信息;基于音频信息的语音特征获得音频情感识别信息,基于文本信息的文本特征获得文本情感识别信息;使用新的结合方法将这两种识别情感进行结合,获得对应音频段的目标情感信息。该新的结合方法为基于语音识别情感向量与文本识别情感向量,通过对这两种向量内不同情感信息进行不同的组合,再使用这些不同的组合进行情感结合模型的训练。本发明使用语音与文本的识别情感向量,从而保证语音情感分析与文本情感分析部分互相独立,既能够解决两极情感分析问题,也能够应用到多情感分析的场景。

Description

结合语音与文本的多情感识别方法、系统、介质及设备
技术领域
本发明涉及人机交互领域,特别涉及一种结合语音与文本的多情感识别方法、系统、介质及设备。
背景技术
随着互联网进一步普及以及信息技术的不断发展,人们越来越认识到信息的重要性。而人工智能技术的不断深入研究为获取更多种类的信息提供了可能性。社群媒体等随着互联网的发展也再仅仅是传递信息的平台,开始允许用户创建自己的账号,同时成为收集信息的平台。越来越多的平台发现用户的情感信息是一种十分有价值的信息,它能够表达用户对某一事物的喜恶。例如为用户提供要交流反馈服务的产品都希望能够获得用户的情感信息,从而更好地改进提升自己的服务质量。很多平台在用户留意系统中给用户提供了评分系统,甚至我们能够对其他用户的评论进行评价。这是较流行并较易实现的收集用户情感信息的方法。但有时,在用户的留言中所携带的隐式情感信息具有更高的价值,因此我们需要用到情感识别的方法识别出留言中隐藏的情感信息。
上述的分析方法中,可采用基于语音或是文本的情感识别方法对用户的语音或文本输入进行分析。语音的情感识别方法主要依靠声学特征对待识别样本进行情感分析。由于声波的特征以及许多研究人员多年在波型信息方面的研究,在声音维度的情感识别已经有着不错的成果。然而语音情感识别没有考虑待识别样本本身想要表达的语义。而文本的情感识别由于自然语言的复杂性,因此文本的情感识别没有像语音情感识别那样成熟,同样文本情感识别也没有考虑到同一句话用不同语气演绎能表达不同的情感。在使用不同的方式进行情感识别时,对用户在该方式下的情感表达的强度十分依赖。用户用平淡的语气说出高兴的事情时,基于语音的情感识别就比不上文本情感识别,反之亦然。
根据上文所述,单靠一种方式的情感识别,很难对用户的情感进行准确决断。因此也有一些研究者提出结合多种维度的情感识别方法。孙晓等学者提出的一种面向人机交互的多类信息耦合的情感识别方法中,同时利用到语音的声学特征与文本的文本特征进行情感识别。这个方法中存在一个问题,这两种特征被同时作为一个神经网络的输入,因此在网络模型进行训练的过程中,这两种不同的输入之间将会互相影响,但是不同领域的特征之间不应该互相影响。而在刘海波等学者提出的情感信息的确定方法和装置中,语音情感识别与文本情感识别的工作分别使用两个网络完成,因此在语音情感识别与文本情感识别的过程中,它们两者之间互不影响。在获得语音识别情感与文本识别情感之后,该方法提出两种能够结合语音识别情感与文本识别情感的方法,一是当其中一个识别情感属于无明显情感倾向的情感,如平淡时,最终的结果将取另一个表达更强烈情感的识别情感。这种结合方法只适用于两个既得识别情感分别为强烈情感和平淡情感的情况。另一种结合方法是给定一个值为0到1语音情感权重a,那么可得出文本情感权重为(1-a),最终识别情感=(语音识别情感*a)+(文本识别情感*(1-a))。这种结合方法较适用于两极情感,如开心与不开心的情感,或是害怕与不害怕的情感,而难以适用于多情感识别,如高兴、伤心、生气、惊讶同时存在的情境。
现有技术仅能解决不同的两极情感识别任务,而无法处理多情感识别任务的技术问题,目前尚未提出有效的解决方案。因此,充分利用语音情感信息和文本情感信息,发现语音情感特征与文本情感特征之间的关系,是本领域技术人员亟待解决的问题之一。
发明内容
本发明的主要目的在于克服现有技术的缺点与不足,提供一种结合语音与文本的多情感识别方法、系统、介质及设备,能够充分利用语音和文本中的情感特征进行多个情感的识别。
为了达到上述目的,本发明采用以下技术方案:
本发明提供的一种结合语音与文本的多情感识别方法,包括下述步骤:
获取目标音频,所述目标音频由多个音频段组成,所述目标音频包含第一语音特征,所述第一语音特征用于生成第一神经网络和语音识别工具的输入;
从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征,所述第一文本特征用于生成第二神经网络和文本识别工具的输入;
基于第一语音特征获得第一语音情感识别信息,所述第一语音情感识别信息为第一情感向量,用于提供从目标音频中提取的语音情感信息;
基于所述第一文本特征获得第一文本情感识别信息,所述第一文本情感识别信息为第二情感向量,用于提供从目标音频中提取的文本情感信息;
基于所述第一语音情感识别信息与所述第一文本情感识别信息,将第一语音情感识别信息与所述第一文本情感识别信息结合,确定所述目标音频的目标情感;具体为:
使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练,以确定第三神经网络的参数,所述第三神经网络将被用于目标情感的获取,在第三神经网络的训练过程中,反向传播过程不会影响第一神经网络与第二神经网络的参数,从而保证第一神经网络与第二神经网络的独立性。
作为优选的技术方案,在获取目标音频前,还包括下述步骤:
使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练,从而确定第一神经网络模型参数的取值,所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取;所述第二语音情感识别信息为训练语音情感识别信息,用于第一深度神经网络模型的训练。
作为优选的技术方案,在获取目标音频前,还包括下述步骤:
使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练,从而确定第二神经网络模型参数的取值,所述第二神经网络将被用于第一文本情感识别信息的获取;所述第二文本信息为训练文本信息,用于第二深度神经网络模型的训练,所述第二文本情感识别信息为训练文本情感识别信息,用于第二深度神经网络模型的训练。
作为优选的技术方案,所述第一语音情感识别信息为第一情感向量v1(e1,1,e1,2,e1,3...e1,n),其中,e1,1至e1,n代表所述语音特征被识别为各种情感的概率。
所述第一文本情感识别信息为第二情感向量v2(e2,1,e2,2,e2,3...e2,n),其中,e2,1至e2,n代表所述文本特征被识别为各种情感的概率。
作为优选的技术方案,语音情感和文本情况输出的不是某一种情感,而是情感的概率组合,根据Softmax方法,各情感概率计算如下:
Figure BDA0002192467710000041
其中,d为1或2,代表语音或文本,n代表情感分类总数,为模型参数。
作为优选的技术方案,所述将第一语音情感识别信息与所述第一文本情感识别信息结合,具体为:
卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征:卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵,n为可识别目标情感的数量;
对池化层进行池化处理,池化层可根据不同的池化窗口划分规则进行最大池化操作,提取出两个情感向量不同情感之间较有价值的关系特征;
利用全连接层和Softmax层之后获得最后的目标情感,全连接层将前面得出的特征整合为可能情感的特征值,最后通过Softmax层获得各可能情感为目标情感的概率;
通过Back-Propagation进行模型参数的调整,根据损失函数
Figure BDA0002192467710000051
Figure BDA0002192467710000052
对权重w和偏差b求偏导,使用偏导结果进行梯度下降对w和b进行更新,梯度下降wi+1=wi-ηΔwi,其中η为学习率,wi和wi+1分别为迭代前后的权重。
作为优选的技术方案,第三神经网络训练过程的输入为由语音情感分析结果和文本情感分析结果组成的矩阵,该矩阵确保两个分析结果中所有不同的情感信息都有机会形成组合,矩阵形式如下:
Figure BDA0002192467710000053
其中,v1和v2代表语音与文本情感识别向量,“<<x”代表向量中所有元素向左位移x,位移时将向量左边部分溢出元素往向量右边填充。
本发明还提供了一种结合语音与文本的多情感识别系统,包括:
目标音频获取模块,用于获取目标音频,所述目标音频由多个音频段组成,且所述目标音频包含第一语音特征;
第一转换模块,用于从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征;
第一语音特征获得模块,用于基于所述第一语音特征获得第一语音情感识别信息;
第一文本特征获得模块,用于基于所述第一文本特征获得第一文本情感识别信息;
目标情感确定模块,用于基于所述第一语音情感识别信息与所述第一文本情感识别信息,确定所述目标音频的目标情感。
本发明还提供了一种存储介质,包括存储的程序,所述程序被处理器执行时,实现所述的结合语音与文本的多情感识别方法。
本发明还提供了一种计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现所述的结合语音与文本的多情感识别方法。
本发明与现有技术相比,具有如下优点和有益效果:
(1)在进行语音情感识别和文本情感识别时,所获得的语音情感识别信息和文本情感识别信息为多情感向量,向量中的每一维代表给出的语音特征或文本特征与各种情感的关系。这种多情感向量的表达方式能够保留语音特征和文本特征中更多的情感信息,为之后语音识别情感和文本识别情感的结合提供更多的有用信息。
(2)进行语音识别情感和文本识别情感结合时,与直接使用语音特征和文本特征作为情感结合模型的输入比较,该方法的优点是保证语音特征与文本特征之间互不影响,它们所带的情感信息将能够在各自领域的情感分析中被充分利用,之后的情感结合训练也不会影响前面语音或文本的情感模型。结合的过程不是简单的二者取其一,也不是对于两极情感的权重取值,而是能够对多种不同情感进行识别。
(3)进行语音识别情感和文本识别情感结合时,基于两种情感识别向量,将两种向量中的不同情感元素进行不同组合。不同于常用的直接串联的方法简单地将两种情感向量进行首尾相接,该方法的情感信息组合允许我们充分发现语音与文本的不同情感之间的关系,并最终确定这些不同组合关系与目标情感之间的关系。
附图说明
图1为结合语音与文本的多情感识别模型图;
图2为本实施方式中语音与文本的多情感识别方法的流程图;
图3为本实施方式中一种基于语音情感识别向量与文本情感识别向量构造的情感矩阵示例。
具体实施方式
下面结合附图对本发明作进一步的详细描述。所描述的实施例仅为本发明的一部分实施例,本发明的实施和保护范围不限于此。需要说明的是,本发明的权利要求、说明书及附图中所述的“第一”、“第二”是用于区分相似对象的术语,而不是指示对应对象的顺序。
实施例1
如图1所示,本实施例1结合语音与文本的多情感识别方法,包括下述步骤:
步骤S201,获取目标音频;
在获取目标音频时,可以是终端主动或通过用户操作指令被动获取,或是其他来源发送的音频,又或是已收集整理的音频语料库。获取目标音频的作用为识别其中的情感信息,以及获取其中的文本信息用于文本情感识别。上述文本信息包括但不限于一个句子、一个段落或一个篇章。
情感信息是指说话者在进行口头表达时所要表达的个人情感,如喜怒哀乐等。
步骤S202,提取目标音频的语音特征;
获取语音特征的目的在于生成之后第一神经网络和语音识别工具的输入。语音特征包括:Mel频率倒谱系数MFCC、感知加权线性预测PLP、Filter-bank特征、音调、语音能量、反映说话人声学差异的I-VECT0R特征等。本实例中的使用的特征可以为上述中的一个或多个。
步骤S203,语音识别提取文本信息。
使用语音识别工具提取音频中的文本信息,获得第一文本信息。所述第一文本信息将用于文本情感识别。语音识别工具可以为现存的语音识别引擎,或是使用训练语料库进行训练获得的新的语音识别神经网络。语音识别工具的作用语音可以根据实际需求进行选择,可以为中文、英文或其他不同语言。
步骤S204,文本信息预处理。
文本信息的预处理包括:文本的分词、去除停用词(Stop words)、词向量化。文本的分词对文本特征提取有重要作用,如例句“今天是星期天,我和朋友去看了一场电影。”分词结果为:今天、是、星期天、我、和、朋友、去、看了、一场、电影。句子中的主谓宾等结构以及名词动词被分别提取出来。
停用词是指将文本信息中对文本分析没有作用的词语,如“的”、“呢”等。去除停用词的目的是加强神经网络的学习能力,提高神经网络的文本分析准确度。
词向量化是指用一个向量的形式来表达一个词,其作用在于将输入的文本信息转化为数值的形式,以作为神经网络的输入。词向量化的有多种不同的算法,主要有词袋、CBOW和Skip-gram算法。可以选择适合的算法进行词向量化模型的训练,或是采用已训练好的词向量化模型,如GloVe。
步骤S205,第二神经网络进行文本情感识别。
以上述词向量作为输入,使用第二神经网络进行文本情感识别,获得第一文本识别情感。第一文本识别情感为第二情感向量v2(e2,1,e2,2,e2,3...e2,n),向量的各个维度代表对应情感的概率。
第二神经网络模型可使用已训练好的模型,或是使用训练文本进行模型训练,又或是使用其他传统机器学习算法。模型的训练,如使用在文本分析领域中准确度较高的CNN-LSTM模型。训练的过程包括:
(1)对训练文本进行如上述文本预处理过程。
(2)CNN部分的卷积层进行特征提取,池化层进行池化处理。
(3)LSTM部分进行特征的顺序输入,每个神经元通过其记录的细胞状态影响下一次输入的输出结果。
(4)最后经过Softmax层获得各个情感的预测值。
(5)通过Back-Propagation进行模型参数的调整。
步骤S206,第一神经网络进行语音情感识别。
使用上述语音特征作为输入,使用第一神经网络进行语音情感识别,获得第一语音识别情感。第一语音识别情感为第一情感向量v1(e1,1,e1,2,e1,3...e1,n),向量的各个维度代表对应情感的概率。
第一神经网络模型可使用已训练好的模型,或是使用训练音频进行模型训练,又或是使用其他传统机器学习算法。模型的训练,如使用在CNN模型。训练的过程包括:
(1)卷积层进行特征提取,池化层进行池化处理。
(2)最后经过Softmax层获得各个情感的预测值。
(3)通过Back-Propagation进行模型参数的调整。
步骤S207,语音识别情感和文本识别情感的结合。
语音识别情感与文本识别情感的方法可以采用传统机器学习算法,也可以使用深度学习的方法。如使用CNN模型,其步骤包括:
(1)卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征:
卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵,n为可识别目标情感的数量。如图2所示,矩阵的第i行以及第i+1行分别为ri(e1,1,e1,2,e1,3,e1, 4...e1,n),ri+1(e2,i,e2,i+1...e2,n,e2,1,e2,2...e2,i-1)。其中,i为奇数,ri由第一情感向量中的元素组成,ri+1由第二情感向量中的元素组成。这个新矩阵的每个元素可以用e’j,k表示,这个矩阵通过两个情感向量之间不同情感一一对应的方式,允许提取两个情感向量的不同情感之间的关系特征。使用不同的卷积核对输入矩阵进行卷积,卷积后获得的新特征可以用cj,k表示,cj,k=f(w*e’j,k+b)。
(2)池化层进行池化处理。
这一层可以根据不同的池化窗口划分规则进行最大池化操作,提取出两个情感向量不同情感之间较有价值的关系特征。
(3)全连接层和Softmax层之后获得最后的目标情感。
全连接层将前面得出的特征整合为可能情感的特征值,最后通过Softmax层获得各可能情感为目标情感的概率。
(4)通过Back-Propagation进行模型参数的调整。
根据损失函数
Figure BDA0002192467710000111
对权重w和偏差b求偏导,使用偏导结果进行梯度下降对w和b进行更新。梯度下降wi+1=wi-ηΔwi,其中η为学习率,wi和wi+1分别为迭代前后的权重。
使用这个模型的好处是可以充分利用和发现语音和文本中的情感信息的关系。如说话者在表达惊喜的事情的时候,文本信息表达的内容明显为高兴,而语音信息表达为害怕的概率最高,概率第二高的是惊喜,因为害怕和惊喜在语音表达时有很多相似点。结合语音与文本的识别情感,我们可以发现最终情感应为惊喜。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
实施例2
如图3所示,本实施例提供了一种结合语音与文本的多情感识别系统,该系统包括目标音频获取模块、第一转换模块、第一语音特征获得模块、第一文本特征获得模块、以及目标情况确定模块,各个模块的具体功能如下:
所述目标音频获取模块,用于获取目标音频,所述目标音频由多个音频段组成,且所述目标音频包含第一语音特征;
所述第一转换模块,用于从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征;
所述第一语音特征获得模块,用于基于所述第一语音特征获得第一语音情感识别信息;
所述第一文本特征获得模块,用于基于所述第一文本特征获得第一文本情感识别信息;
所述目标情感确定模块,用于基于所述第一语音情感识别信息与所述第一文本情感识别信息,确定所述目标音频的目标情感。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
可以理解,上述实施例的机器人系统所使用的术语“第一”、“第二”等可用于描述各种模块,但这些模块不受这些术语限制。这些术语仅用于将第一个模块与另一个模块区分。
实施例3:
本实施例提供了一种存储介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现上述实施例1的结合语音与文本的多情感识别方法,如下:
获取目标音频,所述目标音频由多个音频段组成,且所述目标音频包含第一语音特征;
从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征;
基于所述第一语音特征获得第一语音情感识别信息;
基于所述第一文本特征获得第一文本情感识别信息;
基于所述第一语音情感识别信息与所述第一文本情感识别信息,确定所述目标音频的目标情感。
本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。
实施例4:
本实施例提供了一种计算设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现上述实施例1的结合语音与文本的多情感识别方法,如下:
获取目标音频,所述目标音频由多个音频段组成,且所述目标音频包含第一语音特征;
从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征;
基于所述第一语音特征获得第一语音情感识别信息;
基于所述第一文本特征获得第一文本情感识别信息;
基于所述第一语音情感识别信息与所述第一文本情感识别信息,确定所述目标音频的目标情感。
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.结合语音与文本的多情感识别方法,其特征在于,包括下述步骤:
获取目标音频,所述目标音频由多个音频段组成,所述目标音频包含第一语音特征,所述第一语音特征用于生成第一神经网络和语音识别工具的输入;
从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征,所述第一文本特征用于生成第二神经网络和文本识别工具的输入;
基于第一语音特征获得第一语音情感识别信息,所述第一语音情感识别信息为第一情感向量,用于提供从目标音频中提取的语音情感信息;
基于所述第一文本特征获得第一文本情感识别信息,所述第一文本情感识别信息为第二情感向量,用于提供从目标音频中提取的文本情感信息;
基于所述第一语音情感识别信息与所述第一文本情感识别信息,将第一语音情感识别信息与所述第一文本情感识别信息结合,确定所述目标音频的目标情感;具体为:
使用第一情感向量和第二情感向量以及目标情感对第三深度神经网络进行训练,以确定第三神经网络的参数,所述第三神经网络将被用于目标情感的获取,在第三神经网络的训练过程中,反向传播过程不会影响第一神经网络与第二神经网络的参数,从而保证第一神经网络与第二神经网络的独立性。
2.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,在获取目标音频前,还包括下述步骤:
使用训练音频和第二语音情感识别信息对第一深度神经网络模型进行训练,从而确定第一神经网络模型参数的取值,所述第一深度神经网络模型将被用于所述第一语音情感识别信息的获取;所述第二语音情感识别信息为训练语音情感识别信息,用于第一深度神经网络模型的训练。
3.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,在获取目标音频前,还包括下述步骤:
使用第二文本信息和第二文本情感识别信息对第二深度神经网络模型进行训练,从而确定第二神经网络模型参数的取值,所述第二神经网络将被用于第一文本情感识别信息的获取;所述第二文本信息为训练文本信息,用于第二深度神经网络模型的训练,所述第二文本情感识别信息为训练文本情感识别信息,用于第二深度神经网络模型的训练。
4.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,所述第一语音情感识别信息为第一情感向量v1(e1,1,e1,2,e1,3...e1,n),其中,e1,1至e1,n代表所述语音特征被识别为各种情感的概率。
所述第一文本情感识别信息为第二情感向量v2(e2,1,e2,2,e2,3...e2,n),其中,e2,1至e2,n代表所述文本特征被识别为各种情感的概率。
5.根据权利要求4所述结合语音与文本的多情感识别方法,其特征在于,语音情感和文本情况输出的不是某一种情感,而是情感的概率组合,根据Softmax方法,各情感概率计算如下:
Figure FDA0002192467700000021
其中,d为1或2,代表语音或文本,n代表情感分类总数,为模型参数。
6.根据权利要求1所述结合语音与文本的多情感识别方法,其特征在于,所述将第一语音情感识别信息与所述第一文本情感识别信息结合,具体为:
卷积层发现两种识别情感中不同情感在不同概率下的组合关系特征:卷积网络的输入为前面获得的两个识别情感向量组成的2n*n情感矩阵,n为可识别目标情感的数量;
对池化层进行池化处理,池化层可根据不同的池化窗口划分规则进行最大池化操作,提取出两个情感向量不同情感之间较有价值的关系特征;
利用全连接层和Softmax层之后获得最后的目标情感,全连接层将前面得出的特征整合为可能情感的特征值,最后通过Softmax层获得各可能情感为目标情感的概率;
通过Back-Propagation进行模型参数的调整,根据损失函数
Figure FDA0002192467700000022
Figure FDA0002192467700000023
对权重w和偏差b求偏导,使用偏导结果进行梯度下降对w和b进行更新,梯度下降wi+1=wi-ηΔwi,其中η为学习率,wi和wi+1分别为迭代前后的权重。
7.根据权利要求4所述结合语音与文本的多情感识别方法,其特征在于,第三神经网络训练过程的输入为由语音情感分析结果和文本情感分析结果组成的矩阵,该矩阵确保两个分析结果中所有不同的情感信息都有机会形成组合,矩阵形式如下:
Figure FDA0002192467700000031
其中,v1和v2代表语音与文本情感识别向量,“<<x”代表向量中所有元素向左位移x,位移时将向量左边部分溢出元素往向量右边填充。
8.结合语音与文本的多情感识别系统,其特征在于,包括:
目标音频获取模块,用于获取目标音频,所述目标音频由多个音频段组成,且所述目标音频包含第一语音特征;
第一转换模块,用于从所述目标音频中转换出第一文本信息,所述第一文本信息包含第一文本特征;
第一语音特征获得模块,用于基于所述第一语音特征获得第一语音情感识别信息;
第一文本特征获得模块,用于基于所述第一文本特征获得第一文本情感识别信息;
目标情感确定模块,用于基于所述第一语音情感识别信息与所述第一文本情感识别信息,确定所述目标音频的目标情感。
9.存储介质,包括存储的程序,其特征在于:所述程序被处理器执行时,实现权利要求1-7任一项所述的结合语音与文本的多情感识别方法。
10.计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求1-7任一项所述的结合语音与文本的多情感识别方法。
CN201910836911.0A 2019-09-05 2019-09-05 结合语音与文本的多情感识别方法、系统、介质及设备 Active CN110675859B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910836911.0A CN110675859B (zh) 2019-09-05 2019-09-05 结合语音与文本的多情感识别方法、系统、介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910836911.0A CN110675859B (zh) 2019-09-05 2019-09-05 结合语音与文本的多情感识别方法、系统、介质及设备

Publications (2)

Publication Number Publication Date
CN110675859A true CN110675859A (zh) 2020-01-10
CN110675859B CN110675859B (zh) 2021-11-23

Family

ID=69076009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910836911.0A Active CN110675859B (zh) 2019-09-05 2019-09-05 结合语音与文本的多情感识别方法、系统、介质及设备

Country Status (1)

Country Link
CN (1) CN110675859B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324207A (zh) * 2020-02-28 2020-06-23 京东方科技集团股份有限公司 绘画显示方法、装置及电子设备
CN111524534A (zh) * 2020-03-20 2020-08-11 北京捷通华声科技股份有限公司 一种语音分析方法、系统、设备及存储介质
CN112464023A (zh) * 2020-12-04 2021-03-09 南京邮电大学 基于seq2seq算法的音乐和词语的情感语义匹配算法
CN112489688A (zh) * 2020-11-09 2021-03-12 浪潮通用软件有限公司 一种基于神经网络的情感识别方法、设备及介质
CN112785667A (zh) * 2021-01-25 2021-05-11 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113327572A (zh) * 2021-06-02 2021-08-31 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统
CN114446323A (zh) * 2022-01-25 2022-05-06 电子科技大学 一种动态多维度的音乐情感分析方法及系统
WO2023068552A1 (ko) * 2021-10-21 2023-04-27 삼성전자주식회사 음성 인식을 위한 전자 장치 및 그 제어 방법

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108039181A (zh) * 2017-11-02 2018-05-15 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108305642A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305643A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305641A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
US10037767B1 (en) * 2017-02-01 2018-07-31 Wipro Limited Integrated system and a method of identifying and learning emotions in conversation utterances
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN110110653A (zh) * 2019-04-30 2019-08-09 上海迥灵信息技术有限公司 多特征融合的情绪识别方法、装置和存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10037767B1 (en) * 2017-02-01 2018-07-31 Wipro Limited Integrated system and a method of identifying and learning emotions in conversation utterances
CN108305642A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305643A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN108305641A (zh) * 2017-06-30 2018-07-20 腾讯科技(深圳)有限公司 情感信息的确定方法和装置
CN107609572A (zh) * 2017-08-15 2018-01-19 中国科学院自动化研究所 基于神经网络和迁移学习的多模态情感识别方法、系统
CN108039181A (zh) * 2017-11-02 2018-05-15 北京捷通华声科技股份有限公司 一种声音信号的情感信息分析方法和装置
CN108334583A (zh) * 2018-01-26 2018-07-27 上海智臻智能网络科技股份有限公司 情感交互方法及装置、计算机可读存储介质、计算机设备
CN108564942A (zh) * 2018-04-04 2018-09-21 南京师范大学 一种基于敏感度可调的语音情感识别方法及系统
CN108805087A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态情绪识别系统的时序语义融合关联判断子系统
CN108805089A (zh) * 2018-06-14 2018-11-13 南京云思创智信息科技有限公司 基于多模态的情绪识别方法
CN110110653A (zh) * 2019-04-30 2019-08-09 上海迥灵信息技术有限公司 多特征融合的情绪识别方法、装置和存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
LINWEIWEI: "Multi-resource scheduling and power simulation for cloud computing", 《INFORMATION SCIENCES》 *
SURAJ TRIPATHI: "Deep learning based emotion recognition system using speech features and transcriptions", 《ARXIV:1906.05681V1 [EESS.AS]》 *
冯亚琴: "利用语音与文本特征融合改善语音情感识别", 《数据采集与处理》 *
袁亮: "基于深度学习的双模态情感识别", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
赵腊生: "语音情感特征提取与识别方法研究", 《中国优秀博士学位论文全文数据库工程科技Ⅱ辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111324207A (zh) * 2020-02-28 2020-06-23 京东方科技集团股份有限公司 绘画显示方法、装置及电子设备
CN111524534A (zh) * 2020-03-20 2020-08-11 北京捷通华声科技股份有限公司 一种语音分析方法、系统、设备及存储介质
CN112489688A (zh) * 2020-11-09 2021-03-12 浪潮通用软件有限公司 一种基于神经网络的情感识别方法、设备及介质
CN112464023A (zh) * 2020-12-04 2021-03-09 南京邮电大学 基于seq2seq算法的音乐和词语的情感语义匹配算法
CN112464023B (zh) * 2020-12-04 2022-10-14 南京邮电大学 基于seq2seq算法的音乐和词语的情感语义匹配算法
CN112785667A (zh) * 2021-01-25 2021-05-11 北京有竹居网络技术有限公司 视频生成方法、装置、介质及电子设备
CN113268562A (zh) * 2021-05-24 2021-08-17 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113268562B (zh) * 2021-05-24 2022-05-13 平安科技(深圳)有限公司 文本情感识别方法、装置、设备及存储介质
CN113327572A (zh) * 2021-06-02 2021-08-31 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统
CN113327572B (zh) * 2021-06-02 2024-02-09 清华大学深圳国际研究生院 基于情感类别标签的可控情感语音合成方法及系统
WO2023068552A1 (ko) * 2021-10-21 2023-04-27 삼성전자주식회사 음성 인식을 위한 전자 장치 및 그 제어 방법
CN114446323A (zh) * 2022-01-25 2022-05-06 电子科技大学 一种动态多维度的音乐情感分析方法及系统

Also Published As

Publication number Publication date
CN110675859B (zh) 2021-11-23

Similar Documents

Publication Publication Date Title
CN110675859B (zh) 结合语音与文本的多情感识别方法、系统、介质及设备
CN108597541B (zh) 一种增强愤怒与开心识别的语音情感识别方法及系统
Tripathi et al. Deep learning based emotion recognition system using speech features and transcriptions
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
CN108717856B (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN108564942B (zh) 一种基于敏感度可调的语音情感识别方法及系统
Mendels et al. Hybrid Acoustic-Lexical Deep Learning Approach for Deception Detection.
Casale et al. Speech emotion classification using machine learning algorithms
US11908451B2 (en) Text-based virtual object animation generation method, apparatus, storage medium, and terminal
CN111583964B (zh) 一种基于多模深度特征学习的自然语音情感识别方法
CN112466326B (zh) 一种基于transformer模型编码器的语音情感特征提取方法
CN111145729B (zh) 语音识别模型训练方法、系统、移动终端及存储介质
Han et al. Speech emotion recognition with a ResNet-CNN-Transformer parallel neural network
Elshaer et al. Transfer learning from sound representations for anger detection in speech
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
CN115393933A (zh) 一种基于帧注意力机制的视频人脸情绪识别方法
CN112579762A (zh) 一种基于语义、情感惯性和情感共性的对话情感分析方法
Soliman et al. Isolated word speech recognition using convolutional neural network
Xin et al. Exploring the effectiveness of self-supervised learning and classifier chains in emotion recognition of nonverbal vocalizations
Liu et al. Speech emotion recognition via multi-level attention network
Tang et al. A bimodal network based on Audio–Text-Interactional-Attention with ArcFace loss for speech emotion recognition
CN110348482A (zh) 一种基于深度模型集成架构的语音情感识别系统
CN113571095A (zh) 基于嵌套深度神经网络的语音情感识别方法和系统
CN109119073A (zh) 基于多源识别的语音识别方法、系统、音箱及存储介质
Ullah et al. Speech emotion recognition using deep neural networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220413

Address after: 510520 room 401-410, Jinying building, No. 1 Heying Road, Tianhe District, Guangzhou, Guangdong

Patentee after: GUANGDONG LVAN INDUSTRY AND COMMERCE CO.,LTD.

Address before: 510640 No. five, 381 mountain road, Guangzhou, Guangdong, Tianhe District

Patentee before: SOUTH CHINA University OF TECHNOLOGY

TR01 Transfer of patent right