CN116312639A - 语音情感识别方法、装置、存储介质和计算机设备 - Google Patents

语音情感识别方法、装置、存储介质和计算机设备 Download PDF

Info

Publication number
CN116312639A
CN116312639A CN202310114018.3A CN202310114018A CN116312639A CN 116312639 A CN116312639 A CN 116312639A CN 202310114018 A CN202310114018 A CN 202310114018A CN 116312639 A CN116312639 A CN 116312639A
Authority
CN
China
Prior art keywords
voice
layer
attention
graph
inputting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310114018.3A
Other languages
English (en)
Inventor
黄鑫
孙晨静
侯贤华
杨继臣
王德明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China Normal University Qingyuan Institute of Science and Technology Innovation Co Ltd
Original Assignee
South China Normal University Qingyuan Institute of Science and Technology Innovation Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China Normal University Qingyuan Institute of Science and Technology Innovation Co Ltd filed Critical South China Normal University Qingyuan Institute of Science and Technology Innovation Co Ltd
Priority to CN202310114018.3A priority Critical patent/CN116312639A/zh
Publication of CN116312639A publication Critical patent/CN116312639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供一种语音情感识别方法、装置、存储介质和计算机设备,所述方法包括:提取语音数据的对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;对三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;将帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;将图节点特征输入至池化层进行池化,得到对应的图级特征;将图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,分类网络包括全连接层和softmax层。本申请可以提高语音情感识别的准确性。

Description

语音情感识别方法、装置、存储介质和计算机设备
技术领域
本申请涉及语音情感识别的技术领域,具体涉及一种语音情感识别方法、装置、存储介质和计算机设备。
背景技术
语音情感识别在许多应用中都发挥着重要的作用,但受到如背景噪音、说话者语音特征等因素的影响,导致语音情感识别的难度提升,导致现有的语音情感识别技术难以捕获情感突出信息,且现有的相关技术还存在空间中提取语义特征的能力低的缺陷,使语音情感识别的识别结果存在准确性低的缺点。
发明内容
本申请的目的在于克服现有技术中的缺点与不足,提供一种语音情感识别方法、装置、存储介质和计算机设备,可以提高语音情感识别的准确性。
本申请实施例的第一方面提供了一种语音情感识别方法,包括:
提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
本申请实施例的第二方面提供了一种语音情感识别装置,包括:
三维语音特征获取模块,用于提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
全局特征获取模块,用于对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
图节点特征获取模块,用于将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
图级特征获取模块,用于将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
情感类别获取模块,用于将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音情感识别方法的步骤。
本申请实施例的第四方面提供了一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音情感识别方法的步骤。
相对于相关技术,本申请首先根据语音数据的对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分,得到三维语音特征,然后对三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征,再对帧级别全局特征进行全局信息重组,得到包含全局信息的图节点特征,然后通过池化得到对应的图级特征,将图级特征输入分类网络进行情感分类,得到语音数据的情感类别,由于采用了对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分作为三维语音特征,可以保留更多的有效情感信息,并且减少与情感无关的因素的印象,而通过对三维语音特征进行特征提取,可以提高模型提取全局上下文特征的能力,再通过图卷积神经网络,可以更好的捕获序列中帧与帧之间的依赖关系,增强特征的集中度,进一步提高特征提取能力,从而提高语音情感识别的准确性。
为了能更清晰的理解本申请,以下将结合附图说明阐述本申请的具体实施方式。
附图说明
图1为本申请一个实施例的语音情感识别方法的流程图。
图2为本申请一个实施例的语音情感识别方法的帧级别全局特征获取流程图。
图3为本申请一个实施例的语音情感识别方法的邻接矩阵的无向循环图结构。
图4为本申请一个实施例的语音情感识别装置的模块连接示意图。
100、语音情感识别装置;101、三维语音特征获取模块;102、全局特征获取模块;103、图节点特征获取模块;104、图级特征获取模块;105、情感类别获取模块。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式作进一步地详细描述。
应当明确,所描述的实施例仅仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请实施例保护的范围。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。在本申请的描述中,需要理解的是,术语“第一”、“第二”、“第三”等仅用于区别类似的对象,而不必用于描述特定的顺序或先后次序,也不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本申请中的具体含义。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。在此所使用的词语“如果”/“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。
此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
请参阅图1,其是本申请一个实施例的语音情感识别方法的流程图,本申请第一实施例提供一种语音情感识别方法,包括:
S1:提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征。
其中,语音数据的对数梅尔谱是将经过预加重的语音数据分成短时帧,将每一帧语音数据乘以一个窗函数进行加窗,然后对每一帧语音数据进行离散傅里叶变换,得到对应的短时频谱,再对短时频谱进行模的平方运算,得到对应的离散功率谱。然后通过梅尔滤波器组,将线性频率的离散功率谱转换为非线性的梅尔频率谱,再对梅尔频率谱进行对数运算,得到对数梅尔谱,以对语音数据的每一帧进行低级语音特征的提取。其中,梅尔滤波器组包括多个三角滤波器,例如,语音数据分成300帧的短时帧,而三角滤波器的数量是40个,此时得到的对数梅尔谱的矩阵可以表示为[300,40]的矩阵,其中,300是对数梅尔谱的帧数,40是对数梅尔谱的每一帧的维度。
由于对数梅尔谱的一阶差分和二阶差分的矩阵中,参数数量与对数梅尔谱的矩阵参数数量完全相同,因此,基于上述例子,对数梅尔谱的一阶差分和二阶差分都可以表示为[300,40],根据对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,构建三维的梅尔谱以得到[300,40,3]的三维矩阵,即可得到更多不同维度的低级语音特征,然后将三维的梅尔谱确定为所述三维语音特征,以更充分更全面地获取语音数据中的低级语音特征,从而更充分更全面地获取有效情感信息。
在得到三维语音特征后,将三维语音特征分割成等长的3秒片段,持续时间不足3秒的片段则采用零填充法将其补到3秒,再对各段3秒的三维语音特征执行步骤S2的内容。
S2:对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征。
其中,对三维语音特征进行特征提取是通过Transformer模型编码器实现的,Transformer模型编码器可以对三维语音特征这一低级语音特征进一步学习,得到包含全局信息的高级语音特征,也就是帧级别全局特征。采用Transformer模型编码器作为主体模型来替代传统的RNN网络结构进行高维特征提取,该模型具备关注不同时空位置的能力,对不同位置的特征之间的相对依赖关系进行序列建模方面能力更强,能够提高模型提取全局上下文特征的能力。
帧级别全局特征包括对三维语音特征的每一帧进行情感特征提取的结果,在帧级别全局特征中,相邻的两个帧的情感特征提取结果用于体现对应的语音上下文信息,相对于一般的全局特征,本事实例的帧级别全局特征结合了上下帧顺序对情感特征的影响,因此帧级别全局特征中的情感特征信息是包含了语音上下文信息的。
S3:将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征。
其中,图卷积神经网络的工作原理是根据相关矩阵在节点之间传播信息,图卷积由点和边组成,边的权重一般由邻接矩阵计算得到。
S4:将所述图节点特征输入至池化层进行池化,得到对应的图级特征。
池化层的主要作用是对特征进行采样并减少参数,其中,在本实施例中,池化层的池化采用的是平均池化(或均值池化)。
S5:将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
其中,全连接层常位于模型的尾部,每一个神经元都与上层的所有神经元相连,它可以在卷积层或池化层中将局部信息与类别识别结合起来,全连接层输出的特征分数可通过输入加权求和得到,而特征分数用于指示语音数据对应的情感类别。
softmax层可以将特征分数的分数映射到概率区间(0,1)内,然后取概率最大的维度对应的情感类别作为最终输出结果,从而得到语音数据对应的情感类别。
相对于相关技术,本申请首先根据语音数据的对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分,得到三维语音特征,然后对三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征,再对帧级别全局特征进行全局信息重组,得到包含全局信息的图节点特征,然后通过池化得到对应的图级特征,对图级特征输入分类网络进行情感分类,得到语音数据的情感类别,由于采用了对数梅尔谱,以及对数梅尔谱的一阶差分和二阶差分作为三维语音特征,可以保留更多的有效情感信息,并且减少与情感无关的因素的印象,而通过对三维语音特征进行特征提取,可以提高模型提取全局上下文特征的能力,再通过图卷积神经网络,可以更好的捕获序列中帧与帧之间的依赖关系,增强特征的集中度,进一步提高特征提取能力,从而提高语音情感识别的准确性。
请参阅图2,在一个可行的实施例中,所述S2:对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征的步骤,包括:
S21:对所述三维语音特征进行位置向量添加,得到包含位置向量的语音序列编码。
其中,位置向量添加是指通过位置编码层为输入的三维语音特征得每一帧添加一个位置向量,以表示三维语音特征中帧(以及对应的情感特征)的顺序,以便于后续的特征提取过程可以根据语音序列编码的位置向量的顺序执行,这是因为话语中每个词都有特定的位置关系,因此语音序列中每一帧也都有特定的位置关系,对每一帧进行位置编码后,便提取相应位置的帧级别特征。以3秒的三维语音特征为例,其对应的帧数为300帧,即需要添加300个位置向量。其中,位置向量添加是将三维语音特征输入到多层Transformer模型编码器前执行的。
在本实施例中,位置向量添加方式如下公式所示:
Figure BDA0004077884500000051
Figure BDA0004077884500000052
其中,PE为位置向量添加结果,pos为帧的位置,i为帧的维度,dmodel为预设的输出维度。
S22:将包含位置向量的三维语音特征输入至多层Transformer模型编码器。
S23:各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入;其中,第一层Transformer模型编码器的输入为所述三维语音特征,最后一层Transformer模型编码器的特征提取结果为所述帧级别全局特征。
本实施例的多层Transformer模型编码器由多个相同的编码器层组成,编码器层数为6个,因此三维语音特征需要依次经过6个编码器层进行特征提取,以得到帧级别全局特征。在其他实施例中,本领域技术人员可以根据使用需求修改编码器层数的具体数量。
在本实施例中,通过多层Transformer模型编码器,可以提取三维语音特征的每一帧的特征,从而得到三维语音特征的帧级别全局特征。
在一个可行的实施例中,各层Transformer模型编码器分别包括多头自注意力机制层和前馈神经网络。
所述S23:各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入的步骤,包括:
S231:将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作,得到多个注意力矩阵。
具体地,可以通过以下公式,得到所述注意力矩阵:
Figure BDA0004077884500000061
其中,Q、K、V为所述语音序列编码生成的三个向量矩阵,T为转置符号,dk为比例因子。
Q、K、V分别为向量矩阵Query(Q)、向量矩阵Key(K)和向量矩阵Value(V),是多头自注意力机制层对语音进行注意力操作时,从输入进编码器的语音序列编码中生成三个向量矩阵,这三个向量矩阵是通过语音序列编码与三个权重矩阵WQ,WK,WV相乘后得到的。
其中,多头自注意力机制层使用可以产生多个注意力权重矩阵,且每个注意力头都有独立的三个权重矩阵,因此每个注意力头产生的向量矩阵Q、向量矩阵K和向量矩阵V都不完全相同,产生的每个注意力矩阵也不同。在本实施例中,多头自注意力机制层的使用了8个注意力头,因此可以得到8个不同的注意力矩阵。
通过多头自注意力机制层,可以拓展在不同的时空位置关注不同时空情感子空间的信息的能力,使模型对不同位置的特征之间的相对依赖关系进行序列建模方面能力更强。
S232:将所述多个注意力矩阵进行串联拼接,得到目标注意力矩阵。
由于前馈神经网络接收的输入是单个的向量矩阵,而步骤S31得到的是多个不同的注意力矩阵,因此需要将步骤S231得到的多个注意力矩阵进行串联拼接,再与一个附加的权重矩阵相乘,才能得到用于输入到前馈神经网络的单个注意力矩阵,具体地,可以通过以下公式,得到所述目标注意力矩阵:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V);
其中,headi为第i个注意力矩阵;h为注意力矩阵的总个数;WO为附加的权重矩阵;Q、K、V为所述语音序列编码生成的三个向量矩阵;Wi Q为向量矩阵Q的权重矩阵;Wi K为向量矩阵K的权重矩阵;Wi V为向量矩阵V的权重矩阵。
S233:将所述目标注意力矩阵输入至所述前馈神经网络,以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取,得到所述前馈神经网络输出的特征提取结果。
其中,前馈神经网络包括两个线性变换层,其中第一个线性变换层使用RELU激活函数,而第二个线性变换层不使用激活函数,由于使用了RELU激活函数,可以实现非线性激活,提高了前馈神经网络的非线性拟合能力,从而增加了模型的表现能力。
其中,可以通过以下公式,得到前馈神经网络输出的特征提取结果:
FFN(x)=max(0,xE1+b1)E2+b2
其中,FFN(x)为所述特征提取结果,x为所述目标注意力矩阵,E1为第一个线性变换层的变化矩阵,b1为第一个线性变换层的偏置,E2为第二个线性变换层的变化矩阵,b2为第二个线性变换层的偏置。
在本实施例中,各层Transformer模型编码器对三维语音特征进行特征提取时,通过多头自注意力机制层和前馈神经网络的配合,使模型对不同位置的特征之间的相对依赖关系进行序列建模方面能力更强,而且还增加了模型的表现能力,可以提高模型输出的特征提取结果的准确性。
在一个可行的实施例中,所述图卷积神经网络包括至少两个图卷积层;
所述S3:将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征的步骤,包括:
S31:将所述帧级别全局特征转化为图卷积。
图卷积是图卷积神经网络根据帧级别全局特征在节点之间传播信息生成的,图卷积由点和边组成,边的权重一般由邻接矩阵计算得到。以300帧的帧级别全局特征为例,图卷积的节点数量为300。
S32:将所述图卷积输入至所述至少两个图卷积层,得到对应的图节点级的嵌入向量特征。
当图卷积层为两个时,通过以下公式,得到图节点级的嵌入向量特征:
Figure BDA0004077884500000071
其中,H(l+1)为图节点级的嵌入向量特征,H(0)为包含图卷积的所有节点特征向量的特征矩阵X,D为对角线矩阵,l+1和l为分别为对应的图卷积层的层数,W(l)是第l层的可训练的权重矩阵,σ(·)是激活函数,A为邻接矩阵,在本实施例中,使用的邻接矩阵为无向循环图结构(如图3所示,其中,X为包含图卷积的所有节点特征向量的特征矩阵,M表示节点数量,V表示M个节点的集合,图3中的X1,X2...XM是该节点的特征向量),邻接矩阵具体表现为:
Figure BDA0004077884500000081
S33:通过两个激活函数对所述嵌入向量特征进行激活,得到对应的图节点特征。
通过以下公式,得到图节点特征:
Figure BDA0004077884500000082
其中,
Figure BDA0004077884500000083
为归一化的邻接矩阵,可以表示为:/>
Figure BDA0004077884500000084
X为包含图卷积的所有节点特征向量的特征矩阵。
在本实施例中,通过将帧级别全局特征转化为图卷积输入到图卷积神经网络更新节点信息,可以使帧级别全局特征经过图卷积神经网络后,获取情感信息增强的图节点特征。
请参阅图4,本申请第二实施例提供一种语音情感识别装置100,包括:
三维语音特征获取模块101,用于提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
全局特征获取模块102,用于对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
图节点特征获取模块103,用于将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
图级特征获取模块104,用于将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
情感类别获取模块105,用于将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
需要说明的是,本申请第二实施例提供的语音情感识别装置在执行语音情感识别方法时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分为不同的功能模块,以完成以上描述的全部或者部分功能。另外,本申请第二实施例提供的语音情感识别装置与本申请第一实施例的语音情感识别方法属于同一构思,其体现实现过程详见方法实施例,这里不再赘述。
本申请实施例的第三方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的语音情感识别方法的步骤。
本申请实施例的第四方面提供了一种计算机设备,包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上所述的语音情感识别方法的步骤。
以上所描述的设备实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中选定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入至/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种语音情感识别方法,其特征在于,包括:
提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
2.根据权利要求1所述的语音情感识别方法,其特征在于,所述对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征的步骤,包括:
对所述三维语音特征进行位置向量添加,得到包含位置向量的语音序列编码;
将包含位置向量的三维语音特征输入至多层Transformer模型编码器;
各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入;其中,第一层Transformer模型编码器的输入为所述三维语音特征,最后一层Transformer模型编码器的特征提取结果为所述帧级别全局特征。
3.根据权利要求2所述的语音情感识别方法,其特征在于,各层Transformer模型编码器分别包括多头自注意力机制层和前馈神经网络;
所述各层Transformer模型编码器分别对输入进行特征提取,并将特征提取结果作为下一层Transformer模型编码器的输入的步骤,包括:
将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作,得到多个注意力矩阵;
将所述多个注意力矩阵进行串联拼接,得到目标注意力矩阵;
将所述目标注意力矩阵输入至所述前馈神经网络,以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取,得到所述前馈神经网络输出的特征提取结果。
4.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述语音序列编码输入至所述多头自注意力机制层对语音进行注意力操作,得到多个注意力矩阵的步骤,包括:
通过以下公式,得到所述注意力矩阵:
Figure FDA0004077884490000011
其中,Q、K、V为所述语音序列编码生成的三个向量矩阵,T为转置符号,dk为比例因子。
5.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述多个注意力矩阵进行串联拼接,得到目标注意力矩阵的步骤,包括:
通过以下公式,得到所述目标注意力矩阵:
MultiHead(Q,K,V)=Concat(head1,...,headh)WO
headi=Attention(QWi Q,KWi K,VWi V);
其中,headi为第i个注意力矩阵;h为注意力矩阵的总个数;WO为附加的权重矩阵;Q、K、V为所述语音序列编码生成的三个向量矩阵;Wi Q为向量矩阵Q的权重矩阵;Wi K为向量矩阵K的权重矩阵;Wi V为向量矩阵V的权重矩阵。
6.根据权利要求3所述的语音情感识别方法,其特征在于,所述将所述目标注意力矩阵输入至所述前馈神经网络,以通过所述前馈神经网络的两个线性变换层对所述目标注意力矩阵进行特征提取,得到所述前馈神经网络输出的特征提取结果的步骤,包括:
通过以下公式,得到前馈神经网络输出的特征提取结果:
FFN(x)=max(0,xE1+b1)E2+b2
其中,FFN(x)为所述特征提取结果,x为所述目标注意力矩阵,E1为第一个线性变换层的变化矩阵,b1为第一个线性变换层的偏置,E2为第二个线性变换层的变化矩阵,b2为第二个线性变换层的偏置。
7.根据权利要求1所述的语音情感识别方法,其特征在于:所述图卷积神经网络包括至少两个图卷积层;
所述将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征的步骤,包括:
将所述帧级别全局特征转化为图卷积;
将所述图卷积输入至所述至少两个图卷积层,得到对应的图节点级的嵌入向量特征;
通过两个激活函数对所述嵌入向量特征进行激活,得到对应的图节点特征。
8.一种语音情感识别装置,其特征在于,包括:
三维语音特征获取模块,用于提取语音数据的对数梅尔谱,以及所述对数梅尔谱的一阶差分和二阶差分,得到三维语音特征;
全局特征获取模块,用于对所述三维语音特征进行特征提取,得到包含语音上下文信息的帧级别全局特征;
图节点特征获取模块,用于将所述帧级别全局特征输入至图卷积神经网络进行全局信息重组,得到包含全局信息的图节点特征;
图级特征获取模块,用于将所述图节点特征输入至池化层进行池化,得到对应的图级特征;
情感类别获取模块,用于将所述图级特征输入至分类网络中进行情感分类,得到语音数据的情感类别;其中,所述分类网络包括全连接层和softmax层。
9.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。
10.一种计算机设备,其特征在于:包括储存器、处理器以及储存在所述储存器中并可被所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的语音情感识别方法的步骤。
CN202310114018.3A 2023-02-13 2023-02-13 语音情感识别方法、装置、存储介质和计算机设备 Pending CN116312639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310114018.3A CN116312639A (zh) 2023-02-13 2023-02-13 语音情感识别方法、装置、存储介质和计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310114018.3A CN116312639A (zh) 2023-02-13 2023-02-13 语音情感识别方法、装置、存储介质和计算机设备

Publications (1)

Publication Number Publication Date
CN116312639A true CN116312639A (zh) 2023-06-23

Family

ID=86826604

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310114018.3A Pending CN116312639A (zh) 2023-02-13 2023-02-13 语音情感识别方法、装置、存储介质和计算机设备

Country Status (1)

Country Link
CN (1) CN116312639A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612747A (zh) * 2023-07-19 2023-08-18 腾讯科技(深圳)有限公司 语音音素识别方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116612747A (zh) * 2023-07-19 2023-08-18 腾讯科技(深圳)有限公司 语音音素识别方法、装置、设备及存储介质
CN116612747B (zh) * 2023-07-19 2023-09-22 腾讯科技(深圳)有限公司 语音音素识别方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN109841226A (zh) 一种基于卷积递归神经网络的单通道实时降噪方法
CN111968629A (zh) 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN109326299A (zh) 基于全卷积神经网络的语音增强方法、装置及存储介质
CN111357051B (zh) 语音情感识别方法、智能装置和计算机可读存储介质
CN113196385B (zh) 用于音频信号处理的方法和系统及计算机可读存储介质
CN110751944A (zh) 构建语音识别模型的方法、装置、设备和存储介质
CN116312639A (zh) 语音情感识别方法、装置、存储介质和计算机设备
CN115951883B (zh) 分布式微服务架构的服务组件管理系统及其方法
CN116324973A (zh) 包含时间缩减层的基于变换器的自动语音识别系统
KR102241364B1 (ko) 음성 신호를 이용한 사용자 스트레스 판별 장치 및 방법
CN113593606B (zh) 音频识别方法和装置、计算机设备、计算机可读存储介质
CN113921041A (zh) 基于分组卷积注意力网络的录音设备识别方法及系统
CN113469111A (zh) 图像关键点检测方法及系统、电子设备、存储介质
CN115545361B (zh) 一种电网传输线路气候环境预测方法、系统及介质
CN112766368A (zh) 一种数据分类方法、设备和可读存储介质
CN117216542A (zh) 一种模型训练方法和相关装置
RU2504027C1 (ru) Способ создания кодовой книги и поиска в ней при векторном квантовании данных
CN113707172B (zh) 稀疏正交网络的单通道语音分离方法、系统、计算机设备
CN115100599A (zh) 基于掩码transformer的半监督人群场景异常检测方法
CN110543549A (zh) 语义等价性判断方法和装置
JP7230324B2 (ja) ニューラルネットワークの学習方法、コンピュータプログラム及びコンピュータ装置
CN113450781A (zh) 语音处理方法、语音编码器、语音解码器及语音识别系统
CN117854540B (zh) 基于神经网络和多维特征融合的水声目标识别方法及系统
CN114783417B (zh) 一种语音检测方法、装置、电子设备及存储介质
Rajani et al. Isolated Word Recognition based on Convolutional Recurrent Neural Network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination