CN111508500B - 一种语音情绪识别方法、系统、装置和存储介质 - Google Patents

一种语音情绪识别方法、系统、装置和存储介质 Download PDF

Info

Publication number
CN111508500B
CN111508500B CN202010304864.8A CN202010304864A CN111508500B CN 111508500 B CN111508500 B CN 111508500B CN 202010304864 A CN202010304864 A CN 202010304864A CN 111508500 B CN111508500 B CN 111508500B
Authority
CN
China
Prior art keywords
signal
emotion recognition
filter
voice
sliding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010304864.8A
Other languages
English (en)
Other versions
CN111508500A (zh
Inventor
翟懿奎
余翠琳
柯琪锐
梁艳阳
陈家聪
应自炉
王天雷
徐颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuyi University
Original Assignee
Wuyi University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuyi University filed Critical Wuyi University
Priority to CN202010304864.8A priority Critical patent/CN111508500B/zh
Publication of CN111508500A publication Critical patent/CN111508500A/zh
Application granted granted Critical
Publication of CN111508500B publication Critical patent/CN111508500B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语音情绪识别方法、系统、装置和存储介质,包括接收语音信号y(t);把所述语音信号y(t)输入到情感识别网络前端,得到中间信号;把所述中间信号输入到情感识别网络后端。根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识别病人的情绪,及时快速响应的技术效果。

Description

一种语音情绪识别方法、系统、装置和存储介质
技术领域
本发明涉及计算机语音处理领域,特别涉及一种语音情绪识别方法、系统、装置和存储介质。
背景技术
病人的心理状态变化通常会随疾病的发展变幻无常,医护人员无法及时准确有效的了解病人的情绪变化,从而无法及时实施精准的情绪治疗。因此,及时准确对大量病人的心理状态进行收集处理分析显得格外重要。目前在病人心理感知领域,特别是病人语音情绪识别方面还缺乏有效的技术手段。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一种语音情绪识别方法、系统、装置和存储介质,所述语音情绪识别方法能对收集病人的语音信息,进行滤波、3D卷积模型提取语音的高级特征和基于注意力机制的滑动递归神经网络提取得到病人的心理状态。所述一种语音情绪识别系统、装置和存储介质应用所述语音情绪识别方法,可以是一个与病人聊天的机器人,及时掌握病人的情感信息的技术效果。
本发明提出一种语音情绪识别方法。包括:接收语音信号y(t);把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号;把所述中间信号输入到情感识别网络后端,识别人的情感。
根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识别病人的情绪,及时快速响应的技术效果。
根据本发明实施例的语音情绪识别方法,所述情感识别网络前端包括:把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号sg(n,t);把所述第一信号sg(n,t)进行希尔伯特变换,用于提权所述第一信号sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号。原始的语音信号y(t)经过所述情感识别网络前端处理后,能模拟人听觉器官的特征,将语音信号分解为耳蜗中声频分析仪的函数的声频成分,希尔伯特变换提取时间包络,联合频谱-时间调制处理,为后续的情感识别网络后端处理提供基础。
根据本发明实施例的语音情绪识别方法,所述,所述Gammachirp听觉滤波器的脉冲响应是:
其中,
fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽。
Ata1-1exp(-2πwfERBN(fn)t)服从伽马分布,A表示振幅项,a1是所述Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数。c1ln(t)项是单调调频项,是原始相位;
因此,所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*y(t),1≤n≤N,其中t是时域中的样本数,N是所述Gammachirp听觉滤波器组中的通道数,*表示卷积。
根据本发明实施例的语音情绪识别方法,所述情感识别网络后端包括:把所述第二信号用3D卷积模型提取所述第二信号的高级特征,得到第三信号;把所述第三信号用基于注意力机制的滑动递归神经网络,对所述第三信号提取情感特征。
根据本发明实施例的语音情绪识别方法,所述3D卷积模型包括第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)和第三池化层(Pool3)。输入和输出数据的数据格式设计为“D×H×W”,其中D,H和W是声音通道(深度),调制通道(高度)和时间序列(宽度),输入Conv1大小设置为32×9×6000,内核大小为2×2×4。为降低计算复杂度,Conv1的跨度设置为1×1×2,其他卷积层设置为1×1×1。每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深度网络的训练;Conv2之前的第一个池化层(Pool1)的内核大小为2×2×1,步长为2×2×1(最大池操作),第二个池化层(Pool2)的内核大小为2×2×2,跨度为2×2×2,并在Pool2上执行了频谱-时间池化操作;第三池层(Pool3)的内核大小为2×1×2和步幅为2×1×2;每个池化层中的最大池化操作用于提取针对背景噪声的鲁棒特征,尤其是对于波形信号。这三个池化层将时间序列的输出大小减少了时间长度的20倍。三个卷积层的特征图分别是20、32和64。最后,在将张量的轴移置之后将其形状为750×4×2×64的Pool3输出,然后将其重塑为750×512的2D形状。
表一:3D卷积神经网络结构
输入尺寸 输出尺寸 内核大小 步长
Conv1 32*9*6000 32*9*3000 2*2*4 1*1*2
Pool1 32*9*3000 16*4*3000 2*2*1 2*2*1
Conv2 16*4*3000 16*4*3000 2*2*4 1*1*1
Pool2 16*4*3000 8*2*1500 2*2*2 2*2*2
Conv3 8*2*1500 8*2*1500 2*2*4 1*1*1
Pool3 8*2*1500 4*2*750 2*1*2 2*1*2
Reshape 4*2*750 750*512
根据本发明实施例的语音情绪识别方法,所述基于注意力机制的滑动递归神经网络包括:滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级表示;双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元,然后被反向馈送到后向LSTM单元,得到多个滑动序列;注意力机制模型,计算每个所述滑动序列的注意力权重和加权和;使用ReLU作为激活函数,将非线性引入所述滑动递归神经网络;使用SoftMax函数来生成情绪状态分布。本发明使用了双向LSTM(BLSTM)网络,其中接收到的信号序列曾经被正向馈送到一个LSTM单元,然后被反向馈送到另一个LSTM单元。前向LSTM以其原始顺序读取时间序列,并在每个时间步长生成隐藏状态fh(k,t)={(fh(k,1),...,fh(k,Z)}。类似地,后向LSTM以相反的顺序读取时间序列,并生成一系列隐藏状态bh(k,t)={bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列的信息。我们将前向和后向LSTM单元格的最后状态串联起来,以产生k个序列的hk。hk=[fh(k,Z),bh(k,1)]每个隐藏状态hk包含每个滑动窗口序列的信息。沿着窗口的不同帧的循环层的隐藏状态用于计算提取的特征。每个滑动窗口的该层的输出是每个滑动窗口中最后一个时间帧的单元状态向量。在每个滑动窗口进行处理后,我们将移动S个时间帧以计算具有有效填充的下一个滑动窗口。滑动窗口的数量L计算为BLSTM在每个滑动窗口中的两个方向都有512个隐藏单元。最后,创建一个形状为L×1024的新序列以放入注意力机制模型。在每个滑动序列中使用LSTM单元的相同参数,然后产生一个新的序列h。
h={h1,...,hL},hk∈R2D,1≤k≤L。
根据本发明实施例的语音情绪识别系统,包括:语音采集单元,用于接收语音信号y(t);Gammachirp听觉滤波单元,用于计算所述第一信号sg(n,t);希尔伯特变换单元,用于提权所述第一信号sg(n,t)包络;3D卷积单元,用于计算得到所述第三信号;基于注意力机制的滑动递归神经网络单元,用于生成情绪状态分布。
根据本发明实施例的语音情绪识别装置,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。
根据本发明实施例的一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明实施例的语音情绪识别方法的示意图;
图2为本发明实施例的情感识别网络前端示意图;
图3为本发明实施例的情感识别网络后端示意图;
图4为本发明实施例的3D卷积模型示意图;
图5为本发明实施例的基于注意力机制的滑动递归神经网络示意图;
图6为本发明实施例的语音情绪识别系统示意图。
附图标记:
语音采集单元601、
Gammachirp听觉滤波单元602、
希尔伯特变换单元603、
3D卷积单元604、
基于注意力机制的滑动递归神经网络单元605。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,描述根据本发明实施例的语音情绪识别方法。包括:
S101:接收语音信号y(t);
S102:把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号;
S103:把所述中间信号输入到情感识别网络后端,识别人的情感。
描述根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识别病人的情绪,及时快速响应的技术效果。
参照图2,描述根据本发明实施例的语音情绪识别方法,所述情感识别网络前端包括:
S201:把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号sg(n,t);
S202:把所述第一信号sg(n,t)进行希尔伯特变换,用于提权所述第一信号sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号。
原始的语音信号y(t)经过所述情感识别网络前端处理后,能模拟人听觉器官的特征,将语音信号分解为耳蜗中声频分析仪的函数的声频成分,希尔伯特变换提取时间包络,联合频谱-时间调制处理,为后续的情感识别网络后端处理提供基础。
参照图1,描述根据本发明实施例的语音情绪识别方法,所述Gammachirp听觉滤波器的脉冲响应是:
其中,
fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽。
Ata1-1exp(-2πwfERBN(fn)t)服从伽马分布,A表示振幅项,a1是所述Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数。c1ln(t)项是单调调频项,是原始相位;
因此,所述所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*y(t),1≤n≤N,其中t是时域中的样本数,N是所述Gammachirp听觉滤波器组中的通道数,*表示卷积。
参照图3,描述根据本发明实施例的语音情绪识别方法,所述情感识别网络后端包括:
S301:把所述第二信号用3D卷积模型提取所述第二信号的高级特征,得到第三信号;
S302:把所述第三信号用基于注意力机制的滑动递归神经网络,对所述第三信号提取情感特征。
参照图4,描述根据本发明实施例的语音情绪识别方法,所述3D卷积模型包括:
S401:第一卷积层(Conv1);
S402:第一池化层(Pool1);
S403:第二卷积层(Conv2);
S404:第二池化层(Pool2);
S405:第三卷积层(Conv3);
S406:第三池化层(Pool3)
S407:重塑。
输入和输出数据的数据格式设计为“D×H×W”,其中D,H和W是声音通道(深度),调制通道(高度)和时间序列(宽度),输入Conv1大小设置为32×9×6000,内核大小为2×2×4。为降低计算复杂度,Conv1的跨度设置为1×1×2,其他卷积层设置为1×1×1。每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深度网络的训练;Conv2之前的第一个池化层(Pool1)的内核大小为2×2×1,步长为2×2×1(最大池操作),第二个池化层(Pool2)的内核大小为2×2×2,跨度为2×2×2,并在Pool2上执行了频谱-时间池化操作;第三池层(Pool3)的内核大小为2×1×2和步幅为2×1×2;每个池化层中的最大池化操作用于提取针对背景噪声的鲁棒特征,尤其是对于波形信号。这三个池化层将时间序列的输出大小减少了时间长度的20倍。三个卷积层的特征图分别是20、32和64。最后,在将张量的轴移置之后将其形状为750×4×2×64的Pool3输出,然后将其重塑为750×512的2D形状。
表一:3D卷积神经网络结构
输入尺寸 输出尺寸 内核大小 步长
Conv1 32*9*6000 32*9*3000 2*2*4 1*1*2
Pool1 32*9*3000 16*4*3000 2*2*1 2*2*1
Conv2 16*4*3000 16*4*3000 2*2*4 1*1*1
Pool2 16*4*3000 8*2*1500 2*2*2 2*2*2
Conv3 8*2*1500 8*2*1500 2*2*4 1*1*1
Pool3 8*2*1500 4*2*750 2*1*2 2*1*2
Reshape 4*2*750 750*512
参照图5,描述根据本发明实施例的语音情绪识别方法,所述基于注意力机制的滑动递归神经网络包括:
S501:滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级表示;
S502:双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元,然后被反向馈送到后向LSTM单元,得到多个滑动序列;注意力机制模型,计算每个所述滑动序列的注意力权重和加权和;
S503:使用ReLU作为激活函数,将非线性引入所述滑动递归神经网络;
S504:使用SoftMax函数来生成情绪状态分布。
本发明使用了双向LSTM(BLSTM)网络,其中接收到的信号序列曾经被正向馈送到一个LSTM单元,然后被反向馈送到另一个LSTM单元。前向LSTM以其原始顺序读取时间序列,并在每个时间步长生成隐藏状态fh(k,t)={(fh(k,1),...,fh(k,Z)}。类似地,后向LSTM以相反的顺序读取时间序列,并生成一系列隐藏状态bh(k,t)={bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列的信息。我们将前向和后向LSTM单元格的最后状态串联起来,以产生k个序列的hk。hk=[fh(k,Z),bh(k,1)]每个隐藏状态hk包含每个滑动窗口序列的信息。沿着窗口的不同帧的循环层的隐藏状态用于计算提取的特征。每个滑动窗口的该层的输出是每个滑动窗口中最后一个时间帧的单元状态向量。在每个滑动窗口进行处理后,我们将移动S个时间帧以计算具有有效填充的下一个滑动窗口。滑动窗口的数量L计算为BLSTM在每个滑动窗口中的两个方向都有512个隐藏单元。最后,创建一个形状为L×1024的新序列以放入注意力机制模型。在每个滑动序列中使用LSTM单元的相同参数,然后产生一个新的序列h。h={h1,...,hL},hk∈R2D,1≤k≤L。
参照图6,描述根据本发明实施例的语音情绪识别系统,包括:
语音采集单元601,用于接收语音信号y(t);
Gammachirp听觉滤波单元602,用于计算所述第一信号sg(n,t);
希尔伯特变换单元603,用于提权所述第一信号sg(n,t)包络;
3D卷积单元604,用于计算得到所述第三信号;
基于注意力机制的滑动递归神经网络单元605,用于生成情绪状态分布。
参照图1,描述根据本发明实施例的语音情绪识别装置,包括:至少一个处理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述第一实施例中任意一种语音情绪识别方法。
该装置可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态性计算机可执行程序以及模块,如本发明实施例中的语音情绪识别构建方法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块,从而执行装置的各种功能应用以及数据处理,即实现上述任一方法实施例的一种语音情绪识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理器执行时,执行上述任意方法实施例中的一种语音情绪识别方法方法。
参照图1,描述根据本发明实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access Memory,RAM)等。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
需要说明的是,本发明实施例的语音情绪识别装置,可以是一个应用语音情绪识别方法的机器人,所述机器人内安装了所述语音采集单元601、所述Gammachirp听觉滤波单元602、所述希尔伯特变换单元603、所述3D卷积单元604、所述基于注意力机制的滑动递归神经网络单元605。所述机器人能能够获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识别病人的情绪,及时快速响应的技术效果。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。

Claims (6)

1.一种语音情绪识别方法,其特征在于,包括:
接收语音信号y(t);
把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号,其中,述情感识别网络前端包括:
把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号sg(n,t),其中,所述Gammachirp听觉滤波器的脉冲响应gc是:
其中,fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽;
服从伽马分布,A表示振幅项,a1是所述Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数,c1ln(t)项是单调调频项,/>是原始相位;
把所述第一信号sg(n,t)进行希尔伯特变换,用于提取所述第一信号sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号;
把所述中间信号输入到情感识别网络后端,识别人的情感,其中,所述情感识别网络后端包括:
把所述第二信号用3D卷积模型提取所述第二信号的特征,得到第三信号,其中,所述3D卷积模型包括第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层和第三池化层;
把所述第三信号用基于注意力机制的滑动递归神经网络,对所述第三信号提取情感特征。
2.根据权利要求1所述的一种语音情绪识别方法,其特征在于,所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*yt
1≤n≤N,其中t是时域中的样本数,N是所述Gammachirp听觉滤波器组中的通道数,*表示卷积。
3.根据权利要求1所述的一种语音情绪识别方法,其特征在于,基于注意力机制的滑动递归神经网络包括:
滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级表示;
双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元,然后被反向馈送到后向LSTM单元,得到多个滑动序列;
注意力机制模型,计算每个所述滑动序列的注意力权重和加权和;
使用ReLU作为激活函数,将非线性引入所述滑动递归神经网络;
使用SoftMax函数来生成情绪状态分布。
4.一种语音情绪识别系统,其特征在于,包括:
语音采集单元,用于接收语音信号y(t);
Gammachirp听觉滤波单元,用于把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号,其中,述情感识别网络前端包括:
把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号sg(n,t),其中,所述Gammachirp听觉滤波器的脉冲响应gc是:
其中,fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽;
服从伽马分布,A表示振幅项,a1是所述Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数,c1 ln(t)项是单调调频项,/>是原始相位:
希尔伯特变换单元,用于把所述第一信号sg(n,t)进行希尔伯特变换,提取所述第一信号sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号;
3D卷积单元,用于提取所述第二信号的特征,得到第三信号;
基于注意力机制的滑动递归神经网络单元,对所述第三信号提取情感特征,用于生成情绪状态分布。
5.一种语音情绪识别装置,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-3任一项所述的方法。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-3任一项所述的方法。
CN202010304864.8A 2020-04-17 2020-04-17 一种语音情绪识别方法、系统、装置和存储介质 Active CN111508500B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010304864.8A CN111508500B (zh) 2020-04-17 2020-04-17 一种语音情绪识别方法、系统、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010304864.8A CN111508500B (zh) 2020-04-17 2020-04-17 一种语音情绪识别方法、系统、装置和存储介质

Publications (2)

Publication Number Publication Date
CN111508500A CN111508500A (zh) 2020-08-07
CN111508500B true CN111508500B (zh) 2023-08-29

Family

ID=71864058

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010304864.8A Active CN111508500B (zh) 2020-04-17 2020-04-17 一种语音情绪识别方法、系统、装置和存储介质

Country Status (1)

Country Link
CN (1) CN111508500B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112420053A (zh) * 2021-01-19 2021-02-26 南京纳新信息科技有限公司 智能交互式人机对话系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645267A (zh) * 2009-04-03 2010-02-10 中国科学院声学研究所 一种应用于电子耳蜗的语音处理方法
CN107767859A (zh) * 2017-11-10 2018-03-06 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备
CN109256127A (zh) * 2018-11-15 2019-01-22 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110010150A (zh) * 2019-04-15 2019-07-12 吉林大学 基于多分辨率的听觉感知语音特征参数提取方法
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US10026395B1 (en) * 2017-01-06 2018-07-17 Applied Brain Research Inc. Methods and systems for extracting auditory features with neural networks

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645267A (zh) * 2009-04-03 2010-02-10 中国科学院声学研究所 一种应用于电子耳蜗的语音处理方法
CN107767859A (zh) * 2017-11-10 2018-03-06 吉林大学 噪声环境下人工耳蜗信号的说话人可懂性检测方法
CN109243490A (zh) * 2018-10-11 2019-01-18 平安科技(深圳)有限公司 司机情绪识别方法及终端设备
CN109256127A (zh) * 2018-11-15 2019-01-22 江南大学 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法
CN109859772A (zh) * 2019-03-22 2019-06-07 平安科技(深圳)有限公司 情绪识别方法、装置及计算机可读存储介质
CN110010150A (zh) * 2019-04-15 2019-07-12 吉林大学 基于多分辨率的听觉感知语音特征参数提取方法
CN110400579A (zh) * 2019-06-25 2019-11-01 华东理工大学 基于方向自注意力机制和双向长短时网络的语音情感识别
CN110322891A (zh) * 2019-07-03 2019-10-11 南方科技大学 一种语音信号的处理方法、装置、终端及存储介质
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
罗元 等."基于伽马啁啾滤波器组的听觉特征提取算法".《信息与控制》.2013,第42卷(第42期),589-594. *

Also Published As

Publication number Publication date
CN111508500A (zh) 2020-08-07

Similar Documents

Publication Publication Date Title
US11373672B2 (en) Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments
US20240169975A1 (en) Speech processing method, apparatus, electronic device, and computer-readable storage medium
CN110176226A (zh) 一种语音识别、及语音识别模型训练方法及装置
CN109448719A (zh) 神经网络模型建立方法及语音唤醒方法、装置、介质和设备
CN110111769B (zh) 一种电子耳蜗控制方法、装置、可读存储介质及电子耳蜗
DE60025748T2 (de) Spracherkennung
CN107767879A (zh) 基于音色的音频转换方法及装置
CN107945790A (zh) 一种情感识别方法和情感识别系统
CN108491808B (zh) 用于获取信息的方法及装置
CN105895082A (zh) 声学模型训练方法、语音识别方法及装置
CN113924786B (zh) 用于耳蜗力学和处理的神经网络模型
CN111312292A (zh) 基于语音的情绪识别方法、装置、电子设备及存储介质
DE60133537T2 (de) Automatisches umtrainieren eines spracherkennungssystems
CN111508500B (zh) 一种语音情绪识别方法、系统、装置和存储介质
CN110719558A (zh) 助听器验配方法、装置、计算机设备及存储介质
CN105845143A (zh) 基于支持向量机的说话人确认方法及其系统
EP1896123A1 (de) Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals
CN113749656B (zh) 基于多维生理信号的情感识别方法和装置
Healy et al. Progress made in the efficacy and viability of deep-learning-based noise reduction
CN110223699A (zh) 一种说话人身份确认方法、装置及存储介质
CN113327594A (zh) 语音识别模型训练方法、装置、设备及存储介质
CN106340310B (zh) 语音检测方法及装置
JP2009525792A (ja) 音声信号に基づく蝸牛インプラントのための制御信号を生成するための方法、装置およびコンピュータ・プログラム
CN110459235A (zh) 一种混响消除方法、装置、设备及存储介质
DE60315907T2 (de) Lernverfahren und -vorrichtung, mobiles Kommunikationsterminal und Informations-Erkennungssystem, basierend auf der Analyse von Bewegungen der Sprachorgane eines sprechenden Benutzers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant