CN111508500A - 一种语音情绪识别方法、系统、装置和存储介质 - Google Patents
一种语音情绪识别方法、系统、装置和存储介质 Download PDFInfo
- Publication number
- CN111508500A CN111508500A CN202010304864.8A CN202010304864A CN111508500A CN 111508500 A CN111508500 A CN 111508500A CN 202010304864 A CN202010304864 A CN 202010304864A CN 111508500 A CN111508500 A CN 111508500A
- Authority
- CN
- China
- Prior art keywords
- signal
- emotion recognition
- sliding
- voice
- recognition method
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 64
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000008451 emotion Effects 0.000 claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 17
- 230000000306 recurrent effect Effects 0.000 claims description 16
- 238000011176 pooling Methods 0.000 claims description 15
- 230000007246 mechanism Effects 0.000 claims description 14
- 230000002996 emotional effect Effects 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 9
- 108010076504 Protein Sorting Signals Proteins 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- KMHZPJNVPCAUMN-UHFFFAOYSA-N Erbon Chemical group CC(Cl)(Cl)C(=O)OCCOC1=CC(Cl)=C(Cl)C=C1Cl KMHZPJNVPCAUMN-UHFFFAOYSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 210000005069 ears Anatomy 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000035807 sensation Effects 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 11
- 230000000694 effects Effects 0.000 abstract description 8
- 206010063659 Aversion Diseases 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 210000003477 cochlea Anatomy 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 229910052739 hydrogen Inorganic materials 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/75—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Child & Adolescent Psychology (AREA)
- General Health & Medical Sciences (AREA)
- Hospice & Palliative Care (AREA)
- Psychiatry (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种语音情绪识别方法、系统、装置和存储介质,包括接收语音信号y(t);把所述语音信号y(t)输入到情感识别网络前端,得到中间信号;把所述中间信号输入到情感识别网络后端。根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识别病人的情绪,及时快速响应的技术效果。
Description
技术领域
本发明涉及计算机语音处理领域,特别涉及一种语音情绪识别方法、系统、 装置和存储介质。
背景技术
病人的心理状态变化通常会随疾病的发展变幻无常,医护人员无法及时准确 有效的了解病人的情绪变化,从而无法及时实施精准的情绪治疗。因此,及时准 确对大量病人的心理状态进行收集处理分析显得格外重要。目前在病人心理感知 领域,特别是病人语音情绪识别方面还缺乏有效的技术手段。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明提出一 种语音情绪识别方法、系统、装置和存储介质,所述语音情绪识别方法能对收集 病人的语音信息,进行滤波、3D卷积模型提取语音的高级特征和基于注意力机 制的滑动递归神经网络提取得到病人的心理状态。所述一种语音情绪识别系统、 装置和存储介质应用所述语音情绪识别方法,可以是一个与病人聊天的机器人, 及时掌握病人的情感信息的技术效果。
本发明提出一种语音情绪识别方法。包括:接收语音信号y(t);把所述语音 信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号;把所述中 间信号输入到情感识别网络后端,识别人的情感。
根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够获取 语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6 种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识 别病人的情绪,及时快速响应的技术效果。
根据本发明实施例的语音情绪识别方法,所述情感识别网络前端包括:把 所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号 sg(n,t);把所述第一信号sg(n,t)进行希尔伯特变换,用于提权所述第一信号 sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号。原始的语 音信号y(t)经过所述情感识别网络前端处理后,能模拟人听觉器官的特征,将语 音信号分解为耳蜗中声频分析仪的函数的声频成分,希尔伯特变换提取时间包 络,联合频谱-时间调制处理,为后续的情感识别网络后端处理提供基础。
根据本发明实施例的语音情绪识别方法,所述,所述Gammachirp听觉滤波 器的脉冲响应是:
其中,
fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽。
Ata1-1exp(-2πwfERBN(fn)t)服从伽马分布,A表示振幅项,a1是所述 Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数。 c1ln(t)项是单调调频项,是原始相位;
因此,所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*y(t),1≤n≤N,其中t是时域中的样本数,N是所述 Gammachirp听觉滤波器组中的通道数,*表示卷积。
根据本发明实施例的语音情绪识别方法,所述情感识别网络后端包括:把所 述第二信号用3D卷积模型提取所述第二信号的高级特征,得到第三信号;把所 述第三信号用基于注意力机制的滑动递归神经网络,对所述第三信号提取情感特 征。
根据本发明实施例的语音情绪识别方法,所述3D卷积模型包括第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、 第三卷积层(Conv3)和第三池化层(Pool3)。输入和输出数据的数据格式设计 为“D×H×W”,其中D,H和W是声音通道(深度),调制通道(高度)和 时间序列(宽度),输入Conv1大小设置为32×9×6000,内核大小为2×2×4。 为降低计算复杂度,Conv1的跨度设置为1×1×2,其他卷积层设置为1×1×1。 每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深 度网络的训练;Conv2之前的第一个池化层(Pool1)的内核大小为2×2×1,步 长为2×2×1(最大池操作),第二个池化层(Pool2)的内核大小为2×2×2, 跨度为2×2×2,并在Pool2上执行了频谱-时间池化操作;第三池层(Pool3) 的内核大小为2×1×2和步幅为2×1×2;每个池化层中的最大池化操作用于提 取针对背景噪声的鲁棒特征,尤其是对于波形信号。这三个池化层将时间序列的 输出大小减少了时间长度的20倍。三个卷积层的特征图分别是20、32和64。 最后,在将张量的轴移置之后将其形状为750×4×2×64的Pool3输出,然后将 其重塑为750×512的2D形状。
表一:3D卷积神经网络结构
层 | 输入尺寸 | 输出尺寸 | 内核大小 | 步长 |
Conv1 | 32*9*6000 | 32*9*3000 | 2*2*4 | 1*1*2 |
Pool1 | 32*9*3000 | 16*4*3000 | 2*2*1 | 2*2*1 |
Conv2 | 16*4*3000 | 16*4*3000 | 2*2*4 | 1*1*1 |
Pool2 | 16*4*3000 | 8*2*1500 | 2*2*2 | 2*2*2 |
Conv3 | 8*2*1500 | 8*2*1500 | 2*2*4 | 1*1*1 |
Pool3 | 8*2*1500 | 4*2*750 | 2*1*2 | 2*1*2 |
Reshape | 4*2*750 | 750*512 |
根据本发明实施例的语音情绪识别方法,所述基于注意力机制的滑动递归神 经网络包括:滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级 表示;双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元,然 后被反向馈送到后向LSTM单元,得到多个滑动序列;注意力机制模型,计算每 个所述滑动序列的注意力权重和加权和;使用ReLU作为激活函数,将非线性引 入所述滑动递归神经网络;使用SoftMax函数来生成情绪状态分布。本发明使用 了双向LSTM(BLSTM)网络,其中接收到的信号序列曾经被正向馈送到一个LSTM 单元,然后被反向馈送到另一个LSTM单元。前向LSTM以其原始顺序读取时间 序列,并在每个时间步长生成隐藏状态fh(k,t)={(fh(k,1),...,fh(k,Z)}。类似地,后向LSTM以相反的顺序读取时间序列,并生成一系列隐藏状态 bh(k,t)={bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列 的信息。我们将前向和后向LSTM单元格的最后状态串联起来,以产生k个序列 的hk。hk=[fh(k,Z),bh(k,1)]每个隐藏状态hk包含每个滑动窗口序列的信息。沿 着窗口的不同帧的循环层的隐藏状态用于计算提取的特征。每个滑动窗口的该层 的输出是每个滑动窗口中最后一个时间帧的单元状态向量。在每个滑动窗口进行 处理后,我们将移动S个时间帧以计算具有有效填充的下一个滑动窗口。滑动窗 口的数量L计算为BLSTM在每个滑动窗口中的两个方向都有512 个隐藏单元。最后,创建一个形状为L×1024的新序列以放入注意力机制模型。 在每个滑动序列中使用LSTM单元的相同参数,然后产生一个新的序列h。 h={h1,...,hL},hk∈R2D,1≤k≤L。
根据本发明实施例的语音情绪识别系统,包括:语音采集单元,用于接收语 音信号y(t);Gammachirp听觉滤波单元,用于计算所述第一信号sg(n,t);希尔 伯特变换单元,用于提权所述第一信号sg(n,t)包络;3D卷积单元,用于计算得 到所述第三信号;基于注意力机制的滑动递归神经网络单元,用于生成情绪状态 分布。
根据本发明实施例的语音情绪识别装置,包括:至少一个处理器;以及,与 所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少 一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一 个处理器能够执行如权利要求1-6任一项所述的方法。
根据本发明实施例的一种计算机可读存储介质,其特征在于,所述计算机可 读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行 如权利要求1-6任一项所述的方法。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述 中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将 变得明显和容易理解,其中:
图1为本发明实施例的语音情绪识别方法的示意图;
图2为本发明实施例的情感识别网络前端示意图;
图3为本发明实施例的情感识别网络后端示意图;
图4为本发明实施例的3D卷积模型示意图;
图5为本发明实施例的基于注意力机制的滑动递归神经网络示意图;
图6为本发明实施例的语音情绪识别系统示意图。
附图标记:
语音采集单元601、
Gammachirp听觉滤波单元602、
希尔伯特变换单元603、
3D卷积单元604、
基于注意力机制的滑动递归神经网络单元605。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始 至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下 面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对 本发明的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、 左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便 于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的 方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上, 大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。 如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗 示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技 术特征的先后关系。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义 理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在 本发明中的具体含义。
参照图1,描述根据本发明实施例的语音情绪识别方法。包括:
S101:接收语音信号y(t);
S102:把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得 到中间信号;
S103:把所述中间信号输入到情感识别网络后端,识别人的情感。
描述根据本发明实施例的语音情绪识别方法,至少具有如下技术效果:能够 获取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的 6种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前 识别病人的情绪,及时快速响应的技术效果。
参照图2,描述根据本发明实施例的语音情绪识别方法,所述情感识别网络 前端包括:
S201:把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到 第一信号sg(n,t);
S202:把所述第一信号sg(n,t)进行希尔伯特变换,用于提权所述第一信号 sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号。
原始的语音信号y(t)经过所述情感识别网络前端处理后,能模拟人听觉器官 的特征,将语音信号分解为耳蜗中声频分析仪的函数的声频成分,希尔伯特变换 提取时间包络,联合频谱-时间调制处理,为后续的情感识别网络后端处理提供 基础。
参照图1,描述根据本发明实施例的语音情绪识别方法,所述Gammachirp 听觉滤波器的脉冲响应是:
其中,
fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽。
Ata1-1exp(-2πwfERBN(fn)t)服从伽马分布,A表示振幅项,a1是所述 Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数。 c1ln(t)项是单调调频项,是原始相位;
因此,所述所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*y(t),1≤n≤N,其中t是时域中的样本数,N是所述 Gammachirp听觉滤波器组中的通道数,*表示卷积。
参照图3,描述根据本发明实施例的语音情绪识别方法,所述情感识别网络 后端包括:
S301:把所述第二信号用3D卷积模型提取所述第二信号的高级特征,得到 第三信号;
S302:把所述第三信号用基于注意力机制的滑动递归神经网络,对所述第三 信号提取情感特征。
参照图4,描述根据本发明实施例的语音情绪识别方法,所述3D卷积模型 包括:
S401:第一卷积层(Conv1);
S402:第一池化层(Pool1);
S403:第二卷积层(Conv2);
S404:第二池化层(Pool2);
S405:第三卷积层(Conv3);
S406:第三池化层(Pool3)
S407:重塑。
输入和输出数据的数据格式设计为“D×H×W”,其中D,H和W是声音 通道(深度),调制通道(高度)和时间序列(宽度),输入Conv1大小设置为 32×9×6000,内核大小为2×2×4。为降低计算复杂度,Conv1的跨度设置为1 ×1×2,其他卷积层设置为1×1×1。每个卷积层都有归一化和线性整流函数(ReLU)操作。批处理规范化用于加速深度网络的训练;Conv2之前的第一个池 化层(Pool1)的内核大小为2×2×1,步长为2×2×1(最大池操作),第二个 池化层(Pool2)的内核大小为2×2×2,跨度为2×2×2,并在Pool2上执行了 频谱-时间池化操作;第三池层(Pool3)的内核大小为2×1×2和步幅为2×1 ×2;每个池化层中的最大池化操作用于提取针对背景噪声的鲁棒特征,尤其是 对于波形信号。这三个池化层将时间序列的输出大小减少了时间长度的20倍。 三个卷积层的特征图分别是20、32和64。最后,在将张量的轴移置之后将其形 状为750×4×2×64的Pool3输出,然后将其重塑为750×512的2D形状。
表一:3D卷积神经网络结构
层 | 输入尺寸 | 输出尺寸 | 内核大小 | 步长 |
Conv1 | 32*9*6000 | 32*9*3000 | 2*2*4 | 1*1*2 |
Pool1 | 32*9*3000 | 16*4*3000 | 2*2*1 | 2*2*1 |
Conv2 | 16*4*3000 | 16*4*3000 | 2*2*4 | 1*1*1 |
Pool2 | 16*4*3000 | 8*2*1500 | 2*2*2 | 2*2*2 |
Conv3 | 8*2*1500 | 8*2*1500 | 2*2*4 | 1*1*1 |
Pool3 | 8*2*1500 | 4*2*750 | 2*1*2 | 2*1*2 |
Reshape | 4*2*750 | 750*512 |
参照图5,描述根据本发明实施例的语音情绪识别方法,所述基于注意力机 制的滑动递归神经网络包括:
S501:滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级表 示;
S502:双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元, 然后被反向馈送到后向LSTM单元,得到多个滑动序列;注意力机制模型,计算 每个所述滑动序列的注意力权重和加权和;
S503:使用ReLU作为激活函数,将非线性引入所述滑动递归神经网络;
S504:使用SoftMax函数来生成情绪状态分布。
本发明使用了双向LSTM(BLSTM)网络,其中接收到的信号序列曾经被正向馈 送到一个LSTM单元,然后被反向馈送到另一个LSTM单元。前向LSTM以其原 始顺序读取时间序列,并在每个时间步长生成隐藏状态
fh(k,t)={(fh(k,1),...,fh(k,Z)}。类似地,后向LSTM以相反的顺序读取时间序列, 并生成一系列隐藏状态bh(k,t)={bh(k,Z),...,bh(k,1)}。前向和后向LSTM单元的最后状态携带整个源序列的信息。我们将前向和后向LSTM单元格的最后状态串 联起来,以产生k个序列的hk。hk=[fh(k,Z),bh(k,1)]每个隐藏状态hk包含每个 滑动窗口序列的信息。沿着窗口的不同帧的循环层的隐藏状态用于计算提取的特 征。每个滑动窗口的该层的输出是每个滑动窗口中最后一个时间帧的单元状态向 量。在每个滑动窗口进行处理后,我们将移动S个时间帧以计算具有有效填充的 下一个滑动窗口。滑动窗口的数量L计算为BLSTM在每个滑动 窗口中的两个方向都有512个隐藏单元。最后,创建一个形状为L×1024的新序 列以放入注意力机制模型。在每个滑动序列中使用LSTM单元的相同参数,然后 产生一个新的序列h。h={h1,...,hL},hk∈R2D,1≤k≤L。
参照图6,描述根据本发明实施例的语音情绪识别系统,包括:
语音采集单元601,用于接收语音信号y(t);
Gammachirp听觉滤波单元602,用于计算所述第一信号sg(n,t);
希尔伯特变换单元603,用于提权所述第一信号sg(n,t)包络;
3D卷积单元604,用于计算得到所述第三信号;
基于注意力机制的滑动递归神经网络单元605,用于生成情绪状态分布。
参照图1,描述根据本发明实施例的语音情绪识别装置,包括:至少一个处 理器;
以及与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被 所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述第一实施例 中任意一种语音情绪识别方法。
该装置可以是任意类型的智能终端,例如手机、平板电脑、个人计算机等。
处理器和存储器可以通过总线或者其他方式连接。
存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、 非暂态性计算机可执行程序以及模块,如本发明实施例中的语音情绪识别构建方 法对应的程序指令/模块。处理器通过运行存储在存储器中的非暂态软件程序、 指令以及模块,从而执行装置的各种功能应用以及数据处理,即实现上述任一方 法实施例的一种语音情绪识别方法。
存储器可以包括存储程序区和存储数据区,其中,存储程序区可存储操作 系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创 建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存 储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在 一些实施例中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储 器可以通过网络连接至该装置。上述网络的实例包括但不限于互联网、企业内部 网、局域网、移动通信网及其组合。
所述一个或者多个模块存储在所述存储器中,当被所述一个或者多个处理 器执行时,执行上述任意方法实施例中的一种语音情绪识别方法方法。
参照图1,描述根据本发明实施例的一种计算机可读存储介质,所述计算机 可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执 行如权利要求1-6任一项所述的方法。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单 元可以是或者也可以不是物理上分开的,即可以位于一个地方,或者也可以分布 到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本 实施例方案的目的。
通过以上的实施方式的描述,本领域普通技术人员可以清楚地了解到各实施 方式可借助软件加通用硬件平台的方式来实现,当然也可以通过硬件。本领域普 通技术人员可以理解实现上述实施例方法中的全部或部分流程是可以通过计算 机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质 中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储 介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆 体(Random Access Memory,RAM)等。
以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施 方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同 变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
需要说明的是,本发明实施例的语音情绪识别装置,可以是一个应用语音情 绪识别方法的机器人,所述机器人内安装了所述语音采集单元601、所述 Gammachirp听觉滤波单元602、所述希尔伯特变换单元603、所述3D卷积单元 604、所述基于注意力机制的滑动递归神经网络单元605。所述机器人能能够获 取语音信号,再经过语音信号处理,提取语音的特征并归类,得到人们常见的6 种基本情绪,分别为生气、厌恶、害怕、开心、伤心、和惊讶,从而达到提前识 别病人的情绪,及时快速响应的技术效果。
上面结合附图对本发明实施例作了详细说明,但是本发明不限于上述实施 例,在所述技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明 宗旨的前提下作出各种变化。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示意 性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实 施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施 例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施 例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多 个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (9)
1.一种语音情绪识别方法,其特征在于,包括:
接收语音信号y(t);
把所述语音信号y(t)输入到能模拟人耳听觉的情感识别网络前端,得到中间信号;
把所述中间信号输入到情感识别网络后端,识别人的情感。
2.根据权利要求1所述的一种语音情绪识别方法,其特征在于,所述情感识别网络前端包括:
把所述语音信号y(t)输入到Gammachirp听觉滤波器进行滤波,得到第一信号sg(n,t);
把所述第一信号sg(n,t)进行希尔伯特变换,用于提取所述第一信号sg(n,t)包络,计算所述第一信号sg(n,t)的瞬时幅度,得到第二信号。
3.根据权利要求2所述的一种语音情绪识别方法,其特征在于,所述Gammachirp听觉滤波器的脉冲响应gc是:
其中,
fn是第n个滤波器的中心频率,所述听觉滤波器的带宽是ERBN(fn)
Qear是大频率时的渐近滤波器质量,Bmin是低频时的最小带宽。
Ata1-1exp(-2πwfERBN(fn)t)服从伽马分布,A表示振幅项,a1是所述Gammachirp听觉滤波器的幅度,wf是所述Gammachirp听觉滤波器的阶数。c1ln(t)项是单调调频项,是原始相位;
因此,所述第一信号:sg(n,t)表示为,
sg(n,t)=gc(n,t)*y(t),1≤n≤N,其中t是时域中的样本数,N是所述Gammachirp听觉滤波器组中的通道数,*表示卷积。
4.根据权利要求2所述的一种语音情绪识别方法,其特征在于,所述情感识别网络后端包括:
把所述第二信号用3D卷积模型提取所述第二信号的高级特征,得到第三信号;
把所述第三信号用基于注意力机制的滑动递归神经网络,对所述第三信号提取情感特征。
5.根据权利要求1所述的一种语音情绪识别方法,其特征在于,所述3D卷积模型包括第一卷积层(Conv1)、第一池化层(Pool1)、第二卷积层(Conv2)、第二池化层(Pool2)、第三卷积层(Conv3)和第三池化层(Pool3)。
6.根据权利要求1所述的一种语音情绪识别方法,其特征在于,基于注意力机制的滑动递归神经网络包括:
滑动递归神经网络(SRNN),用于连续提取短期序列的中间段级表示;
双向LSTM(BLSTM)网络,信号序列首先被正向馈送到前向LSTM单元,然后被反向馈送到后向LSTM单元,得到多个滑动序列;
注意力机制模型,计算每个所述滑动序列的注意力权重和加权和;
使用ReLU作为激活函数,将非线性引入所述滑动递归神经网络;
使用SoftMax函数来生成情绪状态分布。
7.一种语音情绪识别系统,其特征在于,包括:
语音采集单元,用于接收语音信号y(t);
Gammachirp听觉滤波单元,用于计算所述第一信号sg(n,t);
希尔伯特变换单元,用于提权所述第一信号sg(n,t)包络;
3D卷积单元,用于计算得到所述第三信号;
基于注意力机制的滑动递归神经网络单元,用于生成情绪状态分布。
8.一种语音情绪识别装置,其特征在于,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-6任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令用于使计算机执行如权利要求1-6任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010304864.8A CN111508500B (zh) | 2020-04-17 | 2020-04-17 | 一种语音情绪识别方法、系统、装置和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010304864.8A CN111508500B (zh) | 2020-04-17 | 2020-04-17 | 一种语音情绪识别方法、系统、装置和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111508500A true CN111508500A (zh) | 2020-08-07 |
CN111508500B CN111508500B (zh) | 2023-08-29 |
Family
ID=71864058
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010304864.8A Active CN111508500B (zh) | 2020-04-17 | 2020-04-17 | 一种语音情绪识别方法、系统、装置和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111508500B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420053A (zh) * | 2021-01-19 | 2021-02-26 | 南京纳新信息科技有限公司 | 智能交互式人机对话系统 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645267A (zh) * | 2009-04-03 | 2010-02-10 | 中国科学院声学研究所 | 一种应用于电子耳蜗的语音处理方法 |
US20140114655A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
US20180197529A1 (en) * | 2017-01-06 | 2018-07-12 | Applied Brain Research Inc. | Methods and systems for extracting auditory features with neural networks |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN110010150A (zh) * | 2019-04-15 | 2019-07-12 | 吉林大学 | 基于多分辨率的听觉感知语音特征参数提取方法 |
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
-
2020
- 2020-04-17 CN CN202010304864.8A patent/CN111508500B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101645267A (zh) * | 2009-04-03 | 2010-02-10 | 中国科学院声学研究所 | 一种应用于电子耳蜗的语音处理方法 |
US20140114655A1 (en) * | 2012-10-19 | 2014-04-24 | Sony Computer Entertainment Inc. | Emotion recognition using auditory attention cues extracted from users voice |
US20180197529A1 (en) * | 2017-01-06 | 2018-07-12 | Applied Brain Research Inc. | Methods and systems for extracting auditory features with neural networks |
CN107767859A (zh) * | 2017-11-10 | 2018-03-06 | 吉林大学 | 噪声环境下人工耳蜗信号的说话人可懂性检测方法 |
CN109243490A (zh) * | 2018-10-11 | 2019-01-18 | 平安科技(深圳)有限公司 | 司机情绪识别方法及终端设备 |
CN109256127A (zh) * | 2018-11-15 | 2019-01-22 | 江南大学 | 一种基于非线性幂变换Gammachirp滤波器的鲁棒语音特征提取方法 |
CN109859772A (zh) * | 2019-03-22 | 2019-06-07 | 平安科技(深圳)有限公司 | 情绪识别方法、装置及计算机可读存储介质 |
CN110010150A (zh) * | 2019-04-15 | 2019-07-12 | 吉林大学 | 基于多分辨率的听觉感知语音特征参数提取方法 |
CN110400579A (zh) * | 2019-06-25 | 2019-11-01 | 华东理工大学 | 基于方向自注意力机制和双向长短时网络的语音情感识别 |
CN110322891A (zh) * | 2019-07-03 | 2019-10-11 | 南方科技大学 | 一种语音信号的处理方法、装置、终端及存储介质 |
CN110853680A (zh) * | 2019-11-05 | 2020-02-28 | 河南工业大学 | 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构 |
Non-Patent Citations (3)
Title |
---|
JIYOUNG LEE ET AL.: "\"Spatiotemporal Attention Based Deep Neural Networks for Emotion Recognition\"" * |
唐珊珊: ""基于深度学习的语音情感识别技术研究"" * |
罗元 等: ""基于伽马啁啾滤波器组的听觉特征提取算法"" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112420053A (zh) * | 2021-01-19 | 2021-02-26 | 南京纳新信息科技有限公司 | 智能交互式人机对话系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111508500B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220392482A1 (en) | Systems and methods for speech separation and neural decoding of attentional selection in multi-speaker environments | |
CN110085225B (zh) | 语音交互方法、装置、智能机器人及计算机可读存储介质 | |
CN107728780A (zh) | 一种基于虚拟机器人的人机交互方法及装置 | |
DE60025748T2 (de) | Spracherkennung | |
CN110689902B (zh) | 基于神经网络的音频信号时序处理方法、装置及系统及计算机可读存储介质 | |
WO2022048239A1 (zh) | 音频的处理方法和装置 | |
US20220165280A1 (en) | Packet loss concealment method and apparatus, storage medium, and computer device | |
CN113516990A (zh) | 一种语音增强方法、训练神经网络的方法以及相关设备 | |
EP4239585A1 (en) | Video loop recognition method and apparatus, computer device, and storage medium | |
CN108491808B (zh) | 用于获取信息的方法及装置 | |
CN113270104B (zh) | 语音的人工智能处理方法及系统 | |
CN111312292A (zh) | 基于语音的情绪识别方法、装置、电子设备及存储介质 | |
CN107562911A (zh) | 多轮交互概率模型训练方法及自动应答方法 | |
CN111508500A (zh) | 一种语音情绪识别方法、系统、装置和存储介质 | |
WO2007000210A1 (de) | Vorrichtung, verfahren und computerprogramm zur analyse eines audiosignals | |
CN112418068A (zh) | 基于情绪识别的线上培训效果评估方法、装置和设备 | |
EP3940692B1 (de) | Verfahren zum automatischen lippenlesen mittels einer funktionskomponente und zum bereitstellen der funktionskomponente | |
CN114743648A (zh) | 一种基于大数据和深度学习的数字虚拟人医疗问诊方法及系统 | |
CN108364346B (zh) | 构建三维人脸模型的方法、装置和计算机可读存储介质 | |
WO2005106706A2 (de) | Verfahren sowie anordnung zum automatischen übersetzen eines textes | |
EP1981582B1 (de) | Vorrichtung und computerprogramm zum erzeugen eines ansteuersignals für ein cochlea-implantat basierend auf einem audiosignal | |
CN117115312A (zh) | 一种语音驱动面部动画方法、装置、设备及介质 | |
DE60315907T2 (de) | Lernverfahren und -vorrichtung, mobiles Kommunikationsterminal und Informations-Erkennungssystem, basierend auf der Analyse von Bewegungen der Sprachorgane eines sprechenden Benutzers | |
CN109272283A (zh) | 一种备忘录生成方法、装置及终端设备 | |
US20210350704A1 (en) | Alarm device, alarm system including the same, and method of operating the same |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |