CN113257282A - 语音情感识别方法、装置、电子设备以及存储介质 - Google Patents
语音情感识别方法、装置、电子设备以及存储介质 Download PDFInfo
- Publication number
- CN113257282A CN113257282A CN202110800061.6A CN202110800061A CN113257282A CN 113257282 A CN113257282 A CN 113257282A CN 202110800061 A CN202110800061 A CN 202110800061A CN 113257282 A CN113257282 A CN 113257282A
- Authority
- CN
- China
- Prior art keywords
- unit
- current
- hidden unit
- emotion recognition
- hidden
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000008909 emotion recognition Effects 0.000 title claims abstract description 145
- 238000000034 method Methods 0.000 title claims abstract description 55
- 238000001208 nuclear magnetic resonance pulse sequence Methods 0.000 claims abstract description 55
- 230000008451 emotion Effects 0.000 claims abstract description 36
- 238000013528 artificial neural network Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 125000004122 cyclic group Chemical group 0.000 claims abstract description 13
- 230000004044 response Effects 0.000 claims description 108
- 238000012545 processing Methods 0.000 claims description 79
- 230000036279 refractory period Effects 0.000 claims description 61
- 230000001242 postsynaptic effect Effects 0.000 claims description 55
- 238000006243 chemical reaction Methods 0.000 claims description 49
- 230000002441 reversible effect Effects 0.000 claims description 33
- 230000002123 temporal effect Effects 0.000 claims description 7
- 238000007670 refining Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 8
- 238000003062 neural network model Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 45
- 210000002569 neuron Anatomy 0.000 description 27
- 210000004027 cell Anatomy 0.000 description 13
- 238000012549 training Methods 0.000 description 12
- 238000005516 engineering process Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000012421 spiking Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 210000000225 synapse Anatomy 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 210000005069 ears Anatomy 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 210000004379 membrane Anatomy 0.000 description 3
- 239000012528 membrane Substances 0.000 description 3
- 210000000653 nervous system Anatomy 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- VYFYYTLLBUKUHU-UHFFFAOYSA-N dopamine Chemical compound NCCC1=CC=C(O)C(O)=C1 VYFYYTLLBUKUHU-UHFFFAOYSA-N 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000000873 masking effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000004088 simulation Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 206010028813 Nausea Diseases 0.000 description 1
- OIPILFWXSMYKGL-UHFFFAOYSA-N acetylcholine Chemical compound CC(=O)OCC[N+](C)(C)C OIPILFWXSMYKGL-UHFFFAOYSA-N 0.000 description 1
- 229960004373 acetylcholine Drugs 0.000 description 1
- 230000003321 amplification Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 210000003050 axon Anatomy 0.000 description 1
- 210000000721 basilar membrane Anatomy 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000003990 capacitor Substances 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000010485 coping Effects 0.000 description 1
- 230000003111 delayed effect Effects 0.000 description 1
- 210000001787 dendrite Anatomy 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 229960003638 dopamine Drugs 0.000 description 1
- 238000010304 firing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000003007 myelin sheath Anatomy 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008693 nausea Effects 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 210000004940 nucleus Anatomy 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 230000000946 synaptic effect Effects 0.000 description 1
- 230000005062 synaptic transmission Effects 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/63—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Hospice & Palliative Care (AREA)
- General Health & Medical Sciences (AREA)
- Psychiatry (AREA)
- Child & Adolescent Psychology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本发明公开了一种语音情感识别方法、装置、电子设备以及存储介质。本发明首先获取待识别人声;然后对所述待识别人声进行音频特征提取,得到所述待识别人声的音频特征;对所述音频特征进行脉冲时序编码,得到特征脉冲序列;获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型,根据所述特征脉冲序列对所述待识别人声进行情感识别,得到所述待识别人声的情感类型。针对现有方案识别度不高、需要后台服务器处理数据的技术问题,本方案提出了一种基于循环脉冲神经网络模型的情感识别模型,该情感识别模型可以对语音的特征脉冲序列进行分析与识别,从而可以低功耗、无隐私隐患、及时准确地识别用户语音情感。
Description
技术领域
本发明涉及语音信号处理领域,具体涉及一种语音情感识别方法、装置、电子设备以及存储介质。
背景技术
语音技术的关键技术包括自动语音识别技术、语音合成技术以及声纹识别技术。让计算机能听、能看、能说、能感觉,是未来人机交互的发展方向,其中语音技术成为未来最被看好的人机交互方式之一。目前的自然语言处理多关注谈话内容本身的识别,而能够识别说话者的情感,对构建更智能、体贴的设备,尤其是在终端实时与用户交互的设备,具有重要的意义。
随着人工智能领域的崛起,基于传统人工智能的语音情感识别(SpeechEmotional Recognition,SER)技术取得了长足的进展。语音情感识别是指机器从语音中自动地分析和识别出语音中所蕴涵的人类情感,如高兴、生气、害怕、悲伤、惊讶、恶心等。但这些现有技术,基本都是终端接收的数据联网后发送至后台服务器,经过后台服务器分析后将结果传送至终端中。网络数据的传输不可避免地引入延迟、隐私泄露风险、后台服务器应对海量数据接入等问题。对于智能设备,人们期望其能及时、无隐私风险地处理数据;对于企业也希望其能减少后台服务器的压力,尤其是面对具有海量接入设备的IoT时代。
从生物层面,神经元是神经系统的结构与功能单位之一。神经元能感知环境的变化,再将信息传递给其他的神经元,并指令集体做出反应。生物神经元的基本构造由树突、轴突、髓鞘、细胞核组成。传递形成电流,在其尾端为受体,借由化学物质(神经传递物质)传导(多巴胺、乙酰胆碱),在适当的量传递后在两个突触间形成电流传导。
脉冲神经网络(Spiking Neuron Networks,SNN)是最新一代人工神经网络,其模拟神经系统的工作机制,在部署到拟神态芯片中后,获得类似生物脑的推理功能。该种网络中的神经元是对生物神经元的一种模拟,相比于传统神经网络,脉冲神经网络及其神经元对生物神经元的运作机理模拟更为精确。受益于神经元活动的稀疏性,基于脉冲神经网络的芯片具有极低的功耗。由于是受生物神经元的启发,因此生物神经元涉及的一些概念,如突触、膜电压、突触后(或后突触)电流、突触后(或后突触)电位等概念,在脉冲神经网络中提及其模拟的神经元相关的概念时,根据本领域约定俗成的表达方式,也使用相同的术语。除非有特别明确的指示,本发明中提到的诸如类似上述生物层面的概念,均指脉冲神经网络中的对应的概念,而非实际的分子生物层面角度的概念。
如同传统的人工神经网络一样,SNN也需要预先构建模型,也会存在大量的网络配置参数(比如突触权重、时间常数等,也称配置参数),并且还具有上述类似生物层面的一些概念(比如突触、膜电压等),然后使用训练数据集,在训练设备(如高性能GPU设备)中对SNN进行训练,获得使得SNN预测性能达到最优的网络配置参数。训练的目的是:对于给定的样本(训练集、测试集),SNN被期望输出与输入样本相匹配的结果。比如,给SNN输入测试集中{苹果}的图片,那么期待SNN输出的也是{苹果}的结论,如果SNN在训练中输出了错误的结论,那么网络就会受到惩罚(具体而言是需要修改配置参数)。为了标定该惩罚,会为SNN定义损失或代价函数,网络输出结果与预期结果差别越大,损失函数值也越大,反之则越小。简而言之,上述训练的过程就是搜寻一组网络配置参数,使得对于训练集而言,总的或平均损失函数值达到或接近最小,训练的目标是为了获得最优的网络配置参数。基于该最优的网络配置参数,SNN能够对于任意给定的输入,输出最佳的网络预测结果。
之后就是网络配置参数的实际部署阶段。将上述最优的网络配置参数,通过专用的工具映射至类脑芯片中,比如Intel的Loihi、IBM的TrueNorth、SynSense的Dynap-CNN类脑芯片。在该些类脑芯片中,会设计有模拟神经元的电路、模拟突触的电路。即芯片等硬件领域在提及这些与生物学相关的概念时,根据本领域约定俗成的表达方式,均是指对应的模拟电路。部署有上述网络配置参数的芯片可根据实际输入信号(声音、图像信号)进行推理,并在适当的时候输出推理结果。由于该网络配置参数是经过训练设备训练得到,因此部署有该网络配置参数的芯片,同样能获得或接近获得训练阶段的网络性能。
然而,在对现有技术的研究和实践过程中,本发明人发现目前的SER技术特征提取阶段和分类器均是依据传统的机器学习或深度学习技术。这些方法使用自己设计的特征提取方法以及诸如支持向量机(SVM)作为分类器结构。为了实现在端上低功耗、无隐私隐患地、及时准确地感知用户的语音情感,是边缘计算设备领域亟待解决的技术问题。
发明内容
本发明实施例提供一种语音情感识别方法、装置、电子设备以及存储介质,旨在提高语音情感识别方法的准确度,且能在端上低功耗、无隐私隐患地、及时准确地感知用户的语音情感。
本发明实施例提供一种语音情感识别方法,包括:
获取待识别人声;
对所述待识别人声进行音频特征提取,得到所述待识别人声的音频特征;
对所述音频特征进行脉冲时序编码,得到特征脉冲序列;
获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;
通过所述情感识别模型,根据所述特征脉冲序列对所述待识别人声进行情感识别,得到所述待识别人声的情感类型。
本发明实施例提供一种语音情感识别装置,包括:
人声获取单元,用于获取待识别人声;
特征提取单元,用于对所述待识别人声进行音频特征提取,得到所述待识别人声的音频特征;
脉冲编码单元,用于对所述音频特征进行脉冲时序编码,得到特征脉冲序列;
模型获取单元,用于获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;
情感识别单元,用于通过所述情感识别模型,根据所述特征脉冲序列对所述待识别人声进行情感识别,得到所述待识别人声的情感类型。
在一些实施例中,所述情感识别模型包括多个隐藏单元,所述情感识别单元,包括:
单元状态子单元,用于针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态;
情感类型子单元,用于根据所述隐藏单元的单元状态,确定所述待识别人声的情感类型。
在一些实施例中,所述特征脉冲序列包括多个特征脉冲,所述针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态,包括:
上一状态细化子单元,用于获取上一隐藏单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元;以及,
当前输入细化子单元,用于获取输入到所述当前隐藏单元中的特征脉冲;
当前状态细化子单元,用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述当前状态细化子单元,包括:
脉冲响应子模块,用于采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
突触后电位子模块,用于根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
不应期子模块,用于采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
当前状态子模块,用于对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元的单元状态进行求和,得到所述当前隐藏单元的单元状态。
在一些实施例中,每个所述特征脉冲包括多个通道的子脉冲,所述脉冲响应信号包括每个所述通道的脉冲响应子信号,所述脉冲响应子模块,用于:
采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的第i个通道的子权重进行处理,得到第i个通道的脉冲响应子信号,所述i为正整数;
所述单元权重包括每个通道的子权重,所述根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位,包括:
所述根据所述当前隐藏单元对应的第i个通道的子权重,对所述第i个通道的脉冲响应信号进行加权处理,得到第i个通道的突触后子电位;
将所有通道的突触后子电位进行求和,得到突触后电位。
在一些实施例中,所述隐藏单元包括正向子单元和逆向子单元,所述特征脉冲序列包括多个特征脉冲,所述单元状态子单元,包括:
状态细化子单元,用于获取上一隐藏单元中正向子单元的单元状态,以及下一隐藏单元中逆向子单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元,所述下一隐藏单元为当前隐藏单元之后的隐藏单元;以及,
当前获取细化子单元,用于获取输入到所述当前隐藏单元中的特征脉冲;
正向细化子单元,用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元中正向子单元的单元状态,计算所述当前隐藏单元中正向子单元的单元状态;
逆向细化子单元,用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述下一隐藏单元中逆向子单元的单元状态,计算所述当前隐藏单元中逆向子单元的单元状态;
当前状态细化子单元,用于根据所述当前隐藏单元中正向子单元的单元状态和逆向子单元的单元状态,确定所述前隐藏单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述正向细化子单元,用于:
采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元中正向子单元的单元状态进行求和,得到所述当前隐藏单元中正向子单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述逆向细化子单元,用于:
脉冲响应子模块,用于采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
突触后电位子模块,用于根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
不应期子模块,用于采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
当前状态子模块,用于对所述突触后电位和所述不应期反应信号以及所述下一隐藏单元中逆向子单元的单元状态进行求和,得到所述当前隐藏单元中逆向子单元的单元状态。
在一些实施例中,所述脉冲响应子模块,用于:
所述采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到脉冲响应信号;
其中,所述脉冲响应核函数为:
在一些实施例中,所述不应期子模块,用于:
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到不应期反应信号;
其中,所述不应期反应核函数为:
在一些实施例中,所述音频特征包括梅尔倒谱系数,所述特征提取单元,用于:
对所述待识别人声进行短时傅里叶变换处理,得到所述待识别人声的声谱图;
采用预设的梅尔滤波器组对所述声谱图进行处理,得到每个通道输出的频带特征,所述梅尔滤波器组包括多个通道;
对所述每个通道输出的频带特征进行去倒谱处理,得到待识别人声每个通道的梅尔倒谱系数。
在一些实施例中,所述特征脉冲序列包括多个特征脉冲,每个所述特征脉冲包括多个通道的子脉冲,所述脉冲编码单元,用于:
确定第i个通道的梅尔倒谱系数中的最大值和最小值,所述i为正整数;
对所述最大值和最小值进行求差处理,得到第一差值;
对所述第i个通道的梅尔倒谱系数和最小值进行求差处理,得到第二差值;
基于预设的编码窗口长度以及所述第一差值和所述第二差值,计算第i个通道的子脉冲的触发时间;
根据第i个通道所有子脉冲的触发时间确定第i个通道的特征脉冲序列。
本发明实施例还提供一种电子设备,其包括响应模块和处理模块,以及本发明实施例所提供的任一项语音情感识别装置。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一种语音情感识别方法中的步骤。
本发明实施例可以获取待识别语音;对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征;对所述音频特征进行脉冲时序编码,得到特征脉冲序列;获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
在本发明中,首先需要将语音转换为情感识别模型可识别的特征脉冲序列,再由基于循环脉冲神经网络的情感识别模型对该特征脉冲序列进行分析与识别,从而自动、准确地识别出语音中所蕴涵的情感。由此,本发明实施例披露了一种全新的SNN网络架构,提高了语音情感识别方法的准确度,且能在端上低功耗、无隐私隐患地、及时准确地感知用户的语音情感,不需要后台服务器处理海量边缘设备接入请求。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1a是本发明实施例提供的语音情感识别方法的场景示意图;
图1b是本发明实施例提供的语音情感识别方法的流程示意图;
图1c是本发明实施例提供的语音情感识别方法的特征脉冲编码流程示意图;
图1d是本发明实施例提供的语音情感识别模型的结构示意图;
图2是本发明实施例提供的语音情感识别模型的双向循环结构示意图;
图3a是本发明实施例提供的语音情感识别装置的结构示意图;
图3b是本发明实施例提供的另一语音情感识别装置的结构示意图;
图4是本发明实施例提供的电子设备的结构示意图。
具体实施方式
本发明实施例提供一种语音情感识别方法、装置、电子设备和存储介质,其实现在边缘设备中即可根据用户语音而检测用户的情感。
其中,该语音情感识别装置具体可以集成在各种电子设备中,该电子设备可以为各种终端设备,尤其是移动终端、边缘终端设备中。其中,所述终端可以为手机、平板电脑、智能蓝牙设备、个人电脑、玩具、监控摄像头、智能家电等设备。
例如,参考图1a,该电子设备可以获取待识别语音,并对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征,然后对所述音频特征进行脉冲时序编码,得到特征脉冲序列;再获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
以下分别进行详细说明。需说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
在本实施例中,提供了一种涉及人工智能的基于语音情感识别的语音情感识别方法,如图1b所示,该语音情感识别方法的具体流程可以如下:
101、获取待识别语音。
获取待识别语音的方法有多种。例如,通过利用压阻效应将声音产生的震动信号转换为电信号,然后进行低噪声放大。如常见的驻极体电容器麦克风技术、MEMS麦克风等。本发明对声音的获取方式不做限定。
102、对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征。
音频特征可以包括频率、振幅、节拍、过零率、短时能量、梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,MFCC)等,提取这些特征是进一步分析音频的基础。
由于梅尔倒谱系数对人类听觉频率范围更具辨别力,将梅尔倒谱系数作为音频特征能够更好地使机器模仿人类来辨别语音情感,因此在一些实施例中,音频特征可以包括梅尔倒谱系数,以下将对梅尔倒谱系数进行介绍:
根据人耳听觉机理的研究发现,人耳对不同频率的声波有不同的听觉敏感度。从200Hz到5000Hz的语音信号对语音的清晰度影响对大。两个响度不等的声音作用于人耳时,则响度较高的频率成分的存在会影响到对响度较低的频率成分的感受,使其变得不易察觉,这种现象称为掩蔽效应。由于频率较低的声音在内耳蜗基底膜上行波传递的距离(速度)大于频率较高的声音,故一般来说,低音容易掩蔽高音,而高音掩蔽低音较困难。在低频处的声音掩蔽的临界带宽较高频要小。所以,人们从低频到高频这一段频带内按临界带宽的大小由密到疏设置一组梅尔滤波器组(Mel-scaled filters banks),对输入信号进行滤波。将每个带通滤波器输出的信号能量作为信号的基本特征,对此特征经过进一步处理后就可以得到梅尔倒谱系数作为语音的输入特征。由于这种特征不依赖于信号的性质,对输入信号不做任何的假设和限制,又利用了听觉模型的研究成果。因此,这种参数比基于声道模型的LPCC相比具有更好的鲁棒性,更符合人耳的听觉特性,而且当信噪比降低时仍然具有较好的识别性能。
梅尔倒谱系数是在梅尔标度(Mel scale)频率域提取出来的倒谱参数,Mel标度描述了人耳频率的非线性特性,它与频率的关系可用下式近似表示:
其中,f为频率,单位赫兹(Hz)。
因此,参考图1c,步骤102可以包括:
对所述待识别语音进行短时傅里叶变换处理,得到所述待识别语音的声谱图;
采用预设的梅尔滤波器组对所述声谱图进行处理,得到每个通道输出的频带特征,所述梅尔滤波器组可以包括多个通道;
对所述每个通道输出的频带特征进行去倒谱处理,得到待识别语音每个通道的梅尔倒谱系数。
梅尔滤波器组的每个梅尔滤波器都是一个通道。比如,第i个通道的输出就是第i个梅尔滤波器处理声谱图的输出。
例如,在一些实施例中,语音信号可以首先被预加重处理以放大高频分量;再使用时长为20ms、步长为10ms的汉明窗进行,以充分获取语音信号的时间变化。然后对所有的音频片段进行短时傅立叶变换(STFT),从而提取整个语音信号的时频能量声谱图(time-frequency energy spectrogram);然后,生成的声谱图再与梅尔滤波器组进行卷积,以减少所需非线性频带中的信息,最后通过对声谱图的梅尔缩放对数功率进行离散余弦变换,从而转换为梅尔倒谱系数。
其中,预加重处理是指语音信号z通过一个高通滤波器,该滤波器输出为:
103、对所述音频特征进行脉冲时序编码,得到特征脉冲序列。
在本发明实施例中提出了一种脉冲神经网络情感识别模型,相比于人工神经元,脉冲神经元可以从神经科学的角度出发,对真实的生物神经元进行建模,因此,在本发明实施例中提出的情感识别模型可以模拟人类识别语音情感。
由于脉冲神经网络模拟了真实的生物神经元对电脉冲的处理,因此,在步骤103需要将音频特征转换为脉冲神经网络可处理的脉冲序列。
脉冲时序编码(temporal contrast)是将音频特征转换为脉冲时序信号的编码方式,特征脉冲序列即为该转换得到的脉冲时序信号。
脉冲时序编码的方式具有多种,例如,可以包括基于阈值的编码(Threshold-based encoding)、首次触发脉冲编码(Time-to-first spike coding)、相对次序编码(Rank order Coding)、延迟编码(Latency Coding)、相位编码(Phase Coding)等。
在一些实施例中,可以采用延迟编码来将MCFF矩阵转换为脉冲序列,以下将介绍延迟编码:
研究表明听觉神经系统中的神经元对早期个体刺激反应更快,而神经元发放脉冲的特性是脉冲的形式是固定的,只有数量和时间上的区别,接受越强的刺激,脉冲生成得越早,因此,可以使用延迟编码来生成适合语音领域的脉冲。
MFCC矩阵中较高强度的数值可以被转换为一个在编码窗口中具有短延迟的单个脉冲(spike),而较低强度的数值生成的是稍后出现的单个脉冲。
相比于其他编码方案,使用基于单个脉冲的延迟编码在预处理阶段和情感识别阶段的计算成本都显着降低。
因此,在一些实施例中,所述特征脉冲序列可以包括多个特征脉冲,每个所述特征脉冲可以包括多个通道的子脉冲,步骤103可以包括:
确定第i个通道的梅尔倒谱系数中的最大值和最小值,所述i为正整数;
对所述最大值和最小值进行求差处理,得到第一差值;
对所述第i个通道的梅尔倒谱系数和最小值进行求差处理,得到第二差值;
基于预设的编码窗口长度以及所述第一差值和所述第二差值,计算第i个通道的子脉冲的触发时间;
根据第i个通道所有子脉冲的触发时间确定第i个通道的特征脉冲序列。
其中,延迟编码的公式如下:
其中,第一差值为Xi – min(Xi),第二差值为max(Xi) – min(Xi), i为通道标号,即第i个梅尔缩放滤波器;ti为第i个通道的子脉冲的触发时间; Xi是第i个通道所有梅尔倒谱系数;T是编码时间窗口,该编码时间窗口的大小可以预先设置;“.”为乘法标记。
104、获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型。
本发明实施例提供了一种基于循环脉冲神经网络的情感识别模型,该情感识别模型可以模拟生物神经元关注语音中的时序信息,从而识别语音情感。
在步骤105中将详细叙述该情感识别模型的内部结构。
105、通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
在一些实施例中,步骤105可以包括:
(1)针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态;
(2)根据所述隐藏单元的单元状态,确定所述待识别语音的情感类型。
例如,在一些实施例中,可以根据所有隐藏单元的单元状态,确定所述待识别语音的情感类型;而在一些实施例中,参考图1d,可以根据最后一个隐藏单元的单元状态so(t),确定所述待识别语音的情感类型。
参考图1d,在一些实施例中,所述情感识别模型可以包括多个隐藏单元,每个隐藏单元的输出都与输入该隐藏单元的信息以及上一个隐藏单元的输出有关。
从图1d中可以看出,情感识别模型的结构既可以作为一个前馈结构,也可以作为一个独立的结构来循环传播信息。由于其展开的结构可以增加网络容量,但也会增加网络的计算成本,因此,一些实施例提出一种折衷的解决方案,即是在短期内展开该情感识别模型的结构,并将输入的特征脉冲序列分割成T个子集,这些子集将在按照预设的时间步长输入该情感识别模型。
因此,在一些实施例中,所述特征脉冲序列可以包括多个特征脉冲,步骤(1)可以包括:
a1、获取上一隐藏单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元;以及,
a2、获取输入到所述当前隐藏单元中的特征脉冲;
a3、根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态。
进一步地,每个所述隐藏单元还可以具有对应的单元权重,步骤a3可以包括:
a3.1、采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
a3.2、根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
a3.3、采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
a3.4、对所述突触后电位、所述不应期反应信号以及所述上一隐藏单元的单元状态进行求和,得到所述当前隐藏单元的单元状态。
从图1d中可以看出,情感识别模型的结构旨在解决特征脉冲序列的时间相关性。该情感识别模型由输入层和隐藏单元组成,该隐藏单元内包括隐藏层。
其中,隐藏单元的单元状态(即神经元膜电位)的计算公式如下:
其中,k为时间步,i为通道标号,x为当前时刻; w i 是第i个通道的权重; 是预设的脉冲响应核函数; 是第i个通道在第k时间步的特征脉冲;是不应期反应核函数; 是当前隐藏单元的单元状态; 是上一隐藏单元的单元状态;“*”为卷积操作。
因此,具体地,在一些实施例中,每个所述特征脉冲可以包括多个通道的子脉冲,所述脉冲响应信号可以包括每个所述通道的脉冲响应子信号,步骤a3.1可以包括:
采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的第i个通道的子权重进行处理,得到第i个通道的脉冲响应子信号,所述i为正整数;
所述单元权重可以包括每个通道的子权重,所述根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位,可以包括:
所述根据所述当前隐藏单元对应的第i个通道的子权重,对所述第i个通道的脉冲响应信号进行加权处理,得到第i个通道的突触后子电位;
将所有通道的突触后子电位进行求和,得到突触后电位。
在一些实施例中,除了上述前馈(feedforward)的方式,情感识别模型还可以通过双向反馈的方式采集时序信息,所述隐藏单元可以包括正向子单元和逆向子单元,所述特征脉冲序列可以包括多个特征脉冲,步骤(1)可以包括:
b1、获取上一隐藏单元中正向子单元的单元状态,以及下一隐藏单元中逆向子单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元,所述下一隐藏单元为当前隐藏单元之后的隐藏单元;以及,
b2、获取输入到所述当前隐藏单元中的特征脉冲;
b3、根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元中正向子单元的单元状态,计算所述当前隐藏单元中正向子单元的单元状态;
b4、根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述下一隐藏单元中逆向子单元的单元状态,计算所述当前隐藏单元中逆向子单元的单元状态;
b5、根据所述当前隐藏单元中正向子单元的单元状态和逆向子单元的单元状态,确定所述前隐藏单元的单元状态。
例如,参考图2,当前隐藏单元为隐藏单元k,可以包括正向子单元k和逆向子单元k,上一隐藏单元为隐藏单元k-1,可以包括正向子单元k-1和逆向子单元k-1,下一隐藏单元为隐藏单元k+1,可以包括正向子单元k+1和逆向子单元k+1。
与上述前馈的结构类似,在一些实施例中,每个所述隐藏单元具有对应的单元权重,步骤b3可以包括:
b3.1、采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
b3.2、根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
b3.3、采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
b3.4、对所述突触后电位、所述不应期反应信号以及所述上一隐藏单元中正向子单元的单元状态进行求和,得到所述当前隐藏单元中正向子单元的单元状态。
与上述前馈的结构类似,在一些实施例中,每个所述隐藏单元具有对应的单元权重,步骤b4可以包括:
b4.1、采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
b4.2、根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
b4.3、采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
b4.4、对所述突触后电位、所述不应期反应信号以及所述下一隐藏单元中逆向子单元的单元状态进行求和,得到所述当前隐藏单元中逆向子单元的单元状态。
在一些实施例中,步骤a3.1、b3.1、b4.1均可以为采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到脉冲响应信号;
其中,所述脉冲响应核函数可以为:
在一些实施例中,步骤a3.3、b3.3、b4.3均可以为采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到不应期反应信号;
其中,所述不应期反应核函数可以为:
在一些实施例中,隐藏单元可以是LSTM、GRU等结构。
由上可知,本发明实施例可以获取待识别语音;对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征;对所述音频特征进行脉冲时序编码,得到特征脉冲序列;获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
相比于传统的人工神经网络,本发明提出的情感识别模型是基于真实的生物神经元,可以模拟人类识别音频情感,且该情感识别模型的循环结构可以更加准确、全局地对音频情感进行判定。并且相比于人工神经网络,基于真实生物神经元的情感识别模型可以更加低耗(微瓦级别)高效地进行语音识别,因此,本方案非常适合搭载在具有低耗需求的终端中。由此,本发明实施例可以提高语音情感识别方法的准确度。此外,由于本发明的方案并不需要联网并由后台服务器处理,因此无需对应的后台服务器即可即时对说话者的语音情感进行识别,避免了不必要的网络延迟给用户带来的卡顿、不聪明感,端上处理也避免了用户隐私泄露问题,以及减小了企业后台服务器压力。
根据上述实施例所描述的方法,以下将作进一步详细说明。
本发明的一个实施例中,在脉冲编码阶段将语音信号分割成具有20毫秒汉明窗口和10毫秒重叠(overlap)音频片段,可以很好地捕捉语音信号中的时间变化,再使用STFT将音频片段转换为声谱图;然后将非线性覆盖100Hz~5000Hz频率范围的梅尔滤波器组作用于该声谱图,随后,再从其DCT输出中取出前23个MFCC,并将采用延迟编码生成特征脉冲序列。
在该实施例中,MFCC的特征在延迟编码后变得难以跟踪,因为所有特征信息都转移到每个脉冲信号的触发时间。由于其中包含跨频带的强时间信息,故该特征脉冲序列仍可很好地用于本方案所提出的情感识别模型。
相比于传统的机器学习或深度学习方法,本发明的识别准确度与性能都远高于现有技术,本方案提出的隐藏神经元在结构性能上是优于传统的多时间尺度人工神经网络的。
最重要的是,本方案提出的情感识别模型仅使用少量的二进制的脉冲神经元就能够达到传统情感识别神经网络的识别准确度,其大小几乎等于传统复杂人工神经网络或深度神经网络架构中的最后一个分类层。
由上可知,本发明实施例可以低功耗地、无隐私风险地提高语音情感识别方法的准确度。
为了更好地实施以上方法,本发明实施例还提供一种语音情感识别装置,该语音情感识别装置具体可以集成在电子设备中,该电子设备可以为终端,尤其是边缘计算等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑、机器人等设备。
比如,在本实施例中,将以语音情感识别装置具体集成在语音情感识别为例,对本发明实施例的方法进行详细说明。
例如,如图3a所示,该语音情感识别装置可以包括语音获取单元301、特征提取单元302、脉冲编码单元303、模型获取单元304以及情感识别单元305,如下:
(一)语音获取单元301。
语音获取单元301可以用于获取待识别语音。
(二)特征提取单元302。
特征提取单元302可以用于对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征。
在一些实施例中,所述音频特征可以包括梅尔倒谱系数,所述特征提取单元302可以用于:
对所述待识别人声进行短时傅里叶变换处理,得到所述待识别人声的声谱图;
采用预设的梅尔滤波器组对所述声谱图进行处理,得到每个通道输出的频带特征,所述梅尔滤波器组可以包括多个通道;
对所述每个通道输出的频带特征进行去倒谱处理,得到待识别人声每个通道的梅尔倒谱系数。
(三)脉冲编码单元303。
脉冲编码单元303可以用于对所述音频特征进行脉冲时序编码,得到特征脉冲序列。
在一些实施例中,所述特征脉冲序列可以包括多个特征脉冲,每个所述特征脉冲可以包括多个通道的子脉冲,所述脉冲编码单元303可以用于:
确定第i个通道的梅尔倒谱系数中的最大值和最小值,所述i为正整数;
对所述最大值和最小值进行求差处理,得到第一差值;
对所述第i个通道的梅尔倒谱系数和最小值进行求差处理,得到第二差值;
基于预设的编码窗口长度以及所述第一差值和所述第二差值,计算第i个通道的子脉冲的触发时间;
根据第i个通道所有子脉冲的触发时间确定第i个通道的特征脉冲序列。
(四)模型获取单元304。
模型获取单元304可以用于获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型。
(五)情感识别单元305。
情感识别单元305可以用于通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
参考图3b,在一些实施例中,所述情感识别模型可以包括多个隐藏单元,所述情感识别单元305可以包括:
单元状态子单元3051可以用于针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态;
情感类型子单元3052可以用于根据所述隐藏单元的单元状态,确定所述待识别人声的情感类型。
在一些实施例中,所述特征脉冲序列可以包括多个特征脉冲,所述针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态可以包括:
上一状态细化子单元可以用于获取上一隐藏单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元;以及,
当前输入细化子单元可以用于获取输入到所述当前隐藏单元中的特征脉冲;
当前状态细化子单元可以用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述当前状态细化子单元可以包括:
脉冲响应子模块可以用于采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
突触后电位子模块可以用于根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
不应期子模块可以用于采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
当前状态子模块可以用于对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元的单元状态进行求和,得到所述当前隐藏单元的单元状态。
在一些实施例中,每个所述特征脉冲可以包括多个通道的子脉冲,所述脉冲响应信号可以包括每个所述通道的脉冲响应子信号,所述脉冲响应子模块可以用于:
采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的第i个通道的子权重进行处理,得到第i个通道的脉冲响应子信号,所述i为正整数;
所述单元权重可以包括每个通道的子权重,所述根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位可以包括:
所述根据所述当前隐藏单元对应的第i个通道的子权重,对所述第i个通道的脉冲响应信号进行加权处理,得到第i个通道的突触后子电位;
将所有通道的突触后子电位进行求和,得到突触后电位。
在一些实施例中,所述隐藏单元可以包括正向子单元和逆向子单元,所述特征脉冲序列可以包括多个特征脉冲,所述单元状态子单元3051可以包括:
状态细化子单元可以用于获取上一隐藏单元中正向子单元的单元状态,以及下一隐藏单元中逆向子单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元,所述下一隐藏单元为当前隐藏单元之后的隐藏单元;以及,
当前获取细化子单元可以用于获取输入到所述当前隐藏单元中的特征脉冲;
正向细化子单元可以用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元中正向子单元的单元状态,计算所述当前隐藏单元中正向子单元的单元状态;
逆向细化子单元可以用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述下一隐藏单元中逆向子单元的单元状态,计算所述当前隐藏单元中逆向子单元的单元状态;
当前状态细化子单元可以用于根据所述当前隐藏单元中正向子单元的单元状态和逆向子单元的单元状态,确定所述前隐藏单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述正向细化子单元可以用于:
采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
对所述突触后电位、所述不应期反应信号以及所述上一隐藏单元中正向子单元的单元状态进行求和,得到所述当前隐藏单元中正向子单元的单元状态。
在一些实施例中,每个所述隐藏单元具有对应的单元权重,所述逆向细化子单元可以用于:
脉冲响应子模块可以用于采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
突触后电位子模块可以用于根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
不应期子模块可以用于采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
当前状态子模块可以用于对所述突触后电位和所述不应期反应信号以及所述下一隐藏单元中逆向子单元的单元状态进行求和,得到所述当前隐藏单元中逆向子单元的单元状态。
在一些实施例中,所述脉冲响应子模块可以用于:
所述采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到脉冲响应信号;
其中,所述脉冲响应核函数为:
在一些实施例中,所述不应期子模块可以用于:
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行卷积处理,得到不应期反应信号;
其中,所述不应期反应核函数为:
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
由上可知,本实施例的语音情感识别装置由语音获取单元获取待识别语音;由特征提取单元对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征;由脉冲编码单元对所述音频特征进行脉冲时序编码,得到特征脉冲序列;由模型获取单元获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;由情感识别单元通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
由此,本发明实施例可以提升语音情感识别的准确度。
本发明实施例还提供一种电子设备,该电子设备可以为终端等设备。其中,终端可以为手机、平板电脑、智能蓝牙设备、笔记本电脑、个人电脑、智能家电等等。
在本实施例中,将以本实施例的电子设备是终端为例进行详细描述,比如,如图4所示,其示出了本发明实施例所涉及的电子设备的结构示意图,具体来讲:
电子设备400包括语音情感识别装置401。在某类实施例中,该语音情感识别装置401可以被实施为一芯片,具体而言可以是一种拟神态芯片(类脑芯片)。语音情感识别装置401通过接口模块402(比如用于通信的有线接口电路、蓝牙、ZigBee、UWB等无线传输模块)与电子设备400的处理模块403(比如MCU)相耦接。语音情感识别装置401通过对语音信号的识别,将结果通过接口模块402传输至电子设备的处理模块403,该处理模块403基于语音情感识别装置401反馈的结果,去控制响应模块404。响应模块404可以是各种各样的已知的响应方式,举例而言,可以是显示屏上输出信息、报警、语音信号输出、机械设备的运动(如智能窗帘场景)、电气设备的电压、电流等物理量的控制、切换(如智能灯具)等。响应模块404、处理模块403、语音情感识别装置401的部分或全部可以是物理上分离的装置,其整体构成了电子设备400。情感的识别结果可以用于改变与用户的交互策略,比如发现用户生气了,电子设备400(比如玩具)可以通过扬声器输出安慰用户的语句,并且还可以优选使用更具温和的口吻与用户交互。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行本发明实施例所提供的任一项所述的语音情感识别方法中的步骤。该存储介质可以被实施为训练设备的存储介质。
以上对本发明实施例所提供的一种语音情感识别方法、装置、电子设备和计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (19)
1.一种语音情感识别方法,其特征在于,包括:
获取待识别语音;
对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征;
对所述音频特征进行脉冲时序编码,得到特征脉冲序列;
获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;
通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
2.如权利要求1所述的语音情感识别方法,其特征在于,所述情感识别模型包括多个隐藏单元,所述通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型,包括:
针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态;
根据所述隐藏单元的单元状态,确定所述待识别语音的情感类型。
3.如权利要求2所述的语音情感识别方法,其特征在于,所述特征脉冲序列包括多个特征脉冲,所述针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态,包括:
获取上一隐藏单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元;以及,
获取输入到所述当前隐藏单元中的特征脉冲;
根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态。
4.如权利要求3所述的语音情感识别方法,其特征在于,每个所述隐藏单元具有对应的单元权重,所述根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态,包括:
采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元的单元状态进行求和,得到所述当前隐藏单元的单元状态。
5.如权利要求4所述的语音情感识别方法,其特征在于,每个所述特征脉冲包括多个通道的子脉冲,所述脉冲响应信号包括每个所述通道的脉冲响应子信号,所述采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号,包括:
采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的第i个通道的子权重进行处理,得到第i个通道的脉冲响应子信号,所述i为正整数;
所述单元权重包括每个通道的子权重,所述根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位,包括:
所述根据所述当前隐藏单元对应的第i个通道的子权重,对所述第i个通道的脉冲响应信号进行加权处理,得到第i个通道的突触后子电位;
将所有通道的突触后子电位进行求和,得到突触后电位。
6.如权利要求2所述的语音情感识别方法,其特征在于,所述隐藏单元包括正向子单元和逆向子单元,所述特征脉冲序列包括多个特征脉冲,所述针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态,包括:
获取上一隐藏单元中正向子单元的单元状态,以及下一隐藏单元中逆向子单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元,所述下一隐藏单元为当前隐藏单元之后的隐藏单元;以及,
获取输入到所述当前隐藏单元中的特征脉冲;
根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元中正向子单元的单元状态,计算所述当前隐藏单元中正向子单元的单元状态;
根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述下一隐藏单元中逆向子单元的单元状态,计算所述当前隐藏单元中逆向子单元的单元状态;
根据所述当前隐藏单元中正向子单元的单元状态和逆向子单元的单元状态,确定所述前隐藏单元的单元状态。
7.如权利要求6所述的语音情感识别方法,其特征在于,每个所述隐藏单元具有对应的单元权重,所述根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元中正向子单元的单元状态,计算所述当前隐藏单元中正向子单元的单元状态,包括:
采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元中正向子单元的单元状态进行求和,得到所述当前隐藏单元中正向子单元的单元状态。
8.如权利要求6所述的语音情感识别方法,其特征在于,每个所述隐藏单元具有对应的单元权重,所述根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述下一隐藏单元中逆向子单元的单元状态,计算所述当前隐藏单元中逆向子单元的单元状态,包括:
采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
对所述突触后电位和所述不应期反应信号以及所述下一隐藏单元中逆向子单元的单元状态进行求和,得到所述当前隐藏单元中逆向子单元的单元状态。
11.如权利要求1所述的语音情感识别方法,其特征在于,所述音频特征包括梅尔倒谱系数,所述对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征,包括:
对所述待识别语音进行短时傅里叶变换处理,得到所述待识别语音的声谱图;
采用预设的梅尔滤波器组对所述声谱图进行处理,得到每个通道输出的频带特征,所述梅尔滤波器组包括多个通道;
对所述每个通道输出的频带特征进行去倒谱处理,得到待识别语音每个通道的梅尔倒谱系数。
12.如权利要求11所述的语音情感识别方法,其特征在于,所述特征脉冲序列包括多个特征脉冲,每个所述特征脉冲包括多个通道的子脉冲,所述对所述音频特征进行脉冲时序编码,得到特征脉冲序列,包括:
确定第i个通道的梅尔倒谱系数中的最大值和最小值,所述i为正整数;
对所述最大值和最小值进行求差处理,得到第一差值;
对所述第i个通道的梅尔倒谱系数和最小值进行求差处理,得到第二差值;
基于预设的编码窗口长度以及所述第一差值和所述第二差值,计算第i个通道的子脉冲的触发时间;
根据第i个通道所有子脉冲的触发时间确定第i个通道的特征脉冲序列。
13.一种语音情感识别装置,其特征在于,包括:
语音获取单元,用于获取待识别语音;
特征提取单元,用于对所述待识别语音进行音频特征提取,得到所述待识别语音的音频特征;
脉冲编码单元,用于对所述音频特征进行脉冲时序编码,得到特征脉冲序列;
模型获取单元,用于获取情感识别模型,所述情感识别模型为基于循环脉冲神经网络的模型;
情感识别单元,用于通过所述情感识别模型,根据所述特征脉冲序列对所述待识别语音进行情感识别,得到所述待识别语音的情感类型。
14.如权利要求13所述的语音情感识别装置,其特征在于,所述情感识别模型包括多个隐藏单元,所述情感识别单元,包括:
单元状态子单元,用于针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态;
情感类型子单元,用于根据所述隐藏单元的单元状态,确定所述待识别语音的情感类型。
15.如权利要求14所述的语音情感识别装置,其特征在于,所述特征脉冲序列包括多个特征脉冲,所述针对每个隐藏单元,根据所述特征脉冲序列计算每个所述隐藏单元的单元状态,包括:
上一状态细化子单元,用于获取上一隐藏单元的单元状态,所述上一隐藏单元为当前隐藏单元之前的隐藏单元;以及,
当前输入细化子单元,用于获取输入到所述当前隐藏单元中的特征脉冲;
当前状态细化子单元,用于根据所述输入到所述当前隐藏单元中的特征脉冲,以及所述上一隐藏单元的单元状态,计算所述当前隐藏单元的单元状态。
16.如权利要求15所述的语音情感识别装置,其特征在于,每个所述隐藏单元具有对应的单元权重,所述当前状态细化子单元,包括:
脉冲响应子模块,用于采用预设的脉冲响应核函数与所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到脉冲响应信号;
突触后电位子模块,用于根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位;
不应期子模块,用于采用预设的不应期反应核函数对所述输入到所述当前隐藏单元中的特征脉冲进行处理,得到不应期反应信号;
当前状态子模块,用于对所述突触后电位和所述不应期反应信号以及所述上一隐藏单元的单元状态进行求和,得到所述当前隐藏单元的单元状态。
17.如权利要求16所述的语音情感识别装置,其特征在于,每个所述特征脉冲包括多个通道的子脉冲,所述脉冲响应信号包括每个所述通道的脉冲响应子信号,所述脉冲响应子模块,用于:
采用预设的脉冲响应核函数对所述输入到所述当前隐藏单元中的第i个通道的子权重进行处理,得到第i个通道的脉冲响应子信号,所述i为正整数;
所述单元权重包括每个通道的子权重,所述根据所述当前隐藏单元对应的单元权重,对所述脉冲响应信号进行加权处理,得到突触后电位,包括:
所述根据所述当前隐藏单元对应的第i个通道的子权重,对所述第i个通道的脉冲响应信号进行加权处理,得到第i个通道的突触后子电位;
将所有通道的突触后子电位进行求和,得到突触后电位。
18.一种电子设备,其特征在于,包括响应模块和处理模块,以及如权利要求13-17任一项权利要求所述的语音情感识别装置。
19.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适于处理器进行加载,以执行权利要求1~12任一项所述的语音情感识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800061.6A CN113257282B (zh) | 2021-07-15 | 2021-07-15 | 语音情感识别方法、装置、电子设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110800061.6A CN113257282B (zh) | 2021-07-15 | 2021-07-15 | 语音情感识别方法、装置、电子设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113257282A true CN113257282A (zh) | 2021-08-13 |
CN113257282B CN113257282B (zh) | 2021-10-08 |
Family
ID=77180480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110800061.6A Active CN113257282B (zh) | 2021-07-15 | 2021-07-15 | 语音情感识别方法、装置、电子设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113257282B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628615A (zh) * | 2021-10-12 | 2021-11-09 | 中国科学院自动化研究所 | 语音识别方法、装置、电子设备及存储介质 |
CN113974607A (zh) * | 2021-11-17 | 2022-01-28 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
CN114155478A (zh) * | 2022-02-09 | 2022-03-08 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、系统及计算机可读存储介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003049082A1 (de) * | 2001-12-04 | 2003-06-12 | Harman/Becker Automotive Systems (Becker Division) Gmbh | Verfahren zur unterdrückung von umgebungsgeräuschen bei einer freisprecheinrichtung sowie freisprecheinrichtung |
CN109448749A (zh) * | 2018-12-19 | 2019-03-08 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN109616104A (zh) * | 2019-01-31 | 2019-04-12 | 天津大学 | 基于关键点编码和多脉冲学习的环境声音识别方法 |
CN110020715A (zh) * | 2018-10-16 | 2019-07-16 | 量子超并(北京)科技有限公司 | 利用波动和脉冲信号混合编码的神经网络识别方法与装置 |
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN112735397A (zh) * | 2021-03-18 | 2021-04-30 | 北京世纪好未来教育科技有限公司 | 一种语音特征处理方法、装置、电子设备及存储介质 |
CN112906828A (zh) * | 2021-04-08 | 2021-06-04 | 周士博 | 一种基于时域编码和脉冲神经网络的图像分类方法 |
-
2021
- 2021-07-15 CN CN202110800061.6A patent/CN113257282B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003049082A1 (de) * | 2001-12-04 | 2003-06-12 | Harman/Becker Automotive Systems (Becker Division) Gmbh | Verfahren zur unterdrückung von umgebungsgeräuschen bei einer freisprecheinrichtung sowie freisprecheinrichtung |
CN110020715A (zh) * | 2018-10-16 | 2019-07-16 | 量子超并(北京)科技有限公司 | 利用波动和脉冲信号混合编码的神经网络识别方法与装置 |
CN109448749A (zh) * | 2018-12-19 | 2019-03-08 | 中国科学院自动化研究所 | 基于有监督学习听觉注意的语音提取方法、系统、装置 |
CN109616104A (zh) * | 2019-01-31 | 2019-04-12 | 天津大学 | 基于关键点编码和多脉冲学习的环境声音识别方法 |
CN110556129A (zh) * | 2019-09-09 | 2019-12-10 | 北京大学深圳研究生院 | 双模态情感识别模型训练方法及双模态情感识别方法 |
CN112735397A (zh) * | 2021-03-18 | 2021-04-30 | 北京世纪好未来教育科技有限公司 | 一种语音特征处理方法、装置、电子设备及存储介质 |
CN112906828A (zh) * | 2021-04-08 | 2021-06-04 | 周士博 | 一种基于时域编码和脉冲神经网络的图像分类方法 |
Non-Patent Citations (3)
Title |
---|
E STROMATIAS: ""Supervised learning in Spiking Neural Networks with Limited Precision: SNN/LP"", 《COMPUTER SCIENCE》 * |
ESMA MANSOURI: ""Generalisation and robustness investigation for facial and speech emotion recognition using bio-inspired spiking neural networks"", 《SPRINGER》 * |
吴宇伦: ""基于脉冲神经网络的图像识别的研究与实现"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113628615A (zh) * | 2021-10-12 | 2021-11-09 | 中国科学院自动化研究所 | 语音识别方法、装置、电子设备及存储介质 |
CN113974607A (zh) * | 2021-11-17 | 2022-01-28 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
CN113974607B (zh) * | 2021-11-17 | 2024-04-26 | 杭州电子科技大学 | 一种基于脉冲神经网络的睡眠鼾声检测系统 |
CN114155478A (zh) * | 2022-02-09 | 2022-03-08 | 苏州浪潮智能科技有限公司 | 一种情感识别方法、装置、系统及计算机可读存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113257282B (zh) | 2021-10-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113257282B (zh) | 语音情感识别方法、装置、电子设备以及存储介质 | |
Zhang et al. | Speech emotion recognition using deep convolutional neural network and discriminant temporal pyramid matching | |
Trigeorgis et al. | Adieu features? end-to-end speech emotion recognition using a deep convolutional recurrent network | |
Bhat et al. | A real-time convolutional neural network based speech enhancement for hearing impaired listeners using smartphone | |
Basu et al. | Emotion recognition from speech using convolutional neural network with recurrent neural network architecture | |
Gevaert et al. | Neural networks used for speech recognition | |
CN108922513B (zh) | 语音区分方法、装置、计算机设备及存储介质 | |
Kumar et al. | An analog VLSI chip with asynchronous interface for auditory feature extraction | |
Xia et al. | Temporal Context in Speech Emotion Recognition. | |
Rammo et al. | Detecting the speaker language using CNN deep learning algorithm | |
CN113192504B (zh) | 一种基于域适应的无声语音攻击检测方法 | |
CN111986679A (zh) | 一种应对复杂声学环境的说话人确认方法、系统及存储介质 | |
CN112382301B (zh) | 基于轻量级神经网络的含噪语音性别识别方法及系统 | |
Tong et al. | Classification and recognition of underwater target based on MFCC feature extraction | |
Salvati et al. | A late fusion deep neural network for robust speaker identification using raw waveforms and gammatone cepstral coefficients | |
CN114333874B (zh) | 处理音频信号的方法 | |
CN118197309A (zh) | 基于ai语音识别的智能多媒体终端 | |
WO2024114303A1 (zh) | 音素识别方法、装置、电子设备及存储介质 | |
Salian et al. | Speech Emotion Recognition using Time Distributed CNN and LSTM | |
Jain et al. | Investigation Using MLP-SVM-PCA Classifiers on Speech Emotion Recognition | |
Sailor et al. | Unsupervised Representation Learning Using Convolutional Restricted Boltzmann Machine for Spoof Speech Detection. | |
CN113763978B (zh) | 语音信号处理方法、装置、电子设备以及存储介质 | |
Gao | Audio deepfake detection based on differences in human and machine generated speech | |
Azam et al. | Urdu spoken digits recognition using classified MFCC and backpropgation neural network | |
CN114512133A (zh) | 发声对象识别方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |