CN110992987B - 语音信号中针对通用特定语音的并联特征提取系统及方法 - Google Patents

语音信号中针对通用特定语音的并联特征提取系统及方法 Download PDF

Info

Publication number
CN110992987B
CN110992987B CN201911013504.6A CN201911013504A CN110992987B CN 110992987 B CN110992987 B CN 110992987B CN 201911013504 A CN201911013504 A CN 201911013504A CN 110992987 B CN110992987 B CN 110992987B
Authority
CN
China
Prior art keywords
spectrogram
voice
speech
input
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911013504.6A
Other languages
English (en)
Other versions
CN110992987A (zh
Inventor
郑纯军
贾宁
陈明华
周伊佳
张轶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian Neusoft University of Information
Original Assignee
Dalian Neusoft University of Information
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian Neusoft University of Information filed Critical Dalian Neusoft University of Information
Priority to CN201911013504.6A priority Critical patent/CN110992987B/zh
Publication of CN110992987A publication Critical patent/CN110992987A/zh
Application granted granted Critical
Publication of CN110992987B publication Critical patent/CN110992987B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Child & Adolescent Psychology (AREA)
  • General Health & Medical Sciences (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种语音信号中针对通用特定语音的并联特征提取系统及方法,所述模型主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并,得到1*1024维情感特征;语谱图作为输入馈入卷积神经网络CNN中,语谱图和MFCC馈入Seq2Seq中,2个通道的模型融合加入注意力机制,形成声纹识别模型;采用42维MFCC作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。本发明具有准确率高、集成度高、可自由选择方案等优点。

Description

语音信号中针对通用特定语音的并联特征提取系统及方法
技术领域
本发明涉及信号处理提取领域,尤其是一种语音任务的特征提取系统。
背景技术
语音是人类最有效、最自然也是最重要的一种通信形式,通过语音实现人与机器之间的交流,需要机器有足够的智能去识别人类的声音。伴随着机器学习、神经网络和深度学习理论的发展,语音识别相关任务的完成度在逐步提升,这对于计算机理解出语音的内容提高很大帮助。目前,语音识别任务主要涉及以下3种识别任务:
1、声纹识别
声纹识别又称为说话者识别,它是一种生物特征识别形式,是对说话人的连续语音信号经过分析处理提取离散语音特征,通过与数据库中的模板进行匹配来自动确认该语音的说话者。它关注说话人本身,而不在乎说话内容。由于人与人之间的发音器官、口音、说话节奏等存在差异,通过分析人的语音能够提取出说话人信息,从而达到识别人的身份的目的。
2、语音识别
语音识别是让机器通过识别和理解过程,把语音信号转变为相应的文本或命令的技术。语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用。
3、语音情感识别
传统的人机交互主要依靠键盘和鼠标,计算机只是被动地接受信息,不能主动和人进行沟通,人机之间无法进行情感通信。计算机自然无法实现自然与和谐的人机交互。情感识别可以帮助实现模拟的人与人之间蕴含情感的交流和沟通,让计算机也具备情感计算的能力。
然而,上述3中识别任务在实际应用或设计上,存在诸多缺陷或不足。例如:声纹识别、语音识别、情感识别任务模型之间不通用、输入形式不统一、没有普适的解决方案、集成准确度不高、情感识别单个任务的识别准确率不高等等。
发明内容
本发明目的在于提供一种准确率高、集成度高、可自由选择方案的语音信号中针对通用特定语音任务的并联特征提取系统。
为实现上述目的,采用了以下技术方案:本发明所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;
所述情感识别模型如下:
语音信号通过特征提取,获得语谱图、TEO(Teager energy operator)和声学特征描述符LLD(low-level acoustic feature descriptors);
对LLD特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU(Gated Recurrent Unit)模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;
采用语谱图和TEO作为卷积循环神经网络CRNN(Convolutional RecurrentNeural Network)的输入,LLD采用低级描述符和高级统计函数HSF通道的30维特征;TEO和语谱图的特征融合后,送入CRNN中,CRNN由卷积神经网络(Convolutional NeuralNetwork,CNN)和循环神经网络两部分构成;在CRNN模型的情感识别特征输入注意力机制得到1*512维输出特征;
将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并,得到1*1024维情感特征。
所述声纹识别模型如下:
以语音信号为输入,通过特征提取,获得语谱图和MFCC(梅尔频率倒谱系数);
语谱图作为输入馈入卷积神经网络CNN中,语谱图和MFCC(Mel FrequencyCepstral Coefficents,梅尔频率倒谱系数)馈入Sequence-to-Sequence(Seq2Seq)中,2个通道的模型融合加入注意力机制,形成声纹识别模型;
所述语音识别模型如下:
以语音信号为输入,通过特征提取,获得MFCC和语谱图;
采用42维MFCC作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。
进一步的,所述语谱图是语音信号的傅里叶分析的显示图像,语谱图是一种三维频谱,表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;获取方法如下:对于一段语音信号x(t),首先分帧,变为x(m,n)(n为帧长,m为帧的个数),进行快速傅立叶变换,得到X(m,n),得到周期图Y(m,n)(Y(m,n)=X(m,n)*X(m,n)’),取10*log10(Y(m,n)),把m根据时间变换刻度,得到M,n根据频率变换刻度,得到N,(M,N,10*log10(Y(m,n)组成的二维图像,即为语谱图。
进一步的,所述TEO是一种非线性运动结构的能量算子,可以反映单个语音频率成分的特性,还能反映多个语音频率成分之间的关系。
对于连续信号X(t),TEO描述为:
ψ[x(t)]=(x'(t))2-x(t)x(t)n (1)
式中x'(t)=dx(t)/dt,x(t)为连续的时域信号,对于离散信号x(n),TEO表示为:
ψ[x(n)]=(x2(n))-x(n-1)x(n+1),式中x(n)是信号在n时刻的值。
求取TEO的具体过程是,对语音信号加窗分帧后求每一帧的TEO能量,计算公式如下。
Figure GDA0002383646850000041
其中,ETEO是第t帧的TEO能量,τ是每帧样本数量,L为每帧的长度。
进一步的,在捕获最原始的声学特征时,需要将语音信号转换为语音特征向量,即结合低级描述符(LLD)和高级统计函数(High level Statistics Functions,HSF),特征均可使用OpenSmile toolbox工具箱直接计算得到。
进一步的,所述的语音信号中针对通用特定语音任务的并联特征提取模型,其特征在于:所述GRU中包含更新门和重置门;GRU模型的设计公式如下:
Figure GDA0002383646850000054
Figure GDA0002383646850000053
Figure GDA0002383646850000052
ht=(1-zt)*ht-1+zt*ht (6)
zt和rt分别表示更新门和重置门。
Figure GDA0002383646850000055
为第t层部分隐藏层输出;
ht为第t层全部隐藏层向量。
进一步的,卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,可获得每个片段的CNN学习特征;对输入图像进行卷积,分为4个步骤,即连续的2组卷积和池化操作,从而生成一组特征集合;然后进入循环神经网络部分,采用2层双向循环长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)网络,其中每个时间步对应于原始音频输入的一段,保留区域之间的长期依赖性,此模型输出为512维特征;
对于输入x的序列中的每个向量xi,可以按照公式7计算注意力权重αi,其中f(xi)是评分函数。
Figure GDA0002383646850000051
注意力层的输出,即attentive_x,是输入序列的权重之和,如公式8所示。
attentive_x=∑iαixi (8)
由此通道的模型学习得到了情感识别特征,输出特征为1*512维。
进一步的,MFCC的提取基于人耳的听觉机理,具体提取流程如下:首先进行预加重、分帧和加窗,然后,为了将时域信号转化到频域进行后续的频率分析,对每一帧语音信号x(n)进行FFT变换,接下来将计算取模的平方,从而得到能量谱,通过一组Mel尺度的三角形滤波器组,计算每个滤波器组输出的对数能量,将上诉系数做离散余弦变换(DCT),变换最后计算得到M维的MFCC参数(4);详细的计算公式如公式9所示。
Figure GDA0002383646850000061
卷积层前后的映射关系如下。
Figure GDA0002383646850000062
其中,
Figure GDA0002383646850000063
表示第m个卷积层第j个特征图的输入,
Figure GDA0002383646850000064
代表卷积核,
Figure GDA0002383646850000065
表示偏置,*表示卷积操作,Mj表示特征图的集合,f表示激活函数。
进一步的,在语音识别模型中,将MFCC应用于3层双向LSTM(Long Short-TermMemory,长短期记忆网络)模型;LSTM采用的策略是在每个神经元内部增加:输入门、输出门和忘记门,选用误差函数反馈权重,通过忘记门决定记忆单位是否被清除,默认的LSTM结构如公式11所示。
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure GDA0002383646850000066
Figure GDA0002383646850000067
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct) (11)
其中,Wf、Wi
Figure GDA0002383646850000068
Wo是权重参数,bf、bi、bc、bo是偏置,xt作为输入序列,结合上一个隐藏层ht-1的状态,通过激活函数构成忘记门ft;输入门层it和输出门ot也由xt和ht-1计算;忘记门ft与前单元状态Ct-1联合以确定是否丢弃信息。
另外,本发明还提供了一种语音信号中针对通用特定语音任务的并联特征提取方法:
所述方法的输入为语音信号,输出为情感识别特征、声纹识别特征、语音识别特征;
所述情感识别特征的提取方法为:
S1-1,通过语音信号获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;
S1-2,对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征;
S1-3,将HSF后的特征馈入GRU模型中,由GRU模型学习得到情感识别特征,输出特征为1*512维;
S1-4,采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;
S1-5,将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;
所述声纹识别特征的提取方法为:
S2-1,提取语音信号特征作为输入,获得语谱图和梅尔频率倒谱系数MFCC;
S2-2,语谱图作为输入馈入卷积神经网络中作为一条通道;
语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中作为另一条通道,将两条通道的模型融合加入注意力机制,形成声纹识别特征;
所述语音识别特征的提取方法为:
S3-1,提取语音信号特征作为输入,获得梅尔频率倒谱系数和语谱图;
S3-2,采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq作为一条通道进行输出;
S3-3,语谱图结合Seq2Seq作为另一条通道进行输出;
S3-4,两条通道的模型融合加入注意力机制,形成语音识别模型。
与现有技术相比,本发明具有如下优点:
1、利用原始语音信号处理模块提取的公共特征和任务的公共模型,设计多通道的网络模型,每种任务可以自主选择若干条通道,协作完成特征提取,从而实现一个输入,经历多条通路,解决多个任务。
2、利用一次性的输入,同时、分层次、客观的展示声纹识别、语音识别和情感识别的结果。
3、提升声纹识别、语音识别和情感识别的准确率。
4、每个子模型中可以自由选择不同的方案,或者采用默认的组合方法。
5、新建的语音情感语料库可以为声纹识别、语音识别和情感识别任务提供稳定、可靠的数据来源。
6、提升声纹识别、语音识别和情感识别任务的集成度。
7、在语音任务识别过程中,可交叉使用卷积循环神经网络CRNN、Seq2Seq通道等,提高识别精确度。
附图说明
图1是本发明中的情感识别流程图。
图2是本发明中的GRU模型结构图。
图3是本发明中的CRNN网络模型图。
图4是本发明中的声纹识别流程图。
图5是本发明中的Seq2Seq模型结构图。
图6是本发明中的encoder和decoder过程图。
图7是本发明中的语音识别流程图。
具体实施方式
下面结合附图对本发明做进一步说明:
本发明所述模型主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;
所述语谱图是语音信号的傅里叶分析的显示图像,语谱图是一种三维频谱,表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;任一给定频率成分在给定时刻的强弱用相应点的灰度或色调的浓淡来表示。获取方法如下:对于一段语音信号x(t),首先分帧,变为x(m,n)(n为帧长,m为帧的个数),进行快速傅立叶变换,得到X(m,n),得到周期图Y(m,n)(Y(m,n)=X(m,n)*X(m,n)’),取10*log10(Y(m,n)),把m根据时间变换刻度,得到M,n根据频率变换刻度,得到N,(M,N,10*log10(Y(m,n)组成的二维图像,即为语谱图。语谱图是语音时频可视化的表示,包含大量语音信息。采用二维平面表达三维信息,能量值通过颜色来表示的,颜色深,表示该点的语音能量强。当人们利用语速快慢、语调高低等方式来表达不同情感时,语谱图会表现出明显的差异性。将独立的音频文件转换为语谱图,以20*512长度为一帧,对语谱图进行切分,分别产生若干个针对每个音频文件的子频谱图。针对新生成的语谱图进行白化操作,将每帧的频谱图的基础数据进行纵向融合,以512维为单位进行横向分割,每个语谱图的纵向长度是固定的,针对每列求取其均方差,将20*512的长度浓缩为1*512维的谱图特征。在此基础上,对其进行归一化操作,将512维的特征限制在[0,1]的区间范围内。
所述情感识别模型如下,如图1所示:
语音信号通过特征提取,获得语谱图、TEO(Teager energy operator)和声学特征描述符LLD(low-level acoustic feature descriptors);数据源则为同一音频文件;
所述TEO是一种非线性运动结构的能量算子,可以反映单个语音频率成分的特性,还能反映多个语音频率成分之间的关系。因此,在某些压力情况下,基于TEO的语音特征可以用来识别不同的语音情感。
对于连续信号X(t),TEO描述为:
ψ[x(t)]=(x'(t))2-x(t)x(t)n (1)
式中x'(t)=dx(t)/dt,x(t)为连续的时域信号,对于离散信号x(n),TEO表示为:
ψ[x(n)]=(x2(n))-x(n-1)x(n+1),式中x(n)是信号在n时刻的值。
求取TEO的具体过程是,对语音信号加窗分帧后求每一帧的TEO能量,计算公式如下。
Figure GDA0002383646850000111
其中,ETEO是第t帧的TEO能量,τ是每帧样本数量,L为每帧的长度。
在捕获最原始的声学特征时,需要将语音信号转换为语音特征向量,即结合低级描述符(LLD)和高级统计函数(High level Statistics Functions,HSF),特征均可使用OpenSmile toolbox工具箱直接计算得到。
本发明基于以下方面选择低级描述符:a)它们有潜力指导声音产生情感生理变化,b)在先前研究中,它们已证明价值以及它们的自动可提取性,以及c)它们的理论意义。该集合旨在为研究语音特征的基线,并消除由变化的模型,甚至相同参数的不同实现引起的差异。
音强(Loudness),谱通量(声音信号频谱的包络面积,Spectral Flux),梅尔频率倒谱系数(频带1-2,MFCC1-2),谱特征(alpha RatioUV),等效声级(equivalent SoundLevel),基频(F0semitone),第一共振峰的中心频率(F1frequency),频谱斜率(slopeV0-500),本地(帧到帧)闪烁(shimmer LocaldB),梅尔频带的对数功率(logMelFreqBand1-6)
针对LLD特征,对其进行HSF表示,获取切分后的音频文件的全局特征,此处采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围。
涉及的具体LLD和HSF如表1所示,其中一共涉及30维特征。这些特征均可以使用OpenSmile toolbox工具箱直接计算得到。
表1具体筛选的LLD和HSF
Figure GDA0002383646850000121
对LLD特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU(Gated Recurrent Unit)模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;
采用语谱图和TEO作为卷积循环神经网络CRNN(Convolutional RecurrentNeural Network)的输入,LLD采用低级描述符和高级统计函数HSF通道的30维特征;TEO和语谱图的特征融合后,送入CRNN中,CRNN由卷积神经网络(Convolutional NeuralNetwork,CNN)和循环神经网络两部分构成;在CRNN模型的情感识别特征输入注意力机制得到1*512维输出特征;
将LLD通道得到的输出特征与语谱图、TEO通道得到的输出特征进行合并,得到1*1024维情感特征。此特征融合了局部特征和全局特征,可以全面的表示当前帧音频的情感信息。
所述GRU中包含更新门和重置门;GRU模型的设计公式如下:
Figure GDA0002383646850000122
Figure GDA0002383646850000132
Figure GDA0002383646850000133
ht=(1-zt)*ht-1+zt*ht (6)
zt和rt分别表示更新门和重置门。
Figure GDA0002383646850000131
为第t层部分隐藏层输出;
ht为第t层全部隐藏层向量。
如图2所示,GRU将遗忘门和输入门合并成单一的更新门,将元胞状态与隐状态合并,即图中的zt和rt,更新门用于控制前一时刻的状态信息被带入到当前状态中的程度,更新门的值越大说明前一时刻的状态信息越多,重置门用于控制前一时刻的状态信息的程度,重置门越小说明忽略的越多。
所述的CRNN模型如下,如图3所示:
CRNN模型由卷积神经网络和循环神经网络两部分构成,其中卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,首先获取其语谱图和TEO特征作为输入,然后对输入信息进行卷积,分为4个步骤,即连续的2组卷积和池化操作,从而生成一组特征集合。然后进入循环神经网络部分,采用2层双向BILSTM网络,其中每个时间步对应于原始音频输入的一段,保留区域之间的长期依赖性。最终通过1层全连接层,然后使用Softmax完成音频的分类。
所述声纹识别模型如下,如图4所示:
以语音信号为输入,通过特征提取,获得语谱图和MFCC(梅尔频率倒谱系数);
语谱图作为输入馈入卷积神经网络CNN中,语谱图和MFCC(Mel FrequencyCepstral Coefficents,梅尔频率倒谱系数)馈入Sequence-to-Sequence(Seq2Seq)中,2个通道的模型融合加入注意力机制,形成声纹识别模型;
卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,可获得每个片段的CNN学习特征;对输入图像进行卷积,分为4个步骤,即连续的2组卷积和池化操作,从而生成一组特征集合;然后进入循环神经网络部分,采用2层双向循环长短期记忆网络(Bidirectional Long Short-Term Memory,BLSTM)网络,其中每个时间步对应于原始音频输入的一段,保留区域之间的长期依赖性,此模型输出为512维特征;
考虑到音频的能量在短时间处于一种集中爆发的过程,可以通过聚焦在爆发的重点区域进行特征选择和训练,加重此类区域的贡献度,因此,在CRNN模型(7)的基础上,增加了注意力机制,它是用于分配有限信息处理能力的“选择机制”,有助于快速分析目标数据,配合信息筛选和权重设置机制,提升模型的计算能力。
对于输入x的序列中的每个向量xi,可以按照公式7计算注意力权重αi,其中f(xi)是评分函数。
Figure GDA0002383646850000141
注意力层的输出,即attentive_x,是输入序列的权重之和,如公式8所示。
attentive_x=∑iαixi (8)
由此通道的模型学习得到了情感识别特征,输出特征为1*512维。
MFCC的提取基于人耳的听觉机理,具体提取流程如下:首先进行预加重、分帧和加窗,然后,为了将时域信号转化到频域进行后续的频率分析,对每一帧语音信号x(n)进行FFT变换,接下来将计算取模的平方,从而得到能量谱,通过一组Mel尺度的三角形滤波器组,计算每个滤波器组输出的对数能量,将上诉系数做离散余弦变换(DCT),变换最后计算得到M维的MFCC参数(4);详细的计算公式如公式9所示。
Figure GDA0002383646850000151
在声纹识别模型中,语谱图馈入卷积神经网络(CNN)中,语谱图和MFCC馈入Seq2Seq中,2个通道的模型融合加入注意力机制,形成声纹模型。
卷积神经网络是一种由卷积层与池化层交替堆叠而成的深度神经网络。当前层的神经单元通过一组权重即卷积核连接到前一层的若干个特征图进行卷积运算,再加上偏置就得到当前层的特征图。每一个神经单元只与上一特征图的局部区域连接,每个神经单元提取的是该局部区域的特征,所有神经单元综合起来得到全局特征。为了从特征参数中获得更全面的信息,同一层网络中使用多个不同的卷积核进行操作,得到多个特征图。卷积层前后的映射关系如下。
Figure GDA0002383646850000152
其中,
Figure GDA0002383646850000153
表示第m个卷积层第j个特征图的输入,
Figure GDA0002383646850000154
代表卷积核,
Figure GDA0002383646850000155
表示偏置,*表示卷积操作,Mj表示特征图的集合,f表示激活函数。
经过卷积操作后的特征图在池化层进行降采样操作。池化单元计算特征图中局部区域的主要信息,因此去除了冗余信息,缩小了运算规模。CNN由3层卷积层、3层池化层和2层全连接层,共8层构成,第一层卷积层的输入图片为310*310*3,其中310为图片的长和宽,3表示RGB三个通道。图片经过64个3*3的卷积核,以步长为1的卷积操作后产生64个特征图,然后使用Relu激活函数,经过最大池化操作后得到64个特征图,第2层卷积层的输入源即第1层的输出特征图,计算过程与第1层一样,第3层同理,接下来是1层全连接层,此层一共有1024个神经元,在此层上做Dropout操作,防止模型过拟合。此层输出为1*1024维特征(3)。
Seq2Seq模型是把一个序列翻译成另一个序列的模型,实质是两个循环神经网络(Recurrent Neural Network,RNN),一个做encoder,另一个做decoder。如图5所示。
encoder和decoder的过程如图6所示,encoder负责将source序列编码成固定长度的表达,例如图5中的A\B\C处,使用普通的RNN即可,decoder负责将该固定长度的表达解码成target序列,decoder训练的时候输入由两部分组成,一部分是encoder的last state,另一部分是target序列,如图6的<GO>WXYZ,其中<GO>和<EOS>表示的是序列开始符和结束符。decoder测试的时候输入也是由两部分组成,一部分是encoder的last state,另一部分是来自于上一个时刻的输出(上一个时刻的输出作为下一个时刻的输入),直到某个时刻的输出遇到结束符<EOS>为止。
此模型的输出为1*512维特征(5),将其与CNN的特征一起送入注意力机制中,最终得到1*1536维声纹识别特征(6),可以用于搭建话者的声纹模型(7)。
所述语音识别模型如下,如图7所示:
以语音信号为输入,通过特征提取,获得MFCC和语谱图;
采用42维MFCC作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。将MFCC应用于3层双向LSTM(Long Short-Term Memory,长短期记忆网络)模型;LSTM采用的策略是在每个神经元内部增加:输入门、输出门和忘记门,选用误差函数反馈权重,通过忘记门决定记忆单位是否被清除,默认的LSTM结构如公式11所示。
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure GDA0002383646850000171
Figure GDA0002383646850000172
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct) (11)
其中,Wf、Wi
Figure GDA0002383646850000173
Wo是权重参数,bf、bi
Figure GDA0002383646850000174
bo是偏置,xt作为输入序列,结合上一个隐藏层ht-1的状态,通过激活函数构成忘记门ft;输入门层it和输出门ot也由xt和ht-1计算;忘记门ft与前单元状态Ct-1联合以确定是否丢弃信息。
BIMLSTM通道的输出(3)和Seq2Seq通道的输出(5)分别为1*512维特征,将两个通道输出的特征融合后,一起送入注意力机制中,最终得到1*1024维语音识别特征(6),此时的模型(7)可以用于话者的语音识别。
使用Tensorflow框架进行网络模型结构的搭建,对本文提出的方法和传统的特征提取方法分别进行情感识别实验。为了避免不同情感数量不均衡产生的影响,本文采用加权精度(Weighted accuracy,WA)和未加权精度(Unweighted accuracy,UA)作为指标。
表2为经过实验验证后,不同语音情感识别模型的准确度。
表2语音情感识别模型测试结果
Figure GDA0002383646850000175
由上可知,由于融合了LLD和HSF特征集合,同时辅助CRNN获得时序的相关特征,它的表现最佳,拥有最优的WA和UA,可以发挥全局特征和时序信号在情绪识别过程中的作用。
另外,本发明提供了一种语音信号中针对通用特定语音任务的并联特征提取方法:
所述方法的输入为语音信号,输出为情感识别特征、声纹识别特征、语音识别特征;
所述情感识别特征的提取方法为:
S1-1,通过语音信号获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;
S1-2,对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征;
S1-3,将HSF后的特征馈入GRU模型中,由GRU模型学习得到情感识别特征,输出特征为1*512维;
S1-4,采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;
S1-5,将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;
所述声纹识别特征的提取方法为:
S2-1,提取语音信号特征作为输入,获得语谱图和梅尔频率倒谱系数MFCC;
S2-2,语谱图作为输入馈入卷积神经网络中作为一条通道;
语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中作为另一条通道,将两条通道的模型融合加入注意力机制,形成声纹识别特征;
所述语音识别特征的提取方法为:
S3-1,提取语音信号特征作为输入,获得梅尔频率倒谱系数和语谱图;
S3-2,采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq作为一条通道进行输出;
S3-3,语谱图结合Seq2Seq作为另一条通道进行输出;
S3-4,两条通道的模型融合加入注意力机制,形成语音识别模型。
以上所述的实施例仅仅是对本发明的优选实施方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (9)

1.一种语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述系统主要包括语音信号、情感识别模型、声纹识别模型和语音识别模型;
所述情感识别模型如下:
语音信号通过特征提取,获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;
对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征,采用的HSF表示有,窗口长度为n的移动平均滤波器平滑、均值、标准差、20百分位、离群值鲁棒最大值、离群值鲁棒信号范围;将HSF后的特征馈入GRU模型中,由GRU模型学习得到了情感识别特征,输出特征为1*512维;
采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;
将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;
所述声纹识别模型如下:
以语音信号为输入,通过特征提取,获得语谱图和梅尔频率倒谱系数MFCC;
语谱图作为输入馈入卷积神经网络中,语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中,2个通道的模型融合加入注意力机制,形成声纹识别模型;
所述语音识别模型如下:
以语音信号为输入,通过特征提取,获得梅尔频率倒谱系数和语谱图;
采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq通道进行输出;语谱图结合Seq2Seq通道进行输出;2个通道的模型融合加入注意力机制,形成语音识别模型。
2.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述语谱图是语音信号的傅里叶分析的显示图像,语谱图是一种三维频谱,表示语音频谱随时间变化的图形,其纵轴为频率,横轴为时间;获取方法如下:对于一段语音信号x(t),首先分帧,变为x(m,n),n为帧长,m为帧的个数;进行快速傅立叶变换,得到X(m,n),得到周期图Y(m,n),Y(m,n)=X(m,n)*X(m,n)’,取10*log10(Y(m,n)),把m根据时间变换刻度,得到M,n根据频率变换刻度,得到N;M,N,10*log10(Y(m,n))组成的二维图像,即为语谱图。
3.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述非线性运动结构的能量算子TEO,可以反映单个语音频率成分的特性,还能反映多个语音频率成分之间的关系;
对于连续信号X(t),TEO描述为:
ψ[x(t)]=(x'(t))2-x(t)x(t)n (1)
式中x'(t)=dx(t)/dt,x(t)为连续的时域信号,对于离散信号x(n),TEO表示为:
ψ[x(n)]=(x2(n))-x(n-1)x(n+1),式中x(n)是信号在n时刻的值;
求取TEO的具体过程是,对语音信号加窗分帧后求每一帧的TEO能量,计算公式如下;
Figure FDA0003500229610000031
其中,ETEO是第t帧的TEO能量,τ是每帧样本数量,L为每帧的长度。
4.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:在捕获最原始的声学特征时,需要将语音信号转换为语音特征向量,即结合低级描述符LLD和高级统计函数HSF,特征均可使用OpenSmile toolbox工具箱直接计算得到。
5.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:所述GRU中包含更新门和重置门;GRU模型的设计公式如下:
zt=σ(Wz·[ht-1,xt]) (3)
rt=σ(Wr·[ht-1,xt]) (4)
Figure FDA0003500229610000032
Figure FDA0003500229610000033
zt和rt分别表示更新门和重置门;
Figure FDA0003500229610000034
为第t层部分隐藏层输出;
ht为第t层全部隐藏层向量。
6.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:卷积神经网络部分基于传统CNN网络模型,用于提取语谱图的频域特征,对于预先分段的语音,可获得每个片段的CNN学习特征;对输入图像进行卷积,分为4个步骤,即连续的2组卷积和池化操作,从而生成一组特征集合;然后进入循环神经网络部分,采用2层双向循环长短期记忆网络BLSTM,其中每个时间步对应于原始音频输入的一段,保留区域之间的长期依赖性,此模型输出为512维特征;
对于输入x的序列中的每个向量xi,可以按照公式7计算注意力权重αi,其中f(xi)是评分函数;
Figure FDA0003500229610000041
注意力层的输出,即attentive_x,是输入序列的权重之和,如公式8所示;
attentive_x=∑iαixi (8)
由此通道的模型学习得到了情感识别特征,输出特征为1*512维。
7.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:MFCC的提取基于人耳的听觉机理,具体提取流程如下:首先进行预加重、分帧和加窗,然后,为了将时域信号转化到频域进行后续的频率分析,对每一帧语音信号x(n)进行FFT变换,接下来将计算取模的平方,从而得到能量谱,通过一组Mel尺度的三角形滤波器组,计算每个滤波器组输出的对数能量,将上诉系数做离散余弦变换DCT,变换最后计算得到M维的MFCC参数;详细的计算公式如公式9所示;
Figure FDA0003500229610000042
卷积层前后的映射关系如下;
Figure FDA0003500229610000051
其中,
Figure FDA0003500229610000052
表示第m个卷积层第j个特征图的输入,
Figure FDA0003500229610000053
代表卷积核,
Figure FDA0003500229610000054
表示偏置,*表示卷积操作,Mj表示特征图的集合,f表示激活函数。
8.根据权利要求1所述的语音信号中针对通用特定语音的并联特征提取系统,其特征在于:在语音识别模型中,将MFCC应用于3层双向长短期记忆网络LSTM模型;LSTM采用的策略是在每个神经元内部增加:输入门、输出门和忘记门,选用误差函数反馈权重,通过忘记门决定记忆单位是否被清除,默认的LSTM结构如公式11所示:
ft=σ(Wf[ht-1,xt]+bf)
it=σ(Wi[ht-1,xt]+bi)
Figure FDA0003500229610000055
Figure FDA0003500229610000056
ot=σ(Wo[ht-1,xt]+bo)
ht=ot*tanh(Ct) (11)
其中,Wf、Wi
Figure FDA0003500229610000057
Wo是权重参数,bf、bi
Figure FDA0003500229610000058
bo是偏置,xt作为输入序列,结合上一个隐藏层ht-1的状态,通过激活函数构成忘记门ft;输入门层it和输出门ot也由xt和ht-1计算;忘记门ft与前单元状态Ct-1联合以确定是否丢弃信息。
9.一种基于权利要求1所述语音信号中针对通用特定语音的并联特征提取系统的特征提取方法:
所述方法的输入为语音信号,输出为情感识别特征、声纹识别特征、语音识别特征;
所述情感识别特征的提取方法为:
S1-1,通过语音信号获得语谱图、非线性运动结构的能量算子TEO和声学特征描述符LLD;
S1-2,对声学特征描述符特征进行HSF表示,获取切分后的音频文件的全局特征;
S1-3,将HSF后的特征馈入GRU模型中,由GRU模型学习得到情感识别特征,输出特征为1*512维;
S1-4,采用语谱图和非线性运动结构的能量算子作为卷积循环神经网络的输入,声学特征描述符采用低级描述符和高级统计函数HSF通道的30维特征;非线性运动结构的能量算子和语谱图的特征融合后,送入卷积循环神经网络中,卷积循环神经网络由卷积神经网络和循环神经网络两部分构成;在卷积循环神经网络模型的情感识别特征输入注意力机制得到1*512维输出特征;
S1-5,将声学特征描述符通道得到的输出特征与语谱图、非线性运动结构的能量算子通道得到的输出特征进行合并,得到1*1024维情感特征;
所述声纹识别特征的提取方法为:
S2-1,提取语音信号特征作为输入,获得语谱图和梅尔频率倒谱系数MFCC;
S2-2,语谱图作为输入馈入卷积神经网络中作为一条通道;
语谱图和梅尔频率倒谱系数馈入Sequence-to-Sequence中作为另一条通道,将两条通道的模型融合加入注意力机制,形成声纹识别特征;
所述语音识别特征的提取方法为:
S3-1,提取语音信号特征作为输入,获得梅尔频率倒谱系数和语谱图;
S3-2,采用42维梅尔频率倒谱系数作为输入,结合BIMLSTM和Seq2Seq作为一条通道进行输出;
S3-3,语谱图结合Seq2Seq作为另一条通道进行输出;
S3-4,两条通道的模型融合加入注意力机制,形成语音识别特征。
CN201911013504.6A 2019-10-23 2019-10-23 语音信号中针对通用特定语音的并联特征提取系统及方法 Active CN110992987B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911013504.6A CN110992987B (zh) 2019-10-23 2019-10-23 语音信号中针对通用特定语音的并联特征提取系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911013504.6A CN110992987B (zh) 2019-10-23 2019-10-23 语音信号中针对通用特定语音的并联特征提取系统及方法

Publications (2)

Publication Number Publication Date
CN110992987A CN110992987A (zh) 2020-04-10
CN110992987B true CN110992987B (zh) 2022-05-06

Family

ID=70082397

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911013504.6A Active CN110992987B (zh) 2019-10-23 2019-10-23 语音信号中针对通用特定语音的并联特征提取系统及方法

Country Status (1)

Country Link
CN (1) CN110992987B (zh)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111554305B (zh) * 2020-04-26 2023-06-09 兰州理工大学 一种基于语谱图和注意力机制的声纹识别方法
CN111613240B (zh) * 2020-05-22 2023-06-27 杭州电子科技大学 一种基于注意力机制和Bi-LSTM的伪装语音检测方法
CN111816212B (zh) * 2020-06-19 2022-10-11 杭州电子科技大学 基于特征集融合的语音情感识别及评价方法
CN112037822B (zh) * 2020-07-30 2022-09-27 华南师范大学 基于ICNN与Bi-LSTM的语音情感识别方法
CN112199548A (zh) * 2020-09-28 2021-01-08 华南理工大学 一种基于卷积循环神经网络的音乐音频分类方法
CN112259120B (zh) * 2020-10-19 2021-06-29 南京硅基智能科技有限公司 基于卷积循环神经网络的单通道人声与背景声分离方法
CN112259080B (zh) * 2020-10-20 2021-06-22 北京讯众通信技术股份有限公司 一种基于神经网络模型的语音识别方法
CN111968679B (zh) * 2020-10-22 2021-01-29 深圳追一科技有限公司 情感识别方法、装置、电子设备及存储介质
CN112634947B (zh) * 2020-12-18 2023-03-14 大连东软信息学院 一种动物声音情感特征集合排序识别方法及系统
CN112767949B (zh) * 2021-01-18 2022-04-26 东南大学 一种基于二值权重卷积神经网络的声纹识别系统
CN112967737A (zh) * 2021-04-07 2021-06-15 广州伟宏智能科技有限公司 一种对话文本的深度学习情感识别方法
CN113129897B (zh) * 2021-04-08 2024-02-20 杭州电子科技大学 一种基于注意力机制循环神经网络的声纹识别方法
CN113284515B (zh) * 2021-04-19 2023-05-02 大连海事大学 一种基于物理波和循环网络的语音情感识别方法
CN113436607B (zh) * 2021-06-12 2024-04-09 西安工业大学 一种快速语音克隆方法
CN113838466B (zh) * 2021-06-16 2024-02-06 腾讯科技(深圳)有限公司 语音识别方法、装置、设备及存储介质
CN113593537B (zh) * 2021-07-27 2023-10-31 华南师范大学 基于互补特征学习框架的语音情感识别方法及装置
CN114882906A (zh) * 2022-06-30 2022-08-09 广州伏羲智能科技有限公司 一种新型环境噪声识别方法及系统
CN115276697A (zh) * 2022-07-22 2022-11-01 交通运输部规划研究院 一种集成智能语音的海岸电台通信系统
CN115273883A (zh) * 2022-09-27 2022-11-01 成都启英泰伦科技有限公司 卷积循环神经网络、语音增强方法及装置
CN117393000B (zh) * 2023-11-09 2024-04-16 南京邮电大学 一种基于神经网络和特征融合的合成语音检测方法
CN117992597B (zh) * 2024-04-03 2024-06-07 江苏微皓智能科技有限公司 信息反馈方法、装置、计算机设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578775A (zh) * 2017-09-07 2018-01-12 四川大学 一种基于深度神经网络的多任务语音分类方法
CN108806667A (zh) * 2018-05-29 2018-11-13 重庆大学 基于神经网络的语音与情绪的同步识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11004461B2 (en) * 2017-09-01 2021-05-11 Newton Howard Real-time vocal features extraction for automated emotional or mental state assessment

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107578775A (zh) * 2017-09-07 2018-01-12 四川大学 一种基于深度神经网络的多任务语音分类方法
CN108806667A (zh) * 2018-05-29 2018-11-13 重庆大学 基于神经网络的语音与情绪的同步识别方法
CN108899051A (zh) * 2018-06-26 2018-11-27 北京大学深圳研究生院 一种基于联合特征表示的语音情感识别模型及识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于注意力LSTM和多任务学习的远场语音识别;张宇等;《第十四届全国人机语音通讯学术会议》;20171011;全文 *
郑纯军等.The Extraction Method of Emotion l Feature Based on Children"s Spoken Speech.《2019 11th International Conference on Intelligent Human-Machine Systems and Cybernetics (IHMSC)》.2019, *

Also Published As

Publication number Publication date
CN110992987A (zh) 2020-04-10

Similar Documents

Publication Publication Date Title
CN110992987B (zh) 语音信号中针对通用特定语音的并联特征提取系统及方法
CN110634491B (zh) 语音信号中针对通用语音任务的串联特征提取系统及方法
CN112348075B (zh) 一种基于情景注意力神经网络的多模态情感识别方法
Mehrish et al. A review of deep learning techniques for speech processing
Lee EMG-based speech recognition using hidden Markov models with global control variables
CN107972028B (zh) 人机交互方法、装置及电子设备
CN112151030B (zh) 一种基于多模态的复杂场景语音识别方法和装置
CN112466326A (zh) 一种基于transformer模型编码器的语音情感特征提取方法
Sunny et al. Recognition of speech signals: an experimental comparison of linear predictive coding and discrete wavelet transforms
CN117672268A (zh) 基于相对熵对齐融合的多模态语音情感识别方法
Swain et al. A DCRNN-based ensemble classifier for speech emotion recognition in Odia language
CN116682463A (zh) 一种多模态情感识别方法及系统
Ye et al. Attention bidirectional LSTM networks based mime speech recognition using sEMG data
Qian et al. A survey of technologies for automatic Dysarthric speech recognition
Daouad et al. An automatic speech recognition system for isolated Amazigh word using 1D & 2D CNN-LSTM architecture
Fang et al. Bidirectional LSTM with multiple input multiple fusion strategy for speech emotion recognition
Tailor et al. Deep learning approach for spoken digit recognition in Gujarati language
Rusan et al. Human-Computer Interaction Through Voice Commands Recognition
Jothimani et al. A new spatio-temporal neural architecture with Bi-LSTM for multimodal emotion recognition
Monica et al. Emotion Recognition Results using Deep Learning Neural Networks for the Romanian and German Language
Alex et al. Performance analysis of SOFM based reduced complexity feature extraction methods with back propagation neural network for multilingual digit recognition
CN116738359B (zh) 基于预训练模型和高分辨网络的蒙古语多模态情感分析方法
Zhang et al. Multiple attention convolutional-recurrent neural networks for speech emotion recognition
Deriche et al. A bilingual emotion recognition system using deep learning neural networks
CN117909486B (zh) 一种基于情感识别和大语言模型的多模式问答方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant