CN114822542A - 一种不同人分类辅助的无声语音识别方法和系统 - Google Patents

一种不同人分类辅助的无声语音识别方法和系统 Download PDF

Info

Publication number
CN114822542A
CN114822542A CN202210441272.XA CN202210441272A CN114822542A CN 114822542 A CN114822542 A CN 114822542A CN 202210441272 A CN202210441272 A CN 202210441272A CN 114822542 A CN114822542 A CN 114822542A
Authority
CN
China
Prior art keywords
different
features
input
electromyographic
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210441272.XA
Other languages
English (en)
Other versions
CN114822542B (zh
Inventor
张亚坤
谢良
蔡慧慧
印二威
王凯
张敬
罗治国
张皓洋
闫野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202210441272.XA priority Critical patent/CN114822542B/zh
Publication of CN114822542A publication Critical patent/CN114822542A/zh
Application granted granted Critical
Publication of CN114822542B publication Critical patent/CN114822542B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种不同人分类辅助的无声语音识别方法和系统,方法包括获取无声说话状态下的面部肌电信号,对面部肌电信号进行预处理并提取肌电特征;将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;将识别出的指令传输到设备上,进行显示或相应设备的操控。本发明提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型,该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息,与不同指令信息进行特征融合,从而降低模型训练的难度,提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能,通过这种辅助信息的融合,能够获得更高的识别准确率。

Description

一种不同人分类辅助的无声语音识别方法和系统
技术领域
本发明属于语音识别领域,特别涉及一种不同人分类辅助的无声语音识别方法和系统。
背景技术
语言交流是最自然、最有效的交流方式,但是周围环境嘈杂的噪声十分影响语音识别的准确率,在公共场合中隐私信息的传递也是语音交流的一个问题。由于语音识别的迅速发展,无声语音识别的研究也逐渐展开,不依赖声学的语音识别技术在各个领域都有广泛的应用价值。目前唇语识别的发展为无声语音的识别做出了突出的贡献。而基于面部肌电信号的无声语音识别也逐渐成为了研究热点,面部的肌肉组织可以有效控制唇部执行各种复杂的功能,比如说话、咀嚼和各种面部表情等,通过肌电采集装置可以记录说话时肌肉收缩的生物电信号,为基于面部肌电信号的无声语音识别提供了可能。现有的无声语音识别技术一般通过扩大数据集或寻找更优的识别模型来提高无声语音识别的准确率,但是肌电信号具有较低的鲁棒性和泛化能力,对模型训练的质量有很大影响,同时增加了数据采集的工作量和也增大了模型训练的难度。
在使用无声的方式说话时,不同人的面部肌电信号之间的差异是很大的。同一条指令由不同的人说出来,其肌电信号的频率及信号包络会有很大的差别,同一条指令即便是由同一个人说,在不同的时间段,其信号也各不相同。直接使用不同人的面部肌电信号通过一个神经网络训练肌电信号指令的分类不但增加了模型训练的难度,而且不利于识别结果准确率的提高。
发明内容
本发明提出了一种不同人分类辅助的无声语音识别方法,包括:
获取无声说话状态下的面部肌电信号,对面部肌电信号进行预处理并提取肌电特征;
将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;
将识别出的指令传输到设备上,进行显示或相应设备的操控。
进一步地,所述对面部肌电信号进行预处理并提取肌电特征包括:
对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪;
采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测,分割出有效肌电信号段;
提取出有效肌电信号段的梅尔频率倒谱系数特征;
所述提取出有效肌电信号段的梅尔频率倒谱系数特征,包括:
对有效肌电信号段进行预加重、分帧和加窗操作;
对每一个短时分析窗,通过FFT得到对应的频谱;
将所述频谱通过Mel滤波器组得到Mel频谱;
将Mel频谱取对数并经过余弦变换得到MFCC特征。
进一步地,所述无声语音识别模型使用如下方式建立:
获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。
进一步地,所述双流网络结构,包括深度神经网络和LSTM网络并列的网络结构,深度神经网络和LSTM网络之间使用特征交互模块进行信息交互,所述特征交互模块为残差卷积神经网络;深度神经网络和LSTM网络输出部分与特征融合层连接,特征融合层与分类预测层的输入层连接,所述分类预测层为全连接神经网络。
进一步地,所述深度神经网络用于不同人特征的学习;
其输入数据为不同人的相同无声语音指令对应的肌电特征,输出数据为其学习到的相同无声语音指令中不同人的特征;
所述LSTM用于不同指令特征的学习;
其输入数据为同一个人的肌电特征,输出数据为对应的不同的无声语音指令;
包括:
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到遗忘门中,通过一个sigmoid激活函数对输入特征xt进行处理;如式(9)所示;
ft=sigmoid(Wf1xt+Wf2ht-1)+bf (9)
其中,Wf为LSTM网络模型的权重参数,Wf1为输入特征xt对应的权重,Wf2为上一层的输出ht-1对应的权重;bf为LSTM网络模型遗忘门的偏置参数;
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输入门中,输入门包含两个部分,第一部分使用sigmoid激活函数处理输入特征xt,输出为it;第二部分使用tanh激活函数处理输入特征xt,输出为i'i,输入门的输出结果如式(10)所示:
Ct=Ct-1*ft+it*i'i (10)
其中,Ct-1是上一个LSTM网络输入门的输出,ft是遗忘门的输出,it和i'i分别为输入门的中间值;
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输出门中;输出门首先对xt使用sigmoid激活函数得到ot,再与输入门的输出值相结合,如式(11)所示:
ht=ot*tanh(Ct) (11)
其中,Ct是输入门的输出值,tanh是激活函数,ht是LSTM网络最终的输出结果;
所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互;
所述特征融合层用于融合深度神经网络和LSTM训练后得到的特征;
所述全连接神经网络用于对学习的特征进行分类。
进一步地,所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互包括:
对于不同指令特征的交互:将不同人特征和不同指令特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同指令特征相加,送入LSTM网络中进行新一轮的学习;
对于不同人特征的交互:将不同指令特征和不同人特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同人特征相加,送入深度神经网络中进行新一轮的学习。
进一步地,所述残差卷积神经网络包括三个残差卷积块;
第一个残差块包含两层大小为3*3*64的卷积,连接32维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到64维输出;
第二个残差块包括两层大小为3*3*128的卷积,连接64维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到128维的输出;
第三个残差块包括两层大小为3*3*256的卷积,连接128维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到256维的输出。
进一步地,所述残差卷积块分成直接映射部分和残差部分;
一个残差块表示为:
xl+1=h(xl)+F(xl,Wl)
其中h(xl)为上一层的直接映射,F(xl,Wl)为上一层的残差部分。
本发明还提出了一种不同人分类辅助的无声语音识别系统,包括:
获取模块,用于获取无声说话状态下的面部肌电信号;
预处理及提取模块,用于对面部肌电信号进行预处理并提取肌电特征;
识别模块,用于将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;
传送模块,用于将识别出的指令传输到设备上,进行显示或相应设备的操控。
进一步地,所述系统还包括模型建立模块;
模型建立模块使用如下方式建立无声语音识别模型:
获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。
本发明设计了一种不同人分类辅助的无声语音识别方法和系统,提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型。该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息,与不同指令信息进行特征融合,从而降低模型训练的难度,提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能,通过这种辅助信息的融合,能够获得更高的识别准确率。
附图说明
图1示出了本发明实施例中一种无声语音识别方法的流程示意图;
图2示出了本发明实施例中一种无声语音识别系统结构的示意图;
图3示出了本发明实施例中一种无声语音识别系统面部肌电信号采集位置的示意图;
图4示出了本发明实施例中一种无声语音识别方法中双流网络结构示意图;
图5示出了本发明实施例中一种无声语音识别方法中不同指令分类的神经网络示意图;
图6示出了本发明实施例中一种无声语音识别方法中特征交互模块的网络示意图;
图7示出了本发明实施例中一种无声语音识别方法中残差卷积网络的其中一个残差块的网络示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例研究了在无声说话状态下不同人面部肌电信号之间的差异,提出了以多任务辅助学习为框架的双流网络结构模型,将由于说话方式不同而产生的差异作为有用信息,将不同人的分类特征融入不同指令的分类特征中,从而提高整个识别模型的鲁棒性和泛化能力,提高肌电信号不同指令信息的识别准确率,同时降低了不同指令识别模型的复杂度。
本发明设计一种不同人分类辅助的无声语音识别方法,如图1所示。本发明中建立模型或最终的识别,均需要通过肌电采集设备获取面部肌电数据并进行数据预处理和肌电特征提取。
通过肌电采集设备获取面部肌电数据并进行数据预处理和肌电特征提取方法如下。
S101:获取无声说话状态下的面部肌电信号。
如图3所示,图3为4通道的肌电信号电极采集示意图,分别采集了面部提上唇肌、口轮匝肌、降下唇肌、颧肌的面部肌电信号。肌电信号作为生物电信号的一种,是产生肌肉动力的电信号根源,它是肌肉中各个运动单元动作电位在时间和空间上的叠加,很大程度上反映了神经和肌肉的运动状态。可以使用但不限于SEMG(表面肌电信号)采集装置对面部肌电信号进行采集,使用采样电极紧贴不同人脸部相应肌肉,当被采集人无声说话时,采集其面部肌电信号。当建立模型时,采集面部肌电信号同时采集对应的词语。本发明中,词语包括词和简单的句子,如词“吃饭”,简单句子“我饿了”。
S102:对面部肌电信号进行预处理并提取肌电特征。
对采集到的面部肌电信号进行预处理和特征提取,目的是降低特征维度的同时去除冗余特征。
第一步:对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪。
本发明使用带通滤波法去除面部肌电信号中的基线漂移。由于记录信号和参考电极之间的电位差会引入低频率的噪声从而使信号产生漂移偏离基线,而且每个通道的基线漂移独立于其他通道,会对模型识别信号中的特征识别产生负面影响,因此在一个可行的实施方案中,可以采用10-400Hz的四阶巴特沃斯带通滤波器进行滤波。
本发明使用采用凹陷滤波法去除工频干扰和其倍频噪声。工频噪声是由交流电的工频干扰引起的,工频噪声的去除可以使用50Hz的无限冲激响应陷波器,同时使用150Hz和250Hz的凹陷滤波器进行相应倍频的滤波。
滤波降噪后,生成滤波后的面部肌电信号。
第二步:采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测,分割出有效肌电信号段,从而排除无效段的噪声干扰。
针对肌电信号,假设信源发出有限个符号s1,s2,…,sn,它们组成的输出序列前后符号之间相互统计独立,p1,p2,…,pn分别为n个符号出现的概率,则信源的熵定义如式(1)所示:
Figure BDA0003614063680000071
基于信息熵的端点检测,首先对一段肌电信号进行分帧、加窗;其次计算熵值,可以根据经验取值设置熵值门限。如果熵值大于熵值门限值,则存入信号向量m中,然后从向量中寻找连续的两帧或者两帧以上满足m(i+1)-m(i)>1,则认为m(i+1)为信号的开始,m(i)为信号的结束,重复此过程直至信号结束,选出有效肌电信号段。
第三步:提取出有效肌电信号段的梅尔频率倒谱系数(MFCC)特征。
MFCC是一种在语音识别和说话人识别中广泛使用的特征,模仿了人类的听觉感知状态,就像一个滤波器组,它只关注某些特定的频率分量,无视不想感知的频率信息。因为面部肌电信号具有与语音信号相似的特性,因此可以提取MFCC特征来分析指令信息。
提取MFCC特征的过程:
(1)先对有效肌电信号段进行预加重、分帧和加窗操作。
预加重过程的作用是平衡高频通常比低频幅度更小导致的频谱不平衡问题,加强高频信息,使用式(2)进行预加重:
y(n)=x(n)-α*x(n-1) (2)
其中,n为肌电信号的采样点,x(n)为采样点n所对应的肌电信号,α为滤波器系数,y(n)为预加重后的肌电信号。
将信息从时域转化为频域的过程中,采用分帧操作来防止时域信息的丢失,分帧是将原始肌电信号分成大小固定的肌电信号,使用式(3)进行分帧:
N=y(n)*t (3)
其中,N为帧总数,t为帧长。
在分帧操作之后,对每一帧信号使用窗函数进行加窗操作,可以使用但不限于汉明窗(Hamming窗),使用式(4)进行加窗:
Figure BDA0003614063680000081
其中,w(n)为肌电信号加窗处理后的窗函数,n为肌电信号的采样点,α为不同汉明窗的系数,N为帧数。
加窗后生成若干短时分析窗。
(2)对每一个短时分析窗,通过FFT(快速傅里叶变换,fast Fourier transform)得到对应的频谱。使用式(5)得到对应的频谱。
Figure BDA0003614063680000082
其中,X(k)为肌电信号的频域信号,FN表示傅里叶变换的点数。
(3)将对应的频谱通过Mel滤波器组得到Mel频谱,采用的Mel滤波器为三角滤波器,Mel滤波器的个数可以根据要求制定,三角滤波器的频率响应定义如式(6)所示:
Figure BDA0003614063680000091
其中,m为不同三角滤波器的序号,f(m)为不同的三角滤波器,Hm(k)为三角滤波器的频率响应。
(4)对经过Mel滤波器组滤波后的信号数据(即Mel频谱)取对数,计算对数能量如式(7)所示:
Figure BDA0003614063680000092
其中,X(k)为肌电信号的频域信号,Hm(k)为三角滤波器的频率响应。
经过离散余弦变换即得到MFCC系数特征,如式(8)所示。
Figure BDA0003614063680000093
其中,s(m)为信号数据的对数能量,M是三角滤波器的个数,n是MFCC系数的阶数。
MFCC特征即为所提取的肌电特征。
本发明用以下方式建立模型。
S103:获取若干面部肌电信号及对应的词语,并对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习,最后生成无声语音识别模型。
预先获得若干无声说话状态下的面部肌电信号及对应的词语,包括同一个人的若干无声说话状态下的面部肌电信号,如A用户的,对于词语a、b、c等无声说话状态下对应的面部肌电信号;包括不同人的,若干对于相同词语的无声说话状态下的面部肌电信号,如A、B、C等用户,对于相同词语a无声说话状态下对应的面部肌电信号。对这些面部肌电信号进行预处理并提取对应的肌电特征。无声说话状态下的词语,即无声语音指令。
无声说话状态下的面部肌电信号及对应的语言可以通过信息采集方式获取,如对于A用户,限定词语a,无声说话时采集其对应的面部肌电信号,同样能够得到其他词语对应的面部肌电信号。
在本发明实施例中建立了一个双流网络结构,如图4所示。所述双流网络包括两个并列的不相同的神经网络,两个的神经网络分别代表着不同的分类学习任务,在两个神经网络学习的过程中建立特征交互模块,用于在两个任务之间交换信息,互相学习,从而增强自身的特征。
本发明实施例所使用的双流网络结构,包括两个并列的神经网络,深度神经网络和LSTM(长短期记忆)网络,深度神经网络可以使用CNN(卷积神经网络)、RNN(循环神经网络)、GAN(生成式对抗网络)等。本文的深度神经网络以CNN示例性说明。CNN和LSTM网络之间使用特征交互模块进行信息交互,特征交互模块为残差卷积;用于在两个任务之间交换信息,互相学习,从而增强自身的特征。CNN和LSTM网络输出部分与特征融合层连接,通过特征融合层融合后的特征与分类预测层(即不同指令分类器)输入层连接,分类预测层为全连接神经网络(DNN)。
在本发明实施例深度神经网络和LSTM网络的两个学习任务中,其中主任务是不同指令特征的学习,采用LSTM网络进行特征的训练。不同指令特征指同一个人,其不同的无声语音指令对应着不同的肌电特征,目的是对无声语音指令的识别。其输入数据为同一个人的肌电特征,输出数据为对应的不同的无声语音指令。
辅任务是不同人特征的学习,采用深度神经网络进行特征的训练。不同人特征指不同的人,其相同的无声语音指令对应着不同的肌电特征,目的是找出人与人无声说话时肌电的区别,学习一个具有多人肌电信号差异的特征。其输入数据为不同人的相同无声语音指令对应的肌电特征,输出数据为其学习到的相同无声语音指令中不同人的特征。
特征融合层为事件检测提供额外的有效信息,从而实现容忍不同人差异的肌电信号指令识别系统。
在本发明实施例中,所述的肌电信号不同指令特征的分类任务由LSTM网络构成,其网络结构如图5所示,LSTM是长短期记忆网络,是一种用于处理序列数据的神经网络。LSTM是解决循环神经网络RNN结构中存在的“梯度消失”问题而提出的,是一种特殊的循环神经网络,同时,LSTM在设计上明确的避免了长期依赖的问题。
在LSTM中,第一阶段是遗忘门,遗忘层决定哪些信息需要被遗忘。下一阶段是输入门,输入门确定哪些新信息能够被存储。最后一个阶段是输出门,输出门确定输出什么值。
不同指令特征在LSTM网络中的学习过程:
首先,将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到遗忘门中,如式(9)所示。式(9)中,通过一个sigmoid激活函数对输入特征xt进行处理。Wf为LSTM网络模型的权重参数,Wf1为输入特征xt对应的权重,Wf2为上一层的输出ht-1对应的权重,Wf1和Wf2的初始值是通过一组输入信号与对应的输出之间的关系计算出来的,随着数据的不断增加和神经网络的迭代更新,训练出最终的权重值;bf为LSTM网络模型遗忘门的偏置参数,可通过在训练模式时得到其具体值。
ft=sigmoid(Wf1xt+Wf2ht-1)+bf (9)
其次,将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输入门中。输入门包含两个部分,第一部分使用sigmoid激活函数处理输入特征xt,输出为it,第二部分使用tanh激活函数处理输入特征xt,输出为i'i,输入门的输出结果如式(10)所示,其中Ct-1是上一个LSTM网络输入门的输出,ft是遗忘门的输出,it和i'i分别为输入门的中间值。
Ct=Ct-1*ft+it*i'i (10)
最后,将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输出门中。输出门首先对xt使用sigmoid激活函数得到ot,再与输入门的输出值相结合,如式(11)所示,Ct是输入门的输出值,tanh是激活函数,ht是LSTM网络最终的输出结果。
ht=ot*tanh(Ct) (11)
多个LSTM网络串联可以学习更多的特征信息,ht就是LSTM网络学习后的结果。
在本发明实施例中,所述的在特征学习的过程中引入特征交互模块,以不同人特征交互网络结构为例,具体的结构如图6所示。特征交互模块采用残差卷积神经网络的方法进行两个不同任务间信息的交互,从不同人分类神经网络中学习到的某些特征将增强不同指令分类信息,相反,从不同指令分类神经网络中学习到的某些特征将增强不同人分类信息。通过互相学习,在两个不同的分类任务之间交换信息,从而增强自身任务的辨别能力。残差卷积神经网络交换信息如式(12)所示。
FPout=FP+Resnet(ht,FP) (12)
FWout=ht+Resnet(FP,ht)
其中,FP是深度神经网络学习后的特征,ht是LSTM网络学习后的特征,FPout是特征交互后的不同人特征,FWout是特征交互后不同指令特征。对于不同指令特征的交互,首先将不同人特征和不同指令特征进行级联,作为输入送入残差卷积网络中,训练出的交互特征再与不同指令特征相加,送入LSTM网络中进行新一轮的学习。
对于不同人特征的交互,首先将不同指令特征和不同人特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同人特征相加,送入深度神经网络中进行新一轮的学习。通过特征的交互学习,充分学习了不同信号之间的差异性,提升分类识别的准确率。
所述的残差卷积神经网络通过使用残差卷积块,既利用卷积结构进行了空间特征的学习,又在卷积网络基础上叠加了恒等映射层,允许原始输入信息直接传输到后面的层中,解决了深层网络难以训练的问题。卷积残差块分成直接映射部分和残差部分。一个卷积残差块可以表示如式(13)所示:
xl+1=h(xl)+F(xl,Wl) (13)
其中h(xl)是直接映射,F(xl,Wl)是残差部分,一般由两个或者三个卷积操作构成。
具体的,所述残差卷积神经网络包括3个残差卷积块,以不同人分支的特征交互为例:
将经过深层神经网络训练后的不同人特征和不同指令特征进行级联,送入第一个残差块中,如图7所示,第一个残差块包含两层大小为3*3*64的卷积,连接32维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到64维输出;
第二个残差块包括两层大小为3*3*128的卷积,连接64维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到128维的输出;
第三个残差块包括两层大小为3*3*256的卷积,连接128维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到256维的输出。
将得到的特征与原始的不同人特征进行相加,作为输入送入深度神经网络中进行新一轮的学习。
本发明的实施例中,使用特征融合的方法融合两个网络训练后得到的不同人特征和不同指令特征。融合后,送入分类预测层进行分类,分类预测层使用全连接神经网络进行分类。
信号的不同特征体现了信号在不同维度上的信息量,进行特征融合能更有效的组合与无声语音相关的多元信息。将不同人的特征信息与不同指令特征信息的二维特征数据根据实际效果调整不同的权重再进行组合,得到最终输入分类预测层中的融合特征,能加快训练或识别数据,节约计算资源。
示例性的,定义不同人的特征信息权重为QR,不同指令特征信息权重为QZ,QR和QZ根据经验值获得,可以预先设置,则如式(14)所示:
融合特征=不同人的特征信息*QR+不同指令特征信息*QZ (14)
本发明的实施例中,整个模型包括并联的深度神经网络、LSTM网络和分类预测层,其中深度神经网络和LSTM网络是得到特征,分类预测层是根据特征进行分类。
在本实施例中,分类预测层由全连接神经网络构成。内部的神经网络分为一层输入层和一层输出层。输入层不进行计算,仅传递信息,输出层由多个sigmoid单元组成,负责计算并输出相应的标签信息。将融合特征输入到全连接神经网络中,通过网络的传输与训练便可得到不同无声语音指令的识别结果。
在本发明实施例中,将肌电特征映射到高维空间以学习深度特征。将不同人,其相同的无声语音指令对应着不同的肌电特征通过输入层输入到深度神经网络中,输出为其对应的不同人分类特征。将同一个人,其不同指令的肌电特征通过输入层输入到LSTM中,输出为其对应的不同指令分类特征。两种不同的特征经过残差卷积网络进行交互,再通过特征融合层和分类预测层,最终得到完整的无声语音识别模型。
S104:获取实时面部肌电信号,将实时肌电特征输入到无声语音识别模型中进行分类识别,将识别出来的指令传输到设备上进行显示或者进行相应设备的操控。
在本实施例中,在实时监测环节,实时地采集一组肌电信号数据。首先经过降噪滤波和端点检测,其次,提取出肌电信号中梅尔频率倒谱系数特征,最后送入训练好的无声语音识别模型中,识别出无声语音的指令信息。
识别出的指令信息通过蓝牙传输或者无线传输的方式,将识别出来的无声语音信息传输到PC平台进行实时的显示,或者传输到某些养老助残的智能设备中进行控制。
示例性的,用户A在面部贴上4通道的电极片,采用无声的方式说出一个已经训练过的单词,此时在PC平台的接收界面会显示出该词语,例如“我饿了”“我生病了”等。
本发明实施例提供了一种不同人分类辅助的无声语音识别的系统,如图2所示,包括:
获取模块,用于获取无声说话状态下的面部肌电信号;
预处理及提取模块,用于对面部肌电信号进行预处理并提取肌电特征;
识别模块,用于将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;
传送模块,用于将识别出的指令传输到设备上,进行显示或相应设备的操控。
所述系统还包括模型建立模块;
模型建立模块使用如下方式建立无声语音识别模型:
获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。
本发明所设计的一种不同人分类辅助的无声语音识别方法,提出了一种利用双流网络结构进行不同人分类辅助不同指令分类的无声语音识别模型。该模型将不同人的肌电信号差异信息作为肌电信号不同指令信息的辅助信息,与不同指令信息进行特征融合,从而降低模型训练的难度,提高模型对不同人肌电信号的鲁棒性和肌电信号指令识别的性能,通过这种辅助信息的融合,能够获得更高的识别准确率。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种不同人分类辅助的无声语音识别方法,其特征在于,所述无声语音识别方法包括:
获取无声说话状态下的面部肌电信号,对面部肌电信号进行预处理并提取肌电特征;
将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;
将识别出的指令传输到设备上,进行显示或相应设备的操控。
2.根据权利要求1所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述对面部肌电信号进行预处理并提取肌电特征包括:
对采集到的面部肌电信号进行工频噪声和基线漂移误差的滤波降噪;
采用基于信息熵的方法对滤波后的面部肌电信号进行肌电信号起始端点和终止端点的检测,分割出有效肌电信号段;
提取出有效肌电信号段的梅尔频率倒谱系数特征;
所述提取出有效肌电信号段的梅尔频率倒谱系数特征,包括:
对有效肌电信号段进行预加重、分帧和加窗操作;
对每一个短时分析窗,通过FFT得到对应的频谱;
将对应的频谱通过Mel滤波器组得到Mel频谱;
将Mel频谱取对数并经过余弦变换得到MFCC特征。
3.根据权利要求2所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述无声语音识别模型使用如下方式建立:
获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。
4.根据权利要求3所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述双流网络结构,包括深度神经网络和LSTM网络并列的网络结构,深度神经网络和LSTM网络之间使用特征交互模块进行信息交互,所述特征交互模块为残差卷积神经网络;深度神经网络和LSTM网络输出部分与特征融合层连接,特征融合层与分类预测层的输入层连接,所述分类预测层为全连接神经网络。
5.根据权利要求4所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述深度神经网络用于不同人特征的学习;
其输入数据为不同人的相同无声语音指令对应的肌电特征,输出数据为其学习到的相同无声语音指令中不同人的特征;
所述LSTM用于不同指令特征的学习;
其输入数据为同一个人的肌电特征,输出数据为对应的不同的无声语音指令;
包括:
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到遗忘门中,通过一个sigmoid激活函数对输入特征xt进行处理;如式(9)所示;
ft=sigmoid(Wf1xt+Wf2ht-1)+bf (9)
其中,Wf为LSTM网络模型的权重参数,Wf1为输入特征xt对应的权重,Wf2为上一层的输出ht-1对应的权重;bf为LSTM网络模型遗忘门的偏置参数;
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输入门中,输入门包含两个部分,第一部分使用sigmoid激活函数处理输入特征xt,输出为it;第二部分使用tanh激活函数处理输入特征xt,输出为i'i,输入门的输出结果如式(10)所示:
Ct=Ct-1*ft+it*i'i (10)
其中,Ct-1是上一个LSTM网络输入门的输出,ft是遗忘门的输出,it和i'i分别为输入门的中间值;
将肌电信号所对应的不同指令特征xt作为网络的输入特征输入到输出门中;输出门首先对xt使用sigmoid激活函数得到ot,再与输入门的输出值相结合,如式(11)所示:
ht=ot*tanh(Ct) (11)
其中,Ct是输入门的输出值,tanh是激活函数,ht是LSTM网络最终的输出结果;
所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互;
所述特征融合层用于融合深度神经网络和LSTM训练后得到的特征;
所述全连接神经网络用于对学习的特征进行分类。
6.根据权利要求5所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述残差卷积神经网络用于深度神经网络与LSTM之间信息的交互包括:
对于不同指令特征的交互:将不同人特征和不同指令特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同指令特征相加,送入LSTM网络中进行新一轮的学习;
对于不同人特征的交互:将不同指令特征和不同人特征进行级联,作为输入送入残差卷积神经网络中,训练出的交互特征再与不同人特征相加,送入深度神经网络中进行新一轮的学习。
7.根据权利要求6所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述残差卷积神经网络包括三个残差卷积块;
第一个残差块包含两层大小为3*3*64的卷积,连接32维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到64维输出;
第二个残差块包括两层大小为3*3*128的卷积,连接64维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到128维的输出;
第三个残差块包括两层大小为3*3*256的卷积,连接128维的输入,卷积层均用于特征提取,两个卷积层级联的输出特征和输入特征相加后,再经过Relu函数激活,得到256维的输出。
8.根据权利要求7所述的一种不同人分类辅助的无声语音识别方法,其特征在于,
所述残差卷积块分成直接映射部分和残差部分;
一个卷积残差块如式(13)所示:
xl+1=h(xl)+F(xl,Wl) (13)
其中h(xl)为上一层的直接映射,F(xl,Wl)为上一层的残差部分。
9.一种不同人分类辅助的无声语音识别系统,其特征在于,所述系统包括:
获取模块,用于获取无声说话状态下的面部肌电信号;
预处理及提取模块,用于对面部肌电信号进行预处理并提取肌电特征;
识别模块,用于将肌电特征送到无声语音识别模型中进行识别,得到识别出的指令信息;
传送模块,用于将识别出的指令传输到设备上,进行显示或相应设备的操控。
10.根据权利要求9所述的一种不同人分类辅助的无声语音识别系统,其特征在于,
所述系统还包括模型建立模块;
模型建立模块使用如下方式建立无声语音识别模型:
获取若干面部肌电信号及对应的词语,对所述面部肌电信号进行预处理并提取肌电特征;将提取的肌电特征及对应的词语送入双流网络结构中进行特征学习。
CN202210441272.XA 2022-04-25 2022-04-25 一种不同人分类辅助的无声语音识别方法和系统 Active CN114822542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210441272.XA CN114822542B (zh) 2022-04-25 2022-04-25 一种不同人分类辅助的无声语音识别方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210441272.XA CN114822542B (zh) 2022-04-25 2022-04-25 一种不同人分类辅助的无声语音识别方法和系统

Publications (2)

Publication Number Publication Date
CN114822542A true CN114822542A (zh) 2022-07-29
CN114822542B CN114822542B (zh) 2024-05-14

Family

ID=82508374

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210441272.XA Active CN114822542B (zh) 2022-04-25 2022-04-25 一种不同人分类辅助的无声语音识别方法和系统

Country Status (1)

Country Link
CN (1) CN114822542B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169690A (zh) * 2011-04-08 2011-08-31 哈尔滨理工大学 基于表面肌电信号的语音信号识别系统和识别方法
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
US20200034648A1 (en) * 2018-07-27 2020-01-30 Boe Technology Group Co., Ltd. Method and apparatus for segmenting sky area, and convolutional neural network
US10713493B1 (en) * 2020-02-06 2020-07-14 Shenzhen Malong Technologies Co., Ltd. 4D convolutional neural networks for video recognition
CN112365414A (zh) * 2020-11-04 2021-02-12 天津大学 一种基于双路残差卷积神经网络的图像去雾方法
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
KR20210105455A (ko) * 2020-02-18 2021-08-27 고려대학교 산학협력단 보행 보조 시스템
US20210401376A1 (en) * 2020-06-30 2021-12-30 Arizona Board Of Regents Of The University Of Arizona, A Body Corporate Neural-network based electrocardiography monitor and associated methods
WO2022006671A1 (en) * 2020-07-08 2022-01-13 Cerebian Inc. System and method for measuring human intention
US20220084522A1 (en) * 2020-09-16 2022-03-17 Industry-University Cooperation Foundation Hanyang University Method and apparatus for recognizing silent speech
CN114209342A (zh) * 2022-01-28 2022-03-22 南京邮电大学 一种基于时空特征的脑电信号运动想象分类方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102169690A (zh) * 2011-04-08 2011-08-31 哈尔滨理工大学 基于表面肌电信号的语音信号识别系统和识别方法
US20200034648A1 (en) * 2018-07-27 2020-01-30 Boe Technology Group Co., Ltd. Method and apparatus for segmenting sky area, and convolutional neural network
CN110658915A (zh) * 2019-07-24 2020-01-07 浙江工业大学 一种基于双流网络的肌电信号手势识别方法
US10713493B1 (en) * 2020-02-06 2020-07-14 Shenzhen Malong Technologies Co., Ltd. 4D convolutional neural networks for video recognition
KR20210105455A (ko) * 2020-02-18 2021-08-27 고려대학교 산학협력단 보행 보조 시스템
US20210401376A1 (en) * 2020-06-30 2021-12-30 Arizona Board Of Regents Of The University Of Arizona, A Body Corporate Neural-network based electrocardiography monitor and associated methods
WO2022006671A1 (en) * 2020-07-08 2022-01-13 Cerebian Inc. System and method for measuring human intention
US20220084522A1 (en) * 2020-09-16 2022-03-17 Industry-University Cooperation Foundation Hanyang University Method and apparatus for recognizing silent speech
CN112365414A (zh) * 2020-11-04 2021-02-12 天津大学 一种基于双路残差卷积神经网络的图像去雾方法
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
CN114209342A (zh) * 2022-01-28 2022-03-22 南京邮电大学 一种基于时空特征的脑电信号运动想象分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
LIFEI SONG.ETAL: "TWO-STREAM DESIGNED 2D/3D RESIDUAL NETWORKS WITH LSTMS FOR ACTION RECOGNITION IN VIDEOS", IEEE XPLORE, vol. 385, 14 April 2020 (2020-04-14) *
杨子文: "基于深度卷积神经网络的人脸识别研究", 中国优秀硕士学位论文全文数据库, 15 January 2018 (2018-01-15) *
杨镛: "基于混合神经网络的肌电手势识别算法研究", 中国优秀硕士学位论文全文数据库, 15 March 2022 (2022-03-15) *
王小晨: "基于高密度表面肌电信号的无声语音识别方法", 中国优秀硕士学位论文全文数据库, 15 August 2021 (2021-08-15) *

Also Published As

Publication number Publication date
CN114822542B (zh) 2024-05-14

Similar Documents

Publication Publication Date Title
CN111461176B (zh) 基于归一化互信息的多模态融合方法、装置、介质及设备
US9020822B2 (en) Emotion recognition using auditory attention cues extracted from users voice
Alsobhani et al. Speech recognition using convolution deep neural networks
CN103294199B (zh) 一种基于脸部肌音信号的无声信息识别系统
Goyal et al. A hybrid approach for Parkinson’s disease diagnosis with resonance and time-frequency based features from speech signals
Daqrouq et al. Average framing linear prediction coding with wavelet transform for text-independent speaker identification system
Lavrynenko et al. Method of voice control functions of the UAV
CN108320735A (zh) 一种多数据融合的情感识别方法及系统
CN112183107A (zh) 音频的处理方法和装置
Mini et al. EEG based direct speech BCI system using a fusion of SMRT and MFCC/LPCC features with ANN classifier
CN115153563A (zh) 基于eeg的普通话听觉注意解码方法及装置
KR102263135B1 (ko) 딥러닝 알고리즘을 이용한 소음 제거 방법 및 장치
Do et al. Speech source separation using variational autoencoder and bandpass filter
CN114822541B (zh) 一种基于回译的无声语音识别方法和系统
CN112183582A (zh) 一种多特征融合的水下目标识别方法
CN111723717A (zh) 一种无声语音识别方法及系统
Thomas et al. Acoustic and data-driven features for robust speech activity detection
CN114492579A (zh) 情绪识别方法、摄像装置、情绪识别装置及存储装置
Ye et al. Attention bidirectional LSTM networks based mime speech recognition using sEMG data
CN116570284A (zh) 一种基于语音表征的抑郁症识别方法、系统
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN114822542B (zh) 一种不同人分类辅助的无声语音识别方法和系统
Marimuthu Speech recognition using Taylor-gradient Descent political optimization based Deep residual network
Rusnac et al. Generalized brain computer interface system for EEG imaginary speech recognition
Khan et al. Classification of myoelectric signal for sub-vocal Hindi phoneme speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant