CN113288183A - 一种基于面颈部表面肌电的无声语音识别方法 - Google Patents
一种基于面颈部表面肌电的无声语音识别方法 Download PDFInfo
- Publication number
- CN113288183A CN113288183A CN202110552597.0A CN202110552597A CN113288183A CN 113288183 A CN113288183 A CN 113288183A CN 202110552597 A CN202110552597 A CN 202110552597A CN 113288183 A CN113288183 A CN 113288183A
- Authority
- CN
- China
- Prior art keywords
- semg
- density
- neural network
- deep neural
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000001815 facial effect Effects 0.000 title claims abstract description 11
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 210000003205 muscle Anatomy 0.000 claims abstract description 18
- 238000012549 training Methods 0.000 claims abstract description 17
- 230000004913 activation Effects 0.000 claims abstract description 10
- 238000013526 transfer learning Methods 0.000 claims abstract description 9
- 238000011176 pooling Methods 0.000 claims description 14
- 230000005012 migration Effects 0.000 claims description 13
- 238000013508 migration Methods 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 9
- 238000012545 processing Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 230000008707 rearrangement Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000002567 electromyography Methods 0.000 abstract description 9
- 238000012360 testing method Methods 0.000 abstract description 5
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000007781 pre-processing Methods 0.000 abstract description 2
- 238000005259 measurement Methods 0.000 description 7
- 238000002474 experimental method Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000003491 array Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 210000004717 laryngeal muscle Anatomy 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000004070 electrodeposition Methods 0.000 description 2
- 210000001097 facial muscle Anatomy 0.000 description 2
- 230000004118 muscle contraction Effects 0.000 description 2
- 210000004237 neck muscle Anatomy 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 229920000742 Cotton Polymers 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 206010049565 Muscle fatigue Diseases 0.000 description 1
- 241000223503 Platysma Species 0.000 description 1
- 108010076504 Protein Sorting Signals Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 239000000853 adhesive Substances 0.000 description 1
- 230000001070 adhesive effect Effects 0.000 description 1
- 210000003484 anatomy Anatomy 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 210000001352 masseter muscle Anatomy 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000036962 time dependent Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/24—Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
- A61B5/316—Modalities, i.e. specific diagnostic methods
- A61B5/389—Electromyography [EMG]
- A61B5/397—Analysis of electromyograms
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7203—Signal processing specially adapted for physiological signals or for diagnostic purposes for noise prevention, reduction or removal
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7225—Details of analog processing, e.g. isolation amplifier, gain or sensitivity adjustment, filtering, baseline or drift compensation
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/72—Signal processing specially adapted for physiological signals or for diagnostic purposes
- A61B5/7235—Details of waveform analysis
- A61B5/7264—Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Animal Behavior & Ethology (AREA)
- General Health & Medical Sciences (AREA)
- Veterinary Medicine (AREA)
- Public Health (AREA)
- Surgery (AREA)
- Molecular Biology (AREA)
- Medical Informatics (AREA)
- Heart & Thoracic Surgery (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Biomedical Technology (AREA)
- Human Computer Interaction (AREA)
- Psychiatry (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Power Engineering (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于面颈部表面肌电的无声语音识别方法,对高密度电极阵列和分立电极采集的表面肌电信号进行数据预处理和特征提取后得到高密度sEMG图像集和通道稀疏的sEMG图像集,从而构建源域数据库和目标域数据库;然后使用源域数据库训练单词分类深度神经网络并在目标域数据库中利用迁移学习完成对网络的校准;若测试用户在分立电极输入下无声表达单词,校准后的网络可完成单词分类并实现无声语音识别。本发明兼顾了高密度电极阵列具有捕获丰富的肌肉激活模式信息的能力和分立电极的轻便易穿戴性,对轻微电极偏移和跨用户条件有一定的鲁棒性,提升了分立电极输入下的无声语音识别的性能,为无声语音识别方法提供了一个新思路。
Description
技术领域
本发明属于生物信号处理、机器学习与智能控制领域,具体的说是一种基于面颈部表面肌电的无声语音识别方法。
背景技术
语音交互是人们最自然和最直接的交互方式之一,这是因为语音信号包含着说话者要表达的情感和意图等信息。自动语音识别(automatic speech recognition,ASR)指的是计算机对采集到的语音信号进行分析和理解,并将其转换成文本或其他形式的信息。ASR在人机交互中发挥着至关重要的作用,但也在特殊场景中存在着局限性,如高噪声背景、发声障碍人群、私密性输入环境等。因此,如何在实际应用中克服这些困难一直是语音识别系统研究的热点话题。
肌电(electromyogram,EMG)是伴随肌肉收缩产生的生理电信号,因其承载了来自中枢神经的运动控制信息,常被用于解码运动意图。肌电控制将解码出的运动指令用于控制外部设备,这一技术形成了重要的人机接口。通过将测量电极放置在皮肤表面采集到的EMG信号被称为表面肌电(surface EMG,sEMG)。因测量方式的无创性,sEMG被广泛应用于肌电控制。基于sEMG的无声语音识别(silent speech recognition,SSR)是在模拟发声运动(无语音信号输出)的过程中,通过面部和颈部肌肉的sEMG解析语音指令的一种肌电控制方法,也是ASR的一种重要补充方式。近年来,国内外许多学者在研究基于sEMG的SSR方向上做出了重要尝试。在早期的研究报道中,多采用分立式的表面肌电电极进行面颈部发声肌肉活动的测量,其特点是获取的肌电通道数量少,可穿戴性强,轻便易用。然而,由于通道数量的限制,这种分立式电极测量获取的肌肉活动信息有限,刻画发声肌肉运动模式的能力不足,使得其应用于无声语音识别中能有效识别的词汇量较少且准确度难以提升。随着电极加工工艺的进步,高密度表面肌电电极阵列的出现为肌电测量方式带来革新。这种阵列式电极可以同步获取多达几十或上百个通道的sEMG,具有捕获丰富的肌肉空间激活信息的优势,有助于提升肌电控制特别是无声语音识别的性能。然而,高密度电极阵列的穿戴性和舒适性的不足又限制了实际应用。因此,在兼顾便携性仅采用较少通道数量的分立式电极的条件下,提升较大词汇量的无声语音的识别性能是该技术广泛应用的关键。
为了提高肌电模式识别控制技术的性能和鲁棒性,许多域适应方法被提出,特别用来针对性地解决测量电极发生偏移和跨用户适应性等问题,这些方法通常需要少量的新样本来校准分类器。基于深度神经网络的迁移学习方法可以使肌电模式分类器适应当前电极位置或新的用户域,但也会使肌电控制的使用复杂化,加重用户的训练负担。此外,这些研究大多关注于相同测量电极条件下的不同任务,跨电极域的迁移方法几乎没有被考虑和讨论过。
发明内容
本发明是为了解决上述现有技术存在的不足之处,提出一种基于面颈部表面肌电的无声语音识别方法,以期能利用深度神经网络的泛化能力从高密度sEMG图像中学习相关肌肉运动模式的知识,并迁移到少通道分立电极输入的条件下,从而能使得用户在少量分立电极输入条件下仍能保持无声语音识别的高性能和高鲁棒性。
本发明为达到上述发明目的,采用如下技术方案:
本发明一种基于面颈部表面肌电的无声语音识别方法的特点在于,包括以下步骤:
步骤一、使用高密度电极阵列采集用户无声表达各单词时所产生的表面肌电信号;再利用所述高密度电极阵列中变化趋势较大且信噪比较高的m个通道对任一单词所对应的所有表面肌电信号进行数据分段,从而提取出表征相应单词肌肉活动的多个有效肌电数据样本;然后按照所述高密度电极阵列中各个通道间的位置关系,对每个有效肌电数据样本进行通道重排列;对重排列后的肌电数据样本均进行滑窗,并对处于每个滑窗内的肌电数据均提取多个肌电特征,从而得到一个样本的多个二维肌电特征矩阵,并拼接成高密度sEMG图像;进而得到相应单词的所有样本所对应的高密度sEMG图像;最终得到各单词的不同样本的高密度sEMG图像集所构成的源域数据库;
步骤二、利用分立电极采集相同用户无声表达相同单词时所产生的表面肌电信号,并按照步骤一的过程进行处理,从而得到通道稀疏的sEMG图像集并构建目标域数据库;
步骤三、构建基于CNN的单词分类深度神经网络;
所述单词分类深度神经网络是由n个卷积-池化块、压平层、k个全连接层和softmax层构成;
每个卷积-池化块包括一个卷积层,一个激活层和一个池化层;且所述激活层中采用ReLU激活函数进行处理;
第n个卷积-池化块的输出通过压平层平展成一维向量,并输入到k个全连接层中,最后通过隐含单元数与单词类别数相等的softmax层输出分类结果;所述全连接层的激活函数选择Tanh函数;
步骤四、基于源域数据库的高密度sEMG图像,选择Adam作为网络训练的优化器,并利用有监督学习方式训练所述单词分类深度神经网络,从而得到训练后的单词分类深度神经网络;
步骤五、使用迁移学习方法对训练后的单词分类深度神经网络进行校准;
步骤5.1、获取所述训练后的单词分类深度神经网络的网络结构和网络权重;
步骤5.2、根据分立电极在所述高密度电极阵列中的空间分布信息,将高密度sEMG图像中对应分立电极通道的数据替换为相应通道稀疏的sEMG图像的数据,其他通道的数据舍弃并以补零填充,从而完成迁移,并得到目标域数据库的校准集;
步骤5.3、使用所述目标域数据库的校准集对训练后的单词分类深度神经网络进行再训练,更新网络权重,从而得到校准后的单词分类深度神经网络;
步骤六、使用校准后的单词分类深度神经网络对相同用户使用少通道分立电极采集的表面肌电信号进行无声语音指令的识别。
本发明所述的一种基于面颈部表面肌电的无声语音识别方法的特点也在于,所述源域数据库还可以为多个用户所对应的高密度sEMG图像集,所述目标域数据库也可以为新用户所对应的通道稀疏的sEMG图像集,从而利用所述校准后的单词分类深度神经网络实现新用户在分立电极输入下的无声语音识别。
与现有技术相比,本发明的有益效果在于:
1、本发明将高密度电极阵列源域训练的单词分类深度神经网络迁移到分立电极目标域,根据分立电极在高密度阵列中的空间分布信息对网络进行校准,利用深度神经网络的泛化能力实现少通道分立电极输入下的无声语音识别,并结合了高密度电极阵列能够精细刻画肌肉活动特征的优势和分立电极的轻便易穿戴性,通过一种全新的跨电极域的迁移学习方式改善了少通道分立电极输入下无声语音识别的性能。
2、本发明将数据预处理和特征提取后的表面肌电信号看作三维sEMG图像,而高密度sEMG图像训练得到的单词分类深度神经网络的权重代表了高密度电极阵列学习到的肌肉激活模式的知识,利用分立电极在高密度阵列中的空间分布信息对知识进行迁移,能够有助于分立电极输入下的无声语音识别。
3、由于深度神经网络的泛化能力,本发明在电极发生轻微偏移时校准后的网络在分立电极输入下也有识别率的提高,具有一定的鲁棒性。跨用户情况下,源域是多个用户组成的高密度sEMG图像集,目标域是新用户的通道稀疏的sEMG图像集,通过迁移学习仍然能带来识别准确率的提升。
附图说明
图1为本发明一种基于面颈部表面肌电的无声语音识别方法的流程图;
图2为本发明涉及的中文发音词汇集;
图3为本发明采用的面颈部高密度电极阵列形状参数及贴放位置说明图;
图4a为本发明分立电极在高密度阵列中的空间位置分布及数据拼接结果的示意图;
图4b为本发明分立电极发生轻微偏移时的通道位置及数据拼接结果的示意图;
图4c为本发明分立电极发生严重偏移时的通道位置及数据拼接结果的示意图;
图5为本发明采用的基于卷积神经网络(CNN)的单词分类深度神经网络的结构示意图;
图6为本发明使用迁移方法前后各类单词样本的分布结果图;
图7为本发明得到的平均单词分类准确率和标准差示意图。
具体实施方式
在本实施例中,一种基于面颈部表面肌电的无声语音识别方法,兼顾了高密度电极阵列具有捕获丰富的肌肉激活模式信息的能力和分立电极的轻便易穿戴性,对轻微电极偏移和跨用户条件有一定的鲁棒性,提升了分立电极输入下的无声语音识别的性能,为无声语音识别方法提供了一个新思路,具体的说,如图1所示,包括以下步骤:
步骤一、使用高密度电极阵列采集用户无声表达各单词时所产生的表面肌电信号,在本发明实施例中,如图2所示,中文发音词汇集由33个孤立的单词构成,根据其意义和用途可分为智能家居、工业控制和消防安全三大类。实验募集了8位不同性别、不同年龄、口齿清晰且无面颈部手术史或病史的受试者参与数据采集实验。开始实验之前,所有受试者均被要求练习指令的无声表达方式,即模拟单词的发音过程但不发声,直到他们能够按照实验要求完成任务。
高密度电极阵列形状参数及贴放位置如图3所示。两片高密度阵列由面部电极阵列和颈部电极阵列组成,示例性的,面部电极阵列通道数为32,电极直径为5mm,电极间距范围在10、15、18mm。示例性的,颈部电极阵列通道数为32,电极直径为5mm,电极间距为18mm。面颈部电极阵列共同组成了全通道(64通道)阵列。
数据采集之前,受试者以舒适状态坐在椅子上,用酒精棉片擦拭相关肌肉区域,在高密度电极阵列上涂抹导电膏以降低皮肤和电极间阻抗,通过双面胶和肌肉贴将电极阵列固定于主要发声肌群的皮肤表面。示例性的,面部电极阵列用于采集颧肌、咬肌和降下唇肌等面部肌肉的sEMG,颈部电极阵列用于采集肩胛舌骨肌、胸骨舌骨肌和颈阔肌等颈部肌肉的sEMG。采集过程中,受试者以中等力度匀速无声表达每个单词,每个指令重复做20次。为了避免肌肉疲劳,每次指令执行后休息一定时间T_rest,示例性的,T_rest取为3s。
利用高密度电极阵列中变化趋势明显且信噪比较高的6个通道对任一单词所对应的所有表面肌电信号进行数据分段。数据分段使用一种基于短时能量的方法来自动实现,检测到实验的开始和结束时刻点后中间持续的肌电信号序列被称为一个活动段或一个样本,从而提取出表征相应单词肌肉活动的多个有效肌电数据样本。
然后按照高密度电极阵列中各个通道间的位置关系,对每个有效肌电数据样本进行通道重排列,以反映各通道在高密度电极阵列中的空间分布。根据高密度电极阵列形状,将64通道转换为8×8的格式,保留了通道间的相对位置关系。通道重排的结果如图4a下方的8×8阵列所示。
接着对重排列后的肌电数据样本均进行滑窗,滑窗使用非重叠方式(窗长:30ms,增量:30ms)。对处于每个滑窗内的肌电数据均提取3个肌电特征,本实施例中选取时间相关功率谱描述符(TDPSDs)的前3个特征用于模式识别。该特征通过对时域信号的范式和差分计算得到功率谱系数,其计算复杂度低于传统的频域特征。此外,TDPSDs是对相似度的描述,而不是信号幅度的直接表征,因此它们对肌肉收缩的力度变化不敏感。在每个滑窗内,提取的3个特征对应3个大小为8×8的特征矩阵;将一个样本所有窗提取的3个特征矩阵拼接在一起得到高密度sEMG图像,进而得到相应单词的所有样本所对应的高密度sEMG图像;在每个单词的20个高密度sEMG图像中,选取各单词的前8个高密度sEMG图像集构建源域数据库。由于不同单词的字数不同,通常对肌电数据样本滑窗得到的窗数量也不同,因此需要适当的滑窗或数据处理方式来对窗数进行统一。示例性地,本实施例中预设180作为所有单词样本的窗口数,通过截断或补零的数据处理使得每个高密度sEMG图像最终的大小为8×(8×180)×3。
步骤二、利用分立电极采集相同用户无声表达相同单词时所产生的表面肌电信号,在本实施例中,使用高密度电极阵列中少量通道对应的肌电数据来模拟分立电极条件下采集到的肌电数据。示例性的,根据发声有关肌肉的大致定位,结合生理解剖结构知识,从高密度电极阵列中挑选出8个位于关键激活部位的通道(如图4a的上方),以这些通道对应的肌电数据来模拟实际在相同位置贴放分立电极时采集到的表面肌电数据。按照步骤一的过程对表面肌电数据进行处理,选取各单词的剩余12个通道稀疏的sEMG图像集构建目标域数据库;
步骤三、构建基于CNN的单词分类深度神经网络,如图5所示;
单词分类深度神经网络是由2个卷积-池化块、压平层、1个全连接层和softmax层构成;
每个卷积-池化块包括一个卷积层,一个激活层和一个池化层,卷积层Ⅰ由大小为3×3的32个滤波器组成,步长为1,无补零填充;卷积层Ⅱ由2×2的8个滤波器组成,步长为1,无补零填充。池化层Ⅰ和池化层Ⅱ是大小为2×2的最大池化层,目的是提取特征和降维。激活层中采用ReLU激活函数进行处理,以避免梯度消失的问题;
第2个卷积-池化块的输出通过压平层平展成一维向量,并与1个全连接层相连,最后通过隐含单元数为33的softmax层输出分类结果;全连接层的激活函数选择Tanh函数;
步骤四、基于源域数据库的高密度sEMG图像,选择Adam作为网络训练的优化器,并利用有监督学习方式训练单词分类深度神经网络,采用全批学习训练数据,从而得到训练后的单词分类深度神经网络;
步骤五、使用迁移学习方法对训练后的单词分类深度神经网络进行校准;
步骤5.1、获取训练后的单词分类深度神经网络的网络结构和网络权重;
步骤5.2、根据分立电极在高密度电极阵列中的空间分布信息,随机选择目标域数据库中的8个通道稀疏的sEMG图像,将高密度sEMG图像中对应分立电极通道的数据替换为相应通道稀疏的sEMG图像的数据,其他通道的数据舍弃并以补零填充,从而完成迁移,并得到目标域数据库的校准集;在本实施例中,源域指的是高密度电极阵列,目标域是少通道分立电极的输入条件,通过源域和目标域之间相关知识的映射,减少了独立同分布的条件假设,实现了相关知识迁移。
步骤5.3、使用目标域数据库的校准集对训练后的单词分类深度神经网络进行再训练,更新网络权重,从而得到校准后的单词分类深度神经网络,用于实现该用户在分立电极输入下的无声语音识别。在本实施例中,选择目标域数据库中的剩余的4个通道稀疏的sEMG图像作为测试集,经过步骤5.2的迁移学习后用于对校准后的网络进行测试。图6采用T-SNE方法可视化地展示了使用迁移学习方法前后在分立电极条件下识别的各类单词样本的分布情况,左图表示未使用迁移学习,仅仅用分立电极采集到的sEMG训练和识别,右图表示迁移学习后的结果。从图6可看出,和未迁移相比,迁移后的区域r1和r2的类间区分性更好,直观地说明了算法的有效性。在校准集对网络进行校准后,使用测试集对校准后的分类网络测试,其单词识别率对应图7中的HD-FC。
在本实施例中,为了说明本发明的效果,还进行了相关对比和补充实验,包括:
(a)算法的有效性。本实施例中对源域数据库的高密度sEMG图像进行了训练和测试,这种情境代表业界通用的使用高密度阵列进行无声语音识别的方法(HD-HD);对分立电极的通道稀疏的sEMG图像进行了训练和测试,表示通用的使用分立电极进行无声语音识别的方法(FC-FC)。
(b)算法对电极偏移的鲁棒性。在分立电极的实际贴放中,不可避免地会出现电极偏移的问题,即电极位置和高密度电极阵列中选定的通道位置有偏差。换句话说,在迁移过程中对分立电极通道数据的保留和空白通道补零填充的所依据的空间分布信息和实际情况并不完全吻合。因此,本实施例根据电极偏移程度的不同设计了两种情况(轻微偏移和严重偏移),如图4b,图4c所示。在单词分类深度神经网络的训练中,作为输入的sEMG图像中分立电极的数据并不是来源于原本通道的数据,而是偏移通道的数据。轻微偏移和严重偏移的识别结果分别对应图7的HD-FCwS和HD-FCwSS。
(c)算法对新用户的适应性。本发明提出的方案的基本思想是使用一个用户的源域数据库为该用户训练一个单词分类深度神经网络,接着在相同用户的目标域数据库对网络进行校准和识别。这种方法的特点是单词分类深度神经网络是用户相关的,想要提升少通道输入下的无声语音识别性能必须事先得到该用户在高密度阵列sEMG数据下训练的网络。在跨用户的情境中,源域是多个用户的高密度sEMG图像集,而目标域是新用户的通道稀疏的的sEMG图像集。通过多个用户的高密度sEMG图像组成的源域数据库作为训练集训练得到单词分类深度神经网络是用户无关的,新用户不需要提供高密度电极阵列的数据参与训练,经过新用户少通道稀疏的sEMG图像校准后的网络即可用于新用户在少通道分立电极输入下的无声语音识别。在本实施例,采用留一法,在8个用户中随机选择一名用户作为新用户,剩余用户的源域数据库作为训练集训练单词分类深度神经网络,接着在新用户的目标域数据库进行校准和识别,结果见图7的HD-FCcS。
结合以上的实验说明及图7的识别结果,可以得到以下结论,包括:1)本发明提出的带有迁移学习的无声语音识别方法能够提高少通道分立电极输入下的单词分类准确率。2)迁移学习对电极偏移具有一定的鲁棒性,在偏移程度较小时仍对少通道分立电极输入下的无声语音识别的性能有显著的提升效果。3)迁移学习在跨用户中具有一定的适应性,也能够提升少通道分立电极输入下无声语音识别的性能。
Claims (2)
1.一种基于面颈部表面肌电的无声语音识别方法,其特征在于,包括以下步骤:
步骤一、使用高密度电极阵列采集用户无声表达各单词时所产生的表面肌电信号;再利用所述高密度电极阵列中变化趋势较大且信噪比较高的m个通道对任一单词所对应的所有表面肌电信号进行数据分段,从而提取出表征相应单词肌肉活动的多个有效肌电数据样本;然后按照所述高密度电极阵列中各个通道间的位置关系,对每个有效肌电数据样本进行通道重排列;对重排列后的肌电数据样本均进行滑窗,并对处于每个滑窗内的肌电数据均提取多个肌电特征,从而得到一个样本的多个二维肌电特征矩阵,并拼接成高密度sEMG图像;进而得到相应单词的所有样本所对应的高密度sEMG图像;最终得到各单词的不同样本的高密度sEMG图像集所构成的源域数据库;
步骤二、利用分立电极采集相同用户无声表达相同单词时所产生的表面肌电信号,并按照步骤一的过程进行处理,从而得到通道稀疏的sEMG图像集并构建目标域数据库;
步骤三、构建基于CNN的单词分类深度神经网络;
所述单词分类深度神经网络是由n个卷积-池化块、压平层、k个全连接层和softmax层构成;
每个卷积-池化块包括一个卷积层,一个激活层和一个池化层;且所述激活层中采用ReLU激活函数进行处理;
第n个卷积-池化块的输出通过压平层平展成一维向量,并输入到k个全连接层中,最后通过隐含单元数与单词类别数相等的softmax层输出分类结果;所述全连接层的激活函数选择Tanh函数;
步骤四、基于源域数据库的高密度sEMG图像,选择Adam作为网络训练的优化器,并利用有监督学习方式训练所述单词分类深度神经网络,从而得到训练后的单词分类深度神经网络;
步骤五、使用迁移学习方法对训练后的单词分类深度神经网络进行校准;
步骤5.1、获取所述训练后的单词分类深度神经网络的网络结构和网络权重;
步骤5.2、根据分立电极在所述高密度电极阵列中的空间分布信息,将高密度sEMG图像中对应分立电极通道的数据替换为相应通道稀疏的sEMG图像的数据,其他通道的数据舍弃并以补零填充,从而完成迁移,并得到目标域数据库的校准集;
步骤5.3、使用所述目标域数据库的校准集对训练后的单词分类深度神经网络进行再训练,更新网络权重,从而得到校准后的单词分类深度神经网络;
步骤六、使用校准后的单词分类深度神经网络对相同用户使用少通道分立电极采集的表面肌电信号进行无声语音指令的识别。
2.根据权利要求1所述的一种基于面颈部表面肌电的无声语音识别方法,其特征在于,所述源域数据库还可以为多个用户所对应的高密度sEMG图像集,所述目标域数据库也可以为新用户所对应的通道稀疏的sEMG图像集,从而利用所述校准后的单词分类深度神经网络实现新用户在分立电极输入下的无声语音识别。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552597.0A CN113288183B (zh) | 2021-05-20 | 2021-05-20 | 一种基于面颈部表面肌电的无声语音识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110552597.0A CN113288183B (zh) | 2021-05-20 | 2021-05-20 | 一种基于面颈部表面肌电的无声语音识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113288183A true CN113288183A (zh) | 2021-08-24 |
CN113288183B CN113288183B (zh) | 2022-04-19 |
Family
ID=77323169
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110552597.0A Active CN113288183B (zh) | 2021-05-20 | 2021-05-20 | 一种基于面颈部表面肌电的无声语音识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113288183B (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767208A (zh) * | 2019-11-18 | 2020-02-07 | 中国矿业大学(北京) | 一种基于面部表面肌肉信号的不发声指令识别的辅助救援通讯方法及装置 |
CN113729738A (zh) * | 2021-09-13 | 2021-12-03 | 武汉科技大学 | 一种多通道肌电特征图像的构建方法 |
CN114548165A (zh) * | 2022-02-18 | 2022-05-27 | 中国科学技术大学 | 一种可跨用户的肌电模式分类方法 |
CN114626424A (zh) * | 2022-05-16 | 2022-06-14 | 天津大学 | 一种基于数据增强的无声语音识别方法及装置 |
CN114822542A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种不同人分类辅助的无声语音识别方法和系统 |
CN114822508A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种消除不同说话特性的缄默通讯方法和系统 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114999461A (zh) * | 2022-05-30 | 2022-09-02 | 中国科学技术大学 | 一种基于面颈部表面肌电的无声语音解码方法 |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN115857706A (zh) * | 2023-03-03 | 2023-03-28 | 浙江强脑科技有限公司 | 基于面部肌肉状态的文字输入方法、装置及终端设备 |
CN116069168A (zh) * | 2023-03-06 | 2023-05-05 | 浙江强脑科技有限公司 | 一种基于面部肌肉运动的输入方法及相关装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190107888A1 (en) * | 2017-10-06 | 2019-04-11 | Holland Bloorview Kids Rehabilitation Hospital | Brain-computer interface platform and process for classification of covert speech |
US20200057498A1 (en) * | 2016-10-27 | 2020-02-20 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a hybrid brain interface for robotic swarms using eeg signals and an input device |
CN111046731A (zh) * | 2019-11-11 | 2020-04-21 | 中国科学院计算技术研究所 | 基于表面肌电信号进行手势识别的迁移学习方法和识别方法 |
CN111273767A (zh) * | 2020-01-13 | 2020-06-12 | 重庆邮电大学 | 一种基于深度迁移学习的助听脑机接口系统 |
CN111401166A (zh) * | 2020-03-06 | 2020-07-10 | 中国科学技术大学 | 基于肌电信息解码的鲁棒手势识别方法 |
CN111657941A (zh) * | 2020-07-10 | 2020-09-15 | 中国科学技术大学 | 基于肌肉核心激活区域的电极校正及肌电模式识别方法 |
US20200388287A1 (en) * | 2018-11-13 | 2020-12-10 | CurieAI, Inc. | Intelligent health monitoring |
-
2021
- 2021-05-20 CN CN202110552597.0A patent/CN113288183B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200057498A1 (en) * | 2016-10-27 | 2020-02-20 | Arizona Board Of Regents On Behalf Of Arizona State University | Systems and methods for a hybrid brain interface for robotic swarms using eeg signals and an input device |
US20190107888A1 (en) * | 2017-10-06 | 2019-04-11 | Holland Bloorview Kids Rehabilitation Hospital | Brain-computer interface platform and process for classification of covert speech |
US20200388287A1 (en) * | 2018-11-13 | 2020-12-10 | CurieAI, Inc. | Intelligent health monitoring |
CN111046731A (zh) * | 2019-11-11 | 2020-04-21 | 中国科学院计算技术研究所 | 基于表面肌电信号进行手势识别的迁移学习方法和识别方法 |
CN111273767A (zh) * | 2020-01-13 | 2020-06-12 | 重庆邮电大学 | 一种基于深度迁移学习的助听脑机接口系统 |
CN111401166A (zh) * | 2020-03-06 | 2020-07-10 | 中国科学技术大学 | 基于肌电信息解码的鲁棒手势识别方法 |
CN111657941A (zh) * | 2020-07-10 | 2020-09-15 | 中国科学技术大学 | 基于肌肉核心激活区域的电极校正及肌电模式识别方法 |
Non-Patent Citations (2)
Title |
---|
XIANG CHEN 等: "Hand Gesture Recognition based on Surface Electromyography using Convolutional Neural Network with Transfer Learning Method", 《 IEEE JOURNAL OF BIOMEDICAL AND HEALTH INFORMATICS》 * |
周旭峰等: "基于组合RNN网络的EMG信号手势识别", 《光学精密工程》 * |
Cited By (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110767208A (zh) * | 2019-11-18 | 2020-02-07 | 中国矿业大学(北京) | 一种基于面部表面肌肉信号的不发声指令识别的辅助救援通讯方法及装置 |
CN113729738A (zh) * | 2021-09-13 | 2021-12-03 | 武汉科技大学 | 一种多通道肌电特征图像的构建方法 |
CN113729738B (zh) * | 2021-09-13 | 2024-04-12 | 武汉科技大学 | 一种多通道肌电特征图像的构建方法 |
CN114548165B (zh) * | 2022-02-18 | 2024-04-02 | 中国科学技术大学 | 一种可跨用户的肌电模式分类方法 |
CN114548165A (zh) * | 2022-02-18 | 2022-05-27 | 中国科学技术大学 | 一种可跨用户的肌电模式分类方法 |
CN114822541B (zh) * | 2022-04-25 | 2024-06-04 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114822542A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种不同人分类辅助的无声语音识别方法和系统 |
CN114822508A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种消除不同说话特性的缄默通讯方法和系统 |
CN114822541A (zh) * | 2022-04-25 | 2022-07-29 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于回译的无声语音识别方法和系统 |
CN114822542B (zh) * | 2022-04-25 | 2024-05-14 | 中国人民解放军军事科学院国防科技创新研究院 | 一种不同人分类辅助的无声语音识别方法和系统 |
CN114822508B (zh) * | 2022-04-25 | 2024-05-10 | 中国人民解放军军事科学院国防科技创新研究院 | 一种消除不同说话特性的缄默通讯方法和系统 |
CN114626424B (zh) * | 2022-05-16 | 2022-09-13 | 天津大学 | 一种基于数据增强的无声语音识别方法及装置 |
CN114626424A (zh) * | 2022-05-16 | 2022-06-14 | 天津大学 | 一种基于数据增强的无声语音识别方法及装置 |
CN114999461B (zh) * | 2022-05-30 | 2024-05-07 | 中国科学技术大学 | 一种基于面颈部表面肌电的无声语音解码方法 |
CN114999461A (zh) * | 2022-05-30 | 2022-09-02 | 中国科学技术大学 | 一种基于面颈部表面肌电的无声语音解码方法 |
CN115132231A (zh) * | 2022-08-31 | 2022-09-30 | 安徽讯飞寰语科技有限公司 | 语音活性检测方法、装置、设备及可读存储介质 |
CN115857706A (zh) * | 2023-03-03 | 2023-03-28 | 浙江强脑科技有限公司 | 基于面部肌肉状态的文字输入方法、装置及终端设备 |
CN116069168B (zh) * | 2023-03-06 | 2023-08-29 | 浙江强脑科技有限公司 | 一种基于面部肌肉运动的输入方法及相关装置 |
CN116069168A (zh) * | 2023-03-06 | 2023-05-05 | 浙江强脑科技有限公司 | 一种基于面部肌肉运动的输入方法及相关装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113288183B (zh) | 2022-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113288183B (zh) | 一种基于面颈部表面肌电的无声语音识别方法 | |
CN108491077B (zh) | 一种基于多流分治卷积神经网络的表面肌电信号手势识别方法 | |
CN112861604B (zh) | 一种与用户无关的肌电动作识别与控制方法 | |
RU2415642C1 (ru) | Способ классификации электроэнцефалографических сигналов в интерфейсе мозг - компьютер | |
CN110059575A (zh) | 一种基于表面肌电唇语识别的辅助沟通系统 | |
CN111584029B (zh) | 基于判别式对抗网络的脑电自适应模型及在康复中的应用 | |
CN113111831A (zh) | 一种基于多模态信息融合的手势识别技术 | |
CN114145745B (zh) | 基于图的多任务自监督情绪识别方法 | |
CN112732092B (zh) | 基于双视图多尺度卷积神经网络的表面肌电信号识别方法 | |
CN112328072A (zh) | 一种基于脑电和眼电的多模态字符输入系统及方法 | |
CN113031766A (zh) | 一种通过脑电解码汉语发音的方法 | |
CN117883082A (zh) | 一种异常情绪识别方法、系统、设备及介质 | |
CN113729738B (zh) | 一种多通道肌电特征图像的构建方法 | |
Zhu et al. | Automatic speech recognition in different languages using high-density surface electromyography sensors | |
CN110464348A (zh) | 基于肌电信号的下肢关节连续运动量识别方法及系统 | |
CN113974627A (zh) | 一种基于脑机生成对抗的情绪识别方法 | |
Ye et al. | Attention bidirectional LSTM networks based mime speech recognition using sEMG data | |
CN112998725A (zh) | 一种基于运动观察的脑机接口技术的康复方法与系统 | |
CN111783669A (zh) | 一种面向个人用户的表面肌电信号分类识别方法 | |
CN112733721A (zh) | 一种基于胶囊网络的表面肌电信号分类方法 | |
CN114999461B (zh) | 一种基于面颈部表面肌电的无声语音解码方法 | |
Jia | Neural network in the application of EEG signal classification method | |
CN114052734B (zh) | 基于渐进式图卷积神经网络的脑电情感识别方法 | |
CN114098768A (zh) | 基于动态阈值和EasyTL的跨个体表面肌电信号手势识别方法 | |
Villarejo et al. | Pattern recognition of hand movements with low density sEMG for prosthesis control purposes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |