CN113288183A

CN113288183A - 一种基于面颈部表面肌电的无声语音识别方法

Info

Publication number: CN113288183A
Application number: CN202110552597.0A
Authority: CN
Inventors: 张旭; 邓志航; 陈希; 陈香; 陈勋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-05-20
Filing date: 2021-05-20
Publication date: 2021-08-24
Anticipated expiration: 2041-05-20
Also published as: CN113288183B

Abstract

本发明公开了一种基于面颈部表面肌电的无声语音识别方法，对高密度电极阵列和分立电极采集的表面肌电信号进行数据预处理和特征提取后得到高密度sEMG图像集和通道稀疏的sEMG图像集，从而构建源域数据库和目标域数据库；然后使用源域数据库训练单词分类深度神经网络并在目标域数据库中利用迁移学习完成对网络的校准；若测试用户在分立电极输入下无声表达单词，校准后的网络可完成单词分类并实现无声语音识别。本发明兼顾了高密度电极阵列具有捕获丰富的肌肉激活模式信息的能力和分立电极的轻便易穿戴性，对轻微电极偏移和跨用户条件有一定的鲁棒性，提升了分立电极输入下的无声语音识别的性能，为无声语音识别方法提供了一个新思路。

Description

一种基于面颈部表面肌电的无声语音识别方法

技术领域

本发明属于生物信号处理、机器学习与智能控制领域，具体的说是一种基于面颈部表面肌电的无声语音识别方法。

背景技术

语音交互是人们最自然和最直接的交互方式之一，这是因为语音信号包含着说话者要表达的情感和意图等信息。自动语音识别(automatic speech recognition,ASR)指的是计算机对采集到的语音信号进行分析和理解，并将其转换成文本或其他形式的信息。ASR在人机交互中发挥着至关重要的作用，但也在特殊场景中存在着局限性，如高噪声背景、发声障碍人群、私密性输入环境等。因此，如何在实际应用中克服这些困难一直是语音识别系统研究的热点话题。

肌电(electromyogram,EMG)是伴随肌肉收缩产生的生理电信号，因其承载了来自中枢神经的运动控制信息，常被用于解码运动意图。肌电控制将解码出的运动指令用于控制外部设备，这一技术形成了重要的人机接口。通过将测量电极放置在皮肤表面采集到的EMG信号被称为表面肌电(surface EMG,sEMG)。因测量方式的无创性，sEMG被广泛应用于肌电控制。基于sEMG的无声语音识别(silent speech recognition,SSR)是在模拟发声运动(无语音信号输出)的过程中，通过面部和颈部肌肉的sEMG解析语音指令的一种肌电控制方法，也是ASR的一种重要补充方式。近年来，国内外许多学者在研究基于sEMG的SSR方向上做出了重要尝试。在早期的研究报道中，多采用分立式的表面肌电电极进行面颈部发声肌肉活动的测量，其特点是获取的肌电通道数量少，可穿戴性强，轻便易用。然而，由于通道数量的限制，这种分立式电极测量获取的肌肉活动信息有限，刻画发声肌肉运动模式的能力不足，使得其应用于无声语音识别中能有效识别的词汇量较少且准确度难以提升。随着电极加工工艺的进步，高密度表面肌电电极阵列的出现为肌电测量方式带来革新。这种阵列式电极可以同步获取多达几十或上百个通道的sEMG，具有捕获丰富的肌肉空间激活信息的优势，有助于提升肌电控制特别是无声语音识别的性能。然而，高密度电极阵列的穿戴性和舒适性的不足又限制了实际应用。因此，在兼顾便携性仅采用较少通道数量的分立式电极的条件下，提升较大词汇量的无声语音的识别性能是该技术广泛应用的关键。

为了提高肌电模式识别控制技术的性能和鲁棒性，许多域适应方法被提出，特别用来针对性地解决测量电极发生偏移和跨用户适应性等问题，这些方法通常需要少量的新样本来校准分类器。基于深度神经网络的迁移学习方法可以使肌电模式分类器适应当前电极位置或新的用户域，但也会使肌电控制的使用复杂化，加重用户的训练负担。此外，这些研究大多关注于相同测量电极条件下的不同任务，跨电极域的迁移方法几乎没有被考虑和讨论过。

发明内容

本发明是为了解决上述现有技术存在的不足之处，提出一种基于面颈部表面肌电的无声语音识别方法，以期能利用深度神经网络的泛化能力从高密度sEMG图像中学习相关肌肉运动模式的知识，并迁移到少通道分立电极输入的条件下，从而能使得用户在少量分立电极输入条件下仍能保持无声语音识别的高性能和高鲁棒性。

本发明为达到上述发明目的，采用如下技术方案：

本发明一种基于面颈部表面肌电的无声语音识别方法的特点在于，包括以下步骤：

步骤一、使用高密度电极阵列采集用户无声表达各单词时所产生的表面肌电信号；再利用所述高密度电极阵列中变化趋势较大且信噪比较高的m个通道对任一单词所对应的所有表面肌电信号进行数据分段，从而提取出表征相应单词肌肉活动的多个有效肌电数据样本；然后按照所述高密度电极阵列中各个通道间的位置关系，对每个有效肌电数据样本进行通道重排列；对重排列后的肌电数据样本均进行滑窗，并对处于每个滑窗内的肌电数据均提取多个肌电特征，从而得到一个样本的多个二维肌电特征矩阵，并拼接成高密度sEMG图像；进而得到相应单词的所有样本所对应的高密度sEMG图像；最终得到各单词的不同样本的高密度sEMG图像集所构成的源域数据库；

步骤二、利用分立电极采集相同用户无声表达相同单词时所产生的表面肌电信号，并按照步骤一的过程进行处理，从而得到通道稀疏的sEMG图像集并构建目标域数据库；

步骤三、构建基于CNN的单词分类深度神经网络；

所述单词分类深度神经网络是由n个卷积-池化块、压平层、k个全连接层和softmax层构成；

每个卷积-池化块包括一个卷积层，一个激活层和一个池化层；且所述激活层中采用ReLU激活函数进行处理；

第n个卷积-池化块的输出通过压平层平展成一维向量，并输入到k个全连接层中，最后通过隐含单元数与单词类别数相等的softmax层输出分类结果；所述全连接层的激活函数选择Tanh函数；

步骤四、基于源域数据库的高密度sEMG图像，选择Adam作为网络训练的优化器，并利用有监督学习方式训练所述单词分类深度神经网络，从而得到训练后的单词分类深度神经网络；

步骤五、使用迁移学习方法对训练后的单词分类深度神经网络进行校准；

步骤5.1、获取所述训练后的单词分类深度神经网络的网络结构和网络权重；

步骤5.2、根据分立电极在所述高密度电极阵列中的空间分布信息，将高密度sEMG图像中对应分立电极通道的数据替换为相应通道稀疏的sEMG图像的数据，其他通道的数据舍弃并以补零填充，从而完成迁移，并得到目标域数据库的校准集；

步骤5.3、使用所述目标域数据库的校准集对训练后的单词分类深度神经网络进行再训练，更新网络权重，从而得到校准后的单词分类深度神经网络；

步骤六、使用校准后的单词分类深度神经网络对相同用户使用少通道分立电极采集的表面肌电信号进行无声语音指令的识别。

本发明所述的一种基于面颈部表面肌电的无声语音识别方法的特点也在于，所述源域数据库还可以为多个用户所对应的高密度sEMG图像集，所述目标域数据库也可以为新用户所对应的通道稀疏的sEMG图像集，从而利用所述校准后的单词分类深度神经网络实现新用户在分立电极输入下的无声语音识别。

与现有技术相比，本发明的有益效果在于：

1、本发明将高密度电极阵列源域训练的单词分类深度神经网络迁移到分立电极目标域，根据分立电极在高密度阵列中的空间分布信息对网络进行校准，利用深度神经网络的泛化能力实现少通道分立电极输入下的无声语音识别，并结合了高密度电极阵列能够精细刻画肌肉活动特征的优势和分立电极的轻便易穿戴性，通过一种全新的跨电极域的迁移学习方式改善了少通道分立电极输入下无声语音识别的性能。

2、本发明将数据预处理和特征提取后的表面肌电信号看作三维sEMG图像，而高密度sEMG图像训练得到的单词分类深度神经网络的权重代表了高密度电极阵列学习到的肌肉激活模式的知识，利用分立电极在高密度阵列中的空间分布信息对知识进行迁移，能够有助于分立电极输入下的无声语音识别。

3、由于深度神经网络的泛化能力，本发明在电极发生轻微偏移时校准后的网络在分立电极输入下也有识别率的提高，具有一定的鲁棒性。跨用户情况下，源域是多个用户组成的高密度sEMG图像集，目标域是新用户的通道稀疏的sEMG图像集，通过迁移学习仍然能带来识别准确率的提升。

附图说明

图1为本发明一种基于面颈部表面肌电的无声语音识别方法的流程图；

图2为本发明涉及的中文发音词汇集；

图3为本发明采用的面颈部高密度电极阵列形状参数及贴放位置说明图；

图4a为本发明分立电极在高密度阵列中的空间位置分布及数据拼接结果的示意图；

图4b为本发明分立电极发生轻微偏移时的通道位置及数据拼接结果的示意图；

图4c为本发明分立电极发生严重偏移时的通道位置及数据拼接结果的示意图；

图5为本发明采用的基于卷积神经网络(CNN)的单词分类深度神经网络的结构示意图；

图6为本发明使用迁移方法前后各类单词样本的分布结果图；

图7为本发明得到的平均单词分类准确率和标准差示意图。

具体实施方式

在本实施例中，一种基于面颈部表面肌电的无声语音识别方法，兼顾了高密度电极阵列具有捕获丰富的肌肉激活模式信息的能力和分立电极的轻便易穿戴性，对轻微电极偏移和跨用户条件有一定的鲁棒性，提升了分立电极输入下的无声语音识别的性能，为无声语音识别方法提供了一个新思路，具体的说，如图1所示，包括以下步骤：

步骤一、使用高密度电极阵列采集用户无声表达各单词时所产生的表面肌电信号，在本发明实施例中，如图2所示，中文发音词汇集由33个孤立的单词构成，根据其意义和用途可分为智能家居、工业控制和消防安全三大类。实验募集了8位不同性别、不同年龄、口齿清晰且无面颈部手术史或病史的受试者参与数据采集实验。开始实验之前，所有受试者均被要求练习指令的无声表达方式，即模拟单词的发音过程但不发声，直到他们能够按照实验要求完成任务。

高密度电极阵列形状参数及贴放位置如图3所示。两片高密度阵列由面部电极阵列和颈部电极阵列组成，示例性的，面部电极阵列通道数为32，电极直径为5mm，电极间距范围在10、15、18mm。示例性的，颈部电极阵列通道数为32，电极直径为5mm，电极间距为18mm。面颈部电极阵列共同组成了全通道(64通道)阵列。

数据采集之前，受试者以舒适状态坐在椅子上，用酒精棉片擦拭相关肌肉区域，在高密度电极阵列上涂抹导电膏以降低皮肤和电极间阻抗，通过双面胶和肌肉贴将电极阵列固定于主要发声肌群的皮肤表面。示例性的，面部电极阵列用于采集颧肌、咬肌和降下唇肌等面部肌肉的sEMG，颈部电极阵列用于采集肩胛舌骨肌、胸骨舌骨肌和颈阔肌等颈部肌肉的sEMG。采集过程中，受试者以中等力度匀速无声表达每个单词，每个指令重复做20次。为了避免肌肉疲劳，每次指令执行后休息一定时间T_rest，示例性的，T_rest取为3s。

利用高密度电极阵列中变化趋势明显且信噪比较高的6个通道对任一单词所对应的所有表面肌电信号进行数据分段。数据分段使用一种基于短时能量的方法来自动实现，检测到实验的开始和结束时刻点后中间持续的肌电信号序列被称为一个活动段或一个样本，从而提取出表征相应单词肌肉活动的多个有效肌电数据样本。

然后按照高密度电极阵列中各个通道间的位置关系，对每个有效肌电数据样本进行通道重排列，以反映各通道在高密度电极阵列中的空间分布。根据高密度电极阵列形状，将64通道转换为8×8的格式，保留了通道间的相对位置关系。通道重排的结果如图4a下方的8×8阵列所示。

接着对重排列后的肌电数据样本均进行滑窗，滑窗使用非重叠方式(窗长:30ms，增量:30ms)。对处于每个滑窗内的肌电数据均提取3个肌电特征，本实施例中选取时间相关功率谱描述符(TDPSDs)的前3个特征用于模式识别。该特征通过对时域信号的范式和差分计算得到功率谱系数，其计算复杂度低于传统的频域特征。此外，TDPSDs是对相似度的描述，而不是信号幅度的直接表征，因此它们对肌肉收缩的力度变化不敏感。在每个滑窗内，提取的3个特征对应3个大小为8×8的特征矩阵；将一个样本所有窗提取的3个特征矩阵拼接在一起得到高密度sEMG图像，进而得到相应单词的所有样本所对应的高密度sEMG图像；在每个单词的20个高密度sEMG图像中，选取各单词的前8个高密度sEMG图像集构建源域数据库。由于不同单词的字数不同，通常对肌电数据样本滑窗得到的窗数量也不同，因此需要适当的滑窗或数据处理方式来对窗数进行统一。示例性地，本实施例中预设180作为所有单词样本的窗口数，通过截断或补零的数据处理使得每个高密度sEMG图像最终的大小为8×(8×180)×3。

步骤二、利用分立电极采集相同用户无声表达相同单词时所产生的表面肌电信号，在本实施例中，使用高密度电极阵列中少量通道对应的肌电数据来模拟分立电极条件下采集到的肌电数据。示例性的，根据发声有关肌肉的大致定位，结合生理解剖结构知识，从高密度电极阵列中挑选出8个位于关键激活部位的通道(如图4a的上方)，以这些通道对应的肌电数据来模拟实际在相同位置贴放分立电极时采集到的表面肌电数据。按照步骤一的过程对表面肌电数据进行处理，选取各单词的剩余12个通道稀疏的sEMG图像集构建目标域数据库；

步骤三、构建基于CNN的单词分类深度神经网络，如图5所示；

单词分类深度神经网络是由2个卷积-池化块、压平层、1个全连接层和softmax层构成；

每个卷积-池化块包括一个卷积层，一个激活层和一个池化层，卷积层Ⅰ由大小为3×3的32个滤波器组成，步长为1，无补零填充；卷积层Ⅱ由2×2的8个滤波器组成，步长为1，无补零填充。池化层Ⅰ和池化层Ⅱ是大小为2×2的最大池化层，目的是提取特征和降维。激活层中采用ReLU激活函数进行处理，以避免梯度消失的问题；

第2个卷积-池化块的输出通过压平层平展成一维向量，并与1个全连接层相连，最后通过隐含单元数为33的softmax层输出分类结果；全连接层的激活函数选择Tanh函数；

步骤四、基于源域数据库的高密度sEMG图像，选择Adam作为网络训练的优化器，并利用有监督学习方式训练单词分类深度神经网络，采用全批学习训练数据，从而得到训练后的单词分类深度神经网络；

步骤5.1、获取训练后的单词分类深度神经网络的网络结构和网络权重；

步骤5.2、根据分立电极在高密度电极阵列中的空间分布信息，随机选择目标域数据库中的8个通道稀疏的sEMG图像，将高密度sEMG图像中对应分立电极通道的数据替换为相应通道稀疏的sEMG图像的数据，其他通道的数据舍弃并以补零填充，从而完成迁移，并得到目标域数据库的校准集；在本实施例中，源域指的是高密度电极阵列，目标域是少通道分立电极的输入条件，通过源域和目标域之间相关知识的映射，减少了独立同分布的条件假设，实现了相关知识迁移。

步骤5.3、使用目标域数据库的校准集对训练后的单词分类深度神经网络进行再训练，更新网络权重，从而得到校准后的单词分类深度神经网络，用于实现该用户在分立电极输入下的无声语音识别。在本实施例中，选择目标域数据库中的剩余的4个通道稀疏的sEMG图像作为测试集，经过步骤5.2的迁移学习后用于对校准后的网络进行测试。图6采用T-SNE方法可视化地展示了使用迁移学习方法前后在分立电极条件下识别的各类单词样本的分布情况，左图表示未使用迁移学习，仅仅用分立电极采集到的sEMG训练和识别，右图表示迁移学习后的结果。从图6可看出，和未迁移相比，迁移后的区域r1和r2的类间区分性更好，直观地说明了算法的有效性。在校准集对网络进行校准后，使用测试集对校准后的分类网络测试，其单词识别率对应图7中的HD-FC。

在本实施例中，为了说明本发明的效果，还进行了相关对比和补充实验，包括：

(a)算法的有效性。本实施例中对源域数据库的高密度sEMG图像进行了训练和测试，这种情境代表业界通用的使用高密度阵列进行无声语音识别的方法(HD-HD)；对分立电极的通道稀疏的sEMG图像进行了训练和测试，表示通用的使用分立电极进行无声语音识别的方法(FC-FC)。

(b)算法对电极偏移的鲁棒性。在分立电极的实际贴放中，不可避免地会出现电极偏移的问题，即电极位置和高密度电极阵列中选定的通道位置有偏差。换句话说，在迁移过程中对分立电极通道数据的保留和空白通道补零填充的所依据的空间分布信息和实际情况并不完全吻合。因此，本实施例根据电极偏移程度的不同设计了两种情况(轻微偏移和严重偏移)，如图4b，图4c所示。在单词分类深度神经网络的训练中，作为输入的sEMG图像中分立电极的数据并不是来源于原本通道的数据，而是偏移通道的数据。轻微偏移和严重偏移的识别结果分别对应图7的HD-FCwS和HD-FCwSS。

(c)算法对新用户的适应性。本发明提出的方案的基本思想是使用一个用户的源域数据库为该用户训练一个单词分类深度神经网络，接着在相同用户的目标域数据库对网络进行校准和识别。这种方法的特点是单词分类深度神经网络是用户相关的，想要提升少通道输入下的无声语音识别性能必须事先得到该用户在高密度阵列sEMG数据下训练的网络。在跨用户的情境中，源域是多个用户的高密度sEMG图像集，而目标域是新用户的通道稀疏的的sEMG图像集。通过多个用户的高密度sEMG图像组成的源域数据库作为训练集训练得到单词分类深度神经网络是用户无关的，新用户不需要提供高密度电极阵列的数据参与训练，经过新用户少通道稀疏的sEMG图像校准后的网络即可用于新用户在少通道分立电极输入下的无声语音识别。在本实施例，采用留一法，在8个用户中随机选择一名用户作为新用户，剩余用户的源域数据库作为训练集训练单词分类深度神经网络，接着在新用户的目标域数据库进行校准和识别，结果见图7的HD-FCcS。

结合以上的实验说明及图7的识别结果，可以得到以下结论，包括：1)本发明提出的带有迁移学习的无声语音识别方法能够提高少通道分立电极输入下的单词分类准确率。2)迁移学习对电极偏移具有一定的鲁棒性，在偏移程度较小时仍对少通道分立电极输入下的无声语音识别的性能有显著的提升效果。3)迁移学习在跨用户中具有一定的适应性，也能够提升少通道分立电极输入下无声语音识别的性能。

Claims

1.一种基于面颈部表面肌电的无声语音识别方法，其特征在于，包括以下步骤：

步骤三、构建基于CNN的单词分类深度神经网络；

2.根据权利要求1所述的一种基于面颈部表面肌电的无声语音识别方法，其特征在于，所述源域数据库还可以为多个用户所对应的高密度sEMG图像集，所述目标域数据库也可以为新用户所对应的通道稀疏的sEMG图像集，从而利用所述校准后的单词分类深度神经网络实现新用户在分立电极输入下的无声语音识别。