CN114863912B

CN114863912B - 一种基于表面肌电信号的无声语音解码方法

Info

Publication number: CN114863912B
Application number: CN202210482376.5A
Authority: CN
Inventors: 张旭; 宋芮; 陈希; 陈香; 陈勋
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2022-05-05
Filing date: 2022-05-05
Publication date: 2024-05-10
Anticipated expiration: 2042-05-05
Also published as: CN114863912A

Abstract

本发明公开了一种基于表面肌电信号的无声语音解码方法，其步骤包括：1、采集无声语音肌电数据并提取特征构建训练数据集。2、搭建一个基于Transformer模型的解码网络。3、训练解码网络，并得到优化更新后的解码网络用于实现基于表面肌电信号的无声语音识别。本发明能够从无声语音肌电信号中解码出音节序列，有助于语义信息的理解，从而能实现高精度的无声语音识别。

Description

一种基于表面肌电信号的无声语音解码方法

技术领域

本发明涉及肌电信号处理及自然语言处理领域，特别涉及一种基于表面肌电信号的无声语音解码方法，主要应用于准确、自然的无声语音识别。

背景技术

语音能够承载并传递一定有意义的语义信息，是人类自然且有效的沟通途径。近年来，随着计算机科学技术的飞速发展，自动语音识别系统作为一种极具吸引力的人机交互方式备受关注。自动语音识别技术通过计算机能够实现语音信号到文本信息的转换。通过将语音识别接口集成到手机、音箱、汽车等智能设备中，自动语音识别技术广泛应用于人们的日常生活中。然而，这种技术在实际应用中仍然面临着一些挑战。首先，在恶劣的声学环境下，即存在环境噪声时，该技术的性能将受到影响；其次，该技术在维护通信隐私与安全方面存在问题；最后，该技术不适用于有语言障碍的人。从本质上讲，语音是由与发音相关的关节肌肉的神经肌肉活动产生的。而表面肌电信号(surface electromyography,sEMG)因其无创、便捷、能够反映神经肌肉系统相关活动信息的优点，在无声语音识别的实际应用中展现出巨大的潜力。

在过去的研究中，已经有多种方法被提出并成功应用于基于sEMG的无声语音识别。最初，研究者使用一些简单的模式识别算法对采集的孤立词的sEMG信号进行分类，具体包括：线性判别分析(Linear Discriminant Analysis,LDA)、K最近邻法(K-NearestNeighbor,KNN)、线性贝叶斯正态(Linear Bayes Normal,LBN)、支持向量机(SupportVector Machine,SVM)、随机森林(Random Forest,RF)、隐马尔科夫模型(Hidden MarkovModel,HMM)等。近年来，随着深度学习的发展，一些先进的神经网络也被应用于规模较小的孤立词语料库以实现无声语音识别，例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)等，并取得不错的效果。

然而，这些基于sEMG信号的无声语音识别研究大多都是对有限数量的孤立词进行模式分类。它只是建立了sEMG信号的活动模式与单词标签之间的简单映射，并不能很好地理解单词中包含的语义信息。事实上，语音交流应该是连贯的，且包含着丰富的语义信息，通常以短语或者句子的形式出现。换句话说，一个自然的、具有实用性的无声语音识别系统应该能够准确高效地从sEMG的活动模式中细粒度地解码出其中包含的语义信息，而不仅仅是对孤立词的简单分类。因此，上述基于孤立词的无声语音识别方法很难满足实际语音交流的需求。

发明内容

本发明为了克服现有基于sEMG的无声语音识别技术的不足之处，提出一种基于表面肌电信号的无声语音解码方法，以期能从sEMG的活动模式中解码出词或短语中更次级的结构，从而更好地理解sEMG的活动模式中包含的语义信息，以实现准确、自然的基于sEMG的无声语音识别。

本发明为解决技术问题，采用如下技术方案：

本发明一种基于表面肌电信号的无声语音解码方法的特点在于，包括：

步骤1、构建无声语音表面肌电数据集D：

构建一个包含R个中文短语的语料库E＝{e₁,…,e_v,…,e_R}，其中，e_v表示所述语料库中第v个中文短语，第v个中文短语e_v由一个包含L个不同音节的字典生成；利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据，然后将表面肌电信号数据分成不重叠的帧，并分别提取每帧的时域特征，从而得到M个肌电信号特征样本，并记为数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_M,y_M)}，其中，x_i表示第i个肌电信号特征样本，且代表第i个肌电信号特征样本x_i中第t帧的特征向量，n_i表示第i个肌电信号特征样本x_i包含的帧数，d_model为特征向量的维度；y_i表示第i个肌电信号特征样本x_i的音节序列标签，且/> 代表音节序列标签y_i中的第j个音节的标签，且/>{1,2,…,c,…,L}，L表示所述字典中音节的总类别数，c表示所述字典中第c个音节类别，m_i表示音节序列标签y_i中包含的总音节数；

步骤2、构建一个基于Transformer模型的解码网络，包括：编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块；

其中，所述编码器由N个相同的编码模块堆叠组成；每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层；

所述解码器由N个相同的解码模块堆叠组成；每个解码模块包含一个带掩码的多头注意力层，一个多头注意力层，一个位置前馈网络层，三个残差连接层和三个层归一化层；

步骤2.1、编码器的处理：

步骤2.1.1、定义并初始化变量s＝1，定义并初始化第s个编码模块的输入X_s＝x_i；

步骤2.1.2、所述第s个编码模块中的多头注意力层根据输入X_s，利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵

d_s＝d_model/H_s (1)

式(1)-式(6)中，d_s为所述第s个编码模块中的多头注意力层的每个注意力头的维数；H_s为所述第s个编码模块中的多头注意力层包含的头数；Q_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、K_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、V_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵；表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵，/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵，/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵，且 head_h,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果；Concat表示拼接操作；W_s表示所述第s个编码模块中的多头注意力层的权值矩阵，且/>

步骤2.1.3、所述第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对所述第s个编码模块的多头注意力层的输出矩阵进行处理，并得到输出矩阵

式(7)中，LayerNorm表示残差连接操作；

步骤2.1.4、所述第s个编码模块中的位置前馈网络层利用式(8)对所述输出矩阵进行处理，得到输出矩阵/>

式(8)中，δ(·)为线性激活函数，σ(·)为Relu激活函数；

步骤2.1.5、所述第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对进行处理，得到第s个编码模块的输出矩阵/>

步骤2.1.6、若s≥N，则得到编码器的输出否则，s+1赋值给s，并令/>后，返回步骤2.1.2顺序执行；

步骤2.2、解码器的处理：

步骤2.2.1、定义并初始化变量q＝1，定义并初始化第q个解码模块的输入其中，emb表示词嵌入；

步骤2.2.2、所述第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Y_q进行处理，得到第q个解码模块的多头注意力层的输出矩阵

d_q＝d_model/L_q (10)

式(10)-式(15)中，d_q为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数；L_q为所述第q个解码模块中的带掩码的多头注意力层包含的头数；Q_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、K_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、V_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵；表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵，/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵，/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵，且为一个上三角矩阵，且headl_,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果；Concat表示拼接操作；W_q表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵，且/>

步骤2.2.3、所述第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对所述第q个解码模块中的带掩码的多头注意力层的输出矩阵进行处理，并得到输出矩阵/>

步骤2.2.4、所述第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对和编码器的输出/>进行处理，并得到输出矩阵/>

d′_q＝d_model/U_q (17)

式(17)-式(19)中，d'_q为所述第q个解码模块中的另一个多头注意力层的每个注意力头的维数；U_q为所述第q个解码模块中的另一个多头注意力层包含的头数；head_u,q表示所述第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果；W'_q为所述第q个解码模块中的另一个多头注意力层的权值矩阵，且

步骤2.2.5、所述第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对所述第q个解码模块中的另一个多头注意力层的输出矩阵进行处理，并得到输出矩阵/>

步骤2.2.6、所述第q个解码模块中的位置前馈网络层利用式(21)对所述输出矩阵进行处理，得到输出矩阵/>

步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵进行处理，并得到输出矩阵/>

步骤2.2.8、若q≥N，则得到解码器的输出否则，q+1赋值给q，并令/>后，返回步骤2.2.2顺序执行；

步骤2.3、所述解码器的输出依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵/>

步骤2.4、将所述第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i通过argmax函数得到第i个肌电信号特征样本x_i的音节序列预测标签然后利用一个相似度计算模块对所述第i个肌电信号特征样本x_i的音节序列预测标签/>进行处理，得到第i个肌电信号特征样本x_i的中文短语预测结果/>且E＝{e₁,…,e_v,…,e_R}；

步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新所述基于Transformer模型的解码网络的权重参数，并在迭代次数达到最大迭代次数step_num时或损失函数loss达到最小时，停止训练，从而得到训练后的最优解码网络模型，用于对输入的肌电信号进行音节级别的解码，以实现无声语音识别；

式(23)中，p_j,c表示所述第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i中的第j个音节属于类别c的预测概率；y_j,c为符号函数，若所述第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i中第j个音节的真实类别为c，则令y_j,c＝1，否则，令y_j,c＝0。

本发明所述的一种基于表面肌电信号的无声语音解码方法的特点也在于，所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本x_i的音节序列预测标签进行处理，得到第i个肌电信号特征样本x_i的中文短语预测结果/>

式(24)-式(26)中，表示第i个肌电信号特征样本x_i的音节序列预测标签与所述语料库E中第v个中文短语e_v的相似度，/>为所述语料库E中第v个中文短语e_v包含的音节数，N_same是第i个肌电信号特征样本x_i的音节序列预测标签/>和所述语料库E中第v个中文短语e_v中相同音节的个数；max{·}表示取最大值函数，e_w表示所述语料库E中与第i个肌电信号特征样本x_i的音节序列预测标签/>相似度最高的中文短语。

与现有的技术相比，本发明能够取得最低的解码字错误率和最优的短语识别准确率，且能够从自然语言的角度刻画sEMG的活动模式中包含的语义信息，具体的有益效果体现在：

1、本发明采用一种新型的序列到序列的模型Transformer来实现无声语音肌电解码，其利用编码器进一步提取输入的肌电特征序列包含的有用信息，然后解码器再根据这些更高级别的特征向量解码出音节序列。这种编码器-解码器的结构能够很好地描述sEMG信号与短语的语义信息之间的关系，而不像分类器，只是简单地将sEMG信号的模式映射为单一的短语标签，从而为无声语音识别提供了一种自然、有效的实现方案。

2、本发明中采用的多头注意力层，是一种自注意力机制，通过计算输入的sEMG特征序列自身所有帧之间的相关性，即每帧的向量表达包含了其它帧的信息，相关性大的信息量大，相关性小的信息量小，从而对sEMG信号的全局信息的掌握能力更强，能够注意到最关键的部分，提取更具表现力的序列表示，有助于降低模型解码的字错误率。

3、本发明根据语料库，提出一个基于编辑距离的相似度计算模块，对解码的音节序列进一步微调，使其更加的符合语言规范，能够达到自然语言的水平，进一步提高了模型的短语识别准确率，从而有利于该模型在肌电控制、缄默通信领域的实际应用。

附图说明

图1为本发明实施例提供的模型框架示意图；

图2为本发明实施例提供的电极阵列形状规格和贴放位置示意图；

图3为本发明实施例提供的无声语音语料库示意图；

图4为本发明实施例提供的解码字错误率结果图；

图5为本发明实施例提供的短语识别准确率结果图。

具体实施方式

本实施例中，一种基于表面肌电信号的无声语音解码方法，如图1所示，其包括如下步骤：

步骤1、构建无声语音表面肌电数据集D：

构建一个包含R个中文短语的语料库E＝{e₁,…,e_v,…,e_R}，其中，e_v表示语料库中第v个中文短语，所有的R个中文短语由一个包含L个不同音节的字典生成；利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音语料库的表面肌电信号数据，然后将表面肌电信号数据分成不重叠的帧，并分别提取每帧的时域特征，从而得到M个肌电信号特征样本，并记为数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_M,y_M)}，其中，x_i表示第i个肌电信号特征样本，且代表第i个肌电信号特征样本x_i中第t帧的特征向量，n_i表示第i个肌电信号特征样本x_i包含的帧数，d_model为特征向量的维度；y_i表示第i个肌电信号特征样本x_i的音节序列标签，且/> 代表音节序列标签y_i中的第j个音节的标签，且/>L表示字典中音节的总类别数，c表示字典中第c个音节类别，m_i表示音节序列标签y_i中包含的总音节数；

具体实施中包括，(1)募集s位受试者，引导每位受试者以舒服的姿势端坐在安静的房间内，设备采集受试者面部、颈部相关肌肉的m通道高密度表面肌电信号，阵列电极阵列中单个电极触点的直径为p，电极中心间距为q。示例性的，可以设置：s＝8，m＝64，p＝5mm，q＝10mm、15mm、18mm，如图2所示。受试者记为S1-S8。

(2)逐一采集受试者无声发音语料库E中R个中文短语时的表面肌电信号，这R个中文短语由一个包含L个不同音节的字典生成，见图3。示例性的，设置R＝33，L＝82，即语料库E包含33个中文短语，包括82种不同的音节，且所有短语均来自智能家居、机械控制、消防救援等日常应用场景，每个短语的字数为2～6。每个短语被不发声地重复20遍，受试者每两次重复至少间隔3秒，以避免肌肉疲劳带来影响。

(3)为了利用解码网络处理序列数据的能力，以及更细粒度地提取原始肌电信号的特征，将每个短语的肌电信号被分割为T个连续的、不重叠的帧，并且T的取值与肌电信号的准平稳性有关，示例性的，T＝60。

(4)对每帧的肌电信号数据提取特征，得到每个短语的肌电信号特征样本。示例性的，提取平均绝对值(Mean Absolute Value，MAV)、波长(Waveform Length，WL)、斜率符号变化率(Slope Sign Changes，SSC)以及过零率(Zero Crossing，ZC)这四个时域特征。为了更加具体全面地描述每一帧的信息，将每一帧的m个通道的四个时域特征拼接成一个一维向量，因此，d_model＝64*4＝256，所以每个肌电信号特征样本x_i由一个60×256的特征矩阵表示，对应的音节序列标签y_i中的每个音节标签

其中，编码器由N个相同的编码模块堆叠组成；每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层；

解码器由N个相同的解码模块堆叠组成；每个解码模块包含一个带掩码的多头注意力层，一个多头注意力层，一个位置前馈网络层，三个残差连接层和三个层归一化层；

步骤2.1、编码器的处理：

步骤2.1.2、第s个编码模块中的多头注意力层根据输入X_s，利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵

d_s＝d_model/H_s (1)

式(1)-式(6)中，d_s为第s个编码模块中的多头注意力层的每个注意力头的维数；H_s为第s个编码模块中的多头注意力层包含的头数；Q_h,s为第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、K_h,s为第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、V_h,s为第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵；表示第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵，/>表示第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵，/>表示第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵，且/> head_h,s表示第s个编码模块中的多头注意力层的第h个注意力头的输出结果；Concat表示拼接操作；W_s表示第s个编码模块中的多头注意力层的权值矩阵，且/>

步骤2.1.3、第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对第s个编码模块的多头注意力层的输出矩阵进行处理，并得到输出矩阵/>

式(7)中，LayerNorm表示残差连接；

步骤2.1.4、第s个编码模块中的位置前馈网络层利用式(8)对输出矩阵进行处理，得到输出矩阵/>

式(8)中，δ(·)为线性激活函数，σ(·)为Relu激活函数；

步骤2.1.5、第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对进行处理，得到第s个编码模块的输出矩阵/>

步骤2.2、解码器的处理：

步骤2.2.2、第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Y_q进行处理，得到第q个解码模块的多头注意力层的输出矩阵

d_q＝d_model/L_q (10)

式(10)-式(15)中，d_q为第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数；L_q为第q个解码模块中的带掩码的多头注意力层包含的头数；Q_l,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、K_l,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、V_l,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵；表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵，/>表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵，/>表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵，且/> 为一个上三角矩阵，且/>head_l,q表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果；Concat表示拼接操作；W_q表示第q个解码模块中的带掩码的多头注意力层的权值矩阵，且/>

步骤2.2.3、第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对第q个解码模块中的带掩码的多头注意力层的输出矩阵进行处理，并得到输出矩阵/>

步骤2.2.4、第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对和编码器的输出/>进行处理，并得到输出矩阵/>

d′_q＝d_model/U_q (17)

式(17)-式(19)中，d'_q为第q个解码模块中的另一个多头注意力层的每个注意力头的维数；U_q为第q个解码模块中的另一个多头注意力层包含的头数；head_u,q表示第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果；W'_q为第q个解码模块中的另一个多头注意力层的权值矩阵，且

步骤2.2.5、第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对第q个解码模块中的另一个多头注意力层的输出矩阵进行处理，并得到输出矩阵

步骤2.2.6、第q个解码模块中的位置前馈网络层利用式(21)对输出矩阵进行处理，得到输出矩阵/>

步骤2.2.7、第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对第q个解码模块中的位置前馈网络层的输出矩阵进行处理，并得到输出矩阵

步骤2.3、解码器的输出依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵/>

步骤2.4、将第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i通过argmax函数得到第i个肌电信号特征样本x_i的音节序列预测标签然后利用一个相似度计算模块对第i个肌电信号特征样本x_i的音节序列预测标签/>进行处理，得到第i个肌电信号特征样本x_i的中文短语预测结果/>且E＝{e₁,…,e_v,…,e_R}；

本实施例中，步骤2中编码器用于进一步提取输入的肌电特征数据中更具表现力的序列表示，解码器利用编码器的输出以及音节序列标签来学习肌电特征序列与音节序列标签的对应关系，从而在解码时能够准确高效地给出音节的预测值，它们所包含的编码或解码模块个数直接影响到模型的性能，由于本实验中采用的不是大规模数据集，因此编码或解码模块的个数需要设置的偏小一点，示例性的，N＝4；步骤2.1.2中，编码模块中多头注意力的每一个注意力头会关注到肌电特征数据的不同部分，各司其职，从而使得这种自注意力机制发挥地更好，若头数过少则会丢失部分重要信息，因此需要设置较为适中的头数。所有的编码模块都是相同的结构，即每个编码模块中的多头注意力层的头数都是相同的，示例性的，H_S＝4，则d_s＝64；步骤2.2.2中，解码模块中带掩码的多头注意力层能够保证解码器在解码当前时刻时只能关注到之前的所有输出，而不会提前知晓未来的信息，符合实际应用时的预测规律。所有的解码模块都是相同的结构，即每个解码模块中的带掩码的多头注意力层的头数都是相同的，示例性的，H_q＝4，则d_q＝64；步骤2.2.4中，解码模块另一个多头注意力层用来计算编码器与解码器之间的注意力关系，因此其查询矩阵的初始值为解码模块自身上一步的输出，键值矩阵和内容矩阵都等于编码器的输出。每个解码模块中的另一个多头注意力层的头数都是相同的，示例性的，U_q＝4，则d'_q＝64。

步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新基于Transformer模型的解码网络的权重参数，并在迭代次数达到最大迭代次数step_num时或损失函数loss达到最小时，停止训练，从而得到训练后的最优解码网络模型，用于对输入的肌电信号进行音节级别的解码，以实现无声语音识别；

式(23)中，p_j,c表示第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i中的第j个音节属于类别c的预测概率；y_j,c为符号函数，若第i个肌电信号特征样本x_i的音节序列预测标签的类别概率矩阵P_i中第j个音节的真实类别为c，则令y_j,c＝1，否则，令y_j,c＝0。

本实施实例中，将数据集D按照3:1:1划分为训练集、验证集、测试集，训练时Adam优化器的初始学习率过大会导致模型损失震荡，过小会陷入局部最优，示例性的，设置初始学习率γ＝6×10^-5，指数衰减率β₁＝0.9，β₂＝0.98，最大迭代次数step_num＝100。

为了量化评估本发明的效果，通过8位测试用户(记为S1-S8)将本发明方法(Transformer decoder)与一般的序列到序列的解码方法以及传统的分类方法进行比较。

对比实验中，一般的序列到序列解码方法采用的是基于LSTM的编码器-解码器模型，记为LSTM decoder，训练数据集和测试数据集与本发明方法相同。图4为上述LSTMdecoder解码方法与本发明方法的解码字错误率结果图，上述LSTM decoder方法的平均字错误率为12.04±5.82％，本发明方法平均字错误率为5.14±3.28％，明显优于一般的序列到序列解码方法。此外，我们又将本发明方法与基于CNN和LSTM的分类器在短语识别准确率上做了比较，分别记为CNN classifier和LSTM classifier，图5为上述两种分类方法和本发明方法短语识别准确率对比结果图。CNN分类器平均识别准确率为88.89±7.93％，LSTM分类器的平均识别准确率为91.44±4.09％，而本发明方法平均识别准确率达到96.37±2.06％，显著提升了短语的识别精度，明显优于两种分类方法。

综上所述，本发明能够克服传统的利用分类方法进行无声语音识别不够自然、实用的缺点，系统能够更细粒度地挖掘表面肌电信号中包含的语义信息，并利用根据语料库建立的语言模型进一步使解码的音节序列更加符合语言规范，以降低模型的解码错误率。本发明方法明显优于一般的序列到序列的解码方法和分类方法，对于无声语音识别系统的实际应用具有重要意义。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

Claims

1.一种基于表面肌电信号的无声语音解码方法，其特征在于，包括：

步骤1、构建无声语音表面肌电数据集D：

构建一个包含R个中文短语的语料库E＝{e₁,…,e_v,…,e_R}，其中，e_v表示所述语料库中第v个中文短语，第v个中文短语e_v由一个包含L个不同音节的字典生成；利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据，然后将表面肌电信号数据分成不重叠的帧，并分别提取每帧的时域特征，从而得到M个肌电信号特征样本，并记为数据集D＝{(x₁,y₁),(x₂,y₂),...,(x_i,y_i),...,(x_M,y_M)}，其中，x_i表示第i个肌电信号特征样本，且代表第i个肌电信号特征样本x_i中第t帧的特征向量，n_i表示第i个肌电信号特征样本x_i包含的帧数，d_model为特征向量的维度；y_i表示第i个肌电信号特征样本x_i的音节序列标签，且/> 代表音节序列标签y_i中的第j个音节的标签，且/> L表示所述字典中音节的总类别数，c表示所述字典中第c个音节类别，m_i表示音节序列标签y_i中包含的总音节数；

步骤2.1、编码器的处理：

d_s＝d_model/H_s (1)

式(1)-式(6)中，d_s为所述第s个编码模块中的多头注意力层的每个注意力头的维数；H_s为所述第s个编码模块中的多头注意力层包含的头数；Q_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、K_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、V_h,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵；表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵，/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵，表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵，且 head_h,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果；Concat表示拼接操作；W_s表示所述第s个编码模块中的多头注意力层的权值矩阵，且/>

式(7)中，LayerNorm表示残差连接操作；

式(8)中，δ(·)为线性激活函数，σ(·)为Relu激活函数；

步骤2.2、解码器的处理：

d_q＝d_model/L_q (10)

式(10)-式(15)中，d_q为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数；L_q为所述第q个解码模块中的带掩码的多头注意力层包含的头数；Q_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、K_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、V_l,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵；表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵，/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵，/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵，且/> 为一个上三角矩阵，且/>head_l,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果；Concat表示拼接操作；W_q表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵，且

d′_q＝d_model/U_q (17)

步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵进行处理，并得到输出矩阵

2.根据权利要求1所述的一种基于表面肌电信号的无声语音解码方法，其特征是，所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本x_i的音节序列预测标签进行处理，得到第i个肌电信号特征样本x_i的中文短语预测结果/>

式(24)-式(26)中，表示第i个肌电信号特征样本x_i的音节序列预测标签/>与所述语料库E中第v个中文短语e_v的相似度，/>为所述语料库E中第v个中文短语e_v包含的音节数，N_same是第i个肌电信号特征样本x_i的音节序列预测标签/>和所述语料库E中第v个中文短语e_v中相同音节的个数；max{·}表示取最大值函数，e_w表示所述语料库E中与第i个肌电信号特征样本x_i的音节序列预测标签/>相似度最高的中文短语。