CN114626424B

CN114626424B - 一种基于数据增强的无声语音识别方法及装置

Info

Publication number: CN114626424B
Application number: CN202210526443.9A
Authority: CN
Inventors: 张梅山; 曹议丹; 孙越恒
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-09-13
Anticipated expiration: 2042-05-16
Also published as: CN114626424A

Abstract

本发明公开了一种基于数据增强的无声语音识别方法及装置，涉及语音识别技术领域。包括：获取待识别的表面肌电信号；将表面肌电信号输入到构建好的无声语音识别模型；其中，无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块；根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本。本发明能够解决当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据，无需大量采集数据，降低数据采集资源消耗。除此之外，还提出了一种新的端到端无声语音识别方法，使用先进的transformer模型进行对表面肌电信号进行特征提取，使用连接时序分类器CTC进行解码。

Description

一种基于数据增强的无声语音识别方法及装置

技术领域

本发明涉及语音识别技术领域，特别是指一种基于数据增强的无声语音识别方法及装置。

背景技术

随着深度学习及相关计算资源的迅猛发展，语音识别领域也焕发出蓬勃生机。根据 2006 年全国第二次残疾人抽样调查结果，我国现有言语残疾人口 127 万人。在这些言语残疾者中，一部分人因为后天原因（疾病等）失去声音，无法与他人正常交流，造成沟通障碍。除此之外，我们在使用社交媒体过程中语音会被广播到环境中，用户的隐私得不到维护，且在户外噪声较大、环境复杂的情况下，有声语音识别效果不佳。综合上述情况，无声语音有非常重要的实用价值。

目前主流的无声语音识别实现方式包括唇读、基于超声波的无声语音识别和基于EMG（Electromyogram，肌电图）的语音识别。唇读利用唇部图像信息进行识别，是一种非侵入方法，但是这种易受光照影响。超声波方法通过在口腔内放置超声传感器，使用超声图像进行识别。这种虽然不受光照影响但是它是一种侵入式方式，携带非常不便。基于表面肌电的语音识别兼具两者的优势。

现有关于表面肌电信号的无声语音识别大多集中在分类任务上，多采用机器学习算法或简单的深度学习网络，例如CNN（Convolutional Neural Networks，卷积神经网络）、RNN（Recurrent Neural Network, 循环神经网络）以及LSTM（Long Short Term MemoryNetwork, 长短期记忆网络）等。

在实际生活场景中，将无声语音转换为文本更为合适。目前的无声语音识别多基于传统的语音识别方法，先使用基于表面肌电的声学模型将肌电信号转为音素，再利用音素序列，语言模型、词典一起解码得到最终输出。也有一些学者进行了端到端无声语音识别方法的初步探索，使用带有卷积神经网络和循环神经网络的CTC（Connectionist TemporalClassification，连接时序分类）模型进行识别。

基于表面肌电信号的语音识别技术虽然研究广泛，但仍存在一些不足。主要表现为：（1）缺乏中文公开数据集。由于国内关于表面肌电信号的研究起步较晚，数据集大多为英文数据集，缺乏公开中文数据集，且数据集内容较为简单，多为简单词语，不利于表面肌电实际应用。表面肌电信号数据采集成本高，因表面肌电信号受生理信息影响显著，对用一条指令，需采集多次数据。（2）方法较为单一。目前语音识别的实现主要是分类和传统语音识别方法，在端到端方法上的探索和尝试较少。

发明内容

本发明针对如何解决当前表面肌电信号数据不足，以及如何设计出端到端的无声语音识别方法的问题，提出了本发明。

为解决上述技术问题，本发明提供如下技术方案：

一方面，本发明提供了一种基于数据增强的无声语音识别方法，该方法由电子设备实现，该方法包括：

S1、获取待识别的表面肌电信号。

S2、将表面肌电信号输入到构建好的无声语音识别模型；其中，无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。

S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本。

可选地，S3中的根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本包括：

S31、通过数据预处理模块对表面肌电信号进行预处理。

S32、将预处理后的表面肌电信号输入到编码器模块，得到编码结果；其中，编码器模块包括卷积模块和Transformer模块。

S33、将编码结果输入到解码器模块，得到待识别的表面肌电信号的对应的文本；其中，解码器模块为连接时序分类器CTC。

可选地，S31中的对表面肌电信号进行预处理包括：

使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。

可选地，S32中的将预处理后的表面肌电信号输入到编码器模块，得到编码结果包括：

S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样，得到特征序列。

S322、将特征序列输入到Transformer模块的多层transformer网络中，得到编码结果。

可选地，S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。

将特征序列输入到Transformer模块的多层transformer网络中，得到编码结果包括：

S3221、将特征序列输入到输入表示模块，得到输入表示结果。

S3222、将输入表示结果输入到多头注意力模块，得到多头注意力结果。

S3223、将多头注意力结果输入到前向神经网络模块，得到编码结果。

可选地，S3221中的将特征序列输入到输入表示模块，得到输入表示结果包括：

将特征序列通过线性变化进行维度调整，得到维度线性变化结果。

使用位置编码对维度线性变化结果的顺序信息进行建模，得到位置编码结果。

将维度线性变化结果以及位置编码结果相加，得到输入表示结果。

可选地，S3222中的将输入表示结果输入到多头注意力模块，得到多头注意力结果包括：

将输入表示结果进行三种不同的线性变换，得到输入线性变换结果。

根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果，得到多个注意力的头的结果。

将多个注意力的头的结果进行拼接，得到多头注意力结果。

可选地，S33中的将编码结果输入到解码器模块，得到表面肌电信号的识别结果包括：

S331、分别对编码结果的每个时间步分配一个标签，得到标签序列。

S332、去除标签序列中的重复字符以及CTC中引入的blank字符，得到表面肌电信号的识别结果。

可选地，S2中无声语音识别模型的训练过程包括：采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。

另一方面，本发明提供了一种基于数据增强的无声语音识别装置，该装置应用于实现基于数据增强的无声语音识别方法，该装置包括：

获取模块，用于获取待识别的表面肌电信号。

输入模块，用于将表面肌电信号输入到构建好的无声语音识别模型；其中，无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。

输出模块，用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本。

可选地，输出模块，进一步用于：

S31、通过数据预处理模块对表面肌电信号进行预处理。

可选地，输出模块，进一步用于：

使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。

可选地，输出模块，进一步用于：

可选地， Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。

可选地，输出模块，进一步用于：

将多个注意力的头的结果进行拼接，得到多头注意力结果。

可选地，输出模块，进一步用于：

S331、分别对编码结果的每个时间步分配标签，得到标签序列。

可选地，输入模块，进一步用于：

采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。

一方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行以实现上述基于数据增强的无声语音识别方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行以实现上述基于数据增强的无声语音识别方法。

本发明实施例提供的技术方案带来的有益效果至少包括：

上述方案中，解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据，无需大量采集数据，降低数据采集资源消耗。除此之外，还提出了一种新的端到端无声语音识别方法，使用先进的transformer模型进行对表面肌电信号进行特征提取，使用CTC进行解码。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的基于数据增强的无声语音识别方法流程示意图；

图2是本发明实施例提供的Transformer的结构示意图；

图3是本发明实施例提供的编码器提取表面肌电信号特征解码器对特征进行解码的方法流程示意图；

图4是本发明实施例提供的基于数据增强的无声语音识别装置框图；

图5是本发明实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

如图1所示，本发明实施例提供了一种基于数据增强的无声语音识别方法，该方法可以由电子设备实现。如图1所示的基于数据增强的无声语音识别方法流程图，该方法的处理流程可以包括如下的步骤：

S1、获取待识别的表面肌电信号。

S2、将表面肌电信号输入到构建好的无声语音识别模型。

其中，无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。

一种可行的实施方式中，如图2所示，使用卷积模块和多层Transformer作为编码器提取表面肌电信号特征，使用CTC（Connectionist Temporal Classification，连接时序分类）作为解码器，对输出特征进行解码。

可选地，S3中的根据表面肌电信号以及无声语音识别模型，得到待识别的表面肌电信号的对应的文本包括：

S31、通过数据预处理模块对表面肌电信号进行预处理。

可选地，S31中的对表面肌电信号进行预处理包括：

使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。

一种可行的实施方式中，首先使用高通滤波器和凹陷滤波器去除表面肌电信号中噪声，对去除噪声后的表面肌电信号进行特征提取，计算MFSC（Mel-frequency spectralcoefficient，梅尔谱系数）特征。

S32、将预处理后的表面肌电信号输入到编码器模块，得到编码结果。

其中，编码器模块包括卷积模块和Transformer模块。

S322、将特征输入到Transformer模块的多层transformer网络中，得到编码结果。

一种可行的实施方式中，对表面肌电信号特征EMG（electromyogram，肌电图）

(N是S的长度)，先通过多层2D卷积进行空间上的特征提取，并对信号进行下采样，然后再通过多层transformer编码器，得到high-level特征表示

，即：

其中，

是卷积个数，

是transformer个数，且仅第一个transformer中包含输入表示模块。Transformer的详细结构如图3所示。

可选地，S323中的transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。

一种可行的实施方式中，Transformer由输入表示，多头注意力和前向神经网络三个模块构成，对每个子模块的输出结果进行dropout并与输入一起进行标准化，并作为下一子模块的输入；每个子模块之间使用残差连接，子模块输入设置为相同维度。

S32211、将特征序列通过线性变化进行维度调整，得到维度线性变化结果。

一种可行的实施方式中，对于肌电信号，使用一个线性变化调整维度：

S32212、使用位置编码对维度线性变化结果的顺序信息进行建模，得到位置编码结果。

一种可行的实施方式中，使用位置编码对输入内部的顺序信息进行建模：

其中，

是

中的任意一个时间步；

是

内的一维；

为维度。

S32213、将维度线性变化结果以及位置编码结果相加，得到输入表示结果。

一种可行的实施方式中，将位置编码结果和线性变化结果相加一起作为最终表示：

这个过程被记为

。

将多个注意力的头的结果进行拼接，得到多头注意力结果。

一种可行的实施方式中，多头注意力中使用点积注意力，输入为Query查询、Key 键、Value值向量，Query、Key、Value是输入

经过不同线性变换的结果，即：

然后将所有三个Query、Key、Value向量平均分成

部分，

是第

部分。

在计算时，分别计算Query和不同Key的点积，将点积结果除以

，并使用 softmax函数计算Key对应权重。

其中，

为矩阵；

为键K的维度。

多头注意力中每个头关注不同的信息，最终将这些head的信息拼接起来作为结果。

其中，

为多头注意力的头的个数。

这个过程记为

。

一种可行的实施方式中，前向神经网络为全连接前馈网络，使用两个线性变换，激活函数为ReLU（Rectified Linear Unit，修正线性单元）：

其中，

是模型参数。

单层transformer网络如下所示：

一种可行的实施方式中，本申请使用CTC作为解码器，对编码器输出

进行解码，得到文本序列

，（M是序列长度）。

本申请的目标语言是中文，所以表面肌电信号的无声语音识别的文本建模单元为字。在CTC中，为字典引入一个“<blank>”字符，用以处理重复字符。

为编码器的输出

的每个时间步都分配一个标签序列，对编码器的输出

，执行以下操作：

得到字符序列

。本申请任务的输出词汇应该是所有汉字的集合，特别是加上一个特殊符号（即-）表示一个位置的空输出。

为了便于理解，采用贪心策略，对这个标签序列

的每一个时间步取最大值，得到标签序列，对标签序列

的每个时间步都是一个概率分布，这个标签序列通过取这一时间步中最大值对应的index获得。每个时间步都对应一个标签，相当于标签序列

的每一个时间步都做一次分类，每个时间步所属的类别作为标签。

该序列中有很多重复字符和“<blank>”标签，将这些标签去除，就能得到最终输出。为方便起见，本申请把去重前的字符序列称为原始字符序列，用

来表示这样的序列。

由于标签序列和编码器输出并不是严格对齐的，所以有多个可能的标签序列都能得到目标序列，本申请将这些能够通过去除重复标签和“<blank>”标签得到目标序列的所有标签序列记为

。给定输入，得到目标序列的概率是所有满足条件的概率之和，即：

训练的损失函数为：

其中，

是真实标签。

在推理时，使用柱搜索得到表面肌电信号识别结果。

一种可行的实施方式中，使用Mixup进行数据增强。该方法通过对两个训练样本进行插值在训练过程中产生新样本，可以有效提升无声语音识别效果。

给定一组训练样本，

对这两个样本进行线性插值，产生新样本：

其中，

是表面肌电信号，

是对应的文本,

是一个统计变量，控制插值比例，它满足

，

。由于

和

可能长度不一致，会造成模型在训练时无法正确学习到新样本，造成模型性能下降。

此处，通过计算和的损失及和损失的插值之和间接实现Mixup：

因为模型为基于CTC的端到端模型，上述损失按照CTC损失函数计算。

使用谱减法进行数据增强：

给定训练样本

，

是表面肌电信号，使用谱减法去除表面肌电信号中噪声，得到干净的肌电信号

和

将组成一个新的训练样本，通过使用谱减法，训练数据翻倍。

谱减法具体实现：

首先对原肌电信号进行分帧加窗，窗函数选择汉明窗，对取得的每帧信号求对应帧的傅里叶变换，并求出对应相位与频谱，将原始肌电信号的前几帧作为底噪，此时没有肌肉运动，仅有噪声。为减少噪声，使用功率谱进行谱减，根据谱减结果复原出干净的肌电信号，对每帧谱减结果利用去噪前相位恢复频谱，做逆傅里叶变换，去窗，每帧不重叠部分直接使用，重叠部分相加除以二。功率谱谱减公式如下，其中

为相减因子，

为下限阈值，

为噪声均值，

表示干净肌电信号。

举例来说，无声语音识别的目的是，给定一条表面肌电信号，将其转写为对应的文本。

给定文本数据，让志愿者在不发声状态下和发声状态下分布读出文本，采集志愿者说话时的表面肌电信号。

用采集的表面肌电信号训练上述模型，并使用上述数据增强方法，进行数据增强，能够有效识别表面肌电信号，将表面肌电信号转写为文本。

本发明实施例中，解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据，无需大量采集数据，降低数据采集资源消耗。除此之外，还提出了一种新的端到端无声语音识别方法，使用先进的transformer模型进行对表面肌电信号进行特征提取，使用CTC进行解码。

如图4所示，本发明实施例提供了一种基于数据增强的无声语音识别装置400，该装置400应用于实现基于数据增强的无声语音识别方法，该装置400包括：

获取模块410，用于获取待识别的表面肌电信号。

输入模块420，用于将表面肌电信号输入到构建好的无声语音识别模型；其中，无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。

输出模块430，用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本。

可选地，输出模块430，进一步用于：

S31、通过数据预处理模块对表面肌电信号进行预处理。

可选地，输出模块430，进一步用于：

使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。

可选地，输出模块430，进一步用于：

S321、通过多层2D卷积对预处理后的表面肌电信号进行空间上的特征提取及下采样，得到特征序列。

可选地，输出模块430，进一步用于：

将多个注意力的头的结果进行拼接，得到多头注意力结果。

可选地，输出模块430，进一步用于：

可选地，输入模块420，进一步用于：

本发明实施例中，解决了当前表面肌电信号数据不足的问题。该方法能够充分利用肌电信号数据，无需大量采集数据，降低数据采集资源消耗。除此之外，还提出了一种新的端到端无声语音识别方法，使用先进的transformer模型进行对表面肌电信号进行特征提取，使用CTC进行解码。

图5是本发明实施例提供的一种电子设备500的结构示意图，该电子设备500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器（centralprocessing units，CPU）501和一个或一个以上的存储器502，其中，存储器502中存储有至少一条指令，至少一条指令由处理器501加载并执行以实现下述基于数据增强的无声语音识别方法：

S1、获取待识别的表面肌电信号。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由终端中的处理器执行以完成上述基于数据增强的无声语音识别方法。例如，计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于数据增强的无声语音识别方法，其特征在于，所述方法包括：

S1、获取待识别的表面肌电信号；

S2、将所述表面肌电信号输入到构建好的无声语音识别模型；其中，所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块；

S3、根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本；

所述S3中的根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本包括：

S31、通过所述数据预处理模块对所述表面肌电信号进行预处理；

S32、将预处理后的表面肌电信号输入到所述编码器模块，得到编码结果；其中，所述编码器模块包括卷积模块和Transformer模块；

S33、将所述编码结果输入到所述解码器模块，得到待识别的表面肌电信号的对应的文本；其中，所述解码器模块为连接时序分类器CTC；

所述S33中的将所述编码结果输入到所述解码器模块，得到待识别的表面肌电信号的对应的文本包括：

S331、分别对所述编码结果的每个时间步分配标签，得到标签序列；

S332、去除所述标签序列中的重复字符以及CTC中引入的blank字符，使用柱搜索得到待识别的表面肌电信号的对应的文本；

所述S2中无声语音识别模型的训练过程包括：采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强；

给定文本数据，让志愿者在不发声状态下和发声状态下分别读出所述文本数据，采集志愿者在不发声状态下和发声状态下的表面肌电信号，根据所述表面肌电信号对无声语音识别模型进行训练；

所述S31中的对所述表面肌电信号进行预处理包括：

使用高通滤波器和凹陷滤波器去除所述表面肌电信号中的噪声；对去除噪声后的表面肌电信号进行梅尔谱系数MFSC特征提取；

所述S32中的将预处理后的表面肌电信号输入到所述编码器模块，得到编码结果包括：

S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样，得到特征序列；

S322、将所述特征序列输入到Transformer模块的多层transformer网络中，得到编码结果；

所述S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块；

所述将所述特征序列输入到Transformer模块的多层transformer网络中，得到编码结果包括：

S3221、将所述特征序列输入到所述输入表示模块，得到输入表示结果；

S3222、将所述输入表示结果输入到所述多头注意力模块，得到多头注意力结果；

S3223、将所述多头注意力结果输入到所述前向神经网络模块，得到编码结果；

所述S3221中的将所述特征序列输入到所述输入表示模块，得到输入表示结果包括：

将所述特征序列通过线性变化进行维度调整，得到维度线性变化结果；

使用位置编码对所述维度线性变化结果的顺序信息进行建模，得到位置编码结果；

将所述维度线性变化结果以及位置编码结果相加，得到输入表示结果；

所述S3222中的将所述输入表示结果输入到所述多头注意力模块，得到多头注意力结果包括：

将所述输入表示结果进行三种不同的线性变换，得到输入线性变换结果；

根据所述输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果，得到多个注意力的头的结果；

将所述多个注意力的头的结果进行拼接，得到多头注意力结果。

2.一种基于数据增强的无声语音识别装置，其特征在于，所述装置包括：

获取模块，用于获取待识别的表面肌电信号；

输入模块，用于将所述表面肌电信号输入到构建好的无声语音识别模型；其中，所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块；

输出模块，用于根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本；

所述根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块，得到待识别的表面肌电信号的对应的文本包括：

所述无声语音识别模型的训练过程包括：采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强；

所述S31中的对所述表面肌电信号进行预处理包括：