CN114626424B - 一种基于数据增强的无声语音识别方法及装置 - Google Patents
一种基于数据增强的无声语音识别方法及装置 Download PDFInfo
- Publication number
- CN114626424B CN114626424B CN202210526443.9A CN202210526443A CN114626424B CN 114626424 B CN114626424 B CN 114626424B CN 202210526443 A CN202210526443 A CN 202210526443A CN 114626424 B CN114626424 B CN 114626424B
- Authority
- CN
- China
- Prior art keywords
- module
- result
- inputting
- signal
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/02—Preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/08—Feature extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2218/00—Aspects of pattern recognition specially adapted for signal processing
- G06F2218/12—Classification; Matching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
- Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)
Abstract
本发明公开了一种基于数据增强的无声语音识别方法及装置,涉及语音识别技术领域。包括:获取待识别的表面肌电信号;将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。本发明能够解决当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用连接时序分类器CTC进行解码。
Description
技术领域
本发明涉及语音识别技术领域,特别是指一种基于数据增强的无声语音识别方法及装置。
背景技术
随着深度学习及相关计算资源的迅猛发展,语音识别领域也焕发出蓬勃生机。根据 2006 年全国第二次残疾人抽样调查结果,我国现有言语残疾人口 127 万人。在这些言语残疾者中,一部分人因为后天原因(疾病等)失去声音,无法与他人正常交流,造成沟通障碍。除此之外,我们在使用社交媒体过程中语音会被广播到环境中,用户的隐私得不到维护,且在户外噪声较大、环境复杂的情况下,有声语音识别效果不佳。综合上述情况,无声语音有非常重要的实用价值。
目前主流的无声语音识别实现方式包括唇读、基于超声波的无声语音识别和基于EMG(Electromyogram,肌电图)的语音识别。唇读利用唇部图像信息进行识别,是一种非侵入方法,但是这种易受光照影响。超声波方法通过在口腔内放置超声传感器,使用超声图像进行识别。这种虽然不受光照影响但是它是一种侵入式方式,携带非常不便。基于表面肌电的语音识别兼具两者的优势。
现有关于表面肌电信号的无声语音识别大多集中在分类任务上,多采用机器学习算法或简单的深度学习网络,例如CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network, 循环神经网络)以及LSTM(Long Short Term MemoryNetwork, 长短期记忆网络)等。
在实际生活场景中,将无声语音转换为文本更为合适。目前的无声语音识别多基于传统的语音识别方法,先使用基于表面肌电的声学模型将肌电信号转为音素,再利用音素序列,语言模型、词典一起解码得到最终输出。也有一些学者进行了端到端无声语音识别方法的初步探索,使用带有卷积神经网络和循环神经网络的CTC(Connectionist TemporalClassification,连接时序分类)模型进行识别。
基于表面肌电信号的语音识别技术虽然研究广泛,但仍存在一些不足。主要表现为:(1)缺乏中文公开数据集。由于国内关于表面肌电信号的研究起步较晚,数据集大多为英文数据集,缺乏公开中文数据集,且数据集内容较为简单,多为简单词语,不利于表面肌电实际应用。表面肌电信号数据采集成本高,因表面肌电信号受生理信息影响显著,对用一条指令,需采集多次数据。(2)方法较为单一。目前语音识别的实现主要是分类和传统语音识别方法,在端到端方法上的探索和尝试较少。
发明内容
本发明针对如何解决当前表面肌电信号数据不足,以及如何设计出端到端的无声语音识别方法的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于数据增强的无声语音识别方法,该方法由电子设备实现,该方法包括:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,S3中的根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,S31中的对表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,S32中的将预处理后的表面肌电信号输入到编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地,S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,S3221中的将特征序列输入到输入表示模块,得到输入表示结果包括:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,S3222中的将输入表示结果输入到多头注意力模块,得到多头注意力结果包括:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,S33中的将编码结果输入到解码器模块,得到表面肌电信号的识别结果包括:
S331、分别对编码结果的每个时间步分配一个标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,S2中无声语音识别模型的训练过程包括:采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
另一方面,本发明提供了一种基于数据增强的无声语音识别装置,该装置应用于实现基于数据增强的无声语音识别方法,该装置包括:
获取模块,用于获取待识别的表面肌电信号。
输入模块,用于将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
输出模块,用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,输出模块,进一步用于:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,输出模块,进一步用于:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,输出模块,进一步用于:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地, Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
可选地,输出模块,进一步用于:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,输出模块,进一步用于:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,输出模块,进一步用于:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,输出模块,进一步用于:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,输入模块,进一步用于:
采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于数据增强的无声语音识别方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于数据增强的无声语音识别方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于数据增强的无声语音识别方法流程示意图;
图2是本发明实施例提供的Transformer的结构示意图;
图3是本发明实施例提供的编码器提取表面肌电信号特征解码器对特征进行解码的方法流程示意图;
图4是本发明实施例提供的基于数据增强的无声语音识别装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种基于数据增强的无声语音识别方法,该方法可以由电子设备实现。如图1所示的基于数据增强的无声语音识别方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型。
其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
一种可行的实施方式中,如图2所示,使用卷积模块和多层Transformer作为编码器提取表面肌电信号特征,使用CTC(Connectionist Temporal Classification,连接时序分类)作为解码器,对输出特征进行解码。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,S3中的根据表面肌电信号以及无声语音识别模型,得到待识别的表面肌电信号的对应的文本包括:
S31、通过数据预处理模块对表面肌电信号进行预处理。
可选地,S31中的对表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
一种可行的实施方式中,首先使用高通滤波器和凹陷滤波器去除表面肌电信号中噪声,对去除噪声后的表面肌电信号进行特征提取,计算MFSC(Mel-frequency spectralcoefficient,梅尔谱系数)特征。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果。
其中,编码器模块包括卷积模块和Transformer模块。
可选地,S32中的将预处理后的表面肌电信号输入到编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征输入到Transformer模块的多层transformer网络中,得到编码结果。
一种可行的实施方式中,对表面肌电信号特征EMG(electromyogram,肌电图)(N是S的长度),先通过多层2D卷积进行空间上的特征提取,并对信号进行下采
样,然后再通过多层transformer编码器,得到high-level特征表示,即:
可选地,S323中的transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
一种可行的实施方式中,Transformer由输入表示,多头注意力和前向神经网络三个模块构成,对每个子模块的输出结果进行dropout并与输入一起进行标准化,并作为下一子模块的输入;每个子模块之间使用残差连接,子模块输入设置为相同维度。
将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
可选地,S3221中的将特征序列输入到输入表示模块,得到输入表示结果包括:
S32211、将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
一种可行的实施方式中,对于肌电信号,使用一个线性变化调整维度:
S32212、使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
一种可行的实施方式中,使用位置编码对输入内部的顺序信息进行建模:
S32213、将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
一种可行的实施方式中,将位置编码结果和线性变化结果相加一起作为最终表示:
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
可选地,S3222中的将输入表示结果输入到多头注意力模块,得到多头注意力结果包括:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
多头注意力中每个头关注不同的信息,最终将这些head的信息拼接起来作为结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
一种可行的实施方式中,前向神经网络为全连接前馈网络,使用两个线性变换,激活函数为ReLU(Rectified Linear Unit,修正线性单元):
单层transformer网络如下所示:
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,S33中的将编码结果输入到解码器模块,得到表面肌电信号的识别结果包括:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
本申请的目标语言是中文,所以表面肌电信号的无声语音识别的文本建模单元为字。在CTC中,为字典引入一个“<blank>”字符,用以处理重复字符。
为了便于理解,采用贪心策略,对这个标签序列的每一个时间步取最大值,得到
标签序列,对标签序列的每个时间步都是一个概率分布,这个标签序列通过取这一时间
步中最大值对应的index获得。每个时间步都对应一个标签,相当于标签序列的每一个时
间步都做一次分类,每个时间步所属的类别作为标签。
由于标签序列和编码器输出并不是严格对齐的,所以有多个可能的标签序列都能
得到目标序列,本申请将这些能够通过去除重复标签和“<blank>”标签得到目标序列的所
有标签序列记为。给定输入,得到目标序列的概率是所有满足条件的概率之和,即:
训练的损失函数为:
在推理时,使用柱搜索得到表面肌电信号识别结果。
可选地,S2中无声语音识别模型的训练过程包括:采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
一种可行的实施方式中,使用Mixup进行数据增强。该方法通过对两个训练样本进行插值在训练过程中产生新样本,可以有效提升无声语音识别效果。
此处,通过计算和的损失及和损失的插值之和间接实现Mixup:
因为模型为基于CTC的端到端模型,上述损失按照CTC损失函数计算。
使用谱减法进行数据增强:
谱减法具体实现:
首先对原肌电信号进行分帧加窗,窗函数选择汉明窗,对取得的每帧信号求对应
帧的傅里叶变换,并求出对应相位与频谱,将原始肌电信号的前几帧作为底噪,此时没有肌
肉运动,仅有噪声。为减少噪声,使用功率谱进行谱减,根据谱减结果复原出干净的肌电信
号,对每帧谱减结果利用去噪前相位恢复频谱,做逆傅里叶变换,去窗,每帧不重叠部分直
接使用,重叠部分相加除以二。功率谱谱减公式如下,其中为相减因子,为下限阈值,
为噪声均值,表示干净肌电信号。
举例来说,无声语音识别的目的是,给定一条表面肌电信号,将其转写为对应的文本。
给定文本数据,让志愿者在不发声状态下和发声状态下分布读出文本,采集志愿者说话时的表面肌电信号。
用采集的表面肌电信号训练上述模型,并使用上述数据增强方法,进行数据增强,能够有效识别表面肌电信号,将表面肌电信号转写为文本。
本发明实施例中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
如图4所示,本发明实施例提供了一种基于数据增强的无声语音识别装置400,该装置400应用于实现基于数据增强的无声语音识别方法,该装置400包括:
获取模块410,用于获取待识别的表面肌电信号。
输入模块420,用于将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
输出模块430,用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,输出模块430,进一步用于:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,输出模块430,进一步用于:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,输出模块430,进一步用于:
S321、通过多层2D卷积对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地, Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
可选地,输出模块430,进一步用于:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,输出模块430,进一步用于:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,输出模块430,进一步用于:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,输出模块430,进一步用于:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,输入模块420,进一步用于:
采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
本发明实施例中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现下述基于数据增强的无声语音识别方法:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于数据增强的无声语音识别方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (2)
1.一种基于数据增强的无声语音识别方法,其特征在于,所述方法包括:
S1、获取待识别的表面肌电信号;
S2、将所述表面肌电信号输入到构建好的无声语音识别模型;其中,所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;
S3、根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本;
所述S3中的根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过所述数据预处理模块对所述表面肌电信号进行预处理;
S32、将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果;其中,所述编码器模块包括卷积模块和Transformer模块;
S33、将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本;其中,所述解码器模块为连接时序分类器CTC;
所述S33中的将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S331、分别对所述编码结果的每个时间步分配标签,得到标签序列;
S332、去除所述标签序列中的重复字符以及CTC中引入的blank字符,使用柱搜索得到待识别的表面肌电信号的对应的文本;
所述S2中无声语音识别模型的训练过程包括:采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强;
给定文本数据,让志愿者在不发声状态下和发声状态下分别读出所述文本数据,采集志愿者在不发声状态下和发声状态下的表面肌电信号,根据所述表面肌电信号对无声语音识别模型进行训练;
所述S31中的对所述表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除所述表面肌电信号中的噪声;对去除噪声后的表面肌电信号进行梅尔谱系数MFSC特征提取;
所述S32中的将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列;
S322、将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果;
所述S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块;
所述将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将所述特征序列输入到所述输入表示模块,得到输入表示结果;
S3222、将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果;
S3223、将所述多头注意力结果输入到所述前向神经网络模块,得到编码结果;
所述S3221中的将所述特征序列输入到所述输入表示模块,得到输入表示结果包括:
将所述特征序列通过线性变化进行维度调整,得到维度线性变化结果;
使用位置编码对所述维度线性变化结果的顺序信息进行建模,得到位置编码结果;
将所述维度线性变化结果以及位置编码结果相加,得到输入表示结果;
所述S3222中的将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果包括:
将所述输入表示结果进行三种不同的线性变换,得到输入线性变换结果;
根据所述输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果;
将所述多个注意力的头的结果进行拼接,得到多头注意力结果。
2.一种基于数据增强的无声语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的表面肌电信号;
输入模块,用于将所述表面肌电信号输入到构建好的无声语音识别模型;其中,所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;
输出模块,用于根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本;
所述根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过所述数据预处理模块对所述表面肌电信号进行预处理;
S32、将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果;其中,所述编码器模块包括卷积模块和Transformer模块;
S33、将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本;其中,所述解码器模块为连接时序分类器CTC;
所述S33中的将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S331、分别对所述编码结果的每个时间步分配标签,得到标签序列;
S332、去除所述标签序列中的重复字符以及CTC中引入的blank字符,使用柱搜索得到待识别的表面肌电信号的对应的文本;
所述无声语音识别模型的训练过程包括:采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强;
给定文本数据,让志愿者在不发声状态下和发声状态下分别读出所述文本数据,采集志愿者在不发声状态下和发声状态下的表面肌电信号,根据所述表面肌电信号对无声语音识别模型进行训练;
所述S31中的对所述表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除所述表面肌电信号中的噪声;对去除噪声后的表面肌电信号进行梅尔谱系数MFSC特征提取;
所述S32中的将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列;
S322、将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果;
所述S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块;
所述将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将所述特征序列输入到所述输入表示模块,得到输入表示结果;
S3222、将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果;
S3223、将所述多头注意力结果输入到所述前向神经网络模块,得到编码结果;
所述S3221中的将所述特征序列输入到所述输入表示模块,得到输入表示结果包括:
将所述特征序列通过线性变化进行维度调整,得到维度线性变化结果;
使用位置编码对所述维度线性变化结果的顺序信息进行建模,得到位置编码结果;
将所述维度线性变化结果以及位置编码结果相加,得到输入表示结果;
所述S3222中的将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果包括:
将所述输入表示结果进行三种不同的线性变换,得到输入线性变换结果;
根据所述输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果;
将所述多个注意力的头的结果进行拼接,得到多头注意力结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526443.9A CN114626424B (zh) | 2022-05-16 | 2022-05-16 | 一种基于数据增强的无声语音识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210526443.9A CN114626424B (zh) | 2022-05-16 | 2022-05-16 | 一种基于数据增强的无声语音识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114626424A CN114626424A (zh) | 2022-06-14 |
CN114626424B true CN114626424B (zh) | 2022-09-13 |
Family
ID=81907046
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210526443.9A Active CN114626424B (zh) | 2022-05-16 | 2022-05-16 | 一种基于数据增强的无声语音识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114626424B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117316160B (zh) * | 2023-11-30 | 2024-02-20 | 北京安声科技有限公司 | 无声语音识别方法、装置、电子设备和计算机可读介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN113288183A (zh) * | 2021-05-20 | 2021-08-24 | 中国科学技术大学 | 一种基于面颈部表面肌电的无声语音识别方法 |
CN113397572A (zh) * | 2021-07-23 | 2021-09-17 | 中国科学技术大学 | 基于Transformer模型的表面肌电信号分类方法及系统 |
CN113870858A (zh) * | 2021-09-27 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于人工智能的静默语音识别方法、装置及存储介质 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11216069B2 (en) * | 2018-05-08 | 2022-01-04 | Facebook Technologies, Llc | Systems and methods for improved speech recognition using neuromuscular information |
WO2019050881A1 (en) * | 2017-09-05 | 2019-03-14 | Massachusetts Institute Of Technology | METHODS AND APPARATUS FOR SILENT VOICE INTERFACE |
CN111985335A (zh) * | 2020-07-20 | 2020-11-24 | 中国人民解放军军事科学院国防科技创新研究院 | 一种基于面部生理信息的唇语识别方法及装置 |
-
2022
- 2022-05-16 CN CN202210526443.9A patent/CN114626424B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111968629A (zh) * | 2020-07-08 | 2020-11-20 | 重庆邮电大学 | 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法 |
CN113288183A (zh) * | 2021-05-20 | 2021-08-24 | 中国科学技术大学 | 一种基于面颈部表面肌电的无声语音识别方法 |
CN113397572A (zh) * | 2021-07-23 | 2021-09-17 | 中国科学技术大学 | 基于Transformer模型的表面肌电信号分类方法及系统 |
CN113870858A (zh) * | 2021-09-27 | 2021-12-31 | 平安科技(深圳)有限公司 | 基于人工智能的静默语音识别方法、装置及存储介质 |
CN114023316A (zh) * | 2021-11-04 | 2022-02-08 | 匀熵科技(无锡)有限公司 | 基于TCN-Transformer-CTC的端到端中文语音识别方法 |
Non-Patent Citations (2)
Title |
---|
Sequence-to-Sequence Voice Reconstruction for Silent Speech in a Tonal Language;Huiyan Li et al.;《arXiv:2108.00190v2 [cs.SD]》;20220328;第1-10页 * |
基于安卓的无声语音识别App的设计与开发;乔波 等;《电脑知识与技术》;20200229;第16卷(第6期);第213-216页 * |
Also Published As
Publication number | Publication date |
---|---|
CN114626424A (zh) | 2022-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112489635B (zh) | 一种基于增强注意力机制的多模态情感识别方法 | |
Vasquez et al. | Melnet: A generative model for audio in the frequency domain | |
CN113012720B (zh) | 谱减法降噪下多语音特征融合的抑郁症检测方法 | |
CN110767210A (zh) | 一种生成个性化语音的方法及装置 | |
CN114566189B (zh) | 基于三维深度特征融合的语音情感识别方法及系统 | |
CN115641543A (zh) | 一种多模态抑郁情绪识别方法及装置 | |
CN102237083A (zh) | 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法 | |
CN114783418B (zh) | 基于稀疏自注意力机制的端到端语音识别方法及系统 | |
CN109065073A (zh) | 基于深度svm网络模型的语音情感识别方法 | |
CN109452932A (zh) | 一种基于声音的体质辨识方法及设备 | |
CN112259080A (zh) | 一种基于神经网络模型的语音识别方法 | |
CN112735404A (zh) | 一种语音反讽检测方法、系统、终端设备和存储介质 | |
CN115394287A (zh) | 混合语种语音识别方法、装置、系统及存储介质 | |
CN114999460A (zh) | 一种结合Transformer的轻量化中文语音识别方法 | |
CN114626424B (zh) | 一种基于数据增强的无声语音识别方法及装置 | |
CN111090726A (zh) | 一种基于nlp的电力行业文字客服交互方法 | |
CN114495969A (zh) | 一种融合语音增强的语音识别方法 | |
CN111653270B (zh) | 语音处理方法、装置、计算机可读存储介质及电子设备 | |
CN111488486A (zh) | 一种基于多音源分离的电子音乐分类方法及系统 | |
CN116612779A (zh) | 一种基于深度学习的单通道语音分离的方法 | |
CN117409765A (zh) | 基于Transformer的青岛方言语音识别模型 | |
Fujiwara et al. | Data augmentation based on frequency warping for recognition of cleft palate speech | |
CN114822541A (zh) | 一种基于回译的无声语音识别方法和系统 | |
Shen | Application of transfer learning algorithm and real time speech detection in music education platform | |
CN111259188B (zh) | 一种基于seq2seq网络的歌词对齐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |