CN114626424B - 一种基于数据增强的无声语音识别方法及装置 - Google Patents

一种基于数据增强的无声语音识别方法及装置 Download PDF

Info

Publication number
CN114626424B
CN114626424B CN202210526443.9A CN202210526443A CN114626424B CN 114626424 B CN114626424 B CN 114626424B CN 202210526443 A CN202210526443 A CN 202210526443A CN 114626424 B CN114626424 B CN 114626424B
Authority
CN
China
Prior art keywords
module
result
inputting
signal
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210526443.9A
Other languages
English (en)
Other versions
CN114626424A (zh
Inventor
张梅山
曹议丹
孙越恒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin University
Original Assignee
Tianjin University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin University filed Critical Tianjin University
Priority to CN202210526443.9A priority Critical patent/CN114626424B/zh
Publication of CN114626424A publication Critical patent/CN114626424A/zh
Application granted granted Critical
Publication of CN114626424B publication Critical patent/CN114626424B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/02Preprocessing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Machine Translation (AREA)
  • Measurement And Recording Of Electrical Phenomena And Electrical Characteristics Of The Living Body (AREA)

Abstract

本发明公开了一种基于数据增强的无声语音识别方法及装置,涉及语音识别技术领域。包括:获取待识别的表面肌电信号;将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。本发明能够解决当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用连接时序分类器CTC进行解码。

Description

一种基于数据增强的无声语音识别方法及装置
技术领域
本发明涉及语音识别技术领域,特别是指一种基于数据增强的无声语音识别方法及装置。
背景技术
随着深度学习及相关计算资源的迅猛发展,语音识别领域也焕发出蓬勃生机。根据 2006 年全国第二次残疾人抽样调查结果,我国现有言语残疾人口 127 万人。在这些言语残疾者中,一部分人因为后天原因(疾病等)失去声音,无法与他人正常交流,造成沟通障碍。除此之外,我们在使用社交媒体过程中语音会被广播到环境中,用户的隐私得不到维护,且在户外噪声较大、环境复杂的情况下,有声语音识别效果不佳。综合上述情况,无声语音有非常重要的实用价值。
目前主流的无声语音识别实现方式包括唇读、基于超声波的无声语音识别和基于EMG(Electromyogram,肌电图)的语音识别。唇读利用唇部图像信息进行识别,是一种非侵入方法,但是这种易受光照影响。超声波方法通过在口腔内放置超声传感器,使用超声图像进行识别。这种虽然不受光照影响但是它是一种侵入式方式,携带非常不便。基于表面肌电的语音识别兼具两者的优势。
现有关于表面肌电信号的无声语音识别大多集中在分类任务上,多采用机器学习算法或简单的深度学习网络,例如CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Network, 循环神经网络)以及LSTM(Long Short Term MemoryNetwork, 长短期记忆网络)等。
在实际生活场景中,将无声语音转换为文本更为合适。目前的无声语音识别多基于传统的语音识别方法,先使用基于表面肌电的声学模型将肌电信号转为音素,再利用音素序列,语言模型、词典一起解码得到最终输出。也有一些学者进行了端到端无声语音识别方法的初步探索,使用带有卷积神经网络和循环神经网络的CTC(Connectionist TemporalClassification,连接时序分类)模型进行识别。
基于表面肌电信号的语音识别技术虽然研究广泛,但仍存在一些不足。主要表现为:(1)缺乏中文公开数据集。由于国内关于表面肌电信号的研究起步较晚,数据集大多为英文数据集,缺乏公开中文数据集,且数据集内容较为简单,多为简单词语,不利于表面肌电实际应用。表面肌电信号数据采集成本高,因表面肌电信号受生理信息影响显著,对用一条指令,需采集多次数据。(2)方法较为单一。目前语音识别的实现主要是分类和传统语音识别方法,在端到端方法上的探索和尝试较少。
发明内容
本发明针对如何解决当前表面肌电信号数据不足,以及如何设计出端到端的无声语音识别方法的问题,提出了本发明。
为解决上述技术问题,本发明提供如下技术方案:
一方面,本发明提供了一种基于数据增强的无声语音识别方法,该方法由电子设备实现,该方法包括:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,S3中的根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,S31中的对表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,S32中的将预处理后的表面肌电信号输入到编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地,S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,S3221中的将特征序列输入到输入表示模块,得到输入表示结果包括:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,S3222中的将输入表示结果输入到多头注意力模块,得到多头注意力结果包括:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,S33中的将编码结果输入到解码器模块,得到表面肌电信号的识别结果包括:
S331、分别对编码结果的每个时间步分配一个标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,S2中无声语音识别模型的训练过程包括:采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
另一方面,本发明提供了一种基于数据增强的无声语音识别装置,该装置应用于实现基于数据增强的无声语音识别方法,该装置包括:
获取模块,用于获取待识别的表面肌电信号。
输入模块,用于将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
输出模块,用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,输出模块,进一步用于:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,输出模块,进一步用于:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,输出模块,进一步用于:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地, Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
可选地,输出模块,进一步用于:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,输出模块,进一步用于:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,输出模块,进一步用于:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,输出模块,进一步用于:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,输入模块,进一步用于:
采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
一方面,提供了一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行以实现上述基于数据增强的无声语音识别方法。
一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述基于数据增强的无声语音识别方法。
本发明实施例提供的技术方案带来的有益效果至少包括:
上述方案中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的基于数据增强的无声语音识别方法流程示意图;
图2是本发明实施例提供的Transformer的结构示意图;
图3是本发明实施例提供的编码器提取表面肌电信号特征解码器对特征进行解码的方法流程示意图;
图4是本发明实施例提供的基于数据增强的无声语音识别装置框图;
图5是本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。
如图1所示,本发明实施例提供了一种基于数据增强的无声语音识别方法,该方法可以由电子设备实现。如图1所示的基于数据增强的无声语音识别方法流程图,该方法的处理流程可以包括如下的步骤:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型。
其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
一种可行的实施方式中,如图2所示,使用卷积模块和多层Transformer作为编码器提取表面肌电信号特征,使用CTC(Connectionist Temporal Classification,连接时序分类)作为解码器,对输出特征进行解码。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,S3中的根据表面肌电信号以及无声语音识别模型,得到待识别的表面肌电信号的对应的文本包括:
S31、通过数据预处理模块对表面肌电信号进行预处理。
可选地,S31中的对表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
一种可行的实施方式中,首先使用高通滤波器和凹陷滤波器去除表面肌电信号中噪声,对去除噪声后的表面肌电信号进行特征提取,计算MFSC(Mel-frequency spectralcoefficient,梅尔谱系数)特征。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果。
其中,编码器模块包括卷积模块和Transformer模块。
可选地,S32中的将预处理后的表面肌电信号输入到编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征输入到Transformer模块的多层transformer网络中,得到编码结果。
一种可行的实施方式中,对表面肌电信号特征EMG(electromyogram,肌电图)
Figure 829502DEST_PATH_IMAGE001
(N是S的长度),先通过多层2D卷积进行空间上的特征提取,并对信号进行下采 样,然后再通过多层transformer编码器,得到high-level特征表示
Figure 746643DEST_PATH_IMAGE002
,即:
Figure 493757DEST_PATH_IMAGE003
其中,
Figure 295491DEST_PATH_IMAGE004
是卷积个数,
Figure 109863DEST_PATH_IMAGE005
是transformer个数,且仅第一个transformer中包含 输入表示模块。Transformer的详细结构如图3所示。
可选地,S323中的transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
一种可行的实施方式中,Transformer由输入表示,多头注意力和前向神经网络三个模块构成,对每个子模块的输出结果进行dropout并与输入一起进行标准化,并作为下一子模块的输入;每个子模块之间使用残差连接,子模块输入设置为相同维度。
将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
可选地,S3221中的将特征序列输入到输入表示模块,得到输入表示结果包括:
S32211、将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
一种可行的实施方式中,对于肌电信号,使用一个线性变化调整维度:
Figure 135588DEST_PATH_IMAGE006
S32212、使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
一种可行的实施方式中,使用位置编码对输入内部的顺序信息进行建模:
Figure 605883DEST_PATH_IMAGE007
其中,
Figure 181614DEST_PATH_IMAGE008
Figure 381652DEST_PATH_IMAGE009
中的任意一个时间步;
Figure 47119DEST_PATH_IMAGE010
Figure 67028DEST_PATH_IMAGE011
内的一维;
Figure 476144DEST_PATH_IMAGE012
为维度。
S32213、将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
一种可行的实施方式中,将位置编码结果和线性变化结果相加一起作为最终表示:
Figure 530687DEST_PATH_IMAGE013
这个过程被记为
Figure 101477DEST_PATH_IMAGE014
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
可选地,S3222中的将输入表示结果输入到多头注意力模块,得到多头注意力结果包括:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
一种可行的实施方式中,多头注意力中使用点积注意力,输入为Query查询、Key 键、Value值向量,Query、Key、Value是输入
Figure 874261DEST_PATH_IMAGE015
经过不同线性变换的结果,即:
Figure 320024DEST_PATH_IMAGE016
然后将所有三个Query、Key、Value向量平均分成
Figure 229074DEST_PATH_IMAGE017
部分,
Figure 33082DEST_PATH_IMAGE018
是第
Figure 902949DEST_PATH_IMAGE019
部分。
在计算时,分别计算Query和不同Key的点积,将点积结果除以
Figure 512922DEST_PATH_IMAGE020
,并使用 softmax函数计算Key对应权重。
Figure 653309DEST_PATH_IMAGE021
其中,
Figure 565902DEST_PATH_IMAGE022
为矩阵;
Figure 313278DEST_PATH_IMAGE023
为键K的维度。
多头注意力中每个头关注不同的信息,最终将这些head的信息拼接起来作为结果。
Figure 336729DEST_PATH_IMAGE024
其中,
Figure 485950DEST_PATH_IMAGE017
为多头注意力的头的个数。
这个过程记为
Figure 303865DEST_PATH_IMAGE025
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
一种可行的实施方式中,前向神经网络为全连接前馈网络,使用两个线性变换,激活函数为ReLU(Rectified Linear Unit,修正线性单元):
Figure 272958DEST_PATH_IMAGE026
其中,
Figure 864214DEST_PATH_IMAGE027
是模型参数。
单层transformer网络如下所示:
Figure 602363DEST_PATH_IMAGE028
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,S33中的将编码结果输入到解码器模块,得到表面肌电信号的识别结果包括:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
一种可行的实施方式中,本申请使用CTC作为解码器,对编码器输出
Figure 122337DEST_PATH_IMAGE029
进行 解码,得到文本序列
Figure 578726DEST_PATH_IMAGE030
,(M是序列长度)。
本申请的目标语言是中文,所以表面肌电信号的无声语音识别的文本建模单元为字。在CTC中,为字典引入一个“<blank>”字符,用以处理重复字符。
为编码器的输出
Figure 6296DEST_PATH_IMAGE031
的每个时间步都分配一个标签序列,对编码器的输出
Figure 739897DEST_PATH_IMAGE032
Figure 758669DEST_PATH_IMAGE033
,执行以下操作:
Figure 436775DEST_PATH_IMAGE034
得到字符序列
Figure 181219DEST_PATH_IMAGE035
。本申请任务的输出词汇应该是所有汉字的集合, 特别是加上一个特殊符号(即-)表示一个位置的空输出。
为了便于理解,采用贪心策略,对这个标签序列
Figure 503747DEST_PATH_IMAGE036
的每一个时间步取最大值,得到 标签序列,对标签序列
Figure 490158DEST_PATH_IMAGE036
的每个时间步都是一个概率分布,这个标签序列通过取这一时间 步中最大值对应的index获得。每个时间步都对应一个标签,相当于标签序列
Figure 796506DEST_PATH_IMAGE036
的每一个时 间步都做一次分类,每个时间步所属的类别作为标签。
该序列中有很多重复字符和“<blank>”标签,将这些标签去除,就能得到最终输 出。为方便起见,本申请把去重前的字符序列称为原始字符序列,用
Figure 893775DEST_PATH_IMAGE037
Figure 336388DEST_PATH_IMAGE038
来表示这 样的序列。
由于标签序列和编码器输出并不是严格对齐的,所以有多个可能的标签序列都能 得到目标序列,本申请将这些能够通过去除重复标签和“<blank>”标签得到目标序列的所 有标签序列记为
Figure 493700DEST_PATH_IMAGE039
。给定输入,得到目标序列的概率是所有满足条件的概率之和,即:
Figure 520300DEST_PATH_IMAGE040
训练的损失函数为:
Figure 421260DEST_PATH_IMAGE041
其中,
Figure 983959DEST_PATH_IMAGE042
是真实标签。
在推理时,使用柱搜索得到表面肌电信号识别结果。
可选地,S2中无声语音识别模型的训练过程包括:采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
一种可行的实施方式中,使用Mixup进行数据增强。该方法通过对两个训练样本进行插值在训练过程中产生新样本,可以有效提升无声语音识别效果。
给定一组训练样本,
Figure 312172DEST_PATH_IMAGE043
对这两个样本进行线性插值,产生新样本:
Figure 124270DEST_PATH_IMAGE044
其中,
Figure 438708DEST_PATH_IMAGE045
是表面肌电信号,
Figure 980548DEST_PATH_IMAGE046
是对应的文本,
Figure 856494DEST_PATH_IMAGE047
是一个统计变量,控制插值比例,它 满足
Figure 483784DEST_PATH_IMAGE048
Figure 601913DEST_PATH_IMAGE049
。由于
Figure 263838DEST_PATH_IMAGE050
Figure 809220DEST_PATH_IMAGE051
可能长度不一致,会造成模型在训练时无 法正确学习到新样本,造成模型性能下降。
此处,通过计算和的损失及和损失的插值之和间接实现Mixup:
Figure 658228DEST_PATH_IMAGE052
因为模型为基于CTC的端到端模型,上述损失按照CTC损失函数计算。
使用谱减法进行数据增强:
给定训练样本
Figure 580047DEST_PATH_IMAGE053
Figure 96479DEST_PATH_IMAGE054
是表面肌电信号,使用谱减法去除表面肌电信号中噪 声,得到干净的肌电信号
Figure 311298DEST_PATH_IMAGE055
Figure 647601DEST_PATH_IMAGE056
将组成一个新的训练样本,通过使用谱减法,训练数据 翻倍。
谱减法具体实现:
首先对原肌电信号进行分帧加窗,窗函数选择汉明窗,对取得的每帧信号求对应 帧的傅里叶变换,并求出对应相位与频谱,将原始肌电信号的前几帧作为底噪,此时没有肌 肉运动,仅有噪声。为减少噪声,使用功率谱进行谱减,根据谱减结果复原出干净的肌电信 号,对每帧谱减结果利用去噪前相位恢复频谱,做逆傅里叶变换,去窗,每帧不重叠部分直 接使用,重叠部分相加除以二。功率谱谱减公式如下,其中
Figure 435428DEST_PATH_IMAGE057
为相减因子,
Figure 478471DEST_PATH_IMAGE058
为下限阈值,
Figure 365655DEST_PATH_IMAGE059
为噪声均值,
Figure 454834DEST_PATH_IMAGE060
表示干净肌电信号。
Figure 452877DEST_PATH_IMAGE061
举例来说,无声语音识别的目的是,给定一条表面肌电信号,将其转写为对应的文本。
给定文本数据,让志愿者在不发声状态下和发声状态下分布读出文本,采集志愿者说话时的表面肌电信号。
用采集的表面肌电信号训练上述模型,并使用上述数据增强方法,进行数据增强,能够有效识别表面肌电信号,将表面肌电信号转写为文本。
本发明实施例中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用有声肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
如图4所示,本发明实施例提供了一种基于数据增强的无声语音识别装置400,该装置400应用于实现基于数据增强的无声语音识别方法,该装置400包括:
获取模块410,用于获取待识别的表面肌电信号。
输入模块420,用于将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
输出模块430,用于根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
可选地,输出模块430,进一步用于:
S31、通过数据预处理模块对表面肌电信号进行预处理。
S32、将预处理后的表面肌电信号输入到编码器模块,得到编码结果;其中,编码器模块包括卷积模块和Transformer模块。
S33、将编码结果输入到解码器模块,得到待识别的表面肌电信号的对应的文本;其中,解码器模块为连接时序分类器CTC。
可选地,输出模块430,进一步用于:
使用高通滤波器和凹陷滤波器去除表面肌电信号中的噪声。
可选地,输出模块430,进一步用于:
S321、通过多层2D卷积对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列。
S322、将特征序列输入到Transformer模块的多层transformer网络中,得到编码结果。
可选地, Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块。
可选地,输出模块430,进一步用于:
S3221、将特征序列输入到输入表示模块,得到输入表示结果。
S3222、将输入表示结果输入到多头注意力模块,得到多头注意力结果。
S3223、将多头注意力结果输入到前向神经网络模块,得到编码结果。
可选地,输出模块430,进一步用于:
将特征序列通过线性变化进行维度调整,得到维度线性变化结果。
使用位置编码对维度线性变化结果的顺序信息进行建模,得到位置编码结果。
将维度线性变化结果以及位置编码结果相加,得到输入表示结果。
可选地,输出模块430,进一步用于:
将输入表示结果进行三种不同的线性变换,得到输入线性变换结果。
根据输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果。
将多个注意力的头的结果进行拼接,得到多头注意力结果。
可选地,输出模块430,进一步用于:
S331、分别对编码结果的每个时间步分配标签,得到标签序列。
S332、去除标签序列中的重复字符以及CTC中引入的blank字符,得到表面肌电信号的识别结果。
可选地,输入模块420,进一步用于:
采用Mixup数据增强方法和谱减法对无声语音识别模型进行数据增强。
本发明实施例中,解决了当前表面肌电信号数据不足的问题。该方法能够充分利用肌电信号数据,无需大量采集数据,降低数据采集资源消耗。除此之外,还提出了一种新的端到端无声语音识别方法,使用先进的transformer模型进行对表面肌电信号进行特征提取,使用CTC进行解码。
图5是本发明实施例提供的一种电子设备500的结构示意图,该电子设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessing units,CPU)501和一个或一个以上的存储器502,其中,存储器502中存储有至少一条指令,至少一条指令由处理器501加载并执行以实现下述基于数据增强的无声语音识别方法:
S1、获取待识别的表面肌电信号。
S2、将表面肌电信号输入到构建好的无声语音识别模型;其中,无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块。
S3、根据表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括指令的存储器,上述指令可由终端中的处理器执行以完成上述基于数据增强的无声语音识别方法。例如,计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种基于数据增强的无声语音识别方法,其特征在于,所述方法包括:
S1、获取待识别的表面肌电信号;
S2、将所述表面肌电信号输入到构建好的无声语音识别模型;其中,所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;
S3、根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本;
所述S3中的根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过所述数据预处理模块对所述表面肌电信号进行预处理;
S32、将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果;其中,所述编码器模块包括卷积模块和Transformer模块;
S33、将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本;其中,所述解码器模块为连接时序分类器CTC;
所述S33中的将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S331、分别对所述编码结果的每个时间步分配标签,得到标签序列;
S332、去除所述标签序列中的重复字符以及CTC中引入的blank字符,使用柱搜索得到待识别的表面肌电信号的对应的文本;
所述S2中无声语音识别模型的训练过程包括:采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强;
给定文本数据,让志愿者在不发声状态下和发声状态下分别读出所述文本数据,采集志愿者在不发声状态下和发声状态下的表面肌电信号,根据所述表面肌电信号对无声语音识别模型进行训练;
所述S31中的对所述表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除所述表面肌电信号中的噪声;对去除噪声后的表面肌电信号进行梅尔谱系数MFSC特征提取;
所述S32中的将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列;
S322、将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果;
所述S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块;
所述将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将所述特征序列输入到所述输入表示模块,得到输入表示结果;
S3222、将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果;
S3223、将所述多头注意力结果输入到所述前向神经网络模块,得到编码结果;
所述S3221中的将所述特征序列输入到所述输入表示模块,得到输入表示结果包括:
将所述特征序列通过线性变化进行维度调整,得到维度线性变化结果;
使用位置编码对所述维度线性变化结果的顺序信息进行建模,得到位置编码结果;
将所述维度线性变化结果以及位置编码结果相加,得到输入表示结果;
所述S3222中的将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果包括:
将所述输入表示结果进行三种不同的线性变换,得到输入线性变换结果;
根据所述输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果;
将所述多个注意力的头的结果进行拼接,得到多头注意力结果。
2.一种基于数据增强的无声语音识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别的表面肌电信号;
输入模块,用于将所述表面肌电信号输入到构建好的无声语音识别模型;其中,所述无声语音识别模型包括数据预处理模块、编码器模块以及解码器模块;
输出模块,用于根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本;
所述根据所述表面肌电信号、数据预处理模块、编码器模块以及解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S31、通过所述数据预处理模块对所述表面肌电信号进行预处理;
S32、将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果;其中,所述编码器模块包括卷积模块和Transformer模块;
S33、将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本;其中,所述解码器模块为连接时序分类器CTC;
所述S33中的将所述编码结果输入到所述解码器模块,得到待识别的表面肌电信号的对应的文本包括:
S331、分别对所述编码结果的每个时间步分配标签,得到标签序列;
S332、去除所述标签序列中的重复字符以及CTC中引入的blank字符,使用柱搜索得到待识别的表面肌电信号的对应的文本;
所述无声语音识别模型的训练过程包括:采用混类Mixup数据增强方法和谱减法、有声肌电信号对无声语音识别模型进行数据增强;
给定文本数据,让志愿者在不发声状态下和发声状态下分别读出所述文本数据,采集志愿者在不发声状态下和发声状态下的表面肌电信号,根据所述表面肌电信号对无声语音识别模型进行训练;
所述S31中的对所述表面肌电信号进行预处理包括:
使用高通滤波器和凹陷滤波器去除所述表面肌电信号中的噪声;对去除噪声后的表面肌电信号进行梅尔谱系数MFSC特征提取;
所述S32中的将预处理后的表面肌电信号输入到所述编码器模块,得到编码结果包括:
S321、通过卷积模块对预处理后的表面肌电信号进行空间上的特征提取及下采样,得到特征序列;
S322、将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果;
所述S322中的Transformer网络包括输入表示模块、多头注意力模块以及前向神经网络模块;
所述将所述特征序列输入到Transformer模块的多层transformer网络中,得到编码结果包括:
S3221、将所述特征序列输入到所述输入表示模块,得到输入表示结果;
S3222、将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果;
S3223、将所述多头注意力结果输入到所述前向神经网络模块,得到编码结果;
所述S3221中的将所述特征序列输入到所述输入表示模块,得到输入表示结果包括:
将所述特征序列通过线性变化进行维度调整,得到维度线性变化结果;
使用位置编码对所述维度线性变化结果的顺序信息进行建模,得到位置编码结果;
将所述维度线性变化结果以及位置编码结果相加,得到输入表示结果;
所述S3222中的将所述输入表示结果输入到所述多头注意力模块,得到多头注意力结果包括:
将所述输入表示结果进行三种不同的线性变换,得到输入线性变换结果;
根据所述输入线性变换结果分别计算多头注意力模块中每个注意力的头的结果,得到多个注意力的头的结果;
将所述多个注意力的头的结果进行拼接,得到多头注意力结果。
CN202210526443.9A 2022-05-16 2022-05-16 一种基于数据增强的无声语音识别方法及装置 Active CN114626424B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210526443.9A CN114626424B (zh) 2022-05-16 2022-05-16 一种基于数据增强的无声语音识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210526443.9A CN114626424B (zh) 2022-05-16 2022-05-16 一种基于数据增强的无声语音识别方法及装置

Publications (2)

Publication Number Publication Date
CN114626424A CN114626424A (zh) 2022-06-14
CN114626424B true CN114626424B (zh) 2022-09-13

Family

ID=81907046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210526443.9A Active CN114626424B (zh) 2022-05-16 2022-05-16 一种基于数据增强的无声语音识别方法及装置

Country Status (1)

Country Link
CN (1) CN114626424B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117316160B (zh) * 2023-11-30 2024-02-20 北京安声科技有限公司 无声语音识别方法、装置、电子设备和计算机可读介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
CN113870858A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的静默语音识别方法、装置及存储介质
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11216069B2 (en) * 2018-05-08 2022-01-04 Facebook Technologies, Llc Systems and methods for improved speech recognition using neuromuscular information
WO2019050881A1 (en) * 2017-09-05 2019-03-14 Massachusetts Institute Of Technology METHODS AND APPARATUS FOR SILENT VOICE INTERFACE
CN111985335A (zh) * 2020-07-20 2020-11-24 中国人民解放军军事科学院国防科技创新研究院 一种基于面部生理信息的唇语识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111968629A (zh) * 2020-07-08 2020-11-20 重庆邮电大学 一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法
CN113288183A (zh) * 2021-05-20 2021-08-24 中国科学技术大学 一种基于面颈部表面肌电的无声语音识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
CN113870858A (zh) * 2021-09-27 2021-12-31 平安科技(深圳)有限公司 基于人工智能的静默语音识别方法、装置及存储介质
CN114023316A (zh) * 2021-11-04 2022-02-08 匀熵科技(无锡)有限公司 基于TCN-Transformer-CTC的端到端中文语音识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Sequence-to-Sequence Voice Reconstruction for Silent Speech in a Tonal Language;Huiyan Li et al.;《arXiv:2108.00190v2 [cs.SD]》;20220328;第1-10页 *
基于安卓的无声语音识别App的设计与开发;乔波 等;《电脑知识与技术》;20200229;第16卷(第6期);第213-216页 *

Also Published As

Publication number Publication date
CN114626424A (zh) 2022-06-14

Similar Documents

Publication Publication Date Title
CN112489635B (zh) 一种基于增强注意力机制的多模态情感识别方法
Vasquez et al. Melnet: A generative model for audio in the frequency domain
CN113012720B (zh) 谱减法降噪下多语音特征融合的抑郁症检测方法
CN110767210A (zh) 一种生成个性化语音的方法及装置
CN114566189B (zh) 基于三维深度特征融合的语音情感识别方法及系统
CN115641543A (zh) 一种多模态抑郁情绪识别方法及装置
CN102237083A (zh) 一种基于WinCE平台的便携式口语翻译系统及其语言识别方法
CN114783418B (zh) 基于稀疏自注意力机制的端到端语音识别方法及系统
CN109065073A (zh) 基于深度svm网络模型的语音情感识别方法
CN109452932A (zh) 一种基于声音的体质辨识方法及设备
CN112259080A (zh) 一种基于神经网络模型的语音识别方法
CN112735404A (zh) 一种语音反讽检测方法、系统、终端设备和存储介质
CN115394287A (zh) 混合语种语音识别方法、装置、系统及存储介质
CN114999460A (zh) 一种结合Transformer的轻量化中文语音识别方法
CN114626424B (zh) 一种基于数据增强的无声语音识别方法及装置
CN111090726A (zh) 一种基于nlp的电力行业文字客服交互方法
CN114495969A (zh) 一种融合语音增强的语音识别方法
CN111653270B (zh) 语音处理方法、装置、计算机可读存储介质及电子设备
CN111488486A (zh) 一种基于多音源分离的电子音乐分类方法及系统
CN116612779A (zh) 一种基于深度学习的单通道语音分离的方法
CN117409765A (zh) 基于Transformer的青岛方言语音识别模型
Fujiwara et al. Data augmentation based on frequency warping for recognition of cleft palate speech
CN114822541A (zh) 一种基于回译的无声语音识别方法和系统
Shen Application of transfer learning algorithm and real time speech detection in music education platform
CN111259188B (zh) 一种基于seq2seq网络的歌词对齐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant