CN114863912B - 一种基于表面肌电信号的无声语音解码方法 - Google Patents

一种基于表面肌电信号的无声语音解码方法 Download PDF

Info

Publication number
CN114863912B
CN114863912B CN202210482376.5A CN202210482376A CN114863912B CN 114863912 B CN114863912 B CN 114863912B CN 202210482376 A CN202210482376 A CN 202210482376A CN 114863912 B CN114863912 B CN 114863912B
Authority
CN
China
Prior art keywords
layer
attention
matrix
header
decoding module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210482376.5A
Other languages
English (en)
Other versions
CN114863912A (zh
Inventor
张旭
宋芮
陈希
陈香
陈勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210482376.5A priority Critical patent/CN114863912B/zh
Publication of CN114863912A publication Critical patent/CN114863912A/zh
Application granted granted Critical
Publication of CN114863912B publication Critical patent/CN114863912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于表面肌电信号的无声语音解码方法,其步骤包括:1、采集无声语音肌电数据并提取特征构建训练数据集。2、搭建一个基于Transformer模型的解码网络。3、训练解码网络,并得到优化更新后的解码网络用于实现基于表面肌电信号的无声语音识别。本发明能够从无声语音肌电信号中解码出音节序列,有助于语义信息的理解,从而能实现高精度的无声语音识别。

Description

一种基于表面肌电信号的无声语音解码方法
技术领域
本发明涉及肌电信号处理及自然语言处理领域,特别涉及一种基于表面肌电信号的无声语音解码方法,主要应用于准确、自然的无声语音识别。
背景技术
语音能够承载并传递一定有意义的语义信息,是人类自然且有效的沟通途径。近年来,随着计算机科学技术的飞速发展,自动语音识别系统作为一种极具吸引力的人机交互方式备受关注。自动语音识别技术通过计算机能够实现语音信号到文本信息的转换。通过将语音识别接口集成到手机、音箱、汽车等智能设备中,自动语音识别技术广泛应用于人们的日常生活中。然而,这种技术在实际应用中仍然面临着一些挑战。首先,在恶劣的声学环境下,即存在环境噪声时,该技术的性能将受到影响;其次,该技术在维护通信隐私与安全方面存在问题;最后,该技术不适用于有语言障碍的人。从本质上讲,语音是由与发音相关的关节肌肉的神经肌肉活动产生的。而表面肌电信号(surface electromyography,sEMG)因其无创、便捷、能够反映神经肌肉系统相关活动信息的优点,在无声语音识别的实际应用中展现出巨大的潜力。
在过去的研究中,已经有多种方法被提出并成功应用于基于sEMG的无声语音识别。最初,研究者使用一些简单的模式识别算法对采集的孤立词的sEMG信号进行分类,具体包括:线性判别分析(Linear Discriminant Analysis,LDA)、K最近邻法(K-NearestNeighbor,KNN)、线性贝叶斯正态(Linear Bayes Normal,LBN)、支持向量机(SupportVector Machine,SVM)、随机森林(Random Forest,RF)、隐马尔科夫模型(Hidden MarkovModel,HMM)等。近年来,随着深度学习的发展,一些先进的神经网络也被应用于规模较小的孤立词语料库以实现无声语音识别,例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)等,并取得不错的效果。
然而,这些基于sEMG信号的无声语音识别研究大多都是对有限数量的孤立词进行模式分类。它只是建立了sEMG信号的活动模式与单词标签之间的简单映射,并不能很好地理解单词中包含的语义信息。事实上,语音交流应该是连贯的,且包含着丰富的语义信息,通常以短语或者句子的形式出现。换句话说,一个自然的、具有实用性的无声语音识别系统应该能够准确高效地从sEMG的活动模式中细粒度地解码出其中包含的语义信息,而不仅仅是对孤立词的简单分类。因此,上述基于孤立词的无声语音识别方法很难满足实际语音交流的需求。
发明内容
本发明为了克服现有基于sEMG的无声语音识别技术的不足之处,提出一种基于表面肌电信号的无声语音解码方法,以期能从sEMG的活动模式中解码出词或短语中更次级的结构,从而更好地理解sEMG的活动模式中包含的语义信息,以实现准确、自然的基于sEMG的无声语音识别。
本发明为解决技术问题,采用如下技术方案:
本发明一种基于表面肌电信号的无声语音解码方法的特点在于,包括:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示所述语料库中第v个中文短语,第v个中文短语ev由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且 代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且/> 代表音节序列标签yi中的第j个音节的标签,且/>{1,2,…,c,…,L},L表示所述字典中音节的总类别数,c表示所述字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,所述编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
所述解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、所述第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
ds=dmodel/Hs (1)
式(1)-式(6)中,ds为所述第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为所述第s个编码模块中的多头注意力层包含的头数;Qh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且 headh,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示所述第s个编码模块中的多头注意力层的权值矩阵,且/>
步骤2.1.3、所述第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对所述第s个编码模块的多头注意力层的输出矩阵进行处理,并得到输出矩阵
式(7)中,LayerNorm表示残差连接操作;
步骤2.1.4、所述第s个编码模块中的位置前馈网络层利用式(8)对所述输出矩阵进行处理,得到输出矩阵/>
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、所述第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对进行处理,得到第s个编码模块的输出矩阵/>
步骤2.1.6、若s≥N,则得到编码器的输出否则,s+1赋值给s,并令/>后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入 其中,emb表示词嵌入;
步骤2.2.2、所述第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
dq=dmodel/Lq (10)
式(10)-式(15)中,dq为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为所述第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且 为一个上三角矩阵,且headl,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵,且/>
步骤2.2.3、所述第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对所述第q个解码模块中的带掩码的多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.4、所述第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对和编码器的输出/>进行处理,并得到输出矩阵/>
d′q=dmodel/Uq (17)
式(17)-式(19)中,d'q为所述第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为所述第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示所述第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为所述第q个解码模块中的另一个多头注意力层的权值矩阵,且
步骤2.2.5、所述第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对所述第q个解码模块中的另一个多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.6、所述第q个解码模块中的位置前馈网络层利用式(21)对所述输出矩阵进行处理,得到输出矩阵/>
步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.8、若q≥N,则得到解码器的输出否则,q+1赋值给q,并令/>后,返回步骤2.2.2顺序执行;
步骤2.3、所述解码器的输出依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵/>
步骤2.4、将所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签然后利用一个相似度计算模块对所述第i个肌电信号特征样本xi的音节序列预测标签/>进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果/>且E={e1,…,ev,…,eR};
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新所述基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
式(23)中,pj,c表示所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
本发明所述的一种基于表面肌电信号的无声语音解码方法的特点也在于,所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本xi的音节序列预测标签进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果/>
式(24)-式(26)中,表示第i个肌电信号特征样本xi的音节序列预测标签与所述语料库E中第v个中文短语ev的相似度,/>为所述语料库E中第v个中文短语ev包含的音节数,Nsame是第i个肌电信号特征样本xi的音节序列预测标签/>和所述语料库E中第v个中文短语ev中相同音节的个数;max{·}表示取最大值函数,ew表示所述语料库E中与第i个肌电信号特征样本xi的音节序列预测标签/>相似度最高的中文短语。
与现有的技术相比,本发明能够取得最低的解码字错误率和最优的短语识别准确率,且能够从自然语言的角度刻画sEMG的活动模式中包含的语义信息,具体的有益效果体现在:
1、本发明采用一种新型的序列到序列的模型Transformer来实现无声语音肌电解码,其利用编码器进一步提取输入的肌电特征序列包含的有用信息,然后解码器再根据这些更高级别的特征向量解码出音节序列。这种编码器-解码器的结构能够很好地描述sEMG信号与短语的语义信息之间的关系,而不像分类器,只是简单地将sEMG信号的模式映射为单一的短语标签,从而为无声语音识别提供了一种自然、有效的实现方案。
2、本发明中采用的多头注意力层,是一种自注意力机制,通过计算输入的sEMG特征序列自身所有帧之间的相关性,即每帧的向量表达包含了其它帧的信息,相关性大的信息量大,相关性小的信息量小,从而对sEMG信号的全局信息的掌握能力更强,能够注意到最关键的部分,提取更具表现力的序列表示,有助于降低模型解码的字错误率。
3、本发明根据语料库,提出一个基于编辑距离的相似度计算模块,对解码的音节序列进一步微调,使其更加的符合语言规范,能够达到自然语言的水平,进一步提高了模型的短语识别准确率,从而有利于该模型在肌电控制、缄默通信领域的实际应用。
附图说明
图1为本发明实施例提供的模型框架示意图;
图2为本发明实施例提供的电极阵列形状规格和贴放位置示意图;
图3为本发明实施例提供的无声语音语料库示意图;
图4为本发明实施例提供的解码字错误率结果图;
图5为本发明实施例提供的短语识别准确率结果图。
具体实施方式
本实施例中,一种基于表面肌电信号的无声语音解码方法,如图1所示,其包括如下步骤:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示语料库中第v个中文短语,所有的R个中文短语由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且 代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且/> 代表音节序列标签yi中的第j个音节的标签,且/>L表示字典中音节的总类别数,c表示字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
具体实施中包括,(1)募集s位受试者,引导每位受试者以舒服的姿势端坐在安静的房间内,设备采集受试者面部、颈部相关肌肉的m通道高密度表面肌电信号,阵列电极阵列中单个电极触点的直径为p,电极中心间距为q。示例性的,可以设置:s=8,m=64,p=5mm,q=10mm、15mm、18mm,如图2所示。受试者记为S1-S8。
(2)逐一采集受试者无声发音语料库E中R个中文短语时的表面肌电信号,这R个中文短语由一个包含L个不同音节的字典生成,见图3。示例性的,设置R=33,L=82,即语料库E包含33个中文短语,包括82种不同的音节,且所有短语均来自智能家居、机械控制、消防救援等日常应用场景,每个短语的字数为2~6。每个短语被不发声地重复20遍,受试者每两次重复至少间隔3秒,以避免肌肉疲劳带来影响。
(3)为了利用解码网络处理序列数据的能力,以及更细粒度地提取原始肌电信号的特征,将每个短语的肌电信号被分割为T个连续的、不重叠的帧,并且T的取值与肌电信号的准平稳性有关,示例性的,T=60。
(4)对每帧的肌电信号数据提取特征,得到每个短语的肌电信号特征样本。示例性的,提取平均绝对值(Mean Absolute Value,MAV)、波长(Waveform Length,WL)、斜率符号变化率(Slope Sign Changes,SSC)以及过零率(Zero Crossing,ZC)这四个时域特征。为了更加具体全面地描述每一帧的信息,将每一帧的m个通道的四个时域特征拼接成一个一维向量,因此,dmodel=64*4=256,所以每个肌电信号特征样本xi由一个60×256的特征矩阵表示,对应的音节序列标签yi中的每个音节标签
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
ds=dmodel/Hs (1)
式(1)-式(6)中,ds为第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为第s个编码模块中的多头注意力层包含的头数;Qh,s为第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;表示第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,/>表示第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,/>表示第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且/> headh,s表示第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示第s个编码模块中的多头注意力层的权值矩阵,且/>
步骤2.1.3、第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对第s个编码模块的多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
式(7)中,LayerNorm表示残差连接;
步骤2.1.4、第s个编码模块中的位置前馈网络层利用式(8)对输出矩阵进行处理,得到输出矩阵/>
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对进行处理,得到第s个编码模块的输出矩阵/>
步骤2.1.6、若s≥N,则得到编码器的输出否则,s+1赋值给s,并令/>后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入 其中,emb表示词嵌入;
步骤2.2.2、第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
dq=dmodel/Lq (10)
式(10)-式(15)中,dq为第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,/>表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,/>表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且/> 为一个上三角矩阵,且/>headl,q表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示第q个解码模块中的带掩码的多头注意力层的权值矩阵,且/>
步骤2.2.3、第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对第q个解码模块中的带掩码的多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.4、第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对和编码器的输出/>进行处理,并得到输出矩阵/>
d′q=dmodel/Uq (17)
式(17)-式(19)中,d'q为第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为第q个解码模块中的另一个多头注意力层的权值矩阵,且
步骤2.2.5、第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对第q个解码模块中的另一个多头注意力层的输出矩阵进行处理,并得到输出矩阵
步骤2.2.6、第q个解码模块中的位置前馈网络层利用式(21)对输出矩阵进行处理,得到输出矩阵/>
步骤2.2.7、第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对第q个解码模块中的位置前馈网络层的输出矩阵进行处理,并得到输出矩阵
步骤2.2.8、若q≥N,则得到解码器的输出否则,q+1赋值给q,并令/>后,返回步骤2.2.2顺序执行;
步骤2.3、解码器的输出依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵/>
步骤2.4、将第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签然后利用一个相似度计算模块对第i个肌电信号特征样本xi的音节序列预测标签/>进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果/>且E={e1,…,ev,…,eR};
本实施例中,步骤2中编码器用于进一步提取输入的肌电特征数据中更具表现力的序列表示,解码器利用编码器的输出以及音节序列标签来学习肌电特征序列与音节序列标签的对应关系,从而在解码时能够准确高效地给出音节的预测值,它们所包含的编码或解码模块个数直接影响到模型的性能,由于本实验中采用的不是大规模数据集,因此编码或解码模块的个数需要设置的偏小一点,示例性的,N=4;步骤2.1.2中,编码模块中多头注意力的每一个注意力头会关注到肌电特征数据的不同部分,各司其职,从而使得这种自注意力机制发挥地更好,若头数过少则会丢失部分重要信息,因此需要设置较为适中的头数。所有的编码模块都是相同的结构,即每个编码模块中的多头注意力层的头数都是相同的,示例性的,HS=4,则ds=64;步骤2.2.2中,解码模块中带掩码的多头注意力层能够保证解码器在解码当前时刻时只能关注到之前的所有输出,而不会提前知晓未来的信息,符合实际应用时的预测规律。所有的解码模块都是相同的结构,即每个解码模块中的带掩码的多头注意力层的头数都是相同的,示例性的,Hq=4,则dq=64;步骤2.2.4中,解码模块另一个多头注意力层用来计算编码器与解码器之间的注意力关系,因此其查询矩阵的初始值为解码模块自身上一步的输出,键值矩阵和内容矩阵都等于编码器的输出。每个解码模块中的另一个多头注意力层的头数都是相同的,示例性的,Uq=4,则d'q=64。
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
式(23)中,pj,c表示第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
本实施实例中,将数据集D按照3:1:1划分为训练集、验证集、测试集,训练时Adam优化器的初始学习率过大会导致模型损失震荡,过小会陷入局部最优,示例性的,设置初始学习率γ=6×10-5,指数衰减率β1=0.9,β2=0.98,最大迭代次数stepnum=100。
为了量化评估本发明的效果,通过8位测试用户(记为S1-S8)将本发明方法(Transformer decoder)与一般的序列到序列的解码方法以及传统的分类方法进行比较。
对比实验中,一般的序列到序列解码方法采用的是基于LSTM的编码器-解码器模型,记为LSTM decoder,训练数据集和测试数据集与本发明方法相同。图4为上述LSTMdecoder解码方法与本发明方法的解码字错误率结果图,上述LSTM decoder方法的平均字错误率为12.04±5.82%,本发明方法平均字错误率为5.14±3.28%,明显优于一般的序列到序列解码方法。此外,我们又将本发明方法与基于CNN和LSTM的分类器在短语识别准确率上做了比较,分别记为CNN classifier和LSTM classifier,图5为上述两种分类方法和本发明方法短语识别准确率对比结果图。CNN分类器平均识别准确率为88.89±7.93%,LSTM分类器的平均识别准确率为91.44±4.09%,而本发明方法平均识别准确率达到96.37±2.06%,显著提升了短语的识别精度,明显优于两种分类方法。
综上所述,本发明能够克服传统的利用分类方法进行无声语音识别不够自然、实用的缺点,系统能够更细粒度地挖掘表面肌电信号中包含的语义信息,并利用根据语料库建立的语言模型进一步使解码的音节序列更加符合语言规范,以降低模型的解码错误率。本发明方法明显优于一般的序列到序列的解码方法和分类方法,对于无声语音识别系统的实际应用具有重要意义。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。

Claims (2)

1.一种基于表面肌电信号的无声语音解码方法,其特征在于,包括:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示所述语料库中第v个中文短语,第v个中文短语ev由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且 代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且/> 代表音节序列标签yi中的第j个音节的标签,且/> L表示所述字典中音节的总类别数,c表示所述字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,所述编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
所述解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、所述第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
ds=dmodel/Hs (1)
式(1)-式(6)中,ds为所述第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为所述第s个编码模块中的多头注意力层包含的头数;Qh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,/>表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且 headh,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示所述第s个编码模块中的多头注意力层的权值矩阵,且/>
步骤2.1.3、所述第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对所述第s个编码模块的多头注意力层的输出矩阵进行处理,并得到输出矩阵
式(7)中,LayerNorm表示残差连接操作;
步骤2.1.4、所述第s个编码模块中的位置前馈网络层利用式(8)对所述输出矩阵进行处理,得到输出矩阵/>
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、所述第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对进行处理,得到第s个编码模块的输出矩阵/>
步骤2.1.6、若s≥N,则得到编码器的输出否则,s+1赋值给s,并令/>后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入 其中,emb表示词嵌入;
步骤2.2.2、所述第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
dq=dmodel/Lq (10)
式(10)-式(15)中,dq为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为所述第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,/>表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且/> 为一个上三角矩阵,且/>headl,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵,且
步骤2.2.3、所述第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对所述第q个解码模块中的带掩码的多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.4、所述第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对和编码器的输出/>进行处理,并得到输出矩阵/>
d′q=dmodel/Uq (17)
式(17)-式(19)中,d'q为所述第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为所述第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示所述第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为所述第q个解码模块中的另一个多头注意力层的权值矩阵,且
步骤2.2.5、所述第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对所述第q个解码模块中的另一个多头注意力层的输出矩阵进行处理,并得到输出矩阵/>
步骤2.2.6、所述第q个解码模块中的位置前馈网络层利用式(21)对所述输出矩阵进行处理,得到输出矩阵/>
步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵进行处理,并得到输出矩阵
步骤2.2.8、若q≥N,则得到解码器的输出否则,q+1赋值给q,并令/>后,返回步骤2.2.2顺序执行;
步骤2.3、所述解码器的输出依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵/>
步骤2.4、将所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签然后利用一个相似度计算模块对所述第i个肌电信号特征样本xi的音节序列预测标签/>进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果/>且E={e1,…,ev,…,eR};
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新所述基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
式(23)中,pj,c表示所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
2.根据权利要求1所述的一种基于表面肌电信号的无声语音解码方法,其特征是,所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本xi的音节序列预测标签进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果/>
式(24)-式(26)中,表示第i个肌电信号特征样本xi的音节序列预测标签/>与所述语料库E中第v个中文短语ev的相似度,/>为所述语料库E中第v个中文短语ev包含的音节数,Nsame是第i个肌电信号特征样本xi的音节序列预测标签/>和所述语料库E中第v个中文短语ev中相同音节的个数;max{·}表示取最大值函数,ew表示所述语料库E中与第i个肌电信号特征样本xi的音节序列预测标签/>相似度最高的中文短语。
CN202210482376.5A 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法 Active CN114863912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210482376.5A CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210482376.5A CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Publications (2)

Publication Number Publication Date
CN114863912A CN114863912A (zh) 2022-08-05
CN114863912B true CN114863912B (zh) 2024-05-10

Family

ID=82634967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210482376.5A Active CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Country Status (1)

Country Link
CN (1) CN114863912B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857706B (zh) * 2023-03-03 2023-06-06 浙江强脑科技有限公司 基于面部肌肉状态的文字输入方法、装置及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239744A (zh) * 2021-04-25 2021-08-10 西安电子科技大学 基于深度学习的脑电-肌电信号融合识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
WO2022027822A1 (zh) * 2020-08-03 2022-02-10 南京邮电大学 一种基于肌电信号的智能手势动作生成方法
JP2022039977A (ja) * 2020-08-27 2022-03-10 清華大学 ドライバー方向転換意思連続予測方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022027822A1 (zh) * 2020-08-03 2022-02-10 南京邮电大学 一种基于肌电信号的智能手势动作生成方法
JP2022039977A (ja) * 2020-08-27 2022-03-10 清華大学 ドライバー方向転換意思連続予測方法およびシステム
CN113239744A (zh) * 2021-04-25 2021-08-10 西安电子科技大学 基于深度学习的脑电-肌电信号融合识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于Transformer的越南语连续语音识别;刘佳文;屈丹;杨绪魁;张昊;唐君;;信息工程大学学报;20200415(第02期);全文 *
带置信度的基于sEMG的无声语音识别研究;王鑫;乔波;杨梦;;电脑知识与技术;20200615(第17期);全文 *

Also Published As

Publication number Publication date
CN114863912A (zh) 2022-08-05

Similar Documents

Publication Publication Date Title
US11194972B1 (en) Semantic sentiment analysis method fusing in-depth features and time sequence models
Kahn et al. Libri-light: A benchmark for asr with limited or no supervision
Audhkhasi et al. End-to-end ASR-free keyword search from speech
Vashisht et al. Speech recognition using machine learning
CN112101044B (zh) 一种意图识别方法、装置及电子设备
CN110321418A (zh) 一种基于深度学习的领域、意图识别和槽填充方法
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
Bose et al. Deep learning for audio signal classification
Liu et al. Exploiting morphological and phonological features to improve prosodic phrasing for mongolian speech synthesis
Sarkar et al. Time-contrastive learning based deep bottleneck features for text-dependent speaker verification
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
Bluche et al. Predicting detection filters for small footprint open-vocabulary keyword spotting
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
CN114863912B (zh) 一种基于表面肌电信号的无声语音解码方法
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
Xu et al. A comprehensive survey of automated audio captioning
CN117711398A (zh) 一种语音交互教学方法、装置及眼镜
CN117198267A (zh) 一种地方方言语音智能识别与问答方法、系统、设备及介质
Chen et al. Research on Chinese audio and text alignment algorithm based on AIC-FCM and Doc2Vec
Wang et al. Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis
Sung et al. Speech Recognition via CTC-CNN Model
Getman End-to-end low-resource automatic speech recognition for second language learners
Ahn et al. Recurrent multi-head attention fusion network for combining audio and text for speech emotion recognition.
CN112287690A (zh) 基于条件句子生成和跨模态重排的手语翻译方法
Bakheet Improving speech recognition for arabic language using low amounts of labeled data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant