CN114863912A - 一种基于表面肌电信号的无声语音解码方法 - Google Patents

一种基于表面肌电信号的无声语音解码方法 Download PDF

Info

Publication number
CN114863912A
CN114863912A CN202210482376.5A CN202210482376A CN114863912A CN 114863912 A CN114863912 A CN 114863912A CN 202210482376 A CN202210482376 A CN 202210482376A CN 114863912 A CN114863912 A CN 114863912A
Authority
CN
China
Prior art keywords
layer
head
attention
ith
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210482376.5A
Other languages
English (en)
Other versions
CN114863912B (zh
Inventor
张旭
宋芮
陈希
陈香
陈勋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Science and Technology of China USTC
Original Assignee
University of Science and Technology of China USTC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Science and Technology of China USTC filed Critical University of Science and Technology of China USTC
Priority to CN202210482376.5A priority Critical patent/CN114863912B/zh
Publication of CN114863912A publication Critical patent/CN114863912A/zh
Application granted granted Critical
Publication of CN114863912B publication Critical patent/CN114863912B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/08Feature extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing
    • G06F2218/12Classification; Matching
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Acoustics & Sound (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于表面肌电信号的无声语音解码方法,其步骤包括:1、采集无声语音肌电数据并提取特征构建训练数据集。2、搭建一个基于Transformer模型的解码网络。3、训练解码网络,并得到优化更新后的解码网络用于实现基于表面肌电信号的无声语音识别。本发明能够从无声语音肌电信号中解码出音节序列,有助于语义信息的理解,从而能实现高精度的无声语音识别。

Description

一种基于表面肌电信号的无声语音解码方法
技术领域
本发明涉及肌电信号处理及自然语言处理领域,特别涉及一种基于表面肌电信号的无声语音解码方法,主要应用于准确、自然的无声语音识别。
背景技术
语音能够承载并传递一定有意义的语义信息,是人类自然且有效的沟通途径。近年来,随着计算机科学技术的飞速发展,自动语音识别系统作为一种极具吸引力的人机交互方式备受关注。自动语音识别技术通过计算机能够实现语音信号到文本信息的转换。通过将语音识别接口集成到手机、音箱、汽车等智能设备中,自动语音识别技术广泛应用于人们的日常生活中。然而,这种技术在实际应用中仍然面临着一些挑战。首先,在恶劣的声学环境下,即存在环境噪声时,该技术的性能将受到影响;其次,该技术在维护通信隐私与安全方面存在问题;最后,该技术不适用于有语言障碍的人。从本质上讲,语音是由与发音相关的关节肌肉的神经肌肉活动产生的。而表面肌电信号(surface electromyography,sEMG)因其无创、便捷、能够反映神经肌肉系统相关活动信息的优点,在无声语音识别的实际应用中展现出巨大的潜力。
在过去的研究中,已经有多种方法被提出并成功应用于基于sEMG的无声语音识别。最初,研究者使用一些简单的模式识别算法对采集的孤立词的sEMG信号进行分类,具体包括:线性判别分析(Linear Discriminant Analysis,LDA)、K最近邻法(K-NearestNeighbor,KNN)、线性贝叶斯正态(Linear Bayes Normal,LBN)、支持向量机(SupportVector Machine,SVM)、随机森林(Random Forest,RF)、隐马尔科夫模型(Hidden MarkovModel,HMM)等。近年来,随着深度学习的发展,一些先进的神经网络也被应用于规模较小的孤立词语料库以实现无声语音识别,例如卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)和长短期记忆网络(Long Short-Term Memory,LSTM)等,并取得不错的效果。
然而,这些基于sEMG信号的无声语音识别研究大多都是对有限数量的孤立词进行模式分类。它只是建立了sEMG信号的活动模式与单词标签之间的简单映射,并不能很好地理解单词中包含的语义信息。事实上,语音交流应该是连贯的,且包含着丰富的语义信息,通常以短语或者句子的形式出现。换句话说,一个自然的、具有实用性的无声语音识别系统应该能够准确高效地从sEMG的活动模式中细粒度地解码出其中包含的语义信息,而不仅仅是对孤立词的简单分类。因此,上述基于孤立词的无声语音识别方法很难满足实际语音交流的需求。
发明内容
本发明为了克服现有基于sEMG的无声语音识别技术的不足之处,提出一种基于表面肌电信号的无声语音解码方法,以期能从sEMG的活动模式中解码出词或短语中更次级的结构,从而更好地理解sEMG的活动模式中包含的语义信息,以实现准确、自然的基于sEMG的无声语音识别。
本发明为解决技术问题,采用如下技术方案:
本发明一种基于表面肌电信号的无声语音解码方法的特点在于,包括:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示所述语料库中第v个中文短语,第v个中文短语ev由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且
Figure BDA0003628071500000021
Figure BDA0003628071500000022
代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且
Figure BDA0003628071500000023
Figure BDA0003628071500000024
Figure BDA0003628071500000025
代表音节序列标签yi中的第j个音节的标签,且
Figure BDA0003628071500000026
{1,2,…,c,…,L},L表示所述字典中音节的总类别数,c表示所述字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,所述编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
所述解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、所述第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
Figure BDA0003628071500000031
ds=dmodel/Hs (1)
Figure BDA0003628071500000032
Figure BDA0003628071500000033
Figure BDA0003628071500000034
Figure BDA0003628071500000035
Figure BDA0003628071500000036
式(1)-式(6)中,ds为所述第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为所述第s个编码模块中的多头注意力层包含的头数;Qh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;
Figure BDA0003628071500000037
表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,
Figure BDA0003628071500000038
表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,
Figure BDA0003628071500000039
表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且
Figure BDA00036280715000000310
Figure BDA00036280715000000311
headh,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示所述第s个编码模块中的多头注意力层的权值矩阵,且
Figure BDA00036280715000000312
步骤2.1.3、所述第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对所述第s个编码模块的多头注意力层的输出矩阵
Figure BDA00036280715000000313
进行处理,并得到输出矩阵
Figure BDA00036280715000000314
Figure BDA00036280715000000315
式(7)中,LayerNorm表示残差连接操作;
步骤2.1.4、所述第s个编码模块中的位置前馈网络层利用式(8)对所述输出矩阵
Figure BDA00036280715000000316
进行处理,得到输出矩阵
Figure BDA00036280715000000317
Figure BDA00036280715000000318
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、所述第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对
Figure BDA00036280715000000319
进行处理,得到第s个编码模块的输出矩阵
Figure BDA00036280715000000320
Figure BDA0003628071500000041
步骤2.1.6、若s≥N,则得到编码器的输出
Figure BDA0003628071500000042
否则,s+1赋值给s,并令
Figure BDA0003628071500000043
后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入
Figure BDA0003628071500000044
Figure BDA0003628071500000045
其中,emb表示词嵌入;
步骤2.2.2、所述第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
Figure BDA0003628071500000046
dq=dmodel/Lq (10)
Figure BDA0003628071500000047
Figure BDA0003628071500000048
Figure BDA0003628071500000049
Figure BDA00036280715000000410
Figure BDA00036280715000000411
式(10)-式(15)中,dq为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为所述第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;
Figure BDA00036280715000000412
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,
Figure BDA00036280715000000413
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,
Figure BDA00036280715000000414
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且
Figure BDA00036280715000000415
Figure BDA00036280715000000416
Figure BDA00036280715000000417
为一个上三角矩阵,且
Figure BDA00036280715000000418
headl,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵,且
Figure BDA00036280715000000419
步骤2.2.3、所述第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对所述第q个解码模块中的带掩码的多头注意力层的输出矩阵
Figure BDA00036280715000000420
进行处理,并得到输出矩阵
Figure BDA00036280715000000421
Figure BDA0003628071500000051
步骤2.2.4、所述第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对
Figure BDA0003628071500000052
和编码器的输出
Figure BDA0003628071500000053
进行处理,并得到输出矩阵
Figure BDA0003628071500000054
d′q=dmodel/Uq (17)
Figure BDA0003628071500000055
Figure BDA0003628071500000056
式(17)-式(19)中,d'q为所述第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为所述第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示所述第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为所述第q个解码模块中的另一个多头注意力层的权值矩阵,且
Figure BDA0003628071500000057
步骤2.2.5、所述第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对所述第q个解码模块中的另一个多头注意力层的输出矩阵
Figure BDA0003628071500000058
进行处理,并得到输出矩阵
Figure BDA0003628071500000059
Figure BDA00036280715000000510
步骤2.2.6、所述第q个解码模块中的位置前馈网络层利用式(21)对所述输出矩阵
Figure BDA00036280715000000511
进行处理,得到输出矩阵
Figure BDA00036280715000000512
Figure BDA00036280715000000513
步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵
Figure BDA00036280715000000514
进行处理,并得到输出矩阵
Figure BDA00036280715000000515
Figure BDA00036280715000000516
Figure BDA00036280715000000517
步骤2.2.8、若q≥N,则得到解码器的输出
Figure BDA00036280715000000518
否则,q+1赋值给q,并令
Figure BDA00036280715000000519
后,返回步骤2.2.2顺序执行;
步骤2.3、所述解码器的输出
Figure BDA00036280715000000520
依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵
Figure BDA00036280715000000521
步骤2.4、将所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000000522
然后利用一个相似度计算模块对所述第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA0003628071500000061
进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果
Figure BDA0003628071500000062
且E={e1,…,ev,…,eR};
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新所述基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
Figure BDA0003628071500000063
式(23)中,pj,c表示所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
本发明所述的一种基于表面肌电信号的无声语音解码方法的特点也在于,所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA0003628071500000064
进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果
Figure BDA0003628071500000065
Figure BDA0003628071500000066
Figure BDA0003628071500000067
Figure BDA0003628071500000068
式(24)-式(26)中,
Figure BDA0003628071500000069
表示第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000000610
与所述语料库E中第v个中文短语ev的相似度,
Figure BDA00036280715000000611
为所述语料库E中第v个中文短语ev包含的音节数,Nsame是第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000000612
和所述语料库E中第v个中文短语ev中相同音节的个数;max{·}表示取最大值函数,ew表示所述语料库E中与第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000000613
相似度最高的中文短语。
与现有的技术相比,本发明能够取得最低的解码字错误率和最优的短语识别准确率,且能够从自然语言的角度刻画sEMG的活动模式中包含的语义信息,具体的有益效果体现在:
1、本发明采用一种新型的序列到序列的模型Transformer来实现无声语音肌电解码,其利用编码器进一步提取输入的肌电特征序列包含的有用信息,然后解码器再根据这些更高级别的特征向量解码出音节序列。这种编码器-解码器的结构能够很好地描述sEMG信号与短语的语义信息之间的关系,而不像分类器,只是简单地将sEMG信号的模式映射为单一的短语标签,从而为无声语音识别提供了一种自然、有效的实现方案。
2、本发明中采用的多头注意力层,是一种自注意力机制,通过计算输入的sEMG特征序列自身所有帧之间的相关性,即每帧的向量表达包含了其它帧的信息,相关性大的信息量大,相关性小的信息量小,从而对sEMG信号的全局信息的掌握能力更强,能够注意到最关键的部分,提取更具表现力的序列表示,有助于降低模型解码的字错误率。
3、本发明根据语料库,提出一个基于编辑距离的相似度计算模块,对解码的音节序列进一步微调,使其更加的符合语言规范,能够达到自然语言的水平,进一步提高了模型的短语识别准确率,从而有利于该模型在肌电控制、缄默通信领域的实际应用。
附图说明
图1为本发明实施例提供的模型框架示意图;
图2为本发明实施例提供的电极阵列形状规格和贴放位置示意图;
图3为本发明实施例提供的无声语音语料库示意图;
图4为本发明实施例提供的解码字错误率结果图;
图5为本发明实施例提供的短语识别准确率结果图。
具体实施方式
本实施例中,一种基于表面肌电信号的无声语音解码方法,如图1所示,其包括如下步骤:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示语料库中第v个中文短语,所有的R个中文短语由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且
Figure BDA0003628071500000071
Figure BDA0003628071500000072
代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且
Figure BDA0003628071500000073
Figure BDA0003628071500000074
代表音节序列标签yi中的第j个音节的标签,且
Figure BDA0003628071500000075
L表示字典中音节的总类别数,c表示字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
具体实施中包括,(1)募集s位受试者,引导每位受试者以舒服的姿势端坐在安静的房间内,设备采集受试者面部、颈部相关肌肉的m通道高密度表面肌电信号,阵列电极阵列中单个电极触点的直径为p,电极中心间距为q。示例性的,可以设置:s=8,m=64,p=5mm,q=10mm、15mm、18mm,如图2所示。受试者记为S1-S8。
(2)逐一采集受试者无声发音语料库E中R个中文短语时的表面肌电信号,这R个中文短语由一个包含L个不同音节的字典生成,见图3。示例性的,设置R=33,L=82,即语料库E包含33个中文短语,包括82种不同的音节,且所有短语均来自智能家居、机械控制、消防救援等日常应用场景,每个短语的字数为2~6。每个短语被不发声地重复20遍,受试者每两次重复至少间隔3秒,以避免肌肉疲劳带来影响。
(3)为了利用解码网络处理序列数据的能力,以及更细粒度地提取原始肌电信号的特征,将每个短语的肌电信号被分割为T个连续的、不重叠的帧,并且T的取值与肌电信号的准平稳性有关,示例性的,T=60。
(4)对每帧的肌电信号数据提取特征,得到每个短语的肌电信号特征样本。示例性的,提取平均绝对值(Mean Absolute Value,MAV)、波长(Waveform Length,WL)、斜率符号变化率(Slope Sign Changes,SSC)以及过零率(Zero Crossing,ZC)这四个时域特征。为了更加具体全面地描述每一帧的信息,将每一帧的m个通道的四个时域特征拼接成一个一维向量,因此,dmodel=64*4=256,所以每个肌电信号特征样本xi由一个60×256的特征矩阵表示,对应的音节序列标签yi中的每个音节标签
Figure BDA0003628071500000081
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
Figure BDA0003628071500000082
ds=dmodel/Hs (1)
Figure BDA0003628071500000083
Figure BDA0003628071500000084
Figure BDA0003628071500000085
Figure BDA0003628071500000091
Figure BDA0003628071500000092
式(1)-式(6)中,ds为第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为第s个编码模块中的多头注意力层包含的头数;Qh,s为第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;
Figure BDA0003628071500000093
表示第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,
Figure BDA0003628071500000094
表示第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,
Figure BDA0003628071500000095
表示第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且
Figure BDA0003628071500000096
Figure BDA0003628071500000097
headh,s表示第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示第s个编码模块中的多头注意力层的权值矩阵,且
Figure BDA0003628071500000098
Figure BDA0003628071500000099
步骤2.1.3、第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对第s个编码模块的多头注意力层的输出矩阵
Figure BDA00036280715000000910
进行处理,并得到输出矩阵
Figure BDA00036280715000000911
Figure BDA00036280715000000912
式(7)中,LayerNorm表示残差连接;
步骤2.1.4、第s个编码模块中的位置前馈网络层利用式(8)对输出矩阵
Figure BDA00036280715000000913
进行处理,得到输出矩阵
Figure BDA00036280715000000914
Figure BDA00036280715000000915
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对
Figure BDA00036280715000000916
进行处理,得到第s个编码模块的输出矩阵
Figure BDA00036280715000000917
Figure BDA00036280715000000918
步骤2.1.6、若s≥N,则得到编码器的输出
Figure BDA00036280715000000919
否则,s+1赋值给s,并令
Figure BDA00036280715000000920
后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入
Figure BDA00036280715000000921
Figure BDA00036280715000000922
其中,emb表示词嵌入;
步骤2.2.2、第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
Figure BDA0003628071500000101
dq=dmodel/Lq (10)
Figure BDA0003628071500000102
Figure BDA0003628071500000103
Figure BDA0003628071500000104
Figure BDA0003628071500000105
Figure BDA0003628071500000106
式(10)-式(15)中,dq为第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;
Figure BDA0003628071500000107
表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,
Figure BDA0003628071500000108
表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,
Figure BDA0003628071500000109
表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且
Figure BDA00036280715000001010
Figure BDA00036280715000001011
为一个上三角矩阵,且
Figure BDA00036280715000001012
headl,q表示第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示第q个解码模块中的带掩码的多头注意力层的权值矩阵,且
Figure BDA00036280715000001013
步骤2.2.3、第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对第q个解码模块中的带掩码的多头注意力层的输出矩阵
Figure BDA00036280715000001014
进行处理,并得到输出矩阵
Figure BDA00036280715000001015
Figure BDA00036280715000001016
Figure BDA00036280715000001017
步骤2.2.4、第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对
Figure BDA00036280715000001018
和编码器的输出
Figure BDA00036280715000001019
进行处理,并得到输出矩阵
Figure BDA00036280715000001020
d′q=dmodel/Uq (17)
Figure BDA0003628071500000111
Figure BDA0003628071500000112
式(17)-式(19)中,d'q为第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为第q个解码模块中的另一个多头注意力层的权值矩阵,且
Figure BDA0003628071500000113
步骤2.2.5、第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对第q个解码模块中的另一个多头注意力层的输出矩阵
Figure BDA0003628071500000114
进行处理,并得到输出矩阵
Figure BDA0003628071500000115
Figure BDA0003628071500000116
Figure BDA0003628071500000117
步骤2.2.6、第q个解码模块中的位置前馈网络层利用式(21)对输出矩阵
Figure BDA0003628071500000118
进行处理,得到输出矩阵
Figure BDA0003628071500000119
Figure BDA00036280715000001110
步骤2.2.7、第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对第q个解码模块中的位置前馈网络层的输出矩阵
Figure BDA00036280715000001111
进行处理,并得到输出矩阵
Figure BDA00036280715000001112
Figure BDA00036280715000001113
Figure BDA00036280715000001114
步骤2.2.8、若q≥N,则得到解码器的输出
Figure BDA00036280715000001115
否则,q+1赋值给q,并令
Figure BDA00036280715000001116
后,返回步骤2.2.2顺序执行;
步骤2.3、解码器的输出
Figure BDA00036280715000001117
依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵
Figure BDA00036280715000001118
步骤2.4、将第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000001119
然后利用一个相似度计算模块对第i个肌电信号特征样本xi的音节序列预测标签
Figure BDA00036280715000001120
进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果
Figure BDA00036280715000001121
且E={e1,…,ev,…,eR};
本实施例中,步骤2中编码器用于进一步提取输入的肌电特征数据中更具表现力的序列表示,解码器利用编码器的输出以及音节序列标签来学习肌电特征序列与音节序列标签的对应关系,从而在解码时能够准确高效地给出音节的预测值,它们所包含的编码或解码模块个数直接影响到模型的性能,由于本实验中采用的不是大规模数据集,因此编码或解码模块的个数需要设置的偏小一点,示例性的,N=4;步骤2.1.2中,编码模块中多头注意力的每一个注意力头会关注到肌电特征数据的不同部分,各司其职,从而使得这种自注意力机制发挥地更好,若头数过少则会丢失部分重要信息,因此需要设置较为适中的头数。所有的编码模块都是相同的结构,即每个编码模块中的多头注意力层的头数都是相同的,示例性的,HS=4,则ds=64;步骤2.2.2中,解码模块中带掩码的多头注意力层能够保证解码器在解码当前时刻时只能关注到之前的所有输出,而不会提前知晓未来的信息,符合实际应用时的预测规律。所有的解码模块都是相同的结构,即每个解码模块中的带掩码的多头注意力层的头数都是相同的,示例性的,Hq=4,则dq=64;步骤2.2.4中,解码模块另一个多头注意力层用来计算编码器与解码器之间的注意力关系,因此其查询矩阵的初始值为解码模块自身上一步的输出,键值矩阵和内容矩阵都等于编码器的输出。每个解码模块中的另一个多头注意力层的头数都是相同的,示例性的,Uq=4,则d'q=64。
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
Figure BDA0003628071500000121
式(23)中,pj,c表示第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
本实施实例中,将数据集D按照3:1:1划分为训练集、验证集、测试集,训练时Adam优化器的初始学习率过大会导致模型损失震荡,过小会陷入局部最优,示例性的,设置初始学习率γ=6×10-5,指数衰减率β1=0.9,β2=0.98,最大迭代次数stepnum=100。
为了量化评估本发明的效果,通过8位测试用户(记为S1-S8)将本发明方法(Transformer decoder)与一般的序列到序列的解码方法以及传统的分类方法进行比较。
对比实验中,一般的序列到序列解码方法采用的是基于LSTM的编码器-解码器模型,记为LSTM decoder,训练数据集和测试数据集与本发明方法相同。图4为上述LSTMdecoder解码方法与本发明方法的解码字错误率结果图,上述LSTM decoder方法的平均字错误率为12.04±5.82%,本发明方法平均字错误率为5.14±3.28%,明显优于一般的序列到序列解码方法。此外,我们又将本发明方法与基于CNN和LSTM的分类器在短语识别准确率上做了比较,分别记为CNN classifier和LSTM classifier,图5为上述两种分类方法和本发明方法短语识别准确率对比结果图。CNN分类器平均识别准确率为88.89±7.93%,LSTM分类器的平均识别准确率为91.44±4.09%,而本发明方法平均识别准确率达到96.37±2.06%,显著提升了短语的识别精度,明显优于两种分类方法。
综上所述,本发明能够克服传统的利用分类方法进行无声语音识别不够自然、实用的缺点,系统能够更细粒度地挖掘表面肌电信号中包含的语义信息,并利用根据语料库建立的语言模型进一步使解码的音节序列更加符合语言规范,以降低模型的解码错误率。本发明方法明显优于一般的序列到序列的解码方法和分类方法,对于无声语音识别系统的实际应用具有重要意义。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。

Claims (2)

1.一种基于表面肌电信号的无声语音解码方法,其特征在于,包括:
步骤1、构建无声语音表面肌电数据集D:
构建一个包含R个中文短语的语料库E={e1,…,ev,…,eR},其中,ev表示所述语料库中第v个中文短语,第v个中文短语ev由一个包含L个不同音节的字典生成;利用柔性高密度电极阵列和多通道信号转换设备采集用户无声发音所述语料库的表面肌电信号数据,然后将表面肌电信号数据分成不重叠的帧,并分别提取每帧的时域特征,从而得到M个肌电信号特征样本,并记为数据集D={(x1,y1),(x2,y2),...,(xi,yi),...,(xM,yM)},其中,xi表示第i个肌电信号特征样本,且
Figure FDA0003628071490000011
Figure FDA0003628071490000012
代表第i个肌电信号特征样本xi中第t帧的特征向量,ni表示第i个肌电信号特征样本xi包含的帧数,dmodel为特征向量的维度;yi表示第i个肌电信号特征样本xi的音节序列标签,且
Figure FDA0003628071490000013
Figure FDA0003628071490000014
Figure FDA0003628071490000015
代表音节序列标签yi中的第j个音节的标签,且
Figure FDA0003628071490000016
Figure FDA0003628071490000017
L表示所述字典中音节的总类别数,c表示所述字典中第c个音节类别,mi表示音节序列标签yi中包含的总音节数;
步骤2、构建一个基于Transformer模型的解码网络,包括:编码器、解码器、一个全连接层、一个softmax层和一个相似度计算模块;
其中,所述编码器由N个相同的编码模块堆叠组成;每个编码模块包含一个多头注意力层、一个位置前馈网络层、两个残差连接层和两个层归一化层;
所述解码器由N个相同的解码模块堆叠组成;每个解码模块包含一个带掩码的多头注意力层,一个多头注意力层,一个位置前馈网络层,三个残差连接层和三个层归一化层;
步骤2.1、编码器的处理:
步骤2.1.1、定义并初始化变量s=1,定义并初始化第s个编码模块的输入Xs=xi
步骤2.1.2、所述第s个编码模块中的多头注意力层根据输入Xs,利用式(1)-式(6)得到第s个编码模块的多头注意力层的输出矩阵
Figure FDA0003628071490000018
ds=dmodel/Hs (1)
Figure FDA0003628071490000019
Figure FDA00036280714900000110
Figure FDA00036280714900000111
Figure FDA00036280714900000112
Figure FDA00036280714900000113
式(1)-式(6)中,ds为所述第s个编码模块中的多头注意力层的每个注意力头的维数;Hs为所述第s个编码模块中的多头注意力层包含的头数;Qh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的查询矩阵、Kh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的键值矩阵、Vh,s为所述第s个编码模块中的多头注意力层的第h个注意力头的内容矩阵;
Figure FDA0003628071490000021
表示所述第s个编码模块中的多头注意力层的第h个注意力头的查询权值矩阵,
Figure FDA0003628071490000022
表示所述第s个编码模块中的多头注意力层的第h个注意力头的键值权值矩阵,
Figure FDA0003628071490000023
表示所述第s个编码模块中的多头注意力层的第h个注意力头的内容权值矩阵,且
Figure FDA0003628071490000024
Figure FDA0003628071490000025
headh,s表示所述第s个编码模块中的多头注意力层的第h个注意力头的输出结果;Concat表示拼接操作;Ws表示所述第s个编码模块中的多头注意力层的权值矩阵,且
Figure FDA0003628071490000026
步骤2.1.3、所述第s个编码模块中的一个残差连接层和一个层归一化层利用式(7)对所述第s个编码模块的多头注意力层的输出矩阵
Figure FDA0003628071490000027
进行处理,并得到输出矩阵
Figure FDA0003628071490000028
Figure FDA0003628071490000029
式(7)中,LayerNorm表示残差连接操作;
步骤2.1.4、所述第s个编码模块中的位置前馈网络层利用式(8)对所述输出矩阵
Figure FDA00036280714900000210
进行处理,得到输出矩阵
Figure FDA00036280714900000211
Figure FDA00036280714900000212
式(8)中,δ(·)为线性激活函数,σ(·)为Relu激活函数;
步骤2.1.5、所述第s个编码模块中的另一个残差连接层和另一个层归一化层利用式(9)对
Figure FDA00036280714900000213
进行处理,得到第s个编码模块的输出矩阵
Figure FDA00036280714900000214
Figure FDA00036280714900000215
步骤2.1.6、若s≥N,则得到编码器的输出
Figure FDA00036280714900000216
否则,s+1赋值给s,并令
Figure FDA00036280714900000217
后,返回步骤2.1.2顺序执行;
步骤2.2、解码器的处理:
步骤2.2.1、定义并初始化变量q=1,定义并初始化第q个解码模块的输入
Figure FDA00036280714900000218
Figure FDA00036280714900000219
其中,emb表示词嵌入;
步骤2.2.2、所述第q个解码模块中的带掩码的多头注意力层利用式(10)-式(15)对输入Yq进行处理,得到第q个解码模块的多头注意力层的输出矩阵
Figure FDA00036280714900000220
dq=dmodel/Lq (10)
Figure FDA0003628071490000031
Figure FDA0003628071490000032
Figure FDA0003628071490000033
Figure FDA0003628071490000034
Figure FDA0003628071490000035
式(10)-式(15)中,dq为所述第q个解码模块中的带掩码的多头注意力层的每个注意力头的维数;Lq为所述第q个解码模块中的带掩码的多头注意力层包含的头数;Ql,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询矩阵、Kl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值矩阵、Vl,q为所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容矩阵;
Figure FDA0003628071490000036
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的查询权值矩阵,
Figure FDA0003628071490000037
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的键值权值矩阵,
Figure FDA0003628071490000038
表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的内容权值矩阵,且
Figure FDA0003628071490000039
Figure FDA00036280714900000310
Figure FDA00036280714900000311
Figure FDA00036280714900000312
为一个上三角矩阵,且
Figure FDA00036280714900000313
headl,q表示所述第q个解码模块中的带掩码的多头注意力层的第l个注意力头的输出结果;Concat表示拼接操作;Wq表示所述第q个解码模块中的带掩码的多头注意力层的权值矩阵,且
Figure FDA00036280714900000314
步骤2.2.3、所述第q个解码模块中的第一个残差连接层和第一个层归一化层利用式(16)对所述第q个解码模块中的带掩码的多头注意力层的输出矩阵
Figure FDA00036280714900000315
进行处理,并得到输出矩阵
Figure FDA00036280714900000316
Figure FDA00036280714900000317
步骤2.2.4、所述第q个解码模块中的另一个多头注意力层利用式(17)-式(19)对
Figure FDA00036280714900000318
和编码器的输出
Figure FDA00036280714900000319
进行处理,并得到输出矩阵
Figure FDA00036280714900000320
d′q=dmodel/Uq (17)
Figure FDA00036280714900000321
Figure FDA00036280714900000322
式(17)-式(19)中,d'q为所述第q个解码模块中的另一个多头注意力层的每个注意力头的维数;Uq为所述第q个解码模块中的另一个多头注意力层包含的头数;headu,q表示所述第q个解码模块中的另一个多头注意力层的第u个注意力头的输出结果;W'q为所述第q个解码模块中的另一个多头注意力层的权值矩阵,且
Figure FDA0003628071490000041
步骤2.2.5、所述第q个解码模块中的第二个残差连接层和第二个层归一化层利用式(20)对所述第q个解码模块中的另一个多头注意力层的输出矩阵
Figure FDA0003628071490000042
进行处理,并得到输出矩阵
Figure FDA0003628071490000043
Figure FDA0003628071490000044
步骤2.2.6、所述第q个解码模块中的位置前馈网络层利用式(21)对所述输出矩阵
Figure FDA0003628071490000045
进行处理,得到输出矩阵
Figure FDA0003628071490000046
Figure FDA0003628071490000047
步骤2.2.7、所述第q个解码模块中的第三个残差连接层和第三个层归一化层利用式(22)对所述第q个解码模块中的位置前馈网络层的输出矩阵
Figure FDA0003628071490000048
进行处理,并得到输出矩阵
Figure FDA0003628071490000049
Figure FDA00036280714900000410
Figure FDA00036280714900000411
步骤2.2.8、若q≥N,则得到解码器的输出
Figure FDA00036280714900000412
否则,q+1赋值给q,并令
Figure FDA00036280714900000413
后,返回步骤2.2.2顺序执行;
步骤2.3、所述解码器的输出
Figure FDA00036280714900000414
依次经过一个全连接层和一个softmax层的处理后得到第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵
Figure FDA00036280714900000415
步骤2.4、将所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi通过argmax函数得到第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA00036280714900000416
然后利用一个相似度计算模块对所述第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA00036280714900000417
进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果
Figure FDA00036280714900000418
且E={e1,…,ev,…,eR};
步骤3、利用式(23)计算交叉熵损失loss,并利用Adam优化器训练更新所述基于Transformer模型的解码网络的权重参数,并在迭代次数达到最大迭代次数stepnum时或损失函数loss达到最小时,停止训练,从而得到训练后的最优解码网络模型,用于对输入的肌电信号进行音节级别的解码,以实现无声语音识别;
Figure FDA00036280714900000419
式(23)中,pj,c表示所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中的第j个音节属于类别c的预测概率;yj,c为符号函数,若所述第i个肌电信号特征样本xi的音节序列预测标签的类别概率矩阵Pi中第j个音节的真实类别为c,则令yj,c=1,否则,令yj,c=0。
2.根据权利要求1所述的一种基于表面肌电信号的无声语音解码方法,其特征是,所述步骤2.4中的相似度计算模块是利用式(24)-式(26)对第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA0003628071490000051
进行处理,得到第i个肌电信号特征样本xi的中文短语预测结果
Figure FDA0003628071490000052
Figure FDA0003628071490000053
Figure FDA0003628071490000054
Figure FDA0003628071490000055
式(24)-式(26)中,
Figure FDA0003628071490000056
表示第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA0003628071490000057
与所述语料库E中第v个中文短语ev的相似度,
Figure FDA0003628071490000058
为所述语料库E中第v个中文短语ev包含的音节数,Nsame是第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA0003628071490000059
和所述语料库E中第v个中文短语ev中相同音节的个数;max{·}表示取最大值函数,ew表示所述语料库E中与第i个肌电信号特征样本xi的音节序列预测标签
Figure FDA00036280714900000510
相似度最高的中文短语。
CN202210482376.5A 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法 Active CN114863912B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210482376.5A CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210482376.5A CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Publications (2)

Publication Number Publication Date
CN114863912A true CN114863912A (zh) 2022-08-05
CN114863912B CN114863912B (zh) 2024-05-10

Family

ID=82634967

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210482376.5A Active CN114863912B (zh) 2022-05-05 2022-05-05 一种基于表面肌电信号的无声语音解码方法

Country Status (1)

Country Link
CN (1) CN114863912B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857706A (zh) * 2023-03-03 2023-03-28 浙江强脑科技有限公司 基于面部肌肉状态的文字输入方法、装置及终端设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239744A (zh) * 2021-04-25 2021-08-10 西安电子科技大学 基于深度学习的脑电-肌电信号融合识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统
WO2022027822A1 (zh) * 2020-08-03 2022-02-10 南京邮电大学 一种基于肌电信号的智能手势动作生成方法
JP2022039977A (ja) * 2020-08-27 2022-03-10 清華大学 ドライバー方向転換意思連続予測方法およびシステム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022027822A1 (zh) * 2020-08-03 2022-02-10 南京邮电大学 一种基于肌电信号的智能手势动作生成方法
JP2022039977A (ja) * 2020-08-27 2022-03-10 清華大学 ドライバー方向転換意思連続予測方法およびシステム
CN113239744A (zh) * 2021-04-25 2021-08-10 西安电子科技大学 基于深度学习的脑电-肌电信号融合识别方法
CN113397572A (zh) * 2021-07-23 2021-09-17 中国科学技术大学 基于Transformer模型的表面肌电信号分类方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
刘佳文;屈丹;杨绪魁;张昊;唐君;: "基于Transformer的越南语连续语音识别", 信息工程大学学报, no. 02, 15 April 2020 (2020-04-15) *
王鑫;乔波;杨梦;: "带置信度的基于sEMG的无声语音识别研究", 电脑知识与技术, no. 17, 15 June 2020 (2020-06-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115857706A (zh) * 2023-03-03 2023-03-28 浙江强脑科技有限公司 基于面部肌肉状态的文字输入方法、装置及终端设备

Also Published As

Publication number Publication date
CN114863912B (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
Vashisht et al. Speech recognition using machine learning
Anusuya et al. Speech recognition by machine, a review
Schuller et al. Recognising realistic emotions and affect in speech: State of the art and lessons learnt from the first challenge
Batliner et al. The automatic recognition of emotions in speech
Tjandra et al. Machine speech chain
CN112037773B (zh) 一种n最优口语语义识别方法、装置及电子设备
CN112101044B (zh) 一种意图识别方法、装置及电子设备
Bose et al. Deep learning for audio signal classification
Chen Simulation of English speech emotion recognition based on transfer learning and CNN neural network
Shahin et al. Talking condition recognition in stressful and emotional talking environments based on CSPHMM2s
Huang et al. Speech emotion recognition using convolutional neural network with audio word-based embedding
Alsayadi et al. Non-diacritized Arabic speech recognition based on CNN-LSTM and attention-based models
Xu et al. A comprehensive survey of automated audio captioning
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
CN114863912B (zh) 一种基于表面肌电信号的无声语音解码方法
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Zhao et al. Standardized Evaluation Method of Pronunciation Teaching Based on Deep Learning
Feng et al. Exploiting cross-lingual speaker and phonetic diversity for unsupervised subword modeling
CN112257432A (zh) 一种自适应意图识别方法、装置及电子设备
Malakar et al. Progress of machine learning based automatic phoneme recognition and its prospect
Wang et al. Investigation of using continuous representation of various linguistic units in neural network based text-to-speech synthesis
CN114446324A (zh) 一种基于声学和文本特征的多模态情感识别方法
Getman End-to-End Low-Resource Automatic Speech Recognition for Second Language Learners
Liang Multi-language datasets for speech recognition based on the end-to-end framework
Benkerzaz et al. The contribution of the neural network to the improvement of speech recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant