CN115223549A - 一种越南语语音识别语料构建方法 - Google Patents
一种越南语语音识别语料构建方法 Download PDFInfo
- Publication number
- CN115223549A CN115223549A CN202210803360.XA CN202210803360A CN115223549A CN 115223549 A CN115223549 A CN 115223549A CN 202210803360 A CN202210803360 A CN 202210803360A CN 115223549 A CN115223549 A CN 115223549A
- Authority
- CN
- China
- Prior art keywords
- text
- speech
- attention
- vietnamese
- alignment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010276 construction Methods 0.000 title claims abstract description 16
- 238000012549 training Methods 0.000 claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 16
- 239000011159 matrix material Substances 0.000 claims description 61
- 239000013598 vector Substances 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 9
- 230000007704 transition Effects 0.000 claims description 9
- 230000007246 mechanism Effects 0.000 claims description 8
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 3
- 230000008859 change Effects 0.000 claims description 3
- 238000003062 neural network model Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000000903 blocking effect Effects 0.000 claims description 2
- 238000013527 convolutional neural network Methods 0.000 claims description 2
- 235000019580 granularity Nutrition 0.000 claims 1
- 239000000463 material Substances 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000002474 experimental method Methods 0.000 description 24
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000001133 acceleration Effects 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012952 Resampling Methods 0.000 description 1
- 238000002679 ablation Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000002864 sequence alignment Methods 0.000 description 1
- 230000009747 swallowing Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/16—Speech classification or search using artificial neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
Landscapes
- Engineering & Computer Science (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Machine Translation (AREA)
Abstract
本发明提出一种越南语语音识别语料构建方法,属于人工智能技术领域。本发明利用语音预训练模型和文本预训练模型获取到的语音表征和文本表征,先通过CTC进行时序对齐,然后利用局部注意力和全局注意力相结合的混合注意力将语音和文本二次对齐,对齐好的语音和文本可直接作为越南语语音识别语料。实验结果表明,该方法有效减少越南语语音文本对齐任务中语义对齐错位的问题,提升模型在噪声数据的对齐鲁棒性,减小语音文本不同模态的差距,提高越南语语音识别语料的质量。
Description
技术领域:
本发明涉及越南语语音识别语料构建方法,属于人工智能技术领域。
背景技术:
越南语属于资源稀缺型语言,越南语语音识别公开数据集只有数百小时,相较于英文、中文等大语种的数万小时来说,标注数据的稀缺和稀疏性使得模型无法较好适应口音、年龄、环境噪音、语速、近远场等因素引起数据偏移。导致识别模型在越南语上的识别率不理想。而越南语有大量有声读物、影视剧等长语音文本数据可用作训练语料,但人工标注方式工作量大,代价高昂,因此,研究越南语语音文本自动对齐算法,对越南语语音数据进行自动标注对齐具有重大研究意义和价值。同时在互联网数据(语音和文本数据)常常会带有大量噪声数据(语音噪声,文本噪声),常见例如语音与文本不匹配的情况出现漏字、吞字、错字、文本与语音不相符等问题。语音文本对齐任务需要解决的不仅仅只是按照声学边界来与文本进行时序对齐的问题,更需要在语音文本并不完全对应的情况下进行语义对齐。
发明内容:
本发明提出了越南语语音识别语料构建方法,解决了越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题,该方法使用大型预训练语音和文本模型分别作为语音特征提取器和文本特征提取器,然后使用CTC-混合交叉注意力对语音和文本进行对齐。给予模型理解文本和语音的能力,令模型学习到不同模态间的语义对齐信息;并在上述基础上融合越南语声调特征的越南语音素文本编码器,使模型在学习上下文语义信息的同时,更能关注到越南语语音中声调的变化的特征。
本发明的技术方案是:一种越南语语音识别语料构建方法,所述方法的包含训练过程和解析过程,具体步骤如下:
训练过程包括:
(1)收集语音长度20秒以内的包含越南语对应的语音和文本作为训练语料和测试语料;
(2)对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。
(3)对音频进行预处理,切除静音片段;
(4)在步骤(2)的基础上构建音素粒度的词表;
(5)对预训练语音编码器进行微调,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量。该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。
(6)对预训练文本编码器重新预训练,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert更小的模型参数,其中隐藏层为4层。
(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器。
(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为其中表示语音编码器,得到的文本特征其中为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列例如其中的G为分组的数量,T为序列长度,C为子序列的长度,同理。A矩阵表示语音序列与文本序列之间的相似度矩阵;
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数是通过语音表征ZX仿射变换得到,其中WQ,WK,为模型线性层参数;如公式(2)通过对按组切分补齐得到,为的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;局部查询向量;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
解析过程包括:
(9)将一段语音和文本送入训练好的对齐模型;
(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,…,xi=yj,xi+1=yj,…,xt=yn];N:当前文本的长度,为正整数;j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
本发明的有益效果是:本方法提出越南语语音识别语料构建方法,针对越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题,本发明将结合越南语声学声调特征,提出基于融入越南语声调特征的文本编码器的CTC-混合交叉注意力的双解码器重对齐方法,有效减少对齐任务中语义对齐错位的现象,提升模型在噪声数据的对齐鲁棒性。实验表明,基于混合交叉注意力机制的对齐方法有助于模型在局部和全局上关注语音文本对齐信息,使用对比学习能够让模型学习到语音文本模态间的语义对齐信息,减小语音文本不同模态的差距。
附图说明:
图1是本发明提出的越南语语音识别语料构建方法的对齐模型训练过程示意图;
图2是本发明提出的越南语语音识别语料构建方法的对齐模型解码解析过程示意图;
图3是本发明提出的越南语语音识别语料构建方法的混合注意力模型结构图;
图4是本发明交叉注意力与混合注意力训练加速实验示意图。
具体实现方式:
实施例1,如图1-图4所示,一种越南语语音识别语料构建方法,所述方法的具体步骤如下:
Step1、收集包含对应的语音和越南语文本作为训练语料和测试语料;具体的,同时使用开源数据集VIVOS,其中包含11660平行句对;
表1为数据集设置
Step2、对数据集的文本进行预处理,对越南语文本数据进行数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码。使用开源的越南语文本转音素工具Viphoneme得到越南语音素序列;
Step3、对于音频,将所有音频使借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件;
Step4、在Step2的基础上构建音素粒度的词表;
Step5、在越南语有监督数据集上微调越南语Wav2vec2语音编码器,无监督数据上预训练越南语文本Bert编码器;
Step6、将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器;
Step7、使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;
使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为其中表示语音编码器,得到的文本特征其中为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列例如其中的G为分组的数量,T为序列长度,C为子序列的长度,同理。A矩阵表示语音序列与文本序列之间的相似度矩阵;
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数是通过语音表征ZX仿射变换得到,其中WQ,WK,为模型线性层参数;如公式(2)通过对按组切分补齐得到,为的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
Step8、将一段语音和文本送入训练好的对齐模型;
Step9、模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,…,xi=yj,xi+1=yj,…,xt=yn];N:当前文本的长度,为正整数;
j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
借助于CTC-混合注意力对齐方法,对音频与其对应的文本进行音素级别的对齐,得到文本中每个单词对应的音频时间片段。对于文本序列对应的原音频,首先将音频与文本进行强制文本对齐,该操作允许我们能够获取到文本序列中每个单词对应的音频帧的大致对齐。例如:
本发明工作,使用预训练模型用于和提取语音和文本特征。表2展示了使用不同算法语音文本对齐实验的准确率。
表2使用不同算法进行越南语语音文本对齐结果
实验结果如表2所示,相比于传统基于隐马尔科夫模型对齐模型MFA,Gentle,基于CTC-混合交叉注意力模型在噪声数据集上但F1值分别提升巨大,也充分体现出神经网络对齐的优势。相较于本发明的基线模型,在VIVOS干净数据集上F1值相差约0.5%,但在具有VIVOS噪声数据集下准确率能够提升8%的意味着在噪声场景下,CTC-混合交叉注意力机制两次对齐能够有效减少对齐错位的现象,能够提高语料构建的质量。
本发明中提到混合注意力机制理论上的时间复杂度要比普通注意力机制小,对于大规模数据训练来说能够加速训练速度,减少时间成本。为了探究在线性交叉混和注意力与交叉注意力的在训练相同步数下,模型训练加速情况设计了速度对实验,分别使用交叉注意力与线性混合实验的对齐模型在VIVOS数据集上训练2400步,使用一张Tesla T4显卡。记录两个模型的损失和每100步的平均运行时间,其中为了使loss训练时间的数据级保持一致,loss值以缩小100倍展示,如图4所示.其中图4中有两组对比,分别是线性混合交叉注意力与交叉注意力训练速度对比,线性混合交叉注意力与交叉注意力loss对比。实验表明线性混合交叉注意力与交叉注意力在loss值相近的情况下,线性混合交叉注意力的平均每步训练时长为9.9秒,交叉注意力的平均每步训练时长为22.57秒,也就是说线性混合交叉注意力在相似的性能表现下,训练速度约为交叉注意力的2.27倍。
表3混合注意力消融实验
实验编号 | 音素词嵌入 | 交叉注意力 | 混合注意力 | 对比损失 | CTC解码 | 准确率 | 召回率 | F1 |
实验1 | - | - | √ | √ | √ | 0.64 | 0.65 | 0.64 |
实验2 | √ | - | √ | √ | - | 0.60 | 0.60 | 0.60 |
实验3 | √ | - | - | √ | √ | 0.58 | 0.56 | 0.57 |
实验4 | - | √ | - | √ | - | 0.59 | 0.59 | 0.59 |
实验5 | - | - | √ | √ | - | 0.58 | 0.59 | 0.58 |
实验6 | - | √ | - | - | - | 0.55 | 0.55 | 0.55 |
实验7 | - | - | √ | - | - | 0.56 | 0.56 | 0.56 |
实验结果如表3所示,实验5和实验6对比,混合注意力由于使用了线性注意力机制,在准确率接近的情况下有效减少训练时间,在对齐模型中使用线性混合注意力相较于普通交叉注意力约有2.27倍的速度提升;实验4和实验6与实验5和实验7的F1值分别提高7%和3%,表明加入对比损失有利于模型减小不同模态之间的差异性;在实验2和实验5中,实验2结合了越南语声调的特征,融入了越南语声调信息比不融入声调特征F1值提升3%,证明了越南语音素编码器融入声调信息有助于提升对齐的准确率;实验1与实验2中,实验1使用了CTC-Attention联合解码,在F1值上提升了6%,证明了Attention二次重对齐有助于矫正越南语语音文本不完全一致情况下错位对齐。
Claims (6)
1.一种越南语语音识别语料构建方法,其特征在于:所述方法的包含两个过程和10个步骤如下:
训练过程包括:
(1)收集包含越南语对应的语音和文本作为训练语料和测试语料;
(2)对数据集的文本进行预处理,将越南语文本转换成越南语音素;
(3)对音频进行预处理,切除静音片段;
(4)在步骤(2)的基础上构建音素粒度的词表;
(5)对预训练语音编码器进行微调;
(6)对预训练文本编码器重新预训练;
(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器;
(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;
解析过程包括:
(9)将一段语音和文本送入训练好的对齐模型;
(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。
2.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(2)中对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。
3.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(5)中,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量,该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。
4.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(6)中,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert小的模型参数,其中隐藏层为4层。
5.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(8)中,使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为其中表示语音编码器,得到的文本特征其中为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列A矩阵表示语音序列与文本序列之间的相似度矩阵;
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数是通过语音表征ZX仿射变换得到,其中WQ,WK,为模型线性层参数;如公式(2)通过对按组切分补齐得到,为的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
6.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(10)中,对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,...,xi=yj,xi+1=yj,...,xt=yn];N:当前文本的长度,为正整数;
j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210803360.XA CN115223549A (zh) | 2022-07-09 | 2022-07-09 | 一种越南语语音识别语料构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210803360.XA CN115223549A (zh) | 2022-07-09 | 2022-07-09 | 一种越南语语音识别语料构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115223549A true CN115223549A (zh) | 2022-10-21 |
Family
ID=83609752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210803360.XA Pending CN115223549A (zh) | 2022-07-09 | 2022-07-09 | 一种越南语语音识别语料构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115223549A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
-
2022
- 2022-07-09 CN CN202210803360.XA patent/CN115223549A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116757184A (zh) * | 2023-08-18 | 2023-09-15 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
CN116757184B (zh) * | 2023-08-18 | 2023-10-20 | 昆明理工大学 | 融合发音特征的越南语语音识别文本纠错方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110534095B (zh) | 语音识别方法、装置、设备以及计算机可读存储介质 | |
CN108492820B (zh) | 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法 | |
CN111382580A (zh) | 一种面向神经机器翻译的编码器-解码器框架预训练方法 | |
CN110929030A (zh) | 一种文本摘要和情感分类联合训练方法 | |
Zhu et al. | Phone-to-audio alignment without text: A semi-supervised approach | |
CN110688862A (zh) | 一种基于迁移学习的蒙汉互译方法 | |
CN114757182A (zh) | 一种改进训练方式的bert短文本情感分析方法 | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
CN113327595B (zh) | 发音偏误检测方法、装置及存储介质 | |
CN112417134A (zh) | 基于语音文本深度融合特征的摘要自动生成系统及方法 | |
CN109145946B (zh) | 一种智能图像识别和描述方法 | |
CN115759119B (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114662476A (zh) | 一种融合词典与字符特征的字符序列识别方法 | |
CN115831102A (zh) | 基于预训练特征表示的语音识别方法、装置及电子设备 | |
CN115114940A (zh) | 一种基于课程化预训练的机器翻译风格的迁移方法和系统 | |
CN115658898A (zh) | 一种中英文本实体关系抽取方法、系统及设备 | |
CN115719072A (zh) | 一种基于掩码机制的篇章级神经机器翻译方法及系统 | |
CN116483991A (zh) | 一种对话摘要生成方法及系统 | |
CN115064154A (zh) | 混合语言语音识别模型的生成方法及装置 | |
CN113032559B (zh) | 一种用于低资源黏着性语言文本分类的语言模型微调方法 | |
CN114937465A (zh) | 一种基于自监督学习的语音情感识别方法和计算机设备 | |
CN114942990A (zh) | 一种基于提示学习的少样本抽象对话摘要生成系统 | |
CN115223549A (zh) | 一种越南语语音识别语料构建方法 | |
CN117877460A (zh) | 语音合成方法、装置、语音合成模型训练方法、装置 | |
CN117251562A (zh) | 一种基于事实一致性增强的文本摘要生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |