CN115223549A - 一种越南语语音识别语料构建方法 - Google Patents

一种越南语语音识别语料构建方法 Download PDF

Info

Publication number
CN115223549A
CN115223549A CN202210803360.XA CN202210803360A CN115223549A CN 115223549 A CN115223549 A CN 115223549A CN 202210803360 A CN202210803360 A CN 202210803360A CN 115223549 A CN115223549 A CN 115223549A
Authority
CN
China
Prior art keywords
text
speech
attention
vietnamese
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210803360.XA
Other languages
English (en)
Inventor
高盛祥
曾令帆
余正涛
董凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN202210803360.XA priority Critical patent/CN115223549A/zh
Publication of CN115223549A publication Critical patent/CN115223549A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种越南语语音识别语料构建方法,属于人工智能技术领域。本发明利用语音预训练模型和文本预训练模型获取到的语音表征和文本表征,先通过CTC进行时序对齐,然后利用局部注意力和全局注意力相结合的混合注意力将语音和文本二次对齐,对齐好的语音和文本可直接作为越南语语音识别语料。实验结果表明,该方法有效减少越南语语音文本对齐任务中语义对齐错位的问题,提升模型在噪声数据的对齐鲁棒性,减小语音文本不同模态的差距,提高越南语语音识别语料的质量。

Description

一种越南语语音识别语料构建方法
技术领域:
本发明涉及越南语语音识别语料构建方法,属于人工智能技术领域。
背景技术:
越南语属于资源稀缺型语言,越南语语音识别公开数据集只有数百小时,相较于英文、中文等大语种的数万小时来说,标注数据的稀缺和稀疏性使得模型无法较好适应口音、年龄、环境噪音、语速、近远场等因素引起数据偏移。导致识别模型在越南语上的识别率不理想。而越南语有大量有声读物、影视剧等长语音文本数据可用作训练语料,但人工标注方式工作量大,代价高昂,因此,研究越南语语音文本自动对齐算法,对越南语语音数据进行自动标注对齐具有重大研究意义和价值。同时在互联网数据(语音和文本数据)常常会带有大量噪声数据(语音噪声,文本噪声),常见例如语音与文本不匹配的情况出现漏字、吞字、错字、文本与语音不相符等问题。语音文本对齐任务需要解决的不仅仅只是按照声学边界来与文本进行时序对齐的问题,更需要在语音文本并不完全对应的情况下进行语义对齐。
发明内容:
本发明提出了越南语语音识别语料构建方法,解决了越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题,该方法使用大型预训练语音和文本模型分别作为语音特征提取器和文本特征提取器,然后使用CTC-混合交叉注意力对语音和文本进行对齐。给予模型理解文本和语音的能力,令模型学习到不同模态间的语义对齐信息;并在上述基础上融合越南语声调特征的越南语音素文本编码器,使模型在学习上下文语义信息的同时,更能关注到越南语语音中声调的变化的特征。
本发明的技术方案是:一种越南语语音识别语料构建方法,所述方法的包含训练过程和解析过程,具体步骤如下:
训练过程包括:
(1)收集语音长度20秒以内的包含越南语对应的语音和文本作为训练语料和测试语料;
(2)对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。
(3)对音频进行预处理,切除静音片段;
(4)在步骤(2)的基础上构建音素粒度的词表;
(5)对预训练语音编码器进行微调,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量。该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。
(6)对预训练文本编码器重新预训练,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert更小的模型参数,其中隐藏层为4层。
(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器。
(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为
Figure BDA0003738294670000021
其中
Figure BDA0003738294670000022
表示语音编码器,得到的文本特征
Figure BDA0003738294670000023
其中
Figure BDA0003738294670000024
为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数
Figure BDA0003738294670000025
全局注意力参数
Figure BDA0003738294670000026
分别分块得到互不重叠的划分子序列
Figure BDA0003738294670000027
例如
Figure BDA0003738294670000028
其中的G为分组的数量,T为序列长度,C为子序列的长度,
Figure BDA0003738294670000029
同理。A矩阵表示语音序列与文本序列之间的相似度矩阵;
Figure BDA00037382946700000210
Figure BDA00037382946700000211
Figure BDA00037382946700000212
Figure BDA00037382946700000213
Figure BDA00037382946700000214
Figure BDA00037382946700000215
Figure BDA00037382946700000216
Figure BDA0003738294670000031
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数
Figure BDA0003738294670000032
是通过语音表征ZX仿射变换得到,其中WQ,WK,
Figure BDA0003738294670000033
为模型线性层参数;如公式(2)
Figure BDA0003738294670000034
通过对
Figure BDA0003738294670000035
按组切分补齐得到,
Figure BDA0003738294670000036
Figure BDA0003738294670000037
的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵
Figure BDA0003738294670000038
其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到
Figure BDA0003738294670000039
如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;
Figure BDA00037382946700000310
局部查询向量;
Figure BDA00037382946700000311
局部被查询信息与其他信息的相关性向量;
Figure BDA00037382946700000312
由局部查询向量
Figure BDA00037382946700000313
与局部被查询信息与其他信息的相关性向量
Figure BDA00037382946700000314
计算得到的局部注意力相似度矩阵;b是偏置矩阵;
Figure BDA00037382946700000315
局部信息矩阵;
Figure BDA00037382946700000316
由局部注意力相似度矩阵与局部信息矩阵运算得到的加权局部信息矩阵;
Figure BDA00037382946700000317
全局查询向量;
Figure BDA00037382946700000318
全局被查询信息与其他信息的相关性向量;
Figure BDA00037382946700000319
全局信息矩阵;
Figure BDA00037382946700000320
加权全局信息矩阵;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
解析过程包括:
(9)将一段语音和文本送入训练好的对齐模型;
(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵
Figure BDA0003738294670000041
其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵
Figure BDA0003738294670000042
由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
Figure BDA0003738294670000043
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
Figure BDA0003738294670000044
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,…,xi=yj,xi+1=yj,…,xt=yn];N:当前文本的长度,为正整数;j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
本发明的有益效果是:本方法提出越南语语音识别语料构建方法,针对越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题,本发明将结合越南语声学声调特征,提出基于融入越南语声调特征的文本编码器的CTC-混合交叉注意力的双解码器重对齐方法,有效减少对齐任务中语义对齐错位的现象,提升模型在噪声数据的对齐鲁棒性。实验表明,基于混合交叉注意力机制的对齐方法有助于模型在局部和全局上关注语音文本对齐信息,使用对比学习能够让模型学习到语音文本模态间的语义对齐信息,减小语音文本不同模态的差距。
附图说明:
图1是本发明提出的越南语语音识别语料构建方法的对齐模型训练过程示意图;
图2是本发明提出的越南语语音识别语料构建方法的对齐模型解码解析过程示意图;
图3是本发明提出的越南语语音识别语料构建方法的混合注意力模型结构图;
图4是本发明交叉注意力与混合注意力训练加速实验示意图。
具体实现方式:
实施例1,如图1-图4所示,一种越南语语音识别语料构建方法,所述方法的具体步骤如下:
Step1、收集包含对应的语音和越南语文本作为训练语料和测试语料;具体的,同时使用开源数据集VIVOS,其中包含11660平行句对;
表1为数据集设置
Figure BDA0003738294670000051
Step2、对数据集的文本进行预处理,对越南语文本数据进行数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码。使用开源的越南语文本转音素工具Viphoneme得到越南语音素序列;
Step3、对于音频,将所有音频使借助于计算机自动文本处理工具sox对音频文件进行重采样为比特率为16kHz的wav格式文件;
Step4、在Step2的基础上构建音素粒度的词表;
Step5、在越南语有监督数据集上微调越南语Wav2vec2语音编码器,无监督数据上预训练越南语文本Bert编码器;
Step6、将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器;
Step7、使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;
使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为
Figure BDA0003738294670000052
其中
Figure BDA0003738294670000053
表示语音编码器,得到的文本特征
Figure BDA0003738294670000054
其中
Figure BDA0003738294670000055
为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数
Figure BDA0003738294670000061
全局注意力参数
Figure BDA0003738294670000062
分别分块得到互不重叠的划分子序列
Figure BDA0003738294670000063
例如
Figure BDA0003738294670000064
其中的G为分组的数量,T为序列长度,C为子序列的长度,
Figure BDA0003738294670000065
同理。A矩阵表示语音序列与文本序列之间的相似度矩阵;
Figure BDA0003738294670000066
Figure BDA0003738294670000067
Figure BDA0003738294670000068
Figure BDA0003738294670000069
Figure BDA00037382946700000610
Figure BDA00037382946700000611
Figure BDA00037382946700000612
Figure BDA00037382946700000613
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数
Figure BDA00037382946700000614
是通过语音表征ZX仿射变换得到,其中WQ,WK,
Figure BDA00037382946700000615
为模型线性层参数;如公式(2)
Figure BDA00037382946700000616
通过对
Figure BDA00037382946700000617
按组切分补齐得到,
Figure BDA00037382946700000618
Figure BDA00037382946700000619
的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵
Figure BDA00037382946700000620
其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到
Figure BDA00037382946700000621
如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;
Figure BDA00037382946700000622
局部查询向量;
Figure BDA00037382946700000623
局部被查询信息与其他信息的相关性向量;
Figure BDA0003738294670000071
由局部查询向量
Figure BDA0003738294670000072
与局部被查询信息与其他信息的相关性向量
Figure BDA0003738294670000073
计算得到的局部注意力相似度矩阵;b是偏置矩阵;
Figure BDA0003738294670000074
局部信息矩阵;
Figure BDA0003738294670000075
由局部注意力相似度矩阵与局部信息矩阵运算得到的加权局部信息矩阵;
Figure BDA0003738294670000076
全局查询向量;
Figure BDA0003738294670000077
全局被查询信息与其他信息的相关性向量;
Figure BDA0003738294670000078
全局信息矩阵;
Figure BDA0003738294670000079
加权全局信息矩阵;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
Step8、将一段语音和文本送入训练好的对齐模型;
Step9、模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵
Figure BDA00037382946700000710
其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵
Figure BDA00037382946700000711
由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
Figure BDA00037382946700000712
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
Figure BDA0003738294670000081
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,…,xi=yj,xi+1=yj,…,xt=yn];N:当前文本的长度,为正整数;
j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
借助于CTC-混合注意力对齐方法,对音频与其对应的文本进行音素级别的对齐,得到文本中每个单词对应的音频时间片段。对于文本序列对应的原音频,首先将音频与文本进行强制文本对齐,该操作允许我们能够获取到文本序列中每个单词对应的音频帧的大致对齐。例如:
文本序列:
Figure BDA0003738294670000082
音频对齐:1.080-1.880
Figure BDA0003738294670000086
1.880-2.320
Figure BDA0003738294670000083
2.320-2.7840
Figure BDA0003738294670000084
本发明工作,使用预训练模型用于和提取语音和文本特征。表2展示了使用不同算法语音文本对齐实验的准确率。
表2使用不同算法进行越南语语音文本对齐结果
Figure BDA0003738294670000085
实验结果如表2所示,相比于传统基于隐马尔科夫模型对齐模型MFA,Gentle,基于CTC-混合交叉注意力模型在噪声数据集上但F1值分别提升巨大,也充分体现出神经网络对齐的优势。相较于本发明的基线模型,在VIVOS干净数据集上F1值相差约0.5%,但在具有VIVOS噪声数据集下准确率能够提升8%的意味着在噪声场景下,CTC-混合交叉注意力机制两次对齐能够有效减少对齐错位的现象,能够提高语料构建的质量。
本发明中提到混合注意力机制理论上的时间复杂度要比普通注意力机制小,对于大规模数据训练来说能够加速训练速度,减少时间成本。为了探究在线性交叉混和注意力与交叉注意力的在训练相同步数下,模型训练加速情况设计了速度对实验,分别使用交叉注意力与线性混合实验的对齐模型在VIVOS数据集上训练2400步,使用一张Tesla T4显卡。记录两个模型的损失和每100步的平均运行时间,其中为了使loss训练时间的数据级保持一致,loss值以缩小100倍展示,如图4所示.其中图4中有两组对比,分别是线性混合交叉注意力与交叉注意力训练速度对比,线性混合交叉注意力与交叉注意力loss对比。实验表明线性混合交叉注意力与交叉注意力在loss值相近的情况下,线性混合交叉注意力的平均每步训练时长为9.9秒,交叉注意力的平均每步训练时长为22.57秒,也就是说线性混合交叉注意力在相似的性能表现下,训练速度约为交叉注意力的2.27倍。
表3混合注意力消融实验
实验编号 音素词嵌入 交叉注意力 混合注意力 对比损失 CTC解码 准确率 召回率 F1
实验1 - - 0.64 0.65 0.64
实验2 - - 0.60 0.60 0.60
实验3 - - 0.58 0.56 0.57
实验4 - - - 0.59 0.59 0.59
实验5 - - - 0.58 0.59 0.58
实验6 - - - - 0.55 0.55 0.55
实验7 - - - - 0.56 0.56 0.56
实验结果如表3所示,实验5和实验6对比,混合注意力由于使用了线性注意力机制,在准确率接近的情况下有效减少训练时间,在对齐模型中使用线性混合注意力相较于普通交叉注意力约有2.27倍的速度提升;实验4和实验6与实验5和实验7的F1值分别提高7%和3%,表明加入对比损失有利于模型减小不同模态之间的差异性;在实验2和实验5中,实验2结合了越南语声调的特征,融入了越南语声调信息比不融入声调特征F1值提升3%,证明了越南语音素编码器融入声调信息有助于提升对齐的准确率;实验1与实验2中,实验1使用了CTC-Attention联合解码,在F1值上提升了6%,证明了Attention二次重对齐有助于矫正越南语语音文本不完全一致情况下错位对齐。

Claims (6)

1.一种越南语语音识别语料构建方法,其特征在于:所述方法的包含两个过程和10个步骤如下:
训练过程包括:
(1)收集包含越南语对应的语音和文本作为训练语料和测试语料;
(2)对数据集的文本进行预处理,将越南语文本转换成越南语音素;
(3)对音频进行预处理,切除静音片段;
(4)在步骤(2)的基础上构建音素粒度的词表;
(5)对预训练语音编码器进行微调;
(6)对预训练文本编码器重新预训练;
(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器;
(8)使用CTC-混合交叉注意力对语音特征和文本特征进行联合训练;
解析过程包括:
(9)将一段语音和文本送入训练好的对齐模型;
(10)模型通过CTC-混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。
2.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(2)中对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。
3.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(5)中,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量,该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。
4.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(6)中,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert小的模型参数,其中隐藏层为4层。
5.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(8)中,使用混合交叉注意力对语音表征XS和文本表征YP进行语义对齐,其中的得到的语音表征为
Figure FDA0003738294660000021
其中
Figure FDA0003738294660000022
表示语音编码器,得到的文本特征
Figure FDA0003738294660000023
其中
Figure FDA0003738294660000024
为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数
Figure FDA0003738294660000025
全局注意力参数
Figure FDA0003738294660000026
分别分块得到互不重叠的划分子序列
Figure FDA0003738294660000027
A矩阵表示语音序列与文本序列之间的相似度矩阵;
Figure FDA0003738294660000028
Figure FDA0003738294660000029
Figure FDA00037382946600000210
Figure FDA00037382946600000211
Figure FDA00037382946600000212
Figure FDA00037382946600000213
Figure FDA00037382946600000214
Figure FDA00037382946600000215
H=concatenate[ZX,Og] (9)
如公式(1)所示局部注意力中的参数
Figure FDA00037382946600000216
是通过语音表征ZX仿射变换得到,其中WQ,WK
Figure FDA00037382946600000217
为模型线性层参数;如公式(2)
Figure FDA00037382946600000218
通过对
Figure FDA00037382946600000219
按组切分补齐得到,
Figure FDA00037382946600000220
Figure FDA00037382946600000221
的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵
Figure FDA00037382946600000222
其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到
Figure FDA00037382946600000223
如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到Og;如公式(9),将语音表征ZX和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;
Figure FDA00037382946600000224
局部查询向量;
Figure FDA00037382946600000225
局部被查询信息与其他信息的相关性向量;
Figure FDA0003738294660000031
由局部查询向量
Figure FDA0003738294660000032
与局部被查询信息与其他信息的相关性向量
Figure FDA0003738294660000033
计算得到的局部注意力相似度矩阵;b是偏置矩阵;
Figure FDA0003738294660000034
局部信息矩阵;
Figure FDA0003738294660000035
由局部注意力相似度矩阵与局部信息矩阵运算得到的加权局部信息矩阵;
Figure FDA0003738294660000036
全局查询向量;
Figure FDA0003738294660000037
全局被查询信息与其他信息的相关性向量;
Figure FDA0003738294660000038
全局信息矩阵;
Figure FDA0003738294660000039
加权全局信息矩阵;
Wo:神经网络模型中的可学习的参数矩阵。
Ug:神经网络中的门控参数矩阵。
6.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(10)中,对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵
Figure FDA00037382946600000310
其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵
Figure FDA00037382946600000311
由概率矩阵F得到其中每一帧对应的字符概率kj,t=p(cj|t,F)=Fc,t,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
Figure FDA00037382946600000312
其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmaxt′(k′t,N-1),然后通过回溯转移概率矩阵kj,t找到字符与帧对应的一条概率最大的路径,得到对齐关系St,如公式(11)所示;
Figure FDA00037382946600000313
通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系Satt=[x1=y1,...,xi=yj,xi+1=yj,...,xt=yn];N:当前文本的长度,为正整数;
j:为概率矩阵F的下标,0≤j≤N且j为整数;xi:i为下标,表示某一时刻的语音帧,0≤i≤T,其中T为语音的帧长,yj:j为下标,表示某一时刻对应的字符,0≤j≤N.其中N为文本的长度;xt:t为下标,表示t时刻对应的语音帧,0≤t≤T.其中T为语音的帧长;yn:n为下标,表示第n个字符,0≤n≤N.其中N为文本的长度。
CN202210803360.XA 2022-07-09 2022-07-09 一种越南语语音识别语料构建方法 Pending CN115223549A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210803360.XA CN115223549A (zh) 2022-07-09 2022-07-09 一种越南语语音识别语料构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210803360.XA CN115223549A (zh) 2022-07-09 2022-07-09 一种越南语语音识别语料构建方法

Publications (1)

Publication Number Publication Date
CN115223549A true CN115223549A (zh) 2022-10-21

Family

ID=83609752

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210803360.XA Pending CN115223549A (zh) 2022-07-09 2022-07-09 一种越南语语音识别语料构建方法

Country Status (1)

Country Link
CN (1) CN115223549A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757184A (zh) * 2023-08-18 2023-09-15 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116757184A (zh) * 2023-08-18 2023-09-15 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及系统
CN116757184B (zh) * 2023-08-18 2023-10-20 昆明理工大学 融合发音特征的越南语语音识别文本纠错方法及系统

Similar Documents

Publication Publication Date Title
CN110534095B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN108492820B (zh) 基于循环神经网络语言模型和深度神经网络声学模型的中文语音识别方法
CN111382580A (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN110929030A (zh) 一种文本摘要和情感分类联合训练方法
Zhu et al. Phone-to-audio alignment without text: A semi-supervised approach
CN110688862A (zh) 一种基于迁移学习的蒙汉互译方法
CN114757182A (zh) 一种改进训练方式的bert短文本情感分析方法
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN113327595B (zh) 发音偏误检测方法、装置及存储介质
CN112417134A (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
CN109145946B (zh) 一种智能图像识别和描述方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN114662476A (zh) 一种融合词典与字符特征的字符序列识别方法
CN115831102A (zh) 基于预训练特征表示的语音识别方法、装置及电子设备
CN115114940A (zh) 一种基于课程化预训练的机器翻译风格的迁移方法和系统
CN115658898A (zh) 一种中英文本实体关系抽取方法、系统及设备
CN115719072A (zh) 一种基于掩码机制的篇章级神经机器翻译方法及系统
CN116483991A (zh) 一种对话摘要生成方法及系统
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN113032559B (zh) 一种用于低资源黏着性语言文本分类的语言模型微调方法
CN114937465A (zh) 一种基于自监督学习的语音情感识别方法和计算机设备
CN114942990A (zh) 一种基于提示学习的少样本抽象对话摘要生成系统
CN115223549A (zh) 一种越南语语音识别语料构建方法
CN117877460A (zh) 语音合成方法、装置、语音合成模型训练方法、装置
CN117251562A (zh) 一种基于事实一致性增强的文本摘要生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination