CN114863948A - 基于CTCAttention架构的参考文本相关发音错误检测模型 - Google Patents

基于CTCAttention架构的参考文本相关发音错误检测模型 Download PDF

Info

Publication number
CN114863948A
CN114863948A CN202210462027.7A CN202210462027A CN114863948A CN 114863948 A CN114863948 A CN 114863948A CN 202210462027 A CN202210462027 A CN 202210462027A CN 114863948 A CN114863948 A CN 114863948A
Authority
CN
China
Prior art keywords
encoder
error detection
attention
sequence
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210462027.7A
Other languages
English (en)
Inventor
艾山·吾买尔
申云飞
早克热·卡德尔
刘庆庆
李晶
郭深
范聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xinjiang University
Original Assignee
Xinjiang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xinjiang University filed Critical Xinjiang University
Priority to CN202210462027.7A priority Critical patent/CN114863948A/zh
Publication of CN114863948A publication Critical patent/CN114863948A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于CTCAttention架构的参考文本相关发音错误检测模型,涉及信息技术领域,该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行。在基于语音识别技术的发音错误检测框架中,待评测的音频首先被输入基于语音识别技术的音素识别模块,得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块,得到待评测语音的发音错误检测结果。在本文中,发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较,从而找到待评测音频中的发音错误。

Description

基于CTCAttention架构的参考文本相关发音错误检测模型
技术领域
本发明涉及信息技术领域,特别涉及一种基于CTCAttention架构的参考文本相关发音错误检测模型。
背景技术
发音错误检测技术全称为发音错误检测与诊断技术,是使用计算机自动对语音音段层面的发音准确度进行评价的技术,也是计算机辅助语音训练技术的重要组成部分。在深度学习技术广泛运用到语音识别(ASR)及发音错误检测任务上前,基于传统语音识别技术与机器学习技术的发音错误检测方法已经得到了深入的研究与应用。在深度学习技术广泛运用于语音识别领域后,先后出现了多种基于深层神经网络(DNN)的语音识别模型。目前,面向普通话的发音错误检测公开研究主要集中在运用传统机器学习算法针对普通话的声韵母、声调及儿化音进行细粒度的评分。目前进行面向普通话的发音错误检测研究,主要的困难在于缺乏对应的公开数据集。相比于语音识别数据集,语音评测数据集由于需要专家标注,建设成本很高,故公开的语音评测数据集很少,很多时候研究者选择在私有的数据集上进行实验。现有针对深度学习技术在我国汉语普通话语音评测方面的研究还处于初步阶段,几乎没有与普通话水平测试相关的公开数据集,针对普通话口语评测的研究近年来也颇为罕见。从现有的面向普通话的发音错误检测研究来看,Zhang等人提出的基于CTC/Attention的端到端普通话发音错误检测模型没有考虑到使用参考文本信息,模型基于BiLSTM,而没有考虑使用Transformer等新的模型结构。Lo等提出的利用重复参考文本进行数据增广的发音错误检测模型让一个音频编码器与一个参考文本编码器共享一个解码器,这种思路仅将文本编码器用于数据增广,并没有将文本编码器与音频编码器的输出进行融合,模型于推理阶段时只使用音频编码器,因而并不能充分运用参考文本的信息。综上国内外在MDD任务中运用Transformer/Conformer结构的研究不多,同时尚未见到结合Transformer/Conformer结构、融合多编码器特征及CTC/Attention架构的MDD模型及相关研究。
发明内容
本发明所要解决的技术问题是提供一种基于CTCAttention架构的参考文本相关发音错误检测模型,建立了针对普通话水平测试短文朗读题型的普通话语音评测数据集PSC-Reading,在采用Transformer实现音频编码器时,相对于作为基线的CNN-RNN-CTC及CNN-RNN-CTC-Text-Dep发音错误检测模型获得了显著的性能提升。
为实现上述目的,本发明提供以下的技术方案:
该基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:
将模型输入的Fbank等语音特征序列记为X=x1,…,xn′,音频编码器的输出记为
Figure BDA0003620703510000021
则音频编码器可以表示为
hA=AudioEncoder(X)#(1)
式(1)中的输入X与输出hA单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n=n′,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到hA的一帧。
将模型输入的参考文本序列记为s=s1,…,sm,文本编码器隐状态序列记为
Figure BDA0003620703510000022
文本编码器分数隐状态序列记为
Figure BDA0003620703510000023
则文本编码器可以表示为
hT,hTS=TextEncoder(s)#(2)
hTS由hT线性变换而来,维度与hA相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,hn
h=Attention(hA,hTS,hT)#(3)
其中hA、hTS、hT分别作为注意力计算时的查询向量(Query Vector)、键向量(KeyVector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列
Figure BDA0003620703510000031
Figure BDA0003620703510000032
最终利用Needleman-Wunsch算法,对齐并比较参考文本音素序列Cref与识别结果
Figure BDA0003620703510000033
得到发音错误检测结果。
式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时,与CNN-RNN结构同样在模型的输入端使用CNN层进行特征下采样,从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列hA中每一帧
Figure BDA0003620703510000041
的维度就是音频编码器的模型维度为dAudioEnc,与注意力解码器的维度dDec均为256。此处音频编码器使用Transformer或者Conformer结构时,其层数均为6层。
式(2)中所述的文本编码器基于双向LSTM,实现全局信息建模,以下介绍其前向计算过程。
独热向量(One-hot Vector)形式的参考文本音素序列s=s1,…,sm的维度较高、信息密度较低,利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e=e1,...,em
e=PhonemeEmbedding(s)#(5)
嵌入后ei的维度dTextEmb为64。随后使用维度dTextEnc为256的双向LSTM神经网络对e进行编码,得到文本编码器隐状态序列hT
hT=BiLSTM(e)#(6)
由于使用了双向LSTM网络,hT中的每帧
Figure BDA0003620703510000051
的维度是2dTextEnc=512,不一定与音频编码器隐状态
Figure BDA0003620703510000052
的维度dAudioEnc相同。因为点乘注意力机制要求查询向量与键向量的维度一致,所以此处使用一个线性变换改变hT的维度,得到文本编码器分数隐状态序列hTS[27]
hTS=WKVhT#(7)
得到的hTS序列中每帧
Figure BDA0003620703510000053
的维度是dAudioEnc,与
Figure BDA0003620703510000054
相同。
采用以上技术方案的有益效果是:该基于CTCAttention架构的参考文本相关发音错误检测模型在现有的数种文本相关发音错误检测模型的基础上,结合在语音识别任务中得到广泛应用的Transformer模型、Conformer模型及CTC/Attention端到端语音识别框架,提出了一种基于Transformer/Conformer、双编码器及CTC/Attention多任务学习框架的文本相关发音错误检测框架。实验显示,在PSC朗读评测任务上,采用Transformer时的该改进模型的性能相比于基线模型有较大的提升。
附图说明
下面结合附图对本发明的具体实施方式作进一步详细的描述。
图1是基于语音识别技术的发音错误检测框架图;
图2是基于CTCAttention架构的参考文本相关发音错误检测模型图;
图3是基于点乘注意力的多编码器隐状态融合图;
图4是PSC-Reading数据集的标注样例图。
具体实施方式
下面结合附图详细说明本发明基于CTCAttention架构的参考文本相关发音错误检测模型的优选实施方式。
图1、图2、图3和图4出示本发明基于CTCAttention架构的参考文本相关发音错误检测模型的具体实施方式:
该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行,该框架的整体结构如图1所示。在基于语音识别技术的发音错误检测框架中,待评测的音频首先被输入基于语音识别技术的音素识别模块,得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块,得到待评测语音的发音错误检测结果。发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较,从而找到待评测音频中的发音错误。Needleman-Wunsch算法是生物信息学、发音错误检测领域中常用的序列对齐算法。该模型在发音错误检测模块中使用的对齐算法是Levenshtein对齐算法,它是Needleman-Wunsch算法针对字符串编辑距离计算的特化版本,将Needleman-Wunsch算法中对序列间不匹配字符的惩罚值设定为对所有字符都一致的固定值。该模型使用的Levenshtein对齐算法实现来自于Kaldi提供的align-text工具,通过它即可批量进行音素序列对齐。发音错误检测模块输入的参考文本序列应当与音素识别模块输出的音素识别结果采用一致的建模单元,从而能够准确地使用Needleman-Wunsch算法进行序列比较与对齐,因此在该模型提出的方法中,用于评测的参考该模型需要转换为以音素为单元的序列。由此可见,音素识别模块能否准确识别待评测音频,是影响基于语音识别技术的发音错误检测系统性能的关键因素。
基于CTC的语音识别模型与基于注意力的语音识别模型(也就是LAS)各有其优点与缺点。基于CTC的语音识别模型依赖于CTC的条件独立性假设以实现输入输出序列间的对齐,一方面有很好的序列单向对齐效果,但是另一方面因此无法建模输出序列的前后依赖关系,导致其往往需要外接语言模型来达成较为理想的识别性能。基于注意力的语音识别模型利用注意力实现输入输出序列间的对齐,从而摆脱了CTC的条件独立性假设,解码器端可以实现输出序列的前后依赖建模,无需外接语言模型就可以取得较好的识别性能,但是注意力机制的灵活性让模型训练较为困难。面对这一情况,Watanabe等人提出了利用多任务学习(Multi-TaskLearning)框架改进LAS模型,将CTC集成到LAS模型中,从而能够同时利用两种端到端语音识别模型优点的混合CTC/Attention架构(Hybrid CTC/AttentionArchitecture)。这一改进的LAS模型利用CTC的单向对齐特性来减少输入输出序列间的错误对齐,在模型训练时通过多任务学习机制为LAS的编码器端进行了正则化以加快收敛,在模型推理解码时通过CTC/注意力机制的联合解码提升识别的准确率,从而得到了广泛的应用。
该基于CTC/Attention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入。该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器。该模型的整体结构如图2所示,以下介绍模型的计算过程。
将模型输入的Fbank等语音特征序列记为X=x1,…,xn′,音频编码器的输出记为
Figure BDA0003620703510000071
,则音频编码器可以表示为
hA=AudioEncoder(X)#(1)
式(1)中的输入X与输出hA单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n=n′,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到hA的一帧。
将模型输入的参考文本序列记为s=s1,…,sm,文本编码器隐状态序列记为
Figure BDA0003620703510000072
,文本编码器分数隐状态序列记为
Figure BDA0003620703510000073
,则文本编码器可以表示为
hT,hTS=TextEncoder(s)#(2)
hTS由hT线性变换而来,维度与hA相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,hn
h=Attention(hA,hTS,hT)#(3)
其中hA、hTS、hT分别作为注意力计算时的查询向量(Query Vector)、键向量(KeyVector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列
Figure BDA0003620703510000081
Figure BDA0003620703510000082
最终利用Needleman-Wunsch算法,对齐并比较参考文本音素序列Cref与识别结果
Figure BDA0003620703510000083
得到发音错误检测结果。
式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时,与CNN-RNN结构同样在模型的输入端使用CNN层进行特征下采样,从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列hA中每一帧
Figure BDA0003620703510000091
的维度就是音频编码器的模型维度为dAudioEnc,与注意力解码器的维度dDec均为256。此处音频编码器使用Transformer或者Conformer结构时,其层数均为6层。
式(2)中所述的文本编码器基于双向LSTM,实现全局信息建模,以下介绍其前向计算过程。
独热向量(One-hot Vector)形式的参考文本音素序列s=s1,…,sm的维度较高、信息密度较低,利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e=e1,...,em
e=PhonemeEmbedding(s)#(5)
嵌入后ei的维度dTextEmb为64。随后使用维度dTextEnc为256的双向LSTM神经网络对e进行编码,得到文本编码器隐状态序列hT
hT=BiLSTM(e)#(6)
由于使用了双向LSTM网络,hT中的每帧
Figure BDA00036207035100001012
的维度是2dTextEnc=512,不一定与音频编码器隐状态
Figure BDA0003620703510000101
的维度dAudioEnc相同。因为点乘注意力机制要求查询向量与键向量的维度一致,所以此处使用一个线性变换改变hT的维度,得到文本编码器分数隐状态序列hTS[27]
hTS=WKVhT#(7)
得到的hTS序列中每帧
Figure BDA0003620703510000102
的维度是dAudioEnc,与
Figure BDA0003620703510000103
相同。
该模型采用点乘注意力算法进行双编码器的特征融合,如式(3)所述,将音频编码器的输出
Figure BDA0003620703510000104
作为注意力计算时的查询向量(Query Vector),而将文本编码器的输出
Figure BDA0003620703510000105
Figure BDA0003620703510000106
分别作为注意力计算时的键向量(Key Vector)和值向量(Value Vector),整体计算流程如图3所示。
点乘注意力机制通过向量点乘的方式计算注意力分数(Attention Score):
DotProductAttentionScore(q,k)=qkT#(8)
使用式(7)计算
Figure BDA0003620703510000107
Figure BDA0003620703510000108
间的注意力分数,并使用softmax函数对计算得到的注意力分数进行归一化,即得到归一化后的注意力权重aij
Figure BDA0003620703510000109
其中
Figure BDA00036207035100001010
Figure BDA00036207035100001011
向维度大小相同,均为dAudioEnc。通过计算注意力权重aij,就实现了待评测音频与参考
文本间的软性对齐。随后通过求加权平均值的方法,计算得到注意力上下文向量cj
Figure BDA0003620703510000111
最后将注意力上下文向量cj与音频编码器输出的隐状态向量
Figure BDA0003620703510000112
相拼接,即得到解码器的第j步输入的融合后的隐状态向量h′j
Figure BDA0003620703510000113
式(6)中的隐状态序列拼接操作引入了残差连接[43],使得音频编码器端的信息能够无阻碍地传递到解码器端,在训练模型时有助于加快深层模型的收敛。此时h′j的维度是2dTextEnc+dAudioEnc=768,而解码器的维度dDec与音频编码器维度同样为256,故此处使用一个线性变换将其降维,得到注意力层最终输出的融合隐状态hj
hj=WAttCtxh′j#(12)
于是最终输出的h=h1,...,hn,其每一帧hj的维度均为256,与dDec相同。混合CTC/Attention架构的LAS模型在训练时以如下的多任务损失函数
Figure BDA0003620703510000114
作为目标函数:
Figure BDA0003620703510000115
其中
Figure BDA0003620703510000121
是CTC损失函数,作用于模型的编码器端;
Figure BDA0003620703510000122
是LAS模型解码器端的损失函数,此处使用交叉熵损失函数;λ是模型训练时CTC的权重,0≤λ≤1。
式(4)描述了通过结合CTC与注意力,实现联合解码,最终得到音素识别结果的过程。语音识别的解码是根据一定的搜索策略,在语音识别的模型输出中找到最可能的识别结果的过程。传统情况下,基于CTC的语音识别采用贪婪搜索(Greedy Search)解码或者前缀束搜索(Prefix Beam Search)解码算法,而基于注意力机制的Seq2Seq类模型采用基于自回归的束搜索(Beam Search)解码算法。该模型使用Watanabe提出的CTC/Attention单次联合解码(Joint CTC/attention One-Pass Decoding)算法实现CTC与注意力的直接联合解码,该单次联合解码算法相比于基于CTC重打分(Rescoring)的联合解码算法有着更快的解码速度与更低的识别错误率。以下介绍该联合解码算法。
CTC/Attention单次联合解码算法的核心是单次束搜索算法:
Figure BDA0003620703510000123
Figure BDA0003620703510000124
是最终选取的最佳解码路径序列。Lmax是候选序列最长长度,Lmax决定了算法内部进行路径扩展的最大迭代次数,设置这一参数可以避免出现因为没有解码出终结符<eos>导致算法无法正常终止的情况。该算法通过维护一个大小为束宽度(Beam Width)的队列,在解码过程中通过比较候选路径分数,动态剔除队列中分数最低的路径,从而提升解码效率。单次束搜索算法具体的算法描述参见Watanabe的论文,以下介绍该算法如何在解码时将CTC与注意力机制进行融合。
单次束搜索算法在分数α(p,X)的计算过程中同时纳入注意力与CTC分数:
α(p,X)=λαCTC(p,X)+(1-λ)αAttention(p,X)#(15)
其中αCTC(p,X)是解码时候选解码路径序列的CTC分数,αAttention(p,X)是通过注意力解码器获得的序列分数,λ是解码时CTC的权重,0≤λ≤1。αAttention(p,X)在解码过程中通过解码器迭代计算得到,以下介绍αCTC(p,X)的计算过程。
通过将注意力融合后的隐状态序列h输入CTC全连接层,即可计算得到CTC总体分数(CTC Logits)
Figure BDA0003620703510000131
hCTC=softmax(WCTCh+bCTC)#(16)
所谓的CTC Logits,就是与输入音频特征xi及音频编码器输出
Figure BDA0003620703510000132
逐帧对应的音素类别概率分布向量序列,例如
Figure BDA0003620703510000133
就是在第i帧处的概率分布。将CTC Logits直接用于基于自回归的注意力解码算法中较为困难,但是可以基于hCTC计算当前缀符号为p时的CTC前缀概率pctc(p,…|X),也就是当输入音频特征为X时,所有前缀为p的序列的概率之和:
Figure BDA0003620703510000141
其中q表示历史序列,
Figure BDA0003620703510000142
表示序列字符集。pctc(p,q|x)在解码过程中通过CTC前向算法(Forward Algorithm)基于hCTC计算得到[8]。利用pctc(p,…|X),就可以进一步计算注意力解码器在进行自回归解码时,当前待选序列的CTC分数αCTC(p,X)[42]
Figure BDA0003620703510000143
随后即可利用式(15)得到融合后的序列分数。
综上,在输入的音频特征序列为X时,通过式(14)中的单次束搜索算法对融合后的隐状态序列h进行解码,即得到X的音素识别结果
Figure BDA0003620703510000144
该模型自建了普通话评测数据集PSC-Reading,它包括PSC-Reading-G1与PSC-Reading-24两个子集。在建立这些数据集时,我们参考了在英语发音错误检测领域得到广泛运用的L2-Arctic数据集。本节介绍了这些普通话评测数据集建立的方法与细节,包括数据录制与数据标注。
该模型使用一种与L2-Arctic标注方法相似的Praat TextGrid格式对录制的音频数据进行人工标注,并针对本节建立的数据集的特点进行调整。PSC-Reading-G1与PSC-Reading-24使用相同的方法进行标注。标注完成的TextGrid文件如图4所示。
相比于简单地使用纯文本格式来标注每句话对应的抄本,使用Pratt软件对语音进行TextGrid格式的标注是一件复杂的工作。所以,为了提高标注数据的效率,我们利用公开的普通话评测系统辅助进行人工标注。我们使用云知声(Unisound)提供的公开普通话语音评测
Figure BDA0003620703510000151
对录制的音频数据进行音素、音节与句子层级的强制对齐,从而生成TextGrid格式的机器标注。如果API返回的结果中包括音频中的发音错误,将其标注在TextGrid中。随后,在机器标注的TextGrid的基础上,由母语为汉语普通话、学历为大学本科及以上的标注人员进行人工标注。在进行人工标注时,根据实际的音频对句子、音节与音素的边界进行精确的调整,同时标注正确发音、实际发音与发音错误类型。我们对数据集中的所有句子均进行人工标注,并通过交叉检查与规则检查确保人工标注的准确性。
普通话包括21种声母与39种韵母。在这之外还有“y”,“w”两种并不发音的零声母,它们用于在“i”,“u”,“ü”开头的三类韵母前,起分隔音节的作用。我们使用数字1-5表示普通话的五种声调,并附在音节或韵母之后。在进行音素标注时,参考了常用的普通话语音识别数据集thchs-30提供的发音词典,将每个音节的韵母进行形态还原。举例而言,对于音节“niu2”,在将其转变成音素时,它的声母保持为“n”,但韵母还原为“iou2”而非“iu2”。韵母“i”在不同的声母后有不同的发音,所以我们将其细分为“i”,“ix”,“iy”,“iz”四种音素。为了简化儿化音的建模,在音节与音素层级上将儿化音视为一个简单的韵母,但是不标注它的声调,记为“er”。在将不包含声母,或者声母是零声母的音节转换为音素时,仅将其韵母计入,而将零声母忽略。所以音素层级的标注只包括普通话中发音的21种声母、39种韵母及声调。对于发音错误,采用与L2-Arctic一致的标注方法,即使用一个三元组记录下该位置的正确发音、真实发音与发音错误类型。发音错误包括插入(Ins.)、删除(Del.)、替换三类(Sub.),在标注中分别记为“a”,“d”和“s”。
总的来说,PSC-Reading-G1数据集包括1200条音频,而PSC-Reading-24包括5733条音频,少量录制质量较差的音频已经被移除。PSC-Reading-24被随机划分为训练集、验证集与测试集,每个子集均保证说话人的男女性别比为1:1。在完整的PSC-Reading数据集中,训练集由PSC-Reading-G1数据集与PSC-Reading-24的训练集合并得到,而验证集与测试集即为PSC-Reading-24的验证集与测试集。PSC-Reading数据集的统计信息参见表1,数据集中发音错误的统计信息参见表2。
表1 PSC-Reading数据集统计信息
Figure BDA0003620703510000161
表2 PSC-Reading数据集发音错误统计信息
Figure BDA0003620703510000162
以下将PSC-Reading数据集与部分现有的公开语音评测数据集进行比较,具体细节见表3,其中列出的所有数据集的录音环境均为安静的室内。根据表3中的信息可见,目前公开的语音评测数据集大多是针对第二语言习得领域而构建的,而本文构建的PSC-Reading数据集实际上是针对第一语言(母语)学习与评测这一场景。因此PSC-Reading的说话人本身就具有较高的语言水平,所以如表2中数据所示,录音中出现发音错误的频率较低。
表3部分语音评测数据集信息对比
Figure BDA0003620703510000163
Figure BDA0003620703510000171
以上的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

Claims (1)

1.一种基于CTCAttention架构的参考文本相关发音错误检测模型,其特征在于:所述基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上,添加了一个基于双向LSTM的参考文本编码器,随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示,随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接,同时作为CTC全连接层与解码器的输入,该模型可以使用基于Transformer/Conformer的音频编码器,以及基于Transformer的解码器,该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下:
将模型输入的Fbank等语音特征序列记为X=x1,…,xn′,音频编码器的输出记为
Figure FDA0003620703500000011
则音频编码器可以表示为
hA=Audio Encoder(X)#(1)
式(1)中的输入X与输出hA单调对齐,如果音频编码器没有利用CNN等结构进行下采样,则有n×n′,即编码器的输入输出序列一一对应;否则根据音频编码器下采样的比例,X中的连续数帧对应到hA的一帧;
将模型输入的参考文本序列记为s=s1,…,sm,文本编码器隐状态序列记为
Figure FDA0003620703500000012
文本编码器分数隐状态序列记为
Figure FDA0003620703500000013
则文本编码器可以表示为
hT,hTS=TextEncoder(s)#(2)
hTS由hT线性变换而来,维度与hA相同。随后利用注意力机制,将双编码器输出的隐状态序列融合,即可得到融合后的隐状态序列h=h1,...,hn
h=Attention(hA,hTS,hT)#(3)
其中hA、hTS、hT分别作为注意力计算时的查询向量(Query Vector)、键向量(KeyVector)和值向量(Value Vector)。随后,基于注意力解码器与CTC全连接层,对以上得到的隐状态进行基于自回归的CTC注意力联合解码,即可得到最终的音素识别结果序列
Figure FDA0003620703500000021
Figure FDA0003620703500000022
最终利用Needleman-Wunsch算法,对齐并比较参考文本音素序列Cref与识别结果
Figure FDA0003620703500000023
得到发音错误检测结果;
式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时,与CNN-RNN结构同样在模型的输入端使用CNN层进行特征下采样,从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列hA中每一帧
Figure FDA0003620703500000031
的维度就是音频编码器的模型维度为dAudioEnc,与注意力解码器的维度dDec均为256。此处音频编码器使用Transformer或者Conformer结构时,其层数均为6层;
式(2)中所述的文本编码器基于双向LSTM,实现全局信息建模,以下介绍其前向计算过程;
独热向量(One-hotVector)形式的参考文本音素序列s=s1,…,sm的维度较高、信息密度较低,利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e=e1,...,em
e=PhonemeEmbedding(s)#(5)
嵌入后ei的维度dTextEmb为64。随后使用维度dTextEnc为256的双向LSTM神经网络对e进行编码,得到文本编码器隐状态序列hT
hT=BiLSTM(e)#(6)
由于使用了双向LSTM网络,hT中的每帧
Figure FDA0003620703500000041
的维度是2dTextEnc=512,不一定与音频编码器隐状态
Figure FDA0003620703500000042
的维度dAudioEnc相同。因为点乘注意力机制要求查询向量与键向量的维度一致,所以此处使用一个线性变换改变hT的维度,得到文本编码器分数隐状态序列hTS[27]
hTS=WKVhT#(7)
得到的hTS序列中每帧
Figure FDA0003620703500000043
的维度是dAudioEnc,与
Figure FDA0003620703500000044
相同。
CN202210462027.7A 2022-04-28 2022-04-28 基于CTCAttention架构的参考文本相关发音错误检测模型 Pending CN114863948A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210462027.7A CN114863948A (zh) 2022-04-28 2022-04-28 基于CTCAttention架构的参考文本相关发音错误检测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210462027.7A CN114863948A (zh) 2022-04-28 2022-04-28 基于CTCAttention架构的参考文本相关发音错误检测模型

Publications (1)

Publication Number Publication Date
CN114863948A true CN114863948A (zh) 2022-08-05

Family

ID=82633840

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210462027.7A Pending CN114863948A (zh) 2022-04-28 2022-04-28 基于CTCAttention架构的参考文本相关发音错误检测模型

Country Status (1)

Country Link
CN (1) CN114863948A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376547A (zh) * 2022-08-12 2022-11-22 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质
CN115905584A (zh) * 2023-01-09 2023-04-04 共道网络科技有限公司 一种视频拆分方法及装置
CN115376547B (zh) * 2022-08-12 2024-06-04 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115376547A (zh) * 2022-08-12 2022-11-22 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质
CN115376547B (zh) * 2022-08-12 2024-06-04 腾讯科技(深圳)有限公司 发音评测方法、装置、计算机设备和存储介质
CN115905584A (zh) * 2023-01-09 2023-04-04 共道网络科技有限公司 一种视频拆分方法及装置

Similar Documents

Publication Publication Date Title
CN112712804B (zh) 语音识别方法、系统、介质、计算机设备、终端及应用
Seki et al. An end-to-end language-tracking speech recognizer for mixed-language speech
EP1575029B1 (en) Generating large units of graphonemes with mutual information criterion for letter to sound conversion
JP2020505650A (ja) 音声認識システム及び音声認識の方法
JP5327054B2 (ja) 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US20080059190A1 (en) Speech unit selection using HMM acoustic models
Neubig et al. Bayesian learning of a language model from continuous speech
Kadyan et al. Refinement of HMM model parameters for punjabi automatic speech recognition (PASR) system
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
CN113327574A (zh) 一种语音合成方法、装置、计算机设备和存储介质
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
CN112967720B (zh) 少量重口音数据下的端到端语音转文本模型优化方法
CN114863948A (zh) 基于CTCAttention架构的参考文本相关发音错误检测模型
CN117099157A (zh) 用于端到端自动语音识别置信度和删除估计的多任务学习
CN113539268A (zh) 一种端到端语音转文本罕见词优化方法
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
Liu et al. Modeling partial pronunciation variations for spontaneous Mandarin speech recognition
Pylkkönen Towards efficient and robust automatic speech recognition: decoding techniques and discriminative training
JP2021085943A (ja) 音声合成装置及びプログラム
Granell et al. Image–speech combination for interactive computer assisted transcription of handwritten documents
CN114999447B (zh) 一种基于对抗生成网络的语音合成模型及语音合成方法
Bijwadia et al. Text Injection for Capitalization and Turn-Taking Prediction in Speech Models
Liu et al. Pronunciation Dictionary-Free Multilingual Speech Synthesis Using Learned Phonetic Representations
Feng et al. Application of Word2vec in Phoneme Recognition
Weweler Single-Speaker End-To-End Neural Text-To-Speech Synthesis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication