CN114863948A

CN114863948A - 基于CTCAttention架构的参考文本相关发音错误检测模型

Info

Publication number: CN114863948A
Application number: CN202210462027.7A
Authority: CN
Inventors: 艾山·吾买尔; 申云飞; 早克热·卡德尔; 刘庆庆; 李晶; 郭深; 范聪
Original assignee: Xinjiang University
Current assignee: Xinjiang University
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-08-05

Abstract

本发明公开了一种基于CTCAttention架构的参考文本相关发音错误检测模型，涉及信息技术领域，该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行。在基于语音识别技术的发音错误检测框架中，待评测的音频首先被输入基于语音识别技术的音素识别模块，得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块，得到待评测语音的发音错误检测结果。在本文中，发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较，从而找到待评测音频中的发音错误。

Description

基于CTCAttention架构的参考文本相关发音错误检测模型

技术领域

本发明涉及信息技术领域，特别涉及一种基于CTCAttention架构的参考文本相关发音错误检测模型。

背景技术

发音错误检测技术全称为发音错误检测与诊断技术，是使用计算机自动对语音音段层面的发音准确度进行评价的技术，也是计算机辅助语音训练技术的重要组成部分。在深度学习技术广泛运用到语音识别(ASR)及发音错误检测任务上前，基于传统语音识别技术与机器学习技术的发音错误检测方法已经得到了深入的研究与应用。在深度学习技术广泛运用于语音识别领域后，先后出现了多种基于深层神经网络(DNN)的语音识别模型。目前，面向普通话的发音错误检测公开研究主要集中在运用传统机器学习算法针对普通话的声韵母、声调及儿化音进行细粒度的评分。目前进行面向普通话的发音错误检测研究，主要的困难在于缺乏对应的公开数据集。相比于语音识别数据集，语音评测数据集由于需要专家标注，建设成本很高，故公开的语音评测数据集很少，很多时候研究者选择在私有的数据集上进行实验。现有针对深度学习技术在我国汉语普通话语音评测方面的研究还处于初步阶段，几乎没有与普通话水平测试相关的公开数据集，针对普通话口语评测的研究近年来也颇为罕见。从现有的面向普通话的发音错误检测研究来看，Zhang等人提出的基于CTC/Attention的端到端普通话发音错误检测模型没有考虑到使用参考文本信息，模型基于BiLSTM，而没有考虑使用Transformer等新的模型结构。Lo等提出的利用重复参考文本进行数据增广的发音错误检测模型让一个音频编码器与一个参考文本编码器共享一个解码器，这种思路仅将文本编码器用于数据增广，并没有将文本编码器与音频编码器的输出进行融合，模型于推理阶段时只使用音频编码器，因而并不能充分运用参考文本的信息。综上国内外在MDD任务中运用Transformer/Conformer结构的研究不多，同时尚未见到结合Transformer/Conformer结构、融合多编码器特征及CTC/Attention架构的MDD模型及相关研究。

发明内容

本发明所要解决的技术问题是提供一种基于CTCAttention架构的参考文本相关发音错误检测模型，建立了针对普通话水平测试短文朗读题型的普通话语音评测数据集PSC-Reading，在采用Transformer实现音频编码器时，相对于作为基线的CNN-RNN-CTC及CNN-RNN-CTC-Text-Dep发音错误检测模型获得了显著的性能提升。

为实现上述目的，本发明提供以下的技术方案：

该基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上，添加了一个基于双向LSTM的参考文本编码器，随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示，随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接，同时作为CTC全连接层与解码器的输入，该模型可以使用基于Transformer/Conformer的音频编码器，以及基于Transformer的解码器，该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下：

将模型输入的Fbank等语音特征序列记为X＝x₁，…，x_n′，音频编码器的输出记为

则音频编码器可以表示为

h^A＝AudioEncoder(X)#(1)

式(1)中的输入X与输出h^A单调对齐，如果音频编码器没有利用CNN等结构进行下采样，则有n＝n′，即编码器的输入输出序列一一对应；否则根据音频编码器下采样的比例，X中的连续数帧对应到h^A的一帧。

将模型输入的参考文本序列记为s＝s₁，…，s_m，文本编码器隐状态序列记为

文本编码器分数隐状态序列记为

则文本编码器可以表示为

h^T，h^TS＝TextEncoder(s)#(2)

h^TS由h^T线性变换而来，维度与h^A相同。随后利用注意力机制，将双编码器输出的隐状态序列融合，即可得到融合后的隐状态序列h＝h₁，...，h_n：

h＝Attention(h^A，h^TS，h^T)#(3)

其中h^A、h^TS、h^T分别作为注意力计算时的查询向量(Query Vector)、键向量(KeyVector)和值向量(Value Vector)。随后，基于注意力解码器与CTC全连接层，对以上得到的隐状态进行基于自回归的CTC注意力联合解码，即可得到最终的音素识别结果序列

最终利用Needleman-Wunsch算法，对齐并比较参考文本音素序列C_ref与识别结果

得到发音错误检测结果。

式(1)中所述的音频编码器使用Transformer与Conformer结构。在使用Transformer与Conformer结构时，与CNN-RNN结构同样在模型的输入端使用CNN层进行特征下采样，从而提升模型计算速度。音频编码器的输入X是80维的Fbank特征。音频编码器输出的隐状态序列h^A中每一帧

的维度就是音频编码器的模型维度为d_AudioEnc，与注意力解码器的维度d_Dec均为256。此处音频编码器使用Transformer或者Conformer结构时，其层数均为6层。

式(2)中所述的文本编码器基于双向LSTM，实现全局信息建模，以下介绍其前向计算过程。

独热向量(One-hot Vector)形式的参考文本音素序列s＝s₁，…，s_m的维度较高、信息密度较低，利用音素嵌入层(Phoneme Embedding)即可将其映射为维度更低的稠密向量表示e＝e₁，...，e_m：

e＝PhonemeEmbedding(s)#(5)

嵌入后e_i的维度d_TextEmb为64。随后使用维度d_TextEnc为256的双向LSTM神经网络对e进行编码，得到文本编码器隐状态序列h^T：

h^T＝BiLSTM(e)#(6)

由于使用了双向LSTM网络，h^T中的每帧

的维度是2d_TextEnc＝512，不一定与音频编码器隐状态

的维度d_AudioEnc相同。因为点乘注意力机制要求查询向量与键向量的维度一致，所以此处使用一个线性变换改变h^T的维度，得到文本编码器分数隐状态序列h^TS[27]：

h^TS＝W_KVh^T#(7)

得到的h^TS序列中每帧

的维度是d_AudioEnc，与

相同。

采用以上技术方案的有益效果是：该基于CTCAttention架构的参考文本相关发音错误检测模型在现有的数种文本相关发音错误检测模型的基础上，结合在语音识别任务中得到广泛应用的Transformer模型、Conformer模型及CTC/Attention端到端语音识别框架，提出了一种基于Transformer/Conformer、双编码器及CTC/Attention多任务学习框架的文本相关发音错误检测框架。实验显示，在PSC朗读评测任务上，采用Transformer时的该改进模型的性能相比于基线模型有较大的提升。

附图说明

下面结合附图对本发明的具体实施方式作进一步详细的描述。

图1是基于语音识别技术的发音错误检测框架图；

图2是基于CTCAttention架构的参考文本相关发音错误检测模型图；

图3是基于点乘注意力的多编码器隐状态融合图；

图4是PSC-Reading数据集的标注样例图。

具体实施方式

下面结合附图详细说明本发明基于CTCAttention架构的参考文本相关发音错误检测模型的优选实施方式。

图1、图2、图3和图4出示本发明基于CTCAttention架构的参考文本相关发音错误检测模型的具体实施方式：

该基于CTCAttention架构的参考文本相关发音错误检测模型的发音错误检测研究在基于语音识别技术的发音错误检测框架上进行，该框架的整体结构如图1所示。在基于语音识别技术的发音错误检测框架中，待评测的音频首先被输入基于语音识别技术的音素识别模块，得到相应的音素识别结果。随后音素识别结果序列与参考文本同时输入发音错误检测模块，得到待评测语音的发音错误检测结果。发音错误检测模块通过使用序列对齐算法将音素识别结果序列与正确音素序列进行对齐与比较，从而找到待评测音频中的发音错误。Needleman-Wunsch算法是生物信息学、发音错误检测领域中常用的序列对齐算法。该模型在发音错误检测模块中使用的对齐算法是Levenshtein对齐算法，它是Needleman-Wunsch算法针对字符串编辑距离计算的特化版本，将Needleman-Wunsch算法中对序列间不匹配字符的惩罚值设定为对所有字符都一致的固定值。该模型使用的Levenshtein对齐算法实现来自于Kaldi提供的align-text工具，通过它即可批量进行音素序列对齐。发音错误检测模块输入的参考文本序列应当与音素识别模块输出的音素识别结果采用一致的建模单元，从而能够准确地使用Needleman-Wunsch算法进行序列比较与对齐，因此在该模型提出的方法中，用于评测的参考该模型需要转换为以音素为单元的序列。由此可见，音素识别模块能否准确识别待评测音频，是影响基于语音识别技术的发音错误检测系统性能的关键因素。

基于CTC的语音识别模型与基于注意力的语音识别模型(也就是LAS)各有其优点与缺点。基于CTC的语音识别模型依赖于CTC的条件独立性假设以实现输入输出序列间的对齐，一方面有很好的序列单向对齐效果，但是另一方面因此无法建模输出序列的前后依赖关系，导致其往往需要外接语言模型来达成较为理想的识别性能。基于注意力的语音识别模型利用注意力实现输入输出序列间的对齐，从而摆脱了CTC的条件独立性假设，解码器端可以实现输出序列的前后依赖建模，无需外接语言模型就可以取得较好的识别性能，但是注意力机制的灵活性让模型训练较为困难。面对这一情况，Watanabe等人提出了利用多任务学习(Multi-TaskLearning)框架改进LAS模型，将CTC集成到LAS模型中，从而能够同时利用两种端到端语音识别模型优点的混合CTC/Attention架构(Hybrid CTC/AttentionArchitecture)。这一改进的LAS模型利用CTC的单向对齐特性来减少输入输出序列间的错误对齐，在模型训练时通过多任务学习机制为LAS的编码器端进行了正则化以加快收敛，在模型推理解码时通过CTC/注意力机制的联合解码提升识别的准确率，从而得到了广泛的应用。

该基于CTC/Attention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上，添加了一个基于双向LSTM的参考文本编码器，随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示，随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接，同时作为CTC全连接层与解码器的输入。该模型可以使用基于Transformer/Conformer的音频编码器，以及基于Transformer的解码器。该模型的整体结构如图2所示，以下介绍模型的计算过程。

,则音频编码器可以表示为

h^A＝AudioEncoder(X)#(1)

,文本编码器分数隐状态序列记为

,则文本编码器可以表示为

h^T，h^TS＝TextEncoder(s)#(2)

h＝Attention(h^A，h^TS，h^T)#(3)

得到发音错误检测结果。

e＝PhonemeEmbedding(s)#(5)

h^T＝BiLSTM(e)#(6)

由于使用了双向LSTM网络，h^T中的每帧

的维度是2d_TextEnc＝512，不一定与音频编码器隐状态

h^TS＝W_KVh^T#(7)

得到的h^TS序列中每帧

的维度是d_AudioEnc，与

相同。

该模型采用点乘注意力算法进行双编码器的特征融合，如式(3)所述，将音频编码器的输出

作为注意力计算时的查询向量(Query Vector)，而将文本编码器的输出

及

分别作为注意力计算时的键向量(Key Vector)和值向量(Value Vector)，整体计算流程如图3所示。

点乘注意力机制通过向量点乘的方式计算注意力分数(Attention Score)：

DotProductAttentionScore(q，k)＝qk^T#(8)

使用式(7)计算

与

间的注意力分数，并使用softmax函数对计算得到的注意力分数进行归一化，即得到归一化后的注意力权重a_ij：

其中

与

向维度大小相同，均为d_AudioEnc。通过计算注意力权重a_ij，就实现了待评测音频与参考

文本间的软性对齐。随后通过求加权平均值的方法，计算得到注意力上下文向量c_j：

最后将注意力上下文向量c_j与音频编码器输出的隐状态向量

相拼接，即得到解码器的第j步输入的融合后的隐状态向量h′_j：

式(6)中的隐状态序列拼接操作引入了残差连接^[43]，使得音频编码器端的信息能够无阻碍地传递到解码器端，在训练模型时有助于加快深层模型的收敛。此时h′_j的维度是2d_TextEnc+d_AudioEnc＝768，而解码器的维度d_Dec与音频编码器维度同样为256，故此处使用一个线性变换将其降维，得到注意力层最终输出的融合隐状态h_j：

h_j＝W_AttCtxh′_j#(12)

于是最终输出的h＝h₁，...，h_n，其每一帧h_j的维度均为256，与d_Dec相同。混合CTC/Attention架构的LAS模型在训练时以如下的多任务损失函数

作为目标函数：

其中

是CTC损失函数，作用于模型的编码器端；

是LAS模型解码器端的损失函数，此处使用交叉熵损失函数；λ是模型训练时CTC的权重，0≤λ≤1。

式(4)描述了通过结合CTC与注意力，实现联合解码，最终得到音素识别结果的过程。语音识别的解码是根据一定的搜索策略，在语音识别的模型输出中找到最可能的识别结果的过程。传统情况下，基于CTC的语音识别采用贪婪搜索(Greedy Search)解码或者前缀束搜索(Prefix Beam Search)解码算法，而基于注意力机制的Seq2Seq类模型采用基于自回归的束搜索(Beam Search)解码算法。该模型使用Watanabe提出的CTC/Attention单次联合解码(Joint CTC/attention One-Pass Decoding)算法实现CTC与注意力的直接联合解码，该单次联合解码算法相比于基于CTC重打分(Rescoring)的联合解码算法有着更快的解码速度与更低的识别错误率。以下介绍该联合解码算法。

CTC/Attention单次联合解码算法的核心是单次束搜索算法：

是最终选取的最佳解码路径序列。L_max是候选序列最长长度，L_max决定了算法内部进行路径扩展的最大迭代次数，设置这一参数可以避免出现因为没有解码出终结符<eos>导致算法无法正常终止的情况。该算法通过维护一个大小为束宽度(Beam Width)的队列，在解码过程中通过比较候选路径分数，动态剔除队列中分数最低的路径，从而提升解码效率。单次束搜索算法具体的算法描述参见Watanabe的论文，以下介绍该算法如何在解码时将CTC与注意力机制进行融合。

单次束搜索算法在分数α(p，X)的计算过程中同时纳入注意力与CTC分数：

α(p，X)＝λα_CTC(p，X)+(1-λ)α_Attention(p，X)#(15)

其中α_CTC(p，X)是解码时候选解码路径序列的CTC分数，α_Attention(p，X)是通过注意力解码器获得的序列分数，λ是解码时CTC的权重，0≤λ≤1。α_Attention(p，X)在解码过程中通过解码器迭代计算得到，以下介绍α_CTC(p，X)的计算过程。

通过将注意力融合后的隐状态序列h输入CTC全连接层，即可计算得到CTC总体分数(CTC Logits)

h^CTC＝softmax(W_CTCh+b_CTC)#(16)

所谓的CTC Logits，就是与输入音频特征x_i及音频编码器输出

逐帧对应的音素类别概率分布向量序列，例如

就是在第i帧处的概率分布。将CTC Logits直接用于基于自回归的注意力解码算法中较为困难，但是可以基于h^CTC计算当前缀符号为p时的CTC前缀概率p_ctc(p，…|X)，也就是当输入音频特征为X时，所有前缀为p的序列的概率之和：

其中q表示历史序列，

表示序列字符集。p_ctc(p，q|x)在解码过程中通过CTC前向算法(Forward Algorithm)基于h^CTC计算得到[8]。利用p_ctc(p，…|X)，就可以进一步计算注意力解码器在进行自回归解码时，当前待选序列的CTC分数α_CTC(p，X)^[42]：

随后即可利用式(15)得到融合后的序列分数。

综上，在输入的音频特征序列为X时，通过式(14)中的单次束搜索算法对融合后的隐状态序列h进行解码，即得到X的音素识别结果

。

该模型自建了普通话评测数据集PSC-Reading，它包括PSC-Reading-G1与PSC-Reading-24两个子集。在建立这些数据集时，我们参考了在英语发音错误检测领域得到广泛运用的L2-Arctic数据集。本节介绍了这些普通话评测数据集建立的方法与细节，包括数据录制与数据标注。

该模型使用一种与L2-Arctic标注方法相似的Praat TextGrid格式对录制的音频数据进行人工标注，并针对本节建立的数据集的特点进行调整。PSC-Reading-G1与PSC-Reading-24使用相同的方法进行标注。标注完成的TextGrid文件如图4所示。

相比于简单地使用纯文本格式来标注每句话对应的抄本，使用Pratt软件对语音进行TextGrid格式的标注是一件复杂的工作。所以，为了提高标注数据的效率，我们利用公开的普通话评测系统辅助进行人工标注。我们使用云知声(Unisound)提供的公开普通话语音评测

对录制的音频数据进行音素、音节与句子层级的强制对齐，从而生成TextGrid格式的机器标注。如果API返回的结果中包括音频中的发音错误，将其标注在TextGrid中。随后，在机器标注的TextGrid的基础上，由母语为汉语普通话、学历为大学本科及以上的标注人员进行人工标注。在进行人工标注时，根据实际的音频对句子、音节与音素的边界进行精确的调整，同时标注正确发音、实际发音与发音错误类型。我们对数据集中的所有句子均进行人工标注，并通过交叉检查与规则检查确保人工标注的准确性。

普通话包括21种声母与39种韵母。在这之外还有“y”，“w”两种并不发音的零声母，它们用于在“i”，“u”，“ü”开头的三类韵母前，起分隔音节的作用。我们使用数字1-5表示普通话的五种声调，并附在音节或韵母之后。在进行音素标注时，参考了常用的普通话语音识别数据集thchs-30提供的发音词典，将每个音节的韵母进行形态还原。举例而言，对于音节“niu2”，在将其转变成音素时，它的声母保持为“n”，但韵母还原为“iou2”而非“iu2”。韵母“i”在不同的声母后有不同的发音，所以我们将其细分为“i”，“ix”，“iy”，“iz”四种音素。为了简化儿化音的建模，在音节与音素层级上将儿化音视为一个简单的韵母，但是不标注它的声调，记为“er”。在将不包含声母，或者声母是零声母的音节转换为音素时，仅将其韵母计入，而将零声母忽略。所以音素层级的标注只包括普通话中发音的21种声母、39种韵母及声调。对于发音错误，采用与L2-Arctic一致的标注方法，即使用一个三元组记录下该位置的正确发音、真实发音与发音错误类型。发音错误包括插入(Ins.)、删除(Del.)、替换三类(Sub.)，在标注中分别记为“a”，“d”和“s”。

总的来说，PSC-Reading-G1数据集包括1200条音频，而PSC-Reading-24包括5733条音频，少量录制质量较差的音频已经被移除。PSC-Reading-24被随机划分为训练集、验证集与测试集，每个子集均保证说话人的男女性别比为1:1。在完整的PSC-Reading数据集中，训练集由PSC-Reading-G1数据集与PSC-Reading-24的训练集合并得到，而验证集与测试集即为PSC-Reading-24的验证集与测试集。PSC-Reading数据集的统计信息参见表1，数据集中发音错误的统计信息参见表2。

表1 PSC-Reading数据集统计信息

表2 PSC-Reading数据集发音错误统计信息

以下将PSC-Reading数据集与部分现有的公开语音评测数据集进行比较，具体细节见表3，其中列出的所有数据集的录音环境均为安静的室内。根据表3中的信息可见，目前公开的语音评测数据集大多是针对第二语言习得领域而构建的，而本文构建的PSC-Reading数据集实际上是针对第一语言(母语)学习与评测这一场景。因此PSC-Reading的说话人本身就具有较高的语言水平，所以如表2中数据所示，录音中出现发音错误的频率较低。

表3部分语音评测数据集信息对比

以上的仅是本发明的优选实施方式，应当指出，对于本领域的普通技术人员来说，在不脱离本发明创造构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。

Claims

1.一种基于CTCAttention架构的参考文本相关发音错误检测模型，其特征在于：所述基于CTCAttention架构的参考文本相关发音错误检测模型在基于CTC/Attention架构的单编码器端到端发音错误检测模型的基础上，添加了一个基于双向LSTM的参考文本编码器，随后利用点乘注意力融合音频编码器与参考文本编码器的特征表示，随后将融合后的注意力上下文特征与原始的音频编码器的特征按帧拼接，同时作为CTC全连接层与解码器的输入，该模型可以使用基于Transformer/Conformer的音频编码器，以及基于Transformer的解码器，该基于CTCAttention架构的参考文本相关发音错误检测模型的计算方法如下：