CN115798519A

CN115798519A - 一种英语多题型口语发音评估方法及系统

Info

Publication number: CN115798519A
Application number: CN202310093513.0A
Authority: CN
Inventors: 许信顺; 张凯旗; 马磊; 陈义学; 李溢欢
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2023-02-10
Filing date: 2023-02-10
Publication date: 2023-03-14
Anticipated expiration: 2043-02-10
Also published as: CN115798519B

Abstract

本发明涉及语音识别以及语音测评技术领域，本发明公开了一种英语多题型口语发音评估方法及系统；所述方法，包括：获取待评分的朗读题发音音频；对朗读题发音音频进行预处理和特征提取，得到朗读题发音音频特征；将朗读题发音音频特征，输入到训练后的第一评分模型中，输出朗读题发音的第一评分结果；将音频特征和朗读题对应的朗读文本，共同输入到训练后的第二评分模型中，输出朗读题发音的第二评分结果；将第一评分结果和第二评分结果进行求和，得到朗读题发音的最终评分结果。根据两种声学模型各自的特点和优势，对于口语考试中的朗读题和开放题，分别设计评分模型。

Description

一种英语多题型口语发音评估方法及系统

技术领域

本发明涉及语音识别以及语音测评技术领域，特别是涉及一种英语多题型口语发音评估方法及系统。

背景技术

本部分的陈述仅仅是提到了与本发明相关的背景技术，并不必然构成现有技术。

语音评测分为两大步骤，首先将语音数据提取声学特征输入到声学模型中，再将声学模型的输出送到评分模块中，得到最终的评分。

语音评测是衡量英语为第二语言的学习者口语水平的主要方法。随着深度学习的发展，语音评测主要分为两大类：基于传统的隐马尔可夫声学模型结合发音优度(Goodnessof Pronunciation，GOP)算法的语音评测技术和基于端到端声学模型深度特征的语音评测技术。

(1)基于传统的隐马尔可夫声学模型结合GOP算法的语音评测技术，其基本思路是将声学特征输入基于高斯混合-隐马尔可夫模型(GMM-HMM，GaussianMixture Model--Hidden Markov Model)的声学模型或者基于深度神经网络-隐马尔科夫模型(DNN-HMM，DeepNeural Network--Hidden Markov Model )的声学模型，输出给定观测结果的似然值或者音素相关的似然值。再根据GOP算法对似然值进行运算得到GOP分数，将GOP分数输入到基于多层全连接网络的评分模块中给出最终评分。

(2)基于端到端声学模型输出的深度特征的语音评测技术，将声学特征输入到端到端声学模型，一般只获取声学模型中编码器输出的深度特征，将深度特征输入到评分模块中给出最终评分。

基于端到端的声学模型输出的深度特征的语音评测技术，相对于基于传统的隐马尔可夫声学模型结合GOP算法的语音评测技术，在评分效果上更具优势，特别在评分的皮尔逊相关系数和准确率上优势明显，并且评分不依赖文本，只需要输入音频即可，特别适合对英语口语考试中的情景问答、个人陈述等开放题给出评分，因为开放题并没有固定的指定文本，评分更关注考生口语的流利程度。基于传统的隐马尔可夫声学模型结合GOP算法的语音评测技术，虽然在评分效果上略有劣势，但是会依照文本给出评分，特别适合对英语口语考试中的朗读题给出的评分，因为朗读题需要考生完全按照指定的文本进行朗读。此外，基于端到端的声学模型输出的深度特征的语音评测技术，在处理声学特征时会受到空白无人声的音频的干扰，导致效果下降。

发明内容

为了解决现有技术的不足，本发明提供了一种英语多题型口语发音评估方法及系统；结合当前英语口语考试中既存在朗读题，又存在开放题的现实情况，根据两种声学模型各自的特点和优势，对于口语考试中的朗读题和开放题，分别设计评分模型。

第一方面，本发明提供了一种英语多题型口语发音评估方法；

一种英语多题型口语发音评估方法，包括：

获取待评分的朗读题发音音频；

对朗读题发音音频进行预处理和特征提取，得到朗读题发音音频特征；

将朗读题发音音频特征，输入到训练后的第一评分模型中，输出朗读题发音的第一评分结果；

将音频特征和朗读题对应的朗读文本，共同输入到训练后的第二评分模型中，输出朗读题发音的第二评分结果；

将第一评分结果和第二评分结果进行求和，得到朗读题发音的最终评分结果。

进一步地，所述方法，还包括：

获取待评分的开放题发音音频；

对开放题发音音频进行预处理和特征提取，得到开放题发音音频特征；

将开放题发音音频特征，输入到训练后的第三评分模型中，输出开放题发音的最终评分结果。

第二方面，本发明提供了一种英语多题型口语发音评估系统；

一种英语多题型口语发音评估系统，包括：

第一获取模块，其被配置为：获取待评分的朗读题发音音频；

第一特征提取模块，其被配置为：对朗读题发音音频进行预处理和特征提取，得到朗读题发音音频特征；

第一评分模块，其被配置为：将朗读题发音音频特征，输入到训练后的第一评分模型中，输出朗读题发音的第一评分结果；

第二评分模块，其被配置为：将音频特征和朗读题对应的朗读文本，共同输入到训练后的第二评分模型中，输出朗读题发音的第二评分结果；

最终评分模块，其被配置为：将第一评分结果和第二评分结果进行求和，得到朗读题发音的最终评分结果。

进一步地，所述系统，还包括：

第二获取模块，其被配置为：获取待评分的开放题发音音频；

第二特征提取模块，其被配置为：对开放题发音音频进行预处理和特征提取，得到开放题发音音频特征；

开放题评分模块，其被配置为：将开放题发音音频特征，输入到训练后的第三评分模型中，输出开放题发音的最终评分结果。

与现有技术相比，本发明的有益效果是：

本发明针对英语口语考试中朗读题和开放题不同的评分规则，结合基于端到端的声学模型的深度特征方法和基于DNN-HMM的声学模型结合GOP算法的方法各自的优劣，扬长避短。将音频的深度特征作为评分依据，对没有规定文本的开放题进行自动评分。因此本发明可以对英语口语考试中的朗读题和情景问答和个人陈述等多种题型评分，实现了多题型的自动发音评估。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为实施例一的方法流程图；

图2为实施例一的训练后的第一评分模型内部网络结构图。

具体实施方式

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本实施例所有数据的获取都在符合法律法规和用户同意的基础上，对数据的合法应用。

实施例一

本实施例提供了一种英语多题型口语发音评估方法；

如图1所示，一种英语多题型口语发音评估方法，包括：

S101：获取待评分的朗读题发音音频；

S102：对朗读题发音音频进行预处理和特征提取，得到朗读题发音音频特征；

S103：将朗读题发音音频特征，输入到训练后的第一评分模型中，输出朗读题发音的第一评分结果；

S104：将音频特征和朗读题对应的朗读文本，共同输入到训练后的第二评分模型中，输出朗读题发音的第二评分结果；

S105：将第一评分结果和第二评分结果进行求和，得到朗读题发音的最终评分结果。

进一步地，所述预处理，包括：对音频进行预加重处理、加窗处理和离散傅里叶变换。

示例性地，所述对音频进行预加重处理，具体包括：

由于声音的频率越高，在声音传播过程中，介质对声音的能量的损耗越大。为了保护声音信息，采用预加重操作弥补声音在高频分量的损失，其计算过程如公式(1)所示。

； (1)

其中，

表示音频数据的第n个采样点，

取值范围(0.95,0.99)，

表示音频数据的第n个采样点经过预加重处理得到的数据，

表示乘号。

示例性地，所述加窗处理，具体包括：

较长时间段内音频是连续变化的，没有统计特性，但是很短时间内的音频可以看作不变的，这样就具有了统计特性。加窗操作，按照固定窗长，每次取固定长度的语音，对窗内音频进行离散傅里叶变换计算。按照固定的窗移，依次重复上述过程，直到对整个音频都进行加窗操作。加窗计算过程如公式(2)所示：

； (2)

其中，

是所取窗口内的第n个采样点，

是

对应的权重，

表示所取窗口内的第n个采样点经过加窗操作得到的数据，

表示乘号。

示例性地，所述离散傅里叶变换，具体包括：

对加窗操作后的每一个窗内的音频，进行离散傅里叶变换，将波形图转化成频谱图，将窗内的数据，从时域转化到频域，DFT计算过程，如公式(3)所示。

；(3)

其中，

为时域信号，

为频域信号，

为窗内的采样点数量，

为频率，n为所取窗口内的第n个采样点，

表示虚数单位。

进一步地，所述特征提取，包括：对预处理后的音频提取出频域特征Fbank。

示例性地，所述对预处理后的音频提取出Fbank特征，具体包括：

因为人耳对声音的敏感度是不均匀的，人耳能感受到的听力频率范围在20-20000赫兹之间,但是对其中1000-3000赫兹的声音最为敏感，所以人耳的敏感程度与频率是非线性关系。为了将频率与人耳的敏感程度进行线性映射，采用梅尔刻度，将频率代入梅尔刻度公式，即可得到与人耳敏感程度呈现线性关系的梅尔频率，梅尔刻度公式，如公式(4)所示。

； (4)

其中，

为普通频率，

为梅尔频率，

表示以常数e为底数的对数。

使用梅尔滤波器组将频谱规划到梅尔频率的刻度上。

梅尔滤波器组公式，如公式(5)所示，滤波器的中心频率计算过程，如公式(6)所示，梅尔刻度公式的逆变换，如公式(7)所示。

(5)

(6)

； (7)

其中，

为在频域范围设置的多个滤波器，每个滤波器均为三角滤波器。

为滤波器总数，

表示第

个滤波器，

即为输入的频率，

为离散傅里叶变化的长度，

为第

个滤波器的中心频率，

为采样频率，

为滤波器频率范围的最高频率，

是滤波器频率范围的最低频率，

表示第m-1个滤波器的中心频率，

表示第m+1个滤波器的中心频率，

表示梅尔刻度公式的逆变换，

表示梅尔频率。

经过梅尔滤波器组得到的结果就是FBank特征，FBank的维度等于梅尔滤波器的总数，由于相邻滤波器组有重叠，FBank特征相关性较高。相比于MFCC特征，FBank特征不需要额外做傅里叶逆变换，做逆傅里叶变换虽然会具有更好的判别度，但是损失了部分原始特征。使用FBank特征能够最大程度地保留声学特征信息，适合端到端声学模型和DNN-HMM声学模型后续的特征提取操作。

进一步地，如图2所示，所述训练后的第一评分模型，其网络结构包括：

依次连接的端到端声学模型、过滤器、自注意力机制模块、长短期记忆网络和多层线性层；

所述端到端声学模型，包括：依次连接的编码器和解码器；

所述编码器的输入端用于输入频域特征Fbank，所述解码器的输出端与过滤器的输入端连接，所述编码器的输出端也与过滤器的输入端连接。

进一步地，所述编码器，采用Conformer编码器；所述解码器，采用连接时序分类模型CTC（ConnectionistTemporal Classification）。

进一步地，Conformer编码器，其网络结构包括：

依次连接的卷积降采样层ConvolutionSubsampling、线性层、随机失活层Dropout和N个Conformer网络模块ConformerBlock组成；N为正整数。

进一步地，所述Conformer编码器，用于从频域Fbank中获取深度特征。

本实施例中的Conformer编码器使用开发工具Wenet进行实现。端到端声学模型的编码器由Conformer模型的编码器组成。

进一步地，所述ConformerBlock，包括：

依次连接的第一前馈神经网络FreedForward Module、第一加法器、多头注意力机制模块Multi Head Self-Attention、第二加法器、卷积模块CNNMoudle、第三加法器、第二前馈神经网络FreedForward Module、第四加法器、归一化操作模块Layernorm；

第一前馈模块FreedForward Module的输入端与第一加法器的输入端之间采用残差方式进行连接；多头注意力机制模块MultiHead Self-Attention的输入端与第二加法器的输入端之间采用残差方式进行连接；卷积模块CNNMoudle的输入端与第三加法器的输入端之间采用残差方式进行连接；第二前馈模块FreedForward Module的输入端与第四加法器的输入端之间采用残差方式进行连接。

进一步地，所述CTC解码器，用于获取非空白帧对应的索引值。

CTC解码器，包括：依次连接的进行softmax激活函数运算并进行log运算的模块log_softmax模块、返回最大元素的算法模块topk和返回非零元素的算法模块nonzero；

进行softmax激活函数运算并进行log运算的模块log_softmax模块，对深度特征进行处理，得到音频每一帧对于整个字典中的字符的分数，分数越高，说明识别为对应的字符的概率越大；

返回最大元素的算法模块topk，对音频每一帧对于整个字典中的字符的分数进行处理，得到音频每一帧对于整个字典中的分数最大的字符在字典中的位置；

返回非零元素的算法模块nonzero，对音频每一帧对于整个字典中的分数最大的字符在字典中的位置进行处理，得到非空白的帧对应的索引值。

本实施例中的CTC解码器使用开发工具Wenet进行实现，并在此基础上进行修改和删除，以实现获取非空白的帧对应的索引值。

由于本实施例的目的在于给出评分，不需要做语音识别，只需要字典中的最大分数对应的帧的索引值即可，所以事实上只需要使用CTC解码中一开始的log_softmax模块和topk算法。

log_softmax模块将深度特征DeepFeature转化为每一帧对于整个字典的分数ctc_probs，计算过程如公式(8)所示。

(8)

其中，

表示序列中第

个元素，

表示序列元素总数，

为计算出的分数值,ln表示以常数e为底数的对数。

log_softmax模块实际上就是对接收到的特征序列进行softmax计算，得到范围在(0,1)的概率值，再取对数转化为范围在

的分数。

对log_softmax模块输出的ctc_probs，使用numpy中的topk算法计算出ctc_probs中每一帧分数最大的在字典中的位置，记录在topk_index中。

计算出topk_index后，CTC解码器后面的解码步骤不需要执行，删除开发工具Wenet中相应代码即可。

空白的特征是不存在人声的特征，若不去除空白的特征，会降极大地低后续评分效果。在字典中空白字符所在位置为0，添加循环语句遍历top_index，使用numpy的nonzero方法，循环跳过其中的值为0的索引，只保存topk_index非0的索引值到topk_id中，即只保存非空白的帧对应的索引值。

整体思想是判断出每一帧最有可能的对应的字符，从中去除对应的字符为空白的帧。

进一步地，所述过滤器，用于根据字典中非空白的帧的索引值topk_id，对端到端的声学模型的深度特征进行过滤，具体操作：使用循环语句，只保留索引值在列表topk_id中的帧所对应的深度特征，删除索引值不在topk_id中的帧所对应的深度特征。过滤后的特征即为图1中的Not-blankFeature 非空白的深度特征。

进一步地，所述自注意力机制模块，用于实现对输入数据赋予不同的权重的操作，将过滤操作得到的非空白的深度特征输入到自注意力机制模块中，根据对后续评分的影响程度，自注意力机制模块对其赋予不同的权重。

应理解地，对于一段语音进行评分，语音中不同的部分对最终得分的影响不同。特征中对最终评分影响较大的部分，需要对其赋予更高的权重，使得网络更关注这些影响力大的部分。

进一步地，所述长短期记忆网络，包括：将特征输入到长短期记忆网络中，但是只获取长短期记忆网络的细胞状态，因为细胞状态的维度等于长短期记忆网络中隐层的维度，隐层的维度手动设定。这样就可以实现每次输入维度不同的特征，经过长短期记忆网络获得维度相同的维度的特征。

应理解地，由于考生朗读的每一句话的内容不同，导致每段音频的长度各不相同，则端到端声学模型每次提取的深度特征对应的帧数不同，会导致每次评分模块获取特征的长短不一，自注意力机制并不会改变特征的维度，因此自注意力机制输出的特征维度仍然是长短不一。然而输入到后续的线性层中的特征的维度必须统一。

进一步地，所述多层线性层，网络结构包括：

依次连接的第一线性层、第一激活函数层、归一化层、第二线性层和第二激活函数层。

进一步地，所述多层线性层，用于将被长短期记忆网络规范维度后的特征，输入到多层线性层中。

多层线性层分别经过一层线性层，经过Sigmoid激活函数，进行归一化，再经过一层线性层和sigmoid激活函数，得到0到1之间的评分，计算过程如公式(10)和公式(11)所示：

(10)

(11)

其中，

，

，

，

分别为第一次和第二次线性变换的系数和偏置，

是输入的特征，

是经过一次线性层和Sigmoid激活函数和归一化的结果，

表示基于端到端声学模型的深度特征的评分，normalize表示归一化，Sigmoid表示激活函数。

实际应用中，对英语评分存在多种分制，比如5分制、8分制、11分制等等，为了能够适用于不同的分制，将最终输出的分数的范围设置在0到1之间。在实际使用时，根据0-1之间的分数按照实际的分制等比例放大，并进行四舍五入即可得到最终评分等级。

进一步地，所述训练后的第一评分模型，包括：

编码器对Fbank特征进行编码处理得到深度特征，解码器对深度特征进行处理得到非空白帧对应的索引值，过滤器根据非空白帧对应的索引值对深度特征进行筛选，剔除空白帧对应的深度特征，将未被剔除的深度特征输入到自注意力机制模块中，自注意力机制模块为深度特征设置权重，并将设置权重的深度特征送入长短期记忆网络中，长短期记忆网络对深度特征的维度进行规范，并将规范后的深度特征送入线性层，输出第一评分结果。

进一步地，所述训练后的第一评分模型，其训练过程包括：

构建第一训练集；所述第一训练集，包括：已知朗读题发音打分的朗读题发音音频的频域特征Fbank；

将第一训练集输入到训练后的第一评分模型中，当第一评分模型的损失函数值不再下降时，停止训练，输出训练后的第一评分模型。

进一步地，所述训练后的第二评分模型，其网络结构包括：

依次连接的深度神经网络-隐马尔科夫模型DNN-HMM、GOP分数模块和线性层。

进一步地，所述训练后的第二评分模型，包括：

深度神经网络-隐马尔科夫模型DNN-HMM，使用隐马尔科夫模型对音素进行建模，根据输入的文本和频域特征Fbank求出音素相关的似然值，再将求出的似然值输入发音优度算法GOP（Goodnessof Pronunciation）中求出GOP分数。

深度神经网络-隐马尔科夫模型DNN-HMM，其网络结构包括：

隐马尔科夫模型，将语音特征建模成包含多状态的隐马尔科夫模型；

深度神经网络模型，深度神经网络用于预测隐马尔科夫模型中每一个状态的转移概率；

隐马尔科夫模型与深度神经网络模型二者的连接关系：

先对音频特征建模成多状态的隐马尔科夫模型，再使用深度神经网络去预测隐马尔科夫模型中每一个状态的转移概率。

深度神经网络-隐马尔科夫模型DNN-HMM，包括：

隐马尔科夫模型将由隐藏状态生成的并满足马尔科夫性的音频特征建模成多状态的隐马尔科夫模型；

再使用音频数据训练高斯混合-隐马尔可夫模型(GMM-HMM，GaussianMixtureModel - Hidden Markov Model)，并根据维特比算法标注对应的帧级别的最优状态序列；

使用标注好的状态序列训练深度神经网络，再使用训练后的深度神经网络去预测隐马尔科夫模型中每一个状态的转移概率，根据转移概率，得到每一帧的似然值或后验概率。

将频域特征FBank输入深度神经网络-隐马尔科夫模型DNN-HMM，输出一段发音中所有音素中似然度最大的音素对应的似然值和给定观测结果的后验概率。

深度神经网络-隐马尔科夫模型DNN-HMM，采用基于开发工具kaldi的预训练模型，模型采用WSJdataset数据集进行预训练。

进一步地，所述GOP分数模块，用于计算输出的音频与指定文本的接近程度，输入的音频越接近指定文本，则计算出的GOP分数越高，GOP公式如公式(9)所示。

；（9）

其中，p表示当前需要求出GOP分数的音素，o表示进行强制对齐后音素p对应的一段发音，

表示给定发音o的后验概率，

是音素p的帧数，Q表示发音o对应的所有可能的音素，

是音素p的先验概率，根据深度神经网络-隐马尔科夫模型DNN-HMM求得

，

为一段发音中所有音素中似然度最大的音素q对应的似然值。基于深度神经网络-隐马尔科夫模型DNN-HMM，根据一段语音和给定的文本进行强制对齐得到

，即音素p的似然值, ln表示以常数e为底数的对数。

GOP公式用给定指定文本和输入音频计算的得到的似然值，与直接输入音频而不给定指定文本得到的似然值作差，可以实现比较考生是否按照给定文本进朗读。

进一步地，所述训练后的第二评分模型，其训练过程包括：

构建第二训练集；所述第二训练集，包括：已知朗读题评分结果的朗读题音频Fbank特征和朗读题文本；

将第二训练集，输入到第二评分模型中，对第二评分模型进行训练，当第二评分模型的损失函数值不再下降时，停止训练，得到训练后的第二评分模型。

进一步地，所述S105：将第一评分结果和第二评分结果进行求和，得到朗读题发音的最终评分结果，具体包括：将基于深度特征得到的分数和GOP分数进行结合，有助于得到与阅卷教师评分的皮尔逊相关系数更高的评分。

在针对朗读题的评分模块中，若只使用基于端到端声学模型的深度特征的评分，虽然在考生按照文本朗读时，可以给出与阅卷教师评分相关度较高的评分。一旦考生不按照规定文本朗读，即使考生口语流利，阅卷教师也不会给出高分。但是由于没有指定文本的输入，模型无法得知考生是否按照规定文本朗读，只能对考生口语流利度给出评分，就会在这种情况下给出不合理的高分。

然而只使用基于DNN-HMM的声学模型结合GOP算法的评分方式，虽然可以按照给定文本给出评分，解决了上述的问题。但是其评分效果，在皮尔逊相关系数和准确率上都明显低于基于端到端声学模型的深度特征的评分的效果。

为了弥补基于DNN-HMM的声学模型结合GOP算法的评分方式较低的评分效果，将基于端到端声学模型的深度特征的分数和GOP分数进行结合，在评分考虑到指定文本的同时改善了评分的效果，使得两者互补。在实际测试中发现，结合后的效果均明显超过只使用单一声学模型的效果。

将GOP分数输入到输入到多层线性层中，分别经过一层线性层，经过Sigmoid激活函数，进行归一化，再经过一层线性层和sigmoid激活函数，得到0到1之间的评分。最后按一定比例，将输出的GOP特征和基于端到端声学模型的深度特征得到的评分相加，得到朗读评分，计算过程如公式(12)和公式(13)所示。

；(12)

；(13)

其中，

，

，

，

分别为第一次和第二次线性变换的系数和偏置，

是输入的GOP分数，

是GOP分数经过一次线性层和sigmoid激活函数和归一化的结果，

是相加的比例，默认为0.5，

表示基于深度特征得到的分数

和处理后的GOP分数进行结合操作后得到的最终评分，也就是对朗读题的评分，该分数即为针对朗读题的评分模型的最终输出，normalize表示归一化，Sigmoid表示激活函数。

在实际使用时，根据评分模块输出的0-1之间的分数按照实际的分制等比例放大，并进行四舍五入即可得到最终评分等级。

进一步地，所述方法，还包括：

S106：获取待评分的开放题发音音频；

S107：对开放题发音音频进行预处理和特征提取，得到开放题发音音频特征；

S108：将开放题发音音频特征，输入到训练后的第三评分模型中，输出开放题发音的最终评分结果。

所述开放题，是指没有固定回答内容的开放式题目。

所述第三评分模型，其网络结构与第一评分模型的内部结构是一样的。

进一步地，所述训练后的第三评分模型，其网络结构包括：

依次连接的端到端声学模型、过滤器、自注意力机制模块、长短期记忆网络和线性层；所述端到端声学模型，包括：依次连接的编码器和解码器；所述编码器的输入端用于输入频域特征Fbank，所述解码器的输出端与过滤器的输入端连接，所述编码器的输出端也与过滤器的输入端连接。

所述编码器采用Conformer编码器；所述解码器采用连接时序分类模型CTC（ConnectionistTemporal Classification）。

进一步地，所述训练后的第三评分模型，包括：

编码器对频域特征Fbank进行编码处理得到深度特征，解码器对深度特征进行处理得到非空白帧对应的索引值，过滤器根据非空白帧对应的索引值对深度特征进行筛选，剔除空白帧对应的深度特征，将未被剔除的深度特征输入到自注意力机制模块中，自注意力机制模块为深度特征设置不同的权重，并将设置权重的深度特征送入长短期记忆网络中，长短期记忆网络对深度特征的维度进行统一，并将长短期记忆网络最后一层的细胞状态送入多层线性层，输出开放题发音的最终评分结果。

由于语音评测数据集中存在大量发音不标准的数据，而训练声学模型需要发音标准的数据集。如果使用语音评测数据集训练声学模型，发音不标准的数据会破坏预训练的声学模型中的参数。所以对于针对开放题的评分模型，采用冻结端到端声学模型的预训练参数，只去更新评分模块中的参数的训练策略。针对朗读题的评分模型，采用冻结端到端声学模型和DNN-HMM声学模型的预训练参数，只去更新评分模块中的参数的训练策略。训练时采用均方差损失公式如公式(14)所示。

(14)

其中，

表示当前的句子，n表示训练集句子总数，

表示训练损失，

表示当前句子的预测分数，

表示当前句子的真实分数。

将深度特征和GOP分数作为评分依据，对有规定文本的朗读题进行评分，在朗读题评测过程中，模型可以判断考生朗读内容与指定文本是否相关，并且取得了较好的评分效果，在皮尔逊相关系数和准确率方面均显著高于基于只使用DNN-HMM的声学模型结合GOP算法的方法进行评分或者只使用基于端到端的声学模型的深度特征方法的评分效果。

本发明在获取基于端到端声学模型的深度特征时，采用过滤操作。过滤掉识别为空白的帧对应的特征，减少空白语音对后续特征提取和评分效果的不良干扰，加入过滤操作，评分效果显著提升。

本发明使用自注意力机制对深度特征中不同的部分赋予不同的权重，鉴于一段音频中的不同部分对于最终的评分结果有着不同程度的影响。使用自注意力机制，让模型更关注对最终评分结果影响较大的部分，实现了对评分效果的优化。

本发明在处理由于每段音频长短不一和考生讲的每句话的内容长短不一，导致基于端到端的声学模型的深度特征的维度长短不一，无法放入线性层中的问题，采用长短期记忆网络进行处理。将维度不同的特征输入长短期记忆网络中，只获取长短期记忆网络最后一层的的细胞状态，并将细胞状态作为输出的特征，由于长短期记忆网络中隐层维度大小可以手动设置，而细胞状态的维度和隐藏维度相同，所以输出的细胞状态可以手动设定维度，从而实现了特征维度的统一。

在评测口语考试中的朗读题的应用场景下，本发明主要侧重以下几个方面：同时使用深度特征和GOP分数作为评分的依据，解决了基于端到端的声学模型输出的深度特征的语音评测技术无法依照指定文本给出评分的问题，并且弥补了基于传统的隐马尔可夫声学模型结合GOP算法的语音评测技术在评分效果上的相对劣势。根据端到端声学模型CTC解码的部分过程，获取非空白的帧的索引值，对端到端声学模型编码器输出的深度特征，进行过滤操作。使用自注意力机制，对特征自动分配注意力权重。使用长短期记忆网络输出的细胞状态，更好地提取声学特征和规范输出格式。

在评测口语考试中的开放题的应用场景下，本发明由于没有指定文本，鉴于基于DNN-HMM的声学模型需要依赖文本才能给出评分的情况，所以在针对朗读题评分的模型的基础上，本实例去除了基于DNN-HMM声学模型结合GOP算法的模块。只使用基于端到端的声学模型的深度特征进行评分。评分模块在得到了基于深度特征的评分后就结束评分，后面结合GOP分数的操作不再进行，其他部分与针对朗读题评分的模型没有任何区别。

实施例二

本实施例提供了一种英语多题型口语发音评估系统；

一种英语多题型口语发音评估系统，包括：

进一步地，所述系统，还包括：

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种英语多题型口语发音评估方法，其特征是，包括：

获取待评分的朗读题发音音频；

2.如权利要求1所述的一种英语多题型口语发音评估方法，其特征是，所述训练后的第一评分模型，其网络结构包括：

所述端到端声学模型，包括：依次连接的编码器和解码器；

所述编码器的输入端用于输入频域特征，所述解码器的输出端与过滤器的输入端连接，所述编码器的输出端也与过滤器的输入端连接。

3.如权利要求1所述的一种英语多题型口语发音评估方法，其特征是，所述训练后的第一评分模型，包括：

编码器对频域特征进行编码处理得到深度特征，解码器对深度特征进行处理得到非空白帧对应的索引值，过滤器根据非空白帧对应的索引值对深度特征进行筛选，剔除空白帧对应的深度特征，将未被剔除的深度特征输入到自注意力机制模块中，自注意力机制模块为深度特征设置权重，并将设置权重的深度特征送入长短期记忆网络中，长短期记忆网络对深度特征的维度进行规范，并将规范后的深度特征送入线性层，输出第一评分结果。

4.如权利要求1所述的一种英语多题型口语发音评估方法，其特征是，所述训练后的第二评分模型，其网络结构包括：

依次连接的深度神经网络-隐马尔科夫模型、分数模块和线性层；

所述训练后的第二评分模型，包括：

深度神经网络-隐马尔科夫模型，使用隐马尔科夫模型对音素进行建模，根据输入的文本和频域特征求出音素相关的似然值，再将求出的似然值输入发音优度算法中求出分数。

5.如权利要求4所述的一种英语多题型口语发音评估方法，其特征是，深度神经网络-隐马尔科夫模型，包括：

再使用音频数据训练高斯混合-隐马尔可夫模型，并根据维特比算法标注对应的帧级别的最优状态序列；

6.如权利要求4所述的一种英语多题型口语发音评估方法，其特征是，所述训练后的第二评分模型，其训练过程包括：

构建第二训练集；所述第二训练集，包括：已知朗读题评分结果的朗读题音频频域特征和朗读题文本；

7.如权利要求1所述的一种英语多题型口语发音评估方法，其特征是，所述方法，还包括：

获取待评分的开放题发音音频；

8.如权利要求7所述的一种英语多题型口语发音评估方法，其特征是，所述训练后的第三评分模型，包括：

编码器对频域特征进行编码处理得到深度特征，解码器对深度特征进行处理得到非空白帧对应的索引值，过滤器根据非空白帧对应的索引值对深度特征进行筛选，剔除空白帧对应的深度特征，将未被剔除的深度特征输入到自注意力机制模块中，自注意力机制模块为深度特征设置不同的权重，并将设置权重的深度特征送入长短期记忆网络中，长短期记忆网络对深度特征的维度进行统一，并将长短期记忆网络最后一层的细胞状态送入多层线性层，输出开放题发音的最终评分结果。

9.一种英语多题型口语发音评估系统，其特征是，包括：

10.如权利要求9所述的一种英语多题型口语发音评估系统，其特征是，所述系统，还包括：

开放题评分模块，其被配置为：将开放题发音音频特征，输入到训练后的第三评分模型中，输出开放题发音的最终评分结果；

所述训练后的第三评分模型，包括：