CN115497455A

CN115497455A - 一种英语口语考试语音智能评测方法、系统及装置

Info

Publication number: CN115497455A
Application number: CN202211451766.2A
Authority: CN
Inventors: 马磊; 陈义学; 夏彬彬; 侯庆
Original assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Current assignee: SHANDONG SHANDA OUMA SOFTWARE CO Ltd
Priority date: 2022-11-21
Filing date: 2022-11-21
Publication date: 2022-12-20
Anticipated expiration: 2042-11-21
Also published as: CN115497455B

Abstract

本发明提出的一种英语口语考试语音智能评测方法、系统及装置，属于语音识别及评测技术领域。所述方法包括：对英语口语音频数据进行预处理，得到音频序列x；将x进行MFCC特征表示得到特征x1；将x进行FBANK特征表示得到特征x2；使用声学模型对特征x1进行处理得到音素概率分布p；将p输入类语音评测模型中，得到发音得分结果score1；使用识别模型结合语言模型及解码算法对特征x2进行处理得到语音识别文本text；将text输入语义模型中，得到语义得分结果score2；对score1和score2进行综合评价，生成评分结果score。本发明能够灵活应对考生在实际考试中的语音情景，提升了语义识别效果。

Description

一种英语口语考试语音智能评测方法、系统及装置

技术领域

本发明涉及语音识别及评测技术领域，更具体的说是涉及一种英语口语考试语音智能评测方法、系统及装置。

背景技术

近年来，随着人工智能领域的飞速发展，以及机器学习，尤其是深度学习等技术的深度应用，语音评测技术的研究和应用越来越受到关注。语音评测技术是针对口语发音水平及发音正误进行自动评价、打分、检错并提供纠正的技术，尤其针对英语口语考试，主要应用其自动评分的特性，其评测维度分为两个方面，一方面是发音准确性、发音流利性和发音韵律性等维度，另一方面是语法准确性、语义相关性和回答完整性等维度。

相较于人工评分，语音评测技术有其明显的优势，一是所需要的阅卷人员人数更少，降低人力物力，阅卷周期更短；二是在定标数据质量比较高的情况下，智能评测相比于阅卷人员之间的评分差异更小；三是机器评分可以避免人工评分时的听力疲劳，确保评分的稳定性，从而保证评分的客观性和公正性。

目前语音评测领域针对发音准确性、发音流利性和发音韵律性等维度的评测方法大多是基于GOP或者以此为基础评测发音的好坏，此外MDD方案也有应用，其需要标注到音素级，标注成本较高。针对语法准确性、语义相关性和回答完整性等维度的评测方法包括传统语义模型和深度语义模型两种，传统语义模型的隐式模型通常将文本映射到同一个隐式向量空间，通过向量相似度来计算其相关性，而传统语义模型的翻译模型将文本进行翻译改写后进行相关性匹配。深度语义模型使用深度学习模型表征文本，映射到同一个低维空间，通过计算向量相似度作为语义相关性分数，并最大化点击的条件概率，整体实现语义相关维度的评测，但其在模型学习时文本之间没有交互，不能充分利用文本的细粒度匹配信号。

发明内容

针对现有技术中存在的问题，本发明的目的在于提供一种英语口语考试语音智能评测方法、系统及装置，采用改进的类GOP方法实现发音维度的测评和基于Bert模型实现语义维度的测评。

本发明为实现上述目的，通过以下技术方案实现：

一种英语口语考试语音智能评测方法，包括如下步骤：

S1：对英语口语音频数据进行预处理，得到预处理后的音频序列x；

S2：将预处理后的音频序列x进行MFCC特征表示得到特征x1；将预处理后的音频序列x进行FBANK特征表示得到特征x2；

S3：使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p；

S4：联合发音词典，将音素率分布p输入类GOP英语口语语音评测模型中进行评测，得到发音准确性、发音流利性、发音韵律性的发音得分结果score1；

S5：使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text；

S6：联合需评测的题目内容文本，将语音识别文本text输入到基于BERT的语义模型中进行评测，得到语法准确性、语义相关性、回答完整性的语义得分结果score2；

S7：对发音得分结果score1和语义得分结果score2进行综合评价，得到最终的评分结果score。

进一步，所述步骤S1具体为：

采用LMS自适应滤波器降噪方法对英语口语音频数据的噪声进行抑制处理，得到音频序列x。

进一步，所述步骤S4中，类GOP英语口语语音评测模型采用的评价公式如下：

（1）

（2）

其中，s_t为第t帧的多元音素，Q_t为当前声学观测值，n为声学模型中多元因素的总数，T为音素总帧数。

进一步，所述步骤S6包括如下步骤：

S61：利用Bert语义模型分别对语音识别文本和题目内容文本进行向量化处理，提取语义特征，构建语音识别文本映射矩阵和题目内容文本映射矩阵；

S62：利用卷积神经网络分别对语音识别文本映射矩阵和题目内容文本映射矩阵进行运算，得到语音识别文本的语义特征矩阵和题目内容文本的语义特征矩阵；

S63：利用PCA主成分分析算法分别对语音识别文本的语义特征和题目内容文本的语义特征进行降维处理，得到语音识别文本的语义特征向量和题目内容文本的语义特征向量；

S64：计算语音识别文本的语义特征向量和题目内容文本的语义特征向量的相似度，利用公式A=S×F计算出相应的语义得分A；

其中，S为相似度，F为本题总分值。

进一步，所述卷积神经网络包括5层卷积层和3层池化层。

进一步，所述步骤S7包括：

根据预设的评分标准对发音得分结果score1和语义得分结果score2进行综合评价，得到最终的评分结果score。

相应的，本发明还公开了一种英语口语考试语音智能评测系统，包括：

预处理单元，用于对英语口语音频数据进行预处理，得到预处理后的音频序列x；

特征表示单元，用于将预处理后的音频序列x进行MFCC特征表示得到特征x1；将预处理后的音频序列x进行FBANK特征表示得到特征x2；

音素预测单元，用于使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p；

第一评测单元，用于联合发音词典，将音素概率分布p输入类GOP英语口语语音评测模型中进行评测，得到发音准确性、发音流利性、发音韵律性的发音得分结果score1；

语音识别单元，用于使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text；

第二评测单元，用于联合需评测的题目内容文本，将语音识别文本text输入到基于BERT的语义模型中进行评测，得到语法准确性、语义相关性、回答完整性的语义得分结果score2；

综合评价单元，用于对发音得分结果score1和语义得分结果score2进行综合评价，得到最终的评分结果score。

相应的，本发明还公开了一种英语口语考试语音智能评测装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上文任一项所述的英语口语考试语音智能评测方法的步骤。

对比现有技术，本发明有益效果在于：本发明提供了一种英语口语考试语音智能评测方法、系统及装置，采用改进的类GOP方法实现发音维度的测评和基于Bert模型实现语义维度的测评。一方面改进的类GOP方法得到细颗粒度的发音水平的指标，从而得到每个音素级别的发音得分，同时，在做强制对齐解码时考虑了漏读，多读，重复读的情况，能够灵活应对考生在实际考试中的语音情景；另一方面基于Bert模型在训练时能够进行充分的交互匹配，解决了语义匹配的结构局限，语义相关效果提升明显。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式的方法流程图。

图2是本发明具体实施方式的流程示意图。

图3是本发明具体实施方式的卷积神经网络模型结构图。

图4是本发明具体实施方式的系统结构图。

图中，1、预处理单元；2、特征表示单元；3、音素预测单元；4、第一评测单元；5、语音识别单元；6、第二评测单元；7、综合评价单元。

具体实施方式

下面结合附图对本发明的具体实施方式做出说明。

实施例一：

如图1-2所示的一种英语口语考试语音智能评测方法，包括如下步骤：

S1：对英语口语音频数据进行预处理，得到预处理后的音频序列x。

具体的，采用LMS自适应滤波器降噪方法对英语口语音频数据的噪声进行抑制处理，得到音频序列x。

S2：将预处理后的音频序列x进行MFCC特征表示得到特征x1；将预处理后的音频序列x进行FBANK特征表示得到特征x2。

S3：使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p。

S4：联合发音词典，将音素率分布p输入类GOP英语口语语音评测模型中进行评测，得到发音准确性、发音流利性、发音韵律性的发音得分结果score1。

在本步骤中，类GOP英语口语语音评测模型采用的评价公式如下：

（1）

（2）

S5：使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text。

S6：联合需评测的题目内容文本，将语音识别文本text输入到基于BERT的语义模型中进行评测，得到语法准确性、语义相关性、回答完整性的语义得分结果score2。

具体的，本步骤根据评分标准对类GOP的英语口语语音评测方法和基于BERT的语义模型评测方法得到的得分进行综合评价得到最终得分。

作为示例的，本方法的步骤S6包括如下步骤：

S61：利用Bert语义模型分别对语音识别文本和题目内容文本进行向量化处理，提取语义特征，构建语音识别文本映射矩阵和题目内容文本映射矩阵。

S62：利用卷积神经网络分别对语音识别文本映射矩阵和题目内容文本映射矩阵进行运算，得到语音识别文本的语义特征矩阵和题目内容文本的语义特征矩阵。其中，用于提取特征的卷积神经网络由5层卷积层和3层池化层构建，其结构如图2所示。

S63：利用PCA主成分分析算法分别对语音识别文本的语义特征和题目内容文本的语义特征进行降维处理，得到语音识别文本的语义特征向量和题目内容文本的语义特征向量。

S64：计算语音识别文本的语义特征向量和题目内容文本的语义特征向量的相似度，利用公式A=S×F计算出相应的语义得分A。其中，S为相似度，F为本题总分值。

实施例二：

基于实施例一，本实施例还公开了一种英语口语考试语音智能评测方法，本方法所用的实验环境为Linux系统，系统配置为：Inter（R） Xeon E5-2620 v4 @ 2.10GHz 内存32G和两个内存为16G 的NVIDIA Tesla P100 GPU显卡，随机选取英语口语机考四级朗读200条音频数据，每条音频时长为60秒。

本方法的具体实施步骤如下：

步骤1：对200条英语口语机考四级音频数据进行预处理，预处理过程采用LMS自适应滤波器降噪方法对音频的噪声进行抑制，得到预处理后的每条音频序列xi。

步骤2：将预处理后的音频序列xi进行MFCC特征表示得到xi1；将预处理后的音频序列xi进行FBANK特征表示得到xi2。

步骤3：使用LSTM-HMM声学模型结合N-gram语言模型对步骤2中得到的特征xi1进行处理得到音素概率分布pi1。

步骤4：联合发音词典，将步骤3中得到的预测音素的概率分布pi1输入类GOP英语口语语音评测模型中进行评测，得到对应与每个音频数据的发音准确性、发音流利性、发音韵律性得分结果scorei1。

步骤5：使用RNN-Transducer端到端的识别模型结合N-gram语言模型及CTC解码算法对步骤2中得到的特征xi2进行处理得到语音识别文本texti。

步骤6：联合需评测的题目内容文本，将步骤5中得到的语音识别文本texti输入到基于BERT的语义模型中进行评测，得到语法准确性、语义相关性、回答完整性的得分结果scorei2。

步骤7：将步骤4中得到的发音得分结果scorei1和步骤6中得到的语义得分结果scorei2进行综合评价，得到每个音频数据的最终评分结果scorei。

利用本实施例提供的基于深度学习的英语口语考试智能评测技术方法，对随机挑选的200条四级朗读数据进行测试，并与人工评分进行了对比，对比结果如表1所示：

表1 200条四级朗读音频数据智能评分与人工评分比对统计表

四级-朗读（满分5分）	比率
		与人工评分±0.5分一致率	0.81
与人工评分±1.0分一致率	0.98
		与人工评分±1.5分一致率	0.99
相关系数	0.82

由此可见，本发明提供的基于深度学习的英语口语语音识别及评测方法，可有效的克服现有技术存在的缺点。针对发音评分和语义评分，分别采用基于LSTM-HMM声学模型提取音素概率和基于RNN-Transducer语音识别模型端到端转写文本，实现了智能评分的前期工作，保证了较高的准确度，使用类GOP的英语口语语音评测方法和基于BERT的语义模型评测整体实现了英语口语语音智能评测。

相应的，如图4所示，本发明还公开了一种英语口语考试语音智能评测系统，包括：预处理单元1、特征表示单元2、音素预测单元3、第一评测单元4、语音识别单元5、第二评测单元6和综合评价单元7。

预处理单元1，用于对英语口语音频数据进行预处理，得到预处理后的音频序列x。

特征表示单元2，用于将预处理后的音频序列x进行MFCC特征表示得到特征x1；将预处理后的音频序列x进行FBANK特征表示得到特征x2。

音素预测单元3，用于使用LSTM-HMM声学模型结合Ngram语言模型对特征x1进行处理得到音素概率分布p。

第一评测单元4，用于联合发音词典，将音素概率分布p输入类GOP英语口语语音评测模型中进行评测，得到发音准确性、发音流利性、发音韵律性的发音得分结果score1。

语音识别单元5，用于使用RNN-Transducer端到端的识别模型结合Ngram语言模型及CTC解码算法对特征x2进行处理得到语音识别文本text。

第二评测单元6，用于联合需评测的题目内容文本，将语音识别文本text输入到基于BERT的语义模型中进行评测，得到语法准确性、语义相关性、回答完整性的语义得分结果score2。

综合评价单元7，用于对发音得分结果score1和语义得分结果score2进行综合评价，得到最终的评分结果score。

存储器，用于存储计算机程序；

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中如U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质，包括若干指令用以使得一台计算机终端（可以是个人计算机，服务器，或者第二终端、网络终端等）执行本发明各个实施例所述方法的全部或部分步骤。本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于终端实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合附图和具体实施例，对本发明作进一步说明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所限定的范围。

Claims

1.一种英语口语考试语音智能评测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的英语口语考试语音智能评测方法，其特征在于，所述步骤S1具体为：

3.根据权利要求1所述的英语口语考试语音智能评测方法，其特征在于，所述步骤S4中，类GOP英语口语语音评测模型采用的评价公式如下：

（1）

（2）

4.根据权利要求1所述的英语口语考试语音智能评测方法，其特征在于，所述步骤S6包括如下步骤：

其中，S为相似度，F为本题总分值。

5.根据权利要求4所述的英语口语考试语音智能评测方法，其特征在于，所述卷积神经网络包括5层卷积层和3层池化层。

6.根据权利要求1所述的英语口语考试语音智能评测方法，其特征在于，所述步骤S7包括：

7.一种英语口语考试语音智能评测系统，其特征在于，包括：

8.一种英语口语考试语音智能评测装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至6任一项所述的英语口语考试语音智能评测方法的步骤。