CN111950480A

CN111950480A - 一种基于人工智能的英语发音自检方法和自检系统

Info

Publication number: CN111950480A
Application number: CN202010826108.1A
Authority: CN
Inventors: 刘翠翠; 李彬卓
Original assignee: Individual
Current assignee: Individual
Priority date: 2020-08-17
Filing date: 2020-08-17
Publication date: 2020-11-17

Abstract

本发明提供一种基于人工智能的英语发音自检方法和自检系统，自检方法包括如下步骤：采集人员在各音节标准发音时的面部图像，得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列；建立姿态预测神经网络，以人员在标准发音过程中各面部图像的关键点序列为输入，以对应的检测角序列为输出，对姿态预测神经网络进行训练，得到训练后的姿态神经网络；在用户发音过程中采集其面部图像，得到其发音过程中各面部图像的关键点序列，将该关键点序列输入到训练后的姿态神经网络中，得到其检测角序列，将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。本发明提供的技术方案能够提高对用户英语发音检测的准确性。

Description

一种基于人工智能的英语发音自检方法和自检系统

技术领域

本发明属于英语发音自检技术领域，具体涉及一种基于人工智能的英语发音自检方法和自检系统。

背景技术

英语教学是指对于英语是或者不是第一语言的人进行教授英语的过程。英语教学涉及多种专业理论知识，包括语言学、第二语言习得、词汇学、句法学、文体学、语料库理论、认知心理学等内容。英语教学是一个循序渐进的过程，无论是对于英语是或者不是第一语言的人来说，英语学习在全球化快速发展的今天都是至关重要的。

现有的英语教学中，对于学生的发音质量评估存在不能有效、简单的确定发音与否和发音质量。目前，现有的英语发音测试系统大多仅依赖音频数据实现发音情况的检测，检测结果单一。同时这类系统大多仅依靠用户反复听标准音频数据的方式实现发音训练，训练效率即为低下。

申请公布号为CN110379221A的中国发明专利申请文件公开了一种英语发音测试与评价系统，基于音频和口型实现了用户发音情况的检测分析，使得用户可以更加全面的了解自己的发音情况，同时以及标准口型协同标准音频的方式进行标准资料的反馈，大大提高了学习效率。但是该方案不能判断出用户的发音是否准确。

申请公布号为CN110689464A的中国发明专利申请文件公开了一种基于口型识别的英语发音质量评估方法，通过采用唇语加入唇语前部空气流动场检测，实现唇语作假数据剔除，降低误差的技术方案，判断发音是否准确。但是该方案需要采集用户发音时唇前的空气流动，不仅操作麻烦，而且受到检测距离的影响，检测结果准确性比较低。

综上所述，现有技术中的英语发音检测方案存在着检测结果不准确的问题。

发明内容

本发明的目的是提供一种基于人工智能的英语发音自检方法和自检系统，以解决现有技术中对用于英语发音检测不准确的问题。

为实现上述目的，本发明采用如下技术方案：

一种基于人工智能的英语发音自检方法，包括如下步骤：

步骤一：采集人员在各音节标准发音时的面部图像，得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列；

所述面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖；两个嘴角连线的中点与鼻尖点构成参考向量；上嘴唇的顶点和下嘴唇的顶点构成动作向量，所述检测角为参考向量和动作向量的夹角；

步骤二：建立姿态预测神经网络，以人员在标准发音过程中各面部图像的关键点序列为输入，以对应的检测角序列为输出，对姿态预测神经网络进行训练，得到训练后的姿态神经网络；

步骤三：在用户发音过程中采集其面部图像，得到其发音过程中各面部图像的关键点序列，将该关键点序列输入到训练后的姿态神经网络中，得到其检测角序列，将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。

进一步的，获取面部图像中关键点坐标的方法为：

获取发音过程中的面部图像，包括面部的RGB图像和深度图像；

将面部的RGB图像输入到训练后的关键点定位神经网络中，得到面部图像中各关键点的二维坐标；

获取各关键点在深度图像中的深度值，将深度值作为对应关键点的第三轴坐标，将其与对应关键点的二维坐标相结合，得到各关键点的三维坐标。

进一步的，获取面部的深度图像后首先对其进行中值滤波，然后将其转换为灰度图像。

进一步的，计算两个检测角相似度的方法为：

比较两个检测角序列中对应时刻检测角度值的相似度；

判断各时刻检测角度值的相似度是否均大于相应的设定相似度，如果大于，则判断为两个检测角序列的相似度最高；

设两个检测角序列中，相同时刻的检测角度值分别为α1和α2，则两者之间的相似度为：

P＝1-(α1-α2)/α1。

进一步的，如果有面部图像中的关键点不能被检测到，则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。

一种基于人工智能的英语发音自检系统，包括处理器和存储器，存储器上存储有用于在处理器上执行的计算机程序；所述处理器执行所述计算机程序时，实现如下基于人工智能的英语发音自检方法：

进一步的，获取面部图像中关键点坐标的方法为：

进一步的，获取面部的深度凸显后首先对其进行中值滤波，然后将其转换为灰度图像。

进一步的，计算两个检测角相似度的方法为：

比较两个检测角序列中对应时刻检测角度值的相似度；

P＝1-(α1-α2)/α1。

本发明所提供的技术方案，根据在音节标准发音时的面部图像得到相应的关键点序列，以人员在标准发音时面部图像关键点为输入，以对应的检测角序列为输出，对姿态预测神经网络进行训练，得到训练后的姿态神经网络，根据训练后的姿态神经网络得到用户发音时的检测角序列，并根据该检测角序列得到用户所发出的音节。本发明所提供的技术方案能够根据用户发音时的面部图像得到其发出的音节，能够提高对用户英语发音检测的准确度。

附图说明

图1是本发明方法实施例中基于人工智能的英语发音检测方法的流程图；

图2是本发明方法实施例中面部图像中关键点的示意图；

图3是本发明方法实施例中关键点定位神经网络的结构示意图；

图4是本发明方法实施例中声波与检测角变化曲线进行比对的示意图。

具体实施方式

方法实施例：

本实施例提供一种基于人工智能的英语发音检测方法，其流程如图1所示，包括如下步骤：

步骤一：采集人员在各音节标准发音时的面部图像，得到人员在各音节标准发音过程中各面部图像中的标准关键点序列和标准检测角序列。

人员的面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖；两个嘴角连线的中点与鼻尖点构成参考向量；上嘴唇的顶点和下嘴唇的顶点构成动作向量，面部图像中的检测角为参考向量和动作向量的夹角。

本实施例中，采用两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖作为判断人员所发出音节的关键点，由于这些关键点比较容易获取，并且由于在发音时人的嘴型是对称的，因此即使从面部一侧获取图像，也能够检测出其面部图像中关键点的位置关系，能够提高对用户英语发音判断的准确性。

在人原发音过程中，每间隔设定时间采集一次其面部图像，连续检测设定数量次，各面部图像中关键点按照采集的时间顺序进行排列，得到面部图像中的关键点序列；各面部图像中检测角按照采集的时间顺序进行排列，得到面部图像中的检测角序列。

步骤二：建立姿态预测神经网络，以人员在标准关键点序列为输入，以对应的标准检测角序列为输出，对姿态预测神经网络进行训练，得到训练后的姿态神经网络。

步骤三：在用户发音过程中实时采集其面部图像，得到其发音过程中各面部图像的实时关键点序列，将该关键点序列输入到训练后的姿态神经网络中，得到其实时检测角序列。

步骤四：将实时检测角序列与标准检测角序列进行比对，与其相似度最高的标准检测角序列所对应的音节作为用户所发出的音节。

本实施例中，人员发音时的面部图像中的关键点包括两个嘴角P1和P2、下嘴唇顶点P3、上嘴唇定点P4和鼻尖P5，如图2所示；嘴角P1和P2连线的中点R的与鼻尖点P5构成参考向量；上嘴唇的顶点P4和下嘴唇的顶点P3构成动作向量，检测角为参考向量和动作向量的夹角。

从面部图像上获取五个关键点三维坐标的方法为：

(1)获取的面部图像包括面部的RGB图像和深度图像，对其中的深度图像进行中值滤波处理，将其转换为灰度图；由于获取的面部图像与面部的实际动作是相反的，因此需要对其进行反转变化，因此需要对面部的深度图像进行反转变换，即将其得到的深度值进行正负变换，将深度值由负数转换为正数、由正数转换为负数；

(2)将面部的RGB图像输入到训练后的关键点定位神经网络中，获得其中各关键点的二维坐标；

(3)获取各关键点在深度图像中的深度值，将深度值作为对应关键点的第三轴坐标，将其与对应关键点的二维坐标相结合，得到各关键点的三维坐标。

本实施例中关键点定位神经网络包括第一编码器Encoder1和第一解码器Decoder1，其输入为面部图像的RGB图像，面部RGB图像经过关键点定位神经网络中的Encoder1进行下采样，获取其中人脸的featureMap，人脸的featureMap再经Decoder2的上采样获取人脸面部64个关键点的heatmap，并计算出其二维坐标。

关键点定位神经网络中的Encoder1、Decoder2网络结构有很多种设计方法，例如U-Net、HourglassNet、HRNet等，它们都是由Encoder-Decoder结构组成的，在本实施例中采用的是HourglassNet网络结构，以面部图像的RGB图像为输入，以面部图像上各关键点的二维坐标为输出，对关键点定位神经网络进行训练，得到训练后的关键点定位神经网络。

关键点定位神经网络的训练数据集是难以获取的，本实施例中采用模拟器来获取数据集，例如mava，3Dmax或游戏引擎等，采用三维扫描技术获取面部三维模型，再利用动作捕捉技术采集面部大动作，在模型上标注出本实施例中的5个关键点并获取其坐标，计算检测角；利用不同的虚拟相机渲染出动画序列，得到关键点对应的三维坐标，并根据各关键点的三维坐标得到相应，面部图像中的检测角，以此作为数据集。将数据集中80％的数据作为训练集，剩余的20％的数据作为测试集，采用MSE做损失函数，训练所建立的关键点定位神经网络。

在面部图像中，如果有面部图像中的关键点不能被检测到，则将与其相邻的两个面部图像，即该时刻前一时刻和下一时刻面部图像中相应关键点的坐标平均值作为该面部图像的关键点坐标。

本实施例中，判断两个检测角序列相似度的方法为：

比较两个检测角变化曲线中，对应时刻检测角度值的相似度；

判断各对应时刻检测角度值的相似度是否均小于相应的设定相似度，如果小于，则判断为两个检测角序列的相似度最高。

设两个检测角序列中对应时刻的检测角度值分分别为α1和α2，则两者之间的相似度为：

P＝1-(α1-α2)/α1

姿态预测神经网络的结构包括第二编码器Encoder1和第二解码器Decoder1，姿态预测神经网络的输入是面部图像上五个关键点的坐标数据，输入的坐标数据通过Encoder2进行编码，获取其在空间中的关系特征；FC层用于根据Encoder2得到的关系特征计算出检测角；姿态预测神经网络具体结构如图3所示，输入的序列数据长度为n帧，n是超参数，本实施例中n＝64，每帧数据为5行3通道的张量，代表五个关键点的3个坐标值。图3中每个block的结构是右侧的残差网络，图3中右侧残差网络的C、B、L分别表示卷积层、BatchNormalization层、ReLU层。其中卷积层的卷积核大小为5*3，沿时间轴进行卷积操作，图三中最后两个block的卷积用空洞卷积，扩大时域的感受野。

姿态预测神经网络是一种时域上的卷积网络，能从面部图像序列中探究时域信息，本实施例通过该神经网络能够将时域与空域信息结合起来，即使有关键点被遮挡，也能遮挡取5个关键点的真实空间信息以及发音时时序的变化规律。采用姿态预测神经网络的方法与直接结合深度图数据获取得关键点空间信息的方法相比，前者鲁棒性更好，对噪声不敏感。

本实施例中，得到检测角的简化曲线之后，计算每个片段里语音波形峰值的中心轴线与序列S的峰/谷的中心轴线的距离，如果距离相差一个很小的值，那么就判断该段语音识别正确，否则错误。如图4所示，假设TO、T1预测的发音为“therefore”的波形以及检测角的序列S(图中灰色曲线)，虚线处是根据夹角序列S预测的/th//f/发音，它们与语音波形峰值接近，因此判断发音预测正确

装置实施例：

本实施例提供一种基于人工智能的英语发音自检系统，包括处理器和存储器，存储器上存储有用于在处理器上执行的计算机程序，处理器执行该计算机程序时，实现如上述方法实施例中提供的基于人工智能的英语发音自检方法。

以上公开的本发明的实施例只是用于帮助阐明本发明的技术方案，并没有尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于人工智能的英语发音自检方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于人工智能的用于发音自检方法，其特征在于，获取面部图像中关键点坐标的方法为：

3.根据权利要求2所述的基于人工智能的用于发音自检方法，其特征在于，获取面部的深度图像后首先对其进行中值滤波，然后将其转换为灰度图像。

4.根据权利要求1所述的基于人工智能的英语发音自检方法，其特征在于，计算两个检测角相似度的方法为：

比较两个检测角序列中对应时刻检测角度值的相似度；

设两个检测角序列中，相同时刻的检测角度值分别为α1和α2，则两者之间的相似度为：P＝1-(α1-α2)/α1。

5.根据权利要求1所述的基于人工智能的英语发音自检方法，其特征在于，如果有面部图像中的关键点不能被检测到，则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。

6.一种基于人工智能的英语发音自检系统，包括处理器和存储器，存储器上存储有用于在处理器上执行的计算机程序；其特征在于，所述处理器执行所述计算机程序时，实现如下基于人工智能的英语发音自检方法：

7.根据权利要求6所述的基于人工智能的用于发音自检系统，其特征在于，获取面部图像中关键点坐标的方法为：

8.根据权利要求7所述的基于人工智能的用于发音自检系统，其特征在于，获取面部的深度凸显后首先对其进行中值滤波，然后将其转换为灰度图像。

9.根据权利要求6所述的基于人工智能的英语发音自检系统，其特征在于，计算两个检测角相似度的方法为：

比较两个检测角序列中对应时刻检测角度值的相似度；

10.根据权利要求6所述的基于人工智能的英语发音自检系统，其特征在于，如果有面部图像中的关键点不能被检测到，则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。