CN114783049B

CN114783049B - 一种基于深度神经网络视觉识别的口语学习方法及系统

Info

Publication number: CN114783049B
Application number: CN202210277849.8A
Authority: CN
Inventors: 黄尚樱
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-03-21
Filing date: 2022-03-21
Publication date: 2023-06-23
Anticipated expiration: 2042-03-21
Also published as: CN114783049A

Abstract

本发明公开了一种基于深度神经网络视觉识别的口语学习方法及系统，该方法包括：构建口部发音图像数据集；对口部发音图像数据集进行变换预处理，得到预处理后的数据集；根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型；采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果。该系统包括：数据集构建模块、预处理模块、整合模块、训练模块和评分模块。本发明能够解决汉语口语学习用户汉语发音不规范的问题。本发明作为一种基于深度神经网络视觉识别的口语学习方法及系统，可广泛应用于计算机信息处理领域。

Description

一种基于深度神经网络视觉识别的口语学习方法及系统

技术领域

本发明涉及计算机信息处理领域，尤其涉及一种基于深度神经网络视觉识别的口语学习方法及系统。

背景技术

非汉语母语学习者通常存在口型发音纠正难，缺乏汉语教师精准化个性化指导等问题。其中口型、舌头的发音位置是中文学习中一大难点，如平舌音、翘舌音、前后鼻音，稍有不同便会发出另外的声音，扭曲原有想表达的意思。初学者常常难以发现自身存在的问题，需要有较高中文水平的老师常常指点改正。但受限于时间、精力、成本，相当多中文学习者并不具备这样的线下教学环境和条件。同时，现阶段市面上的中文学习软件应用尚且只能通过语音识别，判断发音正确与否，并不能对口型进行矫正，严重影响学习效率。

发明内容

本发明的目的是提供一种基于深度神经网络视觉识别的口语学习方法及系统，旨在解决汉语口语学习用户汉语发音不规范的问题，对用户口型进行评分和纠正。

本发明所采用的第一技术方案是：一种基于深度神经网络视觉识别的口语学习方法，包括以下步骤：

基于口语标准教学视频构建口部发音图像数据集；

对口部发音图像数据集进行变换预处理，得到预处理后的数据集；

根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列；

基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型；

采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果。

进一步，所述基于口语标准教学视频构建口部发音图像数据集这一步骤，其具体包括：

获取口语标准教学视频；

对口语标准教学视频进行分帧处理，每经过预设时间输出一帧图像，得到不同时刻的口部发音图像；

对不同时刻的口部发音图像设置分类标签并构建口部发音图像数据集。

进一步，所述对口部发音图像数据集进行变换预处理，得到预处理后的数据集这一步骤，其具体包括：

基于SRCNN算法对口部发音图像数据集的图像进行超分辨率重建处理；

按照预设的规范尺寸修正口部发音图像数据集的图像尺寸；

将口部发音图像数据集的图像进行RGB均值修正处理；

基于图像的点运算修正像素灰度；

得到预处理后的数据集。

进一步，所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列这一步骤，其具体包括：

对预处理后的数据集中的图像进行特征点识别，并记录对应的时间戳，得到口型信息和舌型信息；

根据口型信息和舌型信息获取对应的空间三维坐标信息，得到三维坐标；

根据三维坐标、数据集的签名信息和时间戳进行整合排序；

基于时间戳，对三维坐标、数据集的签名信息进行整合排序，得到连贯序列。

进一步，所述基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型这一步骤，其具体包括：

将分类标签存放在连贯序列对应的对象中；

基于YOLO模型将物体类别和位置统一为一个回归问题，设置前向传播函数和损失函数，得到口语学习评分模型；

基于连贯序列和分类标签对YOLO模型进行预测，得到预测结果；

将预测结果输入到随机森林当中，并由每棵决策树进行分类预测，得到投票得分结果，结合分类标签验证，得到训练完成的口语学习评分模型。

进一步，所述采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果这一步骤，其具体包括：

基于摄像头和录音器录制用户的发音视频，得到用户发音视频；

基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征；

将口型特征和舌型特征进行融合，得到口舌融合特征；

将口舌融合特征按照用户发音视频对应的时间戳进行整合排序，得到排序后的融合特征；

将排序后的融合特征输入训练完成的口语学习评分模型，对排序后的融合特征与标准发音进行相似度匹配，输出评分，得到评分结果。

进一步，所述相似度匹配的计算公式如下：

上式中，FinFeature_stand表示标准发音的口舌融合特征，FinFeature_j表示用户的口舌融合特征，k表示惩罚因子。

本发明所采用的第二技术方案是：一种基于深度神经网络视觉识别的口语学习系统，包括：

数据集构建模块，基于口语标准教学视频构建口部发音图像数据集；

预处理模块，用于对口部发音图像数据集进行变换预处理，得到预处理后的数据集；

整合模块，用于根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列；

训练模块，基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型；

评分模块，用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果。

本发明方法及系统的有益效果是：本发明通过构建的口型学习评分模型能够准确地捕捉到用户嘴形运动特性和唇舌开合幅度及其变化情况，并能准确地重完成用户口型评分和发音纠正任务。

附图说明

图1是本发明一种基于深度神经网络视觉识别的口语学习方法的步骤流程图；

图2是本发明一种基于深度神经网络视觉识别的口语学习系统的结构框图；

图3是本发明具体实施例人脸特征点示意图。

具体实施方式

下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号，其仅为了便于阐述说明而设置，对步骤之间的顺序不做任何限定，实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。

如图1所示，本发明提供了一种基于深度神经网络视觉识别的口语学习方法，该方法包括以下步骤：

S1、基于口语标准教学视频构建口部发音图像数据集；

S1.1、获取口语标准教学视频；

S1.2、对口语标准教学视频进行分帧处理，每经过预设时间输出一帧图像，得到不同时刻的口部发音图像；

S1.3、对不同时刻的口部发音图像设置分类标签并构建口部发音图像数据集。

具体地，将输入的视频流按时间序列进行分帧处理，每间隔10帧截取一帧，将视频流转化为定态图片的形式，按照分帧后的图像分割归总为多个标签类别，得出多分类标签，构建标准口型样本集S。

S2、对口部发音图像数据集进行变换预处理，得到预处理后的数据集；

S2.1、基于SRCNN算法对口部发音图像数据集的图像进行超分辨率重建处理；

S2.2、按照预设的规范尺寸修正口部发音图像数据集的图像尺寸；

S2.3、将口部发音图像数据集的图像进行RGB均值修正处理；

S2.4、基于图像的点运算修正像素灰度；

S2.5、得到预处理后的数据集。

具体地，所述的超分辨率处理使图像清晰度更高，以此让用户口型特征提取更明显；所述的修改尺寸操作包括裁剪图像尺寸与转换图像大小：此处使用零像素点让图像变成S*S形状，避免来回allocate显存，加快后续模型运算速度；转换图像大小则根据最大池化的方式来将图像转化为256x256大小；所述的RGB均值修正根据视频流每帧图像的R、G、B三原色通道中的平均灰度值，将图像的灰度值从[0,255]区间修改为[-127,128]区间；所述的像素归一化将所述图像乘以系数1/255，将图像的灰度区间从[-127,128]映射为[-1,1]。经过上述数据预处理环节的图像张量将作为口型特征提取环节的输入。

S3、根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列；

S3.1、对预处理后的数据集中的图像进行特征点识别，并记录对应的时间戳，得到口型信息和舌型信息；

S3.2、根据口型信息和舌型信息获取对应的空间三维坐标信息，得到三维坐标；

S3.3、根据三维坐标、数据集的签名信息和时间戳进行整合排序；

S3.4、基于时间戳，对三维坐标、数据集的签名信息进行整合排序，得到连贯序列。

具体地，主要按照唇形轮廓三维坐标以及数据集的签名信息和时间戳进行整合排序以及根据时间序列变化进行对口型特征点和舌型特征点提取并整合为连贯数据，得到口型信息和舌型信息，并记录对应的时间戳。首先口型关键提取环节从唇形和舌型发音部位处，每帧图像中提取出具有最大置信度的20个口型关键点的三维坐标，将口型信息和舌型信息转换为对应空间的三维坐标信息，得到对应三维坐标；采用了一个基于热图的生成式姿态估计神经网络。所述姿态估计神经网络以带有残差连接模块的深层特征融合模型为特征提取器，将输出层特征修改为尺寸为64的66通道热图，其中1通道热图包括了图像中人体位置的置信度， 20通道包括了该人体对应的关键口型点置信度，36通道包括了关键口型点在摄像机平面中的二维信息，36通道包括了口型点位置因降采样而导致的偏移。对上述66通道进行非极大值抑制处理，再选出上述人体位置置信度最大位置的关键口型点信息，即可得到一组三维关键口型点数据。同理可得舌型点数据。

S4、基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型；

S4.1、将分类标签存放在连贯序列对应的对象中；

S4.2、基于YOLO模型将物体类别和位置统一为一个回归问题，设置前向传播函数和损失函数，得到口语学习评分模型；

S4.3、基于连贯序列和分类标签对YOLO模型进行预测，得到预测结果；

S4.4、将预测结果输入到随机森林当中，并由每棵决策树进行分类预测，得到投票得分结果，结合分类标签验证，得到训练完成的口语学习评分模型。

具体地，通过人工标注之后数据之后输出样本的预测结果(得到预测概率分布，预测概率分布包括用户在嘴唇全闭合，全闭合且唇内卷，微张平缓，微张且翘，平缓半张，O型半张，半张且翘，平缓半张，O型张开，全张开共10个标签一一对应下的概率)；根据样本真实类别标签和模型预测结果计算相应的损失函数值(该损失函数值为预测概率分布与真实概率分布之间的差异度)；然后模型在梯度下降下，反向传播算法优化中的参数，完成的训练，得到训练好的深度神经网络模型，之后通过图像的识别完成初步评分模型。

多分类预测的类别损失函数的计算公式如下：

上式中，M表示分类标签的数量，符号函数取值0或者1，如果样本i的真实类别等于c 取1，否则取0，p_ic表示口型样本数据为c的真实概率。

S5、采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果。

S5.1、基于摄像头和录音器录制用户的发音视频，得到用户发音视频；

S5.2、基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征；

S5.3、将口型特征和舌型特征进行融合，得到口舌融合特征；

S5.4、将口舌融合特征按照用户发音视频对应的时间戳进行整合排序，得到排序后的融合特征；

S5.5、将排序后的融合特征输入训练完成的口语学习评分模型，对排序后的融合特征与标准发音进行相似度匹配，输出评分，得到评分结果。

具体地，对于视频画面中用户的唇形轮廓及舌头使用Dlib库建立特征点，通过计算并记录视频流中特征点之间相对位置变化时的信息，即可初步完成对口型和舌型变化的信息提取；再将这些信息传入具有记忆力的神经网络(LSTM)，通过神经网络正向传播来提取口型和舌型的时序特征信息，并对网络最后的输出基于训练完成的口语学习评分模型进行处理后分类，即可完成口型和舌型的识别操作。

另外，还包括根据比对信息判断用户整体动作的快慢程度和幅度，具体为判断从开始发音到结束发音的间隔时间戳小于第一预设阈值，判定用户的语速为快速；在连续的两个时间戳内，倘若关键点位移坐标大于第二预设阈值，判定该用户的张合程度过大。将用户的口形张合幅度、张合顺序、唇部张合角度、舌型位置信息按时间戳与系统内标准指标进行对比，比对后进行加权平均，最后将所得偏差值作为标准差异度判定，用标准分数减去差异度作为基于原始的加工评分。

特征提取公式如下：

Feature＝Sortmax(LSTM([Dlib(x₀)，Dlib(x₁)，...，Dlib(x_i)]^T))

上式中，x_i表示第i帧画面，Dlib(·)表示建立特征点，LSTM(·)表示时序特征信息提取， Sortmax表示归一化操作，Feature表示提取到的特征。

特征融合公式如下：

FinFeature＝α*Feature_mouth+(1-α)*Feature_tongue

上式中，α∈[0，1]表示权重因子，其值越大时表示口型特征更重要，反之则为舌型特征。

相似度匹配公式如下：

如图2所示，一种基于深度神经网络视觉识别的口语学习系统，包括：

上述方法实施例中的内容均适用于本系统实施例中，本系统实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种基于深度神经网络视觉识别的口语学习装置：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当所述至少一个程序被所述至少一个处理器执行，使得所述至少一个处理器实现如上所述一种基于深度神经网络视觉识别的口语学习方法。

上述方法实施例中的内容均适用于本装置实施例中，本装置实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

一种存储介质，其中存储有处理器可执行的指令，其特征在于：所述处理器可执行的指令在由处理器执行时用于实现如上所述一种基于深度神经网络视觉识别的口语学习方法。

上述方法实施例中的内容均适用于本存储介质实施例中，本存储介质实施例所具体实现的功能与上述方法实施例相同，并且达到的有益效果与上述方法实施例所达到的有益效果也相同。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种基于深度神经网络视觉识别的口语学习方法，其特征在于，包括以下步骤：

基于口语标准教学视频构建口部发音图像数据集；

所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据，得到连贯序列这一步骤，其具体包括；

基于时间戳，对三维坐标、数据集的签名信息进行整合排序，得到连贯序列；

所述基于YOLO模型构建口语学习评分模型并训练，得到训练完成的口语学习评分模型这一步骤，其具体包括；

将分类标签存放在连贯序列对应的对象中；

将预测结果输入到随机森林当中，并由每棵决策树进行分类预测，得到投票得分结果，结合分类标签验证，得到训练完成的口语学习评分模型；

多分类预测的类别损失函数的计算公式如下；

上式中，M表示分类标签的数量，符号函数取值0或者1，如果样本i的真实类别等于c取1，否则取0，p_ic表示口型样本数据为c的真实概率；

采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果；

所述采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果这一步骤，其具体包括：

将口型特征和舌型特征进行融合，得到口舌融合特征；

将排序后的融合特征输入训练完成的口语学习评分模型，对排序后的融合特征与标准发音进行相似度匹配，输出评分，得到评分结果；

所述相似度匹配的计算公式如下：

上式中，FinFeature_stand表示标准发音的口舌融合特征，FinFeature_j表示用户的口舌融合特征，k表示惩罚因子；

还包括根据比对信息判断用户整体动作的快慢程度和幅度，具体为判断从开始发音到结束发音的间隔时间戳小于第一预设阈值，判定用户的语速为快速；在连续的两个时间戳内，倘若关键点位移坐标大于第二预设阈值，判定该用户的张合程度过大；将用户的口形张合幅度、张合顺序、唇部张合角度、舌型位置信息按时间戳与系统内标准指标进行对比，比对后进行加权平均，最后将所得偏差值作为标准差异度判定，用标准分数减去差异度作为基于原始的加工评分。

2.根据权利要求1所述一种基于深度神经网络视觉识别的口语学习方法，其特征在于，所述基于口语标准教学视频构建口部发音图像数据集这一步骤，其具体包括：

获取口语标准教学视频；

3.根据权利要求2所述一种基于深度神经网络视觉识别的口语学习方法，其特征在于，所述对口部发音图像数据集进行变换预处理，得到预处理后的数据集这一步骤，其具体包括：

按照预设的规范尺寸修正口部发音图像数据集的图像尺寸；

将口部发音图像数据集的图像进行RGB均值修正处理；

基于图像的点运算修正像素灰度；

得到预处理后的数据集。

4.一种基于深度神经网络视觉识别的口语学习系统，其特征在于，包括：

将分类标签存放在连贯序列对应的对象中；

多分类预测的类别损失函数的计算公式如下；

评分模块，用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分，得到评分结果；

将口型特征和舌型特征进行融合，得到口舌融合特征；

所述相似度匹配的计算公式如下：