CN114783049B - 一种基于深度神经网络视觉识别的口语学习方法及系统 - Google Patents
一种基于深度神经网络视觉识别的口语学习方法及系统 Download PDFInfo
- Publication number
- CN114783049B CN114783049B CN202210277849.8A CN202210277849A CN114783049B CN 114783049 B CN114783049 B CN 114783049B CN 202210277849 A CN202210277849 A CN 202210277849A CN 114783049 B CN114783049 B CN 114783049B
- Authority
- CN
- China
- Prior art keywords
- pronunciation
- spoken language
- mouth
- language learning
- data set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 23
- 230000000007 visual effect Effects 0.000 title claims abstract description 19
- 230000001427 coherent effect Effects 0.000 claims abstract description 24
- 230000008859 change Effects 0.000 claims abstract description 22
- 238000012549 training Methods 0.000 claims abstract description 14
- 238000007781 pre-processing Methods 0.000 claims abstract description 13
- 230000001131 transforming effect Effects 0.000 claims abstract description 5
- 238000010276 construction Methods 0.000 claims abstract description 4
- 230000010354 integration Effects 0.000 claims abstract description 4
- 230000004927 fusion Effects 0.000 claims description 30
- 230000006870 function Effects 0.000 claims description 19
- 238000012545 processing Methods 0.000 claims description 12
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 6
- 238000009432 framing Methods 0.000 claims description 5
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000003066 decision tree Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000012795 verification Methods 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000006073 displacement reaction Methods 0.000 claims description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000000605 extraction Methods 0.000 description 6
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 229940060587 alpha e Drugs 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4053—Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/259—Fusion by voting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于深度神经网络视觉识别的口语学习方法及系统,该方法包括:构建口部发音图像数据集;对口部发音图像数据集进行变换预处理,得到预处理后的数据集;根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型;采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果。该系统包括:数据集构建模块、预处理模块、整合模块、训练模块和评分模块。本发明能够解决汉语口语学习用户汉语发音不规范的问题。本发明作为一种基于深度神经网络视觉识别的口语学习方法及系统,可广泛应用于计算机信息处理领域。
Description
技术领域
本发明涉及计算机信息处理领域,尤其涉及一种基于深度神经网络视觉识别的口语学习 方法及系统。
背景技术
非汉语母语学习者通常存在口型发音纠正难,缺乏汉语教师精准化个性化指导等问题。 其中口型、舌头的发音位置是中文学习中一大难点,如平舌音、翘舌音、前后鼻音,稍有不 同便会发出另外的声音,扭曲原有想表达的意思。初学者常常难以发现自身存在的问题,需 要有较高中文水平的老师常常指点改正。但受限于时间、精力、成本,相当多中文学习者并 不具备这样的线下教学环境和条件。同时,现阶段市面上的中文学习软件应用尚且只能通过 语音识别,判断发音正确与否,并不能对口型进行矫正,严重影响学习效率。
发明内容
本发明的目的是提供一种基于深度神经网络视觉识别的口语学习方法及系统,旨在解决 汉语口语学习用户汉语发音不规范的问题,对用户口型进行评分和纠正。
本发明所采用的第一技术方案是:一种基于深度神经网络视觉识别的口语学习方法,包 括以下步骤:
基于口语标准教学视频构建口部发音图像数据集;
对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列;
基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型;
采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果。
进一步,所述基于口语标准教学视频构建口部发音图像数据集这一步骤,其具体包括:
获取口语标准教学视频;
对口语标准教学视频进行分帧处理,每经过预设时间输出一帧图像,得到不同时刻的口 部发音图像;
对不同时刻的口部发音图像设置分类标签并构建口部发音图像数据集。
进一步,所述对口部发音图像数据集进行变换预处理,得到预处理后的数据集这一步骤, 其具体包括:
基于SRCNN算法对口部发音图像数据集的图像进行超分辨率重建处理;
按照预设的规范尺寸修正口部发音图像数据集的图像尺寸;
将口部发音图像数据集的图像进行RGB均值修正处理;
基于图像的点运算修正像素灰度;
得到预处理后的数据集。
进一步,所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得 到连贯序列这一步骤,其具体包括:
对预处理后的数据集中的图像进行特征点识别,并记录对应的时间戳,得到口型信息和 舌型信息;
根据口型信息和舌型信息获取对应的空间三维坐标信息,得到三维坐标;
根据三维坐标、数据集的签名信息和时间戳进行整合排序;
基于时间戳,对三维坐标、数据集的签名信息进行整合排序,得到连贯序列。
进一步,所述基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习 评分模型这一步骤,其具体包括:
将分类标签存放在连贯序列对应的对象中;
基于YOLO模型将物体类别和位置统一为一个回归问题,设置前向传播函数和损失函数, 得到口语学习评分模型;
基于连贯序列和分类标签对YOLO模型进行预测,得到预测结果;
将预测结果输入到随机森林当中,并由每棵决策树进行分类预测,得到投票得分结果, 结合分类标签验证,得到训练完成的口语学习评分模型。
进一步,所述采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到 评分结果这一步骤,其具体包括:
基于摄像头和录音器录制用户的发音视频,得到用户发音视频;
基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征;
将口型特征和舌型特征进行融合,得到口舌融合特征;
将口舌融合特征按照用户发音视频对应的时间戳进行整合排序,得到排序后的融合特征;
将排序后的融合特征输入训练完成的口语学习评分模型,对排序后的融合特征与标准发 音进行相似度匹配,输出评分,得到评分结果。
进一步,所述相似度匹配的计算公式如下:
上式中,FinFeaturestand表示标准发音的口舌融合特征,FinFeaturej表示用户的口舌融 合特征,k表示惩罚因子。
本发明所采用的第二技术方案是:一种基于深度神经网络视觉识别的口语学习系统,包 括:
数据集构建模块,基于口语标准教学视频构建口部发音图像数据集;
预处理模块,用于对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
整合模块,用于根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据, 得到连贯序列;
训练模块,基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评 分模型;
评分模块,用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得 到评分结果。
本发明方法及系统的有益效果是:本发明通过构建的口型学习评分模型能够准确地捕捉 到用户嘴形运动特性和唇舌开合幅度及其变化情况,并能准确地重完成用户口型评分和发音 纠正任务。
附图说明
图1是本发明一种基于深度神经网络视觉识别的口语学习方法的步骤流程图;
图2是本发明一种基于深度神经网络视觉识别的口语学习系统的结构框图;
图3是本发明具体实施例人脸特征点示意图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编 号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的 执行顺序均可根据本领域技术人员的理解来进行适应性调整。
如图1所示,本发明提供了一种基于深度神经网络视觉识别的口语学习方法,该方法包 括以下步骤:
S1、基于口语标准教学视频构建口部发音图像数据集;
S1.1、获取口语标准教学视频;
S1.2、对口语标准教学视频进行分帧处理,每经过预设时间输出一帧图像,得到不同时 刻的口部发音图像;
S1.3、对不同时刻的口部发音图像设置分类标签并构建口部发音图像数据集。
具体地,将输入的视频流按时间序列进行分帧处理,每间隔10帧截取一帧,将视频流转 化为定态图片的形式,按照分帧后的图像分割归总为多个标签类别,得出多分类标签,构建 标准口型样本集S。
S2、对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
S2.1、基于SRCNN算法对口部发音图像数据集的图像进行超分辨率重建处理;
S2.2、按照预设的规范尺寸修正口部发音图像数据集的图像尺寸;
S2.3、将口部发音图像数据集的图像进行RGB均值修正处理;
S2.4、基于图像的点运算修正像素灰度;
S2.5、得到预处理后的数据集。
具体地,所述的超分辨率处理使图像清晰度更高,以此让用户口型特征提取更明显;所 述的修改尺寸操作包括裁剪图像尺寸与转换图像大小:此处使用零像素点让图像变成S*S形 状,避免来回allocate显存,加快后续模型运算速度;转换图像大小则根据最大池化的方式来 将图像转化为256x256大小;所述的RGB均值修正根据视频流每帧图像的R、G、B三原色 通道中的平均灰度值,将图像的灰度值从[0,255]区间修改为[-127,128]区间;所述的像素归一 化将所述图像乘以系数1/255,将图像的灰度区间从[-127,128]映射为[-1,1]。经过上述数据预 处理环节的图像张量将作为口型特征提取环节的输入。
S3、根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序 列;
S3.1、对预处理后的数据集中的图像进行特征点识别,并记录对应的时间戳,得到口型 信息和舌型信息;
S3.2、根据口型信息和舌型信息获取对应的空间三维坐标信息,得到三维坐标;
S3.3、根据三维坐标、数据集的签名信息和时间戳进行整合排序;
S3.4、基于时间戳,对三维坐标、数据集的签名信息进行整合排序,得到连贯序列。
具体地,主要按照唇形轮廓三维坐标以及数据集的签名信息和时间戳进行整合排序以及 根据时间序列变化进行对口型特征点和舌型特征点提取并整合为连贯数据,得到口型信息和 舌型信息,并记录对应的时间戳。首先口型关键提取环节从唇形和舌型发音部位处,每帧图 像中提取出具有最大置信度的20个口型关键点的三维坐标,将口型信息和舌型信息转换为对 应空间的三维坐标信息,得到对应三维坐标;采用了一个基于热图的生成式姿态估计神经网 络。所述姿态估计神经网络以带有残差连接模块的深层特征融合模型为特征提取器,将输出 层特征修改为尺寸为64的66通道热图,其中1通道热图包括了图像中人体位置的置信度, 20通道包括了该人体对应的关键口型点置信度,36通道包括了关键口型点在摄像机平面中的 二维信息,36通道包括了口型点位置因降采样而导致的偏移。对上述66通道进行非极大值 抑制处理,再选出上述人体位置置信度最大位置的关键口型点信息,即可得到一组三维关键 口型点数据。同理可得舌型点数据。
S4、基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型;
S4.1、将分类标签存放在连贯序列对应的对象中;
S4.2、基于YOLO模型将物体类别和位置统一为一个回归问题,设置前向传播函数和损 失函数,得到口语学习评分模型;
S4.3、基于连贯序列和分类标签对YOLO模型进行预测,得到预测结果;
S4.4、将预测结果输入到随机森林当中,并由每棵决策树进行分类预测,得到投票得分 结果,结合分类标签验证,得到训练完成的口语学习评分模型。
具体地,通过人工标注之后数据之后输出样本的预测结果(得到预测概率分布,预测概率 分布包括用户在嘴唇全闭合,全闭合且唇内卷,微张平缓,微张且翘,平缓半张,O型半张, 半张且翘,平缓半张,O型张开,全张开共10个标签一一对应下的概率);根据样本真实类 别标签和模型预测结果计算相应的损失函数值(该损失函数值为预测概率分布与真实概率分 布之间的差异度);然后模型在梯度下降下,反向传播算法优化中的参数,完成的训练,得到 训练好的深度神经网络模型,之后通过图像的识别完成初步评分模型。
多分类预测的类别损失函数的计算公式如下:
上式中,M表示分类标签的数量,符号函数取值0或者1,如果样本i的真实类别等于c 取1,否则取0,pic表示口型样本数据为c的真实概率。
S5、采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果。
S5.1、基于摄像头和录音器录制用户的发音视频,得到用户发音视频;
S5.2、基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征;
S5.3、将口型特征和舌型特征进行融合,得到口舌融合特征;
S5.4、将口舌融合特征按照用户发音视频对应的时间戳进行整合排序,得到排序后的融 合特征;
S5.5、将排序后的融合特征输入训练完成的口语学习评分模型,对排序后的融合特征与 标准发音进行相似度匹配,输出评分,得到评分结果。
具体地,对于视频画面中用户的唇形轮廓及舌头使用Dlib库建立特征点,通过计算并记 录视频流中特征点之间相对位置变化时的信息,即可初步完成对口型和舌型变化的信息提取; 再将这些信息传入具有记忆力的神经网络(LSTM),通过神经网络正向传播来提取口型和 舌型的时序特征信息,并对网络最后的输出基于训练完成的口语学习评分模型进行处理后分 类,即可完成口型和舌型的识别操作。
另外,还包括根据比对信息判断用户整体动作的快慢程度和幅度,具体为判断从开始发 音到结束发音的间隔时间戳小于第一预设阈值,判定用户的语速为快速;在连续的两个时间 戳内,倘若关键点位移坐标大于第二预设阈值,判定该用户的张合程度过大。将用户的口形 张合幅度、张合顺序、唇部张合角度、舌型位置信息按时间戳与系统内标准指标进行对比, 比对后进行加权平均,最后将所得偏差值作为标准差异度判定,用标准分数减去差异度作为 基于原始的加工评分。
特征提取公式如下:
Feature=Sortmax(LSTM([Dlib(x0),Dlib(x1),...,Dlib(xi)]T))
上式中,xi表示第i帧画面,Dlib(·)表示建立特征点,LSTM(·)表示时序特征信息提取, Sortmax表示归一化操作,Feature表示提取到的特征。
特征融合公式如下:
FinFeature=α*Featuremouth+(1-α)*Featuretongue
上式中,α∈[0,1]表示权重因子,其值越大时表示口型特征更重要,反之则为舌型特征。
相似度匹配公式如下:
上式中,FinFeaturestand表示标准发音的口舌融合特征,FinFeaturej表示用户的口舌融 合特征,k表示惩罚因子。
如图2所示,一种基于深度神经网络视觉识别的口语学习系统,包括:
数据集构建模块,基于口语标准教学视频构建口部发音图像数据集;
预处理模块,用于对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
整合模块,用于根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据, 得到连贯序列;
训练模块,基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评 分模型;
评分模块,用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得 到评分结果。
上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与 上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种基于深度神经网络视觉识别的口语学习装置:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上所 述一种基于深度神经网络视觉识别的口语学习方法。
上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与 上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
一种存储介质,其中存储有处理器可执行的指令,其特征在于:所述处理器可执行的指 令在由处理器执行时用于实现如上所述一种基于深度神经网络视觉识别的口语学习方法。
上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现 的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也 相同。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉 本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等 同的变形或替换均包含在本申请权利要求所限定的范围内。
Claims (4)
1.一种基于深度神经网络视觉识别的口语学习方法,其特征在于,包括以下步骤:
基于口语标准教学视频构建口部发音图像数据集;
对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列;
所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列这一步骤,其具体包括;
对预处理后的数据集中的图像进行特征点识别,并记录对应的时间戳,得到口型信息和舌型信息;
根据口型信息和舌型信息获取对应的空间三维坐标信息,得到三维坐标;
基于时间戳,对三维坐标、数据集的签名信息进行整合排序,得到连贯序列;
基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型;
所述基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型这一步骤,其具体包括;
将分类标签存放在连贯序列对应的对象中;
基于YOLO模型将物体类别和位置统一为一个回归问题,设置前向传播函数和损失函数,得到口语学习评分模型;
基于连贯序列和分类标签对YOLO模型进行预测,得到预测结果;
将预测结果输入到随机森林当中,并由每棵决策树进行分类预测,得到投票得分结果,结合分类标签验证,得到训练完成的口语学习评分模型;
多分类预测的类别损失函数的计算公式如下;
上式中,M表示分类标签的数量,符号函数取值0或者1,如果样本i的真实类别等于c取1,否则取0,pic表示口型样本数据为c的真实概率;
采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果;
所述采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果这一步骤,其具体包括:
基于摄像头和录音器录制用户的发音视频,得到用户发音视频;
基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征;
将口型特征和舌型特征进行融合,得到口舌融合特征;
将口舌融合特征按照用户发音视频对应的时间戳进行整合排序,得到排序后的融合特征;
将排序后的融合特征输入训练完成的口语学习评分模型,对排序后的融合特征与标准发音进行相似度匹配,输出评分,得到评分结果;
所述相似度匹配的计算公式如下:
上式中,FinFeaturestand表示标准发音的口舌融合特征,FinFeaturej表示用户的口舌融合特征,k表示惩罚因子;
还包括根据比对信息判断用户整体动作的快慢程度和幅度,具体为判断从开始发音到结束发音的间隔时间戳小于第一预设阈值,判定用户的语速为快速;在连续的两个时间戳内,倘若关键点位移坐标大于第二预设阈值,判定该用户的张合程度过大;将用户的口形张合幅度、张合顺序、唇部张合角度、舌型位置信息按时间戳与系统内标准指标进行对比,比对后进行加权平均,最后将所得偏差值作为标准差异度判定,用标准分数减去差异度作为基于原始的加工评分。
2.根据权利要求1所述一种基于深度神经网络视觉识别的口语学习方法,其特征在于,所述基于口语标准教学视频构建口部发音图像数据集这一步骤,其具体包括:
获取口语标准教学视频;
对口语标准教学视频进行分帧处理,每经过预设时间输出一帧图像,得到不同时刻的口部发音图像;
对不同时刻的口部发音图像设置分类标签并构建口部发音图像数据集。
3.根据权利要求2所述一种基于深度神经网络视觉识别的口语学习方法,其特征在于,所述对口部发音图像数据集进行变换预处理,得到预处理后的数据集这一步骤,其具体包括:
基于SRCNN算法对口部发音图像数据集的图像进行超分辨率重建处理;
按照预设的规范尺寸修正口部发音图像数据集的图像尺寸;
将口部发音图像数据集的图像进行RGB均值修正处理;
基于图像的点运算修正像素灰度;
得到预处理后的数据集。
4.一种基于深度神经网络视觉识别的口语学习系统,其特征在于,包括:
数据集构建模块,基于口语标准教学视频构建口部发音图像数据集;
预处理模块,用于对口部发音图像数据集进行变换预处理,得到预处理后的数据集;
整合模块,用于根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列;
所述根据预处理后的数据集提取口型和舌型的变化信息并整合为连贯数据,得到连贯序列这一步骤,其具体包括;
对预处理后的数据集中的图像进行特征点识别,并记录对应的时间戳,得到口型信息和舌型信息;
根据口型信息和舌型信息获取对应的空间三维坐标信息,得到三维坐标;
基于时间戳,对三维坐标、数据集的签名信息进行整合排序,得到连贯序列;
训练模块,基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型;
所述基于YOLO模型构建口语学习评分模型并训练,得到训练完成的口语学习评分模型这一步骤,其具体包括;
将分类标签存放在连贯序列对应的对象中;
基于YOLO模型将物体类别和位置统一为一个回归问题,设置前向传播函数和损失函数,得到口语学习评分模型;
基于连贯序列和分类标签对YOLO模型进行预测,得到预测结果;
将预测结果输入到随机森林当中,并由每棵决策树进行分类预测,得到投票得分结果,结合分类标签验证,得到训练完成的口语学习评分模型;
多分类预测的类别损失函数的计算公式如下;
上式中,M表示分类标签的数量,符号函数取值0或者1,如果样本i的真实类别等于c取1,否则取0,pic表示口型样本数据为c的真实概率;
评分模块,用于采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果;
所述采集用户的发音视频并基于训练完成的口语学习评分模型进行评分,得到评分结果这一步骤,其具体包括:
基于摄像头和录音器录制用户的发音视频,得到用户发音视频;
基于特征点提取用户发音视频中每帧图像的口型特征和舌型特征;
将口型特征和舌型特征进行融合,得到口舌融合特征;
将口舌融合特征按照用户发音视频对应的时间戳进行整合排序,得到排序后的融合特征;
将排序后的融合特征输入训练完成的口语学习评分模型,对排序后的融合特征与标准发音进行相似度匹配,输出评分,得到评分结果;
所述相似度匹配的计算公式如下:
上式中,FinFeaturestand表示标准发音的口舌融合特征,FinFeaturej表示用户的口舌融合特征,k表示惩罚因子;
还包括根据比对信息判断用户整体动作的快慢程度和幅度,具体为判断从开始发音到结束发音的间隔时间戳小于第一预设阈值,判定用户的语速为快速;在连续的两个时间戳内,倘若关键点位移坐标大于第二预设阈值,判定该用户的张合程度过大;将用户的口形张合幅度、张合顺序、唇部张合角度、舌型位置信息按时间戳与系统内标准指标进行对比,比对后进行加权平均,最后将所得偏差值作为标准差异度判定,用标准分数减去差异度作为基于原始的加工评分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277849.8A CN114783049B (zh) | 2022-03-21 | 2022-03-21 | 一种基于深度神经网络视觉识别的口语学习方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210277849.8A CN114783049B (zh) | 2022-03-21 | 2022-03-21 | 一种基于深度神经网络视觉识别的口语学习方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114783049A CN114783049A (zh) | 2022-07-22 |
CN114783049B true CN114783049B (zh) | 2023-06-23 |
Family
ID=82425684
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210277849.8A Active CN114783049B (zh) | 2022-03-21 | 2022-03-21 | 一种基于深度神经网络视觉识别的口语学习方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114783049B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN111883176A (zh) * | 2020-07-02 | 2020-11-03 | 浙江大学绍兴微电子研究中心 | 端到端的智能语音朗读评测方法 |
CN112163547A (zh) * | 2020-10-13 | 2021-01-01 | 霍雨佳 | 一种基于深度学习的口语评测方法 |
CN113658584A (zh) * | 2021-08-19 | 2021-11-16 | 北京智精灵科技有限公司 | 智能化发音矫正方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150024180A (ko) * | 2013-08-26 | 2015-03-06 | 주식회사 셀리이노베이션스 | 발음 교정 장치 및 방법 |
CN106779087B (zh) * | 2016-11-30 | 2019-02-22 | 福建亿榕信息技术有限公司 | 一种通用机器学习数据分析平台 |
CN111126280B (zh) * | 2019-12-25 | 2023-03-21 | 华南理工大学 | 基于融合手势识别的失语症患者辅助康复训练系统及方法 |
CN111968676B (zh) * | 2020-08-18 | 2021-10-22 | 北京字节跳动网络技术有限公司 | 一种发音纠正方法、装置、电子设备及存储介质 |
-
2022
- 2022-03-21 CN CN202210277849.8A patent/CN114783049B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102169642A (zh) * | 2011-04-06 | 2011-08-31 | 李一波 | 具有智能纠错功能的交互式虚拟教师系统 |
CN111883176A (zh) * | 2020-07-02 | 2020-11-03 | 浙江大学绍兴微电子研究中心 | 端到端的智能语音朗读评测方法 |
CN112163547A (zh) * | 2020-10-13 | 2021-01-01 | 霍雨佳 | 一种基于深度学习的口语评测方法 |
CN113658584A (zh) * | 2021-08-19 | 2021-11-16 | 北京智精灵科技有限公司 | 智能化发音矫正方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114783049A (zh) | 2022-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113192161B (zh) | 一种虚拟人形象视频生成方法、系统、装置及存储介质 | |
CN111709409B (zh) | 人脸活体检测方法、装置、设备及介质 | |
Ko et al. | Sign language recognition with recurrent neural network using human keypoint detection | |
CN112887698B (zh) | 基于神经辐射场的高质量人脸语音驱动方法 | |
Matthews et al. | Extraction of visual features for lipreading | |
Hassanat | Visual speech recognition | |
CN101964064A (zh) | 一种人脸比对方法 | |
Kalbande et al. | Lip reading using neural networks | |
CN113657168B (zh) | 基于卷积神经网络的学生学习情绪的识别方法 | |
US10825224B2 (en) | Automatic viseme detection for generating animatable puppet | |
CN114360067A (zh) | 一种基于深度学习的动态手势识别方法 | |
CN112818850A (zh) | 基于渐进式神经网络和注意力机制的跨姿态人脸识别方法 | |
CN113158914A (zh) | 一种舞蹈动作姿态、节奏和表情的智能评估方法 | |
CN114842547A (zh) | 基于手势动作生成与识别的手语教学方法、装置及系统 | |
CN113780059A (zh) | 一种基于多特征点的连续手语识别方法 | |
CN110069655B (zh) | 一种私人相册的人脸搜索方法 | |
CN115188074A (zh) | 一种互动式体育训练测评方法、装置、系统及计算机设备 | |
CN115131405A (zh) | 一种基于多模态信息的发言人跟踪方法及系统 | |
CN114783049B (zh) | 一种基于深度神经网络视觉识别的口语学习方法及系统 | |
CN117176998A (zh) | 基于通道注意力的双流网络跨模态嘴型同步方法和系统 | |
CN111950480A (zh) | 一种基于人工智能的英语发音自检方法和自检系统 | |
CN111611854A (zh) | 一种基于模式识别的课堂情况评价方法 | |
CN113449694B (zh) | 基于Android的证件照合规性检测方法及系统 | |
CN110532960B (zh) | 一种基于图神经网络的目标辅助的动作识别方法 | |
CN114663910A (zh) | 基于多模态学习状态分析系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |