CN111950480A - 一种基于人工智能的英语发音自检方法和自检系统 - Google Patents
一种基于人工智能的英语发音自检方法和自检系统 Download PDFInfo
- Publication number
- CN111950480A CN111950480A CN202010826108.1A CN202010826108A CN111950480A CN 111950480 A CN111950480 A CN 111950480A CN 202010826108 A CN202010826108 A CN 202010826108A CN 111950480 A CN111950480 A CN 111950480A
- Authority
- CN
- China
- Prior art keywords
- key point
- detection angle
- pronunciation
- image
- face
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/161—Detection; Localisation; Normalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/28—Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
- G06V40/171—Local features and components; Facial parts ; Occluding parts, e.g. glasses; Geometrical relationships
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Oral & Maxillofacial Surgery (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于人工智能的英语发音自检方法和自检系统,自检方法包括如下步骤:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列;建立姿态预测神经网络,以人员在标准发音过程中各面部图像的关键点序列为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络;在用户发音过程中采集其面部图像,得到其发音过程中各面部图像的关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其检测角序列,将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。本发明提供的技术方案能够提高对用户英语发音检测的准确性。
Description
技术领域
本发明属于英语发音自检技术领域,具体涉及一种基于人工智能的英语发音自检方法和自检系统。
背景技术
英语教学是指对于英语是或者不是第一语言的人进行教授英语的过程。英语教学涉及多种专业理论知识,包括语言学、第二语言习得、词汇学、句法学、文体学、语料库理论、认知心理学等内容。英语教学是一个循序渐进的过程,无论是对于英语是或者不是第一语言的人来说,英语学习在全球化快速发展的今天都是至关重要的。
现有的英语教学中,对于学生的发音质量评估存在不能有效、简单的确定发音与否和发音质量。目前,现有的英语发音测试系统大多仅依赖音频数据实现发音情况的检测,检测结果单一。同时这类系统大多仅依靠用户反复听标准音频数据的方式实现发音训练,训练效率即为低下。
申请公布号为CN110379221A的中国发明专利申请文件公开了一种英语发音测试与评价系统,基于音频和口型实现了用户发音情况的检测分析,使得用户可以更加全面的了解自己的发音情况,同时以及标准口型协同标准音频的方式进行标准资料的反馈,大大提高了学习效率。但是该方案不能判断出用户的发音是否准确。
申请公布号为CN110689464A的中国发明专利申请文件公开了一种基于口型识别的英语发音质量评估方法,通过采用唇语加入唇语前部空气流动场检测,实现唇语作假数据剔除,降低误差的技术方案,判断发音是否准确。但是该方案需要采集用户发音时唇前的空气流动,不仅操作麻烦,而且受到检测距离的影响,检测结果准确性比较低。
综上所述,现有技术中的英语发音检测方案存在着检测结果不准确的问题。
发明内容
本发明的目的是提供一种基于人工智能的英语发音自检方法和自检系统,以解决现有技术中对用于英语发音检测不准确的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于人工智能的英语发音自检方法,包括如下步骤:
步骤一:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列;
所述面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖;两个嘴角连线的中点与鼻尖点构成参考向量;上嘴唇的顶点和下嘴唇的顶点构成动作向量,所述检测角为参考向量和动作向量的夹角;
步骤二:建立姿态预测神经网络,以人员在标准发音过程中各面部图像的关键点序列为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络;
步骤三:在用户发音过程中采集其面部图像,得到其发音过程中各面部图像的关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其检测角序列,将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。
进一步的,获取面部图像中关键点坐标的方法为:
获取发音过程中的面部图像,包括面部的RGB图像和深度图像;
将面部的RGB图像输入到训练后的关键点定位神经网络中,得到面部图像中各关键点的二维坐标;
获取各关键点在深度图像中的深度值,将深度值作为对应关键点的第三轴坐标,将其与对应关键点的二维坐标相结合,得到各关键点的三维坐标。
进一步的,获取面部的深度图像后首先对其进行中值滤波,然后将其转换为灰度图像。
进一步的,计算两个检测角相似度的方法为:
比较两个检测角序列中对应时刻检测角度值的相似度;
判断各时刻检测角度值的相似度是否均大于相应的设定相似度,如果大于,则判断为两个检测角序列的相似度最高;
设两个检测角序列中,相同时刻的检测角度值分别为α1和α2,则两者之间的相似度为:
P=1-(α1-α2)/α1。
进一步的,如果有面部图像中的关键点不能被检测到,则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。
一种基于人工智能的英语发音自检系统,包括处理器和存储器,存储器上存储有用于在处理器上执行的计算机程序;所述处理器执行所述计算机程序时,实现如下基于人工智能的英语发音自检方法:
步骤一:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列;
所述面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖;两个嘴角连线的中点与鼻尖点构成参考向量;上嘴唇的顶点和下嘴唇的顶点构成动作向量,所述检测角为参考向量和动作向量的夹角;
步骤二:建立姿态预测神经网络,以人员在标准发音过程中各面部图像的关键点序列为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络;
步骤三:在用户发音过程中采集其面部图像,得到其发音过程中各面部图像的关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其检测角序列,将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。
进一步的,获取面部图像中关键点坐标的方法为:
获取发音过程中的面部图像,包括面部的RGB图像和深度图像;
将面部的RGB图像输入到训练后的关键点定位神经网络中,得到面部图像中各关键点的二维坐标;
获取各关键点在深度图像中的深度值,将深度值作为对应关键点的第三轴坐标,将其与对应关键点的二维坐标相结合,得到各关键点的三维坐标。
进一步的,获取面部的深度凸显后首先对其进行中值滤波,然后将其转换为灰度图像。
进一步的,计算两个检测角相似度的方法为:
比较两个检测角序列中对应时刻检测角度值的相似度;
判断各时刻检测角度值的相似度是否均大于相应的设定相似度,如果大于,则判断为两个检测角序列的相似度最高;
设两个检测角序列中,相同时刻的检测角度值分别为α1和α2,则两者之间的相似度为:
P=1-(α1-α2)/α1。
进一步的,如果有面部图像中的关键点不能被检测到,则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。
本发明所提供的技术方案,根据在音节标准发音时的面部图像得到相应的关键点序列,以人员在标准发音时面部图像关键点为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络,根据训练后的姿态神经网络得到用户发音时的检测角序列,并根据该检测角序列得到用户所发出的音节。本发明所提供的技术方案能够根据用户发音时的面部图像得到其发出的音节,能够提高对用户英语发音检测的准确度。
附图说明
图1是本发明方法实施例中基于人工智能的英语发音检测方法的流程图;
图2是本发明方法实施例中面部图像中关键点的示意图;
图3是本发明方法实施例中关键点定位神经网络的结构示意图;
图4是本发明方法实施例中声波与检测角变化曲线进行比对的示意图。
具体实施方式
本发明的目的是提供一种基于人工智能的英语发音自检方法和自检系统,以解决现有技术中对用于英语发音检测不准确的问题。
方法实施例:
本实施例提供一种基于人工智能的英语发音检测方法,其流程如图1所示,包括如下步骤:
步骤一:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的标准关键点序列和标准检测角序列。
人员的面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖;两个嘴角连线的中点与鼻尖点构成参考向量;上嘴唇的顶点和下嘴唇的顶点构成动作向量,面部图像中的检测角为参考向量和动作向量的夹角。
本实施例中,采用两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖作为判断人员所发出音节的关键点,由于这些关键点比较容易获取,并且由于在发音时人的嘴型是对称的,因此即使从面部一侧获取图像,也能够检测出其面部图像中关键点的位置关系,能够提高对用户英语发音判断的准确性。
在人原发音过程中,每间隔设定时间采集一次其面部图像,连续检测设定数量次,各面部图像中关键点按照采集的时间顺序进行排列,得到面部图像中的关键点序列;各面部图像中检测角按照采集的时间顺序进行排列,得到面部图像中的检测角序列。
步骤二:建立姿态预测神经网络,以人员在标准关键点序列为输入,以对应的标准检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络。
步骤三:在用户发音过程中实时采集其面部图像,得到其发音过程中各面部图像的实时关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其实时检测角序列。
步骤四:将实时检测角序列与标准检测角序列进行比对,与其相似度最高的标准检测角序列所对应的音节作为用户所发出的音节。
本实施例中,人员发音时的面部图像中的关键点包括两个嘴角P1和P2、下嘴唇顶点P3、上嘴唇定点P4和鼻尖P5,如图2所示;嘴角P1和P2连线的中点R的与鼻尖点P5构成参考向量;上嘴唇的顶点P4和下嘴唇的顶点P3构成动作向量,检测角为参考向量和动作向量的夹角。
从面部图像上获取五个关键点三维坐标的方法为:
(1)获取的面部图像包括面部的RGB图像和深度图像,对其中的深度图像进行中值滤波处理,将其转换为灰度图;由于获取的面部图像与面部的实际动作是相反的,因此需要对其进行反转变化,因此需要对面部的深度图像进行反转变换,即将其得到的深度值进行正负变换,将深度值由负数转换为正数、由正数转换为负数;
(2)将面部的RGB图像输入到训练后的关键点定位神经网络中,获得其中各关键点的二维坐标;
(3)获取各关键点在深度图像中的深度值,将深度值作为对应关键点的第三轴坐标,将其与对应关键点的二维坐标相结合,得到各关键点的三维坐标。
本实施例中关键点定位神经网络包括第一编码器Encoder1和第一解码器Decoder1,其输入为面部图像的RGB图像,面部RGB图像经过关键点定位神经网络中的Encoder1进行下采样,获取其中人脸的featureMap,人脸的featureMap再经Decoder2的上采样获取人脸面部64个关键点的heatmap,并计算出其二维坐标。
关键点定位神经网络中的Encoder1、Decoder2网络结构有很多种设计方法,例如U-Net、HourglassNet、HRNet等,它们都是由Encoder-Decoder结构组成的,在本实施例中采用的是HourglassNet网络结构,以面部图像的RGB图像为输入,以面部图像上各关键点的二维坐标为输出,对关键点定位神经网络进行训练,得到训练后的关键点定位神经网络。
关键点定位神经网络的训练数据集是难以获取的,本实施例中采用模拟器来获取数据集,例如mava,3Dmax或游戏引擎等,采用三维扫描技术获取面部三维模型,再利用动作捕捉技术采集面部大动作,在模型上标注出本实施例中的5个关键点并获取其坐标,计算检测角;利用不同的虚拟相机渲染出动画序列,得到关键点对应的三维坐标,并根据各关键点的三维坐标得到相应,面部图像中的检测角,以此作为数据集。将数据集中80%的数据作为训练集,剩余的20%的数据作为测试集,采用MSE做损失函数,训练所建立的关键点定位神经网络。
在面部图像中,如果有面部图像中的关键点不能被检测到,则将与其相邻的两个面部图像,即该时刻前一时刻和下一时刻面部图像中相应关键点的坐标平均值作为该面部图像的关键点坐标。
本实施例中,判断两个检测角序列相似度的方法为:
比较两个检测角变化曲线中,对应时刻检测角度值的相似度;
判断各对应时刻检测角度值的相似度是否均小于相应的设定相似度,如果小于,则判断为两个检测角序列的相似度最高。
设两个检测角序列中对应时刻的检测角度值分分别为α1和α2,则两者之间的相似度为:
P=1-(α1-α2)/α1
姿态预测神经网络的结构包括第二编码器Encoder1和第二解码器Decoder1,姿态预测神经网络的输入是面部图像上五个关键点的坐标数据,输入的坐标数据通过Encoder2进行编码,获取其在空间中的关系特征;FC层用于根据Encoder2得到的关系特征计算出检测角;姿态预测神经网络具体结构如图3所示,输入的序列数据长度为n帧,n是超参数,本实施例中n=64,每帧数据为5行3通道的张量,代表五个关键点的3个坐标值。图3中每个block的结构是右侧的残差网络,图3中右侧残差网络的C、B、L分别表示卷积层、BatchNormalization层、ReLU层。其中卷积层的卷积核大小为5*3,沿时间轴进行卷积操作,图三中最后两个block的卷积用空洞卷积,扩大时域的感受野。
姿态预测神经网络是一种时域上的卷积网络,能从面部图像序列中探究时域信息,本实施例通过该神经网络能够将时域与空域信息结合起来,即使有关键点被遮挡,也能遮挡取5个关键点的真实空间信息以及发音时时序的变化规律。采用姿态预测神经网络的方法与直接结合深度图数据获取得关键点空间信息的方法相比,前者鲁棒性更好,对噪声不敏感。
本实施例中,得到检测角的简化曲线之后,计算每个片段里语音波形峰值的中心轴线与序列S的峰/谷的中心轴线的距离,如果距离相差一个很小的值,那么就判断该段语音识别正确,否则错误。如图4所示,假设TO、T1预测的发音为“therefore”的波形以及检测角的序列S(图中灰色曲线),虚线处是根据夹角序列S预测的/th//f/发音,它们与语音波形峰值接近,因此判断发音预测正确
装置实施例:
本实施例提供一种基于人工智能的英语发音自检系统,包括处理器和存储器,存储器上存储有用于在处理器上执行的计算机程序,处理器执行该计算机程序时,实现如上述方法实施例中提供的基于人工智能的英语发音自检方法。
以上公开的本发明的实施例只是用于帮助阐明本发明的技术方案,并没有尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于人工智能的英语发音自检方法,其特征在于,包括如下步骤:
步骤一:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列;
所述面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖;两个嘴角连线的中点与鼻尖点构成参考向量;上嘴唇的顶点和下嘴唇的顶点构成动作向量,所述检测角为参考向量和动作向量的夹角;
步骤二:建立姿态预测神经网络,以人员在标准发音过程中各面部图像的关键点序列为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络;
步骤三:在用户发音过程中采集其面部图像,得到其发音过程中各面部图像的关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其检测角序列,将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。
2.根据权利要求1所述的基于人工智能的用于发音自检方法,其特征在于,获取面部图像中关键点坐标的方法为:
获取发音过程中的面部图像,包括面部的RGB图像和深度图像;
将面部的RGB图像输入到训练后的关键点定位神经网络中,得到面部图像中各关键点的二维坐标;
获取各关键点在深度图像中的深度值,将深度值作为对应关键点的第三轴坐标,将其与对应关键点的二维坐标相结合,得到各关键点的三维坐标。
3.根据权利要求2所述的基于人工智能的用于发音自检方法,其特征在于,获取面部的深度图像后首先对其进行中值滤波,然后将其转换为灰度图像。
4.根据权利要求1所述的基于人工智能的英语发音自检方法,其特征在于,计算两个检测角相似度的方法为:
比较两个检测角序列中对应时刻检测角度值的相似度;
判断各时刻检测角度值的相似度是否均大于相应的设定相似度,如果大于,则判断为两个检测角序列的相似度最高;
设两个检测角序列中,相同时刻的检测角度值分别为α1和α2,则两者之间的相似度为:P=1-(α1-α2)/α1。
5.根据权利要求1所述的基于人工智能的英语发音自检方法,其特征在于,如果有面部图像中的关键点不能被检测到,则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。
6.一种基于人工智能的英语发音自检系统,包括处理器和存储器,存储器上存储有用于在处理器上执行的计算机程序;其特征在于,所述处理器执行所述计算机程序时,实现如下基于人工智能的英语发音自检方法:
步骤一:采集人员在各音节标准发音时的面部图像,得到人员在各音节标准发音过程中各面部图像中的关键点序列和检测角序列;
所述面部图像中的关键点包括两个嘴角、上嘴唇顶点、下嘴唇定点和鼻尖;两个嘴角连线的中点与鼻尖点构成参考向量;上嘴唇的顶点和下嘴唇的顶点构成动作向量,所述检测角为参考向量和动作向量的夹角;
步骤二:建立姿态预测神经网络,以人员在标准发音过程中各面部图像的关键点序列为输入,以对应的检测角序列为输出,对姿态预测神经网络进行训练,得到训练后的姿态神经网络;
步骤三:在用户发音过程中采集其面部图像,得到其发音过程中各面部图像的关键点序列,将该关键点序列输入到训练后的姿态神经网络中,得到其检测角序列,将与其相似度最高的检测角序列所对应的音节作为用户所发出的音节。
7.根据权利要求6所述的基于人工智能的用于发音自检系统,其特征在于,获取面部图像中关键点坐标的方法为:
获取发音过程中的面部图像,包括面部的RGB图像和深度图像;
将面部的RGB图像输入到训练后的关键点定位神经网络中,得到面部图像中各关键点的二维坐标;
获取各关键点在深度图像中的深度值,将深度值作为对应关键点的第三轴坐标,将其与对应关键点的二维坐标相结合,得到各关键点的三维坐标。
8.根据权利要求7所述的基于人工智能的用于发音自检系统,其特征在于,获取面部的深度凸显后首先对其进行中值滤波,然后将其转换为灰度图像。
9.根据权利要求6所述的基于人工智能的英语发音自检系统,其特征在于,计算两个检测角相似度的方法为:
比较两个检测角序列中对应时刻检测角度值的相似度;
判断各时刻检测角度值的相似度是否均大于相应的设定相似度,如果大于,则判断为两个检测角序列的相似度最高;
设两个检测角序列中,相同时刻的检测角度值分别为α1和α2,则两者之间的相似度为:P=1-(α1-α2)/α1。
10.根据权利要求6所述的基于人工智能的英语发音自检系统,其特征在于,如果有面部图像中的关键点不能被检测到,则将该面部图像前一时刻和后一时刻面部图像中相应关键点位置的中点该面部图像中的关键点。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826108.1A CN111950480A (zh) | 2020-08-17 | 2020-08-17 | 一种基于人工智能的英语发音自检方法和自检系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010826108.1A CN111950480A (zh) | 2020-08-17 | 2020-08-17 | 一种基于人工智能的英语发音自检方法和自检系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111950480A true CN111950480A (zh) | 2020-11-17 |
Family
ID=73342612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010826108.1A Withdrawn CN111950480A (zh) | 2020-08-17 | 2020-08-17 | 一种基于人工智能的英语发音自检方法和自检系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111950480A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192494A (zh) * | 2021-04-15 | 2021-07-30 | 辽宁石油化工大学 | 一种英语语言智能识别和输出系统和方法 |
CN116012505A (zh) * | 2022-12-29 | 2023-04-25 | 上海师范大学天华学院 | 基于关键点自检测与风格迁徙的发音动画生成方法及系统 |
-
2020
- 2020-08-17 CN CN202010826108.1A patent/CN111950480A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113192494A (zh) * | 2021-04-15 | 2021-07-30 | 辽宁石油化工大学 | 一种英语语言智能识别和输出系统和方法 |
CN116012505A (zh) * | 2022-12-29 | 2023-04-25 | 上海师范大学天华学院 | 基于关键点自检测与风格迁徙的发音动画生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111461176A (zh) | 基于归一化互信息的多模态融合方法、装置、介质及设备 | |
CN111401250A (zh) | 一种基于混合卷积神经网络的中文唇语识别方法及装置 | |
CN107103298A (zh) | 基于图像处理的引体向上计数系统及计数方法 | |
Valliappan et al. | An improved air tissue boundary segmentation technique for real time magnetic resonance imaging video using segnet | |
CN112084927A (zh) | 一种融合多种视觉信息的唇语识别方法 | |
CN111950480A (zh) | 一种基于人工智能的英语发音自检方法和自检系统 | |
CN115810163B (zh) | 一种基于ai课堂行为识别的教学评估方法和系统 | |
CN110110603A (zh) | 一种基于面部生理信息的多模态唇读方法 | |
CN115237255B (zh) | 一种基于眼动和语音的自然图像共指目标定位系统及方法 | |
CN113723264A (zh) | 一种用于辅助钢琴教学的智能识别弹奏错误的方法及系统 | |
CN115188074A (zh) | 一种互动式体育训练测评方法、装置、系统及计算机设备 | |
CN110096987B (zh) | 一种基于双路3dcnn模型的哑语动作识别方法 | |
CN110956142A (zh) | 一种智能交互培训系统 | |
CN114241240A (zh) | 脑部图像的分类方法、装置、电子设备及存储介质 | |
CN117746429A (zh) | 一种基于笔画特征和检测点阈值的汉字硬笔书写评测方法及系统 | |
JP2021086274A (ja) | 読唇装置及び読唇方法 | |
CN111723688A (zh) | 人体动作识别结果的评价方法、装置和电子设备 | |
CN114333063A (zh) | 一种基于人体姿态估计的武术动作纠正方法及装置 | |
CN113642446A (zh) | 一种基于人脸动态情绪识别的检测方法和装置 | |
Li et al. | A novel speech-driven lip-sync model with CNN and LSTM | |
JP6997733B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN112580526A (zh) | 基于视频监控的学生课堂行为识别系统 | |
Ibrahim | A novel lip geometry approach for audio-visual speech recognition | |
CN117671774B (zh) | 一种人脸情绪智能识别分析设备 | |
CN113743388B (zh) | 一种面部au关键点检测的方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20201117 |