CN109697976A

CN109697976A - 一种发音识别方法及装置

Info

Publication number: CN109697976A
Application number: CN201811534881.XA
Authority: CN
Inventors: 佟子健; 张俊博
Original assignee: Beijing Grape Intelligence Technology Co Ltd
Current assignee: Beijing Grape Intelligence Technology Co Ltd
Priority date: 2018-12-14
Filing date: 2018-12-14
Publication date: 2019-04-30
Anticipated expiration: 2038-12-14
Also published as: CN109697976B

Abstract

本发明实施例提供了一种发音识别方法及装置，方法包括：获取包括发音对象的目标视频；通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。本发明实施例获取包括发音对象的目标视频后，通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别，因为识别的过程中第一特征信息和第二特征信息可以互相补充，且同步识别的过程中不会发生对齐错位，因此，本发明实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。

Description

一种发音识别方法及装置

技术领域

本发明涉及音视频处理技术领域，特别是涉及一种发音识别方法及装置。

背景技术

随着网络课堂的普及，远程教学平台得到了较好的发展。例如英语远程教学平台中，可以向学员发布标准音视频发音内容，接收学员的发音内容，并对学员的发音进行评分等。

现有技术中，在识别学员的发音内容时，通常有三种方式，第一种为：只通过语音识别模型对发音内容进行语音识别；第二种为：只通过唇形识别模型对学员的唇形识别确定发音内容；第三种为：先通过语音识别模型对发音内容进行语音识别，再通过唇形识别模型对学员的唇形识别，然后将两种识别的结果进行加权合并，得到识别结果。

然而，申请人在研究中发现：第一种方式中因为一些音符为弱音，没有具体的语音内容，导致语音识别模型不能准确识别；第二种方式中因为一些音符对应的唇形相同，导致唇形识别模型不能准确识别；第三种方式中，在对两者识别结果进行加权合并时，经常会存在对齐错位的现象，导致第三种方式也不能准确识别发音内容。

发明内容

鉴于上述问题，提出了本发明实施例提供一种发音识别方法及装置，以克服现有技术中发音识别不够准确的问题。

根据本发明的第一方面，提供了一种发音识别方法，所述方法包括：

获取包括发音对象的目标视频；

通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。

根据本发明的第二方面，提供了一种发音识别装置，所述装置包括：

目标视频获取模块，用于获取包括发音对象的目标视频；

同步识别模块，用于通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。

根据本发明的第三方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上述任一所述的发音识别方法。

本发明实施例包括以下优点：

本发明实施例中获取包括发音对象的目标视频后，通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别，因为识别的过程中第一特征信息和第二特征信息可以互相补充，且同步识别的过程中不会发生对齐错位，因此，本发明实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1是本发明实施例提供的一种发音识别方法的流程图；

图2是本发明实施例提供的一种发音识别方法的具体流程图；

图3是本发明实施例提供的预设发音识别模型的工作过程示意图；

图4是本发明实施例提供的预设肌肉识别模型的工作过程示意图；

图5是本发明实施例提供的一种识别评测纠正过程示意图；

图6是本发明实施例提供的一种具体发音内容对应示意图；

图7是本发明实施例提供的一种发音识别装置的框图；

图8是本发明实施例提供的一种发音识别装置的具体框图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

应当理解，此处所描述的具体实施例仅用以解释本发明，仅仅是本发明一部分实施例，而不是全部的实施例，并不用于限定本发明。

实施例一

参照图1，示出了一种发音识别方法的流程图。该方法具体可以包括如下步骤：

步骤101：获取包括发音对象的目标视频。

本发明实施例中，目标视频可以是包括发音部位，和该发音部位对应的声音的视频，发音对象可以是目标视频中发出声音的人物，发音部位可以是唇部等。可以理解，本领域技术人员也可以根据实际的应用场景，设定发音对象为其他对象，发音部位为面部肌肉等，本发明实施例对目标视频及发音对象不作具体限定。

在一种具体的应用场景中，需要根据远程教学中学员的发音视频为学员的发音评分或纠错，则可以与学员进行实时通讯，实时获取包括学员面部特征的发音视频，作为目标视频；也可以先由学员将目标视频上传到预设存储位置，然后再从预设存储位置获取目标视频；可以理解，本领域技术人员也可以根据实际应用场景，确定适应的获取包括发音对象的目标视频的方案，本发明实施例对此不作具体限定。

步骤102：通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。

本发明实施例中，预设发音识别模型可以是能对第一特征信息和第二特征信息进行识别的模型，示例的，可以预先采集对应于第一特征信息的第一样本，和对应于第二特征信息的第二样本，通过第一样本和第二样本训练学习得到预设发音识别模型。

具体应用中，第一特征信息和第二特征信息可以是与发音相关的特征信息，通过对第一特征信息，和/或，第二特征信息的分析，可以得到发音对象的具体发音。示例地，第一特征信息可以是语音信息、唇形信息、面部肌肉信息等，第二特征信息也可以是语音信息、唇形信息、面部肌肉信息等，在具体应用中，第一特征信息对应的具体内容和第二特征信息对应的具体内容不重复。

本发明实施例中，通过预设发音识别模型同步识别目标视频的第一特征信息和第二特征信息中，同步识别具体可以是：在对目标视频识别时，既对第一特征信息进行识别，也对第二特征信息进行识别，并对第一特征信息的识别结果和第二特征信息的识别结果进行实时合并，实时得到目标视频发音对象的每个发音。

综上所述，本发明实施例中获取包括发音对象的目标视频后，通过预设发音识别模型对目标视频的第一特征信息和第二特征信息进行同步识别，因为识别的过程中第一特征信息和第二特征信息可以互相补充，且同步识别的过程中不会发生对齐错位，因此，本发明实施例相对于现有技术的三种发音识别方法均能得到更加准确的发音结果。

实施例二

参照图2，示出了一种发音识别方法的具体流程图，具体可以包括如下步骤：

步骤201：根据训练样本训练预设发音识别模型；所述训练样本包括：唇形图像与发音的对应关系、语音内容与发音的对应关系。

本发明实施例中，预设发音识别模型可以包括唇形识别部分和语音识别部分，通过包括唇形图像与发音的对应关系的唇形训练样本，可以用机器学习等方法训练得到唇形识别部分，唇形识别部分作为唇形分类模型，可以在接收到唇形图像时，根据唇形识别出对应的文字、音节、音符等数据；通过包括语音内容与发音的对应关系的语音训练样本，可以训练得到语音识别部分，语音识别部分作为语音分类模型，可以在接收到语音时，根据语音识别出对应的文字、音节、音符等数据。

在一种具体的应用场景中，部分英文发音时只摆出口型而不发出声音，例如t的不完全爆破，单独使用语音识别会漏识或是误识该部分的英文发音，同时当音频信息中包含有杂音等噪声时，单独使用语音识别也受到影响；还有部分英文发音动作唇形(或口型)完全相同而仅有爆破与否的声音区别，例如t和d、p和b、f和v，单独使用唇形识别不能区分此类发音；因此，本发明实施例的预设发音识别模型既包括唇形识别部分又包括语音识别部分，通过唇形识别和语音识别的同步联合识别，可以在唇形识别和语音识别之间进行互相补充，从而能得到准确的识别结果。

示例的，如图3所示，示出了本发明实施例的预设发音识别模型的工作过程示意图。首先获得标准的训练数据：“发音-唇形-音节/音符”三者的对应关系，然后将音节/音符对应到唇形，并查找唇形可以识别的“音节/音符”所属的音符子类，最后使用“唇形图像-音符子类”训练唇形识别部分，使用“标准发音-音节/音符”训练语音识别部分。在对音频数据和唇形图像的识别过程中，使用预设发音识别模型的语音识别部分和唇形识别部分将音频数据和唇形图像同步识别为“音节/音符”和“音符子类”；实际应用中，语音识别能够完成大量的音节/音符识别，唇形识别的音符子类可以用于对语音识别的音节/音符进行同步验证。

其中，音节/音符为基于音频数据的语音识别技术和唇形识别技术的输出数据格式，代表发音者的发音动作，可以音节或音符为单位；音符子类为按照一定规则对“音节/音符”聚类，产生若干子类，每一类为一个或多个“音节/音符”的集合，本发明实施例中将唇形识别技术能识别的“音节/音符”划分为“音符子类”。

步骤202：获取包括发音对象的目标视频。

可以理解，因为本发明实施例获取的不是单纯的音频数据、也不是单纯的唇形图像数据，而是同步的视频数据，目标视频每一帧都包括同步的发音音频数据和唇形图像数据，为本发明实施例的对语音信息和唇形信息的同步识别提供了识别基础。

步骤203：定位所述发音对象的唇部。

本发明实施例中，可以通过人脸识别技术定位发音对象的唇部。人脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术，在用摄像机或摄像头采集含有人脸的图像或视频流后，自动在图像中检测和跟踪人脸，进而对检测到的人脸进行脸部识别。

具体应用中，可以先对发音对象的面部，然后在面部中定位唇部能得到高效准确的定位效果。

步骤204：通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息。

具体应用中，视频可以是多帧图像的组合，在对目标视频进行发音识别时，可通过预设发音识别模型按照目标视频的时间顺序逐帧同步识别该帧目标视频的语音信息和唇形信息，在识别过程中可能存在三种情况，具体如步骤205和步骤206的记载。

步骤205：针对每帧所述目标视频：在所述预设发音识别模型只识别到语音信息的情况下，将所述语音信息的识别结果作为该帧目标视频中所述发音对象的发音结果。

本发明实施例中，在一帧目标视频中，可能存在一些爆破音等，目标对象口型不变，但发出了声音，则预设发音识别模型只识别到语音信息，则可以将语音信息的识别结果作为发音结果。

步骤206：针对每帧所述目标视频：在所述预设发音识别模型只识别到唇形信息的情况下，将所述唇形信息的识别结果作为该帧目标视频中所述发音对象的发音结果。

本发明实施例中，在一帧目标视频中，可能存在一些弱读音或不完全爆破音等，目标对象只摆出口型而不发出声音，则预设发音识别模型只识别到唇形信息，则可以将唇形信息的识别结果作为发音结果。

步骤207：针对每帧所述目标视频：在所述预设发音识别模型识别到语音信息和唇形信息的情况下，将所述唇形信息的识别结果和所述语音信息的识别结果进行加权合并处理，得到该帧目标视频中所述发音对象的发音结果。

本发明实施例中，在一帧目标视频中，若同时识别到语音信息和唇形信息，则可以实时对该帧的唇形信息的识别结果和语音信息的识别结果进行合并处理，得到发音结果。

具体应用中，合并的操作包括但不限于取交集，取并集，按照预设权重设定进行加权计算等。

本发明实施例中，逐帧同步识别目标视频的语音信息和唇形信息，每一帧的识别结果不会发生错位，因此能得到准确的识别结果。

本发明实施例中，在步骤207之后可以包括：根据所述发音结果，确定评测结果，和/或，纠正信息。

具体应用中，可以将发音对象的发音结果与标准发音进行对比，从而得到该发音对象的评测结果，评测结果可以是具体得分等，也可以得到发音对象的纠正信息，纠正信息可以是：发音结果中不标准发音部分所对应的的正确读音，正确口型，正确唇形，正确肌肉运动等，发音对象可以通过评测结果，和/或，纠正信息知晓自己的发音情况及纠正方式。

本发明实施例中，根据所述发音结果，确定评测结果，和/或，纠正信息具体可以通过步骤208至步骤210实现。

步骤208：根据所述发音结果，通过预设肌肉识别模型确定所述发音对象的肌肉运动特征。

本发明实施例中肌肉运动特征可以指用于驱动发音的舌部、口部肌肉运动，脸部肌肉运动等特征，一组肌肉运动特征与一组特定的发音相关联。

示例的，如图4所示，预设肌肉训练模型可以通过“唇形图像-音节/音符-肌肉运动”的对应关系进行训练，在识别到发音结果后，可以通过预设肌肉识别模型识别发音对象的肌肉运动特征。

步骤209：确定所述发音结果对应的预设标准肌肉运动特征。

本发明实施例中，可以在预设的数据库中存储发音与标准肌肉运动特征的对应关系，通过发音结果可以在该库中匹配到对应的预设标注肌肉运动特征。

步骤210：根据所述肌肉运动特征与所述预设标准肌肉运动特征，确定评测结果，和/或，纠正信息。

本发明实施例中，可以比较识别得到的肌肉运动特征与预设标准肌肉运动特征的相似度，相似度越高可以说明发音对象的发音越标准，相似度越低可以说明发音对象的发音越不标准，因此，可以通过识别得到的肌肉运动特征与预设标准肌肉运动特征的相似度确定出目标视频的发音评测结果。即本发明实施例中，按照约定的标准发音，对发音者的发音行为进行测定或测试，以定性或定量的方式予以正确性、准确性等评估。可以理解，评测结果的格式可以为：视频、图像、动画、语音、文字等，评测结果的格式也可以根据纠正对象的网络情况或设置情况等确定，本发明实施例对此不作具体限定。

进一步的，为发音对象提供纠正信息。较佳的，所述纠正信息包括以下至少一种：肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。纠正信息意在给发音者以反馈，帮助其纠正发音；同时，本发明提供发音纠正方法，根据“正确的发音”和“识别出的用户发音”提供纠正方案，以可视化的方案返回给发音者，方便发音者纠正舌部肌肉运动和口型，实现发音纠正。

实际应用中，所述纠正信息的格式包括以下至少一种：视频、图像、动画、语音、文字。可以理解，纠正信息的格式可以根据纠正对象的网络情况或设置情况等确定，本发明实施例对此不作具体限定。

优选地，所述确定评测结果，和/或，纠正信息之后，还包括：

发送所述评测结果，和/或，纠正信息至目标终端；

或，

显示确定评测结果，和/或，纠正信息。

本发明实施例中，在确定出评测结果，和/或，纠正信息后，可以将评测结果，和/或，纠正信息发送到目标终端，目标终端可以是纠正对象所使用的终端。

可以理解，本发明实施例的评测过程也可能在纠正对象的终端进行，则可以显示评测结果，和/或，纠正信息。

参照图5，示出了本发明实施例的包括评测纠正的完整实施方式示意图。左部是语音数据识别、唇形数据识别的流程，将“语音数据”和“唇形图像”同步识别为“音节/音符”，并根据识别出的“音节/音符”对应到肌肉运动。右部是学习过程中的评测和纠正的流程，根据正确发音查找标准读音，使用标准读音对发音者的语音输入进行评测、纠正，并将正确发音对应到唇形及肌肉运动，进而从发音、肌肉运动、唇形三个方面给用户可视、可听的发音测评和纠正建议。

为了更清楚的说明本发明实施例，下面以在英语教学中的朗读跟读练习中的应用为例，详细说明本发明实施例的实现过程。

在朗读跟读练习中，教学元素调度模块选择了一段文本“I bought a cheatbook”，在输出该文本对应的老师的标注朗读后，要求学生朗读。教学元素执行器接收学生的视频输入，进行面部定位，唇部定位；将音频数据和唇形图像语音同步识别，将其转换成机器可理解的状态表示；教学元素调度器根据状态表示，判断学生完成朗读后，计算评估学生的发音，并输出纠正信息。

具体的，按照发音惯例，该语句“I brought a cheat book”中有一处连读“brought-a”和一处弱读“chea(t)”，按照美音音标的该句读法为因为cheat的尾音t弱读，因为单词cheat和cheap的尾音均弱读，整词发音均为从语音信息是无法分辨cheat和cheap的；另外，r的发音[r]没有明显的口型，且通常与其他辅音和元音连读，对于brought和bought，因为二者的发音分别为和没有唇形的明显区别，仅从唇形识别无法区分brought和bought。

本发明实施例中，因为是对语音信息和唇形信息进行同步识别，在唇形识别只得到口形而无从分辨其为brought或bought时，语音识别得到了两个音节时，因此能够分辨出此处发音含有[r]音；相似的，同步识别发音和当唇形识别到口型[t]时，发现语音识别并未有可监听到的发音，于是分辨出此处有弱读，因而知道该词为cheat而非cheap，最终得到正确的结果，具体可以如图6所示。

以上述“I brought a cheat book”为例，若发音对象读出本发明实施例通过语音识别得到了八个音节这时，通过和标准发音比对，首先测定了单词cheat的读音有误，应为(t弱读)而非(t发音)，然后评测整句有弱读错误，最后给出纠正意见——t应该弱读，并以音频、视频、文字、图片等的方式给以纠正提示。

作为一种应用场景，发音对象得到提示后，重新读出时，本发明实施例通过语音识别得到了七个音节这时，通过和标准唇形比对，本发明通过唇形识别得到了六个口型首先测定了单词cheat的弱读口型有误——t虽然弱读但是应该做出发音口型(不发音)，然后评价整句有弱读的口型错误，最后给出纠正意见——t虽不发音，但仍应该做好发音t的口型，稍做停顿后即发后面的[b]音，并以语音、视频、文字、图片等的方式给以纠正提示。

发音对象再次得到提示后，重新读出时，本发明实施例通过语音识别得到了七个音节这时，通过和标准发音比对，首先测定了单词book的读音有误——oo应读作而非然后评价整句发音有元音错误。进而，本发明实施例通过查找标准口型和肌肉运动，以文字、图像和视频等的方式给出正确的口型和肌肉运动的纠正示例——发时，唇舌和牙床都很自然，肌肉一点也不紧张。发此音时，牙床半开，舌身平放，双唇扁平舌中部略隆起。

发音对象再次得到提示后，重新读出时，本发明实施例通过语音识别和唇形识别，均测试通过，评价发音和口型无误，无纠正意见。

可以理解，本发明实施例还可以应用于考试、面试、测试、人脸识别等场景中，本发明实施例对具体的应用场景不做限定。

需要说明的是，对于方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明实施例并不受所描述的动作顺序的限制，因为依据本发明实施例，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作并不一定是本发明实施例所必须的。

实施例三

参照图7，示出了一种发音识别装置的框图，该装置具体可以包括：

目标视频获取模块710，用于获取包括发音对象的目标视频；

同步识别模块720，用于通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果。

优选地，参照图8，在图7的基础上，所述装置中，

所述第一特征信息包括语音信息，所述第二特征信息包括唇形信息。

所述同步识别模块720包括：

同步识别子模块7201，用于通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息；

发音结果得到子模块7202，用于针对每帧所述目标视频：

在所述预设发音识别模型只识别到语音信息的情况下，将所述语音信息的识别结果作为该帧目标视频中所述发音对象的发音结果；

在所述预设发音识别模型只识别到唇形信息的情况下，将所述唇形信息的识别结果作为该帧目标视频中所述发音对象的发音结果；

在所述预设发音识别模型识别到语音信息和唇形信息的情况下，将所述唇形信息的识别结果和所述语音信息的识别结果进行合并处理，得到该帧目标视频中所述发音对象的发音结果。

所述装置还包括：

定位模块730，用于定位所述发音对象的唇部。

结果确定模块740，根据所述发音结果，确定评测结果，和/或，纠正信息。

优选地，所述结果确定模块740包括：

肌肉运动特征确定子模块7401，用于根据所述发音结果，通过预设肌肉识别模型确定所述发音对象的肌肉运动特征；

预设标准肌肉运动特征确定子模块7402，用于确定所述发音结果对应的预设标准肌肉运动特征；

结果确定子模块7403，用于根据所述肌肉运动特征与所述预设标准肌肉运动特征，确定评测结果，和/或，纠正信息。

所述纠正信息包括以下至少一种：肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。

所述纠正信息的格式包括以下至少一种：视频、图像、动画、语音、文字。

所述装置还包括：

发送模块，用于发送所述评测结果，和/或，纠正信息至目标终端；

或，

显示模块，用于显示确定评测结果，和/或，纠正信息。

训练模块770，用于根据训练样本训练预设发音识别模型；所述训练样本包括：唇形图像与发音的对应关系、语音内容与发音的对应关系。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程发音识别终端设备的处理器以产生一个机器，使得通过计算机或其他可编程发音识别终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

尽管已描述了本发明实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本发明所提供的一种发音识别方法和一种发音识别装置，进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种发音识别方法，其特征在于，所述方法包括：

获取包括发音对象的目标视频；

2.根据权利要求1所述的方法，其特征在于，所述第一特征信息包括语音信息，所述第二特征信息包括唇形信息。

3.根据权利要求1或2所述的方法，其特征在于，所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果，包括：

通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息；

针对每帧所述目标视频：

4.根据权利要求3所述的方法，其特征在于，所述通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息之前，还包括：

定位所述发音对象的唇部。

5.根据权利要求1所述的方法，其特征在于，所述通过预设发音识别模型同步识别所述目标视频的第一特征信息和第二特征信息，得到所述发音对象的发音结果之后，还包括：

根据所述发音结果，确定评测结果，和/或，纠正信息；

发送所述评测结果，和/或，纠正信息至目标终端；

或，

显示确定评测结果，和/或，纠正信息。

6.根据权利要求5所述的方法，其特征在于，所述根据所述发音结果，确定评测结果，和/或，纠正信息，包括：

根据所述发音结果，通过预设肌肉识别模型确定所述发音对象的肌肉运动特征；

确定所述发音结果对应的预设标准肌肉运动特征；

根据所述肌肉运动特征与所述预设标准肌肉运动特征，确定评测结果，和/或，纠正信息。

7.根据权利要求6所述的方法，其特征在于，所述纠正信息包括以下至少一种：肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。

8.根据权利要求5或6或7所述的方法，其特征在于，所述纠正信息的格式包括以下至少一种：视频、图像、动画、语音、文字。

9.根据权利要求2所述的方法，其特征在于，所述获取包括发音对象的目标视频之前，还包括：

根据训练样本训练预设发音识别模型；所述训练样本包括：唇形图像与发音的对应关系、语音内容与发音的对应关系。

10.一种发音识别装置，其特征在于，所述装置包括：

目标视频获取模块，用于获取包括发音对象的目标视频；

11.根据权利要求10所述的装置，其特征在于，所述第一特征信息包括语音信息，所述第二特征信息包括唇形信息。

12.根据权利要求10或11所述的装置，其特征在于，所述同步识别模块包括：

同步识别子模块，用于通过所述预设发音识别模型逐帧识别所述目标视频的语音信息和唇形信息；

发音结果得到子模块，用于针对每帧所述目标视频：

13.根据权利要求12所述的装置，其特征在于，还包括：

定位模块，用于定位所述发音对象的唇部。

14.根据权利要求10所述的装置，其特征在于，还包括：

结果确定模块，根据所述发音结果，确定评测结果，和/或，纠正信息；

或，

显示模块，用于显示确定评测结果，和/或，纠正信息。

15.根据权利要求14所述的装置，其特征在于，所述结果确定模块包括：

肌肉运动特征确定子模块，用于根据所述发音结果，通过预设肌肉识别模型确定所述发音对象的肌肉运动特征；

预设标准肌肉运动特征确定子模块，用于确定所述发音结果对应的预设标准肌肉运动特征；

结果确定子模块，用于根据所述肌肉运动特征与所述预设标准肌肉运动特征，确定评测结果，和/或，纠正信息。

16.根据权利要求15所述的装置，其特征在于，所述纠正信息包括以下至少一种：肌肉运动纠正信息、唇形纠正信息、发音长短纠正信息、发音轻重纠正信息。

17.根据权利要求14或15或16所述的装置，其特征在于，所述纠正信息的格式包括以下至少一种：视频、图像、动画、语音、文字。

18.根据权利要求11所述的装置，其特征在于，还包括：

训练模块，用于根据训练样本训练预设发音识别模型；所述训练样本包括：唇形图像与发音的对应关系、语音内容与发音的对应关系。