CN113792591A

CN113792591A - 音画同步的检测方法、装置、电子设备及存储介质

Info

Publication number: CN113792591A
Application number: CN202110908928.XA
Authority: CN
Inventors: 潘晟锋; 陆昱; 常向月; 文博
Original assignee: Shenzhen Zhuiyi Technology Co Ltd
Current assignee: Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-12-14

Abstract

本申请公开了一种音画同步的检测方法、装置、电子设备及存储介质，涉及视频处理技术领域。该方法包括：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；获取视频中与第T帧视频图像对应的音频帧的音频特征；将图像特征点以及音频特征输入至预先训练的打分模型，得到目标相似分数，目标相似分数用于表征视频图像与音频帧之间的对应程度；若基于目标相似分数判定视频满足预设错位条件，确定视频图像和对应的视频图像不同步，并输出用于表征视频中视频图像与对应的音频帧不同步的结果。如此，由于是通过提取视频图像中人脸区域的图像特征点的方式，并基于提取的图像特征点输入模型中，减少了图像质量对目标相似分数的影响，提高了判断视频图像和对应的音频帧是否同步的准确性。

Description

音画同步的检测方法、装置、电子设备及存储介质

技术领域

本申请涉及视频处理技术领域，更具体地，涉及一种音画同步的检测方法、装置、电子设备及存储介质。

背景技术

数字虚拟人(Digital Human)是通过虚拟现实技术，结合人机交互，高精度三维人像模拟、AI以及动作捕捉、面部表情捕捉等技术制作的拟真三维人。其中面部表情和说话时的嘴型动作的制作是数字虚拟人表现的重点和难点，数字虚拟人说话时嘴型动作与说话的语音是否同步是数字虚拟人看起来是否逼真的重要判断依据，若数字虚拟人的嘴型动作和说话的语音不同步，则会降低用户体验。

因此，检测视频中数字虚拟人的嘴型动作与说话的语音是否同步在生成数字虚拟人的方案中尤为重要。而在相关技术中，一般是直接将音频和嘴型图像输入至预先训练的模型中，来判断嘴型与说话语音是否同步，但是基于嘴型图像训练好的模型易受嘴型图像质量影响，如光照等因素的影响，从而导致判断嘴型与说话语音是否同步的结果不准确的问题。

发明内容

有鉴于此，本申请提出了一种音画同步的检测方法、装置、电子设备及存储介质。

第一方面，本申请实施例提供了一种音画同步的检测方法，所述方法包括：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征；将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度；若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

第二方面，本申请实施例提供了一种音画同步的检测装置，所述装置包括：图像特征获取模块、音频特征获取模块、分数获取模块以及判定模块。图像特征获取模块，用于获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；音频特征获取模块，用于获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征；分数获取模块，用于将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度；判定模块，用于若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

第三方面，本申请实施例提供了一种电子设备，包括：一个或多个处理器；存储器；一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行第一方面提供的音画同步的检测方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行第一方面提供的音画同步的检测方法。

本申请提供的方案中，获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；获取视频中与第T帧视频图像对应的音频帧的音频特征；将图像特征点以及音频特征输入至预先训练的打分模型，得到目标相似分数，目标相似分数用于表征视频图像与音频帧之间的对应程度；若基于目标相似分数判定视频满足预设错位条件，则确定视频图像和对应的视频图像不同步，并输出用于表征视频中视频图像与对应的音频帧不同步的结果。如此，将人脸区域的图像特征点与对应的音频特征输入至预先训练的打分模型，再基于得到的目标相似分数，来判断视频图像和对应的音频帧是否同步。其中，由于是通过提取视频图像中人脸区域的图像特征点的方式，并基于提取的图像特征点输入模型中，可以减少图像质量对目标相似分数的影响，提高了判断视频图像和对应的音频帧是否同步的准确性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请一实施例提供的音画同步的检测方法的流程示意图。

图2示出了本申请另一实施例提供的音画同步的检测方法的流程示意图。

图3示出了本申请又一实施例提供的音画同步的检测方法的流程示意图。

图4示出了图3中所示步骤S380在一种实施方式中的子步骤流程示意图。

图5示出了本申请再一实施例提供的音画同步的检测方法的流程示意图。

图6示出了本申请一实施例提供的视频画面的相似得分的示意图。

图7示出了本申请另一实施例提供的视频画面的相似得分的示意图。

图8示出了本申请再又一实施例提供的音画同步的检测方法的流程示意图。

图9示出了本申请又一实施例提供的视频画面的相似得分的示意图。

图10示出了本申请再一实施例提供的视频画面的相似得分的示意图。

图11示出了本申请又再一实施例提供的音画同步的检测方法的流程示意图。

图12示出了本申请一实施例提供的人脸区域特征点的示意图。

图13示出了本申请一实施例提供的人脸区域的可视化示意图。

图14示出了本申请又另一实施例提供的音画同步的检测方法的流程示意图。

图15是根据本申请另一实施例提供的一种音画同步的检测装置的框图。

图16是本申请实施例的用于执行根据本申请实施例的音画同步的检测方法的电子设备的框图。

图17是本申请实施例的用于保存或者携带实现根据本申请实施例的音画同步的检测方法的程序代码的存储单元。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

针对上述问题，发明人提出一种音画同步的检测方法、装置、电子设备及存储介质，可以将人脸区域的图像特征点与对应的音频特征输入至预先训练的打分模型，再基于得到的目标相似分数，来判断视频图像和对应的音频帧是否同步。下面对该内容进行详细描述。

请参照图1，图1为本申请一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图1对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S110：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

在本实施例中，上述视频可以是生成的包含数字仿真人的视频，也可以其他拍摄得到的视频或者网络上下载的视频，本实施例对此不作限制。在获取视频中第T帧视频图像中人脸区域的图像特征点之前，可以先将视频的格式设置为预设格式，以及将视频的帧率调整至预设帧率，其中，预设格式可以是动态图像专家组(Moving Picture Experts Group4，mp4)格式，预设帧率可以是25画面每秒传输帧数(Frame Per Second，FPS)，当然，也可以根据不同的应用场景对预设格式以及预设帧率进行调整，例如，若想要得到视频中时间细粒度的打分,则可以将预设帧率设置为第一预设帧率，即将预设帧率设置得较大；若仅想得到一整段视频的打分,预设帧率对打分的结果影响不大，则可以将预设帧率设置为第二预设帧率，即将预设帧率设置得较小，其中，第二预设帧率小于第一预设帧率，本实施例对此不作限制。

可选地，在对视频的格式以及帧率进行调整后，可以通过判断视频中每帧视频图像是否与对应的音频帧对齐，进而来判断该视频的音画是否对齐。基于此，可以获取先提取出视频中的每帧视频图像，并将每帧视频图像存储于于视频名称对应的文件夹中，并且以视频图像的帧的序号作为该视频图像的命名，例如，第T帧的视频图像则以T.jpg的名称进行保存。进一步地，在将视频中的每帧视频图像提取出来后，可以获取每帧视频图像中人脸区域的图像特征点。具体地，以获取视频中第T帧视频图像中人脸区域的图像特征点为例，可以先通过开源软件(如：Dlib)对第T帧视频图像进行人脸检测，若检测到第T帧视频图像中不存在人脸，则判定该帧视频图像不符合要求，将其删除；若检测到第T帧视频图像中包含人脸，则将该帧视频图像保存，进一步基于开源软件检测人脸关键点,并获取每个人脸区域上指定数量的的图像特征点，其中，指定数量可以是根据开源软件中不同的特征点提取算法对特征点的数量要求设置，本实施例对此不作限制。

步骤S120：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

在获取到第T帧视频图像中人脸区域的图像特征点的同时，可以获取第T帧视频图像对应的音频特征。具体地，可以从上述视频中提取出对应的音频，并将该音频以预设采样率、预设存储格式进行存储，其中，预设采样率可以是预先设置的，如16000赫兹，也可以根据不同的应用场景进行调整；预设存储格式也可以是预先设置的，如波形声音文件(WAV)格式，也可以根据不同的应用场景进行调整，本实施例对此不作限制。进一步地，可以从提取出来的音频中获取与第T帧视频图像对应的音频帧，并提取出该音频帧的音频特征，其中，音频特征可以为频谱特征。

步骤S130：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

基于此，在获取到第T帧视频图像中人脸区域的图像特征点以及对应的音频特征后，可以将图像特征点以及音频特征输入至预先训练的打分模型，得到目标相似分数，该目标相似分数可以表征视频图像与音频帧之间的对应程度。其中，目标相似分数与视频图像与音频帧之间的对应程度呈正相关，也就是说，目标相似分数越高，代表视频图像与音频帧之间的错位程度越小，目标相似分数越低，代表视频图像与音频帧之间的错位程度越大。

在一些实施方式中，可以将视频划分为多段子视频，再将一段子视频作为一个预测打分单位，即针对每段子视频，将该段子视频中的每帧视频图像以及对应的音频帧输入至预设打分模型中，得到对应的目标相似分数。其中，可以按照预设时长进行子视频的划分，其中预设时长可以是预先设置的，如200毫秒，也可以根据不同的应用场景进行调整，本实施例对此不作限制。

步骤S140：若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在本实施例中，可以在获取到目标相似分数后，基于目标相似分数判断视频是否满足预设错位条件，具体地，可以判断目标相似分数是否小于预设阈值，若小于预设阈值，则判定视频满足预设错位条件，即可确定视频图像和对应的音频帧不同步；并且输出用于表征视频中视频图像与对应的音频帧不同步的结果，其中，不同步的结果可以包括视频图像与对应的音频帧的错位方向以及错位时间。

在一些实施方式中，电子设备可以通过较为成熟的开源软件(如Dlib)进行视频图像中人脸区域的图像特征点提取，由于开源软件一般是通过大量标注数据训练的,对光照等影响图像质量的因素有一定鲁棒性，也就是说即使在视频图像的质量较差时，也可以通过开源软件提取出质量较好的图像特征点，并将该图像特征点与对应的音频特征输入至预先训练的打分模型，得到目标相似分数，再基于目标相似分数判断视频中视频图像与对应的音频帧是否同步。如此，减少了图像质量对目标相似分数的影响，进而提高了判断视频图像和对应的音频帧是否同步的准确性。

本实施例中，由于是通过提取视频图像中人脸区域的图像特征点的方式，并基于提取的图像特征点输入模型中，可以减少图像质量对目标相似分数的影响，提高了判断视频图像和对应的音频帧是否同步的准确性。

请参照图2，图2为本申请另一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图2对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S210：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

步骤S220：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

步骤S230：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

在本申请实施例中，步骤S210-步骤S230可以参阅前述实施例中的内容，在此不再赘述。

步骤S240：判断所述目标相似分数是否小于第一预设阈值。

步骤S250：若所述目标相似分数小于所述第一预设阈值，判定所述视频满足所述预设错位条件。

在本实施例中，在理想情况下，若视频图像与对应的音频帧同步，目标相似分数应该为满分，其中满分可以是预先设置的，例如，满分为1，当视频图像与对应的音频帧同步时，通过预先训练的打分模型得到的目标相似分数应该也为1。但是，在实际应用中，由于音频帧中会存在噪音或者部分失真等情况，即使是视频图像与对应的音频帧完全同步，通过预先训练的打分模型得到的目标相似分数也是小于满分的，基于此，第一预设阈值可以根据视频图像与对应的音频帧完全同步时的历史相似分数统计得到，如0.7，本实施例对此不作限制。在获取到目标相似分数后，可以判断目标相似分数是否小于第一预设阈值，若目标相似分数小于第一预设阈值，判定视频满足所述预设错位条件，代表视频图像和对应的音频帧不同步。

步骤S260：确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在本申请实施例中，步骤S260可以参阅前述实施例中的内容，在此不再赘述。

步骤S270：若所述目标相似分数大于或等于所述第一预设阈值，则判定所述视频不满足预设错位条件。

在一些实施方式中，当判定目标相似分数大于或等于第一预设阈值，则判定视频不满足预设错位条件，代表视频图像和对应的音频帧同步，不存在错位的情况。进一步地，也可以输出用于表征视频中视频图像与对应的音频帧同步的结果。

在本实施例中，通过将图像特征点与对应的音频特征输入至预先训练的打分模型得到目标相似分数，与根据视频图像与对应的音频帧完全同步时的历史相似分数统计得来的第一预设阈值进行比对，再基于比对结果，判断视频图像和对应的音频帧是否同步，也进一步提高了判断视频图像和对应的音频帧是否同步的准确性。

请参照图3，图3为本申请又一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图3对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S310：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

步骤S320：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

步骤S330：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

在本申请实施例中，步骤S310-步骤S330可以参阅前述实施例中的内容，在此不再赘述。

步骤S340：分别获取所述视频中在所述第T帧视频图像之前相邻的K帧视频图像，所述第T帧视频图像之后相邻的，K以及L为小于T的正整数。

在本实施例中，判断视频中第T帧视频图像与对应的音频帧是否错位，还可以结合第T帧视频图像之前相邻的K帧视频图像，以及第T帧视频图像之后相邻的L帧视频图像来判断，以提高判断视频图像与对应的音频帧是否错位的准确性。基于此，可以获取视频中在第T帧视频图像之前相邻的K帧视频图像，以及第T帧视频图像之后相邻的L帧视频图像，其中，K和L的数值可以相同，也可以不同，本实施例对此不作限制；以及K和L均为小于T的正整数。

步骤S350：获取所述K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征，以及所述L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征。

可选地，在获取到K帧视频图像以及K帧视频图像之后，可以进一步获取K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征；以及，获取L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征。

步骤S360：将所述第T帧视频图像中人脸区域的图像特征点分别与所述K个前序音频特征中的每个前序音频特征输入至所述打分模型，得到K个相似分数作为K个前序相似分数。

步骤S370：将所述第T帧视频图像中人脸区域的图像特征点与所述L个后序音频特征中的每个音频特征输入至所述打分模型，得到L个相似分数作为L个后序相似分数。

进一步地，在获取到K个前序音频特征以及L个后序音频特征之后，可以将第T帧视频图像中人脸区域的图像特征点分别与K个前序音频特征中的每个前序音频特征输入至打分模型，得到K个相似分数作为K个前序相似分数。可以理解地，K个前序相似分数可以表征在第T帧视频图像之前相邻的K帧视频图像与第T帧视频图像对应的音频帧之间的对应程度；同时，也将第T帧视频图像中人脸区域的图像特征点分别与L个后序音频特征中的每个后序音频特征输入至打分模型，得到L个相似分数作为L个后序相似分数。可以理解地，L个后序相似分数可以表征在第T帧视频图像之后相邻的L帧视频图像与第T帧视频图像对应的音频帧之间的对应程度。

步骤S380：基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件。

基于此，在获取到K个前序相似分数以及L个后序相似分数后，可以根据目标相似分数、K个前序相似分数以及L个后序相似分数，相对判断视频是否满足预设错位条件。

在一些实施方式中，请参阅图4，步骤S380具体可以包括以下步骤：

步骤S381：判断所述K个前序相似分数以及所述L个后序相似分数中的是否存在大于所述目标相似分数的相似分数。

步骤S382：若存在，判定所述视频满足所述预设错位条件。

步骤S383：若不存在，判定所述视频不满足所述预设错位条件。

在实际应用中，当视频图像与对应的音频帧完全同步时，通过预先训练的打分模型得到的目标相似分数是最大的，因此，可以判断在K个前序相似分数以及L个后序相似分数中的是否存在大于目标相似分数的相似分数，若存在，则代表视频中第T帧视频图像与其他帧的音频帧对应的相似分数最大，也就是说，第T帧视频图像与对应的音频帧并未完全同步，存在错位，进而可以判定视频满足预设错位条件；若不存在，则代表目标相似分数是最大的，进而判定在视频中第T帧视频图像与对应的音频帧完全同步，即视频不满足预设错位条件。

步骤S390：若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述视频图像不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在本申请实施例中，步骤S390可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，通过获取第T帧视频图像与K个前序音频特征的K个前序相似分数，以及与L个后序音频特征的L个后序相似分数，再将K个前序相似分数、L个后序相似分数以及目标相似分数进行比较，判断视频中视频图像与对应的音频帧是否同步。即通过将第T帧视频图像与对应的音频帧以及前后相邻的多帧音频帧进行打分，基于多个相似分数，进行综合判断第T帧视频图像与对应的音频帧是否同步，如此，可以进一步提高判断的准确性。

请参照图5，图5为本申请再一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图5对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S401：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

步骤S402：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

步骤S403：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

步骤S404：分别获取所述视频中在所述第T帧视频图像之前相邻的K帧视频图像，所述第T帧视频图像之后相邻的L帧视频图像，K以及L为小于T的正整数。

步骤S405：获取所述K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征，以及所述L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征。

步骤S406：将所述第T帧视频图像中人脸区域的图像特征点分别与所述K个前序音频特征中的每个前序音频特征输入至所述打分模型，得到K个相似分数作为K个前序相似分数。

步骤S407：将所述第T帧视频图像中人脸区域的图像特征点与所述L个后序音频特征中的每个音频特征输入至所述打分模型，得到L个相似分数作为L个后序相似分数。

步骤S408：基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件。

在本申请实施例中，步骤S401-步骤S408可以参阅前述实施例中的内容，在此不再赘述。

步骤S409：若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，获取所述K个前序相似分数以及所述L个后序相似分数中大于所述目标相似分数的最大相似分数对应的视频图像的帧数。

步骤S410：获取所述T与所述帧数的差值的绝对值，作为错位帧数。

步骤S411：获取所述错位帧数与预设帧率的比值，作为所述错位时间。

在本实施例中，当基于目标相似分数判定视频满足预设错位条件，并确定视频图像和对应的音频帧不同步时，可以进一步获取不同步的结果，并将不同步的结果进行输出。具体地，K个前序相似分数以及L个后序相似分数中可能存在多个大于目标相似分数的相似分数，因此，需要获取到其中大于目标相似分数的中的最大相似分数对应的视频图像，最大相似分数对应的视频图像与第T帧视频图像对应的音频帧才是完全同步对齐的，基于此，可以获取最大相似分数对应的视频图像的帧数。由于该帧数可以小于T，也可以大于T，为保证获取到的错位帧数为正整数，因此，可以获取T与帧数的差值的绝对值，作为错位帧数；进一步地，获取该错位帧数与预设帧率的比值，即可得到错位时间。

示例性地，预设帧率为25帧/秒，T为80，若获取到的最大相似分数对应的视频图像的帧数为180，获取到的T与该帧数的差值的绝对值为100，即错位帧数为100帧，进而可以获取到错位帧数与预设帧率的比值为4，即错位时间为4秒。

可选地，在获取到了错位时间后，可以进一步获取视频图像相对音频帧的错位方向。

在一些实施方式中，可以判断最大相似分数对应的视频图像的帧数是否小于T，若该帧数小于T，判定错位方向为视频图像相较于对应的音频帧向后错位。如图6所示，坐标轴中的横轴t代表视频图像的帧数，纵坐标代表相似分数，第T-1帧对应最大相似分数，并且T-1小于T，由此可见，此时视频的错位方向为该视频的视频图像相较于对应的音频帧向后错位。

若该帧数大于T，判定错位方向为视频图像相较于对应的音频帧向前错位。如图7所示，坐标轴中的横轴t代表视频图像的帧数，纵坐标代表相似分数，第T+1帧对应最大相似分数，并且T+1大于T，由此可见，此时视频的错位方向为该视频的视频图像相较于对应的音频帧向前错位。

步骤S412：输出用于表征所述视频中视频图像与对应的音频帧不同步的结果，所述不同步的结果包括错位时间以及错位方向。

基于此，在获取到错位时间以及错位方向后，可以输出该视频图像与对应的音频帧之间的错位时间以及错位方向。

在本实施例中，在确定视频图像与对应的音频帧存在错位的前提下，可以通过获取K个前序相似分数和L个后序相似分数中大于目标相似分数中的最大相似分数对应的视频图像的帧数，并基于该帧数确定视频图像相较于对应的音频帧的错位时间以及错位方向，最后将该视频中视频图像与对应的音频帧之间的错位时间以及错位方向作为不同步的结果输出。如此，可以便于用户查看该视频的错位程度，并且用户可以根据错位时间以及错位方向对该视频的视频图像以及音频帧进行对应调整，以使视频图像与其对应的音频帧完全同步。

请参照图8，图8为本申请再又一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图8对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S501：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

步骤S502：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

步骤S503：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

步骤S504：分别获取所述视频中在所述第T帧视频图像之前相邻的K帧视频图像，所述第T帧视频图像之后相邻的L帧视频图像，K以及L为小于T的正整数。

步骤S505：获取所述K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征，以及所述L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征。

步骤S506：将所述第T帧视频图像中人脸区域的图像特征点分别与所述K个前序音频特征中的每个前序音频特征输入至所述打分模型，得到K个相似分数作为K个前序相似分数。

步骤S507：将所述第T帧视频图像中人脸区域的图像特征点与所述L个后序音频特征中的每个音频特征输入至所述打分模型，得到L个相似分数作为L个后序相似分数。

步骤S508：基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件。

在本申请实施例中，步骤S501-步骤S508可以参阅前述实施例中的内容，在此不再赘述。

步骤S509：若判定所述视频不满足所述预设错位条件，判断所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数是否均小于第二预设阈值。

步骤S510：若均小于所述第二预设阈值，输出用于表征所述视频中视频图像与对应的音频帧无关的结果。

在判定视频不满足预设错位条件，即确定视频图像与对应的音频帧并未错位时，可能是视频图像与对应的音频帧完全无关，也可能是视频图像对应的音频帧完全同步。因此，还可以对视频图像以及与其对应的音频帧的对应情况进行进一步地判断。具体的，可以判断目标相似分数、K个前序相似分数以及L个后序相似分数是否均小于第二预设阈值，若均小于第二预设阈值，则可以判定视频图像与多个音频帧均无关，进而可以判定该视频中视频图像与音频帧不相关。其中，第二预设阈值可以是预先设置的，如0.1,也可以是根据视频中视频图像与音频帧无关的历史相似分数统计得到，第二预设阈值一般为趋近于0的数值。如图9所示，坐标轴中的横轴t代表视频图像的帧数，纵坐标代表相似分数，从第T-K帧至第T+L帧中的每一帧对应的相似分数都小于第二预设阈值，由此可见，此时该视频的视频图像与对应的音频帧完全无关。

在一些实施方式中，在判定所述视频不满足所述预设错位条件后，即在目标相似分数均大于L个后序相似分数以及K个前序相似分数中的任一个相似分数时，可以进一步判断K个前序相似分数是否随着帧数的减小依次递减，且L个后序相似分数是否随着帧数的增大依次递减；若判定所述K个前序相似分数随着帧数的减小依次递减，且所述L个后序相似分数随着帧数的增大依次递减，则确定该视频的视频图像与对应的音频帧完全同步，并输出用于表征所述视频中视频图像与对应的音频帧同步的结果。如图10所示，坐标轴中的横轴t代表视频图像的帧数，纵坐标代表相似分数，第T帧视频图像与对应的音频帧的目标相似分数是最大的，以及在第T帧至第T-K帧视频图像对应的前序相似分数随着帧数的减小依次递减，并且在第T帧至第T+L帧视频图像对应的后序相似分数随着帧数的增大也依次递减的，因此，可以确定该视频的视频图像与其音频帧完全同步。

在本实施例中，通过将第T帧视频图像与对应的音频帧以及前后相邻的多帧音频帧进行打分，基于多个相似分数，进行综合判断第T帧视频图像与对应的音频帧是否同步，如此，可以进一步提高判断的准确性。并且由于是通过提取视频图像中人脸区域的图像特征点的方式，并基于提取的图像特征点输入模型中，可以减少图像质量对目标相似分数的影响，提高了判断视频图像和对应的音频帧是否同步的准确性。

请参照图11，图11为本申请又再一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图11对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S610：获取视频中第T帧视频图像中人脸区域中的左眼区域以及右眼区域的特征点的位置信息。

步骤S620：基于所述左眼区域以及右眼区域的特征点的位置信息，确定所述左眼区域以及所述右眼区域的中心点的位置信息，以及所述左眼区域与所述右眼区域之间的双眼距离。

在本实施例中，可以通过开源软件从第第T帧视频图像中提取出指定数量的特征点，如图12所示，一共提取出68个关键点，基于此，可以从指定数量中获取到左眼区域以及右眼区域的特征点的位置信息，其中，位置信息可以为特征点的坐标信息。进一步地，根据左眼区域的特征点的坐标信息，确定左眼区域的左眼中心点的坐标信息，根据右眼区域的特征点的坐标信息，确定右眼区域的右眼中心点的坐标信息；再基于左眼中心点的坐标信息以及右眼中心点的坐标信息，确定左眼与右眼之间的双眼距离以及中心点的坐标信息。仍以图12为例，左眼区域的特征点可以包括特征点37～40，右眼区域的特征点可以包括特征点43～48，基于特征点37～40的坐标信息可以确定，左眼中心点的坐标信息为(x1,y1)，基于特征点43～48的坐标信息可以确定，右眼中心点的坐标信息为(x2,y2)，以及根据左眼中心点以及右眼中心点的坐标信息，确定中心点的坐标信息为(x3,y3)，并且可以通过两点间的距离计算公式计算出双眼距离L。

步骤S630：基于所述中心点的位置信息以及所述双眼距离，将嘴部区域以及脸部轮廓区域的特征点的位置信息进行预设转换。

基于此，可以从脸部区域中指定数量的特征点中提取出嘴部区域的特征点，如图12中的特征点49～68，以及脸部轮廓区域的特征点，如图12中的特征点1～17，并将上述特征点作为关键点集合。再基于中心点的坐标信息以及双眼距离，对嘴部区域以及脸部轮廓区域的特征点的位置信息进行预设转换，即将嘴部区域以及脸部轮廓区域的特征点的坐标信息都转换为相对于脸部中心点的坐标信息。具体地，可以将关键点集合中的每个特征点的横坐标减去中心点的坐标，以及将每个特征点的纵坐标减去中心点的纵坐标，基于此，再将每个特征点的横纵坐标都缩小双眼距离倍，以关键点集合中任一特征点P为例，预设转换可以表达为公式：(P-(x3,y3))/L。如此，通过将关键点集合中的特征点进行预设转换，即基于中心点的坐标信息，以双眼距离为度量，统一进行预设转换，可以将不同人脸上的关键点统一到一个度量下,即减少人脸差异带来的影响，提高后续根据特征点进行相似打分的准确性，进而提高了判断音画是否同步的准确性。

可选地，在对嘴部区域以及脸部轮廓区域的特征点的位置信息进行预设转换后，还可以对其进行可视化，以展示处理后的数据，经过预设转换后的嘴部区域以及脸部轮廓区域的特征点的可视化的示意图如图13所示。

步骤S640：将预设转换后的所述嘴部区域以及所述脸部轮廓区域的特征点作为所述人脸区域的图像特征点。

步骤S650：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

在本申请实施例中，步骤S650可以参阅前述实施例中的内容，在此不再赘述。

步骤S660：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

在本实施例中，可以获取用于表征人脸区域的图像特征点的一维图像特征向量，再获取与第T帧视频图像对应的音频帧的音频特征对应的一维音频特征向量，将一维图像特征向量以及一维音频特征向量输入至预先训练的打分模型，即可得到目标相似分数。在实际应用中，图像特征点对应的图像特征向量与音频帧的音频特征向量均为二维特征向量，可以通过网络处理将二位特征向量转变为一维特征向量，如此，可以方便计算向量间的相似度。

步骤S670：若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述视频图像不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在本申请实施例中，步骤S670可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，仅将脸部区域中嘴部区域以及脸部轮廓区域的特征点输入至预先训练的打分模型，可以提高打分模型的运算效率；并且，在将嘴部区域以及脸部轮廓区域的特征点输入至打分模型之前，还对其进行统一的预设转换，将不同人脸上的关键点统一到一个度量下,减少了人脸差异带来的影响，提高后续根据特征点进行相似打分的准确性，进而提高了判断音画是否同步的准确性。

请参照图14，图14为本申请又另一实施例提供的一种音画同步的检测方法的流程示意图。下面将结合图14对本申请实施例提供的音画同步的检测方法进行详细阐述。该音画同步的检测方法可以包括以下步骤：

步骤S710：从画面与音频同步的样本视频中获取M帧视频图像以及所述M帧视频图像中每帧视频图像对应的音频帧，作为正样本数据，所述M为正整数。

在本实施例中，可以从画面与音频同步的样本视频中获取M帧视频图像对应的图像特征点以及M帧视频图像中每帧视频图像对应的音频帧，作为正样本数据，其中，M为正整数，获取的方式可以是随机获取M帧视频图像对应的图像特征点以及M帧视频图像中每帧视频图像对应的音频帧，也可以是随机抽取连续的M帧视频图像对应的图像特征点以及M帧视频图像中每帧视频图像对应的音频帧，本实施例对此不作限制。正样本数据对应的标签为1，可以理解为正样本数据中视频图像与对应的音频帧之间完全对其，因此，相似分数为1。

步骤S720：从所述样本视频中获取N帧视频图像以及与所述N帧视频图像中任一帧视频图像均不对应的N个音频帧，作为负样本数据，所述N为正整数。

可选地，可以从画面与音频同步的样本视频中获取N帧视频图像对应的图像特征点以及与N帧视频图像中任一帧视频图像均不对应的N个音频帧，作为负样本数据，其中，N为正整数，且为了考虑到后续训练处的打分模型的准确性，N的数值一般与M的数值相等；获取的方式可以是随机获取N帧视频图像对应的图像特征点以及与N帧视频图像中任一帧视频图像均不对应的N个音频帧，也可以是随机获取连续的N帧视频图像对应的图像特征点以及与N帧视频图像中任一帧视频图像均不对应的N个音频帧，本实施例对此不作限制。负样本数据对应的标签为0，可以理解为负样本数据中视频图像与对应的音频帧之间完全错开，因此，相似分数为0。

步骤S730：基于所述正样本数据以及所述负样本数据，对初始模型进行训练，得到所述预先训练的打分模型。

基于此，在获取到正样本数据和负样本数据后，可以对初始模型进行训练，得到预先训练的打分模型。其中，初始模型可以是基于卷积的二分类模型，损失函数可以为二分类的交叉熵，损失函数可以表示为如下公式：

Loss＝-ylog(s)-(1-y)log(1-s)

其中，y为样本数据的标签，s为一维图像特征向量与一维音频特征向量间的相似度，该相似度可以用一维图像特征向量与一维音频特征向量的余弦距离进行表示，其中，向量之间的余弦距离即为两个向量之间夹角的余弦值。余弦值介于0～1,越接近1表明两向量夹角近似为0,即非常相似,反之越接近0表面两向量接近垂直,即非常不相似。因此，可以通过计算一维图像特征向量与一维音频特征向量之间的余弦值，并将该余弦值作为相似度。其中，计算余弦值公式可以表示为：s＝(F_a*F_l)/(|F_a||F_l|)，其中，F_a代表输入损失函数的一维音频特征向量，F_l代表输入损失函数的一维图特征向量。

步骤S740：获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

步骤S750：获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

步骤S760：将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

步骤S770：若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述视频图像不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在本申请实施例中，步骤S740-步骤S770可以参阅前述实施例中的内容，在此不再赘述。

在本实施例中，基于视频图像中的图像特征点对初始模型进行训练，如此，相较于直接将图像输入至模型中进行训练的方式，训练数据更少，训练时间从而也相对较短，即相对基于图像进行模型训练的方式，基于图像特征点进行模型训练的方式更加高效。通过较为成熟的开源软件(如Dlib)进行视频图像中人脸区域的图像特征点提取，由于开源软件一般是通过大量标注数据训练的,对光照等影响图像质量的因素有一定鲁棒性，也就是说即使在视频图像的质量较差时，也可以通过开源软件提取出质量较好的图像特征点，如此，减少了图像质量对目标相似分数的影响，进而提高了判断视频图像和对应的音频帧是否同步的准确性。

请参照图15，其中示出了本申请一实施例提供的一种音画同步的检测装置800的结构框图。该装置800可以包括：图像特征获取模块810、音频特征获取模块820、分数获取模块830和判定模块840。

图像特征获取模块810用于获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数。

音频特征获取模块820用于获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征。

分数获取模块830用于将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度。

判定模块840用于若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

在一些实施方式中，音画同步的检测装置800可以包括：第一判断模块。其中，第一判断模块可以具体用于在所述若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步之前，判断所述目标相似分数是否小于第一预设阈值；若所述目标相似分数小于所述第一预设阈值，判定所述视频满足所述预设错位条件；若所述目标相似分数大于或等于所述第一预设阈值，则判定所述视频不满足预设错位条件。

在另一些实施方式中，音画同步的检测装置800可以包括：图像获取模块以及第二判断模块。其中，图像获取模块可以用于分别获取所述视频中在所述第T帧视频图像之前相邻的K帧视频图像，所述第T帧视频图像之后相邻的L帧视频图像，K以及L为小于T的正整数。音频特征模块820可以具体用于获取所述K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征，以及所述L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征。分数获取模块830可以具体用于将所述第T帧视频图像中人脸区域的图像特征点分别与所述K个前序音频特征中的每个前序音频特征输入至所述打分模型，得到K个相似分数作为K个前序相似分数；将所述第T帧视频图像中人脸区域的图像特征点与所述L个后序音频特征中的每个音频特征输入至所述打分模型，得到L个相似分数作为L个后序相似分数。第二判断模块可以用于基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件。

在该方式下，第二判断模块可以具体用于：判断所述K个前序相似分数以及所述L个后序相似分数中的是否存在大于所述目标相似分数的相似分数；若存在，判定所述视频满足所述预设错位条件；若不存在，判定所述视频不满足所述预设错位条件。

在一些实施方式中，所述不同步的结果包括错位时间，音画同步的检测装置800可以包括：帧数获取模块、差值获取模块以及时间获取模块。其中，帧数获取模块可以用于在所述输出用于表征所述视频中视频图像与对应的音频帧不同步的结果之前，获取所述K个前序相似分数以及所述L个后序相似分数中大于所述目标相似分数的最大相似分数对应的视频图像的帧数。差值获取模块可以用于获取所述T与所述帧数的差值的绝对值，作为错位帧数。时间获取模块可以用于获取所述错位帧数与预设帧率的比值，作为所述错位时间。

在一些实施方式中，所述错位信息包括错位方向，音画同步的检测装置800还可以包括：方向确定模块。其中，方向确定模块可以用于在所述输出用于表征所述视频中视频图像与对应的音频帧不同步的结果之前，若所述帧数小于所述T，判定所述错位方向为视频图像相较于对应的音频帧向后错位；若所述帧数大于所述T，判定所述错位方向为视频图像相较于对应的音频帧向前错位。

在一些实施方式中，音画同步的检测装置800可以包括：第三判断模块。其中，第三判断模块可以具体用于在判定所述视频不满足所述预设错位条件之后，判断所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数是否均小于第二预设阈值；若均小于所述第二预设阈值，输出用于表征所述视频中视频图像与对应的音频帧无关的结果。

在另一些实施方式中，音画同步的检测装置800可以包括：第四判断模块。其中，第四判断模块可以用于在判定所述视频不满足所述预设错位条件之后，若所述K个前序相似分数随着帧数的减小依次递减，且所述L个后序相似分数随着帧数的增大依次递减，输出用于表征所述视频中视频图像与对应的音频帧同步的结果。

在一些实施方式中，图像特征获取模块810可以包括：信息获取单元、信息确定单元、信息转换单元以及特征点确定单元。其中，信息获取单元可以用于获取所述人脸区域中的左眼区域以及右眼区域的特征点的位置信息。信息确定单元可以用于基于所述左眼区域以及右眼区域的特征点的位置信息，确定所述左眼区域以及所述右眼区域的中心点的位置信息，以及所述左眼区域与所述右眼区域之间的双眼距离。信息转换单元可以用于基于所述中心点的位置信息以及所述双眼距离，将嘴部区域以及脸部轮廓区域的特征点的位置信息进行预设转换。特征点确定单元可以用于将预设转换后的所述嘴部区域以及所述脸部轮廓区域的特征点作为所述人脸区域的图像特征点。

在该方式下，分数获取模块830可以包括：图像向量获取单元、音频向量获取单元以及打分单元。其中，图像向量获取单元可以用于获取用于表征所述人脸区域的图像特征点的一维图像特征向量。音频向量获取单元可以用于获取所述与所述第T帧视频图像对应的音频帧的音频特征对应的一维音频特征向量。打分单元可以用于将所述一维图像特征向量以及所述一维音频特征向量输入至预先训练的打分模型，得到所述目标相似分数。

在一些实施方式中，音画同步的检测装置800可以包括：预设调整模块。其中，预设调整模块可以用于在所述获取视频中第T帧视频图像中人脸区域的图像特征点之前，将所述视频的格式设置为预设格式，以及将所述视频的帧率调整至预设帧率。

在一些实施方式中，音画同步的检测装置800可以包括：正样本获取模块、负样本获取模块以及训练模块。其中，正样本获取模块可以用于从画面与音频同步的样本视频中获取M帧视频图像以及所述M帧视频图像中每帧视频图像对应的音频帧，作为正样本数据，所述M为正整数。负样本获取模块可以用于从所述样本视频中获取N帧视频图像以及与所述N帧视频图像中任一帧视频图像均不对应的N个音频帧，作为负样本数据，所述N为正整数。训练模块可以用于基于所述正样本数据以及所述负样本数据，对初始模型进行训练，得到所述预先训练的打分模型。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，模块相互之间的耦合可以是电性，机械或其它形式的耦合。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。

综上所述，本申请实施例提供的方案中，通过较为成熟的开源软件(如Dlib)进行视频图像中人脸区域的图像特征点提取，由于开源软件一般是通过大量标注数据训练的,对光照等影响图像质量的因素有一定鲁棒性，也就是说即使在视频图像的质量较差时，也可以通过开源软件提取出质量较好的图像特征点，并将该图像特征点与对应的音频特征输入至预先训练的打分模型，得到目标相似分数，再基于目标相似分数判断视频中视频图像与对应的音频帧是否同步。如此，减少了图像质量对目标相似分数的影响，进而提高了判断视频图像和对应的音频帧是否同步的准确性。

下面将结合图对本申请提供的一种电子设备进行说明。

参照图16，图16示出了本申请实施例提供的一种电子设备900的结构框图，本申请实施例提供的音画同步的检测方法可以由该电子设备900执行。

本申请实施例中的电子设备900可以包括一个或多个如下部件：处理器901、存储器902、以及一个或多个应用程序，其中一个或多个应用程序可以被存储在存储器902中并被配置为由一个或多个处理器901执行，一个或多个程序配置用于执行如前述方法实施例所描述的方法。

处理器901可以包括一个或者多个处理核。处理器901利用各种接口和线路连接整个电子设备900内的各个部分，通过运行或执行存储在存储器902内的指令、程序、代码集或指令集，以及调用存储在存储器902内的数据，执行电子设备900的各种功能和处理数据。可选地，处理器901可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器901可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以集成到处理器901中，单独通过一块通信芯片进行实现。

存储器902可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。存储器902可用于存储指令、程序、代码、代码集或指令集。存储器902可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现下述各个方法实施例的指令等。存储数据区还可以存储电子设备900在使用中所创建的数据(比如上述的各种对应关系)等。

在本申请所提供的几个实施例中，所显示或讨论的模块相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

请参考图17，其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读介质1000中存储有程序代码，所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。

计算机可读存储介质1000可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地，计算机可读存储介质1000包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质1000具有执行上述方法中的任何方法步骤的程序代码1010的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码1010可以例如以适当形式进行压缩。

最后应说明的是：以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

1.一种音画同步的检测方法，其特征在于，所述方法包括：

获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；

获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征；

将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度；

若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

2.根据权利要求1所述的方法，其特征在于，在所述若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步之前，所述方法还包括：

判断所述目标相似分数是否小于第一预设阈值；

若所述目标相似分数小于所述第一预设阈值，判定所述视频满足所述预设错位条件；

若所述目标相似分数大于或等于所述第一预设阈值，则判定所述视频不满足预设错位条件。

3.根据权利要求1所述的方法，其特征在于，在所述若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步之前，所述方法还包括：

分别获取所述视频中在所述第T帧视频图像之前相邻的K帧视频图像，所述第T帧视频图像之后相邻的L帧视频图像，K以及L为小于T的正整数；

获取所述K帧视频图像中每帧视频图像对应的音频帧的音频特征，得到K个前序音频特征，以及所述L帧视频图像中每帧视频图像对应的音频帧的音频特征，得到L个后序音频特征；

将所述第T帧视频图像中人脸区域的图像特征点分别与所述K个前序音频特征中的每个前序音频特征输入至所述打分模型，得到K个相似分数作为K个前序相似分数；

将所述第T帧视频图像中人脸区域的图像特征点与所述L个后序音频特征中的每个音频特征输入至所述打分模型，得到L个相似分数作为L个后序相似分数；

基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件。

4.根据权利要求3所述的方法，其特征在于，所述基于所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数，判断所述视频是否满足所述预设错位条件，包括：

判断所述K个前序相似分数以及所述L个后序相似分数中的是否存在大于所述目标相似分数的相似分数；

若存在，判定所述视频满足所述预设错位条件；

若不存在，判定所述视频不满足所述预设错位条件。

5.根据权利要求3所述的方法，其特征在于，所述不同步的结果包括错位时间，在所述输出用于表征所述视频中视频图像与对应的音频帧不同步的结果之前，所述方法还包括：

获取所述K个前序相似分数以及所述L个后序相似分数中大于所述目标相似分数的最大相似分数对应的视频图像的帧数；

获取所述T与所述帧数的差值的绝对值，作为错位帧数；

获取所述错位帧数与预设帧率的比值，作为所述错位时间。

6.根据权利要求5所述的方法，其特征在于，所述错位信息包括错位方向，在所述输出用于表征所述视频中视频图像与对应的音频帧不同步的结果之前，所述方法还包括：

若所述帧数小于所述T，判定所述错位方向为视频图像相较于对应的音频帧向后错位；

若所述帧数大于所述T，判定所述错位方向为视频图像相较于对应的音频帧向前错位。

7.根据权利要求4所述的方法，其特征在于，在所述若不存在，判定所述视频不满足所述预设错位条件之后，所述方法还包括：

判断所述目标相似分数、所述K个前序相似分数以及所述L个后序相似分数是否均小于第二预设阈值；

若均小于所述第二预设阈值，输出用于表征所述视频中视频图像与对应的音频帧无关的结果。

8.根据权利要求4所述的方法，其特征在于，在所述若不存在，判定所述视频不满足所述预设错位条件之后，所述方法还包括：

若所述K个前序相似分数随着帧数的减小依次递减，且所述L个后序相似分数随着帧数的增大依次递减，输出用于表征所述视频中视频图像与对应的音频帧同步的结果。

9.根据权利要求1-8任一项所述的方法，其特征在于，所述获取视频中第T帧视频图像中人脸区域的图像特征点，包括：

获取所述人脸区域中的左眼区域以及右眼区域的特征点的位置信息；

基于所述左眼区域以及右眼区域的特征点的位置信息，确定所述左眼区域以及所述右眼区域的中心点的位置信息，以及所述左眼区域与所述右眼区域之间的双眼距离；

基于所述中心点的位置信息以及所述双眼距离，将嘴部区域以及脸部轮廓区域的特征点的位置信息进行预设转换；

将预设转换后的所述嘴部区域以及所述脸部轮廓区域的特征点作为所述人脸区域的图像特征点。

10.根据权利要求9所述的方法，其特征在于，所述将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，包括：

获取用于表征所述人脸区域的图像特征点的一维图像特征向量；

获取所述与所述第T帧视频图像对应的音频帧的音频特征对应的一维音频特征向量；

将所述一维图像特征向量以及所述一维音频特征向量输入至预先训练的打分模型，得到所述目标相似分数。

11.根据权利要求1-8任一项所述的方法，其特征在于，在所述获取视频中第T帧视频图像中人脸区域的图像特征点之前，所述方法还包括：

将所述视频的格式设置为预设格式，以及将所述视频的帧率调整至预设帧率。

12.根据权利要求1-8任一项所述的方法，其特征在于，在所述将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数之前，所述方法还包括：

从画面与音频同步的样本视频中获取M帧视频图像以及所述M帧视频图像中每帧视频图像对应的音频帧，作为正样本数据，所述M为正整数；

从所述样本视频中获取N帧视频图像以及与所述N帧视频图像中任一帧视频图像均不对应的N个音频帧，作为负样本数据，所述N为正整数；

基于所述正样本数据以及所述负样本数据，对初始模型进行训练，得到所述预先训练的打分模型。

13.一种音画同步的检测装置，其特征在于，所述装置包括：

图像特征获取模块，用于获取视频中第T帧视频图像中人脸区域的图像特征点，T为正整数；

音频特征获取模块，用于获取所述视频中与所述第T帧视频图像对应的音频帧的音频特征；

分数获取模块，用于将所述图像特征点以及所述音频特征输入至预先训练的打分模型，得到目标相似分数，所述目标相似分数用于表征所述视频图像与所述音频帧之间的对应程度；

判定模块，用于若基于所述目标相似分数判定所述视频满足预设错位条件，则确定所述视频图像和对应的所述音频帧不同步，并输出用于表征所述视频中视频图像与对应的音频帧不同步的结果。

14.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器；

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序配置用于执行如权利要求1-12中任意一项所述的方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-12中任意一项所述的方法。