CN113242361A

CN113242361A - 一种视频处理方法、装置以及计算机可读存储介质

Info

Publication number: CN113242361A
Application number: CN202110787287.7A
Authority: CN
Inventors: 刘强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-07-13
Filing date: 2021-07-13
Publication date: 2021-08-10
Anticipated expiration: 2041-07-13
Also published as: CN113242361B

Abstract

本申请实施例公开了一种视频处理方法、装置以及计算机可读存储介质，该视频处理方法包括：根据待处理视频中的音频数据确定目标检测时间区间，所述目标检测时间区间包括参考时间点；获取所述待处理视频中所述目标检测时间区间对应的视频片段；确定所述视频片段中的图像对应的嘴部张合度，并基于所述视频片段中的图像对应的嘴部张合度确定预测时间点；根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果。通过本申请实施例，可以结合不同模态数据对音画不同步进行检测，保证检测结果的准确度。

Description

一种视频处理方法、装置以及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种视频处理方法、装置以及计算机可读存储介质。

背景技术

在一些涉及视频播放或视频编辑的应用中，音画同步是音视频播放设备经常遇见的问题，所谓音画同步，是指声音播放和画面显示的同步。通常由于一些原因，视频在编码的时候由于音频信号和视频信号不一致，会导致在解码端的音频和视频不同步，产生声音和画面不一致的现象，这种音画不同步的结果会降低视频播放质量，并且在声音和画面相差较大时，用户能明显感知到这种音画不同步的现象，这样会严重影响用户体验。因此，对视频进行音画不同步的检测是十分必要的。

发明内容

本申请实施例提供一种视频处理方法、装置以及计算机可读存储介质，可以结合不同模态数据对音画不同步进行检测，保证检测结果的准确度。

本申请实施例一方面提供了一种视频处理方法，包括：

根据待处理视频中的音频数据确定目标检测时间区间，所述目标检测时间区间包括参考时间点；

获取所述待处理视频中所述目标检测时间区间对应的视频片段；

确定所述视频片段中的图像对应的嘴部张合度，并基于所述视频片段中的图像对应的嘴部张合度确定预测时间点；

根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果。

本申请实施例一方面提供了一种视频处理装置，包括：

确定模块，用于根据待处理视频中的音频数据确定目标检测时间区间，所述目标检测时间区间包括参考时间点；

获取模块，用于获取所述待处理视频中所述目标检测时间区间对应的视频片段；

所述确定模块，还用于确定所述视频片段中的图像对应的嘴部张合度，并基于所述视频片段中的图像对应的嘴部张合度确定预测时间点；

所述确定模块，还用于根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果。

本申请实施例一方面提供了一种计算机设备，包括：处理器、存储器以及网络接口；处理器与存储器、网络接口相连，其中，网络接口用于提供网络通信功能，存储器用于存储程序代码，处理器用于调用程序代码，以执行本申请实施例中的视频处理方法。

本申请实施例一方面提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行本申请实施例中的视频处理方法。

相应地，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的视频处理方法。

在本申请实施例中，从听觉方面通过提取待处理视频中的音频数据，并基于该音频数据划分目标检测时间区间，该目标检测时间区间是一个参考对照的时间范围，从视觉方面将在该时间范围内的视频片段中的图片对应的嘴部张合度确定出来，并根据嘴部张合度预测出一个时间点，进而和目标检测时间区间内的参考时间点进行比对，得出音画是否同步的检测结果。可以发现，本方案基于视觉和听觉得到的模态数据对视频的音画不同步进行检测，可以保证检测结果的准确度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频处理系统的网络架构图；

图2是本申请实施例提供的一种视频处理方法的流程示意图；

图3是本申请实施例提供的一种视频处理方法的流程示意图；

图4是本申请实施例提供的一种人声提取方法的流程示意图；

图5是本申请实施例提供的一种音频中人声信号分布的示意图；

图6是本申请实施例提供的一种视频处理方法的流程示意图；

图7是本申请实施例提供的一种嘴部特征点检测结果的示意图；

图8是本申请实施例提供的一种关键特征点分布的示意图；

图9是本申请实施例提供的一种音画检测的流程示意图；

图10是本申请实施例提供的一种视频处理装置的结构示意图；

图11是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

云技术（Cloud technology）是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。

云技术（Cloud technology）基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。

云计算(cloud computing)指IT基础设施的交付和使用模式，指通过网络以按需、易扩展的方式获得所需资源；广义云计算指服务的交付和使用模式，指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关，也可是其他服务。云计算是网格计算（Grid Computing )、分布式计算（DistributedComputing)、并行计算（Parallel Computing)、效用计算（Utility Computing)、网络存储（NetworkStorageTechnologies)、虚拟化（Virtualization)、负载均衡（Load Balance)等传统计算机和网络技术发展融合的产物。

随着互联网、实时数据流、连接设备多样化的发展，以及搜索服务、社会网络、移动商务和开放协作等需求的推动，云计算迅速发展起来。不同于以往的并行分布式计算，云计算的产生从理念上将推动整个互联网模式、企业管理模式发生革命性的变革。

本申请实施例提供的方案涉及云技术中的云计算。在一些特定场景下接收来自不同终端设备上传的大量视频，可以对这些来自不同终端设备的视频进行音画不同步检测的并行处理，具体可以通过云计算平台对音画不同步检测过程中所需的相关数据进行计算，从而得到音画不同步的检测结果。

请参见图1，是本申请实施例提供的一种视频处理系统的网络架构图，如图1所示，包括多个用户终端101和服务器100，其中，服务器100可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。用户终端101以及服务器100可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

用户终端101可以安装以及运行音视频类的应用客户端，通过该应用客户端用户可以上传或者编辑制作视频，也可以播放或者缓存在该应用客户端中展示给用户的视频或用户自己上传的历史视频。这些视频可以通过用户终端101编码压缩后，集中存储在应用客户端对应的后台服务器100中，用户终端101也可以从服务器100中获取用户感兴趣的视频，并在接收到播放指令后对其进行解码并播放。用户终端101可以在编码待处理视频之前或者解码待处理视频之后，对待处理视频进行音画不同步的检测。用户终端101首先通过对获取到的待处理视频的音频数据进行分析，可以通过应用客户端中搭载的图像识别网络对音频数据的声谱图进行处理，生成包含纯净人声的音频，从而获取目标检测时间区间，在目标检测时间区间内对待处理视频的视频数据进行分析，即在目标检测时间区间内抽取视频图像，并计算对应的嘴部张合度，根据目标检测时间区间内嘴部张合度的变化确定一个预测时间点，将听觉角度的参考时间点和视觉角度预测时间点进行比较，根据输出的偏差量确定视频的音画是否同步。可选地，如果待处理视频的音画同步检测结果为音画不同步，则将该待处理视频视为低质视频处理，可选的处理方式包括将检测到的低质音频段和对应的视频内容进行删除，此时用户终端101中可能提示解码出错，或者将待处理视频的音频数据或图像数据根据偏差量进行位移处理，使音频数据和图像数据对齐，此时用户终端101中播放的视频不存在音画不同步的问题。

服务器100可以存储不同的用户终端101通过应用客户端上传的视频，可选地，针对这些视频，服务器100也可以对视频的质量进行分析，检测视频的音画是否同步，并自动过滤音画不同步的低质视频。服务器100还可以收集用户在用户终端101中的历史浏览数据并对其进行分析，生成用户画像数据并根据该用户画像数据为用户推荐相应类型的高质量视频。

本方案利用人声在声谱图中的特征提取待处理视频的声音，以及利用人脸的视觉特征提取张嘴量，根据声音确定出来的参考时间点和张嘴量确定出来的预测时间点之间的偏差量，可以基于语音和视频这两种模态数据实现对待处理视频的音画是否同步的检测，也能够保障检测结果的准确度。

进一步地，为便于理解，请参见图2，图2是本申请实施例提供的一种视频处理方法的流程示意图。该方法可以由用户终端（如上述图1的用户终端101）执行，也可以由用户终端和服务器（如上述图1的服务器100）共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该视频处理方法至少可以包括以下步骤S201~S204：

S201，根据待处理视频中的音频数据确定目标检测时间区间，目标检测时间区间包括参考时间点。

在一实施例中，通俗地讲，待处理视频本质上是由终端设备在一段时间内通过相关的拾音设备（如麦克风）采集的音频数据和拍摄设备（如摄像头）采集的图像数据而生成的视频数据，例如，智能手机拍摄的一段视频中不仅有随着时间变化的动态图像（即图像数据），还有和图像相关的声音（即音频数据），更具体地，如唱歌视频除了人唱歌的动态图像，还有人声、歌曲伴奏声以及其他的背景噪声等。由于音频信号和图像信号在编码时的不一致，可能导致生成的待处理视频是音画不同步的视频，因此需要对待处理视频进行检测，确定音画是否同步，进而可以做进一步处理。基于此，音画同步检测的第一步可以是通过对待处理视频中的音频数据进行分析，该音频数据是待处理视频的原始音频信号，通过分析确定出一个时间范围作为目标检测时间区间，在该目标检测时间区间内包括用于确定音画是否同步的关键比对时间点，也即参考时间点，该参考时间点可以是人声的实际起始时间点或者人声的实际结束时间点。待处理视频可以是来自终端设备本地缓存的视频，也可以是来自服务器中存储的视频，对待处理视频的来源在此不做限制。此外，对于音频数据的分析处理可参见下述实施例，在此不做详细说明。

S202，获取待处理视频中目标检测时间区间对应的视频片段。

在一实施例中，由于待处理视频的音频数据和图像数据是相同时间维度下采集的不同形态的数据，因此上述根据音频数据确定出来的目标检测时间区间，其中一个作用是用于定位图像数据的获取范围，也就是说该目标检测时间区间对应的动态图像内容，也即一个视频片段可以作为一个处理对象。例如待处理视频是1分钟之内的歌唱视频，目标检测时间区间为20秒~21秒，那么在20秒~21秒这一时间范围内的歌唱视频片段则是后续进一步分析的对象。

S203，确定视频片段中的图像对应的嘴部张合度，并基于视频片段中的图像对应的嘴部张合度确定预测时间点。

在一实施例中，视频片段可以视为由多张图像连续构成的动态画面，针对视频片段中的图像，可以利用人脸识别技术将人脸识别出来，通过检测嘴部特征点分布，提取嘴部特征，确定出嘴部张开的大小，即将嘴部张合度（也可称之为张嘴量）确定出来，并通过嘴部张合度进一步确定预测时间点。在此确定张嘴量是因为当人说话或者唱歌时，主要是通过张嘴发出声音，而对目标检测时间区间内图像的嘴部张合的大小计算出来，并根据在该时间范围内张嘴量的变化可以预测出人开始发出声音或者人结束发出声音的时间点，由于根据张嘴量确定的时间点并不一定是人实际发声或结束发声的时间点，相比于从音频数据中人声所在的时间点可能存在一定差别，因此将其称之为预测时间点。

可选地，基于视频片段中的图像对应的嘴部张合度确定预测时间点的实现方式可以包括：按照时间顺序从视频片段中确定至少两张图像；根据至少两张图像对应的嘴部张合度确定嘴部张合度的波动值；若波动值大于或等于设定波动阈值，则将至少两张图像中时间顺序排在最后的图像对应的时间点作为预测时间点。从视觉角度而言，视频本质上是按照时间顺序由一帧一帧的图像构成的动态展示画面，因此，对视频的处理本质上是对图像的处理。在此按照时间顺序获取至少两张图像，这至少两张图像对应的时间点是由小到大排列的，根据这些图像对应的嘴部张合度确定其对应的波动值，这个波动值可以是至少两张图像的方差，即表示至少两张图像对应的嘴部张合度的离散程度，即和均值的偏离程度，这样通过对不同数量的图像对应的嘴部张合度进行计算，对应有不同的方差，即波动值。在这个过程中，首先可以先按照时间顺序提取视频片段中的两张图像，根据这两张图像对应的嘴部张合度确定方差，如果该方差不满足设定条件，即大于或等于设定波动阈值，接着按照时间顺序重新提取视频片段中的三张图像，或者基于前两张提取的图像提取第三张图像，再根据这三张图像对应的嘴部张合度确定方差，和设定波动阈值比较，满足条件则将第三张图像对应的时间点作为预测时间点，不满足条件则获取第四张图像，基于四张图像分别对应的嘴部张合度确定出方差，以此类推，总之确定预测时间点的标准是当选择到一定张数的图像，基于其对应的嘴部张合度计算出来的方差大于或等于预设波动阈值，即表明选择到的所有图像中时间顺序排在最后的一张图像对应的时间点就可以作为预测时间点。采用这样的方式是因为当人发出声音时，前后两帧相邻图像的嘴部张合度的大小的变化可能是比较大的，那么这个时候，嘴部整体的波动也是比较剧烈的，利用方差能够表征嘴部张合度波动的程度，进而判定出人发出声音的时间点。

举例来说，假设参考时间点为人声的实际起始时间点，实际起始时间点为第10秒，目标检测时间区间为[9，11]，单位为秒，设定波动阈值为2，帧速率为10帧/秒，首先可以按照时间顺序获取两张图像，如从第9秒开始，按照帧速率获取对应的视频片段中的图像A和图像B，根据这两张图像对应的嘴部张合度确定出来的方差为0.2，小于设定波动阈值，因此继续按照时间顺序获取三张图像，即图像A、图像B以及图像C，根据各图像对应的嘴部张合度确定出这三张图像的总体方差为1，仍旧小于设定波动阈值，继续获取第四张图像，得到图像A、图像B、图像C以及图像D，对应的方差为2，等于设定波动阈值，此时即可以将图像D对应的时间点9.4s作为预测时间点。

需要说明的是，上述基于视频片段中的图像对应的嘴部张合度确定预测时间点的实现方式也可以采用其他方式，例如目标预测时间区间为包括人声的实际起始时间点的检测区间，那么在这个检测区间内可能提取的前几张图像的嘴部张合度都为0，那么第一次出现嘴部张合度不为0的图像即对应的时间点可以作为预测时间点，在此不做限制。

S204，根据参考时间点和预测时间点之间的偏差量确定待处理视频的音画同步检测结果。

在一实施例中，参考时间点可以包括实际起始时间点和实际结束时间点中的任一种或两种，预测时间点可以包括预测起始时间点和预测结束时间点中的任一种或两种。对应地，当参考时间点包括实际起始时间点和实际结束时间点两种时，对应目标检测时间区间可以包括两个，即包括实际起始时间点的目标检测时间区间和包括实际结束时间点的目标检测时间区间。

此步骤的可选实现方式可以为：确定参考时间点和预测时间点之间的偏差量，该偏差量包括实际起始时间点和预测起始时间点之间的第一偏差量，以及实际结束时间点和预测结束时间点之间的第二偏差量中的一种或两种；若偏差量大于或等于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画不同步；若偏差量小于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画同步。具体地，可以利用第一偏差量（或第二偏差量）和设定偏差阈值进行比较，即如果实际起始时间点和预测起始时间点之间的偏差量（或者实际结束时间点和预测结束时间点之间的偏差量）超过设定偏差阈值，那么判定在目标检测时间区间内的视频片段的音画不同步，即待处理视频的音画检测结果为音画不同步，反之，则表示待处理视频的音画检测结果为音画同步。虽然严格意义上来说，只要音频数据和画面数据对应的时间点存在偏差量就可以认为是音画不同步，但是由于人眼能够感受到的音画不同步通常都是偏差量较大的，因此只要音频数据和画面数据的偏差在不影响用户观看体验的设定范围内，就可以视为音画同步，而设定范围的偏差在此即是设定偏差阈值。可选地，还可以利用第一偏差量与第二偏差量的和值作为偏差量，与设定偏差阈值进行比较，利用前述相同比较规则来确定待处理视频的音画检测结果。举例来说，假设目标检测时间区间有两个，第一个目标检测时间区间包括实际起始时间点x，第二个目标检测时间区间包括实际结束时间点y，设定偏差阈值为500ms（毫秒），在对应的目标检测时间区间内第一帧图像嘴巴张开为声音起点x’（预测起始时间点），嘴巴闭合为声音结束时间y’（预测结束时间点），计算两者之差的和值，即(x-x’)+(y-y’)，若大于500ms，则认为待处理视频的音画不同步，反之则音画同步，基于开始时间点和结束时间点对应的两个偏差量检测音画同步，可以保证检测结果的鲁棒性和精准度。

综上所述，本申请实施例至少具有以下优点：

从听觉角度，根据待处理视频的音频数据划分目标检测时间区间，该目标检测时间区间内包括用于比对的参考时间点，从视觉角度，通过获取目标检测时间区间的视频片段中图像对应的嘴部张合度，可以确定出一个预测时间点，对基于音频和视频这两种的数据中确定出的时间点进行比对，得出偏差量，并通过相应规则得到音画同步检测结果，保证了检测结果的合理性和准确度。

请参见图3，图3是本申请实施例提供的一种视频处理方法的流程示意图。该方法可以由用户终端（如上述图1的用户终端101）执行，也可以由用户终端和服务器（如上述图1的服务器100）共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该视频处理方法至少可以包括以下步骤S301~S306：

S301，获取待处理视频中的音频数据。

在一实施例中，待处理视频可以是通过终端设备录制的视频，该视频中收集了录制的画面和各种声音，因此可以从待处理视频中提取音频数据（或称之为音频信息），该音频信息可以是包含背景噪声的原始音频信号，例如包含人声、乐器声、流水声、其他噪声等各种不同类型声音的原始音频信号。

S302，对音频数据进行人声提取处理，得到音频数据中的人声信号。

在一实施例中，通常音画不同步给用户最直观的感受可能是人说话的嘴型和听到的人声不一致，譬如还没有张嘴，就先听到人声。基于此，对人声进行提取处理是在相同时间维度下对比人开始发出声音和画面中出现的内容是否一致的一个重要参考依据。可选地，此步骤的实现方式可以包括：对音频数据进行变换处理，得到音频数据的声谱图；利用图像识别网络对声谱图进行人声提取处理，得到目标声谱图；对目标声谱图进行反变换处理，得到音频数据中的人声信号。

一般情况下，待处理视频的原始音频信号可能包含噪声、背景音乐等干扰，如果要从多种声音混合的音频数据中单单把人声提取出来，可以利用上述方式：首先将待处理视频中提取出来的音频转换成声谱图，即将音频经过变换处理，例如短时傅里叶变换处理，将时域的音频信号转换到频域，得到音频数据的声谱图，在这之前，可以对音频抽帧处理后再进行短时傅里叶变换处理，以减小计算量。然后，将音频数据的声谱图输入图像识别网络，例如U-Nets网络（用于二维图像分割的卷积神经网络），输出目标声谱图，在这个过程中，利用图像识别网络可以提取人声在声谱图中的位置信息，进而提取声谱图中的人声部分，再将提取出来的人声部分的声谱图反变换为声音。需要说明的是，该图像识别网络也可以是其他类型的网络，例如卷积神经网络（Convolutional Neural Network，CNN），在此不做限制。这里利用图像识别网络对声谱图进行处理是因为，音频数据的声谱图也就是一张张图像，而人声和其他声音，如乐器声有着不同的特征，这表现在声谱图也不一样，因此，将经过图像识别网络输出的目标声谱图即新声谱图，是只包括人声部分的声谱图，将其进行反变换处理，生成纯净的人声音频，即音频数据中的人声信号，而对音频数据进行人声提取的主要目的也是方便确定出在图像数据中图像对应的嘴部张合度计算的起始点。

根据上述人声提取方式，请参见图4，是本申请实施例提供的一种人声提取的流程示意图。对各步骤简要说明即是：首先执行S40音频抽帧，对待处理视频的音频数据抽帧，然后将抽帧之后得到的音频做变换处理，即执行S41短时傅里叶变换，得到音频数据的声谱图，再经过S42图像识别网络，如U-Nets的处理，得到S43人声区域，即人声在声谱图中的位置信息，经过S44人声提取步骤将声谱图中的人声部分反变换为声音。需要说明的是，上述人声提取的流程示意图也可以作为人声提取训练过程，即利用不同类型的音频数据对U-Nets网络进行训练，关键是利用带有标签的音频数据的声谱图进行有监督训练。可选地，可以将包含人声的音频数据标签设置为1，不包含人声的音频数据的标签设置为0，将包含上述两种类型的音频数据的训练样本输入U-Nets网络进行训练，本质上训练样本需要经过变换处理后得到声谱图再输入对U-Nets网络进行训练，使得最终训练完成的U-Nets网络能够准确地识别和提取人声的位置信息，进而精准地输出纯净人声的声谱图。

S303，根据人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间。

在一实施例中，参考时间点包括实际起始时间点和实际结束时间点中的一种或两种。人声在人声信号中声音的实际起始时间点和实际结束时间点可以认为是相匹配的，例如，人说一段话，开始说话的时间点和说完这段话的时间点即分别为实际起始时间点和实际结束时间点，也可能是多段话，每段话有停顿的音频数据，那么实际起始时间点和实际结束时间点也可以视为各一个，也可以视为有多个。

示例性地，当提取到的人声信号是人唱歌的音频，该音频中人声的分布如图5所示，在时间长度为35秒的音频中，前5秒是前奏，为乐器声或其他声音，用于引导演唱者进入情境，因此一般没有人的声音，经过人声提取后也就没有人声信号，第6秒时进入主歌，也就是人开始唱歌，此时可以获取到人声信号，也就是说第6秒即声音的实际起始时间点，到第15秒主歌结束，也即人声结束，第15秒为声音的实际结束时间点，副歌从第20秒开始，在15秒至20秒这段时间的歌曲有间奏过渡，串联歌曲的主歌和副歌，人声提取处理后没有相应的人声信号，而副歌整段的歌唱时间在10秒，因此在第20秒又可以视为声音的一个新的实际起始时间点，第30秒则是声音的一个新的实际结束时间点，最后5秒为尾奏通过音乐对歌曲进行补充，没有人声可以提取，这样一个待处理视频中音频数据的人声信号可以有多个实际起始时间点和对应的实际结束时间点，当然，也可以是只包含一个实际起始时间点和一个实际结束时间点，即将人声信号中第一次出现人声的时间点作为实际起始时间点，如上述示例中的第6秒，以及最后一次人声结束的时间点作为实际结束时间点，如上述示例中的第30秒，而这样一种可选的确定方式是不考虑中间停顿的过程，直接获取音频中人声最开始出现和最终结束的时间点作为参考，同样可以用来确定目标检测时间区间。

需要说明的是，由于人声信号中的起始时间点和结束时间点是根据人声实际发声的时间点确定的，相比于利用其他方式检测预估的时间点，这是基于音频本身得到的，因此声音的起始时间点和结束时间点在本实施例中分别称为实际起始时间点和实际结束时间点，从而下述内容中出现声音的起始时间点（或结束时间点）也就是指实际起始时间点（或实际结束时间点）。此外，目标检测时间区间也可以简称为检测区间，在确定检测区间时，若根据声音的实际起始时间点和实际结束时间点中的两种确定，则目标检测时间区间也包括两个以及以上，也即是根据实际起始时间点和实际结束时间点的个数而定，例如实际起始时间点和实际结束时间点分别有2个，那么目标检测时间区间可以有4个。在本申请实施例中对目标检测时间区间的个数不做限定。

在一实施例中，确定目标检测时间区间的可选实现步骤可以包括：获取人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种；将实际起始时间点和实际结束时间点中的一种或两种作为参考时间点；根据设定的偏移量和参考时间点确定目标检测时间区间。简要来说，就是根据人声信号中的人声出现的时间信息可以划定检测区间，假设人声的实际起始时间点和实际结束时间点分别为x秒（下称第一起始时间点）和y秒（下称第一终止时间点），将x和y作为参考时间点，以参考时间点为中心，将参考时间点和设定偏移量的差值以及参考时间点和设定偏移量的和值分别作为区间的左右两个端点，得到目标检测时间区间，例如设定偏移量为1秒，则取[x-1，x+1]和[y-1，y+1]作为检测区间。当然，也可以将第一起始时间点和第一终止时间点中的任一者作为参考时间点，进而根据参考时间点和设定偏移量确定出检测区间，如[x-1，x+1]或者[y-1，y+1]。

由上述可知，根据音频数据中提取到的人声信号，可以知道对应声音的起始时间点和结束时间点，在划定检测区间时，可以依据人声信息将人声信号划分为多个检测子区间，示例性地，上述图5示出的人声信号分布可以分为2个检测子区间，分别为[6，15]、[20，30]（单位均为秒），针对每个检测子区间，对应的人声起始位置为第6秒和第20秒，人声终止位置为第15秒和第30秒，根据这些参考时间点可以确定检测区间。例如按照设定偏移量为1秒，则对应的检测区间包括[5，7]、[14，16]、[19，21]、[29，31]这四个检测区间。对于该四个检测区间都可以抽取对应视频片段的图像，从而进行后续的检测。

需要说明的是，本方案中的检测区间是根据观察实验数据得到的试验结论，这个参数会影响视频处理算法的执行效率。如果区间太大，张嘴量检测帧数会按照帧速率(Frames PerSecond，FPS)乘以秒数地增加，导致处理的负荷增加，降低算法处理的速度。而如果区间太小，人无法觉察到音画不同步，实际的处理意义不大，结合试验数据等综合考虑，一般取值[0.5，2]秒，也就是设定偏移量的取值范围在[0.25，1]，如以上述第一起始时间点x作为参考时间点，目标检测时间区间最小取值[x-0.25，x+0.25]，最大取值[x-1，x+1]。

S304，获取待处理视频中目标检测时间区间对应的视频片段。

S305，确定视频片段中的图像对应的嘴部张合度，并基于视频片段中的图像对应的嘴部张合度确定预测时间点。

步骤S304~S305的具体实现可参见上述图2对应实施例中的S202~S203，这里不再进行赘述。

S306，根据参考时间点和预测时间点之间的偏差量确定待处理视频的音画同步检测结果。

在一实施例中，如果目标检测时间区间对应有两个或以上，则视频片段也是有多个，针对每个视频片段中的图像，可以根据张嘴量预测声音的第二起始时间点和第二终止时间点，将其分别与上述人声中定位的第一起始时间点和第一终止时间点进行比较，并根据比较结果确定音画是否同步。由于该第二起始时间点（或第二终止时间点）和前述的第一起始时间点（或第一终止时间点）都位于目标检测时间区间，当有多个目标检测时间区间，也对应了多个偏差量，此时可以对各偏差量算均值，再和设定偏差阈值进行比较确定音画是否同步，当然也可以采用其他方式，如统计方差、计算和值等，对此不作限制。在此之前针对每个视频片段的处理方式，确定嘴部张合度等可以采用和前述实施例提供的相同内容，在此不做赘述。

综上所述，本申请实施例至少具有以下优点：

利用音画同步时人声和嘴部张合的时间对应的直观特点，提取出人声并在相应时间范围内确定嘴部张合度，将基于音频确定出的实际时间点和基于图像确定出的预测时间点进行比对，确定音画同步检测结果。其中，利用人声和其他声音在声谱图中不同特征表现，采用图像识别的方式对音频数据的声谱图进行处理，可以有效地提取出纯净的人声信号，并且在保证算法执行效率的情况下，根据人声信号中声音的起始时间点或者结束时间点中的任一种或两种，合理地划分出检测区间。根据该检测区间内视频片段图像的张嘴量预测出人声可能对应的起始时间点和结束时间点中的任一种或两种，再通过对应的偏差量与可接受偏差（即设定偏差阈值）进行对比，得到音画同步检测结果，整个过程保证了检测结果的可靠性。

请参见图6，图6是本申请实施例提供的一种视频处理方法的流程示意图。该方法可以由用户终端（如上述图1的用户终端101）执行，也可以由用户终端和服务器（如上述图1的服务器100）共同执行。为便于理解，本实施例以该方法由上述用户终端执行为例进行说明。其中，该视频处理方法至少可以包括以下步骤S601~S607：

S601，根据待处理视频中的音频数据确定目标检测时间区间，目标检测时间区间包括参考时间点。

S602，获取待处理视频中目标检测时间区间对应的视频片段。

步骤S601~S602的具体实现可参见上述图2对应实施例中的S201~S202或者上述图3对应实施例中的S301~S304中的内容，这里不再进行赘述。

S603，对视频片段进行抽帧处理，得到一张或多张图像。

在一实施例中，基于上述步骤获取的目标检测时间区间，可以定位视频帧提取位置，即获取到对视频片段抽帧的起始时间点。之后可选的处理方式则是对该视频片段进行逐帧提取，也即对视频片段进行抽帧处理，得到一张或多张图像。可选地，为了获取视频的完整信息和提高检测精度，在目标检测时间区间采用全抽帧方法，这种全抽帧方法是指按照固定的帧速率获取检测区间内的所有图像，例如帧速率为25帧/秒（指1秒内抽取25张图像），目标检测时间区间为[1s，3s]，那么对视频进行全抽帧则是获取3s内的75张图像。

S604，获取一张或多张图像中任一张图像的嘴部区域。

在一实施例中，为了获取嘴部张量，即嘴部张合度（或张嘴量），首先得找到目标处理对象，即嘴部区域，然后对该嘴部区域进一步地处理，确定张嘴量。可选地，可以利用人脸识别的方法先对图像中包括的人脸进行识别，然后进一步获取到人脸中的嘴部区域。也可以采取感兴趣区域提取的方式直接获取嘴部区域，在此对获取图像的嘴部区域的方式不做限定。需要注意的是，可能抽帧得到的图像中并不是每一张图像都有嘴部区域，那么在本申请实施例中针对这样的图像，可以选择忽略不处理，或者将其对应的数据（如张嘴量）标记为零。

S605，对嘴部区域进行关键特征点检测处理，得到嘴部区域中一对或多对关键特征点的位置信息。

在一实施例中，为了衡量嘴部张合的大小，可以通过对嘴部区域指定的关键特征点进行检测，获取到每一对关键特征点的位置信息，这里一对关键特征点是指上嘴唇的一个检测点位（即关键特征点）以及与之对应的下嘴唇的一个检测点位，该检测点位大致是处于同一垂直线中的。如图7是在实际图像中关键特征点（或称之为嘴部特征点）的检测结果，根据该检测结果可以将其抽象出来并绘制成嘴部特征点分布，即如图8所示的关键特征点分布，其中包括12对关键特征点，分别采用数字1~12进行标记，分布在上下嘴唇对应的检测点位中，各关键特征点连接而成的形状则是嘴巴张开一定大小的形状，每对关键特征点包括的两个关键特征点都有对应的位置信息，在此为了方便计算，通过二维坐标表示，即将各关键特征点的位置信息记为（x，y）。当然，也可以采用三维坐标的表示方法或其他位置信息表示方法，对于关键特征点的数量和位置信息的记录方式在此不做限定。

S606，根据一对或多对关键特征点的位置信息确定任一张图像对应的嘴部张合度，并基于视频片段中的图像对应的嘴部张合度确定预测时间点。

在一实施例中，确定嘴部张合度的可选实现步骤可以包括：针对一对或多对关键特征点中的任一对关键特征点，根据任一对关键特征点包括的两个关键特征点的位置信息，确定任一对关键特征点包括的两个关键特征点之间的距离；利用任一对关键特征点包括的两个关键特征点之间的距离确定距离均值，并将距离均值确定为任一张图像对应的嘴部张合度。相应地，关键特征点之间的距离计算可以采用欧式距离来度量，也可以采用其他距离度量方式，如曼哈顿距离、余弦距离、切比雪夫距离等，在此不做限制。在得到各对关键特征点的两个关键特征点之间的距离之后，对嘴部区域的各对关键特征点对应的距离求平均，可以得到距离均值，而这个距离均值就可以作为图像对应的嘴部张合度，来衡量嘴部张开的大小。可以看出，利用人脸的视觉特征，检测嘴部特征点分布，提取嘴部特征，可以构造张嘴量（即嘴部张合度），根据上述内容定义相应表达式如下式（1）：

(1)

其中，

，

表示上嘴唇的第k个关键特征点，

表示下嘴唇的第k个关键特征点，k∈[0，n]，n取值0~12。由于如图8所示的关键特征点分布中9、10、11这3个关键特征点是衡量嘴部张合状态最具代表性的特征点，因此实际计算中k取[9，10，11]，此时N=3，这样可以在保证嘴部张合度计算准确的情况下进一步减小计算量，提高算法执行效率。

此外，基于视频片段中图像对应的嘴部张合度确定预测时间点，主要是针对视频片段抽帧处理之后得到的一张或多张图像对应的嘴部张合度，基于其在目标检测时间区间内的张嘴量变化预测出对应的时间点。具体可以参见前述实施例中的内容，在此不做赘述。

S607，根据参考时间点和预测时间点之间的偏差量确定待处理视频的音画同步检测结果。

在一实施例中，根据偏差量确定待处理视频音画同步检测结果可以参见前述实施例的对应的内容，在此不做过多说明。而在确定音画同步检测结果之后，可选的处理方式可以为：若确定待处理视频的音画同步检测结果为音画不同步，则按照偏差量对待处理视频中的音频数据和图像进行对齐处理。这种方式是对待处理视频的音画不同步进行纠正的处理，将音频数据或者视频（即图像数据）根据偏差量进行位移，使两者对齐就可达到音画同步的目的，当然另一种可选的处理方式是将检测到的低质音频段进行删除处理，在此对音画不同步视频的处理方式不做限制。

基于上述实施例提供的方案，在此提供如图9所示的音画检测的流程示意图，该音画检测可以应用于K歌场景中，可以针对用户每天上传的大约30万量级的视频进行质量分析，从而过滤音画不同步的低质量视频。更广泛地，还可以应用于各种视频的质量分析、处理、视频剪辑预处理以及直播视频处理等场景。在此不做限制。为便于说明，以K歌应用场景为例进行分析。

通常，用户上传的K歌视频包括人跟随伴奏演唱的音频数据，以及人在演唱时的动态图像的画面。为了比对音画是否同步，基于人开始发出声音和张嘴对应的思路出发，通过比对音频中人声的时间点和图像对应张嘴量可能发声的时间点，进而获取音画同步的检测结果。首先，通过执行步骤S80，终端设备可以从视频中提取音频，该音频是视频的原始音频信号。在获取到原始音频信号后，紧接着执行S81对原始音频信号进行人声提取处理，从中获取人声信号，即获取包括纯净人声信号的音频，获取人声信号的方法可参见前述实施例对应的内容，如图4对应的人声提取处理流程，在此不做说明。随后，根据获取到的人声信号划定检测区间，对应执行S82的内容，这里的检测区间包括两个，检测区间内分别包括实际起始时间点和实际结束时间点，该检测区间主要用于定位张嘴量提取的起始位置。因此在S83的提取视频帧这一步骤中，可以通过在检测区间内先定位视频帧，再对定位到的视频帧进行逐帧提取，获取到多张图像之后，针对每张图像执行S84的张嘴量检测处理，从而预测出人声在目标检测时间区间内可能的预测时间点，包括预测起始时间点和预测结束时间点，再执行S85起始或结束点匹配，即将预测起始时间点和预测结束时间点分别与S81的人声提取步骤中人声的实际起始时间点和实际结束时间点进行匹配，计算两者的偏差值并根据S86指示的内容输出偏差，从而能够检测出待处理视频的音画是否同步。

综上所述，本申请实施例至少具有以下优点：

通过对检测区间内的视频片段进行全抽帧处理，可以保证视频信息的完整性，对获取到的每张图像包括的嘴部区域的进行关键特征点检测，通过各关键特征点的位置信息确定嘴部张合度，最终得到的是在检测区间内衡量嘴部张合大小的全面且完整的数据。其中，关键特征点检测中利用上下嘴唇各关键特征点之间的距离均值确定嘴部张合度，并且实际计算中有所取舍，在确保嘴部张合度具备代表性的同时也使得嘴部张合度的确定过程效率更高。由于在检测区间内根据帧速率全抽帧，且抽帧得到的图像对应的嘴部张合度计算高效，可以让根据嘴部张合度确定预测时间点的过程更加高效，时间点更精确，从而提升音画不同步检测的效果。

请参见图10，图10是本申请实施例提供的一种视频处理装置的结构示意图。上述视频处理装置可以是运行于计算机设备中的一个计算机程序（包括程序代码），例如该视频处理装置为一个应用软件；该装置可以用于执行本申请实施例提供的方法中的相应步骤。如图10所示，该视频处理装置90可以包括：确定模块901、获取模块902，其中：

确定模块901，用于根据待处理视频中的音频数据确定目标检测时间区间，目标检测时间区间包括参考时间点；

获取模块902，用于获取待处理视频中目标检测时间区间对应的视频片段；

确定模块901，还用于确定视频片段中的图像对应的嘴部张合度，并基于视频片段中的图像对应的嘴部张合度确定预测时间点；

确定模块901，还用于根据参考时间点和预测时间点之间的偏差量确定待处理视频的音画同步检测结果。

在一实施例中，确定模块901，具体用于：获取待处理视频中的音频数据；对音频数据进行人声提取处理，得到音频数据中的人声信号；根据人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间，参考时间点包括实际起始时间点和实际结束时间点中的一种或两种。

在一实施例中，确定模块901，具体用于：对音频数据进行变换处理，得到音频数据的声谱图；利用图像识别网络对声谱图进行人声提取处理，得到目标声谱图；对目标声谱图进行反变换处理，得到音频数据中的人声信号。

在一实施例中，确定模块901，具体用于：获取人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种；将实际起始时间点和实际结束时间点中的一种或两种作为参考时间点；根据设定的偏移量和参考时间点确定目标检测时间区间。

在一实施例中，确定模块901，具体用于：对视频片段进行抽帧处理，得到一张或多张图像；获取一张或多张图像中任一张图像的嘴部区域；对嘴部区域进行关键特征点检测处理，得到嘴部区域中一对或多对关键特征点的位置信息；根据一对或多对关键特征点的位置信息确定任一张图像对应的嘴部张合度。

在一实施例中，确定模块901，具体用于：针对一对或多对关键特征点中的任一对关键特征点，根据任一对关键特征点包括的两个关键特征点的位置信息，确定任一对关键特征点包括的两个关键特征点之间的距离；利用任一对关键特征点包括的两个关键特征点之间的距离确定距离均值，并将距离均值确定为任一张图像对应的嘴部张合度。

在一实施例中，确定模块901，具体用于：按照时间顺序从视频片段中确定至少两张图像；根据至少两张图像对应的嘴部张合度确定嘴部张合度的波动值；若波动值大于或等于设定波动阈值，则将至少两张图像中时间顺序排在最后的图像对应的时间点作为预测时间点。

在一实施例中，参考时间点包括实际起始时间点和实际结束时间点中的一种或两种，预测时间点包括预测起始时间点和预测结束时间点中的一种或两种，确定模块901，具体用于：确定参考时间点和预测时间点之间的偏差量，偏差量包括实际起始时间点和预测起始时间点之间的第一偏差量，以及实际结束时间点和预测结束时间点之间的第二偏差量中的一种或两种；若偏差量大于或等于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画不同步；若偏差量小于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画同步。

可以理解的是，本申请实施例所描述的视频处理装置90的各功能模块的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

请参见图11，是本申请实施例提供的一种计算机设备的结构示意图，该计算机设备1000可以包括处理器1001、存储器1002、网络接口1003和至少一个通信总线1004。其中，处理器1001用于调度计算机程序，可以包括中央处理器、控制器、微处理器；存储器1002用于存储计算机程序，可以包括高速随机存取存储器RAM，非易失性存储器，例如磁盘存储器件、闪存器件；网络接口1003可选的可以包括标准的有线接口、无线接口（如WI-FI接口），提供数据通信功能，通信总线1004负责连接各个通信元件。该计算机设备1000可以对应于前文的服务器100。

其中，处理器1001可以用于调用存储器中的计算机程序，以执行如下操作：

根据待处理视频中的音频数据确定目标检测时间区间，所述目标检测时间区间包括参考时间点；获取所述待处理视频中所述目标检测时间区间对应的视频片段；确定所述视频片段中的图像对应的嘴部张合度，并基于所述视频片段中的图像对应的嘴部张合度确定预测时间点；根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果。

在一实施例中，处理器1001具体用于：获取待处理视频中的音频数据；对音频数据进行人声提取处理，得到音频数据中的人声信号；根据人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间，参考时间点包括实际起始时间点和实际结束时间点中的一种或两种。

在一实施例中，处理器1001具体用于：对音频数据进行变换处理，得到音频数据的声谱图；利用图像识别网络对声谱图进行人声提取处理，得到目标声谱图；对目标声谱图进行反变换处理，得到音频数据中的人声信号。

在一实施例中，处理器1001具体用于：获取人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种；将实际起始时间点和实际结束时间点中的一种或两种作为参考时间点；根据设定的偏移量和参考时间点确定目标检测时间区间。

在一实施例中，处理器1001具体用于：对视频片段进行抽帧处理，得到一张或多张图像；获取一张或多张图像中任一张图像的嘴部区域；对嘴部区域进行关键特征点检测处理，得到嘴部区域中一对或多对关键特征点的位置信息；根据一对或多对关键特征点的位置信息确定任一张图像对应的嘴部张合度。

在一实施例中，处理器1001具体用于：针对一对或多对关键特征点中的任一对关键特征点，根据任一对关键特征点包括的两个关键特征点的位置信息，确定任一对关键特征点包括的两个关键特征点之间的距离；利用任一对关键特征点包括的两个关键特征点之间的距离确定距离均值，并将距离均值确定为任一张图像对应的嘴部张合度。

在一实施例中，处理器1001具体用于：按照时间顺序从视频片段中确定至少两张图像；根据至少两张图像对应的嘴部张合度确定嘴部张合度的波动值；若波动值大于或等于设定波动阈值，则将至少两张图像中时间顺序排在最后的图像对应的时间点作为预测时间点。

在一实施例中，参考时间点包括实际起始时间点和实际结束时间点中的一种或两种，预测时间点包括预测起始时间点和预测结束时间点中的一种或两种，处理器1001具体用于：确定参考时间点和预测时间点之间的偏差量，偏差量包括实际起始时间点和预测起始时间点之间的第一偏差量，以及实际结束时间点和预测结束时间点之间的第二偏差量中的一种或两种；若偏差量大于或等于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画不同步；若偏差量小于设定偏差阈值，则确定待处理视频的音画同步检测结果为音画同步。

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图2所对应实施例中对该视频处理方法的描述，也可执行前文图10所对应实施例中对该视频处理装置90的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机可读存储介质，且上述计算机可读存储介质中存储有前文提及的视频处理的终端设备或服务器所执行的计算机程序，且上述计算机程序包括程序指令，当上述处理器执行上述程序指令时，能够执行前文图2或图3或图6所对应实施例中对上述视频处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。

上述计算机可读存储介质可以是前述任一实施例提供的视频处理装置90或者上述计算机设备的内部存储单元，例如计算机设备的硬盘或内存。该计算机可读存储介质也可以是该计算机设备的外部存储设备，例如该计算机设备上配备的插接式硬盘，智能存储卡（smart media card，SMC），安全数字（secure digital， SD）卡，闪存卡（flash card）等。进一步地，该计算机可读存储介质还可以既包括该计算机设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该计算机设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行本申请实施例中一方面提供的视频处理方法。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种视频处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据待处理视频中的音频数据确定目标检测时间区间，包括：

获取待处理视频中的音频数据；

对所述音频数据进行人声提取处理，得到所述音频数据中的人声信号；

根据所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间，所述参考时间点包括所述实际起始时间点和所述实际结束时间点中的一种或两种。

3.如权利要求2所述的方法，其特征在于，所述对所述音频数据进行人声提取处理，得到所述音频数据中的人声信号，包括：

对所述音频数据进行变换处理，得到所述音频数据的声谱图；

利用图像识别网络对所述声谱图进行人声提取处理，得到目标声谱图；

对所述目标声谱图进行反变换处理，得到所述音频数据中的人声信号。

4.如权利要求2或3所述的方法，其特征在于，所述根据所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种确定目标检测时间区间，包括：

获取所述人声信号中声音的实际起始时间点和实际结束时间点中的一种或两种；

将所述实际起始时间点和所述实际结束时间点中的一种或两种作为参考时间点；

根据设定的偏移量和所述参考时间点确定目标检测时间区间。

5.如权利要求1~3中任一项所述的方法，其特征在于，所述确定所述视频片段中的图像对应的嘴部张合度，包括：

对所述视频片段进行抽帧处理，得到一张或多张图像；

获取所述一张或多张图像中任一张图像的嘴部区域；

对所述嘴部区域进行关键特征点检测处理，得到所述嘴部区域中一对或多对关键特征点的位置信息；

根据所述一对或多对关键特征点的位置信息确定所述任一张图像对应的嘴部张合度。

6.如权利要求5所述的方法，其特征在于，所述根据所述一对或多对关键特征点的位置信息确定所述任一张图像对应的嘴部张合度，包括：

针对所述一对或多对关键特征点中的任一对关键特征点，根据所述任一对关键特征点包括的两个关键特征点的位置信息，确定所述任一对关键特征点包括的两个关键特征点之间的距离；

利用所述任一对关键特征点包括的两个关键特征点之间的距离确定距离均值，并将所述距离均值确定为所述任一张图像对应的嘴部张合度。

7.如权利要求1所述的方法，其特征在于，所述基于所述视频片段中的图像对应的嘴部张合度确定预测时间点，包括：

按照时间顺序从所述视频片段中确定至少两张图像；

根据所述至少两张图像对应的嘴部张合度确定嘴部张合度的波动值；

若所述波动值大于或等于设定波动阈值，则将所述至少两张图像中时间顺序排在最后的图像对应的时间点作为预测时间点。

8.如权利要求1~3和7中任一项所述的方法，其特征在于，所述参考时间点包括实际起始时间点和实际结束时间点中的一种或两种，所述预测时间点包括预测起始时间点和预测结束时间点中的一种或两种，所述根据所述参考时间点和所述预测时间点之间的偏差量确定所述待处理视频的音画同步检测结果，包括：

确定所述参考时间点和所述预测时间点之间的偏差量，所述偏差量包括所述实际起始时间点和所述预测起始时间点之间的第一偏差量，以及所述实际结束时间点和所述预测结束时间点之间的第二偏差量中的一种或两种；

若所述偏差量大于或等于设定偏差阈值，则确定所述待处理视频的音画同步检测结果为音画不同步；

若所述偏差量小于所述设定偏差阈值，则确定所述待处理视频的音画同步检测结果为音画同步。

9.一种视频处理装置，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时，执行权利要求1~8任一项所述的方法。