CN116962741A

CN116962741A - 音画同步检测方法、装置、计算机设备和存储介质

Info

Publication number: CN116962741A
Application number: CN202210393914.3A
Authority: CN
Inventors: 李大龙
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-04-15
Filing date: 2022-04-15
Publication date: 2023-10-27

Abstract

本申请涉及一种音画同步检测方法、装置、计算机设备、存储介质和计算机程序产品。本发明实施例可应用于音视频、云技术、人工智能、智慧交通、辅助驾驶等各种场景。所述方法包括：从目标视频中提取目标图像数据和目标声音数据；基于图像显著性检测模型和声音显著性检测模型对目标图像数据和目标声音数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息和目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息；两个模型的训练样本是成对构造的；基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。采用本方法可提高音画同步检测的准确性和效率。

Description

音画同步检测方法、装置、计算机设备和存储介质

技术领域

本申请涉及计算机技术领域，特别是涉及一种音画同步检测方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术

随着计算机技术的发展，视频播放已经成为人们日常数字化娱乐的基础性需求，人们对视频质量的要求也越来越高。其中，对视频进行音画同步检测日益成为判断视频质量的一种重要方法。

传统技术中，一般以原始视频作为可信任的、用于被参考的信号，将原始视频上通过分析音画信号波形确定的音画信号时域偏移作为参考，与经过播放系统后实际输出视频的音画信号时域偏差进行比较，基于两个音画信号时域偏差的差异确定音画同步检测结果。然而，原始视频通常难以获得，音画信号波形的分析需要专门的设备和人工观测，人为寻找波形中合适的采样点，最终导致音画同步检测准确性和效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种不需要参考原始视频也能够提高音画同步检测准确性和效率的音画同步检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

一种音画同步检测方法，应用于视频播放端，所述方法包括：

获取目标视频，从所述目标视频中提取目标图像数据和目标声音数据；

基于图像显著性检测模型对所述目标图像数据进行显著性检测，得到所述目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对所述目标声音数据进行显著性检测，得到所述目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息；其中，所述图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，所述声音显著性检测模型的训练样本包括从所述音画同步的图像声音数据对中确定的声音数据；

基于所述图像显著时间信息和所述声音显著时间信息之间的时间差异，确定所述目标视频对应的音画同步检测结果。

一种音画同步检测装置，所述装置包括：

数据获取模块，用于获取目标视频，从所述目标视频中提取目标图像数据和目标声音数据；

显著性检测模块，用于基于图像显著性检测模型对所述目标图像数据进行显著性检测，得到所述目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对所述目标声音数据进行显著性检测，得到所述目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息；其中，所述图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，所述声音显著性检测模型的训练样本包括从所述音画同步的图像声音数据对中确定的声音数据；

音画同步检测结果确定模块，用于基于所述图像显著时间信息和所述声音显著时间信息之间的时间差异，确定所述目标视频对应的音画同步检测结果。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述音画同步检测方法所述的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述音画同步检测方法所述的步骤。

一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述音画同步检测方法所述的步骤。

上述音画同步检测方法、装置、计算机设备、存储介质和计算机程序产品，通过获取目标视频，从目标视频中提取目标图像数据和目标声音数据，基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息，其中，图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，声音显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的声音数据，基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。这样，不需要参考原始视频，基于目标视频的自身信息就可以确定目标视频对应的音画同步检测结果，提高了音画同步检测的效率。并且，基于模型对图像数据和声音数据进行显著性检测可以自动智能地查找出视频中特征显著的图像帧对应的显著时间点和特征显著的声音帧对应的显著时间点，有助于提高音画同步检测的检测准确性和效率。进一步的，用于进行显著性检测的图像显著性检测模型和声音显著性检测模型的训练样本是成对构造的，是基于同一图像声音数据对生成的，基于这样的训练样本进行模型训练可以促使模型查找到的图像显著时间点和声音显著时间点是同一显著情景对应的，从而进一步提高音画同步检测的检测准确性。

附图说明

图1为一个实施例中音画同步检测方法的应用环境图；

图2为一个实施例中音画同步检测方法的流程示意图；

图3为一个实施例中音画同步偏差容忍阈值的示意图；

图4为一个实施例中模型训练的流程示意图；

图5为另一个实施例中音画同步检测方法的流程示意图；

图6为一个实施例中在播放端进行音画同步检测的流程示意图；

图7为一个实施例中声音显著性检测模型的示意图；

图8为另一个实施例中在播放端进行音画同步检测的流程示意图；

图9为一个实施例中图像显著性检测模型的示意图；

图10为一个实施例中音画同步检测装置的结构框图；

图11为一个实施例中计算机设备的内部结构图；

图12为另一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的音画同步检测方法，可以应用于如图1所示的应用环境中。其中，视频制作端102通过网络与服务器104进行通信，服务器104通过网络和视频播放端106进行通信，视频制作端102也可以通过网络与视频播放端106进行通信。视频制作端102用于制作视频、编辑视频。服务器104用于存储视频。视频播放端106用于播放视频。视频制作端102可以将生成的视频发送至服务器104进行存储。视频播放端106可以从服务器104获取视频进行播放，也可以从视频制作端102获取视频进行播放。可以理解，视频制作端和视频播放端之间可以相互转换，即视频制作端也可以作为视频播放端，视频播放端也可以作为视频制作端。

视频制作端102和视频播放端106为终端，终端具体可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备，物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。终端上可以设有应用程序，该应用程序可以是指安装在终端中的客户端，客户端(又可称为应用客户端、APP客户端)是指安装并运行在终端中的程序；应用程序也可以是指免安装的应用程序，即无需下载安装即可使用的应用程序，这类应用程序又俗称小程序，它通常作为子程序运行于客户端中；应用程序还可以是指通过浏览器打开的web应用程序；等等。上述各种应用程序按照其提供的应用功能来进行划分，应用程序的类型可包括但不限于：视频编辑应用程序、即时通信应用程序、视频播放应用程序等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群或者云服务器来实现。

终端和服务器均可单独用于执行本申请实施例中提供的音画同步检测方法。

例如，视频播放端在本地获取目标视频，从目标视频中提取目标图像数据和目标声音数据。视频播放端基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息。其中，图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，声音显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的声音数据。视频播放端基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

服务器在本地获取目标视频，从目标视频中提取目标图像数据和目标声音数据，基于图像显著性检测模型对目标图像数据进行显著性检测，得到图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到声音显著时间信息。服务器基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

终端和服务器也可协同用于执行本申请实施例中提供的音画同步检测方法。

例如，视频播放端从服务器获取目标视频，视频播放端从目标视频中提取目标图像数据和目标声音数据，基于图像显著性检测模型对目标图像数据进行显著性检测，得到图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到声音显著时间信息。视频播放端基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

视频制作端在生成视频时，基于对视频的编辑操作为视频中的图像或声音添加显著性标记，从而视频的图像数据或声音数据可以携带显著性标记和显著性标记对应的时间信息。视频制作端将携带显著性标记和显著性标记对应的时间信息的视频发送至服务器。视频播放端从视频制作端或服务器获取目标视频，从目标视频中提取目标图像数据和目标声音数据。视频播放端从目标图像数据和目标声音数据中确定第一数据和第二数据，第一数据携带显著性标记和显著性标记对应的第一显著时间信息，第一显著时间信息是在视频制作端生成的。视频播放端基于第二数据对应的显著性检测模型，对第二数据进行显著性检测，得到第二显著时间信息。视频播放端基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

本发明实施例可应用于云技术、人工智能、智慧交通、辅助驾驶、音视频等各种场景。

在一个实施例中，如图2所示，提供了一种音画同步检测方法，以该方法应用于计算机设备来举例说明，该计算机设备可以是上述图1中的视频播放端106或服务器104。参考图2，音画同步检测方法包括以下步骤：

步骤S202，获取目标视频，从目标视频中提取目标图像数据和目标声音数据。

其中，目标视频可以是待播放的视频，也就是，可以在视频播放前事先对视频进行音画同步检测确定音画同步检测结果。例如，基于音画同步检测结果可以对视频进行筛选，过滤掉音画不同步的低质量视频，只向视频观看者展示音画同步的高质量视频。目标视频也可以是正在播放的视频，也就是，可以在视频播放时对视频进行音画同步检测实时确定音画同步检测结果。例如，在视频播放过程中，一旦检测出音画不同步则自动对视频进行音画偏差纠正以提高播放质量。

目标图像数据是从目标视频中提取的图像数据，用于表示视频的图像信息。目标声音数据是从目标视频中提取的声音数据，用于表示视频的声音信息。目标图像数据可以包括目标视频的完整图像信息，也可以包括目标视频的部分图像信息，目标声音数据可以包括目标视频的完整声音信息，也可以包括目标视频的部分声音信息。

具体地，计算机设备可以在本地或从其他设备上获取目标视频，从目标视频中提取出目标图像数据和目标声音数据，对目标图像数据和目标声音数据进行显著性检测，基于目标图像数据和目标声音数据的显著性检测结果确定目标视频对应的音画同步检测结果。

步骤S204，基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息；其中，图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，声音显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的声音数据。

其中，图像显著性检测模型用于对图像数据进行显著性检测。图像显著性检测模型的输入数据为至少一帧图像数据，输出数据为输入数据中是否有存在显著性特征的图像帧以及存在显著性特征的图像帧对应的图像帧时间戳。声音显著性检测模型用于对声音数据进行显著性检测。声音显著性检测模型的输入数据为至少一帧声音数据，输出数据为输入数据中是否有存在显著性特征的声音帧以及存在显著性特征的声音帧对应的声音帧时间戳。

图像显著性检测模型和声音显著性检测模型的训练样本是成对构造的。可以从音画同步的图像声音数据对中获取图像数据作为图像显著性检测模型的训练样本，从音画同步的图像声音数据对中获取声音数据作为声音显著性检测模型的训练样本。音画同步的图像声音数据对是指已知音画同步的图像数据和声音数据。例如，可以将同一显著情景对应的图像数据和声音数据作为音画同步的图像声音数据对。显著情景是指图像和声音均具有显著性特征的情景，例如，可以将伴随着打雷轰鸣声的打雷闪电情景作为显著情景。显著情景可以认为是能够同时在视觉和听觉上对视频观看者产生刺激。基于成对构造的训练样本训练得到的图像显著性检测模型和声音显著性检测模型可以很好地模拟现实中人们对于客观世界上画面与声音关联性的先验性认知，从而可以提高音画同步检测的准确性。

显著性特征是指视觉关注度或听觉关注度较高的特征。具备显著性特征的图像帧和声音帧是指视觉关注度和听觉关注度较高的图像帧和声音帧，可以认为是视频观看者在视频中比较感兴趣的图像和声音。例如，存在显著性特征的图像帧可以是场景切换帧，场景切换帧会引起视频观看者的注意，场景切换帧的视觉关注度较高。

图像显著时间信息是指存在显著性特征的图像帧对应的图像帧时间戳。声音显著时间信息是指存在显著性特征的图像帧对应的声音帧时间戳。

具体地，计算机设备可以在本地或从其他设备上获取图像显著性检测模型，将目标图像数据输入图像显著性检测模型进行显著性检测，通过模型内部的数据处理，模型输出目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息。计算机设备可以在本地或从其他设备上获取声音显著性检测模型，将目标声音数据输入声音显著性检测模型进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息。

可以理解，以图像显著性检测模型为例，图像显著性检测模型可以输出目标图像数据中至少一个存在显著性特征的图像帧所对应的图像帧时间戳，也就是，图像显著时间信息可以包括至少一个图像帧时间戳。

步骤S206，基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

具体地，计算机设备可以基于图像显著时间信息和声音显著时间信息之间的时间差异来确定目标视频对应的音画同步检测结果。

在一个实施例中，基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果，包括：当时间差异小于或等于音画同步阈值时，确定音画同步检测结果为音画同步；当时间差异大于音画同步阈值时，确定音画同步检测结果为音画不同步。

具体地，计算机设备可以将图像显著时间信息和声音显著时间信息之间的时间差异与音画同步阈值进行比较，根据比较结果确定音画同步检测结果。若时间差异小于或等于音画同步阈值，表明存在显著性特征的图像帧和声音帧之间的时间差异较小，可以认为存在显著性特征的图像帧和声音帧是同一显著情景对应的图像和声音，从视觉和听觉对视频观看者造成冲击和刺激是同步的，此时可以确定音画同步检测结果为音画同步。若时间差异大于音画同步阈值，表明存在显著性特征的图像帧和声音帧之间的时间差异较大，从视觉和听觉对视频观看者造成冲击和刺激是不同步的，此时可以确定音画同步检测结果为音画不同步。其中，音画同步阈值可以根据实际需要进行设置。

在一个实施例中，参考图3，定义了音画同步偏差可容忍度的3个等级及其对应的阈值范围。最优的等级C为不可感知(Undetectability)，此时视频观看者完全没感觉到有任何音画不同步的发生，其偏差范围为+25ms～-100ms，即当声音最快领先图像25ms或者最迟落后图像100ms时，视频观看者是没有感知上述偏差存在的。中间的等级B为可感知(Detectability)，此时视频观看者能感知到音画偏差的存在、但没有造成很大的困扰，其误差范围是+45ms～-125ms，用户勉强能接受。最低的等级A为可接受(Acceptability)，误差范围是+90ms～-185ms。如果音画偏差范围超过了Acceptability定义范围，则说明已经出现了明显的不同步现象，严重影响用户的观影体验。可以理解，音画同步阈值可以是基于任意一个等级确定的，例如，可以基于最低等级对应的音画偏差范围确定音画同步阈值，音画同步阈值为275ms。

在一个实施例中，图像显著时间信息可以包括多个图像帧时间戳，声音显著时间信息可以包括多个声音帧时间戳。计算机设备可以将时间差异小于或等于音画同步阈值的图像帧时间戳和声音帧时间戳作为匹配数据。计算机设备可以将图像显著时间信息和声音显著时间信息进行匹配，若各个图像帧时间戳均可以找到匹配的声音帧时间戳，则确定音画同步检测结果为音画同步。进一步的，计算机设备还可以根据匹配数据所占的比例确定音画同步检测结果。例如，若匹配数据所占的比例大于第一阈值，则确定音画同步检测结果为音画同步(第一等级)，若匹配数据所占的比例大于第二阈值、且小于或等于第一阈值，则确定音画同步检测结果为音画勉强同步(第二等级)，若匹配数据所占的比例小于或等于第二阈值，则确定音画同步检测结果为音画不同步(第三等级)。当然，可以根据实际需要设置更多的等级，进行更精细的划分。

在确定音画同步检测结果后，若音画同步检测结果为音画不同步，计算机设备可以将音画同步检测结果展示给视频观看者，提示视频观看者上报音画同步异常问题，计算机设备也可以自动将音画同步检测结果上报至预设服务器或预设终端。若音画同步检测结果为音画不同步，计算机设备也可以自动对视频进行音画同步纠正。

在视频推荐场景下，计算机设备可以获取待推荐视频作为目标视频，基于待推荐视频的音画同步检测结果对待推荐视频进行分类，划分为音画同步的高质量视频和音画不同步的低质量视频，计算机设备可以从多个待推荐视频中过滤掉音画不同步的低质量视频，将音画同步的高质量视频推荐给目标对象对应的终端，以提高视频推荐的质量，避免向目标对象推荐低质量的视频推荐。其中，视频推荐可以是主动向目标对象进行推荐，也可以是被动向目标对象进行推荐，例如，基于目标对象的搜索语句向目标对象进行视频推荐。

在一个实施例中，目标视频可能包含多条音频码流，例如，视频包括汉语、英语、日语等多语言音轨。在进行音画同步检测时，可以将目标图像数据对应的图像显著时间信息分别和各条音频码流对应的目标音频数据的声音显著时间信息进行比较，确定各条音频码流分别对应的音画同步检测子结果，最终基于各条音频码流分别对应的音画同步检测子结果确定音画同步检测结果。例如，可以若任意一个音画同步检测子结果为音画不同步，则音画同步检测结果为音画不同步。也可以音画同步检测结果包括各条音频码流分别对应的音画同步检测子结果，在展示音画同步检测结果时，展示各条音频码流分别对应的音画同步检测子结果。

上述音画同步检测方法中，通过获取目标视频，从目标视频中提取目标图像数据和目标声音数据，基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息，其中，图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，声音显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的声音数据，基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。这样，不需要参考原始视频，基于目标视频的自身信息就可以确定目标视频对应的音画同步检测结果，提高了音画同步检测的效率。并且，基于模型对图像数据和声音数据进行显著性检测可以自动智能地查找出视频中特征显著的图像帧对应的显著时间点和特征显著的声音帧对应的显著时间点，有助于提高音画同步检测的检测准确性和效率。进一步的，用于进行显著性检测的图像显著性检测模型和声音显著性检测模型的训练样本是成对构造的，是基于同一图像声音数据对生成的，基于这样的训练样本进行模型训练可以促使模型查找到的图像显著时间点和声音显著时间点是同一显著情景对应的，从而进一步提高音画同步检测的检测准确性。

在一个实施例中，从目标视频中提取目标图像数据和目标声音数据，包括：对目标视频进行解码处理，得到初始图像数据和初始声音数据；将初始图像数据和初始声音数据分别写入图像缓存区和音频缓存区；从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据。

所述方法还包括：从图像缓存区和音频缓存区中读取图像数据和声音数据进行播放。

其中，图像缓存区用于缓存图像数据，音频缓存区用于缓存音频数据。图像缓存区和音频缓存区中的数据用于输出进行渲染播放。

具体地，计算机设备可以在播放目标视频的时候，对目标视频进行音画同步检测。目标视频可以是边缓存边播放的，计算机设备可以对目标视频进行解码处理，得到初始图像数据和初始声音数据，将初始图像数据和初始声音数据分别写入图像缓存区和音频缓存区，初始图像数据和初始声音数据在图像缓存区和音频缓存区中等待被读取播放。计算机设备可以从图像缓存区和音频缓存区中读取图像数据和声音数据进行播放，实现视频的播放。

其中，在进行解码处理时，计算机设备可以先将目标视频解析为图像数据流和声音数据流，再基于对应的解码器分别对图像数据流和声音数据流进行解码，得到初始图像数据和初始声音数据。在进行音画同步检测时，计算机设备可以从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据，例如，可以将图像缓存区中的所有数据作为目标图像数据，也可以将图像缓存区中的部分数据作为目标图像数据。

可以理解，若目标视频是边缓存边播放的，图像缓存区和音频缓存区中的数据是实时更新的，可以持续从图像缓存区和音频缓存区中获取数据来进行音画同步检测，一旦音画同步检测结果为音画不同步，则进行信息提示或进行音画同步纠正。

在一个实施例中，当图像缓存区中的已缓存数据量大于第一阈值、音频缓存区中的已缓存数据量大于第二阈值时，从图像缓存区和音频缓存区中读取图像数据和声音数据进行播放。

具体地，当图像缓存区中的已缓存数据量大于第一阈值、音频缓存区中的已缓存数据量大于第二阈值时，表明当前缓存的数据已经可以支持一段时间的视频连续播放，此时，计算机设备再从图像缓存区和音频缓存区中读取图像数据和声音数据进行播放，可以有效避免直接解码播放视频造成的视频卡顿。

可以理解，目标视频可以是边解码边缓存边播放的，将解码得到的图像数据和声音数据持续输入图像缓存区和音频缓存区，若图像缓存区和音频缓存区中的已缓存数据量达到对应的阈值，则从图像缓存区和音频缓存区中持续读取数据进行播放。

其中，第一阈值和第二阈值可以相同可以不同，第一阈值和第二阈值可以根据实际需要进行设置。

在一个实施例中，第一阈值和第二阈值可以根据历史视频播放记录确定，例如，第一阈值和第二阈值可以根据当前视频观看者的历史视频播放记录中的平均视频播放速率确定。平均视频播放速率是基于各个历史播放视频分别对应的播放速率确定的。可以理解，平均视频播放速率越大，则第一阈值和第二阈值越大。

上述实施例中，可以对正在播放的视频进行音画同步检测，在进行音画同步检测时，从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据。

在一个实施例中，从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据，包括：

从图像缓存区和音频缓存区中多次抽取数据，得到多组目标数据；目标数据包括同步抽取的目标图像数据和目标声音数据。

具体地，若目标视频是边缓存边播放的，图像缓存区和音频缓存区中的数据是实时更新的。计算机设备可以从图像缓存区和音频缓存区中多次抽取数据，得到多组目标数据，一组目标数据包括同步抽取的目标图像数据和目标声音数据。例如，可以每播放5s视频，从图像缓存区和音频缓存区中抽取1s的图像数据和声音数据作为目标图像数据和目标声音数据，每次抽取出的目标图像数据和目标声音数据作为一组目标数据，经过多次抽取可以得到多组目标数据。

在一个实施例中，同一组目标数据中的目标图像数据和目标声音数据可以是同一段时间对应的图像数据和声音数据，例如，目标图像数据和目标声音数据是视频的第1s至第2s对应的图像数据和声音数据。进一步的，同一组目标数据中的目标图像数据和目标声音数据对应的时间段可以根据音画同步阈值确定。这样，每次从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据后，若将目标图像数据和目标声音数据输入对应的模型，模型均输出了图像显著时间信息和声音显著时间信息，则可以直接确定图像显著时间信息和声音显著时间信息之间的时间差异小于或等于音画同步阈值。因此，若将目标图像数据和目标声音数据输入对应的模型，模型均输出了图像显著时间信息和声音显著时间信息，则无需进行时间比较，可以直接确定音画同步检测结果为音画同步。

基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果，包括：

基于同一组目标数据对应的图像显著时间信息和声音显著时间信息之间的时间差异确定音画同步检测子结果，得到各组目标数据分别对应的音画同步检测子结果；基于各个音画同步检测子结果，确定音画同步检测结果。

具体地，每次抽取数据后，可以及时对目标数据进行显著性检测，基于显著性检测得到音画同步检测子结果，最终可以得到每组目标数据分别对应的音画同步检测子结果。计算机设备可以将同一组目标数据中的目标图像数据和目标声音数据分别输入图像显著性检测模型和声音显著性检测模型，得到同一组目标数据对应的图像显著时间信息和声音显著时间信息。进而，计算机设备基于同一组目标数据对应的图像显著时间信息和声音显著时间信息之间的时间差异确定音画同步检测子结果。最终，计算机设备基于各组目标数据分别对应的音画同步检测子结果确定目标视频对应的最终音画同步检测结果，例如，若各个音画同步检测子结果中超过预设比例的音画同步检测子结果为音画不同步，则最终的音画同步检测结果为音画不同步。预设比例可以根据实际需要进行设置，例如，设置为30％。

可以理解，若目标视频是先缓存后播放的，那么计算机设备也可以采取上述抽样检测的方式确定最终的音画同步检测结果。针对待播放视频，计算机设备也可以采取上述抽样检测的方式确定最终的音画同步检测结果。

上述实施例中，从图像缓存区和音频缓存区中多次抽取数据来进行音画同步检测，通过抽样检测的方式确定目标视频的音画同步检测结果，能够在保障检测准确性的情况下减轻数据处理压力。

在一个实施例中，图像缓存区和音频缓存区的缓存容量是根据音画同步阈值确定的。

其中，缓存容量是指图像缓存区和音频缓存区的最大缓存数据量。

具体地，计算机设备可以根据音画同步阈值来确定图像缓存区和音频缓存区的缓存容量。例如，计算机设备可以将图像缓存区和音频缓存区的缓存容量设置为音画同步阈值，从而计算机设备每次从图像缓存区和音频缓存区中抽取数据时可以直接获取图像缓存区和音频缓存区中的所有数据作为目标图像数据和目标声音数据。进一步的，若将目标图像数据和目标声音数据输入对应的模型，模型均输出了图像显著时间信息和声音显著时间信息，则可以直接确定图像显著时间信息和声音显著时间信息之间的时间差异小于或等于音画同步阈值，音画同步检测子结果为音画同步。

上述实施例中，根据音画同步阈值确定图像缓存区和音频缓存区的缓存容量，可以提高音画同步检测效率。

在一个实施例中，若当前处理数据为目标图像数据，则当前显著性检测模型为图像显著性检测模型，若当前处理数据为目标声音数据，则当前显著性检测模型为声音显著性检测模型。

基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息，包括：

对当前处理数据中的各个数据帧进行卷积处理，得到初始数据特征；初始数据特征包括各个数据帧分别对应的初始子特征；对初始数据特征中的各个初始子特征进行特征交互，得到目标数据特征；目标数据特征包括各个数据帧分别对应的目标子特征；基于目标数据特征得到当前处理数据对应的显著性预测特征；当前处理数据对应的显著性预测特征包括各个数据帧分别对应的显著性预测概率；基于当前处理数据对应的显著性预测特征，从各个数据帧中确定存在显著性特征的目标数据帧，将目标数据帧对应的数据帧时间信息作为当前处理数据中存在显著性特征的数据帧对应的数据显著时间信息。

可以理解，图像显著性检测模型和声音显著性检测模型的数据处理过程类似，因此，以当前显著性检测模型和当前处理数据为例说明模型的数据处理过程。若当前处理数据为目标图像数据，则当前显著性检测模型为图像显著性检测模型，若当前处理数据为目标声音数据，则当前显著性检测模型为声音显著性检测模型。

具体地，当前显著性检测模型获取到当前处理数据后，模型可以对当前处理数据中的各个数据帧进行卷积处理，基于数据帧自身的信息提取数据帧的特征，得到初始数据特征。初始数据特征包括各个数据帧分别对应的初始子特征。进一步的，模型可以对初始数据特征中的各个初始子特征进行特征交互，基于数据帧之间的关联、差异更新数据帧的特征，得到目标数据特征。目标数据特征包括各个数据帧分别对应的目标子特征。可以理解，目标数据特征包含了各个数据帧浅层和深层的语义信息，基于数据帧的语义信息可以判断数据帧是否存在显著性特征。因此，模型可以基于目标数据特征得到当前处理数据对应的显著性预测特征，当前处理数据对应的显著性预测特征包括各个数据帧分别对应的显著性预测概率。模型具体可以对目标数据特征中各个目标子特征进行归一化处理，将目标子特征转换为显著性预测概率，从而得到显著性预测特征。最终，模型可以基于当前处理数据对应的显著性预测特征，从各个数据帧中确定存在显著性特征的目标数据帧，将目标数据帧对应的数据帧时间信息作为数据显著时间信息，输出数据显著时间信息。例如，若显著性预测概率越大，表明显著性越强，则可以将显著性预测概率大于预设阈值的数据帧作为存在显著性特征的目标数据帧。

可以理解，若模型基于当前处理数据对应的显著性预测特征，确定各个数据帧中没有存在显著性特征的目标数据帧，则模型可以输出无显著性存在的标记。

在一个实施例中，当前显著性检测模型包括卷积网络、全连接网络和输出网络。将当前处理数据输入当前显著性检测模型后，可以通过卷积网络对当前处理数据中的各个数据帧进行卷积处理，得到初始数据特征，通过全连接网络对初始数据特征中的各个初始子特征进行特征交互，得到目标数据特征，通过输出网络基于目标数据特征得到当前处理数据对应的显著性预测特征，基于当前处理数据对应的显著性预测特征，从各个数据帧中确定存在显著性特征的目标数据帧，将目标数据帧对应的数据帧时间信息作为数据显著时间信息，模型最终输出数据显著时间信息。

上述实施例中，在模型中，对当前处理数据中的各个数据帧进行卷积处理提取特征得到初始数据特征，对初始数据特征中的各个初始子特征进行特征交互融合特征得到目标数据特征，基于目标数据特征得到显著性预测特征，基于显著性预测特征可以快速从各个数据帧中确定存在显著性特征的目标数据帧，将目标数据帧对应的数据帧时间信息作为数据显著时间信息。

在一个实施例中，当前显著性检测模型为图像显著性检测模型或声音显著性检测模型。如图4所示，计算机设备训练当前显著性检测模型的过程包括以下步骤：

步骤S402，获取多个音画同步和音画不同步的图像声音数据对。

步骤S404，从图像声音数据对中获取目标维度的数据作为目标训练样本；目标训练样本存在对应的训练标记；训练标记包括无显著性和有显著性，有显著性的训练标记还包括对应的训练数据帧，训练数据帧为目标训练样本中存在显著性特征的数据帧。

其中，音画同步的图像声音数据对是指已知音画同步的图像数据和声音数据。音画不同步的图像声音数据对是指已知音画不同步的图像数据和声音数据。

具体地，计算机设备可以获取多个音画同步和音画不同步的图像声音数据对，基于音画同步和音画不同步的图像声音数据对建立图像显著性检测模型和声音显著性检测模型对应的训练样本。计算机设备可以从图像声音数据对中获取图像数据作为图像显著性检测模型的训练样本，获取声音数据作为声音显著性检测模型的训练样本。

以当前显著性检测模型为例说明模型的数据处理过程，当前显著性检测模型为图像显著性检测模型或声音显著性检测模型，若当前显著性检测模型为图像显著性检测模型，则目标维度的数据为图像数据，若当前显著性检测模型为声音显著性检测模型，则目标维度的数据为声音数据。

为了训练得到当前显著性检测模型，计算机设备可以从音画同步和音画不同步的图像声音数据对中获取目标维度的数据作为目标训练样本。可以理解，目标训练样本存在对应的训练标记，训练标记为目标训练样本的监督信号。训练标记包括无显著性和有显著性，若训练标记为无显著性，则表示目标训练样本中没有存在显著性特征的数据帧，若训练标记为有显著性，则表示目标训练样本中有存在显著性特征的数据帧。有显著性的训练标记还包括对应的训练数据帧，训练数据帧为目标训练样本中存在显著性特征的数据帧。

步骤S406，从各个目标训练样本中确定当前训练样本。

步骤S408，将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记。

步骤S410，基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型，得到中间显著性检测模型。

步骤S412，将下一目标训练样本作为当前训练样本，将中间显著性检测模型作为初始显著性检测模型，返回将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记的步骤执行，直至满足收敛条件，得到当前显著性检测模型。

其中，初始显著性检测模型是指待训练的显著性检测模型。当前显著性检测模型是指训练完成的显著性检测模型。

具体地，在进行模型训练时，计算机设备可以采取有监督的迭代训练方式训练得到当前显著性检测模型。计算机设备可以从各个目标训练样本中确定当前训练样本，将当前训练样本输入待训练的显著性检测模型，得到当前训练样本对应的预测标记，基于当前训练样本对应的预测标记和训练标记，调整模型参数，进而，计算机设备可以将下一目标训练样本输入调整后的模型，得到下一目标训练样本对应的预测标记，基于下一目标训练样本对应的预测标记和训练标记，再次调整模型参数，如此迭代训练，直至满足收敛条件，表明训练完成，将最终调整得到的模型作为当前显著性检测模型。

针对任意一次训练过程，计算机设备可以将当前训练样本输入初始显著性检测模型，通过模型的数据处理，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记。例如，若当前训练样本对应的显著性预测特征预测出当前训练样本中有存在显著性特征的数据帧，则当前训练样本对应的预测标记为有显著性和对应的预测数据帧；若当前训练样本对应的显著性预测特征预测出当前训练样本中没有存在显著性特征的数据帧，则当前训练样本对应的预测标记为无显著性和无预测数据帧。计算机设备可以基于当前训练样本对应的训练标记和预测标记生成损失信息，将损失信息进行反向传播调整初始显著性检测模型的模型参数，得到中间显著性检测模型。

针对下一次训练过程，计算机设备可以将上一次调整得到的中间显著性检测模型作为新的初始显著性检测模型，将下一目标训练样本作为新的当前训练样本，将新的当前训练样本输入新的初始显著性检测模型，得到新的当前训练样本对应的预测标记，基于新的当前训练样本对应的训练标记和预测标记，调整新的初始显著性检测模型，得到新的中间显著性检测模型。

其中，收敛条件可以是损失信息小于预设损失值、模型迭代次数大于预设次数等中的至少一种。

在一个实施例中，计算机设备可以联合训练图像显著性检测模型和声音显著性检测模型。在联合训练时，计算机设备可以将从音画同步的图像声音数据对中确定的图像训练样本和声音训练样本作为匹配训练样本。以当前显著性检测模型为图像显著性检测模型为例，在基于图像训练样本对应的训练标记和预测标记调整初始显著性检测模型时，可以基于图像训练样本对应的训练标记和预测标记生成初始损失，获取与图像训练样本匹配的声音训练样本，基于该声音训练样本对应的训练标记和预测标记生成损失更新权重，基于损失更新权重调整初始损失得到目标损失，基于目标损失调整初始显著性检测模型的模型参数，得到中间显著性检测模型。这样，在调整任意一个模型参数的时候，参考另一个模型的损失信息可以促使两个模型进行模型对齐，提高模型的预测能力。

在一个实施例中，在基于当前训练样本对应的训练标记和预测标记计算损失信息时，可以将训练标记和预测标记分别转换为训练标记向量和预测标记向量，计算训练标记向量和预测标记向量之间的距离作为损失信息。任意一个标记向量包括有无显著性对应的向量和各个数据帧分别对应的是否存在显著性特征的向量，例如，训练标记向量中第一位数据表示目标训练样本是否有显著性，若有显著性，则第一位数据为1，若无显著性，则第一位数据为0，训练标记向量中其他位数据分别表示目标训练样本的各个数据帧是否存在显著性特征，一位数据对应一个数据帧，若某一数据帧存在显著性特征，则对应数据位的数据为1，若不存在显著性特征，则对应数据位的数据为0。而预测标记向量中的数据是经过模型处理得到的，数据取值在0～1之间。

上述实施例中，通过有监督的迭代训练方式可以快速训练得到图像显著性检测模型和声音显著性检测模型。

在一个实施例中，初始显著性检测模型包括全连接网络。基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型，得到中间显著性检测模型，包括：

从全连接网络对应的各个神经元中随机确定目标神经元；基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型中除目标神经元之外的其他模型参数，得到中间显著性检测模型。

具体地，在进行模型参数调整时，计算机设备可以从全连接网络对应的各个神经元中随机确定至少一个目标神经元，进而基于当前训练样本对应的训练标记和预测标记之间的差异只调整初始显著性检测模型中除目标神经元之外的其他模型参数，不调整初始显著性检测模型中目标神经元对应的模型参数，从而得到中间显著性检测模型。

可以理解，在基于不同的目标训练样本进行模型训练时，从全连接网络对应的各个神经元中确定的目标神经元可以相同可以不同。计算机设备可以每次都从全连接网络对应的各个神经元中随机确定目标神经元，保障目标神经元的选取随机性。每次从全连接网络中随机确定目标神经元，可以让网络结构每次都不一样，这样的训练方式相当于通过组合多个模型进行训练，能够有效地减少模型的过拟合，提高模型的鲁棒性。

上述实施例中，在调整模型参数时，从全连接网络对应的各个神经元中随机确定目标神经元，基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型中除目标神经元之外的其他模型参数，可以减少模型的过拟合，提高模型训练质量。

在一个实施例中，所述方法还包括：当音画同步检测结果为音画不同步时，基于图像显著时间信息和声音显著时间信息，从目标图像数据和目标声音数据中确定滞后数据；在播放目标图像数据和目标声音数据时，基于时间差异加速播放滞后数据。

具体地，在播放目标视频时，若目标视频的音画同步检测结果为不同步，计算机设备可以自动对目标视频进行音画纠正，以提高目标视频的播放质量。在进行音画同步纠正时，计算机设备可以基于图像显著时间信息和声音显著时间信息，从目标图像数据和目标声音数据中确定滞后数据，加速播放滞后数据以缩小音画差距。在进行加速播放时，计算机设备可以基于时间差异进行加速，让滞后数据追上另一数据即可停止加速播放。例如，若图像显著时间信息小于声音显著时间信息，说明存在显著性特征的图像帧会先播放，则滞后数据为目标声音数据，可以加速播放目标声音数据，让目标声音数据中存在显著性特征的声音帧能够和目标图像数据中存在显著性特征的图像帧同时播放，实现音画同步。

在一个实施例中，滞后数据的加速速度可以根据音画同步阈值来确定。例如，若音画同步阈值为音画同步偏差可容忍度的最优等级对应的音画偏差范围，则可以基于该音画偏差范围确定加速速度，以该加速速度对滞后数据进行加速播放，可以在视频观看者无感知的情况下追帧，在视频观看者无感知的情况下实现音画纠正。

上述实施例中，当音画同步检测结果为音画不同步时，基于图像显著时间信息和声音显著时间信息，从目标图像数据和目标声音数据中确定滞后数据，在播放目标图像数据和目标声音数据时，基于时间差异加速播放滞后数据，能够自动进行音画纠正。

在一个实施例中，如图5所示，所述方法还包括：

步骤S502，从目标图像数据和目标声音数据中确定第一数据和第二数据；第一数据携带显著性标记和显著性标记对应的第一显著时间信息，第一显著时间信息是在视频制作端生成的。

步骤S504，基于第二数据对应的显著性检测模型，对第二数据进行显著性检测，得到第二显著时间信息。

步骤S506，基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

具体地，除了同时基于图像显著性检测模型和声音显著性检测模型进行音画同步检测，还可以在视频制作端对任意一种数据进行显著性标记，服务器或视频播放端获取到目标视频后，基于目标视频中的显著性标记和模型对另一种数据的显著性检测结果进行音画同步检测，两种音画同步检测方式都可以确定各自的音画同步检测结果。进一步的，可以基于两种音画同步检测方式得到的音画同步检测结果综合确定目标视频的目标音画同步检测结果。

计算机设备获取目标视频后，可以从目标视频中提取目标图像数据和目标声音数据，基于图像显著性检测模型对目标图像数据进行显著性检测得到图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测得到声音显著时间信息，基于图像显著时间信息和声音显著时间信息之间的时间差异确定目标视频的第一音画同步检测结果。计算机设备还可以从目标图像数据和目标声音数据中确定携带显著性标记的第一数据和没有携带显著性标记的第二数据。第一数据不仅携带显著性标记，而且还携带显著性标记对应的第一显著时间信息。计算机设备可以获取第二数据对应的显著性检测模型，基于第二数据对应的显著性检测模型对第二数据进行显著性检测，得到第二显著时间信息，基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频的第二音画同步检测结果。最终，计算机设备基于第一音画同步检测结果和第二音画同步检测结果确定目标音画同步检测结果。

针对第二种音画同步检测方式，以第一数据为目标图像数据为例，视频制作端可以基于作用于目标视频的编辑操作确定目标视频中需要携带显著性标记的图像帧，将显著性标记跟随对应的图像帧进行编码，将编码后的目标视频传输至其他设备。视频播放端获取到目标视频的目标图像数据和目标声音数据后，可以从目标图像数据中将携带显著性标记的图像帧对应的图像帧时间戳作为第一显著时间信息。视频播放端可以基于声音显著性检测模型，对目标声音数据进行显著性检测，得到第二显著时间信息。计算机设备可以基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频的音画同步检测结果，例如，若第一显著时间信息和第二显著时间信息之间的时间差异小于或等于音画同步阈值，则确定音画同步检测结果为音画同步，若时间差异大于音画同步阈值，则确定音画同步检测结果为音画不同步。

其中，显著性检测模型的训练过程、基于显著性检测模型进行显著性检测的具体过程和确定音画同步检测结果的具体过程可以参考前述各个相关实施例的内容，此处不再赘述。

在确定目标音画同步检测结果时，可以是若第一音画同步检测结果和第二音画同步检测结果均为音画同步时，则确定目标音画同步检测结果为音画同步，若第一音画同步检测结果和第二音画同步检测结果中至少一个结果为音画不同步时，则确定目标音画同步检测结果为音画不同步。也可以是目标音画同步检测结果包括第一音画同步检测结果和第二音画同步检测结果，同步展示第一音画同步检测结果和第二音画同步检测结果。

上述实施例中，通过从目标图像数据和目标声音数据中确定第一数据和第二数据，第一数据携带显著性标记和显著性标记对应的第一显著时间信息，第一显著时间信息是在视频制作端生成的，基于第二数据对应的显著性检测模型，对第二数据进行显著性检测，得到第二显著时间信息，基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。这种音画同步检测方式同样不需要参考原始视频，基于目标视频的自身信息就可以确定目标视频对应的音画同步检测结果，提高了音画同步检测的效率，并且，基于模型对图像数据或声音数据进行显著性检测可以自动智能地查找出视频中特征显著的图像帧对应的显著时间点或特征显著的声音帧对应的显著时间点，有助于提高音画同步检测的检测准确性和效率。进一步的，基于两种音画同步检测方式得到的音画同步检测结果综合确定目标视频的目标音画同步检测结果，可以进一步提高音画同步检测的检测准确性。

在一个实施例中，所述方法还包括：当目标图像数据或目标声音数据的显著性检测结果为没有存在显著性特征的数据时，确定目标视频对应的音画同步检测结果为音画不同步。

具体地，将目标图像数据输入图像显著性检测模型，图像显著性检测模型可能会输出无显著性存在的标记，表明目标图像数据中没有存在显著性特征的图像帧。将目标声音数据输入声音显著性检测模型，声音显著性检测模型可能会输出无显著性存在的标记，表明目标声音数据中没有存在显著性特征的声音帧。如果一路数据有显著性，另一路数据没有显著性，也可以认为是一种音画异常，相当于画面和声音在这一刻对视频观看者的冲击力是不一样的，画面和声音是不匹配的。因此，当目标图像数据或目标声音数据的显著性检测结果为没有存在显著性特征的数据时，计算机设备可以确定目标视频对应的音画同步检测结果为音画不同步。

上述实施例中，当目标图像数据或目标声音数据的显著性检测结果为没有存在显著性特征的数据时，可以快速确定目标视频对应的音画同步检测结果为音画不同步。

在一个具体的实施例中，本申请的音画同步检测方法可以应用于视频播放应用程序，在视频播放端无原始片源作参考以及视频观看者无任何感知的条件下，自动检测当前播放视频是否音画同步。若音画同步检测结果为音画不同步，则可以在视频播放应用程序中弹出对话框提示视频观看者上报音画同步异常问题，或者对检测到的音画异常问题作数据上报。

由于视频中的图像数据是以一帧帧画面离散存在的，而音频数据理论上可以采用任意长的采样点个数构成一帧数据，所以可以以图像为同步对齐的基准进行音画同步检测。音画同步检测包括以下两个方案：

方案一：在片源端(即视频制作端)由创作者标记图像显著点的方案

参考图6，方案一涉及文件格式解析模块S11，视频数据解码模块S12，图像渲染模块S13，音频数据解码模块S14，声音渲染模块S15，声音数据存储模块S16，声音显著性检测模块S17和音画同步检测模块S18。

文件格式解析模块S11：负责从片源服务器获取播放视频文件，通过网络传输后下载到播放设备系统内部，并且根据视频文件格式规范解析为图像数据流和音频数据流。一般地，视频文件可以通过CDN(Content Delivery Network，内容分发网络)进行传输，文件传输协议可以采用各种传输协议，例如：HTTP(Hyper Text Transfer Protocol、超文本传输协议)、RTSP(Real Time Streaming Protocol，实时流传输协议)、HLS(HTTP LiveStreaming，基于HTTP的自适应码率流媒体传输协议)等。

视频数据解码模块S12：将S11输出的图像数据流，使用对应的解码器解码为原始图像数据，原始图像数据包括与图像帧关联的描述性数据。其中，视频片源的创作者在片源生产过程(例如剪辑、采编、调色等制作环节)中可根据片源画面的实际情况有选择性的在某些图像帧上附加图像显著性标记。例如，可以在镜头或者场景切换后的图像帧上附加图像显著性标记，创作者可以灵活判断什么画面会伴随声音的变化，以引起普通观众的注意。另外，关于图像显著性标记的插入，在视频编码时，在H.264/AVC(Advanced Video Coding，高级视频编码)、HEVC(High Efficiency Video Coding，高效率视频编码)等NAL封装码流中可以使用SEI类型的NAL单元来描述用户自定义数据，因此可以根据创作者的编辑操作将图像显著性标记定义在SEI类型的NAL单元中随视频码流进行封装。在视频编码时插入的图像显著性标记，在S12中可由解码器得到，并且由于图像显著性标记是严格跟随在对应图像帧数据内的，所以解码器获得图像显著性标记的同时，也可以获取到图像显著性标记的时间轴信息，知道图像显著性标记发生在片源中的什么时间点，确定图像显著时间点。

图像渲染模块S13：将S12解码输出的原始图像数据通过外设进行显示。

音频数据解码模块S14：将S11输出的音频数据流，使用对应的解码器解码得到原始声音数据。

声音渲染模块S15：将S14解码输出的原始声音数据通过外设进行显示。也可以从S16中获取原始声音数据通过外设进行显示。

声音数据存储模块S16：将S14最新解码输出的原始声音数据，按照FIFO(First InFirst Out，先进先出)规则顺序进行保存。特别地，S16需要保存的数据量可以覆盖音画时域偏差容忍度的最低等级对应的275ms音画偏差范围即可。从现有常见播放设备条件看，保存275ms的原始声音数据，对于设备上的存储模块(例如CPU片上缓存、内存、硬盘等)是完全可以实现的。

声音显著性检测模块S17：读取S16存储的声音数据，参考图7，使用一个预先训练的声音显著性检测模型根据S16中存储的当前时间段内的若干帧声音数据判定任意一帧声音数据是否包含显著性特征，以及包含显著性特征的声音帧发生的时间点。模型的输入数据包括第N-M帧至第N+L帧声音数据，输出数据为输入数据中是否存在声音显著性标记和声音显著时间点(即包含显著性特征的声音帧对应的时间戳)。其中，第N-M帧表示第N帧的前向帧，第N-M帧与第N帧相距M帧，第N+L帧表示第N帧的后向帧，第N+L帧与第N帧相距L帧。第N-M帧至第N+L帧声音数据表示一段连续的声音。N、M、L的具体数值可以根据实际需要进行设置。

音画同步检测模块S18：当S12有输出图像显著性标记时，则将其对应的图像显著时间点与S17输出的声音显著性时间点进行比对，如果两者之间偏差小于一定范围，则可认定此时观影是满足音画同步体验的，此时视频是音画同步的，反之，则判定发生了音画不同步。特别的，如果S12有输出图像显著性标记，但S17判定此时不存在声音显著性标记，则同样判定此时发生了音画不同步。

上述步骤流程循环进行，直至S11模块已经完整传输和解析了整个播放视频文件。

方案二：在播放端(即视频播放端)基于AI(Artificial Intelligence，人工智能)算法的图像和声音显著点识别的方案

参考图8，方案二涉及文件格式解析模块S21，视频数据解码模块S22，图像渲染模块S23，音频数据解码模块S24，声音渲染模块S25，声音数据存储模块S26，声音显著性检测模块S27、图像数据存储模块S28，图像显著性检测模块S29，音画同步检测模块S30。其中，文件格式解析模块S21、图像渲染模块S23、音频数据解码模块S24、声音渲染模块S25、声音数据存储模块S26和声音显著性检测模块S27与方案一中名称相同的模块功能相同，不再赘述。

视频数据解码模块S22：将S21输出的图像数据流，使用对应的解码器解码得到原始图像数据。

图像数据存储模块S28：将S22最新解码输出的原始图像数据，按照FIFO(First InFirst Out，先进先出)规则顺序进行保存。同样地，S28需要保存的数据量可以覆盖音画时域偏差容忍度的最低等级对应的275ms音画偏差范围即可。从现有常见播放设备条件看，保存275ms的原始图像数据，对于设备上的存储模块(例如CPU片上缓存、内存、硬盘等)是完全可以实现的。

图像显著性检测模块S29：读取S28存储的声音数据，参考图9，使用一个预先训练的图像显著性检测模型根据S28中存储的当前时间段内的若干帧图像数据判定任意一帧图像数据中是否包含显著性特征，以及发生的时间点。模型的输入数据包括第N-M帧至第N+L帧图像数据，输出数据为输入数据中是否存在图像显著性标记和图像显著时间点(即包含显著性特征的图像帧对应的时间戳)。可以理解，为了提高检测准确性，图像显著性检测模型和声音显著性检测模型的训练样本是成对构造的。第N-M帧至第N+L帧图像数据表示多张连续的图像。

音画同步检测模块S20：当S29判定存在图像显著性标记、且同时S27判定存在声音显著性标记时，则将S29、S27输出的图像显著时间点和声音显著时间点进行比对，如果两者之间偏差小于一定范围，则可认定此时观影是满足音画同步体验的，此时视频是音画同步的，反之，则判定发生了音画不同步。特别的，如果S29未判定存在图像显著性标记，可以跳过音画同步检测。或者，如果S29未判定存在图像显著性标记、但S27判定存在声音显著性标记，则判定此时发生了音画不同步。如果S29判定存在图像显著性标记、但S27判定此时不存在声音显著性标记，则判定此时发生了音画不同步。

上述步骤流程循环进行，直至S21模块已经完整传输和解析了整个播放视频文件。

而传统方案中，将原始片源作为可信任的、用于被参考的信号，并将其音画信号的偏移记为Δt，偏移的计算一般选取某个时间片段区域内视频和音频信号的波峰或者波谷所在的采样点进行相减得到。然后将片源经过待检测设备后再选取同样的视频和音频信号所在的波峰或者波谷所在的采样点进行相减后得到偏移为Δt'。最后，将原始片源的音画偏移和经过待检测设备后的音画偏移相减，记delta＝Δt'-Δt。当delta小于预先设定的阈值时，可判定经过待检测设备播放时音画是同步的；反之，则判定经过待检测设备播放时出现了音画不同步。

本申请提供了一种无参考的音画同步检测方法，无需使用原始片源作为参考，在播放端实现音画同步检测。由于无需真正意义上的原始片源，无需将原始片源中的音画时域偏差作为标准参考，本申请的音画同步检测方法可以实现对任意片源的音画同步检测。与传统有参考的方案不同，本申请的音画同步检测方法可以在播放端实施，所以覆盖的用户范围和设备类型没有任何限制，而有参考方案仅能针对特定设备进行。本申请的音画同步检测方法的实施无需音视频信号分离器和示波器等专门器材，实施成本明显更低。与传统方案一般参考音视频信号特征的时域偏移不同，本申请的音画同步检测方法引入了模型来寻找图像和声音显著性特征，更契合人类对于客观世界中影像和声音之间关系的先验性判定。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本申请实施例还提供了一种用于实现上述所涉及的音画同步检测方法的音画同步检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个音画同步检测装置实施例中的具体限定可以参见上文中对于音画同步检测方法的限定，在此不再赘述。

在一个实施例中，如图10所示，提供了一种音画同步检测装置，包括：数据获取模块1002、显著性检测模块1004和音画同步检测结果确定模块1006，其中：

数据获取模块1002，用于获取目标视频，从目标视频中提取目标图像数据和目标声音数据。

显著性检测模块1004，用于基于图像显著性检测模型对目标图像数据进行显著性检测，得到目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对目标声音数据进行显著性检测，得到目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息；其中，图像显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的图像数据，声音显著性检测模型的训练样本包括从音画同步的图像声音数据对中确定的声音数据。

音画同步检测结果确定模块1006，用于基于图像显著时间信息和声音显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

上述音画同步检测装置，不需要参考原始视频，基于目标视频的自身信息就可以确定目标视频对应的音画同步检测结果，提高了音画同步检测的效率。并且，基于模型对图像数据和声音数据进行显著性检测可以自动智能地查找出视频中特征显著的图像帧对应的显著时间点和特征显著的声音帧对应的显著时间点，有助于提高音画同步检测的检测准确性和效率。进一步的，用于进行显著性检测的图像显著性检测模型和声音显著性检测模型的训练样本是成对构造的，是基于同一图像声音数据对生成的，基于这样的训练样本进行模型训练可以促使模型查找到的图像显著时间点和声音显著时间点是同一显著情景对应的，从而进一步提高音画同步检测的检测准确性。

在一个实施例中，数据获取模块还用于对目标视频进行解码处理，得到初始图像数据和初始声音数据；将初始图像数据和初始声音数据分别写入图像缓存区和音频缓存区；从图像缓存区和音频缓存区中确定目标图像数据和目标声音数据。

音画同步检测装置还包括：

数据播放模块，用于从图像缓存区和音频缓存区中读取图像数据和声音数据进行播放。

在一个实施例中，数据获取模块还用于从图像缓存区和音频缓存区中多次抽取数据，得到多组目标数据；目标数据包括同步抽取的目标图像数据和目标声音数据。音画同步检测结果确定模块还用于基于同一组目标数据对应的图像显著时间信息和声音显著时间信息之间的时间差异确定音画同步检测子结果，得到各组目标数据分别对应的音画同步检测子结果；基于各个音画同步检测子结果，确定音画同步检测结果。

在一个实施例中，若当前处理数据为目标图像数据，则当前显著性检测模型为图像显著性检测模型，若当前处理数据为目标声音数据，则当前显著性检测模型为声音显著性检测模型。显著性检测模块还用于对当前处理数据中的各个数据帧进行卷积处理，得到初始数据特征；初始数据特征包括各个数据帧分别对应的初始子特征；对初始数据特征中的各个初始子特征进行特征交互，得到目标数据特征；目标数据特征包括各个数据帧分别对应的目标子特征；基于目标数据特征得到当前处理数据对应的显著性预测特征；当前处理数据对应的显著性预测特征包括各个数据帧分别对应的显著性预测概率；基于当前处理数据对应的显著性预测特征，从各个数据帧中确定存在显著性特征的目标数据帧，将目标数据帧对应的数据帧时间信息作为当前处理数据中存在显著性特征的数据帧对应的数据显著时间信息。

在一个实施例中，当前显著性检测模型为图像显著性检测模型或声音显著性检测模型。音画同步检测装置还包括：

模型训练模块，用于获取多个音画同步和音画不同步的图像声音数据对；从图像声音数据对中获取目标维度的数据作为目标训练样本；目标训练样本存在对应的训练标记；训练标记包括无显著性和有显著性，有显著性的训练标记还包括对应的训练数据帧，训练数据帧为目标训练样本中存在显著性特征的数据帧；从各个目标训练样本中确定当前训练样本；将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记；基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型，得到中间显著性检测模型；将下一目标训练样本作为当前训练样本，将中间显著性检测模型作为初始显著性检测模型，返回将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记的步骤执行，直至满足收敛条件，得到当前显著性检测模型。

在一个实施例中，初始显著性检测模型包括全连接网络。模型训练模块还用于从全连接网络对应的各个神经元中随机确定目标神经元；基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型中除目标神经元之外的其他模型参数，得到中间显著性检测模型。

在一个实施例中，音画同步检测结果确定模块还用于当时间差异小于或等于音画同步阈值时，确定音画同步检测结果为音画同步；当时间差异大于音画同步阈值时，确定音画同步检测结果为音画不同步。

在一个实施例中，数据播放模块还用于当音画同步检测结果为音画不同步时，基于图像显著时间信息和声音显著时间信息，从目标图像数据和目标声音数据中确定滞后数据；在播放目标图像数据和目标声音数据时，基于时间差异加速播放滞后数据。

在一个实施例中，数据获取模块还用于从目标图像数据和目标声音数据中确定第一数据和第二数据；第一数据携带显著性标记和显著性标记对应的第一显著时间信息；第一显著时间信息是在视频制作端生成的。显著性检测模块还用于基于第二数据对应的显著性检测模型，对第二数据进行显著性检测，得到第二显著时间信息。音画同步检测结果确定模块还用于基于第一显著时间信息和第二显著时间信息之间的时间差异，确定目标视频对应的音画同步检测结果。

在一个实施例中，音画同步检测结果确定模块还用于当目标图像数据或目标声音数据的显著性检测结果为没有存在显著性特征的数据时，确定目标视频对应的音画同步检测结果为音画不同步。

上述音画同步检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output，简称I/O)和通信接口。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储图像显著性检测模型、声音显著性检测模型等数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种音画同步检测方法。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中，处理器、存储器和输入/输出接口通过系统总线连接，通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种音画同步检测方法。该计算机设备的显示单元用于形成视觉可见的画面，可以是显示屏、投影装置或虚拟现实成像装置，显示屏可以是液晶显示屏或电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图11、12中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，还提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory，ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory，MRAM)、铁电存储器(Ferroelectric Random Access Memory，FRAM)、相变存储器(Phase Change Memory，PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory，DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种音画同步检测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述从所述目标视频中提取目标图像数据和目标声音数据，包括：

对所述目标视频进行解码处理，得到初始图像数据和初始声音数据；

将所述初始图像数据和所述初始声音数据分别写入图像缓存区和音频缓存区；

从所述图像缓存区和所述音频缓存区中确定所述目标图像数据和所述目标声音数据；

所述方法还包括：

从所述图像缓存区和所述音频缓存区中读取图像数据和声音数据进行播放。

3.根据权利要求2所述的方法，其特征在于，所述从所述图像缓存区和所述音频缓存区中确定所述目标图像数据和所述目标声音数据，包括：

从所述图像缓存区和所述音频缓存区中多次抽取数据，得到多组目标数据；所述目标数据包括同步抽取的目标图像数据和目标声音数据；

所述基于所述图像显著时间信息和所述声音显著时间信息之间的时间差异，确定所述目标视频对应的音画同步检测结果，包括：

基于同一组目标数据对应的图像显著时间信息和声音显著时间信息之间的时间差异确定音画同步检测子结果，得到各组目标数据分别对应的音画同步检测子结果；

基于各个音画同步检测子结果，确定所述音画同步检测结果。

4.根据权利要求2所述的方法，其特征在于，所述图像缓存区和所述音频缓存区的缓存容量是根据音画同步阈值确定的。

5.根据权利要求1所述的方法，其特征在于，若当前处理数据为所述目标图像数据，则当前显著性检测模型为所述图像显著性检测模型，若当前处理数据为所述目标声音数据，则当前显著性检测模型为所述声音显著性检测模型；

所述基于图像显著性检测模型对所述目标图像数据进行显著性检测，得到所述目标图像数据中存在显著性特征的图像帧对应的图像显著时间信息，基于声音显著性检测模型对所述目标声音数据进行显著性检测，得到所述目标声音数据中存在显著性特征的声音帧对应的声音显著时间信息，包括：

对所述当前处理数据中的各个数据帧进行卷积处理，得到初始数据特征；所述初始数据特征包括所述各个数据帧分别对应的初始子特征；

对所述初始数据特征中的各个初始子特征进行特征交互，得到目标数据特征；所述目标数据特征包括所述各个数据帧分别对应的目标子特征；

基于所述目标数据特征得到所述当前处理数据对应的显著性预测特征；所述当前处理数据对应的显著性预测特征包括所述各个数据帧分别对应的显著性预测概率；

基于所述当前处理数据对应的显著性预测特征，从所述各个数据帧中确定存在显著性特征的目标数据帧，将所述目标数据帧对应的数据帧时间信息作为所述当前处理数据中存在显著性特征的数据帧对应的数据显著时间信息。

6.根据权利要求1所述的方法，其特征在于，当前显著性检测模型为所述图像显著性检测模型或所述声音显著性检测模型；

所述当前显著性检测模型的训练过程包括以下步骤：

获取多个音画同步和音画不同步的图像声音数据对；

从所述图像声音数据对中获取目标维度的数据作为目标训练样本；所述目标训练样本存在对应的训练标记；所述训练标记包括无显著性和有显著性，有显著性的训练标记还包括对应的训练数据帧，所述训练数据帧为目标训练样本中存在显著性特征的数据帧；

从各个目标训练样本中确定当前训练样本；

将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记；

基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型，得到中间显著性检测模型；

将下一目标训练样本作为当前训练样本，将所述中间显著性检测模型作为初始显著性检测模型，返回所述将当前训练样本输入初始显著性检测模型，得到当前训练样本对应的显著性预测特征，基于当前训练样本对应的显著性预测特征确定当前训练样本对应的预测标记的步骤执行，直至满足收敛条件，得到所述当前显著性检测模型。

7.根据权利要求6所述的方法，其特征在于，所述初始显著性检测模型包括全连接网络，所述基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型，得到中间显著性检测模型，包括：

从所述全连接网络对应的各个神经元中随机确定目标神经元；

基于当前训练样本对应的训练标记和预测标记，调整初始显著性检测模型中除所述目标神经元之外的其他模型参数，得到中间显著性检测模型。

8.根据权利要求1所述的方法，其特征在于，所述基于所述图像显著时间信息和所述声音显著时间信息之间的时间差异，确定所述目标视频对应的音画同步检测结果，包括：

当所述时间差异小于或等于音画同步阈值时，确定所述音画同步检测结果为音画同步；

当所述时间差异大于音画同步阈值时，确定所述音画同步检测结果为音画不同步。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述音画同步检测结果为音画不同步时，基于所述图像显著时间信息和所述声音显著时间信息，从所述目标图像数据和所述目标声音数据中确定滞后数据；

在播放所述目标图像数据和所述目标声音数据时，基于所述时间差异加速播放所述滞后数据。

10.根据权利要求1所述的方法，其特征在于，所述方法还包括：

从所述目标图像数据和所述目标声音数据中确定第一数据和第二数据；所述第一数据携带显著性标记和所述显著性标记对应的第一显著时间信息；所述第一显著时间信息是在视频制作端生成的；

基于所述第二数据对应的显著性检测模型，对所述第二数据进行显著性检测，得到第二显著时间信息；

基于所述第一显著时间信息和所述第二显著时间信息之间的时间差异，确定所述目标视频对应的音画同步检测结果。

11.根据权利要求1至10任意一项所述的方法，其特征在于，所述方法还包括：

当所述目标图像数据或所述目标声音数据的显著性检测结果为没有存在显著性特征的数据时，确定所述目标视频对应的音画同步检测结果为音画不同步。

12.一种音画同步检测装置，其特征在于，所述装置包括：

13.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。

15.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。