CN114070955B

CN114070955B - 一种同步判断方法及装置、存储介质

Info

Publication number: CN114070955B
Application number: CN202111435142.7A
Authority: CN
Inventors: 蒲敏超; 邓朝明; 王彦琴
Original assignee: Hangzhou Douku Software Technology Co Ltd
Current assignee: Hangzhou Douku Software Technology Co Ltd
Priority date: 2021-11-29
Filing date: 2021-11-29
Publication date: 2023-06-20
Anticipated expiration: 2041-11-29
Also published as: CN114070955A

Abstract

本申请实施例提供了一种同步判断方法及装置、存储介质，包括：获取目标音视频数据和目标音视频数据对应的投屏数据；投屏数据为将目标音视频数据发送至投屏设备后播放的数据；分别对目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；分别确定一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度，以及一组第一视频数据段和一组第二视频数据段之间的一组图像相似度；根据一组声纹相似度和一组图像相似度，实现对投屏数据的音视频同步的判断。

Description

一种同步判断方法及装置、存储介质

技术领域

本申请涉及音视频领域，尤其涉及一种同步判断方法及装置、存储介质。

背景技术

音视频播放过程中通常会出现播放的声音和画面不同步的问题，当两者相差较大是，用户能够明显感知到这种区别，会影响用户的体验。目前，可以在检测到出现音画不同步时进行调整优化，但是无法衡量音视频数据的音画同步效果。

发明内容

本申请实施例提供一种同步判断方法及装置、存储介质，能够衡量出音视频数据的音画同步效果。

本申请的技术方案是这样实现的：

第一方面，本申请实施例提出一种同步判断方法，所述方法包括：

获取目标音视频数据和所述目标音视频数据对应的投屏数据；所述投屏数据为将所述目标音视频数据发送至投屏设备后播放的数据；

分别对所述目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；

分别确定所述一组第一音频数据段和所述一组第二音频数据段之间的一组声纹相似度，以及所述一组第一视频数据段和所述一组第二视频数据段之间的一组图像相似度；

根据所述一组声纹相似度和所述一组图像相似度，实现对所述投屏数据的音视频同步的判断。

第二方面，本申请实施例提出一种同步判断装置，所述装置包括：

获取单元，用于获取目标音视频数据和所述目标音视频数据对应的投屏数据；所述投屏数据为将所述目标音视频数据发送至投屏设备后播放的数据；

处理单元，用于分别对所述目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；

确定单元，用于分别确定所述一组第一音频数据段和所述一组第二音频数据段之间的一组声纹相似度，以及所述一组第一视频数据段和所述一组第二视频数据段之间的一组图像相似度；

同步判断单元，还用于根据所述一组声纹相似度和所述一组图像相似度，实现对所述投屏数据的音视频同步的判断。

第三方面，本申请实施例提出一种同步判断装置，所述终端包括：处理器、存储器及通信总线；所述处理器执行存储器存储的运行程序时实现如上述的同步判断方法。

第四方面，本申请实施例提出一种存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如述的同步判断方法。

本申请实施例提供了一种同步判断方法及装置、存储介质，该方法包括：获取目标音视频数据和目标音视频数据对应的投屏数据；投屏数据为将目标音视频数据发送至投屏设备后播放的数据；分别对目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；分别确定一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度，以及一组第一视频数据段和一组第二视频数据段之间的一组图像相似度；根据一组声纹相似度和一组图像相似度，实现对投屏数据的音视频同步的判断。采用上述实现方案，将目标音视频数据和投屏数据分别处理成一组第一音频数据段和一组第一视频数据段，以及一组第二音频数据段和一组第二视频数据段，然后通过对比音频数据段的声纹相似度和视频数据段的图像相似度，基于声纹相似度和图像相似度，共同对投屏数据的音视频同步程度进行判断，能够衡量音视频数据的音画同步效果。

附图说明

图1为本申请实施例提供的一种同步判断方法的流程图1；

图2(a)为本申请实施例提供的一种示例性的第一音视频数据进行划分得到的一组第一音频数据段和一组第一视频数据段的示意图；

图2(b)为本申请实施例提供的一种示例性的第二音视频数据进行划分得到的一组第二音频数据段和一组第二视频数据段的示意图；

图3为本申请实施例提供的一种示例性的声纹图像相似度和音视频同步程度之间的对应关系示例图；

图4为本申请实施例提供的一种同步判断装置的结构示意图一；

图5为本申请实施例提供的一种同步判断装置的结构示意图二。

具体实施方式

为了能够更加详尽地了解本申请实施例的特点与技术内容，下面结合附图对本申请实施例的实现进行详细阐述，所附附图仅供参考说明之用，并非用来限定本申请实施例。

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的，不是旨在限制本申请。

在以下的描述中，涉及到“一些实施例”，其描述了所有可能实施例的子集，但是可以理解，“一些实施例”可以是所有可能实施例的相同子集或不同子集，并且可以在不冲突的情况下相互结合。还需要指出，本申请实施例所涉及的术语“第一\第二\第三”仅是用于区别类似的对象，不代表针对对象的特定排序，可以理解地，“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序，以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。

本申请实施例提供一种同步判断方法，如图1所示，该方法可以包括：

S101、获取目标音视频数据和目标音视频数据对应的投屏数据；投屏数据为将目标音视频数据在投屏设备中播放后得到的数据。

本申请实施例提出的一种同步判断方法为在车载设备上进行音视频数据投屏的场景中对音视频同步的判断方法。

在本申请实施例中，目标音视频数据可以为经过音画同步优化的音视频数据。

本申请实施例中，同步判断方法对应的同步判断装置可以为智能手机、平板电脑、掌上电脑、移动台(Mobile Station，MS)、移动终端(Mobile Terminal)等等，还可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置，它们与无线接入网交换语音和/或数据。还可以为有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备，未来演进的网络中的终端设备等，本申请实施不作限定。

本申请实施例中，首先准备待执行音视频同步判断的目标音视频数据，该目标音视频数据中至少标记了一个预设时间点，在目标音视频数据中的每个预设时间点都对应设置预设的音频数据和图像数据(预设音画数据)，即在目标音视频数据到达预设时间点时会出现预设的音频数据和图像数据，之后将目标音视频数据发送至投屏设备中，投屏设备播放目标音视频数据对应的投屏数据，此时可使用录制设备录制该投屏数据，此时，可通过录制设备获取到目标音视频数据对应的投屏数据。

本申请实施例中，投屏设备可以为智能电视、车载显示设备等设备，具体的可以根据实际情况进行选择，本申请实施例不做具体的限定。

本申请实施例中，在获取到目标音视频数据和投屏数据后，可以对目标音视频数据和投屏数据分别进行格式化，其中格式化过程可以包括：数据筛选、数据格式化、数据裁剪和数据优化等方式。

本申请实施例中，可以对标音视频数据和投屏数据分别进行解析，得到目标音视频数据对应的目标音频数据和目标视频数据、投屏数据对应的投屏音频数据和投屏视频数据；之后，基于预设时间间隔将目标音频数据和目标视频数据进行划分，得到一组目标音频数据段和一组目标视频数据段；基于预设时间间隔将投屏音频数据和投屏视频数据进行划分，得到一组投屏音频数据段和一组投屏视频数据段。其中每一个数据段代表该段预设时间间隔内的所有数据。

示例性的，基于预设时间间隔将目标视频数据平均分成N段，得到一组目标视频数据段(F1，F2，……，FN)；基于预设时间间隔将目标音频数据平均分成N段，得到一组目标音频数据段(W1，W2，……，WN)；基于预设时间间隔将投屏视频数据平均分成N段，得到一组投屏视频数据段(F'1，F'2……F'N)；基于预设时间间隔将投屏音频数据平均分成N段，得到一组投屏音频数据段(W'1，W'2，……，W'N)。

S102、分别对目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段。

需要说明的是，为了对音视频同步的判断的准确性，需要将音视频数据和投屏数据的起始时间进行同步处理，故，从投屏数据中查找预设音画数据对应的播放时间点，此时，投屏数据在播放时间点播放的音视频内容与目标音视频数据在预设时间点播放的音视频内容一致。

本申请实施例中，将预设时间点作为目标音视频数据的音视频同步判断起始点，将目标时间点作为投屏数据的音视频同步判断起始点。即从目标音视频数据中，获取预设时间点后的音视频数据段；从投屏数据中，获取播放时间点后的投屏数据段。

本申请实施例中，从音视频数据段和投屏数据段中，查找时长最小的第一数据段；基于第一数据段的时长，从音视频数据段中确定第一终止时间点，并从音视频数据段中，获取第一终止时间点前的第一音视频数据；基于第一数据段的时长，从投屏数据段中确定第二终止时间点，并从投屏数据段中，获取第二终止时间点前的第二音视频数据。

需要说明的是，若第一数据段为音视频数据段，则将音视频数据段确定为第一音视频数据，并按照音视频数据段的时长，从投屏数据段的起始位置开始、截取一段数据段作为第二音视频数据；若第一数据段为投屏数据段，则将投屏数据段确定为第二音视频数据，并按照投屏数据段的时长，从音视频数据段的起始位置开始、截取一段数据段作为第一音视频数据。

需要说明的是，由于音视频数据包括目标音频数据和目标视频数据，投屏数据包括投屏音频数据和投屏视频数据；故，上述基于预设时间待和播放时间点，从目标音视频数据中确定出的第一音视频数据同样包括第一音频数据和第一视频数据、从投屏数据中确定出的第二音视频数据同样包括第二音频数据和第二视频数据。

在本申请实施例中，在确定出第一音视频数据和第二音视频数据后，按照预设时间间隔，确定第一音视频数据中的第一音频数据对应的一组第一音频数据段、确定第一音视频数据中的第一视频数据对应的一组第一视频数据段；按照预设时间间隔，确定第二音视频数据中的第二音频数据对应的一组第二音频数据段、确定第二音视频数据中的第二视频数据对应的一组第二视频数据段。

需要说明的是，由于已经基于预设时间间隔，将目标音频数据划分为一组目标音频数据段、将目标视频数据划分为一组目标视频数据段；基于预设时间间隔，将投屏音频数据划分为一组投屏音频数据段、将投屏视频数据划分为一组投屏视频数据段，则可以从一组目标音频数据段中确定第一音频数据对应的一组第一音频数据段，从一组目标视频数据段中确定第一视频数据对应的一组第一视频数据段，从一组投屏音频数据段中确定第二音频数据对应的一组第二音频数据段，从一组投屏音频数据段中确定第二音频数据对应的一组第二音频数据段。并重新对一组第一音频数据段、一组第一视频数据段、一组第二音频数据段、一组第二视频数据段进行编号。

示例性的，如图2(a)所示，按照预设时间间隔，确定出的一组第一视频数据段为(F1，F2，F3，……，FM)、一组第一音频数据段为(W1，W2，W3，……，WM)，其中，每一个第一视频数据段包括图像帧1、图像帧2、图像帧3和图像帧4这4帧图像数据；如图2(b)所示，按照预设时间间隔，确定出的一组第二视频数据段为(F'1，F'2，F'3……F'M)、一组第二音频数据段为(W'1，W'2，W'3，……，W'M)，其中，每一个第一视频数据段包括图像帧1、图像帧2、图像帧3和图像帧4这4帧图像数据。

S103、分别确定一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度，以及一组第一视频数据段和一组第二视频数据段之间的一组图像相似度。

在本申请实施例中，利用预设音频相似性算法，依次确定一组第一音频数据段和一组第二音频数据段中、处于同一位置的第一音频数据段与第二音频数据段之间的一个声纹相似度，得到一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度。

在本申请实施例中，可以利用客观语音质量评估(Perceptual Evaluation ofSpeech Quality，PESQ)算法等预设音频相似性算法，确定一组第一音频数据段和一组第二音频数据段中、处于同一位置的第一音频数据段与第二音频数据段之间的一个声纹相似度。

示例性的，针对(W1，W2，……，WM)和(W'1，W'2，……，W'M)，分别确定W1和W'1之间的声纹相似度WS1，分别确定W2和W'2之间的声纹相似度WS2，依次类推，得到一组声纹相似度(WS1，WS2，……，WSM)。

在本申请实施例中，利用预设视频相似性算法，依次确定一组第一视频数据段和一组第二视频数据段中、处于同一位置的第一视频数据段与第二视频数据段之间的一个图像相似度，得到一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度。

在本申请实施例中，可以利用结构相似性(Structural Similarity，SSIM)算法等预设视频相似性算法，确定一组第一视频数据段和一组第二视频数据段中、处于同一位置的第一视频数据段与第二视频数据段之间的一个图像相似度。

需要说明的是，第一视频数据段中包含了多帧图像数据、同样的第二视频数据段中也包含了多帧图像数据，因此，利用SSIM算法，依次确定第一视频数据段中包含的多帧图像数据和第二视频数据段中包含的多帧图像数据之间的多个图像相似度，并将多个图像相似度中、取值最高的图像相似度确定为第一视频数据段和第二视频数据段之间的一个图像相似度。

示例性的，针对(F1，F2，……，FM)和(F'1，F'2……F'M)，分别确定F1和F'1之间的图像相似度FS1，其中，F1中包含了多帧图像数据(f1，f2，f3，……，fn)，F'1中包含了多帧图像数据(f'1，f'2，f'3，……，f'n)，利用SSIM算法，分别确定f1和f'1之间的图像相似度、f2和f'2之间的图像相似度、依次类推，直至确定出fn和f'n之间的图像相似度，之后，从中选取中取值最高的一个图像相似度作为FS1；按照上述方法，继续定F2和F'2之间的图像相似度FS2，依次类推，得到一组图像相似度(FS1，FS2，……，FSM)。

S104、根据一组声纹相似度和一组图像相似度，实现对投屏数据的音视频同步的判断。

需要说明的是，本申请依据的理论依据如图3所示，声纹相似度越高、且图像相似度越高，或声纹相似度越低、且图像相似度越低，表征声纹相似度和图像相似度之间的相关性越高，则投屏数据和目标音视频数据之间的音视频同步程度越高；反之，声纹相似度越高、且图像相似度越低，或声纹相似度越低、且图像相似度越高，表征声纹相似度和图像相似度之间的相关性越低，则投屏数据和目标音视频数据之间的音视频同步程度越低。

基于上述理论依据，在本申请实施例中，首先确定一组声纹相似度和一组图像相似度之间的一个相似度差值；之后根据一组声纹相似度和一组图像相似度之间的一组相似度差值，确定第一音视频数据和第二音视频数据之间的音视频同步程度参考值，并确定音视频同步程度参考值表征的投屏数据和目标音视频数据之间的音视频同步判断结果。

在实际应用过程中，基于上述理论依据可以通过下面的公式(1)和公式(2)确定音视频同步程度参考值。

其中，M为一组声纹相似度或一组图像相似度的数量，FSi为第i个图像相似度，WSi为第i个声纹相似度，F用于表征第一音视频数据和第二音视频数据之间的整体的音视频同步效果，F值越大，表征第一音视频数据和第二音视频数据之间的整体的音视频同步效果越好，反之，F值越小，表征第一音视频数据和第二音视频数据之间的整体的音视频同步效果越差。

其中，X如公式(3)所示，

需要说明的是，S用于表征多段第一音视频数据和第二音视频数据之间的同步离散程度，S值越大，表征各个预设时间间隔内的第一音视频数据和第二音视频数据之间的同步程度差异越大，S值越小，表征各个预设时间间隔内的第一音视频数据和第二音视频数据之间的同步程度差异越小。

需要说明的是，F和S共同组成了音视频同步程度参考值。针对经过音画同步优化的音视频数据，可以通过分析F和S，验证音画同步优化的有效性和稳定性，其中F代表有效性，S代表稳定性。

具体的，F值越大，S值越小，表征投屏数据和目标音视频数据之间的整体的音视频同步程度越高、且每段投屏数据和目标音视频数据之间的音视频同步程度都高；F值越小，S值越小，表征投屏数据和目标音视频数据之间的整体的音视频同步程度越低、且每段投屏数据和目标音视频数据之间的音视频同步程度都低；F值越大，S值越大，表征投屏数据和目标音视频数据之间的整体的音视频同步程度越高，但是各个段的投屏数据和目标音视频数据之间的音视频同步程度差异越大；F值越小，S值越大，表征投屏数据和目标音视频数据之间的整体的音视频同步程度低，但是各个段的投屏数据和目标音视频数据之间的音视频同步程度差异越大。

可以理解的是，将目标音视频数据和投屏数据分别处理成一组第一音频数据段和一组第一视频数据段，以及一组第二音频数据段和一组第二视频数据段，然后通过对比音频数据段的声纹相似度和视频数据段的图像相似度，基于声纹相似度和图像相似度，共同对投屏数据的音视频同步程度进行判断，能够衡量音视频数据的音画同步效果。

本申请实施例提供一种同步判断装置1。如图4所示，该同步判断装置1包括：

获取单元10，用于获取目标音视频数据和所述目标音视频数据对应的投屏数据；所述投屏数据为将所述目标音视频数据发送至投屏设备后播放的数据；

处理单元11，用于分别对所述目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；

确定单元12，用于分别确定所述一组第一音频数据段和所述一组第二音频数据段之间的一组声纹相似度，以及所述一组第一视频数据段和所述一组第二视频数据段之间的一组图像相似度；

同步判断单元13，还用于根据所述一组声纹相似度和所述一组图像相似度，实现对所述投屏数据的音视频同步的判断。

可选的，所述装置还包括：查找单元；

所述查找单元，用于从所述投屏数据中查找所述预设音画数据对应的播放时间点；

所述确定单元12，还用于基于所述预设时间点和所述播放时间点，分别从所述目标音视频数据中确定第一音视频数据、从所述投屏数据中确定第二音视频数据；按照预设时间间隔，确定所述第一音视频数据对应的所述一组第一音频数据段和所述一组第一视频数据段，以及确定所述第二音视频数据对应的所述一组第二音频数据段和所述一组第二视频数据段。

可选的，所述获取单元10，还用于从所述目标音视频数据中，获取所述预设时间点后的音视频数据段；从所述投屏数据中，获取所述播放时间点后的投屏数据段；

所述查找单元，还用于从所述音视频数据段和所述投屏数据段中，查找时长最小的第一数据段；

所述确定单元12，还用于基于所述第一数据段的时长，从所述音视频数据段中确定第一终止时间点，并从所述音视频数据段中，获取所述第一终止时间点前的所述第一音视频数据；基于所述第一数据段的时长，从所述投屏数据段中确定第二终止时间点，并从所述投屏数据段中，获取所述第二终止时间点前的所述第二音视频数据。

可选的，利所述确定单元12，还用于预设音频相似性算法，依次确定所述一组第一音频数据段和所述一组第二音频数据段中、处于同一位置的第一音频数据段与第二音频数据段之间的一个声纹相似度，得到所述一组第一音频数据段和所述一组第二音频数据段之间的所述一组声纹相似度；利用预设视频相似性算法，依次确定所述一组第一视频数据段和所述一组第二视频数据段中、处于同一位置的第一视频数据段与第二视频数据段之间的一个图像相似度，得到所述一组第一视频数据段和所述一组第二视频数据段之间的所述一组图像相似度。

可选的，所述确定单元12，还用于确定所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值；根据所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值，确定所述第一音视频数据和所述第二音视频数据之间的音视频同步程度参考值，并确定所述音视频同步程度参考值表征的所述投屏数据和所述目标音视频数据之间的音视频同步程度。

本申请实施例提供的一种同步判断装置，获取目标音视频数据和目标音视频数据对应的投屏数据；投屏数据为将目标音视频数据发送至投屏设备后播放的数据；分别对目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；分别确定一组第一音频数据段和一组第二音频数据段之间的一组声纹相似度，以及一组第一视频数据段和一组第二视频数据段之间的一组图像相似度；根据一组声纹相似度和一组图像相似度，实现对投屏数据的音视频同步的判断。由此可见，本实施例提出的同步判断装置，将目标音视频数据和投屏数据分别处理成一组第一音频数据段和一组第一视频数据段，以及一组第二音频数据段和一组第二视频数据段，然后通过对比音频数据段的声纹相似度和视频数据段的图像相似度，基于声纹相似度和图像相似度，共同对投屏数据的音视频同步程度进行判断，能够衡量音视频数据的音画同步效果。

图5为本申请实施例提供的一种同步判断装置1的组成结构示意图二，在实际应用中，基于上述实施例的同一公开构思下，如图5所示，本实施例的同步判断装置1包括：处理器14、存储器15及通信总线16。

在具体的实施例的过程中，上述获取单元10、处理单元11、确定单元12、同步判断单元13和查找单元可由位于同步判断装置1上的处理器14实现，上述处理器14可以为特定用途集成电路(ASIC，Application Specific Integrated Circuit)、数字信号处理器(DSP，Digital Signal Processor)、数字信号处理图像处理装置(DSPD，Digital SignalProcessing Device)、可编程逻辑图像处理装置(PLD，Programmable Logic Device)、现场可编程门阵列(FPGA，Field Programmable Gate Array)、CPU、控制器、微控制器、微处理器中的至少一种。可以理解地，对于不同的设备，用于实现上述处理器功能的电子器件还可以为其它，本实施例不作具体限定。

在本申请实施例中，上述通信总线16用于实现处理器14和存储器15之间的连接通信；上述处理器14执行存储器15中存储的运行程序时实现如下的同步判断方法：

获取目标音视频数据和所述目标音视频数据对应的投屏数据；所述投屏数据为将所述目标音视频数据发送至投屏设备后播放的数据；分别对所述目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段；分别确定所述一组第一音频数据段和所述一组第二音频数据段之间的一组声纹相似度，以及所述一组第一视频数据段和所述一组第二视频数据段之间的一组图像相似度；根据所述一组声纹相似度和所述一组图像相似度，实现对所述投屏数据的音视频同步的判断。

进一步地，所述目标音视频数据中标记预设时间点、且所述预设时间点对应设置预设音画数据；

所述处理器14，还用于从所述投屏数据中查找所述预设音画数据对应的播放时间点；基于所述预设时间点和所述播放时间点，分别从所述目标音视频数据中确定第一音视频数据、从所述投屏数据中确定第二音视频数据；按照预设时间间隔，确定所述第一音视频数据中的第一音频数据对应的所述一组第一音频数据段和所述第一音视频数据中的第一视频数据对应的所述一组第一视频数据段，以及确定所述第二音视频数据中的第二音频数据对应的所述一组第二音频数据段和所述第二音视频数据中的第二视频数据对应的所述一组第二视频数据段。

进一步地，所述处理器14，还用于从所述目标音视频数据中，获取所述预设时间点后的音视频数据段；从所述投屏数据中，获取所述播放时间点后的投屏数据段；从所述音视频数据段和所述投屏数据段中，查找时长最小的第一数据段；基于所述第一数据段的时长，从所述音视频数据段中确定第一终止时间点，并从所述音视频数据段中，获取所述第一终止时间点前的所述第一音视频数据；基于所述第一数据段的时长，从所述投屏数据段中确定第二终止时间点，并从所述投屏数据段中，获取所述第二终止时间点前的所述第二音视频数据。

进一步地，所述处理器14，还用于利用预设音频相似性算法，依次确定所述一组第一音频数据段和所述一组第二音频数据段中、处于同一位置的第一音频数据段与第二音频数据段之间的一个声纹相似度，得到所述一组第一音频数据段和所述一组第二音频数据段之间的所述一组声纹相似度；利用预设视频相似性算法，依次确定所述一组第一视频数据段和所述一组第二视频数据段中、处于同一位置的第一视频数据段与第二视频数据段之间的一个图像相似度，得到所述一组第一视频数据段和所述一组第二视频数据段之间的所述一组图像相似度。

进一步地，所述处理器14，还用于确定所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值；根据所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值，确定所述第一音视频数据和所述第二音视频数据之间的音视频同步程度参考值，并确定所述音视频同步程度参考值表征的所述投屏数据和所述目标音视频数据之间的音视频同步程度。

本申请实施例提供一种存储介质，其上存储有计算机程序，上述计算机可读存储介质存储有一个或者多个程序，上述一个或者多个程序可被一个或者多个处理器执行，应用于同步判断装置中，该计算机程序实现如上述的同步判断方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对相关技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台图像显示设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本公开各个实施例所述的方法。

以上所述，仅为本申请的较佳实施例而已，并非用于限定本申请的保护范围。

Claims

1.一种同步判断方法，其特征在于，所述方法包括：

若所述一组声纹相似度越高且所述一组图像相似度越高，或所述一组声纹相似度越低且所述一组图像相似度越低，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越高；

若所述一组声纹相似度越高且所述一组图像相似度越低，或所述一组声纹相似度越低且所述一组图像相似度越高，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越低。

2.根据权利要求1所述的方法，其特征在于，所述目标音视频数据中标记预设时间点、且所述预设时间点对应设置预设音画数据；所述分别对所述目标音视频数据进行处理，得到一组第一音频数据段和一组第一视频数据段，以及对投屏数据进行处理，得到一组第二音频数据段和一组第二视频数据段，包括：

从所述投屏数据中查找所述预设音画数据对应的播放时间点；

基于所述预设时间点和所述播放时间点，分别从所述目标音视频数据中确定第一音视频数据、从所述投屏数据中确定第二音视频数据；

按照预设时间间隔，确定所述第一音视频数据中的第一音频数据对应的所述一组第一音频数据段、所述第一音视频数据中的第一视频数据对应的所述一组第一视频数据段、所述第二音视频数据中的第二音频数据对应的所述一组第二音频数据段和所述第二音视频数据中的第二视频数据对应的所述一组第二视频数据段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述预设时间点和所述播放时间点，分别从所述目标音视频数据中确定第一音视频数据、从所述投屏数据中确定第二音视频数据，包括：

从所述目标音视频数据中，获取所述预设时间点后的音视频数据段；从所述投屏数据中，获取所述播放时间点后的投屏数据段；

从所述音视频数据段和所述投屏数据段中，查找时长最小的第一数据段；

基于所述第一数据段的时长，从所述音视频数据段中确定第一终止时间点，并从所述音视频数据段中，获取所述第一终止时间点前的所述第一音视频数据；

基于所述第一数据段的时长，从所述投屏数据段中确定第二终止时间点，并从所述投屏数据段中，获取所述第二终止时间点前的所述第二音视频数据。

4.根据权利要求1所述的方法，其特征在于，所述分别确定所述一组第一音频数据段和所述一组第二音频数据段之间的一组声纹相似度，以及所述一组第一视频数据段和所述一组第二视频数据段之间的一组图像相似度，包括：

利用预设音频相似性算法，依次确定所述一组第一音频数据段和所述一组第二音频数据段中、处于同一位置的第一音频数据段与第二音频数据段之间的一个声纹相似度，得到所述一组第一音频数据段和所述一组第二音频数据段之间的所述一组声纹相似度；

利用预设视频相似性算法，依次确定所述一组第一视频数据段和所述一组第二视频数据段中、处于同一位置的第一视频数据段与第二视频数据段之间的一个图像相似度，得到所述一组第一视频数据段和所述一组第二视频数据段之间的所述一组图像相似度。

5.根据权利要求2所述的方法，其特征在于，所述若所述一组声纹相似度越高且所述一组图像相似度越高，或所述一组声纹相似度越低且所述一组图像相似度越低，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越高；若所述一组声纹相似度越高且所述一组图像相似度越低，或所述一组声纹相似度越低且所述一组图像相似度越高，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越低，包括：

确定所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值；

根据所述一组声纹相似度和所述一组图像相似度之间的一组相似度差值，确定所述第一音视频数据和所述第二音视频数据之间的音视频同步程度参考值，并确定所述音视频同步程度参考值表征的所述投屏数据和所述目标音视频数据之间的音视频同步程度。

6.一种同步判断装置，其特征在于，所述装置包括：

同步判断单元，用于若所述一组声纹相似度越高且所述一组图像相似度越高，或所述一组声纹相似度越低且所述一组图像相似度越低，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越高；若所述一组声纹相似度越高且所述一组图像相似度越低，或所述一组声纹相似度越低且所述一组图像相似度越高，则所述投屏数据和所述目标音视频数据之间的音视频同步程度越低。

7.根据权利要求6所述的装置，其特征在于，所述目标音视频数据中标记预设时间点、且所述预设时间点对应设置预设音画数据；所述装置还包括：查找单元；

所述确定单元，还用于基于所述预设时间点和所述播放时间点，分别从所述目标音视频数据中确定第一音视频数据、从所述投屏数据中确定第二音视频数据；按照预设时间间隔，确定所述第一音视频数据对应的所述一组第一音频数据段和所述一组第一视频数据段，以及确定所述第二音视频数据对应的所述一组第二音频数据段和所述一组第二视频数据段。

8.根据权利要求7所述的装置，其特征在于，

所述获取单元，还用于从所述目标音视频数据中，获取所述预设时间点后的音视频数据段；从所述投屏数据中，获取所述播放时间点后的投屏数据段；

所述确定单元，还用于基于所述第一数据段的时长，从所述音视频数据段中确定第一终止时间点，并从所述音视频数据段中，获取所述第一终止时间点前的所述第一音视频数据；基于所述第一数据段的时长，从所述投屏数据段中确定第二终止时间点，并从所述投屏数据段中，获取所述第二终止时间点前的所述第二音视频数据。

9.一种同步判断装置，其特征在于，所述装置包括：处理器、存储器及通信总线；所述处理器执行存储器存储的运行程序时实现如权利要求1-5任一项所述的方法。

10.一种存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-5任一项所述的方法。