CN115174960B

CN115174960B - 音视频同步方法、装置、计算设备及存储介质

Info

Publication number: CN115174960B
Application number: CN202210703399.4A
Authority: CN
Inventors: 李立锋; 谢韬
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-06-21
Filing date: 2022-06-21
Publication date: 2023-08-15
Anticipated expiration: 2042-06-21
Also published as: CN115174960A

Abstract

本发明公开了一种音视频同步方法、装置、计算设备及存储介质。用户终端获取用户终端视频在同步校验时间的第一进度以及从同步校验时间对应的用户终端音频切片中提取音频特征码；服务端在服务端音频中查找与音频特征码匹配的第二进度，并计算第一进度与第二进度的第一进度差；用户终端计算用户终端音频在同步校验时间的第三进度与第二进度的第二进度差，并根据第一进度差以及第二进度差确定用户终端音频与视频的播放时差，以及利用该播放时差进行用户终端音频与用户终端视频的同步处理。本方案并未对音频及视频进行侵入性的信息写入，由此保障音频及视频的源数据的安全；本方案在视频介质发生改变之后，无需重新对视频或音频进行处理。

Description

音视频同步方法、装置、计算设备及存储介质

技术领域

本发明涉及多媒体数据处理技术领域，具体涉及一种音视频同步方法、装置、计算设备及存储介质。

背景技术

随着科技及社会的不断发展，各类多媒体资源的出现极大方便了人们的工作与生活。例如，音视频多媒体资源能够为人们提供视觉及声觉体验，从而被广泛应用于各类场景中。

音视频多媒体资源融合有音频及视频，然而由于网络等因素的影响通常会存在音频与视频播放不同步的情况。针对于该类情况，现有技术中采用了为视频帧或音频添加编号，然后通过音频或视频与编号对齐的方式实现音视频的同步，然而采用该种方式需要将编号写入音频或视频，由此造成了对音频或视频源数据的侵入，并且无法处理加密视频；另外，现有技术中还采用音视频pts时间戳对齐的方式实现音视频的同步，然而采用该种方式在视频介质变化后，需要重新进行处理。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的音视频同步方法、装置、计算设备及存储介质。

根据本发明的第一方面，提供了一种音视频同步方法，包括：

获取用户终端视频在同步校验时间的第一进度，以及从同步校验时间对应的用户终端音频切片中提取音频特征码；

将所述第一进度以及所述音频特征码发送至服务端，以供所述服务端在服务端音频中查找与所述音频特征码匹配的第二进度，并计算所述第一进度与所述第二进度的第一进度差；

计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；

接收服务端发送的所述第一进度差，并根据所述第一进度差以及所述第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理。

在一种可选的实施方式中，所述从同步校验时间对应的用户终端音频切片中提取音频特征码进一步包括：

将所述用户终端音频切片进行N进制化处理，以生成所述用户终端音频切片的N进制文件；

从所述N进制文件中提取出连续M个字符作为所述音频特征码；其中，所述音频特征码在所述N进制文件中具有唯一性。

在一种可选的实施方式中，所述计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差进一步包括：

确定所述音频特征码在所述用户终端音频切片的N进制文件的第一位置，以及确定所述第三进度对应的所述用户终端音频切片的N进制文件的第二位置；

根据所述第一位置、所述第二位置以及所述用户终端音频切片的切片时长计算所述第二进度差。

在一种可选的实施方式中，在所述利用所述播放时差进行用户终端音频与用户终端视频的同步处理之后，所述方法还包括：

从用户终端音频中提取目标指纹进度对应的音频指纹，以及从用户终端视频中提取目标指纹进度对应的视频指纹；

查找预先构建的指纹映射表；其中，所述指纹映射表中包含有音频指纹与视频指纹的映射关系，具有映射关系的音频指纹与视频指纹对应于同一指纹进度；

若基于所述指纹映射表确定出提取出的音频指纹与提取出的视频指纹具有映射关系，则确定所述播放时差准确；

若基于所述指纹映射表确定出提取出的音频指纹与提取出的视频指纹不具有映射关系，则向服务端发送播放时差不准确的信息，以供服务端重新查找与所述音频特征码匹配的第二进度。

从用户终端音频中提取目标指纹进度对应的音频指纹；

将提取出的音频指纹与预先从服务端获取到的目标指纹进度对应的音频指纹进行匹配；

若相匹配，则确定所述播放时差准确；

若不匹配，则向服务端发送播放时差不准确的信息，以供服务端重新查找与所述音频特征码匹配的第二进度。

根据本发明的第二方面，提供了一种音视频同步方法，包括：

接收用户终端发送的用户终端视频在同步校验时间的第一进度以及音频特征码；其中所述音频特征码为用户终端从同步校验时间对应的用户终端音频切片中提取；

在服务端音频中查找与所述音频特征码匹配的第二进度；

计算所述第一进度与所述第二进度的第一进度差，并将所述第一进度差发送至所述用户终端，以供所述用户终端根据所述第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理；其中所述第二进度差为用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差。

在一种可选的实施方式中，所述方法还包括：

针对于任一指纹进度，从服务端视频中提取与该指纹进度对应的视频指纹，以及从服务端音频中提取与该指纹进度对应的音频指纹；

建立同一指纹进度对应的视频指纹与音频指纹的映射关系，以生成指纹映射表。

在一种可选的实施方式中，所述在服务端音频中查找与所述音频特征码匹配的第二进度进一步包括：

确定所述第一进度对应的指纹进度；

基于所述第一进度对应的指纹进度确定所述第二进度的查找范围，在所述查找范围内查找与所述音频特征码匹配的第二进度。

在一种可选的实施方式中，所述方法还包括：

接收用户终端发送的播放时差不准确的信息，重新查找与所述音频特征码匹配的第二进度，并将重新查找到的第二进度发送至所述用户终端，以供所述用户终端重新基于所述第二进度确定所述播放时差。

根据本发明的第三方面，提供了一种音视频同步装置，包括：

获取模块，用于获取用户终端视频在同步校验时间的第一进度，以及从同步校验时间对应的用户终端音频切片中提取音频特征码；

发送模块，用于将所述第一进度以及所述音频特征码发送至服务端，以供所述服务端在服务端音频中查找与所述音频特征码匹配的第二进度，并计算所述第一进度与所述第二进度的第一进度差；

计算模块，用于计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；

接收模块，用于接收服务端发送的所述第一进度差；

确定模块，用于根据所述第一进度差以及所述第二进度差确定用户终端音频与视频的播放时差；

同步模块，用于利用所述播放时差进行用户终端音频与用户终端视频的同步处理。

根据本发明的第四方面，提供了一种音视频同步装置，包括：

接收模块，用于接收用户终端发送的用户终端视频在同步校验时间的第一进度以及音频特征码；其中所述音频特征码为用户终端从同步校验时间对应的用户终端音频切片中提取；

查找模块，用于在服务端音频中查找与所述音频特征码匹配的第二进度；

计算模块，用于计算所述第一进度与所述第二进度的第一进度差；

发送模块，用于将所述第一进度差发送至所述用户终端，以供所述用户终端根据所述第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理；其中所述第二进度差为用户终端音频在同步校验时间的第三进度与第二进度的第二进度差。

根据本发明的第五方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述音视频同步方法对应的操作。

根据本发明的第六方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述音视频同步方法对应的操作。

本发明中，用户终端获取用户终端视频在同步校验时间的第一进度以及从同步校验时间对应的用户终端音频切片中提取音频特征码；服务端在服务端音频中查找与音频特征码匹配的第二进度，并计算第一进度与第二进度的第一进度差；用户终端计算用户终端音频在同步校验时间的第三进度与第二进度的第二进度差，根据第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用该播放时差进行用户终端音频与用户终端视频的同步处理。本方案并未对音频及视频进行侵入性的信息写入，由此保障音频及视频源数据的安全；本方案在视频介质发生改变之后，无需重新对视频或音频进行处理。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种音视频同步方法的流程示意图；

图2示出了本发明实施例提供的一种第一进度、第二进度以及第三进度的示意图；

图3示出了本发明实施例提供的一种用户终端音频与用户终端视频同步处理后的示意图；

图4示出了本发明实施例提供的一种指纹进度的示意图；

图5示出了本发明实施例提供的一种目标指纹进度的示意图；

图6示出了本发明实施例提供的又一种音视频同步方法的流程示意图；

图7示出了本发明实施例提供的再一种音视频同步方法的流程示意图；

图8示出了本发明实施例提供的一种音视频同步装置的流程示意图；

图9示出了本发明实施例提供的又一种音视频同步装置的流程示意图；

图10示出了本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的一种音视频同步方法的流程示意图。如图1所示，该方法包括如下步骤：

步骤S110，用户终端获取用户终端视频在同步校验时间的第一进度。

同步校验时间可以为用户终端向服务端发起同步请求的时间，也可以是用户终端发起同步请求前的某个时间，等等。

用户终端视频是指在用户终端中当前播放的音视频多媒体资源中的视频资源。用户终端视频的播放进度与用户终端的音视频多媒体资源的播放进度保持一致，例如可以通过音视频多媒体资源的播放进度条来识别出用户终端视频在同步校验时间的进度，该用户终端视频在同步校验时间的进度即为第一进度。

步骤S120，用户终端从同步校验时间对应的用户终端音频切片中提取音频特征码。

用户终端音频是指在用户终端中当前播放的音视频多媒体资源中的音频资源，用户终端音频切片是指在用户终端中当前播放的音视频多媒体资源中的音频资源的一部分。用户终端中用户终端视频的播放进度与用户终端的音视频多媒体资源的播放进度保持一致，但在出现用户终端音频与用户终端视频播放不同步的情况下，用户终端音频的播放进度与用户终端音视频多媒体资源的播放进度会存在差异，由此用户终端无法准确地确定出用户终端音频在同步校验时间的进度，该用户终端音频在同步校验时间的进度即为第三进度。

又由于用户终端在播放用户终端音频时，会标记出当前播放的音频切片的标识，由此，本发明实施例可以获取到同步校验时间对应的用户终端音频切片。继而从该用户终端音频切片中提取出具有唯一性的音频特征码，即该音频特征码在该用户终端音频切片中具有唯一性。

步骤S130，用户终端将第一进度以及音频特征码发送至服务端。

其中，第一进度与音频特征码可以随同同步校验请求一并发送至服务端，由此减少用户终端与服务端之间的信息交互，节约传输资源；又或者，用户终端在获取到第一进度或获取到音频特征码之后便立即发送至服务端，从而达到异步发送的目的，提升整体的处理效率。

此外，在一种可选的实施方式中，为便于服务端快速地确定出待进行同步的音视频多媒体资源，用户终端还提取有当前播放的音视频多媒体资源的资源标识，并将该资源标识发送至服务端。

步骤S140，服务端在服务端音频中查找与音频特征码匹配的第二进度，并计算第一进度与第二进度的第一进度差。

服务端存储有当前播放的音视频多媒体资源的完整信息，则服务端音频是指服务端存储的当前播放的音视频多媒体资源中的音频资源。服务端在获取到用户终端发送的音频特征码之后，在服务端音频中查找与音频特征码匹配的音频，继而将该匹配的音频在服务端音频的进度作为与音频特征码匹配的第二进度，即第二进度表征了音频特征码在当前播放的音视频多媒体资源的音频资源中的进度信息。

在获得第二进度之后，计算第一进度与第二进度的差值，该差值即为第一进度差。

步骤S150，服务端将第一进度差发送至用户终端。

步骤S160，用户终端计算用户终端音频在同步校验时间的第三进度与第二进度的第二进度差。

由上述步骤S120中记载可知，用户终端并无法准确地确定出用户终端音频在同步校验时间的第三进度，但能够获取到同步校验时间对应的用户终端音频切片，通过对该用户终端音频切片的内容解析能够确定出该用户终端音频切片中音频特征码对应的音频帧与同步校验时间对应的音频帧之间的间隔。此外，无论是在服务端音频还是用户终端音频，音频特征码对应的音频帧均相同，由此与音频特征码匹配的第二进度也是音频特征码在用户终端音频中的进度。继而可以根据该间隔来确定出第三进度与第二进度的第二进度差。

步骤S170，用户终端根据第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用该播放时差进行用户终端音频与用户终端视频的同步处理。

具体是根据第一进度差与第二进度差的差值来确定音频与视频的播放时差，继而利用该播放时差进行本次用户终端中音频与视频的同步。

以下以图2及图3所示具体示例来详细阐明本发明实施例的具体实施过程：

如图2所示，P1为用户终端中视频在同步校验时间的第一进度，P2为与音频特征码匹配的第二进度，即音频特征码对应的音频区段在整个音视频多媒体资源中音频的进度，P3为用户终端音频在同步校验时间的第三进度。

本发明实施例在实施过程中，用户终端在发送同步校验请求时或之后获取P1以及音频特征码，并将P1以及音频特征码发送至服务端；服务端将音频特征码与存储的服务端音频进行对比，以确定出与音频特征匹配的P2；服务端进一步计算第一进度差D1，D1＝P1-P2，并将D1发送给用户端；用户端还计算有第二进度差D2，D2＝P3-P2，并最终计算用户终端音频与用户终端视频的播放时差D＝D2-D1。利用播放时差D对音频进行进度调整后，得到如图3所示的示意图。图3中，用户终端音频与用户终端视频的播放进度相同。

作为本实施例一种可选的实施方式中，为了提升音频特征码的提取效率，音频特征码具体可以通过如下方式提取：将用户终端音频切片进行N进制化处理，以生成用户终端音频切片的N进制文件，从该N进制文件中提取出连续M个字符作为音频特征码；其中，音频特征码在所述N进制文件中具有唯一性，其中，N可以为2、8、10、16等等，M可以为大于预设阈值的整数，如8等。在具体的实施过程中，从该N进制文件中随机提取出M个连续元素以构成候选音频特征码之后，判断该候选音频特征码是否在该N进制文件中唯一，若是，则将该候选音频特征码作为音频特征码；若否，则重新选取M个连续元素构成候选音频特征码，并执行判断该候选音频特征码是否在该N进制文件中唯一的步骤，以此循环，直至提取出音频特征码。采用该种方式能够实现音频特征码的唯一性，避免了从多个无声片段中提取音频特征码。

相应地，查找与音频特征码匹配的第二进度进一步包括：将服务端音频进行N进制化处理以生成服务端音频对应的N进制文件，其中，此处所述的N与上述N一致。从服务端音频对应的N进制文件中识别出与音频特征码一致的编码，继而将该编码在服务端音频对应的N进制文件的位置确定与音频特征码匹配的第二进度。例如，若音频特征码为“10111011101010110011100101101001”，某个服务端音频切片的N进制编码为“01100001100111100110010000100110000111001111100000000010111001110001010111110111011111110011000001111000111000010111000010100100101110011001000111010110001110000101100010110011011101110101011001110010110100110010011011110010110010001001011101010010000011011101100110011011011110101001010”，上述N进制编码中下划线部分即为与音频特征码一致的编码。进一步计算该编码在所处音频切片中的位置，该位置具体可以通过如下方式确定：计算该音频切片的N进制总位数，以及确定与音频特征码一致的编码在该音频切片的N进制编码段的位数，则该编码在所处音频切片中的位置为编码在该音频切片的N进制编码段的位数与总位数的比值。继而根据该音频切片的进度、该音频切片的时长、该编码在所处音频切片中的位置确定出与音频特征码匹配的第二进度。例如，该音频切片的进度为10分(切片起始点的进度)，该音频切片的时长30秒，与音频特征码一致的编码在该音频切片的位置为1/3，则第二进度为10分+30秒*1/3＝10分10秒。

作为本实施例一种可选的实施方式，服务端预先生成有各个指纹进度对应的视频指纹以及音频指纹。在具体的实施过程中，针对于任一指纹进度，从服务端视频中提取与该指纹进度对应的视频指纹，以及从服务端音频中提取与该指纹进度对应的音频指纹；建立同一指纹进度对应的视频指纹与音频指纹的映射关系，以生成指纹映射表。如图4所示，可以针对于每个分片确定出一个指纹进度(对应图4中的R1、R2、R3、R4、R5)，继而确定该指纹进度匹配的视频帧以及音频帧，并可以采用相应的指纹提取算法来分别提取视频帧的视频指纹以及音频帧的音频指纹，并建立同一指纹进度的视频指纹与音频指纹的映射关系，从而生成指纹映射表。进一步可选的，指纹进度可以根据每个视频分片中关键帧的进度确定。此外，本发明实施例对具体的指纹提取算法不作限定，例如可以采用哈希感知算法提取视频帧的视频指纹，还可以通过shazam等算法来提取音频帧的音频指纹。

作为本实施例一种可选的实施方式，第二进度差具体通过如下方式确定：确定音频特征码在用户终端音频切片的N进制文件的第一位置，以及确定第三进度对应的用户终端音频切片的N进制文件的第二位置；根据第一位置、第二位置以及用户终端音频切片的切片时长计算第二进度差。具体是将用户终端音频切片的切片时长*(第二位置-第一位置)作为第二进度差。

作为本实施例一种可选的实施方式，为了提升第二进度的查找效率，查找与音频特征码匹配的第二进度进一步包括：确定第一进度对应的指纹进度；基于第一进度对应的指纹进度确定第二进度的查找范围，在查找范围内查找与音频特征码匹配的第二进度。在一种具体的实现方式中，可以确定第一进度最近的指纹进度，例如可以将图4中指纹进度R4作为第一进度P1对应的指纹进度。继而可以以该指纹进度R4以中心分别向前及向后延伸x个切片长度，并将该范围确定为第二进度的查找范围；又或者，可以以指纹进度R4所在的音频切片，以及该音频切片的前一切片及后一切片所构成的范围确定为第二进度的查找范围。由于指纹进度预先已有记录，由此基于指纹进度来确定第二进度的查找范围能够便于后续第一进度差的计算。在此应当理解的是，上述查找范围的确定方式仅仅为本发明实施例中的一部分，本领域技术人员对具体的查找范围的确定方式不作限定。

进一步可选的，若在初始的查找范围内无法查找到与音频特征码匹配的第二进度，则变更查找范围，并重新查找与音频特征码匹配的第二进度。例如，若初始的查找范围内无法查找到与音频特征码匹配的第二进度，则将原始查找范围向前的y个切片长度和/或向后的z个切片长度作为新的查找范围。若当前的查找范围仍然无法查找到音频特征码匹配的第二进度，则再次变更查找范围，直至查找到音频特征码匹配的第二进度。在此应当理解的是，为了避免处理资源的浪费，每次的查找范围不同。

作为本实施例一种可选的实施方式，在利用播放时差进行用户终端音频与用户终端视频的同步处理之后，进一步校验播放时差的准确性。

在一种可选的校验播放时差准确性的方式中，从用户终端音频中提取目标指纹进度对应的音频指纹，以及从用户终端视频中提取目标指纹进度对应的视频指纹；查找预先构建的指纹映射表；其中，指纹映射表中包含有音频指纹与视频指纹的映射关系，具有映射关系的音频指纹与视频指纹对应于同一指纹进度；若基于指纹映射表确定出提取出的音频指纹与提取出的视频指纹具有映射关系，则确定播放时差准确；若基于指纹映射表确定出提取出的音频指纹与提取出的视频指纹不具有映射关系，则向服务端发送播放时差不准确的信息，以供服务端重新查找与音频特征码匹配的第二进度。

在另一种可选的校验播放时差准确性的方式中，从用户终端音频中提取目标指纹进度对应的音频指纹；将提取出的音频指纹与预先从服务端获取到的目标指纹进度对应的音频指纹进行匹配；若相匹配，则确定所述播放时差准确；若不匹配，则向服务端发送播放时差不准确的信息，以供服务端重新查找与所述音频特征码匹配的第二进度。

进一步可选的，针对于获得的播放时差错误的情况，服务端接收用户终端发送的播放时差不准确的信息，重新查找与音频特征码匹配的第二进度，并将重新查找到的第二进度发送至用户终端，以供用户终端重新基于第二进度确定播放时差。

具体地，若用户终端提取出的目标指纹进度对应的音频指纹与指纹映射表中的某个音频指纹均相同，则表明当前的查找范围内存在多个与音频特征码匹配的第二进度，则获取其他第二进度进行后续播放时差的确定；若用户终端提取出的目标指纹进度与指纹映射表中的任何音频指纹均不匹配，则重新确定查找范围，以获取新的第二进度，并利用新的第二进度进行后续播放时差的确定。并在重新确定出播放时差后，利用该播放时差进行用户终端音频与用户终端视频的同步，并在同步后进一步执行校验播放时差的准确性，直至确定播放时差准确后结束本次同步过程。

进一步可选的，目标指纹进度可以是距离第二进度最近的指纹进度。如图5所示，目标指纹进度R4距离第二进度最近，则将目标指纹进度R4确定为目标指纹进度。

由此可见，本发明实施例是在进行同步校验时，实时地提取音频特征码以及计算用户终端中视频在同步校验时间的第一进度与音频特征码匹配的第二进度的第一进度差，以及计算第二进度与用户终端中视频在同步校验时间的第三进度的第二进度差，最终通过第一进度差以及第二进度差来确定播放时差，由此本发明实施例并未对音频及视频进行侵入性的信息写入，由此保障音频及视频源数据的安全以及能够针对加密或未加密音频及视频进行处理；而且，本发明实施例中即使视频介质发生改变(如码率发生变化或剪切掉部分音频或视频)之后，无需重新对视频或音频进行处理。

图6示出了本发明实施例提供的一种音视频同步方法的流程示意图。本发明实施例所提供的音视频同步方法的执行主体可以为用户终端。

如图6所示，该方法包括如下步骤：

步骤S610，获取用户终端视频在同步校验时间的第一进度，以及从同步校验时间对应的用户终端音频切片中提取音频特征码。

步骤S620，将第一进度以及音频特征码发送至服务端，以供服务端在服务端音频中查找与音频特征码匹配的第二进度，并计算第一进度与第二进度的第一进度差。

步骤S630，计算用户终端音频在同步校验时间的第三进度与第二进度的第二进度差。

步骤S640，接收服务端发送的第一进度差，并根据第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用播放时差进行用户终端音频与用户终端视频的同步处理。

从用户终端音频中提取目标指纹进度对应的音频指纹；

若相匹配，则确定所述播放时差准确；

本实施例的具体实施过程可参照其他方法实施例中的描述，在此不作赘述。

由此可见，本发明实施例并未对音频及视频进行侵入性的信息写入，由此保障音频及视频源数据的安全以及能够针对加密或未加密音频及视频进行处理；而且，本发明实施例中即使视频介质发生改变(如码率发生变化或剪切掉部分音频或视频)之后，无需重新对视频或音频进行处理。

图7示出了本发明实施例提供的一种音视频同步方法的流程示意图。本发明实施例所提供的音视频同步方法的执行主体可以为服务端。

如图7所示，该方法包括如下步骤：

步骤S710，接收用户终端发送的用户终端视频在同步校验时间的第一进度以及音频特征码；其中音频特征码为用户终端从同步校验时间对应的用户终端音频切片中提取。

步骤S720，在服务端音频中查找与音频特征码匹配的第二进度。

步骤S730，计算第一进度与第二进度的第一进度差，并将第一进度差发送至用户终端，以供用户终端根据第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用播放时差进行用户终端音频与用户终端视频的同步处理；其中第二进度差为用户终端音频在同步校验时间的第三进度与第二进度的第二进度差。

在一种可选的实施方式中，所述方法还包括：

确定所述第一进度对应的指纹进度；

在一种可选的实施方式中，所述方法还包括：

图8示出了本发明实施例提供的一种音视频同步装置的流程示意图。本装置具体位于用户终端中。

如图8所示，该装置包括如下模块：

获取模块810，用于获取用户终端视频在同步校验时间的第一进度，以及从同步校验时间对应的用户终端音频切片中提取音频特征码；

发送模块820，用于将所述第一进度以及所述音频特征码发送至服务端，以供所述服务端在服务端音频中查找与所述音频特征码匹配的第二进度，并计算所述第一进度与所述第二进度的第一进度差；

计算模块830，用于计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；

接收模块840，用于接收服务端发送的所述第一进度差；

确定模块850，用于根据所述第一进度差以及所述第二进度差确定用户终端音频与用户终端视频的播放时差；

同步模块860，用于利用所述播放时差进行用户终端音频与用户终端视频的同步处理。

在一种可选的实施方式中，所述获取模块进一步用于：将所述用户终端音频切片进行N进制化处理，以生成所述用户终端音频切片的N进制文件；

在一种可选的实施方式中，所述计算模块进一步用于：确定所述音频特征码在所述用户终端音频切片的N进制文件的第一位置，以及确定所述第三进度对应的所述用户终端音频切片的N进制文件的第二位置；

在一种可选的实施方式中，所述装置还包括：校验模块，用于在所述利用所述播放时差进行用户终端音频与用户终端视频的同步处理之后，

在一种可选的实施方式中，所述装置还包括：校验模块，用于在所述利用所述播放时差进行用户终端音频与用户终端视频的同步处理之后，从用户终端音频中提取目标指纹进度对应的音频指纹；

若相匹配，则确定所述播放时差准确；

本装置中各模块的功能及实施过程可参照相应方法实施例中的描述，在此不作赘述。

图9示出了本发明实施例提供的一种音视频同步装置的流程示意图。本装置具体位于服务端中。

如图9所示，该装置包括如下模块：

接收模块910，用于接收用户终端发送的用户终端视频在同步校验时间的第一进度以及音频特征码；其中所述音频特征码为用户终端从同步校验时间对应的用户终端音频切片中提取；

查找模块920，用于在服务端音频中查找与所述音频特征码匹配的第二进度；

计算模块930，用于计算所述第一进度与所述第二进度的第一进度差；

发送模块940，用于将所述第一进度差发送至所述用户终端，以供所述用户终端根据所述第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理；其中所述第二进度差为用户终端音频在同步校验时间的第三进度与第二进度的第二进度差。

在一种可选的实施方式中，所述装置还包括：映射表构建模块，用于针对于任一指纹进度，从服务端视频中提取与该指纹进度对应的视频指纹，以及从服务端音频中提取与该指纹进度对应的音频指纹；

在一种可选的实施方式中，所述查找模块进一步用于：

确定所述第一进度对应的指纹进度；

在一种可选的实施方式中，所述接收模块进一步用于：接收用户终端发送的播放时差不准确的信息；

所述查找模块进一步用于：重新查找与所述音频特征码匹配的第二进度，并将重新查找到的第二进度发送至所述用户终端，以供所述用户终端重新基于所述第二进度确定所述播放时差。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的方法。

图10示出了本发明实施例提供的一种计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。

如图10所示，该计算设备可以包括：处理器(processor)1002、通信接口(Communications Interface)1004、存储器(memory)1006、以及通信总线1008。

其中：处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。通信接口1004，用于与其它设备比如客户端或其它服务器等的网元通信。处理器1002，用于执行程序1010，具体可以执行上述方法实施例中的相关步骤。

具体地，程序1010可以包括程序代码，该程序代码包括计算机操作指令。

处理器1002可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1006，用于存放程序1010。存储器1006可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序1010具体可以用于使得处理器1002执行上述方法实施例中的步骤。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种音视频同步方法，其特征在于，包括：

计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；其中，通过对该用户终端音频切片的内容解析能够确定出该用户终端音频切片中音频特征码对应的音频帧与同步校验时间对应的音频帧之间的间隔，根据该间隔来确定出第三进度与第二进度的第二进度差；接收服务端发送的所述第一进度差，并根据所述第一进度差以及所述第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理。

2.根据权利要求1所述的方法，其特征在于，所述从同步校验时间对应的用户终端音频切片中提取音频特征码进一步包括：

3.根据权利要求2所述的方法，其特征在于，所述计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差进一步包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，在所述利用所述播放时差进行用户终端音频与用户终端视频的同步处理之后，所述方法还包括：

5.根据权利要求1-3中任一项所述的方法，其特征在于，在所述利用所述播放时差进行用户终端音频与用户终端视频的同步处理之后，所述方法还包括：

从用户终端音频中提取目标指纹进度对应的音频指纹；

若相匹配，则确定所述播放时差准确；

6.一种音视频同步方法，其特征在于，包括：

在服务端音频中查找与所述音频特征码匹配的第二进度；

计算所述第一进度与所述第二进度的第一进度差，并将所述第一进度差发送至所述用户终端，以供所述用户终端根据所述第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理；所述第二进度差为用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；其中，通过对该用户终端音频切片的内容解析能够确定出该用户终端音频切片中音频特征码对应的音频帧与同步校验时间对应的音频帧之间的间隔，根据该间隔来确定出第三进度与第二进度的第二进度差。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

8.根据权利要求7所述的方法，其特征在于，所述在服务端音频中查找与所述音频特征码匹配的第二进度进一步包括：

确定所述第一进度对应的指纹进度；

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.一种音视频同步装置，其特征在于，包括：

计算模块，用于计算用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；其中，通过对该用户终端音频切片的内容解析能够确定出该用户终端音频切片中音频特征码对应的音频帧与同步校验时间对应的音频帧之间的间隔，根据该间隔来确定出第三进度与第二进度的第二进度差；

接收模块，用于接收服务端发送的所述第一进度差；

确定模块，用于根据所述第一进度差以及所述第二进度差确定用户终端音频与用户终端视频的播放时差；

11.一种音视频同步装置，其特征在于，包括：

发送模块，用于将所述第一进度差发送至所述用户终端，以供所述用户终端根据所述第一进度差以及第二进度差确定用户终端音频与用户终端视频的播放时差，并利用所述播放时差进行用户终端音频与用户终端视频的同步处理；所述第二进度差为用户终端音频在同步校验时间的第三进度与所述第二进度的第二进度差；其中，通过对该用户终端音频切片的内容解析能够确定出该用户终端音频切片中音频特征码对应的音频帧与同步校验时间对应的音频帧之间的间隔，根据该间隔来确定出第三进度与第二进度的第二进度差。

12.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的音视频同步方法对应的操作。

13.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-9中任一项所述的音视频同步方法对应的操作。