CN111988654A

CN111988654A - 视频数据对齐方法、装置和电子设备

Info

Publication number: CN111988654A
Application number: CN202010899234.XA
Authority: CN
Inventors: 张文韬
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-08-31
Filing date: 2020-08-31
Publication date: 2020-11-24
Anticipated expiration: 2040-08-31
Also published as: CN111988654B

Abstract

本申请公开了一种视频数据对齐方法、装置和电子设备，属于通信技术领域，可以解决电子设备同步音视频的准确性较差的问题。该视频数据对齐方法包括：在目标视频中断播放时，获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容；根据第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。其中，第一视频数据为：视频帧；第二视频数据为：音频帧或字幕；第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。本申请实施例提供的视频数据对齐方法可以应用于执行时间戳对齐操作的过程。

Description

视频数据对齐方法、装置和电子设备

技术领域

本申请属于通信技术领域，具体涉及一种视频数据对齐方法、装置和电子设备。

背景技术

通常，在电子设备播放电子设备中的视频场景下，若该视频出现音视频不同步的问题，则电子设备可以根据获取的该视频的视频画面对应的播放时间戳1和音频对应的播放时间戳2，在该播放时间戳1大于(或小于)该播放时间戳2的情况下，调快该音频(或该视频画面)的播放速率，并在该播放时间戳1与该播放时间戳2相同时，同步播放该视频画面和该音频，以解决音视频不同步的问题。

然而，由于电子设备获取的播放时间戳(即播放时间戳1和/或播放时间戳2)可能并不准确，因此可能会导致在播放时间戳1与该播放时间戳2相同时，播放的视频仍存在音视频不同步的问题，而电子设备会继续播放该视频画面和该音频。

如此，导致电子设备同步音视频的准确性较差。

发明内容

本申请实施例的目的是提供一种视频数据对齐方法、装置和电子设备，能够解决电子设备同步音视频的准确性较差的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种视频数据对齐方法，该方法包括：在目标视频中断播放的情况下，获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容；根据第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。其中，第一视频数据为：视频帧；第二视频数据为：音频帧或字幕；第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

第二方面，本申请实施例提供了一种视频数据对齐装置，该视频数据对齐装置：获取模块和对齐模块。其中，获取模块，用于在目标视频中断播放的情况下，获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容。对齐模块，用于根据获取模块获取的第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。其中，第一视频数据为：视频帧；第二视频数据为：音频帧或字幕；第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

在本申请实施例中，在目标视频中断播放的情况下，电子设备可以获取该目标视频的第一视频数据(即视频帧)对应的第一视频内容(即该目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，该目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容)，和该目标视频的第二视频数据(即音频帧(或字幕))对应的第二视频内容，并根据该第一视频内容和该第二视频内容，对该视频帧或音频帧(或字幕)执行时间戳对齐操作。由于电子设备可以根据视频的至少两个视频帧的视频画面对应的视频内容(或视频中断播放时刻的视频帧之后的至少一个视频帧的视频画面对应的视频内容)，和音频帧(或字幕)对应的第二视频内容，对视频的视频帧或音频帧(或字幕)执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以因避免播放时间戳(即视频画面对应的播放时间戳，和/或音频对应的播放时间戳)不准确，而导致的执行时间戳对齐操作后视频仍存在音视频不同步的问题，如此可以提升电子设备同步视频数据的准确性。

附图说明

图1是本申请实施例提供的视频数据对齐方法的示意图之一；

图2是本申请实施例提供的视频数据对齐方法的示意图之二；

图3是本申请实施例提供的视频数据对齐方法的示意图之三；

图4是本申请实施例提供的视频数据对齐方法的示意图之四；

图5是本申请实施例提供的一种视频数据对齐装置的结构示意图之一；

图6是本申请实施例提供的一种视频数据对齐装置的结构示意图之二；

图7是本申请实施例提供的一种电子设备的结构示意图；

图8是本申请实施例提供的一种电子设备的硬件示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频数据对齐方法进行详细地说明。

本申请实施例提供的视频数据对齐方法可以应用于电子设备播放视频的场景。

针对电子设备播放视频的场景，假设用户需要通过电子设备中的应用程序a观看视频1，用户可以对应用程序a中的视频1的图标进行输入，以使得电子设备可以向服务器发送视频数据请求，并接收服务器发送的该视频1的数据、且对该数据进行解码处理，得到该视频1的视频画面和该视频画面的时间戳、该视频1的音频和该音频的时间戳，以及将视频画面和该视频画面的时间戳、该视频1的音频和该音频的时间戳分别通过不同的数据通道保存至对应的缓存区域进行预存储，从而在视频画面(或音频)在该视频画面(或音频)对应的缓存区域中所占的存储空间大于或等于阈值的情况下，电子设备可以按照预定的输出方式，从该缓存区域中输出该视频画面和音频，以播放该视频1。在播放视频1的过程中，电子设备可以获取当前输出的视频画面对应的时间戳和音频对应的时间戳，以确定播放的视频1是否出现音视频不同步的问题，并在视频1出现音视频不同步的情况下，根据当前输出的视频画面对应的时间戳和音频对应的时间戳，调整视频画面(或音频)的输出速率，以在输出的视频画面对应的时间戳和音频对应的时间戳相同的情况下，同步输出该视频画面和音频。然而，由于电子设备对视频1的数据进行解码处理得到的视频画面的时间戳，和/或音频的时间戳可能并不准确，从而导致在输出的视频画面对应的时间戳和音频对应的时间戳相同时，视频1仍存在音视频不同步的问题。

在本申请实施例中，在播放视频1的过程中，若视频1出现音视频不同步的问题，则用户可以对电子设备进行输入，以使得电子设备可以显示修复控件，然后用户可以对该修复控件进行点击，以使得电子设备可以中断播放该视频1，并获取视频1的起始播放时刻至中断播放时刻的至少一个视频帧的视频画面对应的文字内容1，和该视频1的缓存区域中的至少一个音频帧(或字幕)对应的文字内容2；或者，获取视频1的缓存区域中的至少一个视频帧的视频画面对应的文字内容1，和该视频1中断播放时刻的音频帧(或字幕)对应的文字内容2，这样，电子设备可以根据该文字内容1和该文字内容2，对视频1的视频帧或音频帧(或字幕)执行时间戳对齐操作，从而提升了同步视频数据的准确性。

本申请实施例提供的一种视频数据对齐方法，图1示出了本申请实施例提供的视频数据对齐方法的流程图。如图1所示，本申请实施例提供的视频数据对齐方法可以包括下述的步骤101和步骤102。

步骤101、在目标视频中断播放的情况下，视频数据对齐装置获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容。

可选的，本申请实施例中，在用户通过视频数据对齐装置观看目标视频的情况下，若该目标视频出现不同步(例如音视频不同步)的问题，则用户可以对视频数据对齐装置的进行输入(例如对视频数据对齐装置的显示屏的左滑输入)，以使得视频数据对齐装置可以显示修复控件，从而用户可以对该修复控件进行输入，以使得视频数据对齐装置可以中断播放该目标视频，并获取第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容。

本申请实施例中，上述第一视频数据为：视频帧；上述第二视频数据为：音频帧或字幕；上述第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

可选的，本申请实施例中，在第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容的情况下，上述第二视频内容可以为：目标视频中断播放时刻的视频帧之后的至少一个第一音频帧(或字幕)对应的视频内容；或者，在第一视频内容为：目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容的情况下，上述第二视频内容可以为：目标视频中断播放时刻的第二音频帧(或字幕)对应的视频内容。

可选的，本申请实施例中，上述第一视频内容为：对至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，该至少两个第一视频帧为：目标视频的起始播放时刻至中断播放时刻间的视频帧；上述第二视频内容为：对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；或者，上述第一视频内容为：对目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面进行识别，得到的文字内容；上述第二视频内容为：对目标视频中断播放时刻的第二音频帧进行语音识别，得到的文字内容。

需要说明的是，上述“目标视频的起始播放时刻至中断播放时刻间的视频帧”可以理解为：目标视频的起始播放时刻的视频帧，和目标视频的中断播放时刻的视频帧间的视频帧。

示例性的，假设目标视频的起始播放时刻的视频帧为视频帧1，目标视频的中断播放时刻的视频帧为视频帧2，该视频帧1和视频帧2间的视频帧包括视频帧3和视频帧4，则目标视频的起始播放时刻至中断播放时刻间的视频帧为：视频帧1、视频帧3、视频帧4和视频帧2。

进一步可选的，本申请实施例中，视频数据对齐装置可以对目标视频的至少一个第一视频帧(或者，目标视频中断播放时刻的视频帧之后的至少一个滴入视频帧)的视频画面进行图像识别，以获取该视频画面中的人物口型，然后视频数据对齐装置可以采用第一预设算法，对该视频画面中的人物口型进行唇语分析，以得到一个文字内容(或至少一个文字内容)，以得到第一视频内容。

可以理解，上述第一视频内容可以包括一个文字内容或多个文字内容。

进一步可选的，本申请实施例中，上述第一预设算法具体可以为神经网络算法，该神经网络算法可以是预先设置并基于大量口型图像训练得到的。

进一步可选的，本申请实施例中，视频数据对齐装置可以对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧(或者，目标视频中断播放时刻的第二音频帧)进行语音识别，以得到至少一个文字内容(或一个文字内容)，以得到第二视频内容。

进一步可选的，本申请实施例中，视频数据对齐装置可以对目标视频中断播放时刻的字幕之后的至少一个第一字幕(或者，目标视频中断播放时刻的第二字幕)进行文字识别，以得到至少一个文字内容(或一个文字内容)，以得到第二视频内容。

可以理解，上述第二视频内容可以包括一个文字内容或多个文字内容。

本申请实施例中，由于视频数据对齐装置可以对视频帧的视频画面中的人物口型进行识别，得到该视频画面对应的文字内容，并对音频帧进行语音识别，得到该音频帧对应的文字内容，以使得视频数据对齐装置可以根据该视频画面对应的文字内容和该音频帧对应的文字内容，第一视频数据或第二视频数据执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，如此可以提升视频数据对齐装置同步视频数据的准确性。

可选的，本申请实施例中，在目标视频中断播放的情况下，视频数据对齐装置可以对目标视频输出的至少两个第一视频帧的视频画面进行检测，以获取第一视频内容；并从视频数据对齐装置的缓存区域中的音频帧(或字幕)中，确定目标视频中断播放时刻输出的音频帧(或字幕)之后的至少一个第一音频帧或字幕，以对该至少一个第一音频帧(或第一字幕)进行检测，以获取第二视频内容；或者，视频数据对齐装置可以对从视频数据对齐装置的缓存区域中的视频帧的视频画面中，确定目标视频中断播放时刻输出的视频帧之后的至少一个第二视频帧的视频画面，以对该视频画面进行检测，以获取第一视频内容；并对目标视频中断播放时刻输出的第二音频帧(或第二字幕)进行检测，以获取第二视频内容。

步骤102、视频数据对齐装置根据第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。

可选的，本申请实施例中，在第一视频内容包括一个文字内容的情况下，第二视频内容包括多个文字内容，视频数据对齐装置可以根据该第一视频内容中的一个文字内容，从该第二视频内容中的多个文字内容中确定与该第一视频内容中的一个文字内容匹配的文字内容，从而视频数据对齐装置可以根据该第一视频内容中的一个文字内容和与该一个文字内容匹配的第二视频内容中的文字内容，对第二视频数据执行时间戳对齐操作；或者，在第一视频内容包括多个文字内容的情况下，第二视频内容包括一个文字内容，视频数据对齐装置可以根据该第一视频内容中的多个文字内容，从该第一视频内容中的多个文字内容中确定与该第二视频内容中的一个文字内容匹配的文字内容，从而视频数据对齐装置可以根据该第二视频内容中的一个文字内容和与该第二视频内容中的一个文字内容匹配的第一视频中的文字内容，对第一视频数据执行时间戳对齐操作。

可以理解，视频数据对齐装置可以对第一视频数据的与一个文字内容对应的时间戳，和第二视频数据的与该一个文字内容匹配的文字内容对应的时间戳执行时间戳对齐操作，以使得该第一视频数据和该第二视频数据同步。

可选的，本申请实施例中，上述时间戳对齐操作可以包括以下任一项：调整视频数据的输出速率操作和抛弃视频数据操作。

需要说明的是，上述“调整视频数据的输出速率操作”可以理解为：视频数据对齐装置调快(或调慢)某个视频数据的输出速率，以使得一个视频数据的一个时间戳与另一个视频数据的一个时间戳对齐的操作。上述“抛弃视频数据操作”可以理解为：视频数据对齐装置抛弃某个视频数据中的至少一个视频数据，以使得一个视频数据的一个时间戳与另一个视频数据的一个时间戳对齐的操作。

本申请实施例提供的视频数据对齐方法，在目标视频中断播放的情况下，视频数据对齐装置可以获取该目标视频的第一视频数据(即视频帧)对应的第一视频内容(即该目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，该目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容)，和该目标视频的第二视频数据(即音频帧(或字幕))对应的第二视频内容，并根据该第一视频内容和该第二视频内容，对该视频帧或音频帧(或字幕)执行时间戳对齐操作。由于视频数据对齐装置可以根据视频的至少两个视频帧的视频画面对应的视频内容(或视频中断播放时刻的视频帧之后的至少一个视频帧的视频画面对应的视频内容)，和音频帧(或字幕)对应的第二视频内容，对视频的视频帧或音频帧(或字幕)执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以因避免播放时间戳(即视频画面对应的播放时间戳，和/或音频对应的播放时间戳)不准确，而导致的执行时间戳对齐操作后视频仍存在音视频不同步的问题，如此可以提升视频数据对齐装置同步视频数据的准确性。

可选的，本申请实施例中，上述时间戳对齐操作包括抛弃视频数据操作。具体的，结合图1，如图2所示，在上述步骤102之前，本申请实施例提供的视频数据对齐方法还可以包括下述的步骤201和步骤202，且上述的步骤102具体可以通过下述的步骤102a实现。

步骤201、视频数据对齐装置获取第一时间戳和第二时间戳。

本申请实施例中，上述第一时间戳为第一视频数据的播放时间戳，上述第二时间戳为第二视频数据的播放时间戳。

进一步可选的，本申请实施例中，在目标视频中断播放的情况下，视频数据对齐装置可以对视频数据对齐装置当前输出的第一视频数据和第二视频数据进行检测，以获取第一时间戳和第二时间戳。

步骤202、视频数据对齐装置将第一时间戳和第二时间戳中时间戳信息小的时间戳对应的视频数据，确定为第一目标视频数据。

本申请实施例中，上述第一目标视频数据为第一视频数据或第二视频数据。

进一步可选的，本申请实施例中，上述第一时间戳的时间戳信息具体可以为第一时间戳对应的播放时间信息；上述第二时间戳的时间戳信息具体可以为第二时间戳对应的播放时间信息。

可以理解，若一个时间戳的时间戳信息小于另一个时间戳的时间戳信息，则可以认为该一个时间戳对应的视频数据的播放进度滞后于该另一个时间戳对应的视频数据的播放进度，因此，视频数据对齐装置可以将该播放进度滞后的视频数据，确定为第一目标视频数据，从而视频数据对齐装置可以对该第一目标视频数据执行时间戳对齐操作。

步骤102a、视频数据对齐装置根据第一视频内容和第二视频内容，将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作。

本申请实施例中，上述第二目标视频数据为第二视频数据或第一视频数据。

可以理解，在第一目标视频数据为第一视频数据的情况下，上述第二目标视频数据为第二视频数据；或者，在第一目标视频数据为第二视频数据的情况下，上述第二目标视频数据为第一视频数据。

本申请实施例中，N是基于第一视频内容和第二视频内容确定的，N为正整数。

进一步可选的，本申请实施例中，在第一目标视频数据为第一视频数据的情况下，视频数据对齐装置可以将第一视频内容中的多个文字内容中，与第二视频内容中的一个文字内容匹配的文字内容对应的视频数据，确定为第N个视频数据；或者，在第一目标视频数据为第二视频数据的情况下，视频数据对齐装置可以将第二视频内容中的多个文字内容中，与第一视频内容中的一个文字内容匹配的文字内容对应的视频数据，确定为第N个视频数据。

进一步可选的，本申请实施例中，在时间戳对齐操作包括调整视频数据的输出速率操作的情况下，在视频数据对齐装置确定第N个视频数据之后，视频数据对齐装置可以按照第一输出速率输出第一目标视频数据，并将第二目标视频数据的输出速率由第一输出速率调整为第二输出速率(该第二输出速率大于该第一输出速率)，以及实时获取视频数据对齐装置当前输出的第一目标视频数据对应的视频内容和第二目标视频数据对应的视频内容，以在该当前输出的第一目标视频数据对应的视频内容和第二目标视频数据对应的视频内容匹配的情况下，将该第二目标视频数据的输出速率由第二输出速率调整为第一输出速率，以同步输出该第一目标视频数据和该第二目标视频数据。

可选的，本申请实施例中，在时间戳对齐操作包括抛弃视频数据操作的情况下，视频数据对齐装置可以抛弃第一目标视频数据中的至少一个视频数据。具体的，结合图2，如图3所示，上述步骤102a具体可以通过下述的步骤102a1实现。

步骤102a1、视频数据对齐装置根据第一视频内容和第二视频内容，对第一目标视频数据与第N个视频数据之间的视频数据执行抛帧处理。

可以理解，视频数据对齐装置可以抛弃第一目标视频数据与第N个视频数据之间的视频数据，以使得该第N个视频数据与第二目标视频数据同步。

进一步可选的，本申请实施例中，在视频数据对齐装置抛弃第一目标视频数据与第N个视频数据之间的视频数据之后，视频数据对齐装置可以输出该第N个视频数据，从而用户可以对视频数据对齐装置进行输入，以使得视频数据对齐装置可以同步输出第一目标视频数据和第二目标视频数据。

进一步可选的，本申请实施例中，在视频数据对齐装置同步输出第一目标视频数据和第二目标视频数据的情况下，视频数据对齐装置可以将该第一目标视频数据的时间戳，更新为第二目标视频数据的时间戳。

可以理解，视频数据对齐装置可以在同步输出第一目标视频数据和第二目标视频数据的情况下，对该第一目标视频数据的时间戳进行校准，从而在同步输出第一目标视频数据和第二目标视频数据之后，若目标视频再次出现视频数据不同步的情况，则视频数据对齐装置可以直接根据校准后的时间戳，对视频数据执行时间戳对齐操作。

本申请实施例中，由于视频数据对齐装置可以根据第一视频内容和第二视频内容，确定出与第二目标视频数据同步的第一目标视频数据中的视频数据(即第N个视频数据)，并抛弃该第N个视频数据与该第一目标视频数据之间的视频数据，以快速地输出同步的视频数据，因此可以提升视频数据对齐装置执行时间戳对齐操作的效率。

本申请实施例中，由于视频数据对齐装置可以根据第一视频数据的播放时间戳和第二视频数据的播放时间戳，确定播放进度滞后的视频数据，并根据第一视频内容和第二视频内容，对播放进度滞后的视频数据中的视频数据和第二视频数据(或第一视频数据)执行时间戳对齐操作，因此可以提升视频数据对齐装置同步视频数据的准确性。

可选的，本申请实施例中，上述第一目标视频数据为第二视频数据，上述第二目标视频数据为第一视频数据；上述第一视频内容为：对至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，该至少两个第一视频帧为：目标视频的起始播放时刻至中断播放时刻间的视频帧；上述第二视频内容为：对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容。具体的，结合图2，如图4所示，在上述步骤102a中的“将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作”之前，本申请实施例提供的视频数据对齐方法还可以包括下述的步骤301和步骤302，并且上述的步骤102a具体可以通过下述的步骤102a2实现。

步骤301、视频数据对齐装置根据第一视频内容，从第二视频内容中确定出第三视频内容。

可以理解，第一视频内容包括一个文字内容，第二视频内容包括多个文字内容。

本申请实施例中，上述第三视频内容为与第一视频内容匹配的视频内容。

需要说明的是，上述“视频内容为与第一视频内容匹配的视频内容”可以理解为：视频内容与第一视频内容相同的视频内容。

步骤302、视频数据对齐装置将与第三视频内容对应的视频数据，确定为第一目标视频数据之后的第N个视频数据。

可以理解，与第三视频内容对应的视频数据为：与第二目标视频数据同步的视频数据，从而视频数据对齐装置可以将第三视频内容对应的视频帧(或音频帧、字幕)，确定为第一目标视频数据之后的第N个视频数据。

步骤102a2、视频数据对齐装置将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作。

需要说明的是，针对“将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作”的说明，可以参考上述实施例中的具体描述，本申请实施例在此不再赘述。

本申请实施例中，由于视频数据对齐装置可以根据第一视频内容，从第二视频内容中确定出与该第一视频内容匹配的视频内容(即第三视频内容)，并根据该第三视频内容和该第一视频内容，执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以提升视频数据对齐装置同步视频数据的准确性。

需要说明的是，本申请实施例提供的视频数据对齐方法，执行主体可以为视频数据对齐装置，或者该视频数据对齐装置中的用于执行视频数据对齐方法的控制模块。本申请实施例中以视频数据对齐装置执行视频数据对齐方法为例，说明本申请实施例提供的视频数据对齐方法的装置。

图5示出了本申请实施例中涉及的视频数据对齐装置的一种可能的结构示意图。如图5所示，视频数据对齐装置60可以包括：获取模块61和对齐模块62。

其中，获取模块61，用于在目标视频中断播放的情况下，获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容。对齐模块62，用于根据获取模块61获取的第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。其中，第一视频数据为：视频帧；第二视频数据为：音频帧或字幕；第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

在一种可能的实现方式中，上述第一视频内容为：对至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，该至少两个第一视频帧为：目标视频的起始播放时刻至中断播放时刻间的视频帧；上述第二视频内容为：对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；或者，上述第一视频内容为：对目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面进行识别，得到的文字内容；上述第二视频内容为：对目标视频中断播放时刻的第二音频帧进行语音识别，得到的文字内容。

在一种可能的实现方式中，上述获取模块61，还用于获取第一时间戳和第二时间戳，该第一时间戳为第一视频数据的播放时间戳，该第二时间戳为第二视频数据的播放时间戳。结合图5，如图6所示，本申请实施例提供的视频数据对齐装置60还可以包括：确定模块63。其中，确定模块63，用于将获取模块61获取的第一时间戳和第二时间戳中时间戳信息小的时间戳对应的视频数据，确定为第一目标视频数据。上述对齐模块62，具体用于根据第一视频内容和第二视频内容，将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作。其中，第一目标视频数据为第一视频数据，第二目标视频数据为第二视频数据；或者，第一目标视频数据为第二视频数据，第二目标视频数据为第一视频数据；N是基于第一视频内容和第二视频内容确定的，N为正整数。

在一种可能的实现方式中，上述第一目标视频数据为第二视频数据，上述第二目标视频数据为第一视频数据；上述第一视频内容为：对至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，该至少两个第一视频帧为：目标视频的起始播放时刻至中断播放时刻间的视频帧；上述第二视频内容为：对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容。上述确定模块63，还用于根据第一视频内容，从第二视频内容中确定出第三视频内容；该第三视频内容为与第一视频内容匹配的视频内容；并将与第三视频内容对应的视频数据，确定为第一目标视频数据之后的第N个视频数据。

在一种可能的实现方式中，上述对齐模块62，具体用于对第一目标视频数据与第N个视频数据之间的视频数据执行抛帧处理。

本申请实施例提供的视频数据对齐装置，由于视频数据对齐装置可以根据视频的至少两个视频帧的视频画面对应的视频内容(或视频中断播放时刻的视频帧之后的至少一个视频帧的视频画面对应的视频内容)，和音频帧(或字幕)对应的第二视频内容，对视频的视频帧或音频帧(或字幕)执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以因避免播放时间戳(即视频画面对应的播放时间戳，和/或音频对应的播放时间戳)不准确，而导致的执行时间戳对齐操作后视频仍存在音视频不同步的问题，如此可以提升视频数据对齐装置同步视频数据的准确性。

本申请实施例中的视频数据对齐装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频数据对齐装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频数据对齐装置能够实现图1至图4的方法实施例实现的各个过程，为避免重复，这里不再赘述。

可选的，如图7所示，本申请实施例还提供一种电子设备70，包括处理器72，存储器71，存储在存储器71上并可在所述处理器72上运行的程序或指令，该程序或指令被处理器72执行时实现上述视频数据对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要说明的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备100包括但不限于：射频单元101、网络模块102、音频输出单元103、输入单元104、传感器105、显示单元106、用户输入单元107、接口单元108、存储器109、以及处理器110等部件。

本领域技术人员可以理解，电子设备100还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器110逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器110，在目标视频中断播放的情况下，获取目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容；并根据第一视频内容和第二视频内容，对第一视频数据或第二视频数据执行时间戳对齐操作。其中，第一视频数据为：视频帧；第二视频数据为：音频帧或字幕；第一视频内容为：目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

本申请实施例提供的电子设备，由于电子设备可以根据视频的至少两个视频帧的视频画面对应的视频内容(或视频中断播放时刻的视频帧之后的至少一个视频帧的视频画面对应的视频内容)，和音频帧(或字幕)对应的第二视频内容，对视频的视频帧或音频帧(或字幕)执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以因避免播放时间戳(即视频画面对应的播放时间戳，和/或音频对应的播放时间戳)不准确，而导致的执行时间戳对齐操作后视频仍存在音视频不同步的问题，如此可以提升电子设备同步视频数据的准确性。

可选的，本申请实施例中，处理器110，还用于获取第一时间戳和第二时间戳，该第一时间戳为第一视频数据的播放时间戳，该第二时间戳为第二视频数据的播放时间戳；并将第一时间戳和第二时间戳中时间戳信息小的时间戳对应的视频数据，确定为第一目标视频数据；以及，根据第一视频内容和第二视频内容，将第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作。其中，第一目标视频数据为第一视频数据，第二目标视频数据为第二视频数据；或者，第一目标视频数据为第二视频数据，第二目标视频数据为第一视频数据；N是基于第一视频内容和第二视频内容确定的，N为正整数。

本申请实施例中，由于电子设备可以根据第一视频数据的播放时间戳和第二视频数据的播放时间戳，确定播放进度滞后的视频数据，并根据第一视频内容和第二视频内容，对播放进度滞后的视频数据中的视频数据和第二视频数据(或第一视频数据)执行时间戳对齐操作，因此可以提升电子设备同步视频数据的准确性。

可选的，本申请实施例中，上述第一目标视频数据为第二视频数据，上述第二目标视频数据为第一视频数据；上述第一视频内容为：对至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，该至少两个第一视频帧为：目标视频的起始播放时刻至中断播放时刻间的视频帧；上述第二视频内容为：对目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容。

处理器110，还用于根据第一视频内容，从第二视频内容中确定出第三视频内容；该第三视频内容为与第一视频内容匹配的视频内容；并将与第三视频内容对应的视频数据，确定为第一目标视频数据之后的第N个视频数据。

本申请实施例中，由于电子设备可以根据第一视频内容，从第二视频内容中确定出与该第一视频内容匹配的视频内容(即第三视频内容)，并根据该第三视频内容和该第一视频内容，执行时间戳对齐操作，而并非根据视频画面对应的播放时间戳和音频对应的播放时间戳，因此可以提升电子设备同步视频数据的准确性。

可选的，本申请实施例中，处理器110，还用于对第一目标视频数据与第N个视频数据之间的视频数据执行抛帧处理。

本申请实施例中，由于电子设备可以根据第一视频内容和第二视频内容，确定出与第二目标视频数据同步的第一目标视频数据中的视频数据(即第N个视频数据)，并抛弃该第N个视频数据与该第一目标视频数据之间的视频数据，以快速地输出同步的视频数据，因此可以提升电子设备执行时间戳对齐操作的效率。

应理解的是，本申请实施例中，输入单元104可以包括图形处理器(GraphicsProcessing Unit，GPU)1041和麦克风1042，图形处理器1041对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元106可包括显示面板1061，可以采用液晶显示器、有机发光二极管等形式来配置显示面板1061。用户输入单元107包括触控面板1071以及其他输入设备1072。触控面板1071，也称为触摸屏。触控面板1071可包括触摸检测装置和触摸控制器两个部分。其他输入设备1072可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器109可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器110可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器110中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频数据对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频数据对齐方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频数据对齐方法，其特征在于，所述方法包括：

在目标视频中断播放的情况下，获取所述目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容；

根据所述第一视频内容和所述第二视频内容，对所述第一视频数据或所述第二视频数据执行时间戳对齐操作；

其中，所述第一视频数据为：视频帧；所述第二视频数据为：音频帧或字幕；所述第一视频内容为：所述目标视频的至少两个第一视频帧的视频画面对应的视频内容，或者，所述目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面对应的视频内容。

2.根据权利要求1所述的方法，其特征在于，所述第一视频内容为：对所述至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，所述至少两个第一视频帧为：所述目标视频的起始播放时刻至中断播放时刻间的视频帧；所述第二视频内容为：对所述目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；或者，

所述第一视频内容为：对所述目标视频中断播放时刻的视频帧之后的至少一个第二视频帧的视频画面进行识别，得到的文字内容；所述第二视频内容为：对所述目标视频中断播放时刻的第二音频帧进行语音识别，得到的文字内容。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述第一视频内容和所述第二视频内容，对所述第一视频数据或所述第二视频数据执行时间戳对齐操作之前，所述方法还包括：

获取第一时间戳和第二时间戳，所述第一时间戳为所述第一视频数据的播放时间戳，所述第二时间戳为所述第二视频数据的播放时间戳；

将所述第一时间戳和所述第二时间戳中时间戳信息小的时间戳对应的视频数据，确定为第一目标视频数据；

所述根据所述第一视频内容和所述第二视频内容，对所述第一视频数据或所述第二视频数据执行时间戳对齐操作，包括：

根据所述第一视频内容和所述第二视频内容，将所述第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作；

其中，所述第一目标视频数据为所述第一视频数据，所述第二目标视频数据为所述第二视频数据；或者，所述第一目标视频数据为所述第二视频数据，所述第二目标视频数据为所述第一视频数据；N是基于所述第一视频内容和所述第二视频内容确定的，N为正整数。

4.根据权利要求3所述的方法，其特征在于，所述第一目标视频数据为所述第二视频数据，所述第二目标视频数据为所述第一视频数据；所述第一视频内容为：对所述至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，所述至少两个第一视频帧为：所述目标视频的起始播放时刻至中断播放时刻间的视频帧；所述第二视频内容为：对所述目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；

所述将所述第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作之前，所述方法还包括：

根据所述第一视频内容，从所述第二视频内容中确定出第三视频内容；所述第三视频内容为与所述第一视频内容匹配的视频内容；

将与所述第三视频内容对应的视频数据，确定为所述第一目标视频数据之后的第N个视频数据。

5.根据权利要求3所述的方法，其特征在于，所述将所述第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作，包括：

对所述第一目标视频数据与所述第N个视频数据之间的视频数据执行抛帧处理。

6.一种视频数据对齐装置，其特征在于，所述视频数据对齐装置包括：获取模块和对齐模块；

所述获取模块，用于在目标视频中断播放的情况下，获取所述目标视频的第一视频数据对应的第一视频内容和第二视频数据对应的第二视频内容；

所述对齐模块，用于根据所述获取模块获取的所述第一视频内容和所述第二视频内容，对所述第一视频数据或所述第二视频数据执行时间戳对齐操作；

7.根据权利要求6所述的视频数据对齐装置，其特征在于，所述第一视频内容为：对所述至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，所述至少两个第一视频帧为：所述目标视频的起始播放时刻至中断播放时刻间的视频帧；所述第二视频内容为：对所述目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；或者，

8.根据权利要求6或7所述的视频数据对齐装置，其特征在于，所述获取模块，还用于获取第一时间戳和第二时间戳，所述第一时间戳为所述第一视频数据的播放时间戳，所述第二时间戳为所述第二视频数据的播放时间戳；

所述视频数据对齐装置还包括：确定模块；

所述确定模块，用于将所述获取模块获取的所述第一时间戳和所述第二时间戳中时间戳信息小的时间戳对应的视频数据，确定为第一目标视频数据；

所述对齐模块，具体用于根据所述第一视频内容和所述第二视频内容，将所述第一目标视频数据之后的第N个视频数据与第二目标视频数据执行时间戳对齐操作；

9.根据权利要求8所述的视频数据对齐装置，其特征在于，所述第一目标视频数据为所述第二视频数据，所述第二目标视频数据为所述第一视频数据；所述第一视频内容为：对所述至少两个第一视频帧的视频画面中的人物口型进行识别，得到的文字内容，所述至少两个第一视频帧为：所述目标视频的起始播放时刻至中断播放时刻间的视频帧；所述第二视频内容为：对所述目标视频中断播放时刻的音频帧之后的至少一个第一音频帧进行语音识别，得到的文字内容；

所述确定模块，还用于根据所述第一视频内容，从所述第二视频内容中确定出第三视频内容；所述第三视频内容为与所述第一视频内容匹配的视频内容；并将与所述第三视频内容对应的视频数据，确定为所述第一目标视频数据之后的第N个视频数据。

10.根据权利要求8所述的视频数据对齐装置，其特征在于，所述对齐模块，具体用于对所述第一目标视频数据与所述第N个视频数据之间的视频数据执行抛帧处理。