CN112437336A

CN112437336A - 音视频播放方法、装置、电子设备及存储介质

Info

Publication number: CN112437336A
Application number: CN202011308153.4A
Authority: CN
Inventors: 刘梁贵; 张巧双
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-03-02

Abstract

本申请公开了一种音视频播放方法、装置、电子设备及存储介质，属于计算机技术领域。该方法包括：获取与目标信息相关的第一动作信息；所述目标信息包括音频信息或字幕信息中的至少一项；获取所述第一动作信息对应的第一时间点；获取所述目标信息的预设播放时间；基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。本申请提供的音视频播放方法、装置、电子设备及存储介质，通过获取视频中音频、字幕等目标信息相关的第一动作发生的时间点与该第一动作的预设播放时间进行匹配，以实时控制目标信息的播放，实现目标信息与目标视频的同步播放，有效的解决了目标视频与目标信息播放不同步的问题，并提高了同步播放的精度。

Description

音视频播放方法、装置、电子设备及存储介质

技术领域

本申请属于计算机技术领域，具体涉及一种音视频播放方法、装置、电子设备及存储介质。

背景技术

随着人们对音视频的播放方面的需求和要求越来越高，由于音视频在制作、解码的过程中均会受外在因素的干扰，从而造成在进行视频直播或音视频播放时，存在容易发生音视频或字幕播放不同步的缺陷，现有技术没有统一、有效的解决方法。

发明内容

本申请实施例的目的是提供一种音视频播放方法、装置、电子设备及存储介质，能够解决现有技术所存在的无法有效解决音视频或字幕播放不同步的问题。

为了解决上述技术问题，本申请是这样实现的：

第一方面，本申请实施例提供了一种音视频播放方法，该方法包括：

获取与目标信息相关的第一动作信息；所述目标信息包括音频信息或字幕信息中的至少一项；

获取所述第一动作信息对应的第一时间点；

获取所述目标信息的预设播放时间；

基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。

第二方面，本申请实施例提供了一种音视频播放的装置，包括：

动作信息获取模块，用于获取与目标信息相关的第一动作信息；所述目标信息包括音频信息或字幕信息中的至少一项；

第一计时模块，用于获取所述第一动作信息对应的第一时间点；

第二计时模块，用于获取所述目标信息的预设播放时间；

播放调整模块，用于基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。

第三方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面任一所述的音视频播放方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面任一所述的音视频播放方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面任一所述的音视频播放方法的步骤。

在本申请实施例中，通过获取视频中音频、字幕等目标信息相关的第一动作发生的时间点与该第一动作的预设播放时间进行匹配，以实时控制目标信息的播放，实现目标信息与目标视频的同步播放，有效的解决了目标视频与目标信息播放不同步的问题，并提高了同步播放的精度。

附图说明

图1是本申请实施例提供的音视频播放方法的流程示意图；

图2是本申请实施例提供的获取音视频中的发声位置的动作信息的示意图；

图3是本申请实施例提供的一种播放包含字幕的视频播放时的截图；

图4是本申请实施例提供的一种实感像素传感器的像素布局示意图；

图5是本申请实施例提供的一种实感像素的内部电路结构示意图；

图6是本申请实施例提供的音视频播放装置的结构示意图；

图7为本申请实施例提供的电子设备的结构示意图之一；

图8为本申请实施例提供的电子设备的结构示意图之二。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的音视频播放方法进行详细地说明。

需要说明的是，本申请实施例提供的音视频播放方法，执行主体可以为音视频播放装置，或者该音视频播放装置中的用于执行加载音视频播放的方法的控制模块。本申请实施例中以音视频播放装置执行加载音视频播放的方法为例，说明本申请实施例提供的音视频播放的方法。

图1是本申请实施例提供的一种音视频播放方法的流程示意图，如图1所示，该音视频播放方法可以包括以下步骤：

步骤11，获取与目标信息相关的的第一动作信息。

其中，第一动作信息可以根据所播放的视频内容以及所要同步的音频或字幕进行适当的选择，可以是视频中正在播放的目标图像中所出现的人物所做出的某一特定动作，例如：人物嘴部位置的动作信息或人物手部位置的动作信息等。

作为可选地，所述第一动作信息也可以是目标图像中所出现的动物或者动画人物的某一特定动作，例如动物嘴部位置的动作信息或动物的特定动作信息等。

其中，所述音视频可以是录像资料、直播视频等，对此本申请不作具体地限定。

其中，所述目标信息包括音频信息或字幕信息中的至少一项，即本申请所要解决的是如何根据视频中的第一动作信息，实现视频与音频或者字幕等同步播放的问题。

图2是本申请实施例提供的获取音视频中的发声位置的动作信息的示意图，如图2所示，本申请的目的是根据视频中的出现人物的图像相关的动作信息与其发出声音的同步，实现视频与音频的同步，故所获取的第一动作信息是视频中出现的人物的发声位置的动作信息，所述发声位置具体是人物的嘴部位置。

作为可选地，若播放的音视频是一部动画片，且其中的某一帧图像中的声音是由一个动画人物发出的，则本申请中所述的第一动作信息可以是该动画人物的嘴部位置的动作信息。

进一步地，所述第一动作信息是人物手部位置的动作信息的预设场景之一可以是：若所述目标信息为拍桌子的声音，则与所述目标信息相关的第一动作信息可以是目标图像中所出现的人物拍桌子的动作。

步骤12，获取所述第一动作信息对应的第一时间点。

其中，所述第一时间点是根据所述第一动作信息确定的。在本申请中，可以将音视频中的第一动作信息的发生时间点作为第一时间点。

步骤13，获取所述目标信息的预设播放时间。

其中，在目标信息为音频信息的情况下，所述预设播放时间可以是音频信息对应的音频时间戳。由于音视频在制作的过程中，虽然已经预先将音频时间戳与视频时间戳进行了对齐处理，基于音频时间戳与视频时间戳对齐的基础上，会由于以下原因依然会造成音视频不同步：

一方面原因是由于采集源距离太远。如果音频源离麦克风距离太远，由于声音的船舶速度小于光的船舶速度，从而导致声音传播到麦克风的速度远小于采集画面的速度，那么摄像头采集画面后所给出的视频时间戳，肯定要远小于麦克风采集到同一时间点的音频时间戳，因此会产生音画不同步。

另一方面的原因则是由于采集设备内部处理造成的。由于摄像头和麦克风采集音视频时，在硬件上都会经过一些信号处理模块。如果信号处理模块处理延时不稳定，则会导致输出数据的时间不稳定，从而导致应用层获取时间戳的时候产生误差，从而也会带来音画不同步。

还有一方面的原因可能是由于没有在采集的时候获取时间戳造成的。如果音频时间戳或视频时间戳不是在采集的时候获取，而是在后续的某个环节再合成的，则非常大概率地会出现音视频不同步。

对于播放器而言，其判断一帧视频和一帧音频是否要在同一个时间渲染和播放，依靠的完全是该数据携带的时间戳信息，如果生成的音频时间戳和视频时间戳在生成的时候就存在不同步的缺陷，那么在播放器播放时再怎么调整也于事无补。

本申请所提供的音视频播放方法，由于一个音视频中会出现较多的人物动作，也具有较多的人物声音。故需要先确定与所述第一动作信息相对应的音频信息作为目标音频的信息，具体可以采用以下方法：

在基于视频时间戳和音频时间戳已经对齐的基础上，在确定音视频中任一帧图像中所出现的与目标信息相关的第一动作信息后，则可以获取到与所述第一动作信息所对应的视频时间戳，作为第一时间点。然后，通过进一步获取与所述视频时间戳相对应的音频时间戳，作为所述目标音频的音频时间戳，作为所述预设播放时间，即本申请实施例中的目标音频是根据第一动作信息进行确定的。

可选的，在所述目标信息是字幕信息的情况下，本申请提供了解决音视频播放过程中字幕与视频画面不同步的问题。将需要进行同步播放的字幕作为目标字幕，则所述目标信息即为目标字幕的信息。

在检测到音视频画面中出现了目标字幕的情况下，确定与所述目标字幕对应的待同步的目标图像。图3是本申请提供的播放包含字幕的视频播放时的截图，将该截图作为目标图像，现以图3为例对本申请的技术方案进行说明。

在获取到目标图像后，首先确定目标图像中出现目标字幕的时间点作为所述目标字幕的预设播放时间。然后，获取到目标图像中人物的第一动作信息，并获取图像中的人物开始说话的时间作为所述述第一动作信息对应的第一时间点。

如图3所示，对目标图像中的老师的嘴部位置的动作信息(第一动作信息)进行检测，获取老师开始说话的时间点作为第一时间点；将老师说的话“同学们早上好”作为字幕，并获取字幕开始出现的时间作为所述字幕信息对应的预设播放时间。

步骤14，基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。在步骤14中，通过将步骤12中所获取的与目标信息相关的第一动作信息与步骤13中所获取的目标信息的预设播放时间进行比对，以实现目标信息与目标视频的同步播放。

例如，在目标信息为音频信息的情况下，则可以根据视频中出现的人物嘴部开始动作的第一时间点与这一动作对应的目标音频的音频时间戳的比对结果，判断视频中的第一动作发生的时间点与目标音频的播放时间点是否相同。

再例如，在所述目标信息是字幕信息的情况下，则可以根据视频中出现的人物嘴部开始动作的第一时间点与这一动作对应的目标字幕的预设播放时间的比对结果，判断视频中第一动作的发生的时间点与目标字幕的包房时间点是否是相同。

最后，可以根据比对结果对目标音频和/或目标字幕的播放进行控制，以使得第一动作信息发生的时间点与目标音频和/或的播放时间点相同，实现音视频同步。

本申请实施例提供的音视频播放方法，通过获取视频中音频、字幕等目标信息相关的第一动作发生的时间点与该第一动作的预设播放时间进行匹配，以实时控制目标信息的播放，实现目标信息与目标视频的同步播放，有效的解决了目标视频与目标信息播放不同步的问题，并提高了两者同步播放的精度。

作为一种可选实施例，步骤11中的所述获取视频中的第一动作信息，可以包括：

获取与所述目标信息相关的目标图像；

确定所述目标图像中的发声位置；

基于实感像素传感器，获取所述发声位置的第一动作信息。

本申请实施例提供了一种获取视频中的第一动作信息的方法，所述第一动作信息主要是指视频中的发声位置的动作信息，如人物嘴部位置的动作信息等。

作为一种可选实施例，在直播或视频场景中，说话的人物处于直播或视频画面中，此时截取视频中的至少一帧图像。其中各图像中至少包括有正在说话的人物。将任一图像设置为目标图像，采用图像识别技术，确定该目标图像中的发声位置(如任务嘴部位置，以下统称为目标位置)。

作为另一实施例，在在直播或视频场景中，用户是利用后置摄像头进行视频拍摄，即说话的人物并未出现在所述后置摄像头所采集的画面中，此时，可以利用前置摄像头来目标图像，并保证所述目标图像中包括获取正在说话的人物。

以图2所示为例，在所述目标信息为音频信息的情况下，在目标图像中定位目标位置的方法可以是，采用机器学习的方法，首先对直播或者视频中的人物进行人脸检测，获取到目标图像中的人脸区域。进而在所获取的人脸区域内，采用基于特征的方式定位到目标位置。

在获取到目标位置后，利用实感像素传感器对所述目标位置进行检测，获取该目标位置的第一动作信息。其中，所述第一动作信息主要包括人物嘴部是否动作以及动作的幅度是否超过预设的幅度阈值。

其中，实感像素传感器是指像素传感器中拥有实感像素的传感器，具备精确、高速的抓取运动物体轮廓的功能。在本申请中利用实感像素传感器对目标位置的进行检测，能够精确提取出人物的嘴部动作信息。若人物嘴部的动作的幅度超过了预设的幅度阈值，则说明目标位置所对应的人物开始说话了。

此时，通过读取实感像素传感器开始检测到人物嘴部动作的起始时间，将其作为第一时间点。读取与第一动作信息相对应的目标音频的预设播放时间，即音频时间戳，通过将第一时间点与该音频时间戳进行比较，以根据比较结果确定人物开始说话的时间点(即第一时间点)是否与目标音频的音频时间戳相同。若两者相同，则证明无需对目标音频进行播放调整；若两者不相同，则控制目标音频的播放，以使得目标音频的播放与目标视频同步播放。

作为可选地，上述使目标信息与目标视频同步播放方法，可以在目标视频的播放过程中；也可以发生目标视频制作完成后且在目标视频的播放之前。在目标视频播放之前进行目标信息同步播放调整时，可以随机获取目标视频中包含有发声位置的多帧图像，并通过将每一帧图像所对应的第一时间点和每个第一时间对应的预设播放时间进行比对，以根据比对结果对整个目标视频与各个目标信息的同步播放进行调整。

作为可选地，也可以是对音视频中所有包含发声位置的图像进行识别，并利用上述音视频同步播放调整的方法，对目标视频中各音频的音频时间戳进行调整，以进一步提高音视频同步的精度。

进一步地，在目标信息为字幕信息的情况下，获取目标字幕的第一动作信息的方法可以是：

首先，获取包含目标字幕的图像作为目标图像。通过实感像素传感器检测目标图像中第一动作信息的发生时间作为第一时间点，如获取人物嘴部动作的起始时间，将其作为第一时间点。

获取与第一动作信息相对应的目标字幕的预设播放时间，通过将第一时间点与该预设播放时间进行比较，以根据比较结果确定人物开始说话的时间点(即第一时间点)是否与目标视频中字幕的预设播放时间相同。若两者相同，则证明无需对目标字幕进行播放调整；若两者不相同，则控制目标字幕的播放，以使得目标字幕的播放与目标视频同步播放。

本申请实施例提供的音视频播放方法，基于实感像素传感器获取与音频和/或字幕相关的目标图像中的发声位置的动作信息，以获取图像中人物开始说话的时间点，并根据该时间点与音频和/或字幕的预设播放时间的比对，以控制音频和/或字幕的播放，能够精确、有效的实现目标信息与目标视频同步播放。

基于上述实施例的内容，作为一种可选实施例，在所述目标图像中的所述发声位置为多个，且所述目标信息为音频信息的情况下，所述获取所述第一动作信息对应的第一时间点，可以包括：

确定多个所述发声位置同时生成动作信息的时间，为所述第一时间点；

所述确定所述目标信息的预设播放时间，具体包括：

确定音频中同时出现多人声音的时间，作为所述预设播放时间；所述多人声音对应的人数与所述发声位置的个数相同。

由于目标视频中往往不止存在一个人物，在目标视频中所截取的目标图像中存在多个人物的情况下，则可以对应的获取到目标图像中的多个目标位置。此时，所获取的第一时间点则可以是根据多个目标位置的动作信息所综合确定的时间点。例如，所述第一时间点可以是：多个目标位置的动作信息同时生成的时间点；相应地，与目标信息所对应的预设播放时间，则是音频中同时出现多人声音的时间，且多人声音对应的人数与所述发声位置的个数相同。

例如：在获取到的目标图像中出现4个人物同时说话的情况下，则利用实感像素传感器获取到4个人物同时说话的时间点作为第一时间点。相应地，在音频中确定出同时出现4个人说话的时间视为音频的预设播放时间。

即在本申请中，在检测到目标图像中存在多个目标位置的人物嘴部的动作幅度均超过了预设的幅度阈值，则说明目标图像中存在多人说话，可以将音频调整至音频中出现相同数量的人物声音的位置，并根据调整后的音视频播放位置，对视频时间戳和音频时间戳进行对齐调整。

作为可选地，所述第一时间点的确定方法也可以是：确定多个目标位置的动作信息中最早发生的动作信息所对应的时间点。

具体地，以目标图像中存在三个目标位置(记为目标位置A、目标位置B和目标位置C)为例进行说明：

首先，利用实感像素传感器，分别获取每一个目标位置所对应的动作信息，并分别确定每个动作信息所包括人物嘴部是否动作，以及确定动作的幅度是否超过预设的幅度阈值。设其中仅有目标位置A和目标位置B处的人物嘴部的动作的幅度超过了预设的幅度阈值，而目标位置C处的人物嘴部的动作的幅度小于预设的幅度阈值，则仅需要获取目标位置A处人物嘴部的动作起始时间t₁和目标位置A处人物嘴部的动作起始时间t₂。将t₁与t₂进行比较(假设t₁小于t₂)，则将其中较小的t₁作为所述第一时间点。

本申请实施例提供的音视频播放方法，通过检测到目标视频中出现多人说话的情况下，能够迅速的对音频的播放进行调整，以快速进行音视频同步播放的调整，有效的提高了音视频同步播放的调整效率，提升了观看者的体验感。

基于上述实施例的内容，作为一种可选实施例，所述基于实感像素传感器，获取所述发声位置的第一动作信息，可以包括：

开启所述实感像素传感器中与所述发声位置对应区域的实感像素信息；

基于所述实感像素信息，获取所述发声位置的第一动作信息。

具体地，当用户进行音视频播放或者直播时，特别是在直播时，由于在手持拍摄的过程中，面部位置在前置采集的图像中基本不变。此时，可以控制与用户嘴部位置对应的区域的实感像素工作，而无需利用实感像素传感器中的每个实感像素点都进行采集识别，从而能够节省功耗。

如图2所示，以对用户直播视频的音视频同步调整为例，在获取到人物的面部图像作为目标图像，并定位到目标图像中的目标位置之后，则可以仅仅利用与目标位置相对应的实感像素对该目标文字所对应的区域进行动作信息检测，而不开启其他区域的实感像素。

本申请实施例提供的音视频播放方法，通过仅仅开启需要进行动作信息检测的实感像素，能够在满足检测需求的基础上，有效的节省了功耗，对于一些利用蓄电池进行工作的设备(如手机等)，能够有效的提升其续航能力。

基于上述实施例的内容，作为一种可选实施例，

所述目标视频通过第一摄像模组采集得到；

所述获取与所述目标信息相关的目标图像，包括：

通过包含实感像素传感器的第二摄像模组获取与所述目标信息相关的目标图像；

其中，所述第一摄像模组为前置摄像头模组，所述第二摄像模组为后置摄像头模组，或者，所述第一摄像模组为后置摄像头模组，所述第二摄像模组为前置摄像头模组。图4是本申请实施例提供的一种实感像素传感器的像素布局示意图，如图4中的左图所示，是按一定的密度将实感像素插入至常规传感器所获取的一种实感像素传感器，其中每个像素阵列是由32*32个像素点组成。

作为可选地，整个像素阵列铺设于衬底的中间部位，为了便于像素阵列的安装和固定，在衬底上预留有空白部位。作为可选的，如图4中的右图所示，像素阵列和衬底均为长方形结构，衬底的上部预留的空白部位的宽度为72μm，两侧的空白部位的宽度为88μm，下部预留的空白部位的宽度为96μm。

与常规像素要在一个时间段内(和帧率相关)对光信息做积分后按照顺序逐个读出的原理不同，本申请实施例作所提供的实感像素，可以分别独立的工作，随着像素时钟频率，各实感像素能实时感知外界环境亮度变化，并将环境亮度的变换转化成电流的变化，进而转换成数字信号的变化。最后，可以根据数字信号的变化输出读出结果，所述读出结果主要包括带有坐标信息、亮度信息、时间信息的数据包。

图5是本申请实施例提供的一种实感像素的内部电路结构示意图，如图5所示，所述内部电路结构包括电流放大模块以及模数转换模块、逻辑判断模块、信号控制模块和模拟信号输出模块。其中，实感像素阵列用于实时感知外界环境亮度变化，将环境亮度的变换转化成电流的变化。在分别将电流信号转换成对应的电压信号后，输入至电流放大模块，以对所述电压信号放大。然后，分别将放大后的电压信号输入至模数转换模块，转换成数字信号。将转换后的数值信号输入至逻辑判断模块，如果某个实感像素的数字信号的变化量大于预设的最大阈值VH或小于最小阈值VL，则通过所述信号控制模块输出比较结果。

其中，VH和VL分别是根据上一时钟频率该实感像素的数字信号值与预设阈值确定，VH为上一时钟频率该实感像素的数字信号值加上预设阈值，VL为上一时钟频率该实感像素的数字信号值减去预设阈值。

进一步地，所述比较结果可以表征该实感像素在本次时钟频率内的变化是否超过阈值范围，若超过，则说明该实感像素对应的检测对象出现了动作。

进一步地，还可以利用模拟信号输出模块对放大后的电压信号进行数模转化，以获取由实感像素检测的读出结果(模拟量结果)，故所述读出结果可以包括带有坐标信息、亮度信息、时间信息的数据包。

进一步地，在本申请实施例所提供的实感像素的内部电路结构中，还可以增设一个多路复用开关，用于从所有实感像素所获取的模拟或数字输入信号中选择某个或多个信号并将其转发至系统，以供系统读出。其中，此处的系统是指实感像素传感器内部的信号处理系统。

作为可选地，在本申请实施例中，实感像素传感器可以单独设置在前置摄像头模组或单独设置在后置摄像头模组，或同时设置在前置摄像头模组和后置摄像头模组中。

例如，在直播或者视频场景下，一般是用户(以下称作机主)利用后置摄像头进行拍摄的，所拍摄的说话对象处于直播或视频画面中，此时是以后置摄像头模组作为第一摄像模组，进行目标视频的采集。同时在所述第一摄像模组中增设实感像素传感器，以获取目标视频中与目标信息(如音频信息、字幕信息)相关的目标图像。

但在一些特殊情况下，同时说话的机主并未出现在后置摄像头所采集的画面中。此时，可以在前置摄像头模组中也增加实感像素或在前置摄像头模组中增加实感传感器，以有效的获取机主的嘴部位置的动作信息。

即在此时，是将后置摄像头模组作为第一摄像模组，将前置摄像头作为第二摄像模组，并在第二摄像模组中增设实感像素传感器，以获取有所述第二摄像头模组所拍摄的目标信息相关的用户自拍的图像作为目标图像。

可选地，用户也可以设所述第一摄像模组为前置摄像头模组，所述第二摄像模组为后置摄像头模组，以利用前置摄像头进行视频直播，而用后置摄像头模组进行目标图像的拍摄(包含用户的自拍图像)，故在后置摄像头模组中增设实感像素传感器。可选地，也可以同时在前置摄像头以及后置摄像头中均增设实感像素传感器，以方便用户随时根据自己的需要进行视频或直播，而无需特意的去选择将包含有实感像素传感的摄像头模组用于目标图像的获取。

本申请提供的音视频播放方法，可以根据实际检测的需要在前后摄像头模组中选择性的进行实感像素的设置，能够满足用户对于不同音视频播放、拍摄的需求。

基于上述实施例的内容，作为一种可选实施例，所述基于所述第一时间点和所述预设播放时间，控制所述目标信息与所述视频的同步播放，具体包括：

将所述目标信息的预设播放时间设置为所述第一时间点；

或在所述第一时间点早于所述预设播放时间的情况下，加快所述目标信息的播放速度；

或在所述第一时间点晚于所述预设播放时间的情况下，降低所述目标信息的播放速度。

一方面，在所述目标信息为目标音频的信息的情况下，本申请实施例提供了几种控制目标音频的播放以实现音视频同步播放的方法：

一种方法是，在获取到目标音频的音频时间戳作为其预设播放时间，以及与所述目标音频对应的目标图像的第一时间点后，直接将音频时间戳设置为第一时间点。即在检测到视频中有人开始说话时，直接播放目标音频。

考虑到在检测到视频中有人开始说话时，直接播放目标音频，在技术实现上，需要较为先进的设备支持，故本申请实施例提供了另一种方法控制方法，即在获取到目标图像中所对应的第一时间点以及以所述目标图像对应的目标音频的音频时间戳后，将第一时间点与音频时间戳进行比较。

如图2所示，若获取到目标图像中的人物的嘴部位置的动作信息，并根据动作信息确定出其开始说话的时间点(第一时间点)，但是对应的音频时间戳却晚于所述第一时间点，则说明视频的播放早于目标音频的播放，则控制音频解码器加快所述目标音频的播放速度，即将目标音频中所记载的“今天心情不错”以加速的方式进行播放，直至在对下一帧目标图像的检测结果中获知第一时间点与音频时间戳相同为止。

进一步地，若获取到的音频时间戳早于所述第一时间点，则说明视频的播放晚于目标音频的播放，则控制音频解码器降低所述目标音频的播放速度，即将目标音频中所记载的“今天心情不错”以慢速的方式进行播放，直至在对下一帧目标图像的检测结果中获知第一时间点与音频时间戳相同为止。

进一步地，音频解码器可以根据音频时间戳与所述第一时间点的差值，并结合所述目标音频的总播放时长，来综合计算播放速度的调整幅度。音频时间戳和所述第一时间点之间的差值与调整幅度成正比，目标音频的总播放时长与调整幅度成反比。

作为可选地，也可以在检测到音频时间戳与所述第一时间点不匹配时，通过调整视频的播放速度，以实现音视频的同步。

另一方面，在所述目标信息为目标字幕的信息的情况下，本申请提供几种控制目标字幕的播放以实现目标字幕与目标视频同步播放的方法：

在检测到目标视频中出现了目标字幕的情况下，获取与所述目标字幕对应的目标图像。

在获取到目标图像后，首先确定目标图像中目标字幕的播放时间作为其预设播放时间。然后，获取到目标图像中人物的第一动作信息，并基于该第一动作信息，获取图像中的人物开始说话的第一时间点。

现以图3为例对本申请的技术方案进行说明：对目标图像中的老师的嘴部位置的动作信息进行检测，获取老师开始说话的时间点作为第一时间点；将老师说的话“同学们早上好”作为目标字幕，并获取目标字幕的播放时间作为预设播放时间。

将预设播放时间与第一时间点进行比较，若两者相同，则说明目标字幕与目标视频的播放是同步的。若两者不相同，则可以根据预设播放时间与第一时间点的早晚，对目标字幕的播放进行控制，以实现目标字幕与目标视频的同步播放。

进一步地，在目标图像中检测到多个发声位置的情况下，则可以分别对每个嘴部位置所对应的字幕和嘴部动作信息进行检测，并分别调整与之对应的字幕的播放。

在图3中，假设老师开始说话的时间点与其对应的字幕“同学们早上好”出现的时间是匹配的，则无需对该字幕的播放进行控制；假设同学开始说话的时间与其对应的字幕“老师早上好”不匹配，则对字幕“老师早上好”的播放进行控制。

进一步地，本申请提供了几种实现目标字幕与目标视频播放同步的控制方法：

一种方法是，在获取到目标字幕播放的预设播放时间以及目标图像对应的第一时间点后，直接将预设播放时间设置为第一时间点。即在检测到视频中有人开始说话时，直接播放与之对应的字幕。

如图3所示，在获取到老师开始说话的第一时间点后，直接将字幕播放的预设播放时间设置为第一时间点，以直接播放字幕“同学们早上好”。

另一种可选方法是，在获取到目标图像中所对应的第一时间点以及以所述目标图像对应的字幕播放的预设播放时间后，将第一时间点与预设播放时间进行比较。

若获取到老师的嘴部位置的动作信息，并根据该动作信息确定出其开始说话的时间点(第一时间点)，但是字幕“同学们早上好”开始播放的预设播放时间却晚于所述第一时间点，则说明目标视频的播放早于目标字幕的播放，则控制字幕解码器加快目标字幕的播放速度，即将字幕“同学们早上好”以加速的方式进行播放，直至在对下一帧目标图像的检测结果中获知第一时间点与预设播放时间相同为止。

进一步地，若获取到的同学的嘴部位置的动作信息，并根据该动作信息确定出其开始说话的第一时间点，但预设播放时间早于所述第一时间点，则说明视频的播放晚于字幕“老师早上好”的播放，则控制字幕解码器降低字幕“老师早上好”的播放速度，即将“老师早上好”以慢速的方式进行播放，直至在对下一帧目标图像的检测结果中获知第一时间点与该字幕播放的预设播放时间相同为止。

进一步地，字幕解码器可以根据预设播放时间与对应的第一时间点的差值，并结合所述字幕的总播放时长，来综合计算字幕播放速度的调整幅度。预设播放时间和所述第一时间点之间的差值与所述调整幅度成正比，字幕的总播放时长与调整幅度成反比。

进一步地，本申请实施例提供的字幕与视频进行同步播放的方法可以是在上述实施例所述的音视频同步的基础上进行的，这样能够实现音频、视频、字幕三者的同步。但作为可选的实施例，也可以独立的进行字幕与视频进行同步播放。

本申请实施例提供的音视频播放方法，提供了多种对音频播放、字幕播放进行控制的方式，能够有效的实现音视频以及字幕的同步播放控制。

基于上述实施例的内容，作为一种可选实施例，

在获取与目标信息相关的第一动作信息之前，还包括：

获取评论信息；

在所述评论信息中包含用于指示目标信息异常的信息的情况下，获取与目标信息相关的第一动作信息。

为了避免在每次进行音视频播放都要开启音视频同步功能，在本申请实施了中设置一个触发条件，即在满足该触发条件的情况下才获取与目标信息相关的第一动作信息，以根据所述第一动作信息对应的第一时间点和预设播放时间，进行音视频及字幕同步播放设置，以节省功耗。

作为可选地，所述触发条件可以是：在视频进行播放且被用户观看的过程中，收集弹幕、评论中的评论信息，并对该评论信息进行识别。若所述评论信息中包含用于指示目标信息异常的信息，即识别到一定数量的用户反馈出音视频不同步或视频与字幕不匹配等情况，则满足该触发条件，以根据该触发条件开启本申请实施例所提供的音视频同步功能。

作为可选地，所述触发条件可以包括第一触发条件和第二触发条件。其中，第一触发条件是指一定数量的用户仅反馈的音视频不同步；第二触发条件是指一定数量的用户仅反馈的视频与字幕不同步。在仅满足第一触发条件的情况下，仅进行音视频的同步控制，而不进行字幕与视频的同步控制；在仅满足第二触发条件的情况下，仅进行字幕与视频的同步控制，而不进行音视频的同步控制。在同时满足第一触发条件和第二触发条件的情况下，则同时进行字幕与视频的同步控制以及音视频的同步控制。

图6是本申请实施例提供的音视频播放装置的结构示意图，如图6所示，该装置主要包括动作信息获取模块1、第一计时模块2、第二计时模块3和播放调整模块4。

动作信息获取模块1主要用于获取与目标信息相关的第一动作信息；所述目标信息包括音频信息或字幕信息中的至少一项；

第一计时模块2主要用于获取所述第一动作信息对应的第一时间点；

第二计时模块3主要用于获取所述目标信息的预设播放时间；

播放调整模块4主要用于基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。

具体地，信息获取模块1主要用于获取与目标信息相关的目标图像，并检测出目标图像中的第一动作信息。其中，第一动作信息可以是目标图像中所出现的人、动物或者动画人物的某一特定动作，目标信息包括待同步的音频信息和/或字幕信息。

进一步地，第一计时模块2是用于确定目标图像的第一动作信息所对应的第一时间。可选地，第一计时模块2可以将第一动作信息的实际发生时间点作为第一时间点，并进行记录。

进一步地，第二计时模块3主要用于确定与所述第一动作信息对应目标音频、目标字幕，并获取目标音频的音频时间戳作为其预设播放时间或获取目标字幕的预计播放时间作为其预设播放时间。

其中，由于本申请实施例所提供的音视频播放装置是基于视频时间戳和音频时间戳已经对齐的基础上，实现音视频播放的同步，故目标音频的获取方法可以是：先根据第一动作信息所对应的视频时间戳确定与之对应的音频时间戳，再根据音频时间戳确定出目标音频。

进一步地，在本申请实施例提供的音视频播放装置中，利用播放调整模块4将第一计时模块2所获取的第一时间点与第二计时模块3所获取的预设播放时间进行比对，以根据比对结果对目标信息的播放进行控制，以使得第一动作信息发生的时间点与目标信息的播放时间点相同，实现目标信息与目标视频的同步播放。

本申请实施例提供的音视频播放装置，通过获取视频中音频、字幕等目标信息相关的第一动作发生的时间点与该第一动作的预设播放时间进行匹配，以实时控制目标信息的播放，实现目标信息与目标视频的同步播放，有效的解决了目标视频与目标信息播放不同步的问题，并提高了两者同步播放的精度。

本实施例提供的装置能够实现上述方法实施例的所有方法步骤并能达到相同的技术效果，在此不再进行赘述。

可选地，所述动作信息获取模块1具体用于：

获取与所述目标信息相关的目标图像；

确定所述目标图像中的发声位置；

基于实感像素传感器，获取所述发声位置的第一动作信息。

本申请实施例提供的音视频播放壮族，基于实感像素传感器获取与音频和/或字幕相关的目标图像中的发声位置的动作信息，以获取图像中人物开始说话的时间点，并根据该时间点与音频和/或字幕的预设播放时间的比对，以控制音频和/或字幕的播放，能够精确、有效的实现目标信息与目标视频同步播放。

可选地，在所述目标图像中的所述发声位置为多个，且所述目标信息为音频信息的情况下，所述第一计时模块2具体用于：

基于多个所述发声位置的动作信息，确定所述第一时间点。

可选地，在所述目标图像中的所述发声位置为多个的情况下，所述第二计时模块3具体用于：

所述确定所述目标信息的预设播放时间，具体包括：

本申请实施例提供的音视频播放装置，通过检测到目标视频中出现多人说话的情况下，能够迅速的对音频的播放进行调整，以快速进行音视频同步播放的调整，有效的提高了音视频同步播放的调整效率，提升了观看者的体验感。

可选地，所述动作信息获取模块1还具体用于：

获取所述实感像素传感器中与所述发声位置对应区域的实感像素信息；

本申请实施例提供的音视频播放装置，通过仅仅开启需要进行动作信息检测的实感像素，能够在满足检测需求的基础上，有效的节省了功耗，对于一些利用蓄电池进行工作的设备(如手机等)，能够有效的提升其续航能力。

可选地，所述目标视频通过第一摄像模组采集得到；

所述动作信息获取模块1还用于：

其中，所述第一摄像模组为前置摄像头模组，所述第二摄像模组为后置摄像头模组，或者，所述第一摄像模组为后置摄像头模组，所述第二摄像模组为前置摄像头模组。

本申请提供的音视频播放装置，可以根据实际检测的需要在前后摄像头模组中选择性的进行实感像素的设置，能够满足用户对于不同音视频播放、拍摄的需求。

可选地，所述播放调整模块4具体用于：

将所述目标信息的预设播放时间设置为所述第一时间点；

可选地，本申请提供的音视频播放装置还包括同步调用模块；所述同步调用模块用于在获取与目标信息相关的第一动作信息之前，执行以下操作：

获取评论信息；

本申请实施例中的音视频播放装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personaldigital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(NetworkAttached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的音视频播放装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的音视频播放装置能够实现图1至图5的方法实施例中音视频播放装置实现的各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种电子设备700，如图7所示，包括处理器702，存储器701，存储在存储器701上并可在所述处理器702上运行的程序或指令，该程序或指令被处理器702执行时实现上述音视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，处理器810主要用于获取与目标信息相关的第一动作信息；所述目标信息包括音频信息或字幕信息中的至少一项；获取所述第一动作信息对应的第一时间点；获取所述目标信息的预设播放时间；基于所述第一时间点和所述预设播放时间，控制所述目标信息与目标视频同步播放。

本申请提供的用于音视频播放的电子设备，通过获取视频中音频、字幕等目标信息相关的第一动作发生的时间点与该第一动作的预设播放时间进行匹配，以实时控制目标信息的播放，实现目标信息与目标视频的同步播放，有效的解决了目标视频与目标信息播放不同步的问题，并提高了两者同步播放的精度。

应理解的是，本申请实施例中，输入单元804可以包括图形处理器(GraphicsProcessing Unit，GPU)841和麦克风842，图形处理器841对在视频捕获模式或图像捕获模式中由图像捕获装置(如摄像头)获得的静态图片或视频的图像数据进行处理。显示单元806可包括显示面板861，可以采用液晶显示器、有机发光二极管等形式来配置显示面板861。用户输入单元807包括触控面板871以及其他输入设备872。触控面板871，也称为触摸屏。触控面板871可包括触摸检测装置和触摸控制器两个部分。其他输入设备872可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆，在此不再赘述。存储器809可用于存储软件程序以及各种数据，包括但不限于应用程序和操作系统。处理器810可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器810中。

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述音视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述音视频播放方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种音视频播放方法，其特征在于，包括：

获取所述第一动作信息对应的第一时间点；

获取所述目标信息的预设播放时间；

2.根据权利要求1所述的音视频播放方法，其特征在于，所述获取与目标信息相关的第一动作信息，包括：

获取与所述目标信息相关的目标图像；

确定所述目标图像中的发声位置；

基于实感像素传感器，获取所述发声位置的第一动作信息。

3.根据权利要求2所述的音视频播放方法，其特征在于，在所述目标图像中的所述发声位置为多个，且所述目标信息为音频信息的情况下，所述获取所述第一动作信息对应的第一时间点，具体包括：

所述确定所述目标信息的预设播放时间，具体包括：

4.根据权利要求2所述的音视频播放方法，其特征在于，所述基于实感像素传感器，获取所述发声位置的第一动作信息，包括：

5.根据权利要求2所述的音视频播放方法，其特征在于，

所述目标视频通过第一摄像模组采集得到；

所述获取与所述目标信息相关的目标图像，包括：

6.根据权利要求1或5任一所述的音视频播放方法，其特征在于，所述基于所述第一时间点和所述预设播放时间，控制所述目标信息与所述视频的同步播放，具体包括：

将所述目标信息的预设播放时间设置为所述第一时间点；

7.根据权利要求1所述的音视频播放方法，其特征在于，在获取与目标信息相关的第一动作信息之前，还包括：

获取评论信息；

8.一种音视频播放装置，其特征在于，包括：

第二计时模块，用于获取所述目标信息的预设播放时间；

9.根据权利要求8所述的音视频播放装置，其特征在于，所述动作信息获取模块具体用于：

获取与目标信息相关的目标图像；

确定所述目标图像中的发声位置；

基于实感像素传感器，获取所述发声位置的第一动作信息。

10.根据权利要求9所述的音视频播放装置，其特征在于，在所述目标图像中的所述发声位置为多个，且所述目标信息为音频信息的情况下，所述第一计时模块具体用于：

所述第二计时模块具体用于：

确定音频中同时出现多人声音的时间，为所述预设播放时间；所述多人声音对应的人数与所述发声位置的个数相同。

11.根据权利要求9所述的音视频播放装置，其特征在于，所述动作信息获取模块还具体用于：

12.根据权利要求9所述的音视频播放装置，其特征在于，

所述目标视频通过第一摄像模组采集得到；

所述动作信息获取模块还用于：

13.根据权利要求8-12任一所述的音视频播放装置，其特征在于，所述播放调整模块具体用于：

将所述目标信息的预设播放时间设置为所述第一时间点；

14.根据权利要求8所述的音视频播放装置，其特征在于，还包括评论读取模块，所述评论读取模块具体用于：

获取评论信息；

15.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的音视频播放方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的音视频播放方法的步骤。