CN113473201A

CN113473201A - 一种音视频对齐方法、装置、设备及存储介质

Info

Publication number: CN113473201A
Application number: CN202110869809.8A
Authority: CN
Inventors: 杨跃; 董治; 雷兆恒
Original assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Current assignee: Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date: 2021-07-29
Filing date: 2021-07-29
Publication date: 2021-10-01

Abstract

本申请公开了一种音视频对齐方法、装置、设备及存储介质。音视频对齐方法包括：获取目标音频数据，并确定目标音频数据的音频节拍序列；获取目标视频数据，并确定目标视频数据的第一视频节拍序列；获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离；根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。通过该方法，可实现音视频对齐的效果，使目标视频数据根据目标音频数据呈现相应的节奏感。

Description

一种音视频对齐方法、装置、设备及存储介质

技术领域

本申请涉及音视频处理技术领域，尤其涉及一种音视频对齐方法、装置、设备及存储介质。

背景技术

目前，用户可以将任一音频数据和任一视频数据合成一个音视频数据，但存在音视频数据中的音频数据和视频数据对不齐的现象，例如，用户合成的音视频数据在播放过程中出现人物的说话嘴型与播放声音不一致的现象，导致音视频数据中的音频数据和视频数据的节奏感不一致，播放效果差，那么如何实现音频数据和视频数据的对齐是目前亟需解决的技术问题。

发明内容

本申请公开了一种音视频对齐方法、装置、设备及存储介质，可实现音视频对齐的效果，使视频数据根据音频数据呈现相应的节奏感。

第一方面，本申请实施例提供了一种音视频对齐方法，该方法包括：

获取目标音频数据，并确定目标音频数据的音频节拍序列；

获取目标视频数据，并确定目标视频数据的第一视频节拍序列；

获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离；

根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。

第二方面，本申请实施例提供了一种音视频对齐装置，该装置包括：

获取单元，用于获取目标音频数据；

处理单元，用于确定目标音频数据的音频节拍序列；

上述获取单元还用于获取目标视频数据；

上述处理单元还用于确定目标视频数据的第一视频节拍序列；

上述处理单元还用于获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离；

上述处理单元还用于根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。

第三方面，本申请实施例提供了一种音视频对齐设备，包括处理器、存储器，其中，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如第一方面描述的音视频对齐方法。

第四方面，本申请实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面描述的音视频对齐方法。

本申请实施例中，音视频对齐装置可以获取目标音频数据，并确定目标音频数据的音频节拍序列；获取目标视频数据，并确定目标视频数据的第一视频节拍序列；获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离；根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。通过该方法，可以基于动态时间规整算法对音频节拍序列与第一视频节拍序列进行对齐处理，从而实现音视频对齐的效果，使目标视频数据根据目标音频数据呈现相应的节奏感。

附图说明

为了更清楚地说明本申请实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种音视频对齐方法的流程示意图；

图2为本申请实施例提供的一种节拍序列的示意图；

图3为本申请实施例提供的一种时间扭曲的效果的示意图；

图4为本申请另一实施例提供的一种音视频对齐方法的部分流程示意图；

图5a为本申请另一实施例提供的一种节拍序列的示意图；

图5b为本申请另一实施例提供的一种节拍图的示意图；

图6为本申请另一实施例提供的一种节拍序列的示意图；

图7为本申请另一实施例提供的一种音视频对齐方法的部分流程示意图；

图8为本申请另一实施例提供的一种节拍序列的示意图；

图9为本申请另一实施例提供的一种节拍图的示意图；

图10为本申请实施例提供的一种音视频对齐装置的单元示意图；

图11为本申请实施例提供的一种音视频对齐设备的实体结构简化示意图。

具体实施方式

本申请实施例提供的音视频对齐方法的执行主体可以是音视频对齐设备，该音视频对齐设备可以是服务器或者终端设备，也可以是服务器或终端设备中的插件等音视频对齐工具。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

该服务器可以包括处理器、存储器以及输入输出接口等，处理器可以用于对目标音频数据和目标视频数据进行音视频对齐处理，存储器可以用于存储音视频对齐方法对应的计算机程序或者音视频对齐过程中产生的数据等，输入输出接口可以用于获取以及发送数据。当服务器是具有音视频对齐功能的客户端的后台服务器时，用户可以在客户端调用服务器中的音视频对齐方法对应的计算机程序来对目标音频数据和目标视频数据进行对齐处理。

该终端设备可以包括处理器、存储器以及输入输出接口等，处理器可以用于对目标音频数据和目标视频数据进行音视频对齐处理，存储器可以用于存储音视频对齐方法对应的计算机程序或者音视频对齐过程中产生的数据等，输入输出接口可以用于获取以及发送数据。终端设备还可以包括音频播放器以及显示屏幕等输出设备，终端设备可以通过输出设备来播放对齐处理后的音视频数据。

请参见图1，图1为本申请实施例提供的一种音视频对齐方法的流程示意图，该方法可以应用于音视频对齐设备，也就是说，该方法的执行主体可以是音视频对齐设备，该音视频对齐设备可以是服务器或者终端设备，也可以是服务器或终端设备中的插件等，本申请实施例对音视频对齐方法对应的音视频对齐设备的具体表现形式不作限定。如图1所示，音视频对齐方法包括：

110、获取目标音频数据，并确定目标音频数据的音频节拍序列。

音视频对齐设备可以从外界获取目标音频数据，例如音视频对齐设备可以根据用户指令从云端下载目标音频数据，也可以从用户提供的移动存储器中获取目标音频数据，该移动存储器可以是移动硬盘或者USB闪存盘(USB flash disk)等；音视频对齐设备也可以从该音视频对齐设备的存储空间中获取目标音频数据，例如当目标音频数据存在于音视频对齐设备的只读存储器(Read Only Memory，ROM)时，音视频对齐设备可以从该只读存储器中获取目标音频数据。

在音视频对齐设备获取到目标音频数据后，音视频对齐设备可以确定该目标音频数据的音频节拍序列，该音频节拍序列可以包含根据目标音频数据得到的音频节拍点和各个音频节拍点之间的音频节拍间隔等信息。例如，图2为本申请实施例提供的一种节拍序列的示意图，如图2所示，音频节拍序列210可以包括音频节拍点211、音频节拍点212、音频节拍点213以及音频节拍点214，音频节拍序列210中也可以包括音频节拍点211与音频节拍点212之间的音频节拍间隔、音频节拍点212与音频节拍点213之间的音频节拍间隔以及音频节拍点213与音频节拍点214之间的音频节拍间隔等信息。

120、获取目标视频数据，并确定目标视频数据的第一视频节拍序列。

可以理解的是，音视频对齐设备获取目标视频数据的方式与上述实施例中音视频对齐设备对目标音频数据的获取方式类似，也就是说，音视频对齐设备可以从外界获取目标视频数据，也可以从该音视频对齐设备的存储空间中获取目标视频数据，具体过程可以参照上述实施例的相关描述，此处不再赘述。

在音视频对齐设备获取目标视频数据后，音视频对齐设备可以确定目标视频数据的视频节拍序列，为了便于与其他视频节拍序列区分，可以将该视频节拍序列称为第一视频节拍序列，该第一视频节拍序列可以包含根据目标视频数据得到的视频节拍点和各个视频节拍点之间的视频节拍间隔等信息。如图2所示，第一视频节拍序列220可以包括视频节拍点221、视频节拍点222、视频节拍点223、视频节拍点224、视频节拍点225以及视频节拍点226，第一视频节拍序列220也可以包括视频节拍点221与视频节拍点222之间的视频节拍间隔、视频节拍点222与视频节拍点223之间的视频节拍间隔、视频节拍点223与视频节拍点224之间的视频节拍间隔、视频节拍点224与视频节拍点225之间的视频节拍间隔以及视频节拍点225与视频节拍点226之间的视频节拍间隔等信息。

130、获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离。

其中，动态时间规整距离可以表示上述音频节拍序列与上述第一视频节拍序列的相似性，动态时间规整距离越小则相似性越高。音视频对齐设备可以根据动态时间规整(Dynamic Time Warping，DTW)算法获取音频节拍序列和第一视频节拍序列之间的动态时间规整距离，从而在获取该动态时间规整距离的过程中选择音频节拍序列和第一视频节拍序列的最佳对齐路径，其中，动态时间规整距离可以是各个音频节拍点和各个视频节拍点组成的n×m的矩阵网格中，从格点(1,1)到格点(n,m)的各条路径的最小累积距离，而最佳对齐路径可以是动态时间规整距离对应的路径，也就是说，最佳对齐路径可以是从格点(1,1)到格点(n,m)的各条路径中累积距离最小的路径。累积距离可以是当前格点距离与可以到达该当前格点的各个邻近格点的累积距离中的最小值之和，其中，当前格点距离可以表示当前格点所指示的音频节拍点和视频节拍点的距离。

可选的，音视频对齐设备可以获取音频节拍序列中各个音频节拍点与第一视频节拍序列中各个视频节拍点的距离，其中，该距离可以欧氏距离，也可以是马氏距离。可选的，音视频对齐设备可以根据动态时间规整(Dynamic Time Warping，DTW)算法，从音频节拍序列中各个音频节拍点与第一视频节拍序列中各个视频节拍点的距离中获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离。

如图2所示，音频节拍序列210中包含音频节拍点211、音频节拍点212、音频节拍点213以及音频节拍点214，共4个音频节拍点。第一视频节拍序列220包含视频节拍点221、视频节拍点222、视频节拍点223、视频节拍点224、视频节拍点225以及视频节拍点226，共6个视频节拍点。那么音视频对齐设备可以获取音频节拍序列210中包含的各个音频节拍点与第一视频节拍序列220中包含的各个视频节拍点之间的距离，也就是说，音视频对齐设备可以分别获取音频节拍点211、音频节拍点212、音频节拍点213以及音频节拍点214中各个音频节拍点与视频节拍点221、视频节拍点222、视频节拍点223、视频节拍点224、视频节拍点225以及视频节拍点226中各个视频节拍点之间的距离。

可选的，音视频对齐设备可以构造一个4×6的矩阵网格，格点(i,j)中的元素可以表示音频节拍序列210中第i个音频节拍点与第一视频节拍序列220中第j个视频节拍点的距离d(i,j)，其中，i∈[1,4]，j∈[1,6]。举例来说，格点(2,4)中的元素可以表示音频节拍序列210中第2个音频节拍点与第一视频节拍序列220中第4个视频节拍点的距离d(2,4)，也就是说，格点(2,4)中的元素可以表示音频节拍序列210中的音频节拍点212与第一视频节拍序列220中的视频节拍点224之间的距离d(2,4)。

假设累积距离Y(i,j)可以表示从格点(1,1)到格点(i,j)的各条路径的累积距离中的最小值，也就是说，累积距离Y(i,j)可以表示格点(i,j)的累积距离，而可以到达格点(i,j)的邻近格点包括格点(i-1,j-1)、格点(i-1,j)以及格点(i,j-1)，那么累积距离Y(i,j)可以是当前格点距离与累积距离Y(i-1,j-1)、累积距离Y(i-1,j)以及累积距离Y(i,j-1)中的最小值之和，其中，当前格点距离可以是距离d(i,j)，也就是说，累积距离Y(i,j)可以是格点(i,j)中的元素与累积距离Y(i-1,j-1)、累积距离Y(i-1,j)以及累积距离Y(i,j-1)中的最小值之和。音视频对齐设备可以根据音频节拍序列210中各个音频节拍点与第一视频节拍序列220中各个视频节拍点的距离，获取矩阵网格中从格点(1,1)到格点(4,6)的累积距离Y(4,6)，也就是说，音视频对齐设备可以获取音频节拍序列210与第一视频节拍序列220之间的动态时间规整距离。

举例来说，假设累积距离Y(0,0)为0，故累积距离Y(1,1)可以是d(1,1)，那么音视频对齐设备可以依次计算出矩阵网格中各个格点的累积距离Y(i,j)。可选的，音视频对齐设备可以根据累积距离Y(4,6)，以回溯的方式找到音频节拍序列和第一视频节拍序列的最佳对齐路径。如图2所示，音视频对齐设备可以获取音频节拍序列210与第一视频节拍序列220之间的动态时间规整距离，该动态时间规整距离可以是累积距离Y(4,6)。

140、根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。

音视频对齐设备可以根据动态时间规整距离选择音频节拍序列和第一视频节拍序列的最佳对齐路径，对音频节拍序列和第一视频节拍序列进行对齐处理，从而得到第一音视频数据。如图2所示，终端设备可以根据音频节拍序列210与第一视频节拍序列220中的动态时间规整距离，也就是说，音视频对齐设备可以获取音频节拍点211与视频节拍点221对齐到音频节拍点214与视频节拍点226对齐的最佳对齐路径，那么音视频对齐设备可以按照最佳对齐路径对音频节拍序列210与第一视频节拍序列220进行对齐处理，得到第一音视频数据。

举例来说，当音视频对齐设备根据上述动态时间规整距离，以回溯的方式找到的最佳对齐路径为(4,6)、(4,5)、(3,4)、(2,3)、(1,2)以及(1,1)时，音视频对齐设备可以将音频节拍点211与视频节拍点221以及视频节拍点222进行匹配，可以将音频节拍点212与视频节拍点223进行匹配，可以将音频节拍点213与视频节拍点224进行匹配，还可以将音频节拍点214与视频节拍点225以及视频节拍点226进行匹配。

在一种可能的实现方式中，音视频对齐设备在根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据之后，还可以确定第一音视频数据中的每一帧音视频数据的目标参数，并根据每一帧音视频数据的目标参数对第一音视频数据进行时间扭曲，得到第二音视频数据，其中，对第一音视频数据进行时间扭曲包括在时域上拉伸或收缩第一音视频数据。音视频对齐设备可以根据不同的目标参数，对第一音视频数据进行不同程度的时间扭曲。例如，图3为本申请实施例提供的一种时间扭曲的效果的示意图，如图3所示，曲线310可以表示音视频对齐设备按照三次插值对第一音视频数据进行时间扭曲处理的结果；曲线320可以表示音视频对齐设备按照线性插值对第一音视频数据进行时间扭曲处理的结果，其中，该时间扭曲处理后的结果中每一帧的间隔均相同；曲线330可以表示当每一帧音视频数据的目标参数均为0.5时，音视频对齐设备根据每一帧音视频数据的目标参数对第一音视频数据进行时间扭曲的结果；曲线340可以表示当每一帧音视频数据的目标参数均为0时，音视频对齐设备根据每一帧音视频数据的目标参数对第一音视频数据进行时间扭曲的结果。

可选的，每一帧音视频数据的目标参数可以与第一音视频数据的目标音视频节拍点的冲击强度成正比，其中，目标音视频节拍点为第一音视频数据的音视频节拍序列中距离每一帧音视频数据最近的音视频节拍点。可选的，冲击强度可以是冲击的幅度。

通过上述方法，音视频对齐设备可以基于动态时间规整算法获取音频节拍序列和第一视频节拍序列之间的动态时间规整距离，并按照动态时间规整距离对音频节拍序列和第一视频节拍序列进行对齐处理，从而得到对齐后的第一音视频数据，实现了音视频对齐的效果。音视频对齐设备还可以基于时间扭曲来加快接近音视频节拍点时的时间，可以使播放动作更连贯，从而形成更强的感官体验，并根据每一帧的目标参数与最近的音视频节拍点的冲击强度成正比的设置，避免了对低置信度音视频节拍点的夸张运动。

请参见图4，图4为本申请另一实施例提供的一种音视频对齐方法的部分流程示意图，该方法可以应用于音视频对齐设备，也就是说，该方法的执行主体可以是音视频对齐设备，该音视频对齐设备可以是服务器或者终端设备，也可以是服务器或终端设备中的插件等，本申请实施例对音视频对齐方法对应的音视频对齐设备的具体表现形式不作限定。如图4所示的方法用于确定目标音频数据的音频节拍序列，包括：

410、获取目标音频数据的音频起始点，得到起始点包络。

其中，音频起始点(onset)可以携带信号的突变，起始点包络(onset envelop)可以是包含目标音频数据的所有音频起始点的曲线。音视频对齐设备可以对目标音频数据进行音频起始点检测(onset detection)，从而检测目标音频数据的音符、鼓点等音乐事件发生的起始点的位置。可选的，在计算目标音频数据的音频起始点之前，音视频对齐设备可以对目标音频数据进行短时傅里叶变换(Short-Time Fourier Transform，STFT)，得到功率谱图。音视频对齐设备可以对频谱上的正频谱通量求和，得到起始点强度(onsetstrength)，并获取该起始点强度的局部最大值作为音频起始点，那么音视频对齐设备可以根据音频起始点获取目标音频数据的起始点包络。可选的，起始点强度可以是音频起始点的幅度。例如，图5a为本申请另一实施例提供的一种节拍序列的示意图，如图5a所示，音视频对齐设备可以对目标音频数据510进行短时傅里叶变换，得到功率谱图520。根据该功率谱图520，音视频对齐设备可以对频谱上的正频谱通量求和，得到起始点强度并获取该起始点强度的局部最大值作为音频起始点，那么音视频对齐设备可以根据该音频起始点获取目标音频数据的起始点包络530。

可选的，音视频对齐设备可以获取目标音频数据的时间窗口，例如，该时间窗口可以是0.15秒或者5秒等时间范围，其中，该时间窗口可以是音视频对齐设备预设的时间窗口，也可以是用户按照意愿设置的时间窗口。音视频对齐设备可以对每一个时间窗口范围内的频谱上的正频谱通量求和，从而得到至少一个时间窗口范围内的起始点强度，那么音视频对齐设备可以从至少一个时间窗口范围内的起始点强度中获取至少一个局部最大值，并将获取到的至少一个局部最大值作为目标音频数据的音频起始点。

420、根据起始点包络的自相关，获取音频节拍间隔。

其中，自相关可以是指信号在一个时刻的瞬时值与另一个时刻的瞬时值的依赖关系，可以是对一个随机信号的时域描述。音视频对齐设备可以通过在起始点包络的自相关中计算峰值来确定目标音频数据的节奏，可选的，该节奏可以是可计数频率周期的最大峰值，其中，节奏可以是自然、社会或者人的活动中一种与韵律结伴而行的有规律的突变。音视频对齐设备可以根据目标音频数据的节奏来获取目标音频数据的音频节拍图，并可以根据音频节拍图获取目标音频数据的音频节拍间隔，可选的，该音频节拍间隔可以是随时间变化的音频节拍间隔。

如图5a所示，音视频对齐设备可以通过在起始点包络530的自相关中计算峰值来确定目标音频数据的节奏，那么音视频对齐设备可以根据目标音频数据的节奏来获取目标音频数据的音频节拍图540，其中，音频节拍图540中可以包括目标音频数据的各个音频节拍点等信息。通过音频节拍图540，音视频对齐设备可以获取随时间变化的音频节拍间隔。

可选的，图5b为本申请另一实施例提供的一种节拍图的示意图，如图5b所示，音频节拍图560可以包括目标音频数据中的各个音频节拍点和各个音频节拍点之间的音频节拍间隔等信息，虚线561可以表示检测出的目标音频数据中的各个音频节拍点在时间轴上的位置，那么音视频对齐设备可以根据音频节拍图560中各个音频节拍点在时间轴上的位置，获取音频节拍点之间的音频节拍间隔。

430、根据起始点包络和音频节拍间隔，获取目标音频数据的音频节拍序列。

音视频对齐设备可以在获得目标音频数据的音频起始点和音频节拍间隔之后，在音频起始点之间确定一个尽可能稳定的、节拍能量最大化的音频节拍序列。如图5a所示，音视频对齐设备可以根据起始点包络530和音频节拍图540，获取目标音频数据510的音频节拍序列550，也就是说，音视频对齐设备可以在音频起始点之间确定一个尽可能稳定的、节拍能量最大化的音频节拍序列550。可选的，音视频对齐设备确定音频节拍序列的公式可以如式1.1所示：

其中，u_a可以为起始点包络，{n_i}可以是找到的N个音频节拍点，n_i可以是N个音频节拍点中的第i个音频节拍点，N为正整数，γ可以是平衡两个目标项的参数，v(Δn,τ)可以是用来衡量每两个相邻的音频节拍点的间距和τ的差距，τ可以是音频节拍的周期，P可以是归一化参数。该公式可以利用log函数将两拍、四拍以及半拍等时值的惩罚归一化。那么根据上述公式，音视频对齐设备可以通过递归关系进行动态规划，从而获取到一个尽可能稳定且节拍能量最大化的音频节拍序列，也就是说，音视频对齐设备可以获取到一个节拍间时间间隔尽可能均匀且节拍强烈的最佳的音频节拍序列。例如，图6为本申请另一实施例提供的一种节拍序列的示意图，如图6所示，音频节拍序列可以包括音频节拍点611、音频节拍点612以及音频节拍点613等目标音频数据的音频节拍点，其中，音频节拍点611、音频节拍点612以及音频节拍点613等目标音频数据的音频节拍点之间的音频节拍间隔均匀，且分别分布在音频起始点621、音频起始点622以及音频起始点623等音频起始点周围。

通过上述方法，音视频对齐设备可以通过目标音频数据获取一个尽可能稳定且节拍能量最大化的音频节拍序列。

请参见图7，图7为本申请另一实施例提供的一种音视频对齐方法的部分流程示意图，该方法可以应用于音视频对齐设备，也就是说，该方法的执行主体可以是音视频对齐设备，该音视频对齐设备可以是服务器或者终端设备，也可以是服务器或终端设备中的插件等，本申请实施例对音视频对齐方法对应的音视频对齐设备的具体表现形式不作限定。如图7所示的方法用于确定目标视频数据的第一视频节拍序列，具体包括：

710、根据深度学习算法，提取目标视频数据中每一帧视频数据的光流。

其中，光流(optical flow)可以指示在目标视频数据中，由于事物的运动或者光照产生的、与光的流动类似的像素亮度连续变化信息，可以用来估计目标视频数据中的两帧视频数据之间的相对运动。该深度学习算法可以是神经网络光流估计算法(CNNs forOptical Flow Using Pyramid,Warping,and Cost Volume，PWC-Net)，PWC-Net是一种紧凑而有效的光流估计卷积神经网络(Convolutional Neural Networks，CNN)模型。该光流估计的CNN模型可以包括金字塔(Pyramid)，扭曲(Warping)以及代价体积(Cost Volume)等三个部分，代价体积可以存储下一帧像素与其对应像素相关联的数据匹配代价，该匹配代价可以为第一幅图像的特征与第二幅图像的扭曲特征之间的相关性，那么音视频对齐设备可以根据PWC-Net的三个部分对光流进行估计。每个画面都有前后两个图，音视频对齐设备可以根据PWC-Net将第一个图的光流扭曲第二个图的CNN特征，并将扭曲后第二个图的特征以及第一个图的特征构造一个代价体积，那么音视频对齐设备可以根据代价体积、第一个图的特征以及扭曲后的第二个图的特征获取光流。

可选的，音视频对齐设备可以根据PWC-Net提取目标视频数据中每一帧视频数据的光流，其中，每一帧视频数据可以包括该每一帧视频数据的所有像素，也就是说，音视频对齐设备可以根据PWC-Net提取目标视频数据中每一帧视频数据的所有像素的光流。例如，图8为本申请另一实施例提供的一种节拍序列的示意图，如图8所示，目标视频数据810可以包括一帧视频数据811、一帧视频数据812以及一帧视频数据813等，那么音视频对齐设备可以根据PWC-Net获取目标视频数据810中的一帧视频数据811、一帧视频数据812以及一帧视频数据813等每一帧视频数据的光流，也就是说，音视频对齐设备可以根据PWC-Net获取目标视频数据810中的一帧视频数据811、一帧视频数据812以及一帧视频数据813等每一帧视频数据的所有像素的光流。

720、根据目标视频数据中每一帧视频数据的光流，获取目标视频数据的方向图。

其中，该目标视频数据对应的方向图(directogram)可以是一个二维矩阵，方向图中的每一列可以包含每一帧视频数据的光流的运动趋势。光流可以是空间运动物体在观察成像平面上的像素运动的瞬时速度，目标视频数据中每一帧视频数据的每一个像素均可以存在一个角度以及该角度对应的权重，其中，不同像素的角度对应的权重可以不同。可选的，上述每一个像素的角度可以由该每一个像素的光流的方向所构成，也就是说，上述每一个像素的角度可以由该每一个像素运动的瞬时速度的方向所构成。音视频对齐设备可以对每一帧视频数据的不同像素的光流对应的角度进行加权得到一个角度直方图，并可以将每一帧视频数据所得的角度直方图映射成方向图中的每一列，也就是说，方向图中的每一列为该列对应的输入帧的光流的加权的角度直方图的计算结果。那么音视频对齐设备可以获取方向图中的每一列对应的输入帧视频数据的光流的加权的角度直方图，从而可以根据每一帧视频数据的光流的加权的角度直方图得到目标视频数据对应的方向图。如图8所示，音视频对齐设备可以根据目标视频数据810中每一帧视频数据的光流的加权的角度直方图，获取目标视频数据810的方向图820，其中，方向图820中的每一列可以是音视频对齐设备对该每一列对应的输入帧的光流的加权的角度直方图的计算结果。

可选的，音视频对齐设备可以将每一帧视频数据中的目标像素的光流过滤，得到过滤后的每一帧视频数据的目标光流，其中，目标像素可以为每一帧视频数据中光流小于预设阈值的像素，也就是说，该过滤后的每一帧视频数据的目标光流可以包括该每一帧视频数据中除小于预设阈值的光流以外的所有光流。那么音视频对齐设备可以根据目标视频数据的每一帧视频数据的目标光流，获取目标视频数据的方向图，其中，该方向图中的每一列可以包含目标视频数据中每一帧视频数据的目标光流的运动趋势。

730、根据方向图，获取目标视频数据的冲击包络。

上述方向图可以为一个二维矩阵，该矩阵形式类似于音频的频谱图，那么音视频对齐设备可以通过计算频谱通量的方式计算方向图的通量。在得到目标视频数据的方向图之后，音视频对齐设备可以获取目标视频数据的冲击包络(impact envelop)，可选的，音视频对齐设备可以使用0.15秒的窗口计算多个局部最大值，并可以将冲击定义为超过所有局部最大值的平均值的10％以上的本地最大值，本地最大值可以是指大于上述多个局部最大值中所有局部最大值的平均值的10％的局部最大值，也就是说，该冲击可以是所有局部最大值中大于该所有局部最大值的平均值的10％的局部最大值。如图8所示，音视频对齐设备可以根据方向图820，获取目标视频数据810的冲击包络830。

可以理解的是，音视频对齐设备对目标视频数据的冲击包络的获取过程与上述实施例中音视频对齐设备对目标音频数据的起始点包络的获取过程类似，具体实现过程可以参照上述实施例的相关描述，此处不再赘述。

740、计算目标视频数据的视频节拍图，得到目标视频数据的第一视频节拍间隔。

根据目标视频数据的冲击包络，音视频对齐设备可以确认目标视频数据的视频节奏，从而获取目标视频数据的视频节拍图，并通过该视频节拍图得到目标视频数据的第一视频节拍间隔。如图8所示，音视频对齐设备可以根据目标视频数据的冲击包络830，获取目标视频数据的视频节拍图840，并从视频节拍图840中获取目标视频数据的第一节拍间隔。

可以理解的是，音视频对齐设备对目标视频数据的第一视频节拍间隔的获取与上述实施例中音视频对齐设备对目标音频数据的音频节拍间隔的获取过程类似，具体实现过程可以参照上述实施例的相关描述，此处不再赘述。

750、根据冲击包络和视频节拍间隔，获取目标视频数据的第一视频节拍序列。

如图8所示，音视频对齐设备可以获取目标视频数据的第一视频序列850。可以理解的是，本申请实施例的根据冲击包络和第一视频节拍间隔，获取目标视频数据的第一视频节拍序列与上述实施例中根据起始点包络和音频节拍间隔，获取目标音频数据的音频节拍序列的过程类似，具体实施过程可以参照上述实施例的相关描述，此处不再赘述。

可选的，音视频对齐设备可以根据冲击包络和第一视频节拍间隔，获取第二视频节拍序列，并获取局部极值中的目标视频节奏点，其中，目标视频节奏点可以是音视频对齐设备在视频节拍图的局部极值中选择的视频节奏点。可选的，音视频对齐设备可以将第二视频节拍序列中除目标视频节奏点所在时间以外的所有时间进行时间扭曲，得到第二视频节拍间隔，那么音视频对齐设备可以根据冲击包络和第二视频节拍间隔，获取目标视频数据的第一视频节拍序列。也就是说，音视频对齐设备可以在获取目标视频数据的第一视频节拍序列之前，获取目标视频的第二视频节拍序列，并对该第二节拍序列进行处理得到扭曲后的第二视频节拍间隔，从而得到目标视频数据的第一视频节拍序列。

可以理解的是，本申请实施例的根据冲击包络和第二视频节拍间隔，获取目标视频数据的第一视频节拍序列与上述实施例中根据起始点包络和音频节拍间隔，获取目标音频数据的音频节拍序列的过程类似，具体实施过程可以参照上述实施例的相关描述，此处不再赘述。

可选的，音视频对齐设备在获取局部极值中的目标视频节奏点时，可以将视频节拍图中每一列的最大值进行归一化处理，得到归一化结果。那么音视频对齐设备可以根据该归一化结果，在局部极值中选择目标视频节奏点，也就是说，音视频对齐设备可以在视频节拍图中每一列的最大值的归一化结果的局部极值中选择目标视频节奏点。可选的，音视频对齐设备可以根据节奏局部变化函数对视频节拍图中每一列的最大值进行归一化处理，节奏局部变化函数可以如式2.1所示：

其中，V_T可以表示节奏局部变化函数，T_v可以表示在视频节拍图中通过每一列的最大值进行归一化的结果，那么当V_T取0时可以表示当前位置为视频节拍点，而小于0的V_T可以表示对应的视频节拍点对当前时间的偏离，m_i可以是第i个视频节拍点，P可以是归一化参数。可选的，音视频对齐设备可以使用5秒的划窗来计算V_T，并可以根据公式2.1使用自相关来测量速度变化，其中，自相关中的等价类可以对应于一个基频及其谐波(整数除数)，该谐波处的多余能量可以更好地满足公式2.1中所述的目标。

例如，图9为本申请另一实施例的一种节拍图的示意图，如图9所示，音视频对齐设备可以对视频节拍图910中每一列的最大值进行归一化，从而得到归一化的结果对应的视频节拍图920，其中，视频节拍图920中的动作的视频节拍可以偏向于局部节奏，那么音视频对齐设备可以获取视频节拍图920中的第二视频节拍间隔。

通过上述方法，音视频对齐设备可以通过基于深度学习的光流提取，在很大程度上缩小提取视频节奏点的处理时间，还可以通过对节奏的局部变化实现动作的视频节拍偏向于局部节奏，也就是说，可以实现动作的瞬时律动。

请参见图10，图10为本申请实施例提供的一种音视频对齐装置的单元示意图，图10所示的音视频对齐装置可以应用于音视频对齐设备，并可以用于执行上述图1、图4以及图7所描述的方法实施例中的部分或全部功能。该装置的逻辑结构可包括：获取单元1010以及处理单元1020。其中：

获取单元1010，用于获取目标音频数据；

处理单元1020，用于确定目标音频数据的音频节拍序列；

上述获取单元1010还用于获取目标视频数据；

上述处理单元1020还用于确定目标视频数据的第一视频节拍序列；

上述处理单元1020还用于获取音频节拍序列与第一视频节拍序列之间的动态时间规整距离；

上述处理单元1020还用于根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据。

在一种可能的实现方式中，上述处理单元1020还用于在根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据之后，确定第一音视频数据中的每一帧音视频数据的目标参数；根据每一帧音视频数据的目标参数对第一音视频数据进行时间扭曲，得到第二音视频数据。

在一种可能的实现方式中，每一帧音视频数据的目标参数与第一音视频数据的目标音视频节拍点的冲击强度成正比，其中，目标音视频节拍点为第一音视频数据的音视频节拍序列中距离每一帧音视频数据最近的音视频节拍点。

在一种可能的实现方式中，上述处理单元1020在确定目标视频数据的第一视频节拍序列时，用于：根据深度学习算法，提取目标视频数据中每一帧视频数据的光流；获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的光流的运动趋势；根据方向图，获取目标视频数据的冲击包络；计算目标视频数据的视频节拍图，得到目标视频数据的第一视频节拍间隔；根据冲击包络和第一视频节拍间隔，获取目标视频数据的第一视频节拍序列。

在一种可能的实现方式中，上述处理单元1020在获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的光流的运动趋势时，用于：当每一帧视频数据中每一个像素的光流小于预设阈值时，将每一个像素的光流过滤，得到过滤后的每一帧视频数据的目标光流；获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的目标光流的运动趋势。

在一种可能的实现方式中，上述处理单元1020在根据冲击包络和第一视频节拍间隔，获取目标视频数据的第一视频节拍序列时，用于：根据冲击包络和第一视频节拍间隔，获取第二视频节拍序列；获取局部极值中的目标视频节奏点；将第二视频节拍序列中除目标视频节奏点所在时间以外的所有时间进行时间扭曲，得到第二视频节拍间隔；根据冲击包络和第二视频节拍间隔，获取目标视频数据的第一视频节拍序列。

在一种可能的实现方式中，上述处理单元1020在获取局部极值中的目标视频节奏点时，用于：将视频节拍图中每一列的最大值进行归一化处理，得到归一化结果；根据归一化结果，在局部极值中选择目标视频节奏点。

在一种可能的实现方式中，上述处理单元1020在确定目标音频数据的音频节拍序列时，用于：获取目标音频数据的音频起始点，得到起始点包络；根据起始点包络的自相关，获取音频节拍间隔；根据起始点包络和音频节拍间隔，获取目标音频数据的音频节拍序列。

可以理解的是，本申请实施例的音视频对齐装置的各功能单元的功能可根据上述方法实施例中的方法具体实现，其具体实现过程可以参照上述方法实施例的相关描述，此处不再赘述。

请参见图11，图11为本申请实施例提供的一种音视频对齐设备的实体结构简化示意图，该音视频对齐设备1100包括处理器1110、存储器1120、输入接口1130以及输出接口1140，该处理器1110、存储器1120、输入接口1130以及输出接口1140通过一条或多条通信总线连接。

处理器1110被配置为支持图1、图4以及图7中的方法实施例中音视频对齐设备相应的功能。该处理器1110可以是中央处理器(central processing unit，CPU)，网络处理器(network processor，NP)，硬件芯片或者其任意组合。

存储器1120用于存储程序代码等。存储器1120可以包括易失性存储器(volatilememory)，例如随机存取存储器(random access memory，RAM)；存储器1120也可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)；存储器1120还可以包括上述种类的存储器的组合。

输入接口1130用于接收数据、信息或消息等，也可以描述为接收器、接收电路等。输入接口1130可以包括标准的有线接口或无线接口等，受处理器1110的控制可以用于接收数据；例如，输入接口1130可以用于获取目标音频数据等。

输出接口1140用于发送数据、信息或消息等，受处理器1110的控制可以用于发送信息；例如，当音视频对齐设备为后台服务器时，输出接口1140可以用于将第一音视频数据发送至客户端。

在本申请实施例中，该处理器1110可以调用存储器1120中存储的程序代码以执行以下操作：

通过输入接口1130获取目标音频数据；

确定目标音频数据的音频节拍序列；

通过输入接口1130目标视频数据；

确定目标视频数据的第一视频节拍序列；

在一种可能的实现方式中，该处理器1110根据动态时间规整距离对音频节拍序列与第一视频节拍序列进行对齐处理，得到第一音视频数据之后，该处理器1110还可以调用存储器1120中存储的程序代码以执行以下操作：

确定第一音视频数据中的每一帧音视频数据的目标参数；根据每一帧音视频数据的目标参数对第一音视频数据进行时间扭曲，得到第二音视频数据。

在一种可能的实现方式中，该处理器1110在确定目标视频数据的第一视频节拍序列时，具体可以执行以下操作：

根据深度学习算法，提取目标视频数据中每一帧视频数据的光流；获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的光流的运动趋势；根据方向图，获取目标视频数据的冲击包络；计算目标视频数据的视频节拍图，得到目标视频数据的第一视频节拍间隔；根据冲击包络和第一视频节拍间隔，获取目标视频数据的第一视频节拍序列。

在一种可能的实施方式中，该处理器1110在获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的光流的运动趋势时，具体可以执行以下操作：

当每一帧视频数据中每一个像素的光流小于预设阈值时，将每一个像素的光流过滤，得到过滤后的每一帧视频数据的目标光流；获取目标视频数据的方向图，其中，方向图中的每一列包含每一帧视频数据的目标光流的运动趋势。

在一种可能的实现方式中，该处理器1110在根据冲击包络和第一视频节拍间隔，获取目标视频数据的第一视频节拍序列时，具体可以执行以下操作：

根据冲击包络和第一视频节拍间隔，获取第二视频节拍序列；获取局部极值中的目标视频节奏点；将第二视频节拍序列中除目标视频节奏点所在时间以外的所有时间进行时间扭曲，得到第二视频节拍间隔；根据冲击包络和第二视频节拍间隔，获取目标视频数据的第一视频节拍序列。

在一种可能的实现方式中，该处理器1110在获取局部极值中的目标视频节奏点时，具体可以执行以下操作：

将视频节拍图中每一列的最大值进行归一化处理，得到归一化结果；根据归一化结果，在局部极值中选择目标视频节奏点。

在一种可能的实现方式中，该处理器1110在确定目标音频数据的音频节拍序列时，具体可以执行以下操作：

获取目标音频数据的音频起始点，得到起始点包络；根据起始点包络的自相关，获取音频节拍间隔；根据起始点包络和音频节拍间隔，获取目标音频数据的音频节拍序列。

需要说明的是，在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。

本申请实施例处理设备中的单元可以根据实际需要进行合并、划分和删减。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络，或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、存储盘、磁带)、光介质(例如，DVD)，或者半导体介质(例如固态存储盘Solid State Disk(SSD))等。

本申请还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的方法的步骤。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，使得计算机执行如上各种可能的实施方式中所述的方法。

本申请实施例还提供一种芯片，包括存储器和处理器，所述存储器用于存储计算机程序，所述处理器用于从所述存储器中调用并运行所述计算机程序，使得安装有所述芯片的设备执行如上各种可能的实施方式中所述的方法。

本领域技术人员在考虑说明书及实践这里公开的申请后，将容易想到本申请的其它实施方案。本申请的实施例旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求书指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求书来限制。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种音视频对齐方法，其特征在于，包括：

获取目标音频数据，并确定所述目标音频数据的音频节拍序列；

获取目标视频数据，并确定所述目标视频数据的第一视频节拍序列；

获取所述音频节拍序列与所述第一视频节拍序列之间的动态时间规整距离；

根据所述动态时间规整距离对所述音频节拍序列与所述第一视频节拍序列进行对齐处理，得到第一音视频数据。

2.根据权利要求1所述的方法，其特征在于，所述根据所述动态时间规整距离对所述音频节拍序列与所述第一视频节拍序列进行对齐处理，得到第一音视频数据之后，所述方法还包括：

确定所述第一音视频数据中的每一帧音视频数据的目标参数；

根据所述每一帧音视频数据的目标参数对所述第一音视频数据进行时间扭曲，得到第二音视频数据。

3.根据权利要2所述的方法，其特征在于，所述每一帧音视频数据的目标参数与所述第一音视频数据的目标音视频节拍点的冲击强度成正比，其中，所述目标音视频节拍点为所述第一音视频数据的音视频节拍序列中距离所述每一帧音视频数据最近的音视频节拍点。

4.根据权利要求1所述的方法，其特征在于，所述确定所述目标视频数据的第一视频节拍序列，包括：

根据深度学习算法，提取所述目标视频数据中每一帧视频数据的光流；

根据所述每一帧视频数据的光流，获取所述目标视频数据的方向图，其中，所述方向图中的每一列包含所述每一帧视频数据的光流的运动趋势；

根据所述方向图，获取所述目标视频数据的冲击包络；

计算所述目标视频数据的视频节拍图，得到所述目标视频数据的第一视频节拍间隔；

根据所述冲击包络和所述第一视频节拍间隔，获取所述目标视频数据的第一视频节拍序列。

5.根据权利要求4所述的方法，其特征在于，所述根据所述每一帧视频数据的光流，获取所述目标视频数据的方向图，其中，所述方向图中的每一列包含所述每一帧视频数据的光流的运动趋势，包括：

将所述每一帧视频数据中的目标像素的光流过滤，得到过滤后的所述每一帧视频数据的目标光流，所述目标像素为所述每一帧视频数据中光流小于预设阈值的像素；

根据所述每一帧视频数据的目标光流，获取所述目标视频数据的方向图，其中，所述方向图中的每一列包含所述每一帧视频数据的目标光流的运动趋势。

6.根据权利要求4所述的方法，其特征在于，所述根据所述冲击包络和所述第一视频节拍间隔，获取所述目标视频数据的第一视频节拍序列，包括：

根据所述冲击包络和所述第一视频节拍间隔，获取第二视频节拍序列；

获取局部极值中的目标视频节奏点；

将所述第二视频节拍序列中除所述目标视频节奏点所在时间以外的所有时间进行时间扭曲，得到第二视频节拍间隔；

根据所述冲击包络和所述第二视频节拍间隔，获取所述目标视频数据的第一视频节拍序列。

7.根据权利要求6所述的方法，其特征在于，所述获取局部极值中的目标视频节奏点，包括：

将所述视频节拍图中每一列的最大值进行归一化处理，得到归一化结果；

根据所述归一化结果，在局部极值中选择目标视频节奏点。

8.根据权利要求1所述的方法，其特征在于，所述确定所述目标音频数据的音频节拍序列，包括：

获取所述目标音频数据的音频起始点，得到起始点包络；

根据所述起始点包络的自相关，获取音频节拍间隔；

根据所述起始点包络和所述音频节拍间隔，获取所述目标音频数据的音频节拍序列。

9.一种音视频对齐设备，其特征在于，包括处理器及存储器，其中，所述存储器用于存储计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至8中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法。