CN117857868B

CN117857868B - 视频中音频节拍的预测方法、装置、计算机设备

Info

Publication number: CN117857868B
Application number: CN202410259220.XA
Authority: CN
Inventors: 宋浩
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2024-03-07
Filing date: 2024-03-07
Publication date: 2024-05-31
Anticipated expiration: 2044-03-07
Also published as: CN117857868A

Abstract

本公开涉及一种视频中音频节拍的预测方法、装置、计算机设备、存储介质和计算机程序产品。所述方法包括：获取视频，将视频分帧，获得多帧视频帧图像；对多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，素材区域不包含组件区域；根据至少一帧视频帧图像中组件的组件特征，确定视频的组件变化特征；根据每帧视频帧图像的素材区域，确定视频的素材区域变化特征；通过音频节拍预测模型，基于组件变化特征和素材区域变化特征预测视频的音频预测节拍信息。采用本方法能够预测出与视频变化一致的音乐节拍。

Description

视频中音频节拍的预测方法、装置、计算机设备

技术领域

本公开涉及视频处理技术领域，特别是涉及视频中音频节拍的预测方法、装置、计算机设备。

背景技术

随着短视频的不断发展，为了保证视频的观赏性以及用户的观感体验，画面与音乐节拍的一致性是极为重要的。因此，在视频制作完成后，需要将视频与视频对应的音乐节拍进行卡点，保证视频中音乐节拍的变化与视频变化的一致。目前传统技术中，预测音乐节拍的方法，首先需要对视频中视频进行波形分析，分解波形数据。根据视频的波形数据来预测视频对应的音乐节拍。

然而，在复杂的视频中，由于视频中存在大范围组件遮罩，会将视频中的某一区域进行遮挡，造成视频部分信息丢失或者模糊，从而导致视频的波形数据发生错位或者模糊，使得最终预测出的音乐节拍与视频变化不一致。

发明内容

基于此，有必要针对上述技术问题，提供一种在视频中存在大范围组件遮罩时，能够准确预测出与视频变化一致的音乐节拍的视频中音频节拍的预测方法、装置、计算机设备。

第一方面，本公开提供了一种视频中音频节拍的预测方法。所述方法包括：

获取视频，将所述视频分帧，获得多帧视频帧图像；

对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域；

根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征；

根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征；

通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的。

第二方面，本公开还提供了一种视频中音频节拍的预测装置。所述装置包括：

视频处理模块，用于获取视频，将所述视频分帧，获得多帧视频帧图像；

图像处理模块，用于对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域；

组件处理模块，用于根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征；

素材处理模块，用于根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征；

节拍预测模块，用于通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的。

第三方面，本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法实施例中的步骤。

第四方面，本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

第五方面，本公开还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

上述各实施例中，获取视频，将所述视频分帧，获得多帧视频帧图像，能够针对每一帧视频帧图像进行处理，能够降低处理的复杂度，提高对视频帧图像处理的准确度。对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域，从而将组件区域和素材区域进行区分，能够降低组件区域中由于组件遮罩带来的影响。由于组件区域和素材区域都会与音乐节拍之间存在匹配关系，并且由于组件区域具有较高的层级，也会对素材区域产生影响，可以根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征。根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征。分别对组件区域和素材区域进行处理，避免组件区域和素材区域之间相互干扰，从而准确的来确定组件的变化特征和素材区域的变化特征。通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，能够得到标准准确的音频预测节拍信息。由于使用音频节拍预测模型进行处理，因此无需使用视频的波形数据来预测视频数据的音乐节拍，能够进一步避免大范围组件的遮罩所带来的干扰，从而提高视频数据中音频节拍预测的准确度。

附图说明

为了更清楚地说明本公开具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中视频中音频节拍的预测方法的应用环境示意图；

图2为一个实施例中视频中音频节拍的预测方法的流程示意图；

图3为一个实施例中组件区域和素材区域的示意图；

图4为一个实施例中S208步骤的流程示意图；

图5为一个实施例中视频帧图像的组件数量的示意图；

图6为一个实施例中视频帧图像的组件的位置的示意图；

图7为一个实施例中视频帧图像的组件的面积的示意图；

图8为一个实施例中音频关系的示意图；

图9为一个实施例中模型训练过程的流程示意图；

图10为一个实施例中音频节拍的预测过程的流程示意图；

图11为一个实施例中视频中音频节拍的检测方法的流程示意图；

图12为一个实施例中视频中音频节拍的预测装置的结构示意框图；

图13为一个实施例中计算机设备的内部结构示意图。

具体实施方式

为了使本公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本公开，并不用于限定本公开。

需要说明的是，本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中，术语“和/或”仅仅是一种描述关联对象的关联关系，表示可以存在三种关系。例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

正如背景技术所述，在数字媒体处理领域，视频和音频同步处理是一项重要技术。音频节拍与视频画面的变化的精准对齐是其中的重要环节。然而由于在视频制作过程会使用到各种组件，例如贴纸、图片、文本框等。组件会存在组件遮罩，组件遮罩是指在页面上的某个组件上覆盖一个蒙层，用于阻挡用户对该组件的操作或显示提示信息。当组件出现时，组件遮罩也会随之出现，从而屏蔽组件遮罩处所对应的视频内容，造成视频部分信息丢失或者模糊。进而无法准确的来得出视频整体变化波形。若组件遮罩出现的时间占据视频的整体时间的比重较多时，则会进一步影响视频整体变化波形。在预测视频所对应的音频节拍时，若根据视频整体变化波形进行匹配或预测与视频画面变化的对齐音频，则最终得到的音频与视频画面变化之间会存在较大的差异。

因此，为解决上述问题，本公开实施例提供了一种视频中音频节拍的预测方法，可以应用于如图1所示的应用环境中。其中，终端102通过网络与服务器104进行通信。终端102获取服务器104中的视频。终端102可以将视频分帧，获取多帧视频帧图像。终端102对多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域。所述素材区域不包含所述组件区域。终端102根据至少一帧视频帧图像中组件的组件特征，确定视频的组件变化特征。终端102根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征。终端102通过音频节拍预测模型，基于组件变化特征和素材区域变化特征预测视频的音频预测节拍信息。音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、智能语音交互设备、智能家电、车载终端、飞行器等等。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种视频方法，以该方法应用于图1中的终端102为例进行说明，包括以下步骤：

S202，获取视频，将所述视频分帧，获得多帧视频帧图像。

其中，分帧是将视频按照一定的时间间隔，将连续的视频帧划分成一帧一帧的图像。视频可以是已经制作完成的需要进行配置音乐的视频。或者是已经制作完成需要重新配置音乐的视频。视频可以是存在多种不同的类型，例如宠物类型的视频、科技类型的视频、搞笑类型的视频等等。在本公开的一些实施例中不对视频的类型进行限制。

具体地，获取需要进行预测音乐的视频。然后将该视频分帧，得到视频对应的多帧视频帧图像。例如，可以采用均匀分帧法，在时间上均匀将视频分帧，确保每帧视频帧图像的时间一致。还可以关键帧分帧法、运动分帧法、基于场景分析分帧法等方式对视频进行分帧。

S204，对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域。

其中，组件在本公开的一些实施例中可以是视频中的贴纸、视频中的文本框、视频中覆盖的特效、视频中的覆盖的图片、图标或者视频等。组件区域通常可以指的是组件所在的区域。如图3所示，图3中A为初始的视频帧图像。经过识别后，B中黑色区域可以为组件区域。除黑色区域（组件区域）之外的部分可以为素材区域。另外，由于视频组件可能分为规则形状和不规则形状，组件区域可以和组件的形状相同，也可以和组件的形状不同。素材区域通常可以是视频中除组件区域之外的部分。组件特征通常可以包括：组件的面积、组件的数量、组件的位置、组件的颜色等等。除此之外，由于一些细小的组件对整体视频的变化影响较小，通常不会对面积过小的组件进行识别，因此在本公开的一些实施例中，无需识别面积较小的组件的组件区域。

具体地，可以采用预先训练完成的组件识别模型来识别多帧视频帧图像中每帧视频帧图像容纳组件的组件区域，从而确定出含有组件区域的视频帧图像，并确定含有组件区域的视频帧图像的组件特征。确定组件区域之后，还可以根据含有组件区域的视频帧图像，确定每帧视频帧图像中的素材区域。其中，组件识别模型可以是一种机器学习模型，用于识别图像中的特定组件或对象。该组件识别模型可以根据预先训练的数据集，自动识别图像中的不同组件，如图像、贴纸、文本框等。

以第N帧为例，若第N帧视频帧图像中不存在组件区域，则第N帧视频帧图像可以全部看作素材区域。若第N帧视频帧图像中存在组件区域，则第N帧视频帧图像中的素材区域可以是除组件区域之外的视频帧图像。

在一些示例性的实施例中，还可以通过目标检测算法在视频帧图像中进行目标检测来进行组件的识别，从而识别出容纳组件的组件区域。还可以通过视频帧图像中的各种物体形状、颜色等特征，来识别视频帧图像中的组件，从而识别出容纳组件的组件区域。还可以将视频帧图像分割为不同的区域，通过使用图像分割算法，将视频帧图像中的不同组件分离出来，然后对每个组件进行识别和分类，从而识别出容纳组件的组件区域。

在另一些示例性的实施例中，以多帧视频帧图像共包括5帧为例进行说明，在5帧视频帧图像中识别到含有组件区域为5帧视频帧图像中第1帧、第3帧和第4帧视频帧图像，则需要确定第1帧、第3帧和第4帧视频帧图像中组件的组件特征。然后再确定5帧视频帧图像中每帧视频帧图像的素材区域。其中，第1帧视频帧图像的素材区域可以为第1帧中除组件区域之外的部分。第2帧视频帧图像的素材区域可以为第2帧视频帧图像的所有部分。第3帧视频帧图像的素材区域可以为第3帧中除组件区域之外的部分，第4帧视频帧图像的素材区域可以为第4帧中除组件区域之外的部分，第5帧视频帧图像的素材区域可以为第5帧视频帧图像的所有部分。

S206，根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征。

其中，组件变化特征在本公开的一些实施例中可以是视频中组件随时间的变化情况，例如组件的颜色随时间的变化情况，组件的位置随时间的变化情况，组件的数量随时间的变化情况等。

具体地，通常情况下，视频中的组件也会对音乐节拍产生一定程度的影响，例如在某个时刻突然出现了一个组件，或者某个组件突然变为了多个，亦或者某个组件大小、形状颜色等发生了变化，可以在该时刻设置重点或者卡点节拍，从而使视频中组件的变化与音乐节拍存在一致性。因此，可以综合识别到组件区域的至少一帧视频帧图像中组件的组件特征，以及不存在组件区域的视频帧图像来确定视频中组件的组件变化特征。

在一些示例性的实施例中，继续以多帧视频帧图像共包括5帧为例进行说明，确定第1帧、第3帧和第4帧视频帧图像中组件的组件特征。例如第1帧组件特征为A1、第3帧组件特征为A2、第4帧组件特征为A3，则组件变化特征可以是A1-0-A2-A3-0。可以理解的是，上述仅用于举例说明。

S208，根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征。

其中，素材区域变化特征在本公开的一些实施例中可以是视频中素材区域的变化速度随时间的变化情况。

具体地，在许多情况下，视频的变化主要得益于转场、变速以及视频中素材区域本身所具备的大幅变化。这种变化并非仅仅关乎素材区域变化的快慢，而更在于素材区域变化速度的快慢。通常情况下，通过变速手段对素材区域进行加速或者减速调整使其更能凸显当前帧的素材区域的内容的重要性。因此，素材区域的变化快慢与音乐节拍存在相关性。例如，可以加速的素材区域的变化，以凸显紧张感和动态感，此时音乐节拍需要存在较为强烈的音乐节奏。还可以减速的素材区域变化，营造出舒缓的氛围，此时音乐节拍需要存在一些较为舒缓的音乐。因此，素材区域的变化速度的快慢也会影响音乐节拍。可以根据每帧视频帧图像中的素材区域，来确定整个视频中素材区域的变化特征。

S210，通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息。

其中，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的。样本组件变化特征可以是样本视频中组件随时间的变化情况。样本区域素材变化特征可以是样本视频中素材区域的变化速度随时间的变化情况。样本音频节拍信息可以是与样本视频相匹配的音乐的节拍信息。由于样本视频中样本组件变化特征和样本素材区域变化特征均会在样本音频节拍信息中节拍点附近存在较大的波动，因此可以利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，训练完成后得到音频节拍预测模型。神经网络模型可以包括：反向传播神经网络（Backpropagation Neural Network）、循环神经网络（Recurrent Neural Network，RNN）、卷积神经网络（Convolutional Neural Network，CNN）、深度信念网络（Deep Belief Network，DBN）中的任一种。

具体地，可以将组件变化特征和素材区域变化特征输入至音频节拍预测模型中，通过音频节拍预测模型输出与组件变化特征和素材区域变化特征相关的音频预测节拍信息。

更进一步的，当得到了音频预测节拍信息之后，可以选择与音频预测节拍信息相匹配的音乐作为该视频的音乐。例如，音频预测节拍信息为00100101，其中1可以为节拍点。可以根据数据库中的音乐的节拍，选择与音频预测节拍信息中节拍点1相匹配的音乐节拍对应的音乐作为该视频的卡点音频。

上述视频中音频节拍的预测方法中，获取视频，将所述视频分帧，获得多帧视频帧图像，能够针对每一帧视频帧图像进行处理，能够降低处理的复杂度，提高对视频帧图像处理的准确度。对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域，从而将组件区域和素材区域进行区分，能够降低组件区域中由于组件遮罩带来的影响。由于组件区域和素材区域都会与音乐节拍之间存在匹配关系，并且由于组件区域具有较高的层级，也会对素材区域产生影响，可以根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征。根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征。分别对组件区域和素材区域进行处理，避免组件区域和素材区域之间相互干扰，从而准确的来确定组件的变化特征和素材区域的变化特征。通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，能够得到标准准确的音频预测节拍信息。由于使用音频节拍预测模型进行处理，因此无需使用视频的波形数据来预测视频数据的音乐节拍，能够进一步避免大范围组件的遮罩所带来的干扰，从而提高视频数据中音频节拍预测的准确度。

在一个实施例中，如图4所示，所述根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征，包括：

S302，根据所述多帧视频帧图像中第一帧视频帧图像的素材区域，确定所述第一帧视频帧图像的素材区域变化特征。

具体地，由于需要确定出整个视频的素材区域变化特征，因此需要确定出多帧视频帧图像中每一帧视频帧图像的素材区域的变化特征。在第一帧视频帧图像时，由于第一帧视频帧图像为初始时对应的视频帧图像，因此第一帧视频帧图像的素材区域变化特征，可以利用第一帧视频帧图像的素材区域来确定。即第一帧视频帧图像的素材区域变化特征为第一帧视频帧图像的素材区域。

S304，对于所述多帧视频帧图像中从第二帧开始的视频帧图像，计算所述视频帧图像的素材区域和前一帧视频帧图像的素材区域之间的差异度，并根据所述差异度确定所述视频帧图像的素材区域变化特征。

具体地，当第一帧视频帧图像的素材区域变化特征确定之后，从第二帧视频帧图像开始，可以计算当前帧的视频帧图像的素材区域和前一帧视频帧图像的素材区域之间的差异度。根据差异度可以确定从第二帧开始的视频帧图像，每一帧的素材区域变化特征。

在一些示例性的实施例中，继续以多帧视频帧图像共包括5帧为例进行说明。从第2帧开始，可以采用结构相似性（SSIM）一致性算法计算第2帧和第1帧之间的视频帧图像的素材区域之间的差异度，得到2帧视频帧图像的素材区域的差异度。其中，结构相似性（SSIM）一致性算法是一种用于度量两幅图像相似度的算法。它基于人眼感知的原理，考虑了亮度、对比度和结构三个方面的信息。SSIM算法通过计算两幅图像的亮度、对比度和结构相似性指数，来评估它们的相似度。其中，亮度相似性指数衡量了两幅图像的亮度分布的相似程度，对比度相似性指数衡量了两幅图像的对比度的相似程度，结构相似性指数衡量了两幅图像的结构的相似程度。以此类推，可以确定第2帧视频帧图像、第3帧视频帧图像、第4帧视频帧图像和第5帧视频帧图像的素材区域的变化特征。还可以利用均方误差（MeanSquared Error，MSE）来计算差异度，例如可以计算当前帧和前一帧视频帧图像的素材区域之间对应像素之间的平方差的平均值，从而来确定差异度。还可以采用绝对均值差异（MeanAbsolute Differenc，MAD）来计算差异度，可以计算当前帧和前一帧视频帧图像的素材区域之间对应像素之间的绝对差值的平均值，从而来确定差异度。需要说明的是，本领域技术人员可以根据应用场景和需求选择适合的算法来计算差异度。

S306，根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征。

具体地，可以根据多帧视频帧图像每一帧视频帧图像各自对应的素材区域变化特征，来确定视频的素材区域变化特征。

在一些示例性的实施例中，可以应用时间序列分析方法，如自相关、滞后差分等，来根据每一帧视频帧图像各自对应的素材区域变化特征确定视频的素材区域变化特征。还可以计算相邻的视频帧图像各自对应的素材区域变化特征之间的差值或变化率，确定视频的素材区域变化特征。

作为另一种实现方式，在确定素材区域变化特征的过程中，也可以直接从第二帧开始计算视频帧图像的素材区域以及和前一帧视频帧图像的素材区域之间的差异度，并确定从第二帧开始的视频帧图像的素材区域各自的素材区域变化特征。然后根据从第二帧开始的视频帧图像的素材区域各自的素材区域变化特征来确定视频的素材区域变化特征。

本实施例中，通过计算每一帧视频帧图像各自的素材区域变化特征，从而根据多帧视频帧图像各自的素材区域变化特征，能够准确的来确定视频的素材区域变化特征，保证素材区域变化特征的准确性，提高预测视频的音频节拍的准确性。

在一个实施例中，所述根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征，包括：

计算所述多帧视频帧图像各自的素材区域变化特征的一阶导数，根据计算结果确定所述视频的素材区域变化特征。

具体地，可以综合多帧视频帧图像各自的素材区域变化特征，得到素材区域变化特征集合，计算素材区域变化特征集合的一阶导数，得到计算结果。在计算素材区域变化特征集合的一阶导数时，可以通过计算相邻帧的视频帧图像的素材区域特征之间的差异来得到计算结果。可以通过观察一阶导数的计算结果的变化情况，如峰值、变化速率等来确定视频的素材区域变化特征。

在本实施例中，计算一阶导数可以突出素材区域的变化。通过计算多帧视频帧图像各自的素材区域变化特征的一阶导数，可以捕捉到素材区域的变化幅度和变化速率，有助于准确的确定素材区域的变化，从而准确提高预测音频节拍的准确度。

在一个实施例中，当组件特征为组件的数量信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

在所述多帧视频帧图像中，根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像；

根据所述至少一帧视频帧图像中组件的数量信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的数量信息；

根据每帧视频帧图像中组件的数量信息，确定所述视频的组件变化特征。

具体地，可以根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。由于无法识别到组件区域的视频帧图像中不存在组件，因此可以认为无法识别到组件区域的视频帧图像中组件的数量信息为0。根据至少一帧视频帧图像中组件的数量信息和无法识别到组件区域的视频帧图像的数量信息来确定每一帧视频帧图像中组件的数量信息。根据每一帧视频帧中组件的数量信息，来确定视频的组件变化特征。即视频的组件的数量随时间的变化情况。

另外，在确定组件变化特征的过程中，第一帧视频帧图像中若存在容纳组件的组件区域，则可以确定第一帧视频帧图像中组件的数量信息。然后根据第一帧视频帧图像中组件的数量信息，确定第一帧视频帧图像的组件变化特征。从第二帧视频帧图像开始，计算当前视频帧图像和前一帧视频帧图像中组件的数量信息的差异，从而来确定第二帧开始的视频帧图像的组件变化特征。根据视频帧图像各自的组件变化特征，确定视频的组件变化特征。还可以仅计算从第二帧视频帧图像开始的视频帧图像的组件变化特征，根据第二帧开始的视频帧图像的组件变化特征，确定视频的组件变化特征。

若第一帧视频帧图像中不存在容纳组件的组件区域，此时也可以计算从第二帧视频帧图像开始的视频帧图像的组件变化特征，根据第二帧开始的视频帧图像的组件变化特征，确定视频的组件变化特征。

在一些示例性的实施例中，如图5所示，若多帧视频帧图像为3帧视频帧图像。第1帧视频帧图像和第2帧视频帧图像中存在容纳组件的组件区域。先确定第1帧视频帧图像的组件的数量信息，第1帧视频帧图像的组件的数量信息为6，第2帧视频帧图像的组件的数量信息为1，第3帧视频帧图像由于不存在容纳组件的组件区域，则第3帧视频帧图像的组件的数量信息可以认为是0。因此，根据第1帧视频帧图像的组件的数量信息6、第2帧视频帧图像的组件的数量信息1，第3帧视频帧图像的组件的数量信息0，从而确定视频的组件变化特征。通常情况下，可以计算每帧视频帧图像的组件数量信息的一阶导数，根据计算结果确定视频的组件变化特征。第1帧视频帧图像的组件数量信息的一阶导数的计算结果可以是6，第2帧视频帧图像的组件数量信息的一阶导数的计算结果可以是（6-2）4，第3帧视频帧图像的组件数量信息的一阶导数的计算结果可以是（2-0）2，则最终的视频的组件变化特征可以为6,4,2。可以理解的是，上述仅用于举例说明，本领域技术人员还可以选择除计算一阶导数之外的其他方式来计算组件变化特征。

在本实施例中，通过每一帧视频帧图像中组件的数量信息，能够确定的来确定视频中组件的数量在每一帧的变化情况，能够提高音频节拍预测的准确度。另外，通过组件的数量信息来确定组件的数量在每一帧的变化情况，从而确定出视频中组件整体的变化特征，相较于组件的其他信息来确定变化情况，计算复杂度更低。

在一个实施例中，当所述组件特征为所述组件的位置信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

根据所述至少一帧视频帧图像中组件的位置信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息；

根据每帧视频帧图像中组件的位置信息，确定所述视频的组件变化特征。

其中，组件的位置信息通常可以是在视频帧图像中组件的坐标位置。

具体地，可以根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。由于无法识别到组件区域的视频帧图像中不存在组件，因此可以认为无法识别到组件区域的视频帧图像中组件的位置信息为（0，0）。根据至少一帧视频帧图像中组件的位置信息和无法识别到组件区域的视频帧图像的位置信息来确定每一帧视频帧图像中组件的位置信息。根据每一帧视频帧图像中组件的位置信息，来确定视频的组件变化特征。此处的视频的组件变化特征可以是视频的组件的位置随时间的变化情况。需要说明的是，在本公开实施例中，组件变化特征指的是每一个组件的位置随时间的变化特征。例如，视频中存在组件A和组件B，则最终的组件变化特征可以包含：组件A的位置信息的变化特征，组件B的位置信息的变化特征。

另外，在确定组件变化特征的过程中，第一帧视频帧图像中若存在容纳组件的组件区域，可以确定第一帧视频帧图像中每个组件的位置信息。然后根据第一帧视频帧图像中每个组件的位置信息，确定第一帧视频帧图像中组件的组件变化特征。从第二帧视频帧图像开始，计算当前视频帧图像和前一帧视频帧图像中每个组件的位置信息的差异，确定从第二帧开始的视频帧图像的组件变化特征。根据每一帧视频帧图像的各自的组件的组件变化特征，确定视频的组件变化特征。除此之外，还可以仅计算从第二帧视频帧图像开始的视频帧图像的组件变化特征，根据第二帧开始的视频帧图像的组件变化特征，确定视频的组件变化特征。

在一些示例性的实施例中，如图6所示，若多帧视频帧图像为3帧视频帧图像。第1帧视频帧图像和第2帧视频帧图像中存在容纳组件的组件区域。第1帧视频帧图像中存在组件z1、z2、z3，不存在z4。其中，z1位置信息可以为（x1，y1），z2位置信息可以为（x2，y2），z3位置信息可以为（x3，y3），z4位置信息可以为（0,0）。在第2帧视频帧图像中仍存在组件z1，还新增了组件z4。其中，z1的位置信息为（x11，y11），z4的位置信息为（x4，y4），z1和z2的位置信息可以均为（0,0）。第3帧视频帧图像中不存在容纳组件的组件区域，因此第3帧中组件的z1至z4的位置信息均为（0,0）。第1帧视频帧图像的z1组件的组件变化特征可以为（x1，y1），z2组件的组件变化特征可以为（x2，y2），z3组件的组件变化特征可以为（x3，y3），z4组件的组件变化特征可以为0（即未发生变化）。第2帧视频帧图像中z1组件的变化特征可以为（x1-x11，y1-y11），z2组件的组件变化特征可以为（x2，y2），z3组件的组件变化特征可以为（x3，y3），z4组件的组件变化特征可以为（x4，y4）。第三帧视频帧图像中z1组件的组件变化特征可以为（x11，y11），z2组件的组件变化特征可以为（x2，y2），z3组件的组件变化特征可以为（x3，y3），z4组件的组件变化特征可以为（x4，y4）。可以根据每一帧视频帧图像中每一个组件的组件变化特征，确定视频的组件变化特征。

通常情况下，在视频的组件的变化过程中，只有组件位置发生变化或者组件突然出现时，可以设置音频卡点节拍，组件消失时，通常不会设置音频卡点节拍。因此，可以仅确定组件位置发生变化或者组件突然出现时，视频的组件变化特征，以此来提高预测音频节拍的准确性。

在本实施例中，由于不同组件的位置的变化，也会影响视频的变化，从而影响音频节拍的预测。因此可以通过每一帧视频图像中组件的位置信息，确定视频帧每一帧组件的位置变化，提高音频节拍预测的准确度。

在一个实施例中，当组件特征为组件的面积信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

根据所述至少一帧视频帧图像中组件的面积信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的面积信息；

根据每帧视频帧图像中组件的面积信息，确定所述视频的组件变化特征。

其中，组件的面积信息可以是在视频帧图像中组件所占的面积。

具体地，可以根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。由于无法识别到组件区域的视频帧图像中不存在组件，因此可以认为无法识别到组件区域的视频帧图像中组件的面积信息为0。然后根据至少一帧视频帧图像中组件的面积信息和无法识别到组件区域的视频帧图像中组件的面积信息，确定每一帧视频帧图像中组件的位置信息。根据每一帧视频帧图像中组件的面积信息，确定视频的组件变化特征。此处的组件变化特征可以是视频的组件的面积随时间的变化情况。需要说明的，本公开实施例中，组件变化特征可以是每一个组件的面积随时间的变化特征，例如，视频中存在组件A和组件B，则组件变化特征可以包含：组件A的面积信息的变化特征，组件B 的位置信息的变化特征。

另外，在确定组件变化特征的过程中，第一帧视频帧图像中若存在容纳组件的组件区域，可以确定第一帧视频帧图像中每个组件的面积信息。然后根据第一帧视频帧图像中每个组件的面积信息，确定第一帧视频帧图像中组件的组件变化特征。从第二帧视频帧图像开始，计算当前视频帧图像和前一帧视频帧图像中每个组件的面积信息的差异，确定从第二帧开始的视频帧图像的组件变化特征。然后根据每一帧视频帧图像的各自的组件的组件变化特征，确定视频的组件变化特征。还可以仅根据第二帧视频帧图像开始的视频帧图像的组件变化特征，确定视频的组件变化特征。

若第一帧视频帧图像中不存在容纳组件的组件区域，此时也可以根据第二帧视频帧图像开始的视频帧图像的组件变化特征，确定视频的组件变化特征。

在一些示例性的实施例中，如图7所示，若多帧视频帧图像为3帧视频帧图像。第1帧视频帧图像和第2帧视频帧图像中存在容纳组件的组件区域。第1帧视频帧图像中存在组件s1、s2，不存在s3组件。s1组件的面积信息为m1，s2组件的面积信息也为m1，s3组件不存在，可认为s3组件面积信息为0。第2帧视频帧图像中存在组件s1和s3，其中，s1组件的面积信息为m2，s3组件的面积信息为m3，s2组件不在第2帧视频帧图像中，则s2组件在第2帧视频帧图像的面积信息可以为0。第3帧视频帧图像中未存在任何组件，则s1至s3组件的面积信息均可以为0。第1帧视频帧图像中s1组件的组件变化特征可以为：m1，s2组件的组件变化特征可以为m1，s3组件的组件变化特征可以为0。第2帧视频帧图像中s1组件的组件变化特征可以为m1-m2，s2的组件变化特征可以为m1，s3组件的变化特征可以为m3。第3帧视频帧图像中s1组件的组件变化特征可以为m2，s2组件的组件变化特征可以为0，s3组件的组件变化特征可以为m3。可以根据每一帧视频帧图像中每一个组件的组件变化特征，确定视频的组件变化特征。

另外，通常情况下，只有组件的面积突然变大或变小时，会对视频产生影响，此时可以设置音频卡点节拍。当组件消失时，通常不会设置音频卡点节拍。因此，可以仅确定组件的面积突然变大或变小时，视频的组件的组件变化特征，以此来提高预测音频节拍的准确度。

如上述实施例中所提到的，可以根据组件的面积信息或者位置信息来确定视频的组件的组件变化特征。为了准确的确定出视频中每一个组件的变化特征，还可以综合组件的面积信息和位置信息，共同来确定视频的组件的组件变化特征。在一个实施例中，当所述组件的特征为所述组件的位置信息和面积信息时，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

根据所述至少一帧视频帧图像中组件的位置信息和面积信息以及无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息和面积信息；

根据每帧视频帧图像中组件的位置信息和面积信息，确定所述视频的组件变化特征。

具体地，可以根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。由于无法识别到组件区域的视频帧图像中不存在组件，因此可以认为无法识别到组件区域的视频帧图像中组件的面积信息和位置信息均为0。然后根据至少一帧视频帧图像中组件的面积信息和位置信息以及无法识别到组件区域的视频帧图像的组件的面积信息和位置信息，确定每一帧视频帧图像中组件的面积信息和位置信息。根据每一帧视频帧图像中组件的面积信息和位置信息确定视频的组件变化特征。此处的组件变化特征可以是视频的组件的面积和位置随时间的变化特征。例如视频中存在组件A和组件B，则组件变化特征可以包含：组件A的面积信息和位置信息的变化特征，组件B的位置信息和面积信息的变化特征。关于面积信息和位置信息的变化特征可以参见上述实施例，在此不进行重复赘述。

在本实施例中，利用组件的位置信息和面积信息来共同确定视频中组件的组件变化特征，能够更加准确的来得到视频中组件的变化情况下，从而提高视频的音乐节拍预测的准确性。

在一个实施例中，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的，包括：

将所述样本视频分帧，获取多帧样本帧图像。

其中，样本视频通常可以是模板视频。在模板视频中，通常包含预设的场景、动画、文字、图像和音频等元素，这些元素可以根据用户的需求进行定制和替换。模板视频的主要目的是简化视频制作过程，提高制作效率，同时保持一定程度的专业品质。样本视频中视频的变化和音频卡点会保持一致。因此，模板视频中的音频通常是满足模板卡点的音频。另外，模板视频中的音频通常情况下会预先完成节拍标记。样本视频存在多种不同的类型，例如宠物相关的模板视频、旅游相关的模板视频等。根据需要进行预测的视频的类型，在训练模型的过程中，可以选择与视频类型相匹配的样本视频来训练，从而保证训练完成的音频节拍预测模型预测音乐节拍的准确性。另外，关于分帧的方式可以参见上述实施例，在此不进行重复赘述。

对所述多帧样本帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧样本帧图像中组件的组件特征，并确定每帧样本帧图像的素材区域，所述素材区域不包含所述组件区域。

具体地，可以利用组件识别模型、目标检测算法、图像分割算法等方法对多帧样本帧图像分别识别容纳组件的组件区域。确定识别到容纳组件的组件区域的至少一帧样本帧图像。然后根据识别到容纳组件的组件区域的至少一帧样本帧图像中的组件区域，确定组件特征。还可以根据识别到容纳组件的组件区域的至少一帧样本帧图像和所有样本帧图像，确定每一帧样本帧图像的素材区域。关于组件区域和素材区域的具体限定可参见上述实施例，在此不进行重复赘述。

根据所述至少一帧样本帧图像中组件的组件特征，确定所述样本视频的样本组件变化特征。

具体地，可以综合识别到组件区域的至少一帧样本帧图像中组件的组件特征，以及不存在组件区域的样本帧图像来确定样本视频中组件的样本组件变化特征。

根据每帧样本帧图像的素材区域，确定所述样本视频的样本素材区域变化特征。

具体地，根据每帧样本帧图像中的素材区域，来确定整个视频中素材区域的变化特征。

根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息。

其中，样本音频节拍信息是指样本视频中音频的节奏或拍子信息，即音频中音符的排列和强度变化的规律。节拍信息可以用于分析和描述音乐的整体结构和节奏感，以及用于计算音频的速度和节奏特征。

具体地，样本视频由于已经预先匹配了音频。因此，可以根据样本视频中的音频信息，来确定样本视频的样品音频节拍信息。

在一些示例性的实施例中，由于样本视频中已经预先完成了节拍标记。因此可以根据样本视频的音频信息在预设的数据库中查询与音频信息相对应的节拍标记，从而确定样本视频的样本音频节拍信息。还可以通过人工的方式进行标记样本的音频信息的节拍，从而确定样本的样本音频节拍信息。

根据所述样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，得到音频节拍预测模型。

具体地，得到样本视频的样本组件变化特征、样本素材区域变化特征之后。由于样本视频的样本组件变化特征、样本素材区域变化特征均会在样本音频节拍信息中节拍位置处会有较大的变化。因此，可以利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，从而得到音频节拍预测模型。

在本实施例中，由于样本视频的样本组件变化特征、样本素材区域变化特征能够反映视频的变化情况，因此根据样本视频的样本组件变化特征、样本素材区域变化特征以及样本音频节拍信息训练神经网络模型，可以提高预测音频节拍信息的准确度。除此之外，可以利用训练完成的音频节拍预测模型自动化的预测视频的音频节拍，提高效率。

在一个实施例中，所述根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息，包括：

根据所述样本视频的音频信息，确定所述音频信息中的节拍标记点。

其中，音频信息中的节拍标记点可以是用来确定音乐中的节奏和节拍的点。这些标记点通常在音乐的每个小节或每个拍子的开始处。

具体地，可以在预设的存储音频信息和音频节拍标记点关系的数据库中，根据样本视频的音频信息，确定音频信息中的节拍标记点。还可以利用节拍检测工具，例如MixMeister BPM Analyzer自动识别音频信息中的节拍并将该节拍标记为节拍标记点。还可以利用预先训练完成的节拍点标记模型，来确定音频信息中的节拍标记点。

根据所述节拍标记点，生成含有所述节拍标记点与音频信息的波形之间的音频关系。

具体地，当确定节拍标记点之后，由于音频信息和样本视频之间是匹配的关系。因此，音频信息中节拍标记点的位置附近，样本视频中的组件变化特征、样本素材区域变化特征会发生较大的变化。因此，将音频信息转换为波形信息，并将节拍标记点添加到波形信息中，形成如图8所示的含有节拍标记点与音频中的波形之间的音频关系。在图8中，数字1至11下方的白色线条为节拍标记点。

按照所述样本视频分帧的帧率转换所述音频关系，确定所述样本视频的样本音频节拍信息。

其中，分帧的帧率是指在视频或动画中每秒钟显示的帧数。帧率通常以“fps”（Frames Per Second）表示，即每秒显示的帧数。

具体地，由于样本视频是分帧对每一帧样本帧图像处理的，因此为了将音频关系和每一帧样本帧图像对应上，可以按照样本视频分帧的帧率转换音频关系，根据转换后的音频关系，确定样本视频的样本音频节拍信息。

在本实施例中，通过按照帧率对音频关系进行转换，能够使样本音频节拍信息与每一帧样本帧图像对应，从而提高模型识别出样本音频节拍信息的准确度。

在一个实施例中，所述按照所述样本视频分帧的帧率转换所述音频关系，确定所述样本视频的样本音频节拍信息，包括：

按照所述样本视频分帧的帧率，将所述音频关系转换为音频关系数组，其中，所述音频关系数组中所述音频关系中的节拍标记点为第一数值，所述音频关系数组中除所述节拍标记点之外的音频信息的波形为第二数值。

具体地，根据样本视频分帧的帧率，确定样本视频每秒钟播放的帧数，即每秒钟显示多少个完整的画面。然后按照帧率来将音频关系转换为音频关系数组。音频关系数组中音频关系中的节拍标记点为第一数值，除节拍标记点之外的音频信息的波形为第二数值。这样根据音频关系数组中的数值能够确定节拍标记点。

在一些示例性的实施例中，以分帧的帧率为5为例进行说明，视频一共3秒，分帧的帧率为5，则每秒显示5帧的样本帧图像。样本视频一种显示3×5帧视频帧图像。每帧视频帧图像可以对应一个数值。则最终的音频关系数组也可以一共存在15个数值。因此，可以将音频关系区分为15个区间，每个区间对应一个数值。确定节拍标记点所在的区间，例如节拍标记点所在的区间为1、4、7，则该区间对应的数值可以为第一数值。其余区间可以为第二数值，以第一数值为1，第二数值为0为例，则最终得到的音频关系数组可以为100100100000000。1表示节拍标记点所在位置，而样本视频中1所对应的位置是样本视频中画面会进行较大变化的位置。

根据所述音频关系数组，确定所述样本视频的样本音频节拍信息。

具体地，当确定音频关系数组之后，可以直接将音频关系数组确定为样本视频的样本音频节拍信息。

在本实施例中，按照样本视频分帧的帧率将音频关系转换为音频关系数组可以将音频与样本视频进行同步处理，确保音频与视频的节奏和时序一致。将音频关系转换为音频关系数组，可以更好地与每一帧样本帧图像进行对应。另外，将音频关系转换为音频关系数组可以提高处理音频数据的效率，并且由于是数组形式，因此音频关系中的节拍标记点为第一数值，这样通过第一数值能够准确的确定节拍标记点的位置，后续提高模型的预测的准确度。

在一个实施例中，当所述视频中含有音频。由于视频中也含有音频，因此本公开还可以对视频中的音频卡点是否准确进行判断。所述基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息之后，所述方法还包括：

提取所述视频中的音频。

具体地，可以使用视频编辑软件（如Adobe Premiere Pro、Final Cut Pro、DaVinci Resolve等）来提取视频中的音频。可以在视频编辑软件中导入视频，然后将视频中的音频轨道导出为音频文件，将视频中的音频提取出。还可以使用命令行工具来提取视频中的音频。例如使用FFmpeg多媒体处理工具，可以通过命令行来提取视频中的音频。还可以通过编程的方式来提取视频中的音频。例如，通过Python的moviepy库和ffmpeg库来提取视频中的音频。

根据所述音频，确定所述视频的音频节拍信息。

具体地，提取出音频之后，可以在音频中确定视频的音频节拍信息。关于此次确定视频的音频节拍信息，可以参见上述实施例中根据样本视频的音频信息，确定样本视频的样本音频节拍信息的实施例，在此不进行重复赘述。

计算所述视频的音频节拍信息和音频预测节拍信息之间的差异值。

具体地，可以利用DTW（Dynamic Time Warping）算法来计算视频的音频节拍信息和音频预测节拍信息之间的差异度。还可以利用余弦相似度（Cosine Similarity）或者欧氏距离（Euclidean Distance）来计算视频的音频节拍信息和音频预测节拍信息之间的差异度。根据该差异度，即可确定视频中的音频卡点是否准确，即频中的画面变化与视频中音频的音乐节奏是否一致。若差异度较小，小于预设的差异度阈值，则可以确定视频中的音频卡点不准确。由于视频的音频节拍信息和音频预测节拍信息是按照视频帧的每一帧视频帧图像维度进行对齐处理的，因此，通常可以使用DTW算法进行处理，在时间序列的长度和速度上进行非线性的时间对齐，并计算它们之间的差异度，从而来保证能够准确的计算得到差异度。

另外，在计算差异度之后，为了便于比较可以对差异度进行归一化处理，从而根据归一化处理后的差异度来确定视频中的音频卡点是否准确。

在本实施例中，当视频中存在音频时，还可以根据预测出的音频预测节拍信息来计算与视频中音频的音频节拍信息之间的差异度，从而来确定视频中的画面变化与视频中音频的音乐节奏是否一致。

在一个实施例中，本公开实施例还提供了另一种视频中音频节拍的预测方法。该方法可以应用在创建模板视频，对模板视频进行匹配音频，还可以应用在制作视频后，对制作完成的视频进行匹配音频。方法包括：模型训练过程和音频节拍的预测过程。

如图9所示，模型训练过程包括：

S402，获取样本视频，将样本视频分帧，获取多帧样本帧图像。

S404，对多帧样本帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧样本帧图像中组件的组件特征，并确定每帧样本帧图像的素材区域，素材区域不包含组件区域。

S406，根据至少一帧样本帧图像中组件的组件特征，确定样本视频的组件变化特征。

S408，根据每帧样本帧图像的素材区域，确定样本视频的样本素材区域变化特征。

S410，根据样本视频的音频信息，确定音频信息中的节拍标记点。

S412，根据节拍标记点，生成含有节拍标记点与音频信息的波形之间的音频关系。

S414，按照样本视频分帧的帧率，将音频关系转换为音频关系数组，其中，音频关系数组中音频关系中的节拍标记点为第一数值，音频关系数组中除节拍标记点之外的音频信息的波形为第二数值。

S416，根据音频关系数组，确定样本视频的样本音频节拍信息。

S418，根据样本视频的组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，得到音频节拍预测模型。

如图10所示，音频节拍的预测过程包括：

S502，获取视频，将视频分帧，获得多帧视频帧图像。

S504，对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域。

S506，在所述多帧视频帧图像中，根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。

S508，根据所述至少一帧视频帧图像中组件的数量信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的数量信息。

S510，根据每帧视频帧图像中组件的数量信息，确定所述视频的组件变化特征。

或者，

S512，根据所述至少一帧视频帧图像中组件的位置信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息。

S514，根据每帧视频帧图像中组件的位置信息，确定所述视频的组件变化特征。

或者，S516，根据所述至少一帧视频帧图像中组件的面积信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的面积信息。

S518，根据每帧视频帧图像中组件的面积信息，确定所述视频的组件变化特征。

或者，

S520，根据所述至少一帧视频帧图像中组件的位置信息和面积信息以及无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息和面积信息。

S522，根据每帧视频帧图像中组件的位置信息和面积信息，确定所述视频的组件变化特征。

S524，根据所述多帧视频帧图像中第一帧视频帧图像的素材区域，确定所述第一帧视频帧图像的素材区域变化特征。

S526，对于所述多帧视频帧图像中从第二帧开始的视频帧图像，计算所述视频帧图像的素材区域以及和前一帧视频帧图像的素材区域之间的差异度，并根据所述差异度确定所述视频帧图像的素材区域变化特征。

S528，根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征。

S530，通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息。根据音频预测节拍信息确定视频的音频。

在一个实施例中，本公开实施例中还提供了另一种视频中音频节拍的检测方法，如图11所示，方法包括：

1、训练过程，包括：视频处理层面，音频处理层面和训练层面。

视频处理层面：首先可以获取样本视频。样本视频可以是已经通过审核的视频的画面变化与音频的音乐节奏一致的视频。对样本视频进行特征计算需要将其分帧，可以采用基本的均匀分帧方法对样本视频进行分帧，以确保分帧后得到的图像在时间上均匀分布，从而得到多帧样本帧图像。利用预先训练好的组件识别模型识别多帧样本帧图像中容纳组件的组件区域，对组件区域提取组件数量，对组件数量求取一阶导数，得到组件数量随时间变化的图像特征a。对每一帧样本帧图像，确定除组件区域之外的素材区域。根据第一帧样本帧图像的素材区域，确定第一帧样本帧图像的素材区域变化特征。然后从第二帧样本帧图像开始，利用SSIM算法计算每一帧素材区域和前一帧素材区域之间的素材区域变化特征。根据每一帧样本帧图像的素材区域变化特征的一阶导数，得到素材速度变化快慢随时间变化的图像特征b。将图像特征a和图像特征b组合，得到样本视频图像特征数组ab。

音频处理层面：对样本视频，提取样本视频中音频信息。通常样本视频中音频信息已经预先完成了节拍标记。因此可以通过音频信息在数据库中查询其标记完成的节拍，生成节拍标记点与实际音频波形对应关系。根据视频分帧的帧率将对应关系转化为只包含0和1的音频特征数组信息C，其中1表示节拍标记点所在位置，而样本视频中1所对应的位置就是视频会进行较大变化的位置。

训练层面：获得了样本视频图像特征数组ab及音频特征数组信息C，因为组件和素材在样本视频中均会在音频特征数组信息C中值为1的附近有较大波动，所以可进行音频节拍点预测模型的训练，得到音频节拍点预测模型。

2、检测过程，可以包括：视频处理层面，音频处理层面，检测层面。

视频处理层面：获取待检测视频。待检测视频可以是制作完成的模板视频需要检测其中的音频是否和视频画面的变化是否一致的视频。采用基本的均匀分帧方法对待检测视频进行分帧，从而得到多帧视频帧图像。利用预先训练好的组件识别模型识别多帧视频帧图像中容纳组件的组件区域，对组件区域提取组件数量，对组件数量求取一阶导数，得到组件数量随时间变化的图像特征a。对每一帧视频帧图像，确定除组件区域之外的素材区域。根据第一帧视频帧图像的素材区域，确定第一帧视频帧图像的素材区域变化特征。然后从第二帧视频帧图像开始，利用SSIM算法计算每一帧素材区域和前一帧素材区域之间的素材区域变化特征。根据每一帧视频帧图像的素材区域变化特征的一阶导数，得到素材速度变化快慢随时间变化的图像特征b。将图像特征a和图像特征b组合，得到待检测视频图像特征数组ab。

音频处理层面：将待检测视频图像特征数组ab输入至上述训练完成的音频节拍点预测模型中。通过音频节拍点预测模型输出音频特征数组D。该音频特征数组D通常可以认为是音频预测节拍点。对待检测视频，提取待检测视频中音频信息，然后通过音频信息在数据库中查询其标记完成的节拍，生成节拍标记点与实际音频波形对应关系。根据视频分帧的帧率将对应关系转化为只包含0和1的音频特征数组E。

检测层面：将音频特征数组D和音频特征数组E进行DTW计算并将结果进行归一化，从而得到差异值。根据差异值确定待检测视频中画面变化和音乐节奏是否一致。

本申请还另外提供一些应用场景，该应用场景应用上述的视频中音频节拍的预测方法。具体地，该视频中音频节拍的预测方法还可以应用于模板视频制作场景，模板视频中音频的检测场景。也可以应用在用户侧，用户制作视频后，对视频的音频进行匹配的场景。或者用户制作视频后，对视频中音频更改，需要匹配新的音频的场景等等，需要说明的是，本公开可应用在对视频的音频进行处理的各种场景中，并不限于上述提到的应用场景。另外，在本公开的一些实施例中不对视频的类别进行限制。

应该理解的是，虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

基于同样的发明构思，本公开实施例还提供了一种用于实现上述所涉及的视频中音频节拍的预测方法的视频中音频节拍的预测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似，故下面所提供的一个或多个视频中音频节拍的预测装置实施例中的具体限定可以参见上文中对于视频中音频节拍的预测方法的限定，在此不再赘述。

在一个实施例中，如图12所示，提供了一种视频中音频节拍的预测装置600，包括：视频处理模块602、图像处理模块604、组件处理模块606、素材处理模块608和节拍预测模块610，其中：

视频处理模块602，用于获取视频，将所述视频分帧，获得多帧视频帧图像；

图像处理模块604，用于对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域；

组件处理模块606，用于根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征；

素材处理模块608，用于根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征；

节拍预测模块610，用于通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的。

在本实施例中，获取视频，将所述视频分帧，获得多帧视频帧图像，能够针对每一帧视频帧图像进行处理，能够降低处理的复杂度，提高对视频帧图像处理的准确度。对所述多帧视频帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧视频帧图像中组件的组件特征，并确定每帧视频帧图像的素材区域，所述素材区域不包含所述组件区域，从而将组件区域和素材区域进行区分，能够降低组件区域中由于组件遮罩带来的影响。由于组件区域和素材区域都会与音乐节拍之间存在匹配关系，并且由于组件区域具有较高的层级，也会对素材区域产生影响，可以根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征。根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征。分别对组件区域和素材区域进行处理，避免组件区域和素材区域之间相互干扰，从而准确的来确定组件的变化特征和素材区域的变化特征。通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，能够得到标准准确的音频预测节拍信息。由于使用音频节拍预测模型进行处理，因此无需使用视频的波形数据来预测视频数据的音乐节拍，能够进一步避免大范围组件的遮罩所带来的干扰，从而提高视频数据中音频节拍预测的准确度。

在所述装置的一个实施例中，所述素材处理模块608包括：

第一变化特征确定模块，用于根据所述多帧视频帧图像中第一帧视频帧图像的素材区域，确定所述第一帧视频帧图像的素材区域变化特征；

差异度确定模块，用于对于所述多帧视频帧图像中从第二帧开始的视频帧图像，计算所述视频帧图像的素材区域和前一帧视频帧图像的素材区域之间的差异度，并根据所述差异度确定所述视频帧图像的素材区域变化特征；

素材区域变化特征确定模块，用于根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征。

在所述装置的一个实施例中，所述素材区域变化特征确定模块，还用于计算所述多帧视频帧图像各自的素材区域变化特征的一阶导数，根据计算结果确定所述视频的素材区域变化特征。

在所述装置的一个实施例中，当所述组件特征为组件的数量信息，所述组件处理模块606包括：

图像确定模块，用于在所述多帧视频帧图像中，根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像。

数量信息确定模块，用于根据所述至少一帧视频帧图像中组件的数量信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的数量信息。

变化特征确定模块，用于根据每帧视频帧图像中组件的数量信息，确定所述视频的组件变化特征。

在所述装置的一个实施例中，当所述组件特征为所述组件的位置信息，所述组件处理模块606，包括：

位置信息确定模块，用于根据所述至少一帧视频帧图像中组件的位置信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息。

变化特征确定模块，用于根据每帧视频帧图像中组件的位置信息，确定所述视频的组件变化特征。

在所述装置的一个实施例中，当所述组件特征为所述组件的面积信息。所述组件处理模块606，包括：

面积信息确定模块，用于根据所述至少一帧视频帧图像中组件的面积信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的面积信息。

变化特征确定模块，用于根据每帧视频帧图像中组件的面积信息，确定所述视频的组件变化特征。

在所述装置的一个实施例中，当所述组件特征为所述组件的位置信息和面积信息，所述组件处理模块606，包括：

特征信息确定模块，用于根据所述至少一帧视频帧图像中组件的位置信息和面积信息以及无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息和面积信息。

变化特征确定模块，根据每帧视频帧图像中组件的位置信息和面积信息，确定所述视频的组件变化特征。

在所述装置的一个实施例中，所述装置还包括：

样本视频处理模块，用于将所述样本视频分帧，获取多帧样本帧图像；

样本特征确定模块，用于根据所述至少一帧样本帧图像中组件的组件特征，确定所述样本视频的组件变化特征；根据每帧样本帧图像的素材区域，确定所述样本视频的样本素材区域变化特征。

音频节拍信息确定模块，用于根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息。

模型训练模块，用于根据所述样本视频的组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，得到音频节拍预测模型。

在所述装置的一个实施例中，所述音频节拍信息确定模块，还用于根据所述样本视频的音频信息，确定所述音频信息中的节拍标记点；根据所述节拍标记点，生成含有所述节拍标记点与音频信息的波形之间的音频关系；按照所述样本视频分帧的帧率转换所述音频关系，确定所述样本视频的样本音频节拍信息。

在所述装置的一个实施例中，所述音频节拍信息确定模块，还用于按照所述样本视频分帧的帧率，将所述音频关系转换为音频关系数组，其中，所述音频关系数组中所述音频关系中的节拍标记点为第一数值，所述音频关系数组中除所述节拍标记点之外的音频信息的波形为第二数值；根据所述音频关系数组，确定所述样本视频的样本音频节拍信息。

在所述装置的一个实施例中，当所述视频中含有音频，所述装置还包括：差异值确定模块，用于提取所述视频中的音频；根据所述音频，确定所述视频的音频节拍信息；计算所述视频的音频节拍信息和音频预测节拍信息之间的差异值。

上述视频中音频节拍的预测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图13所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储视频、组件特征、组件变化特征、素材区域变化特征等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种视频中音频节拍的预测方法。

本领域技术人员可以理解，图13中示出的结构，仅仅是与本公开方案相关的部分结构的框图，并不构成对本公开方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各方法实施例中的步骤。

在一个实施例中，提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述各方法实施例中的步骤。

需要说明的是，本申请所涉及的样本视频和视频，均为经用户授权或者经过各方充分授权的信息和数据，且相关数据的收集、使用和处理需要遵守相关法律法规和标准。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本公开所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器（Read-OnlyMemory，ROM）、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器（ReRAM）、磁变存储器（Magnetoresistive Random Access Memory，MRAM）、铁电存储器（Ferroelectric Random Access Memory，FRAM）、相变存储器（Phase Change Memory，PCM）、石墨烯存储器等。易失性存储器可包括随机存取存储器（Random Access Memory，RAM）或外部高速缓冲存储器等。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器（Static Random Access Memory，SRAM）或动态随机存取存储器（Dynamic RandomAccess Memory，DRAM）等。本公开所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等，不限于此。本公开所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等，不限于此。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本公开的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本公开专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本公开构思的前提下，还可以做出若干变形和改进，这些都属于本公开的保护范围。因此，本公开的保护范围应以所附权利要求为准。

Claims

1.一种视频中音频节拍的预测方法，其特征在于，所述方法包括：

获取视频，将所述视频分帧，获得多帧视频帧图像；

通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的，所述样本组件变化特征和样本素材区域变化特征，分别是根据将所述样本视频分帧获得的样本帧图像确定的；所述样本音频节拍信息，是按照所述样本视频分帧的帧率转换含有节拍标记点与音频信息的波形之间的音频关系确定的，所述音频关系是根据所述样本视频的音频信息中的节拍标记点生成的。

2.根据权利要求1所述的方法，其特征在于，所述根据每帧视频帧图像的素材区域，确定所述视频的素材区域变化特征，包括：

根据所述多帧视频帧图像中第一帧视频帧图像的素材区域，确定所述第一帧视频帧图像的素材区域变化特征；

对于所述多帧视频帧图像中从第二帧开始的视频帧图像，计算所述视频帧图像的素材区域和前一帧视频帧图像的素材区域之间的差异度，并根据所述差异度确定所述视频帧图像的素材区域变化特征；

根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多帧视频帧图像各自的素材区域变化特征，确定所述视频的素材区域变化特征，包括：

4.根据权利要求1所述的方法，其特征在于，当所述组件特征为组件的数量信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

5.根据权利要求1所述的方法，其特征在于，当所述组件特征为所述组件的位置信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

6.根据权利要求1所述的方法，其特征在于，当所述组件特征为所述组件的面积信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

7.根据权利要求1所述的方法，其特征在于，当所述组件特征为所述组件的位置信息和面积信息，所述根据所述至少一帧视频帧图像中组件的组件特征，确定所述视频的组件变化特征，包括：

8.根据权利要求1所述的方法，其特征在于，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的，包括：

将所述样本视频分帧，获取多帧样本帧图像；

对所述多帧样本帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧样本帧图像中组件的组件特征，并确定每帧样本帧图像的素材区域，所述素材区域不包含所述组件区域；

根据所述至少一帧样本帧图像中组件的组件特征，确定所述样本视频的样本组件变化特征；

根据每帧样本帧图像的素材区域，确定所述样本视频的样本素材区域变化特征；

根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息；

9.根据权利要求8所述的方法，其特征在于，所述根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息，包括：

按照所述样本视频分帧的帧率，将根据所述样本视频的音频信息中的节拍标记点生成的音频关系转换为音频关系数组，其中，所述音频关系数组中所述音频关系中的节拍标记点为第一数值，所述音频关系数组中除所述节拍标记点之外的音频信息的波形为第二数值；

10.根据权利要求1至9中任意一项所述的方法，其特征在于，当所述视频中含有音频，所述基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息之后，所述方法还包括：

提取所述视频中的音频；

根据所述音频，确定所述视频的音频节拍信息；

11.一种视频中音频节拍的预测装置，其特征在于，所述装置包括：

节拍预测模块，用于通过音频节拍预测模型，基于所述组件变化特征和所述素材区域变化特征预测所述视频的音频预测节拍信息，所述音频节拍预测模型是利用样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练获得的，所述样本组件变化特征和样本素材区域变化特征，分别是根据将所述样本视频分帧获得的样本帧图像确定的；所述样本音频节拍信息，是按照所述样本视频分帧的帧率转换含有节拍标记点与音频信息的波形之间的音频关系确定的，所述音频关系是根据所述样本视频的音频信息中的节拍标记点生成的。

12.根据权利要求11所述的装置，其特征在于，所述素材处理模块，包括：

13.根据权利要求12所述的装置，其特征在于，所述素材区域变化特征确定模块，还用于计算所述多帧视频帧图像各自的素材区域变化特征的一阶导数，根据计算结果确定所述视频的素材区域变化特征。

14.根据权利要求11所述的装置，其特征在于，当所述组件特征为组件的数量信息，所述组件处理模块包括：

图像确定模块，用于在所述多帧视频帧图像中，根据识别到组件区域的至少一帧视频帧图像，确定无法识别到组件区域的视频帧图像；

数量信息确定模块，用于根据所述至少一帧视频帧图像中组件的数量信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的数量信息；

15.根据权利要求11所述的装置，其特征在于，当所述组件特征为所述组件的位置信息，所述组件处理模块，包括：

位置信息确定模块，用于根据所述至少一帧视频帧图像中组件的位置信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息；

16.根据权利要求11所述的装置，其特征在于，当所述组件特征为所述组件的面积信息，所述组件处理模块，包括：

面积信息确定模块，用于根据所述至少一帧视频帧图像中组件的面积信息和无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的面积信息；

17.根据权利要求11所述的装置，其特征在于，当所述组件特征为所述组件的位置信息和面积信息，所述组件处理模块，包括：

特征信息确定模块，用于根据所述至少一帧视频帧图像中组件的位置信息和面积信息以及无法识别到组件区域的视频帧图像，确定每帧视频帧图像中组件的位置信息和面积信息；

18.根据权利要求11所述的装置，其特征在于，所述装置还包括：

样本视频处理模块，用于将所述样本视频分帧，获取多帧样本帧图像；对所述多帧样本帧图像分别识别容纳组件的组件区域，以确定识别到组件区域的至少一帧样本帧图像中组件的组件特征，并确定每帧样本帧图像的素材区域，所述素材区域不包含所述组件区域；

样本特征确定模块，用于根据所述至少一帧样本帧图像中组件的组件特征，确定所述样本视频的样本组件变化特征；根据每帧样本帧图像的素材区域，确定所述样本视频的样本素材区域变化特征；

音频节拍信息确定模块，用于根据所述样本视频的音频信息，确定所述样本视频的样本音频节拍信息；

模型训练模块，用于根据所述样本视频的样本组件变化特征、样本素材区域变化特征和样本音频节拍信息训练神经网络模型，得到音频节拍预测模型。

19.根据权利要求18所述的装置，其特征在于，所述音频节拍信息确定模块，还用于按照所述样本视频分帧的帧率，将根据所述样本视频的音频信息中的节拍标记点生成的音频关系转换为音频关系数组，其中，所述音频关系数组中所述音频关系中的节拍标记点为第一数值，所述音频关系数组中除所述节拍标记点之外的音频信息的波形为第二数值；根据所述音频关系数组，确定所述样本视频的样本音频节拍信息。

20.根据权利要求11所述的装置，其特征在于，当所述视频中含有音频，所述装置还包括：差异值确定模块，用于提取所述视频中的音频；根据所述音频，确定所述视频的音频节拍信息；计算所述视频的音频节拍信息和音频预测节拍信息之间的差异值。

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。

23.一种计算机程序产品，包括计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。