CN115134676A

CN115134676A - 一种音频辅助视频补全的视频重构方法及装置

Info

Publication number: CN115134676A
Application number: CN202211060490.5A
Authority: CN
Inventors: 黄于晏; 陈畅新
Original assignee: Youmi Technology Co ltd
Current assignee: Youmi Technology Co ltd
Priority date: 2022-09-01
Filing date: 2022-09-01
Publication date: 2022-09-30
Anticipated expiration: 2042-09-01
Also published as: CN115134676B

Abstract

本发明公开了一种音频辅助视频补全的视频重构方法及装置，该方法包括：对待处理视频执行视频预处理操作，得到音频及画面数据，并根据视频块嵌入层对画面数据执行特征转换操作，得到特征转换向量；根据特征融合层，对特征转换向量执行随机掩码操作，得到掩码数据；根据特征融合层，对掩码数据及音频数据执行特征融合操作，得到特征融合向量；根据视频重构层对特征融合向量执行视频重构操作，以训练视频重构模型；当判断出视频重构模型的模型收敛参数在收敛阈值内时，确定完成训练任务，训练完成的视频重构模型用于对确定出的待重构视频执行视频重构操作。可见，实施本发明能够通过重构模型实现视频重构，丰富视频内容及画面要素。

Description

一种音频辅助视频补全的视频重构方法及装置

技术领域

本发明涉及音视频处理技术领域，尤其涉及一种音频辅助视频补全的视频重构方法及装置。

背景技术

随着手机的发展与普及以及人们生活水平的提升，人手一部手机已经成为常态，在人们的手机娱乐活动中，短视频俨然是最为热门的首选之一。对于用户来说，人们对于短视频的浏览量、视频观看时长的考究要素，除了短视频的配乐及背景声音之外，核心要素仍旧在于短视频的画面内容，究其原因在于别具一格的画面要素、故事性强的画面内容更能带动用户的情绪、实现短视频的价值。然而，在海量的短视频中，大部分的视频素材已被多次复用，视频素材本身的效果已大大下降，此时短视频创作者创作出的作品将会出现视频内容单一、画面要素不够丰富等情况。可见，提供一种解决视频内容单一、画面要素不够丰富的方法显得尤为重要。

发明内容

本发明所要解决的技术问题在于，提供一种音频辅助视频补全的视频重构方法及装置，能够智能化重构视频，丰富视频要素，提高视频内容的复杂性与可观赏性。

为了解决上述技术问题，本发明第一方面公开了一种音频辅助视频补全的视频重构方法，所述方法包括：

对获取到的待处理视频执行视频预处理操作，得到所述待处理视频对应的音频数据及画面数据，所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据；

将所述画面数据输入预先构建的视频块嵌入层，并根据所述视频块嵌入层对所述画面数据执行特征转换操作，得到所述画面数据对应的特征转换向量；

根据预设的特征融合层，对所述特征转换向量执行随机掩码操作，得到所述特征转换向量的掩码结果，所述掩码结果包括所述特征转换向量对应的掩码数据；

根据所述特征融合层，对所述掩码数据以及所述音频数据执行特征融合操作，得到所述掩码数据与所述音频数据的特征融合向量；

根据预设的视频重构层对所述特征融合向量执行视频重构操作，以训练视频重构模型，所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层；

当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对所述视频重构模型的训练任务，训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述特征融合层，对所述掩码数据以及所述音频数据执行特征融合操作，得到所述掩码数据与所述音频数据的特征融合向量，包括：

根据所述特征融合层，在预设维度层级对所述掩码数据以及所述音频数据执行数据拼接操作，得到所述掩码数据与所述音频数据的拼接特征向量；

对所述拼接特征向量的维度顺序变换操作，得到所述拼接特征向量对应的变换特征向量；

将所述变换特征向量输入预设的全连接层，得到所述变换特征向量对应的输出特征向量；

根据预设的激活层对所述输出特征向量执行非线性变换操作，得到所述输出特征向量对应的非线性变换向量；

对所述非线性变换向量执行所述维度顺序变换操作以及类别标记操作，得到所述非线性变换向量对应的目标维度向量，作为所述掩码数据与所述音频数据的特征融合向量，所述特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。

作为一种可选的实施方式，在本发明第一方面中，所述视频重构层包括视频重构编码器以及视频重构解码器，所述根据预设的视频重构层对所述特征融合向量执行视频重构操作，包括：

根据所述视频重构编码器所包括的全连接层，对所述特征融合向量执行所述特征融合操作，得到所述特征融合向量对应的特征输出结果，所述特征输出结果包括每个所述随机掩码对应的掩码标识；

根据所述视频重构解码器以及所述掩码标识，对所述特征输出结果执行特征处理操作，得到所述特征输出结果对应的特征处理向量；

计算所述特征融合向量与所述特征处理向量之间的损失参数，所述损失参数用于确定视频重构模型的模型收敛进度。

作为一种可选的实施方式，在本发明第一方面中，所述掩码结果还包括除所述掩码数据之外的其他数据；所述根据所述视频重构解码器以及所述掩码标识，对所述特征输出结果执行特征处理操作，得到所述特征输出结果对应的特征处理向量，包括：

根据所述掩码标识，对所述特征输出结果以及所述其他数据，按照所述待处理视频中每帧数据对应的帧时刻进行数据排列操作，得到所述特征输出结果以及所述其他数据对应的数据排列结果，其中，所述待处理视频中每帧数据对应的帧时刻越早，在所述数据排列结果中的位置越靠前；

根据所述视频重构解码器，对所述数据排列结果执行数据重构操作，得到所述数据排列结果对应的重构向量；

删除所述重构向量中的所述类别标记，以更新所述重构向量并将所述重构向量确定为所述特征输出结果对应的特征处理向量。

作为一种可选的实施方式，在本发明第一方面中，所述对获取到的待处理视频执行视频预处理操作，得到所述待处理视频对应的音频数据及画面数据，包括：

对获取到的待处理视频执行数据分离操作，得到所述待处理视频对应的原始音频数据以及原始画面数据；

确定所述原始画面数据对应的抽帧间隔，并根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧，将所有所述视频帧确定为所述待处理视频对应的画面数据；

根据预设的音频处理函数以及卷积层，对所述原始音频数据执行音频预处理操作，得到所述原始音频的预处理结果，作为所述待处理视频对应的音频数据，所述预处理结果包括所述原始音频对应的音频特征向量。

作为一种可选的实施方式，在本发明第一方面中，所述确定所述原始画面数据对应的抽帧间隔，包括：

分析所述原始画面数据，得到所述原始画面数据的变帧类型，并根据所述原始画面数据的变帧类型、所述原始画面数据以及预设帧数阈值，确定与该变帧类型对应的抽帧间隔，其中，所述变帧类型包括第一变帧类型或第二变帧类型，所述第一变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔小于所述预设帧数阈值的类型，所述第二变帧类型为所述原始画面数据的画面内容发生变化的帧数间隔大于等于所述预设帧数阈值的类型，或者；

分析所述原始画面数据，得到所述原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数；

根据预先设定的标准光流阈值以及所有所述光流参数，确定目标间隔帧数，其中，每间隔所述目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于所述标准光流阈值；

将所述目标间隔帧数确定为所述原始画面数据对应的抽帧间隔。

作为一种可选的实施方式，在本发明第一方面中，所述根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧，包括：

根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到与所述原始画面数据对应的若干个原始视频帧；

分析每个所述原始视频帧，得到每个所述原始视频帧的原始帧数以及该原始帧数对应的帧数类型，所述帧数类型包括所述原始视频帧的原始帧数等于预设帧数的合格类型或不等于所述预设帧数的非合格类型；

当所有所述原始视频帧中存在所述非合格类型的原始视频帧时，确定所述非合格类型对应的所有目标视频帧以及每个所述目标视频帧的帧数；

根据每个所述目标视频帧的帧数，对每个所述目标视频帧执行帧数修正操作，得到每个所述目标视频帧对应的修正视频帧并根据所述修正视频帧更新所述原始视频帧，所述修正视频帧的帧数等于所述预设帧数；

将更新后的所有所述原始视频帧确定为所述原始画面数据对应的满足预设抽帧要求的视频帧。

本发明第二方面公开了一种音频辅助视频补全的视频重构装置，所述装置包括：

预处理模块，用于对获取到的待处理视频执行视频预处理操作，得到所述待处理视频对应的音频数据及画面数据，所述画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据；

特征转换模块，用于将所述画面数据输入预先构建的视频块嵌入层，并根据所述视频块嵌入层对所述画面数据执行特征转换操作，得到所述画面数据对应的特征转换向量；

掩码处理模块，用于根据预设的特征融合层，对所述特征转换向量执行随机掩码操作，得到所述特征转换向量的掩码结果，所述掩码结果包括所述特征转换向量对应的掩码数据；

特征融合模块，用于根据所述特征融合层，对所述掩码数据以及所述音频数据执行特征融合操作，得到所述掩码数据与所述音频数据的特征融合向量；

重构训练模块，用于根据预设的视频重构层对所述特征融合向量执行视频重构操作，以训练视频重构模型，所述视频重构模型包括所述视频块嵌入层、所述特征融合层以及所述视频重构层；

确定模块，用于当判断出所述视频重构模型对应的模型训练结果表示所述视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对所述视频重构模型的训练任务，训练完成后的所述视频重构模型用于对确定出的待重构视频执行视频重构操作。

作为一种可选的实施方式，在本发明第二方面中，所述特征融合模块根据所述特征融合层，对所述掩码数据以及所述音频数据执行特征融合操作，得到所述掩码数据与所述音频数据的特征融合向量的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述视频重构层包括视频重构编码器以及视频重构解码器，所述重构训练模块根据预设的视频重构层对所述特征融合向量执行视频重构操作的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述掩码结果还包括除所述掩码数据之外的其他数据；所述重构训练模块根据所述视频重构解码器以及所述掩码标识，对所述特征输出结果执行特征处理操作，得到所述特征输出结果对应的特征处理向量的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述预处理模块，包括：

分离子模块，用于对获取到的待处理视频执行数据分离操作，得到所述待处理视频对应的原始音频数据以及原始画面数据；

确定子模块，用于确定所述原始画面数据对应的抽帧间隔；

抽帧子模块，用于根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧；

所述确定子模块，还用于将所有所述视频帧确定为所述待处理视频对应的画面数据；

音频处理子模块，用于根据预设的音频处理函数以及卷积层，对所述原始音频数据执行音频预处理操作，得到所述原始音频的预处理结果，作为所述待处理视频对应的音频数据，所述预处理结果包括所述原始音频对应的音频特征向量。

作为一种可选的实施方式，在本发明第二方面中，所述确定子模块确定所述原始画面数据对应的抽帧间隔的方式具体包括：

作为一种可选的实施方式，在本发明第二方面中，所述抽帧子模块根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧的方式具体包括：

本发明第三方面公开了另一种音频辅助视频补全的视频重构装置，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的音频辅助视频补全的视频重构方法。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的音频辅助视频补全的视频重构方法。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，提供了一种音频辅助视频补全的视频重构方法，该方法包括：对获取到的待处理视频执行视频预处理操作，得到待处理视频对应的音频数据及画面数据，画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据；将画面数据输入预先构建的视频块嵌入层，并根据视频块嵌入层对画面数据执行特征转换操作，得到画面数据对应的特征转换向量；根据预设的特征融合层，对特征转换向量执行随机掩码操作，得到特征转换向量的掩码结果，掩码结果包括特征转换向量对应的掩码数据；根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量；根据预设的视频重构层对特征融合向量执行视频重构操作，以训练视频重构模型，视频重构模型包括视频块嵌入层、特征融合层以及视频重构层；当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对视频重构模型的训练任务，训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。可见，实施本发明能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成音频数据与画面数据，之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据，从而实现对视频重构模型的训练操作，最终完成训练的模型用于重构输入的待重构视频，重构的视频在延长了视频时长的基础上，解决了画面内容单一的问题，丰富了视频的画面要素，提高了重构视频的可观赏性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种音频辅助视频补全的视频重构方法的流程示意图；

图2是本发明实施例公开的另一种音频辅助视频补全的视频重构方法的流程示意图；

图3是本发明实施例公开的一种音频辅助视频补全的视频重构装置的结构示意图；

图4是本发明实施例公开的另一种音频辅助视频补全的视频重构装置的结构示意图；

图5是本发明实施例公开的又一种音频辅助视频补全的视频重构装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种音频辅助视频补全的视频重构方法及装置，能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成音频数据与画面数据，之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据，从而实现对视频重构模型的训练操作，最终完成训练的模型用于重构输入的待重构视频，重构的视频在延长了视频时长的基础上，解决了画面内容单一的问题，丰富了视频的画面要素，提高了重构视频的可观赏性。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种音频辅助视频补全的视频重构方法的流程示意图。其中，图1所描述的音频辅助视频补全的视频重构方法可以应用于音频辅助视频补全的视频重构装置中，本发明实施例不做限定。如图1所示，该音频辅助视频补全的视频重构方法可以包括以下操作：

101、对获取到的待处理视频执行视频预处理操作，得到待处理视频对应的音频数据及画面数据。

本发明实施例中，画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据。

102、将画面数据输入预先构建的视频块嵌入层，并根据视频块嵌入层对画面数据执行特征转换操作，得到画面数据对应的特征转换向量。

本发明实施例中，假定分离得到的画面数据为N帧的视频帧，且每帧的图像尺寸为a*a，则转换得到的特征转化向量为（N，3，a，a），其中，3代表RGB三通道，每帧的图像尺寸a*a为预先确定出的尺寸，其中，a的取值可以为32的整数倍，取值区间具体可以为[200,300]，实际应用中a，N的取值可进行自适应调整，本发明实施例不做限定。

本发明实施例中，该视频块嵌入层可以为3D Patch Embedding层，也即通过一个3D卷积层，同时在空间和时间维度上进行卷积，从而额外提取出前后帧之间的相关性特征，通过该视频块嵌入层，能够把输入的视频帧都转换为对应的特征向量，在将转换特征向量输入特征融合层之前，还会加入余弦初始化得到的位置编码向量，用来表征每个图像块在图像中的位置信息。

103、根据预设的特征融合层，对特征转换向量执行随机掩码操作，得到特征转换向量的掩码结果。

本发明实施例中，掩码结果包括特征转换向量对应的掩码数据。

104、根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量。

本发明实施例中，可选的，步骤104根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量的方式具体可以包括以下操作：

根据特征融合层，在预设维度层级对掩码数据以及音频数据执行数据拼接操作，得到掩码数据与音频数据的拼接特征向量；

对拼接特征向量的维度顺序变换操作，得到拼接特征向量对应的变换特征向量；

将变换特征向量输入预设的全连接层，得到变换特征向量对应的输出特征向量；

根据预设的激活层对输出特征向量执行非线性变换操作，得到输出特征向量对应的非线性变换向量；

对非线性变换向量执行维度顺序变换操作以及类别标记操作，得到非线性变换向量对应的目标维度向量，作为掩码数据与音频数据的特征融合向量，特征融合向量包括用于表示该特征融合向量的全局信息的类别标记。

本发明实施例中，为了便于理解，进一步说明如下，记掩码数据为（N1，L，M），对应的音频数据记为（N2，L，M），得到的拼接特征向量为（N1，L+L，M），之后得到的转换特征向量为（N1，M，L+L），经过全连接层之后得到的输出特征向量为（N1，M，L）；在经过预设的激活层（包括预设的激活函数）以及执行维度顺序变换操作、类别标记操作得到的目标维度向量为（N1，L+1，M），其中。音频数据与掩码数据在特征维度上一致，均为上述对应的（L，M），进一步的，N1为掩码数据对应的帧数，N2为音频数据的音频数量，L为向量长度，M为向量维度，N1、N2、L以及M的具体数值本发明实施例不做限定。

105、根据预设的视频重构层对特征融合向量执行视频重构操作，以训练视频重构模型。

本发明实施例中，可选的，视频重构层包括视频重构编码器以及视频重构解码器，步骤105根据预设的视频重构层对特征融合向量执行视频重构操作的方式具体可以包括以下操作：

根据视频重构编码器所包括的全连接层，对特征融合向量执行特征融合操作，得到特征融合向量对应的特征输出结果，特征输出结果包括每个随机掩码对应的掩码标识；

根据视频重构解码器以及掩码标识，对特征输出结果执行特征处理操作，得到特征输出结果对应的特征处理向量；

计算特征融合向量与特征处理向量之间的损失参数，损失参数用于确定视频重构模型的模型收敛进度。

其中，通过最小化特征融合向量与特征处理向量之间的SmoothL1距离，作为损失参数。

进一步的，掩码结果还包括除掩码数据之外的其他数据；上述根据视频重构解码器以及掩码标识，对特征输出结果执行特征处理操作，得到特征输出结果对应的特征处理向量的方式具体可以包括以下操作：

根据掩码标识，对特征输出结果以及其他数据，按照待处理视频中每帧数据对应的帧时刻进行数据排列操作，得到特征输出结果以及其他数据对应的数据排列结果，其中，待处理视频中每帧数据对应的帧时刻越早，在数据排列结果中的位置越靠前；

根据视频重构解码器，对数据排列结果执行数据重构操作，得到数据排列结果对应的重构向量；

删除重构向量中的类别标记，以更新重构向量并将重构向量确定为特征输出结果对应的特征处理向量。

106、当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对视频重构模型的训练任务。

本发明实施例中，训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。

本发明实施例中，当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值之外时，根据模型收敛参数以及计算出的特征融合向量与特征处理向量之间的损失参数，进行反向传播以更新模型参数。

可见，实施图1所描述的音频辅助视频补全的视频重构方法，能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成音频数据与画面数据，之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据，从而实现对视频重构模型的训练操作，最终完成训练的模型用于重构输入的待重构视频，重构的视频在延长了视频时长的基础上，解决了画面内容单一的问题，丰富了视频的画面要素，提高了重构视频的可观赏性以及提高用户对重构视频的观看体验，进而延长用户对重构视频的观看时长。

实施例二

请参阅图2，图2是本发明实施例公开的另一种音频辅助视频补全的视频重构方法的流程示意图。其中，图2所描述的音频辅助视频补全的视频重构方法可以应用于音频辅助视频补全的视频重构装置中，本发明实施例不做限定。如图2所示，该音频辅助视频补全的视频重构方法可以包括以下操作：

201、对获取到的待处理视频执行数据分离操作，得到待处理视频对应的原始音频数据以及原始画面数据。

202、确定原始画面数据对应的抽帧间隔，并根据抽帧间隔对原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧，将所有视频帧确定为待处理视频对应的画面数据。

本发明实施例中，可选的，步骤202确定原始画面数据对应的抽帧间隔的方式具体可以包括以下操作：

分析原始画面数据，得到原始画面数据的变帧类型，并根据原始画面数据的变帧类型、原始画面数据以及预设帧数阈值，确定与该变帧类型对应的抽帧间隔，其中，变帧类型包括第一变帧类型或第二变帧类型，第一变帧类型为原始画面数据的画面内容发生变化的帧数间隔小于预设帧数阈值的类型，第二变帧类型为原始画面数据的画面内容发生变化的帧数间隔大于等于预设帧数阈值的类型，或者；

分析原始画面数据，得到原始画面数据中每帧数据与该帧数据的后一帧数据之间的光流参数；

根据预先设定的标准光流阈值以及所有光流参数，确定目标间隔帧数，其中，每间隔目标间隔帧数的所有帧数据对应的光流参数的参数总和小于等于标准光流阈值；

将目标间隔帧数确定为原始画面数据对应的抽帧间隔。

本发明实施例中，需要说明的是，该待处理视频具体的内容要求为一个连续的动作或一个连续的场景，也即基本没有发生镜头切换或画面转换（画面镜头也可以连续性的缓慢移动）；之后按时间顺序对短视频进行抽帧，抽帧的间隔值取决于短视频的的内容变化速度，可以手动确定抽帧间隔，也可以计算每帧之间的光流值，通过限制每帧之间的光流运动量来确定抽帧间隔，如设定一个光流变化量的阈值，经过统计后发现每K帧的光流变化量刚好超过此阈值，则可以将抽帧间隔设定为K帧。其中，如果每帧之间的光流运动量较大，则可以选用较小的抽帧间隔。

本方面实施例中，当短视频主要是一些人体的动作变化，如是一段人体的上篮动作，整个动作仅持续3-5秒，因此速度较快，每帧之间的变化相对较为明显，则此时可以选用较小的抽帧间隔，如每秒抽8帧等。如果短视频的内容变化速度较慢或存在一定的规律，如汽车缓慢行驶在山间小道中，行车记录仪记录着前方的路况，两旁的树木有规律地朝着镜头移动；这种带有规律或速度较慢的变化，就可以选用更大的抽帧间隔，如每秒3帧。不同的任务场景，抽帧的间隔都有所不同，本发明实施例不做限定。

本发明实施例中，选好适合的抽帧间隔后，提前对所有的短视频进行抽帧，抽取的视频帧绑定好视频路径后进行统一存储。在此为了扩增数据集，同一个短视频会采取N种不同的抽帧间隔进行抽帧（N≥2），例如每秒5帧和每秒2帧，对应的视频帧序列便表现出一慢一快的差别。

进一步的，上述根据抽帧间隔对原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧的方式具体可以包括以下操作：

根据抽帧间隔对原始画面数据执行数据抽帧操作，得到与原始画面数据对应的若干个原始视频帧；

分析每个原始视频帧，得到每个原始视频帧的原始帧数以及该原始帧数对应的帧数类型，帧数类型包括原始视频帧的原始帧数等于预设帧数的合格类型或不等于预设帧数的非合格类型；

当所有原始视频帧中存在非合格类型的原始视频帧时，确定非合格类型对应的所有目标视频帧以及每个目标视频帧的帧数；

根据每个目标视频帧的帧数，对每个目标视频帧执行帧数修正操作，得到每个目标视频帧对应的修正视频帧并根据修正视频帧更新原始视频帧，修正视频帧的帧数等于预设帧数；

将更新后的所有原始视频帧确定为原始画面数据对应的满足预设抽帧要求的视频帧。

203、根据预设的音频处理函数以及卷积层，对原始音频数据执行音频预处理操作，得到原始音频的预处理结果，作为待处理视频对应的音频数据。

本发明实施例中，预处理结果包括原始音频对应的音频特征向量。

204、将画面数据输入预先构建的视频块嵌入层，并根据视频块嵌入层对画面数据执行特征转换操作，得到画面数据对应的特征转换向量。

205、根据预设的特征融合层，对特征转换向量执行随机掩码操作，得到特征转换向量的掩码结果。

206、根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量。

207、根据预设的视频重构层对特征融合向量执行视频重构操作，以训练视频重构模型。

208、当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对视频重构模型的训练任务。

本发明实施例中，针对步骤203-步骤208的其他描述请参阅实施例一中针对步骤102-步骤106的其他具体描述，本发明实施例不再赘述。

可见，实施图2所描述的音频辅助视频补全的视频重构方法，能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成原始音频数据与原始画面数据，之后分别对原始音频数据执行预处理以及根据确定出的抽帧间隔处理原始画面数据，得到若干个满足抽帧要求的视频帧，抽帧后的视频帧丰富了可处理的视频数据量，同时提高了后续融合视频的融合效率；继而通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据，从而实现对视频重构模型的训练操作，最终完成训练的模型用于重构输入的待重构视频，重构的视频在延长了视频时长的基础上，解决了画面内容单一的问题，丰富了视频的画面要素，提高了重构视频的可观赏性以及提高用户对重构视频的观看体验，进而延长用户对重构视频的观看时长。

在一个可选的实施例中，上述的非合格类型包括原始帧数大于预设帧数的超帧类型或原始帧数小于预设帧数的缺帧类型；

以及上述根据每个目标视频帧的帧数，对每个目标视频帧执行帧数修正操作，得到每个目标视频帧对应的修正视频帧的方式具体可以包括以下操作：

当所有原始视频帧中存在超帧类型时，确定超帧类型对应的所有第一视频帧，并以每个第一视频帧对应的起始帧以及结尾帧为截取基准点，分别截取得到与起始帧对应的第一子视频帧以及结尾帧对应的第二子视频帧，其中，第一子视频帧以及第二子视频帧对应的帧数均等于预设帧数；

当所有原始视频帧中存在缺帧类型时，确定缺帧类型对应的所有第二视频帧以及每个第二视频帧的缺帧帧数，缺帧帧数通过计算每个第二视频帧的帧数与预设帧数之差得到；

根据每个第二视频帧的缺帧帧数，对每个第二视频帧执行补帧操作，得到每个第二视频帧的补帧结果，每个第二视频帧的补帧结果中每个第二视频帧的帧数等于预设帧数。

在该可选的实施例中，进一步说明如下，假定预设帧数为30帧，若当某个视频抽帧后的结果为54，应当截取前30帧为一个序列，再从后截取30帧作为第二个序列；如果视频的总帧数小于30，如总共只有24帧，则随机选取其中6帧并按原始时间顺序分别进行拷贝和插入，用以补全30帧，本发明实施例不做限定。

可见，在该可选的实施例中，通过设定一个预设帧数，对超帧、缺帧的视频帧执行修正操作，统一了最终得到的视频帧，减少超帧、缺帧的视频帧占用过多内容，导致模型训练出错或者训练效果下降的情况发生，此外，提前抽帧可以大幅减少训练耗时，如果选择在训练阶段采取动态的抽帧间隔对短视频进行抽帧，虽然可以大幅丰富数据集，实现数据增强，但抽帧的速度往往较慢，每个训练迭代都需要重新抽帧，无疑严重拖累了整个训练进程，也即提前抽帧既能够统一帧数的视频帧数，提高了模型训练学习效率的同时，一定程度上也提高了模型训练的成功率。

实施例三

请参阅图3，图3是本发明实施例公开的一种音频辅助视频补全的视频重构装置的结构示意图。其中，该音频辅助视频补全的视频重构装置可以是音频辅助视频补全的视频重构终端、音频辅助视频补全的视频重构设备、音频辅助视频补全的视频重构系统或者音频辅助视频补全的视频重构服务器，音频辅助视频补全的视频重构服务器可以是本地服务器，也可以是远端服务器，还可以是云服务器（又称云端服务器），当音频辅助视频补全的视频重构服务器为非云服务器时，该非云服务器能够与云服务器进行通信连接，本发明实施例不做限定。如图3所示，该音频辅助视频补全的视频重构装置可以包括预处理模块301、特征转换模块302、掩码处理模块303、特征融合模块304、重构训练模块305以及确定模块306，其中：

预处理模块301，用于对获取到的待处理视频执行视频预处理操作，得到待处理视频对应的音频数据及画面数据，画面数据为按照预设抽帧间隔执行抽帧操作后得到的数据。

特征转换模块302，用于将画面数据输入预先构建的视频块嵌入层，并根据视频块嵌入层对画面数据执行特征转换操作，得到画面数据对应的特征转换向量。

掩码处理模块303，用于根据预设的特征融合层，对特征转换向量执行随机掩码操作，得到特征转换向量的掩码结果，掩码结果包括特征转换向量对应的掩码数据。

特征融合模块304，用于根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量。

重构训练模块305，用于根据预设的视频重构层对特征融合向量执行视频重构操作，以训练视频重构模型，视频重构模型包括视频块嵌入层、特征融合层以及视频重构层。

确定模块306，用于当判断出视频重构模型对应的模型训练结果表示视频重构模型的模型收敛参数在预设收敛阈值内时，确定完成针对视频重构模型的训练任务，训练完成后的视频重构模型用于对确定出的待重构视频执行视频重构操作。

本发明实施例中，可选的，特征融合模块304根据特征融合层，对掩码数据以及音频数据执行特征融合操作，得到掩码数据与音频数据的特征融合向量的方式具体可以包括以下操作：

本发明实施例中，可选的，视频重构层包括视频重构编码器以及视频重构解码器，重构训练模块305根据预设的视频重构层对特征融合向量执行视频重构操作的方式具体包括：

本发明实施例中，进一步可选的，掩码结果还包括除掩码数据之外的其他数据；重构训练模块305根据视频重构解码器以及掩码标识，对特征输出结果执行特征处理操作，得到特征输出结果对应的特征处理向量的方式具体包括：

可见，实施图3所描述的一种音频辅助视频补全的视频重构装置，能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成音频数据与画面数据，之后通过预设的视频块嵌入层、特征融合层以及视频重构层智能化处理分离得到的音频数据与画面数据，从而实现对视频重构模型的训练操作，最终完成训练的模型用于重构输入的待重构视频，重构的视频在延长了视频时长的基础上，解决了画面内容单一的问题，丰富了视频的画面要素，提高了重构视频的可观赏性以及提高用户对重构视频的观看体验，进而延长用户对重构视频的观看时长。

在一个可选的实施例中，如图4所示，预处理模块301可以包括分离子模块3011、确定子模块3012、抽帧子模块3013以及音频处理子模块3014，其中：

分离子模块3011，用于对获取到的待处理视频执行数据分离操作，得到待处理视频对应的原始音频数据以及原始画面数据；

确定子模块3012，用于确定原始画面数据对应的抽帧间隔；

抽帧子模块3013，用于根据抽帧间隔对原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧；

确定子模块3012，还用于将所有视频帧确定为待处理视频对应的画面数据；

音频处理子模块3014，用于根据预设的音频处理函数以及卷积层，对原始音频数据执行音频预处理操作，得到原始音频的预处理结果，作为待处理视频对应的音频数据，预处理结果包括原始音频对应的音频特征向量。

在该可选的实施例中，可选的，确定子模块3012确定原始画面数据对应的抽帧间隔的方式具体包括：

将目标间隔帧数确定为原始画面数据对应的抽帧间隔。

在该可选的实施例中，进一步可选的，抽帧子模块3013根据抽帧间隔对原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧的方式具体包括：

可见，实施图4所描述的频辅助视频补全的视频重构装置，能够对获取到的待处理视频执行视频预处理操作，从而将待处理视频分离成原始音频数据与原始画面数据，之后分别对原始音频数据执行预处理以及根据确定出的抽帧间隔处理原始画面数据，得到若干个满足抽帧要求的视频帧，抽帧后的视频帧丰富了可处理的视频数据量，同时提高了后续融合视频的融合效率。

实施例四

请参阅图5，图5是本发明实施例公开的又一种音频辅助视频补全的视频重构装置的结构示意图。如图5所示，该音频辅助视频补全的视频重构装置可以包括：

存储有可执行程序代码的存储器401；

与存储器401耦合的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一或本发明实施例二所描述的音频辅助视频补全的视频重构方法中的步骤。

实施例五

本发明实施例公开了一种计算机存储介质，该计算机存储介质存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一或本发明实施例二所描述的音频辅助视频补全的视频重构方法中的步骤。

实施例六

本发明实施例公开了一种计算机程序产品，该计算机程序产品包括存储了计算机程序的非瞬时性计算机存储介质，且该计算机程序可操作来使计算机执行实施例一或实施例二中所描述的音频辅助视频补全的视频重构方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机存储介质中,存储介质包括只读存储器（Read-OnlyMemory，ROM）、随机存储器（Random Access Memory，RAM）、可编程只读存储器（Programmable Read-only Memory，PROM）、可擦除可编程只读存储器（ErasableProgrammable Read Only Memory，EPROM）、一次可编程只读存储器（One-timeProgrammable Read-Only Memory，OTPROM）、电子抹除式可复写只读存储器（Electrically-Erasable Programmable Read-Only Memory，EEPROM）、只读光盘（CompactDisc Read-Only Memory，CD-ROM）或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种音频辅助视频补全的视频重构方法及装置所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种音频辅助视频补全的视频重构方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述根据所述特征融合层，对所述掩码数据以及所述音频数据执行特征融合操作，得到所述掩码数据与所述音频数据的特征融合向量，包括：

3.根据权利要求2所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述视频重构层包括视频重构编码器以及视频重构解码器，所述根据预设的视频重构层对所述特征融合向量执行视频重构操作，包括：

4.根据权利要求3所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述掩码结果还包括除所述掩码数据之外的其他数据；所述根据所述视频重构解码器以及所述掩码标识，对所述特征输出结果执行特征处理操作，得到所述特征输出结果对应的特征处理向量，包括：

5.根据权利要求1-4任一项所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述对获取到的待处理视频执行视频预处理操作，得到所述待处理视频对应的音频数据及画面数据，包括：

6.根据权利要求5所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述确定所述原始画面数据对应的抽帧间隔，包括：

7.根据权利要求6所述的一种音频辅助视频补全的视频重构方法，其特征在于，所述根据所述抽帧间隔对所述原始画面数据执行数据抽帧操作，得到若干个满足预设抽帧要求的视频帧，包括：

8.一种音频辅助视频补全的视频重构装置，其特征在于，所述装置包括：

9.一种音频辅助视频补全的视频重构装置，其特征在于，所述装置包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-7任一项所述的音频辅助视频补全的视频重构方法。

10.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行如权利要求1-7任一项所述的音频辅助视频补全的视频重构方法。