CN113572981A

CN113572981A - 视频配乐方法及装置、电子设备、存储介质

Info

Publication number: CN113572981A
Application number: CN202110068599.2A
Authority: CN
Inventors: 田思达
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2021-10-29
Anticipated expiration: 2041-01-19
Also published as: CN113572981B

Abstract

本申请的实施例揭示了一种视频配乐方法及装置，该方法包括：提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；根据所述目标音乐和所述视频生成配乐视频。本申请的实施例能够提升自动配乐的准确性。

Description

视频配乐方法及装置、电子设备、存储介质

技术领域

本申请涉及视频处理技术领域，具体涉及一种视频配乐方法及装置、电子设备、计算机可读存储介质。

背景技术

在现有的自动视频配乐方案中，需要针对待配乐的视频提取视频标签，通过视频标签将待配乐的视频归为某个视频类别，并通过视频类别映射至对应的音乐类型，从与该音乐类型相匹配的曲库中随机挑选一首音乐对视频进行配乐，得到最终的配乐视频。在与视频类别所映射音乐类型相匹配的曲库中，所有的音乐均具有同一音乐类型标签。

基于标签的匹配只能保证待配乐的视频和音乐在大体类别上保持一致，但在更细粒度上可能存在差异，导致最终选取的音乐与待配乐的视频之间的匹配程度不高。

发明内容

为解决上述技术问题，本申请的实施例分别提供了一种视频配乐方法及装置、电子设备、计算机可读存储介质。

根据本申请实施例的一个方面，提供了一种视频配乐方法，包括：提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；根据所述目标音乐和所述视频生成配乐视频。

根据本申请实施例的一个方面，提供了一种视频配乐装置，包括：视频特征提取模块，配置为提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；特征嵌入处理模块，配置为对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；视频音乐匹配模块，配置为根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；配乐视频生成模块，配置为根据所述目标音乐和所述视频生成配乐视频。

根据本申请实施例的一个方面，提供了一种电子设备，包括处理器及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现如上所述的视频配乐方法。

根据本申请实施例的一个方面，提供了一种计算机可读存储介质，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行如上所述的视频配乐方法。

根据本申请实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实施例中提供的视频配乐方法。

在本申请的实施例提供的技术方案中，是基于音视频对应的时序粒度和语义粒度从曲库中选取与待配乐的视频相匹配的目标音乐，并使用目标音乐对待配乐的视频进行配乐，与现有技术中基于视频类别标签和音乐类别标签执行的自动配乐过程相比，本申请基于更细的粒度从曲库中选取与待配乐的视频相匹配的目标音乐，使得最终得到的配乐视频具有更高的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术者来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本申请涉及的一种实施环境的示意图；

图2是本申请的一实施例示出的视频配乐方法的流程图；

图3是图2所示实施例中的步骤S110在一个示例性实施例中的流程图；

图4是本申请的一实施例示出的特征嵌入网络模型的结构示意图；

图5是本申请的另一实施例示出的视频配乐方法的流程图；

图6是图2所示实施例中的步骤S150在一个示例性实施例中的流程图；

图7是本申请的一实施例示出的视频配乐装置的框图；

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

这里将详细地对示例性实施例执行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

附图中所示的方框图仅仅是功能实体，不一定必须与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

附图中所示的流程图仅是示例性说明，不是必须包括所有的内容和操作/步骤，也不是必须按所描述的顺序执行。例如，有的操作/步骤还可以分解，而有的操作/步骤可以合并或部分合并，因此实际执行的顺序有可能根据实际情况改变。

还需要说明的是：在本申请中提及的“多个”是指两个或者两个以上。“和/或”描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习(Machine Learning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。

计算机视觉技术(Computer Vision,CV)计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。

以下将基于人工智能技术和计算机视觉技术，对本申请实施例提供的视频配乐方法及装置、电子设备、计算机可读存储介质进行说明。

请参阅图1，图1是本申请涉及的一种实施环境的示意图。该实施环境包括视频配乐服务器20和至少一个用户终端10，用户终端10和视频配乐服务器20之间通过有线或者无线网络进行通信。

用户终端10用于向视频配乐服务器20上传待配乐的视频，例如用户终端10可以通过调用视频配乐服务器20的Web(即网络)接口，以向视频配乐服务器20上传待配乐的视频。

视频配乐服务器20中存储有曲库，该曲库中包含有多首候选音乐，同时视频配乐服务器20中还存储有每首候选音乐对应的视频嵌入特征。当视频配乐服务器20接收到用户终端10上传的待配乐的视频后，首先提取该视频对应的视频时序特征，然后对视频时序特征进行特征嵌入处理得到视频嵌入特征，该视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，然后根据视频嵌入特征和曲库中候选音乐的音频嵌入特征确定曲库中的候选音乐与视频之间的匹配程度，并基于匹配程度在曲库中选取目标音乐，以根据目标音乐和待配乐的视频生成配乐视频。

视频配乐服务器20还将生成的配乐视频返回至用户终端10，例如，视频配乐服务器20以URL(Uniform Resource Locator，统一资源定位符)的形式向用户终端10返回生成的配乐视频。

需要说明的是，在图1所示实施环境中，用户终端10可以是智能手机、平板、笔记本电脑、计算机等电子设备；视频配乐服务器20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，其中多个服务器可组成一区块链，而服务器为区块链上的节点；视频配乐服务器20还可以是提供云服务、云数据库、云计算、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器，本处不对此进行限制。

图2是本申请的一实施例示出的视频配乐方法的流程图。该视频配乐方法可以应用于图1所示的实施环境，并由图1所示实施例环境中的视频配乐服务器20具体执行。在其他的实施环境中，该视频配乐方法可以由其它电子设备具体执行，本实施例不对此进行限制。

如图2所示，在一示例性实施例中，该视频配乐方法可以包括步骤S110至步骤S170，详细介绍如下：

步骤S110，提取待配乐的视频对应的视频时序特征，视频时序特征中含有该视频的时序信息和图像语义信息。

首先需要说明的是，考虑到现有的视频配乐方案是基于视频类别标签和音乐类别标签来执行的自动视频配乐，无法在更细粒度上保证待配乐的视频与所选取音乐之间的匹配程度，导致现有的视频配乐方案无法得到准确性较高的配乐视频。其中，配乐视频的准确性可以体现在音乐风格是否与视频画面所展现出来的故事情节相符合、音乐的节奏走向是否与视频中故事情节的发展相符合等方面，本处不进行限制。

为解决此技术问题，本实施例提出一种新的视频配乐方案，该视频配乐方案能够基于更细粒度从曲库中选取与待配乐的视频相匹配的目标音乐，并使用目标音乐对待配乐的视频进行配乐，使得最终所得到的配乐视频具备更高的准确性。

在本实施例中，首先需要提取待配乐的视频对应的视频时序特征，视频时序特征中含有待配乐的视频的时序信息和图像语义信息，其中时序信息是指视频的时间相关信息，例如包括视频中不同图像帧之间的时序关系等信息，图像语义信息是指视频的图像视觉信息，例如包括图像帧中各个像素的色彩等信息，本处不对时序信息和图像语义信息的具体信息类型进行限制。

由此，本实施例从时序粒度和语义粒度上提取待配乐的视频的特征信息，以在后续的处理过程中，根据所提取的特征信息在曲库中搜索与待配乐的视频相匹配的目标音乐。

步骤S130，对视频时序特征进行特征嵌入处理，得到待配乐的视频对应的视频嵌入特征，其中，视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息。

在本实施例中，曲库是指用于存储多个候选音乐的数据存储空间，候选音乐通常以PCM(Pulse Code Modulation，脉冲编码调制)数据的形式存储在此数据存储空间中。

本实施例预先针对曲库中的候选音乐提取得到音频嵌入特征，并且在提取得到的音频嵌入特征中，包含了相应候选音乐的时序信息和音频语义信息。其中，时序信息是指候选音乐的时间相关信息，例如包括候选音乐中不同音频帧之间的时序关系等，音频语义信息是指候选音乐的具体音乐特征，例如包括候选音乐的音调等，本处也不对此进行限制。

由此，本实施例也从时序粒度和语义粒度上提取曲库中候选音乐的特征信息，后续在曲库中搜索与待配乐的视频相匹配的目标音乐的过程中，能够基于待配乐的视频在时序粒度和语义粒度上的特征信息以及候选音乐在时序粒度和语义粒度上的特征信息，获取待配乐的视频与曲库中的各个候选音乐之间的匹配程度，以从曲库中选取与待配乐的视频最为匹配的目标音乐来对待配乐的视频进行自动配乐。

也即，本实施例能够从时序粒度和语义粒度上执行自动视频配乐过程，使得从曲库中选取的目标音乐与待配乐的视频之间具有非常高的匹配程度，最终所得到的配乐视频也具有非常高的准确度。

步骤S150，根据视频嵌入特征和曲库中候选音乐的音频嵌入特征，确定曲库中的候选音乐与待配乐的视频之间的匹配程度，并基于该匹配程度在曲库中选取目标音乐。

由于待配乐的视频对应的视频嵌入特征能够表征该视频在时序和语义上的特征信息，曲库中候选音乐的音频嵌入特征之间也能够表征该相应候选音乐在时序和语义上的特征信息，因此本实施例可以根据待配乐的视频对应的视频嵌入特征与曲库中候选音乐的音频嵌入特征之间的特征相似度，来确定待配乐的视频与曲库中候选音乐之间的匹配程度。

曲库中的候选音乐与待配乐的视频之间的匹配程度越高，表示候选音乐在时序粒度和语义粒度上越能够与待配乐的视频相贴合，因此可以将最高匹配程度对应的候选音乐选取为用于对待配乐的视频进行配乐的目标音乐，也可以选取匹配程度为其它排名的候选音乐作为目标音乐，还可以从匹配程度大于预设匹配程度阈值的至少一首候选音乐中随机选取一首候选音乐作为目标音乐，本实施例不对此进行限定。

但需要说明的是，本实施例选取的目标音乐应当在时序粒度和语义粒度上与待配乐的视频具备较高的匹配程度，以使得最终基于目标音乐和待配乐的视频生成的配乐视频仍具有较高的质量。例如，由于用户视觉和用户听觉较为粗糙，当用户查看基于目标音乐和待配乐的视频生成的配乐视频时，通过用户视觉和听觉能够判定该配乐视频中的视频画面和背景音乐之间具有较好的匹配效果。

步骤S170，根据目标音乐和待配乐的视频生成配乐视频。

在视频处理技术领域，在视频中添加背景音乐通常是通过将视频对应的视频轨道和背景音乐对应的音频轨道进行合并所实现的。因此在本实施例中，通过将目标音乐对应的音频轨道与待配乐的视频对应的视频轨道进行合并，即可生成最终的配乐视频。

由上可知，本实施例是基于音视频对应的时序粒度和语义粒度从曲库中选取与待配乐的视频相匹配的目标音乐，并使用目标音乐对待配乐的视频进行配乐，与现有技术中基于视频类别标签和音乐类别标签执行的自动配乐过程相比，本实施例的方案基于更细的粒度从曲库中选取与待配乐的视频相匹配的目标音乐，使得最终得到的配乐视频具有更高的准确性。

在实际的应用场景中，最终得到的配乐视频在播放时，所显示的视频画面与播放的背景音乐都具有很好的匹配程度，使得用户可以获得更好的视频配乐体验。

图3是图2所示实施例中的步骤S110在一个示例性实施例中的流程图。如图3所示，提取待配乐的视频对应的视频时序特征，包括如下步骤：

步骤S111，按照设定频率对待配乐的视频进行图像帧抽取，设定频率用于指示在单位时长中抽取图像帧的数量，得到在各个单位时长中抽取的图像帧序列。

在本实施例中，将待配乐的视频视为由若干单位时长对应的视频片段一次组成，每个视频片段由若干图像帧组成，针对待配乐的视频进行图像帧抽取所设置的设定频率则用于指示在每个单位时长中抽取图像帧的数量。例如，可以将设定频率设置为每秒抽取N帧图像，其中N为大于0整数，N的具体数值可以根据实际需求进行设定。

按照设定频率对待配乐的视频进行图像帧抽取，在每个单位时长中都将抽取得到多个图像帧，并由抽取得到的多个图像帧组合为图像帧序列，由此得到每个单位时长对应的图像帧序列。

步骤S113，提取图像帧序列对应的图像特征。

在各个单位时长中抽取得到的图像帧序列可以形成为一个图像张量，维度为N*H*W*C，其中H、W、C分别表示待配乐的视频的高、宽和通道数。通过对此图像张量进行特征提取，即可得到对应的图像特征。

示例性的，可以将由图像帧序列构形成的图像张量输入图像特征提取模型中，获取图像特征提取模型中最后一个卷积网络层输出的特征图矩阵，并对特征图矩阵进行全局平均池化处理，以得到图像张量对应的图像特征。

在本实施例中，图像特征提取模型选用在提取图像特征的过程中，不仅能够提取图像张量中含有的图像视觉信息，还提取图像张量中含有的帧间运动信息的神经网络模型，所提取的帧间运动信息对于视频配乐很有帮助。

图像特征提取模型中通常包含有多个用于提取特征信息的卷积网络层，通过将图像特征提取模型中最后一个卷积网络层输出的特征图矩阵进行全局平均池化处理，将该特征图矩阵的空间维度压缩为1*1，由此得到固定长度(例如1024维)的图像特征。

在一些实施例中，图像特征提取模型具体选用非局部神经网络模型，该模型也称为NonLocal网络模型。由于非局部神经网络模型基于自监督原理进行特征信息的抽取，无法根据事先标注的数据训练该非局部神经网络模型，需采用指定视频数据集对非局部神经网络模型进行有监督的预训练处理。其中指定视频数据集可以包括用于进行人体动作分类的视频数据集，例如采用Kinettis-400数据集，在模型预训练过程中，进行人体动作分类的过程考虑了视频数据集中含有的帧间运动信息。

步骤S115，按照时间先后顺序对所有单位时长对应的图像特征进行组合，得到待配乐的视频对应的视频时序特征。

基于前述过程，则可以依次得到待配乐的视频中含有的所有单位时长对应的图像特征。按照时间先后顺序对所有单位时长对应的图像特征进行组合，即得到待配乐的视频对应的视频时序特征。视频时序特征的维度可以表示为T*Dv，其中T表示待配乐的视频所含有单位时长的数量，Dv表示每个单位时长对应的图像特征的维度。

由此，在本实施例所提取得到的视频顺序特征中，进一步包含了用于表征帧间运动信息的特征信息，此特征信息作用于曲库中候选音乐的搜索过程，能够进一步提升所选取目标音乐的准确性。

在另外的实施例中，图1所示实施例中的步骤S130对视频时序特征进行特征嵌入处理，具体可以是将视频时序特征输入至特征嵌入网络模型中，以通过特征嵌入网络模型对视频时序特征进行特征嵌入处理，得到特征嵌入网络模型输出的视频嵌入特征。

特征嵌入网络模型中包含有堆叠的多个一维卷积网络层，如图4所示，一示例性的特征嵌入网络模型由输入网络层、两个隐藏网络层和输出网络层依次组成，每个网络层均为一维卷积网络层。通过设置一维卷积网络层的卷积步长(即stride)为1，使得每个一维卷积网络层的输入信号和输出信号在时间维度上保持一致。由此，特征嵌入网络模型针对视频时序特征输出的视频嵌入特征在时间维度上是一致的，具体为待配乐的视频中含有的单位时长的数量。

另外需提及的是，本实施例可以采用无监督特征匹配的思路来训练特征嵌入网络模型。示例性的，本实施例预先收集有音视频数据集，音视频数据集中包含了多个已配乐视频，将已配乐视频中包含的原始视频和音乐作为一个正样本对，以及将原始视频和其它已配乐视频中包含的音乐作为负样本对，使用正样本对和负样本对针对待训练的特征嵌入网络模型进行训练。

具体来说，预先针对正样本对中含有的原始视频和音乐提取得到对应的视频时序特征和音频时序特征，以及针对负样本对中含有的原始视频和音乐提取得到对应的视频时序特征和音频时序特征，其中音频时序特征的提取过程请参见手续实施例中的详细描述，本处不进行赘述。通过将正样本对所对应的视频时序特征和音频时序特征输入待训练的特征嵌入网络模型中，以得到与输入的视频时序特征相对应的视频嵌入特征，以及与输入的音频时序特征相对应的音频嵌入特征，将此视频嵌入特征与音频嵌入特征作为特征嵌入网络模型针对正样本对所输出的特征对信息。通过计算此视频嵌入特征与音频嵌入特征之间的特征距离，即可得到正样本对的第一特征距离值。同理，则可以得到负样本对的第二特征距离值。

特征距离用于表征特征之间的相似度，并且特征距离值越小，特征之间的相似度越高。由于正样本对中包含的原始视频和音乐之间的相似度大于负样本对中包含的原始视频和音乐时间的像素度，因此第一特征距离值应当小于第二特征距离值。如果第一特征距离值与预设特征距离值之和大于或者等于第二特征距离，则表示当前的特征嵌入网络模型输出的特征对信息的准确性不高，需调整特征嵌入网络模型的模型参数。反之，如果第一特征距离值与预设特征距离值之和小于第二特征距离，则表示当前的特征嵌入网络模型输出的特征对信息具有较高的准确性，当前的特征嵌入网络模型已经具备较好的性能，由此得到训练好的特征嵌入网络模型。

由此，本实施例通过无监督方式来训练特征嵌入网络模型，能够满足于本申请中无法收集事先标注过的音视频训练数据集的需求。

图5所示的实施例中描述了预先针对曲库中的候选音乐提取音频嵌入特征的详细过程。需要理解的是，在训练特征嵌入网络模型的过程中，针对正样本对和负样本对中含有的音乐进行音频嵌入特征的提取，均可以参见图5所示的特征提取过程。

如图5所示，在一示例性的实施例中，针对曲库中的候选音乐提取音频嵌入特征可以包括步骤S210至步骤S230，详细介绍如下：

步骤S210，针对曲库中的候选音乐提取音频时序特征，音频时序特征中含有对应候选音乐的时序信息和音频语义信息。

曲库中含有的候选音乐通常为PCM格式的音乐编码数据，本实施例首先对候选音乐的音频编码数据进行预处理，得到候选音乐对应的预处理音频。其中，对候选音乐的音频编码数据进行的预处理可以包括分帧、划窗、快速傅里叶变换等处理，具体的预处理过程可以根据实际需求进行选择。

在得到候选音乐对应的预处理音频后，按照设定频率对预处理音频进行声谱图特征的抽取。其中声谱图特征是指梅尔频谱特征，用于表征候选音乐在频域上的特征信息。设定频率用于指示在单位时长中抽取声谱图特征，得到在各个单位时长中抽取的声谱图特征矩阵。还需要说明的是，本实施例声谱图特征所对应的单位时长与在抽取待配乐的视频中含有的图像帧时设定的单位时长相同，以保证候选音乐的音频时序特征与待配乐的视频对应的视频时序特征之间保持时序同步，由此实现更为精确的视频配乐。例如，若在抽取待配乐的视频中含有的图像帧时将设定频率设置为每秒抽取N帧图像，本实施例则在每秒抽取一个声谱图特征矩阵。

通过对每个单位时长中抽取的声谱图特征矩阵进行特征提取处理，可以得到每个单位时长对应的音频特征。例如，可以将每个单位时长中抽取的声谱图特征矩阵依次输入音乐特征提取模型中，以获取音乐特征提取模型针对声谱图矩阵输出的音频特征。需要说明的是，音乐特征提取模型是根据指定音频数据集进行有监督的预训练处理所得到的，指定音频数据集用于进行音频分类。音乐特征提取模型中含有若干卷积网络层和全连接层，通过最后一个全连接层则可以输出固定维度(例如128维)的音频特征。

示例性的，音乐特征提取模型可以采用Vggish网络模型，指定音频数据集可采用Audio Set数据集，该Vggish网络模型则是根据Audio Set数据集在执行音频分类的过程中预训得到的。得益于数据量庞大的Audio Set数据集，通过训练好的Vggish网络模型所抽取的音频特征具有极强的表达能力，也即在所得到的音频特征中，含有候选音乐的准确音频语义信息，这是本申请实现精确配乐的基础。

按照时间先后顺序对所有单位时长对应的音频特征进行组合，即可得到候选音乐的音频时序特征。例如，将候选音乐在每个单位时长中提取的音频特征表示为Dm，该候选音乐的音频时序特征则为T*Dm，其中T表示为候选音乐所含有的单位时长的数量。

可以看出，在本实施例得到的音频时序特征中同时含有对应候选音乐的音频语义信息和时序信息，以便于后续基于此音频语义信息和时序信息进行候选音乐与待配乐的视频之间的匹配处理。

步骤S230，对提取到的音频时序特征进行特征嵌入处理，以得到曲库中候选音乐的音频嵌入特征。

在本实施例中，将提取得到的音频时序特征输入至训练好的特征嵌入网络模型中，以通过特征嵌入网络模型对音频时序特征进行特征嵌入处理，得到候选音乐的音频嵌入特征。

对于曲库中的每一首候选音乐，都通过如上的方法得到相应的音频嵌入特征，所有的音频嵌入特征均指向同一特征空间，并且针对待配乐的视频所提取得到的视频嵌入特征也指向同一特征空间，使得后续能够根据待配乐的视频对应的视频嵌入特征和曲库中各个候选音乐对应的音频嵌入特征之间的匹配，来从曲库中选取目标音乐对待配乐的视频进行配乐。

如图6所示，在另一示例性的实施例中，图2所示实施例中的步骤S150在一个实施例中具体包括步骤S151至步骤S153，详细介绍如下：

步骤S151，计算视频嵌入特征与曲库中候选音乐的音频嵌入特征之间的特征距离，特征距离用于表征待配乐的视频与对应候选音乐之间的匹配程度。

本实施例通过待配乐的视频对应的视频嵌入特征与曲库中候选音乐的音频嵌入特征之间的特征距离，来表征待配乐的视频与曲库中对应候选音乐之间的匹配程度。因此，需要计算视频嵌入特征与曲库中候选音乐的音频嵌入特征之间的特征距离。

步骤S153，根据特征距离从曲库中选取候选音乐作为目标音乐。

在本实施例中，可以选取特征距离最小的候选音乐作为目标音乐，或者可以从特征距离小于预设距离值的多个候选音乐中随机选取一首候选音乐作为目标音乐，具体可以根据实际需求进行选择，本处不对此进行限制。

考虑到曲库中可能存在音频时长小于待配乐的视频对应的视频时长的候选音乐，这些候选音乐不适用于对视频进行配乐，因此在步骤S151之前，还可以筛选曲库中音乐时长大于或者等于待配乐的视频对应的视频时长的候选音乐，并计算视频嵌入特征与这些筛选得到的候选音乐对应的音乐嵌入特征之间的特征距离。由此，可以节省从曲库中选取目标音乐所需花费的时间和计算机资源。

在选取得到目标音乐之后，由于目标音乐的音乐时长大于或者等于待配乐的视频对应的视频时长，因此通过在目标音乐中确定与视频的视频时长相等的音乐时段，然后针对该音乐时段和待配乐的视频进行音视频轨道的合并处理，即可以得到最终的配乐视频。也即，配乐视频是通过目标音乐对待配乐的视频进行配乐所得到的。

另外还需提及的，考虑到在目标音乐的音乐时长大于待配乐的视频对应的视频时长的情况下，目标音乐的前部分音乐时段可能并不是与待配乐的视频最为匹配的。例如，若假设待配乐的视频对应的视频时长为60秒，从曲库中选取的目标音乐的音乐时长为90秒，目标音乐中的前60秒音乐可能并不是与待配乐的视频最为匹配的音乐时段，有可能目标音乐的第10-70秒对应的音乐时段与待配乐的视频之间的匹配程度最高。

为实现从目标音乐中选取与待配乐的视频最为匹配的音乐时段，在一些实施例中，可以通过在提取目标音乐的音频嵌入特征的过程中加入划窗操作，将目标音乐划分为多个不同音乐起点的候选音乐时段，并提取不同候选音乐时段对应的音频嵌入特征，最终选取视频嵌入特征与音频嵌入特征之间的特征距离最小的候选音乐时段作为目标音频时段，并通过目标音频时段对待配乐的视频进行配乐。

需要说明的是，所加入划窗操作对应的窗口大小可以与待配乐的视频对应的视频时长相同，划窗周期可以根据实际需求进行设置，例如每间隔10秒执行一次划窗操作。示例性的，若假设目标音乐的音乐时长为90秒，待配乐的视频对应的视频时长为60秒，每隔10秒执行一次窗口大小为60秒的划窗操作，则可以依次得到目标音乐中含有的第0-60秒、第10-70秒、第20-80秒、第30-90秒的候选音乐时段。

由此，基于本实施例提供的方法，可以从目标音乐中更为精确地获取音乐时长与待配乐的视频进行匹配，以进一步提升最终得到的配乐视频的配乐准确性。

图7是本申请的一实施例示出的视频配乐装置的框图。如图7所示，该视频配乐装置包括：

视频特征提取模块310，配置为提取待配乐的视频对应的视频时序特征，视频时序特征中含有视频的时序信息和图像语义信息；特征嵌入处理模块330，配置为对视频时序特征进行特征嵌入处理，得到视频的视频嵌入特征，其中，视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；视频音乐匹配模块350，配置为根据视频嵌入特征和曲库中候选音乐的音频嵌入特征，确定曲库中的候选音乐与视频之间的匹配程度，基于匹配程度在曲库中选取目标音乐；配乐视频生成模块370，配置为根据目标音乐和视频生成配乐视频。

在另一示例性的实施例中，视频特征提取模块310包括：

图像帧抽取单元，配置为按照设定频率对视频进行图像帧抽取，设定频率用于指示在单位时长中抽取图像帧的数量，得到在各个单位时长中抽取的图像帧序列；图像特征提取单元，配置为提取图像帧序列对应的图像特征；图像特征组合单元，配置为按照时间先后顺序对所有单位时长对应的图像特征进行组合，得到视频的视频时序特征。

在另一示例性的实施例中，图像特征提取单元包括：

特征输入子单元，配置为将由图像帧序列构形成的图像张量输入图像特征提取模型中，图像特征提取模型用于提取图像张量中含有的图像视觉信息和帧间运动信息；特征输出子单元，配置为获取图像特征提取模型中最后一个卷积网络层输出的特征图矩阵，并对特征图矩阵进行全局平均池化处理，以得到图像张量对应的图像特征。

在另一示例性的实施例中，图像特征提取模型包括非局部神经网络模型，非局部神经网络模型是根据指定视频数据集进行有监督的预训练处理得到的，指定视频数据集用于进行人体动作分类。

在另一示例性的实施例中，特征嵌入处理模块330包括：

模型调用单元，配置为调用特征嵌入网络模型，将视频时序特征输入特征嵌入网络模型中，以通过特征嵌入网络模型对视频时序特征进行特征嵌入处理，特征嵌入网络模型中包含有堆叠的多个一维卷积网络层。

在另一示例性的实施例中，特征嵌入处理模块330还包括：

音视频数据集获取单元，配置为获取音视频数据集，音视频数据集中包括多个已配乐视频；样本对处理单元，配置为将已配乐视频中包含的原始视频与原始视频对应的音乐作为正样本对，以及将已配乐视频中包含的原始视频与其它已配乐视频中包含的音乐作为负样本对，调用待训练的特征嵌入网络模型提取正样本对的特征对信息以及负样本对的特征对信息；特征距离计算单元，配置为根据正样本对的特征对信息计算正样本对的第一特征距离值，以及根据负样本对的特征对信息计算所负样本对的第二特征距离值；模型参数更新单元，配置为若第一特征距离值与预设特征距离值之和大于或者等于第二特征距离，则对特征嵌入网络模型进行模型参数的更新。

在另一示例性的实施例中，该视频配乐装置还包括：

音频特征提取模块，配置为针对曲库中的候选音乐提取音频时序特征，音频时序特征中含有对应候选音乐的时序信息和音频语义信息；音频特征嵌入模块，配置为对提取到的音频时序特征进行特征嵌入处理，以得到曲库中候选音乐的音频嵌入特征。

在另一示例性的实施例中，音频特征提取模块包括：

数据预处理单元，配置为针对候选音乐的音频编码数据进行数据预处理，得到候选音乐对应的预处理音频；神谱图特征抽取单元，配置为按照设定频率对预处理音频进行声谱图特征抽取，设定频率用于指示在单位时长中抽取声谱图特征，得到在各个单位时长中抽取的声谱图特征矩阵，单位时长与在抽取视频中含有的图像帧时设定的单位时长相同；音频特征提取及合并模块，配置为对在单位时长中抽取的声谱图特征矩阵进行特征提取处理，得到单位时长对应的音频特征，按照时间先后顺序对所有单位时长对应的音频特征进行组合，得到候选音乐的音频时序特征。

在另一示例性的实施例中，音频特征提取及合并模块包括：

模型输入处理单元，配置为将在单位时长中抽取的声谱图特征矩阵输入音乐特征提取模型中，音乐特征提取模型是根据指定音频数据集进行有监督的预训练处理所得到的，指定音频数据集用于进行音频分类；音频特征获取单元，配置为获取音乐特征提取模型针对声谱图特征矩阵输出的音频特征。

在另一示例性的实施例中，视频音乐匹配模块350包括：

特征距离计算单元，配置为计算视频嵌入特征与曲库中候选音乐的音频嵌入特征之间的特征距离，特征距离用于表征视频与对应候选音乐之间的匹配程度；目标音乐选取单元，配置为根据特征距离从曲库中选取候选音乐作为目标音乐。

在另一示例性的实施例中，视频音乐匹配模块350还包括：

候选音乐筛选单元，配置为获取视频的视频时长和曲库中所有候选音乐的音乐时长，筛选音乐时长大于或等于视频时长的候选音乐，以计算视频的视频嵌入特征与筛选得到的候选音乐的音频嵌入特征之间的特征距离。

在另一示例性的实施例中，配乐视频生成模块370包括：

音乐时段获取单元，配置为在目标音乐中确定与视频的视频时长相等的音乐时段；音视频轨道合并单元，配置为对音乐时段和视频进行音视频轨道的合并处理，以得到配乐视频。

需要说明的是，上述实施例所提供的装置与上述实施例所提供的方法属于同一构思，其中各个模块和单元执行操作的具体方式已经在方法实施例中进行了详细描述，此处不再赘述。

本申请的实施例还提供了一种电子设备，包括处理器和存储器，其中，存储器上存储有计算机可读指令，该计算机可读指令被处理器执行时实现如前所述的视频配乐方法。

图8示出了适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。需要说明的是，图8示出的电子设备的计算机系统1600仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统1600包括中央处理单元(Central Processing Unit，CPU)1601，其可以根据存储在只读存储器(Read-Only Memory，ROM)1602中的程序或者从储存部分1608加载到随机访问存储器(Random Access Memory，RAM)1603中的程序而执行各种适当的动作和处理，例如执行上述实施例中所述的方法。在RAM 1603中，还存储有系统操作所需的各种程序和数据。CPU 1601、ROM 1602以及RAM 1603通过总线1604彼此相连。输入/输出(Input/Output，I/O)接口1605也连接至总线1604。

以下部件连接至I/O接口1605：包括键盘、鼠标等的输入部分1606；包括诸如阴极射线管(Cathode Ray Tube，CRT)、液晶显示器(Liquid Crystal Display，LCD)等以及扬声器等的输出部分1607；包括硬盘等的储存部分1608；以及包括诸如LAN(Local AreaNetwork，局域网)卡、调制解调器等的网络接口卡的通信部分1609。通信部分1609经由诸如因特网的网络执行通信处理。驱动器1610也根据需要连接至I/O接口1605。可拆卸介质1611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器1610上，以便于从其上读出的计算机程序根据需要被安装入储存部分1608。

特别地，根据本申请的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本申请的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的计算机程序。在这样的实施例中，该计算机程序可以通过通信部分1609从网络上被下载和安装，和/或从可拆卸介质1611被安装。在该计算机程序被中央处理单元(CPU)1601执行时，执行本申请的系统中限定的各种功能。

需要说明的是，本申请实施例所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、闪存、光纤、便携式紧凑磁盘只读存储器(Compact Disc Read-Only Memory，CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的计算机程序。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的计算机程序可以用任何适当的介质传输，包括但不限于：无线、有线等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。其中，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本申请实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

本申请的另一方面还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前所述的视频配乐方法。该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的，也可以是单独存在，而未装配入该电子设备中。

本申请的另一方面还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各个实施例中提供的视频配乐方法。

上述内容，仅为本申请的较佳示例性实施例，并非用于限制本申请的实施方案，本领域普通技术人员根据本申请的主要构思和精神，可以十分方便地进行相应的变通或修改，故本申请的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种视频配乐方法，其特征在于，包括：

提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；

对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；

根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；

根据所述目标音乐和所述视频生成配乐视频。

2.根据权利要求1所述的方法，其特征在于，所述提取待配乐的视频对应的视频时序特征，包括：

按照设定频率对所述视频进行图像帧抽取，所述设定频率用于指示在单位时长中抽取图像帧的数量，得到在各个单位时长中抽取的图像帧序列；

提取所述图像帧序列对应的图像特征；

按照时间先后顺序对所有单位时长对应的图像特征进行组合，得到所述视频的视频时序特征。

3.根据权利要求2所述的方法，其特征在于，所述提取所述图像帧序列对应的图像特征，包括：

将由所述图像帧序列构形成的图像张量输入图像特征提取模型中，所述图像特征提取模型用于提取所述图像张量中含有的图像视觉信息和帧间运动信息；

获取所述图像特征提取模型中最后一个卷积网络层输出的特征图矩阵，并对所述特征图矩阵进行全局平均池化处理，以得到所述图像张量对应的图像特征。

4.根据权利要求3所述的方法，其特征在于，所述图像特征提取模型包括非局部神经网络模型，所述非局部神经网络模型是根据指定视频数据集进行有监督的预训练处理得到的，所述指定视频数据集用于进行人体动作分类。

5.根据权利要求1所述的方法，其特征在于，所述对所述视频时序特征进行特征嵌入处理，包括：

调用特征嵌入网络模型，将所述视频时序特征输入所述特征嵌入网络模型中，以通过所述特征嵌入网络模型对所述视频时序特征进行特征嵌入处理，所述特征嵌入网络模型中包含有堆叠的多个一维卷积网络层。

6.根据权利要求5所述的方法，其特征在于，所述方法还包括：

获取音视频数据集，所述音视频数据集中包括多个已配乐视频；

将所述已配乐视频中包含的原始视频与所述原始视频对应的音乐作为正样本对，以及将所述已配乐视频中包含的原始视频与其它已配乐视频中包含的音乐作为负样本对，调用待训练的特征嵌入网络模型提取所述正样本对的特征对信息以及所述负样本对的特征对信息；

根据所述正样本对的特征对信息计算所述正样本对的第一特征距离值，以及根据所述负样本对的特征对信息计算所负样本对的第二特征距离值；

若所述第一特征距离值与预设特征距离值之和大于或者等于所述第二特征距离，则对所述特征嵌入网络模型进行模型参数的更新。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

针对所述曲库中的候选音乐提取音频时序特征，所述音频时序特征中含有对应候选音乐的时序信息和音频语义信息；

对提取到的音频时序特征进行特征嵌入处理，以得到所述曲库中候选音乐的音频嵌入特征。

8.根据权利要求7所述的方法，其特征在于，所述针对所述曲库中的候选音乐提取音频时序特征，包括：

针对所述候选音乐的音频编码数据进行数据预处理，得到所述候选音乐对应的预处理音频；

按照设定频率对所述预处理音频进行声谱图特征抽取，所述设定频率用于指示在单位时长中抽取声谱图特征，得到在各个单位时长中抽取的声谱图特征矩阵，所述单位时长与在抽取所述视频中含有的图像帧时设定的单位时长相同；

对在所述单位时长中抽取的声谱图特征矩阵进行特征提取处理，得到所述单位时长对应的音频特征，按照时间先后顺序对所有单位时长对应的音频特征进行组合，得到所述候选音乐的音频时序特征。

9.根据权利要求8所述的方法，其特征在于，所述对在所述单位时长中抽取的声谱图特征矩阵进行特征提取处理，包括：

将在所述单位时长中抽取的声谱图特征矩阵输入音乐特征提取模型中，所述音乐特征提取模型是根据指定音频数据集进行有监督的预训练处理所得到的，所述指定音频数据集用于进行音频分类；

获取所述音乐特征提取模型针对所述声谱图特征矩阵输出的音频特征。

10.根据权利要求1所述的方法，其特征在于，所述根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐，包括：

计算所述视频嵌入特征与所述曲库中候选音乐的音频嵌入特征之间的特征距离，所述特征距离用于表征所述视频与对应候选音乐之间的匹配程度；

根据所述特征距离从所述曲库中选取候选音乐作为目标音乐。

11.根据权利要求10所述的方法，其特征在于，在计算所述视频嵌入特征与所述曲库中候选音乐的音频嵌入特征之间的特征距离之前，所述方法还包括：

获取所述视频的视频时长和所述曲库中所有候选音乐的音乐时长；

筛选音乐时长大于或等于所述视频时长的候选音乐，以计算所述视频的视频嵌入特征与筛选得到的候选音乐的音频嵌入特征之间的特征距离。

12.根据权利要求1-11任一项所述的方法，其特征在于，所述根据所述目标音乐和所述视频生成配乐视频，包括：

在所述目标音乐中确定与所述视频的视频时长相等的音乐时段；

对所述音乐时段和所述视频进行音视频轨道的合并处理，以得到所述配乐视频。

13.一种视频配乐装置，其特征在于，包括：

视频特征提取模块，配置为提取待配乐的视频对应的视频时序特征，所述视频时序特征中含有所述视频的时序信息和图像语义信息；

特征嵌入处理模块，配置为对所述视频时序特征进行特征嵌入处理，得到所述视频的视频嵌入特征，其中，所述视频嵌入特征指向的特征空间与曲库中候选音乐的音频嵌入特征指向的特征空间相同，所述音频嵌入特征中含有对应候选音乐的时序信息和音频语义信息；

视频音乐匹配模块，配置为根据所述视频嵌入特征和所述曲库中候选音乐的音频嵌入特征，确定所述曲库中的候选音乐与所述视频之间的匹配程度，基于所述匹配程度在所述曲库中选取目标音乐；

配乐视频生成模块，配置为根据所述目标音乐和所述视频生成配乐视频。

14.一种电子设备，其特征在于，包括：

存储器，存储有计算机可读指令；

处理器，读取存储器存储的计算机可读指令，以执行权利要求1-12中的任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，其上存储有计算机可读指令，当所述计算机可读指令被计算机的处理器执行时，使计算机执行权利要求1-12中的任一项所述的方法。