CN113282788B

CN113282788B - 基于神经网络技术的视频配乐推荐方法、装置以及设备

Info

Publication number: CN113282788B
Application number: CN202110583910.7A
Authority: CN
Inventors: 罗剑; 王健宗; 程宁
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2023-09-26
Anticipated expiration: 2041-05-27
Also published as: CN113282788A

Abstract

本发明公开了一种基于神经网络技术的视频配乐推荐方法，包括：将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息；根据视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息计算视频集合和每段待选配乐的匹配值；根据视频集合和每段待选配乐的匹配值从音乐库中筛选出目标配乐，以作为视频集合的配乐。可见，本发明能够使预先训练完成的风格标签预测模型对音频和视频这两种不同模态的特征具有较好的融合能力，从而能够提高最终推荐的配乐和视频的匹配质量。本发明还涉及区块链技术领域。

Description

基于神经网络技术的视频配乐推荐方法、装置以及设备

技术领域

本发明涉及神经网络技术领域，尤其涉及一种基于神经网络技术的视频配乐推荐方法、装置、计算机设备以及存储介质。

背景技术

视频自动配乐是一项常见的视频处理技术，其能够为视频自动选择合适的配乐，然后使用选择到的配乐完成视频的配乐处理，从而能够为视频创作者节省大量从音乐素材库中挑选合适的配乐的时间，使视频创作者能够将主要精力投入在视频的内容上，为视频创作者创作视频提供了极大的便利。

视频自动配乐技术的关键点在于配乐的自动推荐(即从音乐库中筛选出与视频匹配的配乐)。目前，使用人工神经网络模型来实现配乐的自动推荐是较为常见的一种做法。在人工神经网络模型中，会从待配乐视频中提取视频特征，从待选配乐中提取音频特征，其中，视频特征和音频特征属于不同模态的特征，在人工神经网络模型中需要对这两种不同模态的特征进行融合，最后才能完成配乐的自动推荐。人工神经网络模型中对不同模态的特征的融合情况，一定程度上决定着最后推荐的配乐与视频的匹配情况，但是，现有的人工神经网络模型对不同模态的特征的融合情况大多并不理想，导致最后推荐的配乐与视频的匹配程度不高。可见，目前的基于神经网络技术的视频配乐推荐方法所推荐的配乐和视频的匹配质量仍有提升的空间。

发明内容

本发明所要解决的技术问题在于，目前的基于神经网络技术的视频配乐推荐方法所推荐的配乐和视频的匹配质量较低。

为了解决上述技术问题，本发明第一方面公开了一种基于神经网络技术的视频配乐推荐方法，所述方法包括：

将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息，其中，所述风格标签预测模型的输出包括视频风格标签信息、音频风格标签信息和用于表示所述视频风格标签信息和所述音频风格标签信息之间的相似度的标签相似值，且所述风格标签预测模型的预先训练是基于标签相似值完成的；

根据所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息计算所述视频集合和每段所述待选配乐的匹配值；

根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐。

本发明第二方面公开了一种基于神经网络技术的视频配乐推荐装置，所述装置包括：

分析模块，用于将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息，其中，所述风格标签预测模型的输出包括视频风格标签信息、音频风格标签信息和用于表示所述视频风格标签信息和所述音频风格标签信息之间的相似度的标签相似值，且所述风格标签预测模型的预先训练是基于标签相似值完成的；

计算模块，用于根据所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息计算所述视频集合和每段所述待选配乐的匹配值；

筛选模块，用于根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐。

本发明第三方面公开了一种计算机设备，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明第一方面公开的基于神经网络技术的视频配乐推荐方法中的部分或全部步骤。

本发明第四方面公开了一种计算机存储介质，所述计算机存储介质存储有计算机指令，所述计算机指令被调用时，用于执行本发明第一方面公开的基于神经网络技术的视频配乐推荐方法中的部分或全部步骤。

本发明实施例中，先将视频集合和音乐库输入至风格标签预测模型进行分析，得到视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息，其中，风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，然后根据视频风格标签信息和每个音频风格标签信息计算视频集合和每段待选配乐的匹配值，最后根据匹配值从音乐库中筛选出目标配乐，以作为视频集合的配乐。由于风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，而标签相似值是一个用于表示视频风格标签信息和音频风格标签信息之间的相似度的值(即一个用于表示视频特征和音频特征的融合情况的值)，所以能够使得预先训练完成的风格标签预测模型对这两种不同模态的特征具有较好的融合能力，从而能够提高最终推荐的配乐和视频的匹配质量。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种基于神经网络技术的视频配乐推荐方法的流程示意图；

图2是本发明实施例公开的风格标签预测模型的结构示意图；

图3是本发明实施例公开的一种基于神经网络技术的视频配乐推荐装置的结构示意图；

图4是本发明实施例公开的一种计算机设备的结构示意图；

图5是本发明实施例公开的一种计算机存储介质的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、装置、产品或端没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或端固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本发明的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

本发明公开了一种基于神经网络技术的视频配乐推荐方法、装置、计算机设备以及存储介质，先将视频集合和音乐库输入至风格标签预测模型进行分析，得到视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息，其中，风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，然后根据视频风格标签信息和每个音频风格标签信息计算视频集合和每段待选配乐的匹配值，最后根据匹配值从音乐库中筛选出目标配乐，以作为视频集合的配乐。由于风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，而标签相似值是一个用于表示视频风格标签信息和音频风格标签信息之间的相似度的值(即一个用于表示视频特征和音频特征的融合情况的值)，所以能够使得预先训练完成的风格标签预测模型对这两种不同模态的特征具有较好的融合能力，从而能够提高最终推荐的配乐和视频的匹配质量。以下分别进行详细说明。

实施例一

请参阅图1，图1是本发明实施例公开的一种基于神经网络技术的视频配乐推荐方法的流程示意图。如图1所示，该基于神经网络技术的视频配乐推荐方法可以包括以下操作：

101、将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息；

在上述步骤101中，风格标签预测模型的输出可以包括视频风格标签信息、音频风格标签信息和用于表示视频风格标签信息和音频风格标签信息之间的相似度的标签相似值，且风格标签预测模型的预先训练是基于标签相似值完成的。图2是本发明实施例公开的风格标签预测模型的结构示意图，如图2所示，风格标签预测模型可以是一个基于resnet网络和transformer结构构建的人工神经网络模型。具体地，在提取视频特征的部分，首先通过resnet-50网络从待配乐视频的视频帧中提取出单帧画面的特征，再将提取到的单帧画面的特征输入一个全连接层，得到相应的视频帧特征，最后将视频帧特征输入至transformer结构(即LSTM/Transformer编码器)，得到最终的视频特征。在提取音乐特征的部分，先对待选配乐进行预处理，提取待选配乐的音乐帧的短时傅里叶变换特征(即STFT特征)，再将STFT特征依次输入至resnet-18网络和一个全连接层，得到相应的配乐帧特征，最后将配乐帧特征输入至transformer结构(即LSTM/Transformer编码器)，得到最终的音乐特征。由于transformer结构能够通过自注意力机制提取上下文信息，而视频和音频是在时间上连续的数据，其有相当一部分的信息隐藏在上下文中，所以通过transformer结构提取到的视频特征和音乐特征将会包含有隐藏在视频和音频的上下文中的部分信息，从而能够使风格标签预测模型最终的预测输出更加准确。在通过transformer提取视频特征和音频特征之后，将视频特征和音频特征进行向量拼接后输入至一个全连接层，该全连接层的输出即为标签相似值，用于预测视频特征和音频特征的融合情况，将视频特征输入至另一个全连接层，该全连接层的输出即为视频风格标签信息，用于预测视频集合的风格标签，将音乐特征输入至又一个全连接层，该全连接层的输出即为音频风格标签信息，用于预测待选配乐的风格标签。由于风格标签预测模型的输出包括标签相似值，所以在进行风格标签预测模型的训练时，可以通过观察模型输出的标签相似值来评估风格标签预测模型的训练效果(主要是评估视频特征和音频特征的融合情况)，可以在模型输出的标签相似值达到一定的数值(即模型已能深入地融合视频特征和音频特征这两个模态的特征)时，确认模型训练完成。这样，基于标签相似值来完成风格标签预测模型的训练，有利于确保训练完成的模型已能深入地融合视频特征和音频特征这两个模态的特征，从而使风格标签预测模型最终输出视频风格标签信息和音频风格标签信息更加准确。

102、根据所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息计算所述视频集合和每段所述待选配乐的匹配值；

在上述步骤102中，风格标签预测模型输出的视频风格标签信息和音频风格标签信息，通常是以向量的形式表示，所以可以通过计算视频风格标签信息和音频风格标签信息所对应的两个向量之间的余弦距离值，以作为视频集合和该音频风格标签信息所对应的待选配乐之间的匹配值。

103、根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐。

在上述步骤103中，当使用余弦距离值作为匹配值时，由于余弦距离值的取值为-1至+1，且余弦距离值的值越接近1，则表示两个向量的相似度越高，即视频集合和待选配乐的风格的匹配程度越高，所以从音乐库中筛选出匹配值最大的待选配乐作为目标配乐，能够为视频集合从音乐库中筛选出风格最为匹配待选配乐以作为视频集合的配乐。

可见，实施图1所描述的基于神经网络技术的视频配乐推荐方法，先将视频集合和音乐库输入至风格标签预测模型进行分析，得到视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息，其中，风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，然后根据视频风格标签信息和每个音频风格标签信息计算视频集合和每段待选配乐的匹配值，最后根据匹配值从音乐库中筛选出目标配乐，以作为视频集合的配乐。由于风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，而标签相似值是一个用于表示视频风格标签信息和音频风格标签信息之间的相似度的值(即一个用于表示视频特征和音频特征的融合情况的值)，所以能够使得预先训练完成的风格标签预测模型对这两种不同模态的特征具有较好的融合能力，从而能够提高最终推荐的配乐和视频的匹配质量。

在一个可选的实施例中，在进行所述风格标签预测模型的预先训练时，所使用的跨模态特征比例损失函数为：

其中，L_CFR是所述跨模态特征比例损失函数，是所述风格标签预测模型从待配乐视频v_i中提取的视频特征，/>是所述风格标签预测模型从待选配乐m_i中提取的音频特征，是所述风格标签预测模型从待选配乐m_j中提取的音频特征，v_i是指所述视频集合中第i段待配乐视频，m_i是指所述音乐库中第i段待选配乐，m_j是指所述音乐库中第j段待选配乐，i、j均为任意的正整数，相似度函数s的定义为：

其中，是待配乐视频v_i的视频风格标签信息，/>是待选配乐m_j的音频风格标签信息，/>是所有的所述待配乐视频和所述待选配乐之间的平均距离，m是所有的所述待配乐视频的总数量，n是所有的所述待选配乐的总数量。

在该可选的实施例中，由于视频和音频具有不同的特性，所以风格标签预测模型中所提取的视频特征和音频特征不一定能够被融合在同一个空间内，通过上述跨模态特征比例损失函数对风格标签预测模型进行约束，能够确保在训练完成的风格标签预测模型中，视频特征和音频特征能够被融合在一个空间内。上述跨模态特征比例损失函数希望在训练完成的风格标签预测模型中，视频特征和音频特征这两种模态的特征之间的距离的比值与函数s所得的距离之比相等。

可见，实施该可选的实施例，通过使用设定的跨模态特征比例损失函数进行风格标签预测模型的训练，能够确保在训练完成的风格标签预测模型中，视频特征和音频特征能够被融合在一个空间内，从而能够确保风格标签预测模型对两种不同模态的特征具有较好的融合能力，提高最终推荐的配乐和视频的匹配质量。

在一个可选的实施例中，在进行所述风格标签预测模型的预先训练时，对于模型中所提取的视频特征所使用的单模态特征比例损失函数为：

其中，是对于模型中所提取的视频特征所使用的单模态特征比例损失函数，是所述风格标签预测模型从待配乐视频v_i中提取的视频特征，/>是所述风格标签预测模型从待配乐视频v_j中提取的视频特征，/>是所述风格标签预测模型从待配乐视频v_k中提取的视频特征，/>是待配乐视频v_i的视频风格标签信息，/>是待配乐视频v_j的视频风格标签信息，/>是待配乐视频v_k的视频风格标签信息，i、j、k均为任意的正整数。

在该可选的实施例中，通过上述单模态特征比例损失函数对风格标签预测模型进行约束，能够确保在训练完成的风格标签预测模型中，视频特征之间的比例和视频风格标签信息之间的比例相等。

可见，实施该可选的实施例，能够确保在训练完成的风格标签预测模型中，视频特征之间的比例和视频风格标签信息之间的比例相等。

在一个可选的实施例中，在进行所述风格标签预测模型的预先训练时，对于模型中所提取的音频特征所使用的单模态特征比例损失函数为：

其中，是对于模型中所提取的音频特征所使用的单模态特征比例损失函数，是所述风格标签预测模型从待选配乐m_i中提取的音频特征，/>是所述风格标签预测模型从待选配乐m_j中提取的音频特征，/>是所述风格标签预测模型从待选配乐m_k中提取的音频特征，/>是待选配乐m_i的音频风格标签信息，/>是待选配乐m_j的音频风格标签信息，是待选配乐m_k的音频风格标签信息，i、j、k均为任意的正整数。

在该可选的实施例中，通过上述单模态特征比例损失函数对风格标签预测模型进行约束，能够确保在训练完成的风格标签预测模型中，音频特征之间的比例和音频风格标签信息之间的比例相等。

可见，实施该可选的实施例，能够确保在训练完成的风格标签预测模型中，音频特征之间的比例和音频风格标签信息之间的比例相等。

在一个可选的实施例中，在进行所述风格标签预测模型的预先训练时，对于输出所述标签相似值的全连接层所使用的损失函数为：

其中，L_sim是对于输出所述标签相似值的全连接层所使用的损失函数，是输出所述标签相似值的全连接层的输出，相似度函数s的定义为：

在该可选的实施例中，通过上述损失函数对风格标签预测模型进行约束，能够使输出标签相似值的全连接层拟合预设的相似度函数s。

可见，实施该可选的实施例，能够使输出标签相似值的全连接层拟合预设的相似度函数。

在一个可选的实施例中，在进行所述风格标签预测模型的预先训练时，对于输出所述视频风格标签信息的全连接层和所述音频风格标签信息的全连接层所使用的损失函数为：

其中，L_label是对于输出所述视频风格标签信息的全连接层和所述音频风格标签信息的全连接层所使用的损失函数，

在该可选的实施例中，由于视频风格标签信息和音频风格标签信息并不是one-hot类型的信息，所以对于输出视频风格标签信息的全连接层和音频风格标签信息的全连接层所使用的损失函数不能简单地使用softmax进行归一化，而是使用简化的circleloss。

可见，实施该可选的实施例，通过上述损失函数对风格标签预测模型进行约束，能够使风格标签预测模型能够输出合适的视频风格标签信息和音频风格标签信息。

在一个可选的实施例中，所述根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐之后，所述方法还包括：

基于所述目标配乐的频谱能量流对所述目标配乐进行分析，以得到所述目标配乐的拍子数值；

根据所述拍子数值对每段所述待配乐视频进行变速处理，得到每段所述待配乐视频对应的变速视频；

将所有的所述变速视频和所述目标配乐合成为所述视频集合对应的目标视频。

在该可选的实施例中，可以通过以下公式计算目标配乐的频谱能量流：

其中，其中h(m)是微分滤波器，是对/>进行低

通滤波，是普通的短时傅里叶变换：

其中，x(n)是音频信号，w(n)是长度为N的窗口函数，窗口的跳动距离为M，m是帧的编号，f是频率。

计算出目标配乐的频谱能量流后，可以通过以下公式以自相关函数的方法计算目标配乐的拍子数值：

其中，p(k)是检测函数，代表E(f,k)的响度，τ是猜想的拍子数值对应的时间常数。实际应用中的拍子数值通常在60到200之间，所以τ的猜想取值在300ms到1s之间。其中，以自相关函数的方法计算目标配乐的拍子数值的具体过程为：不断地设置τ的取值(即随机地猜想τ的值)，在每次为τ设置新的取值时，即通过上述公式计算新的取值对应的r(τ)，r(τ)能够表示τ的新取值与目标配乐的实际的时间常数的相似程度，r(τ)的值越大，τ的新取值与目标配乐的实际的时间常数越相似。所以，最后取最大的r(τ)所对应的τ值作为计算出的目标配乐的时间常数，再根据计算出的时间常数即能够得到目标配乐的拍子数值。在计算出目标配乐的拍子数值之后，即可以调用ffmpeg程序对每段待配乐视频进行变速处理。例如，目标配乐的拍子数值为60，则一分钟有60个节拍，每一秒为一个节拍，则调用ffmpeg程序将每段待配乐视频变速为播放时长为一秒的视频(即变速视频)。最后，将每段待配乐视频对应的变速视频依次插入至目标配乐的每个节拍中，这样就完成了目标视频的合成。

可见，实施该可选的实施例，先基于频谱能量流分析目标配乐得到目标配乐的拍子数值，然后根据拍子数值对每段待配乐视频进行变速处理得到变速视频，最后将变速视频和目标配乐合成为目标视频，从而使最终合成的目标视频能够匹配目标配乐的节拍，有利于辅助用户制作目标视频。

可选地，还可以：将所述基于神经网络技术的视频配乐推荐方法的视频配乐推荐信息上传至区块链中。

具体来说，视频配乐推荐信息是通过运行所述基于神经网络技术的视频配乐推荐方法后得到的，用于记录基于神经网络技术的视频配乐推荐情况，例如，最后推荐的目标配乐、计算出的视频风格标签信息和音频风格标签信息的匹配值、每段待配乐视频的信息、每段待选配乐的信息等等。将视频配乐推荐信息上传至区块链可保证其安全性和对用户的公正透明性。用户可以从区块链中下载得到该视频配乐推荐信息，以便查证所述基于神经网络技术的视频配乐推荐方法的视频配乐推荐信息是否被篡改。本示例所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

可见，实施本发明实施例所公开的基于神经网络技术的视频配乐推荐方法，先将视频集合和音乐库输入至风格标签预测模型进行分析，得到视频集合对应的视频风格标签信息和每段待选配乐对应的音频风格标签信息，其中，风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，然后根据视频风格标签信息和每个音频风格标签信息计算视频集合和每段待选配乐的匹配值，最后根据匹配值从音乐库中筛选出目标配乐，以作为视频集合的配乐。由于风格标签预测模型的预先训练是基于该模型输出的标签相似值完成的，而标签相似值是一个用于表示视频风格标签信息和音频风格标签信息之间的相似度的值(即一个用于表示视频特征和音频特征的融合情况的值)，所以能够使得预先训练完成的风格标签预测模型对这两种不同模态的特征具有较好的融合能力，从而能够提高最终推荐的配乐和视频的匹配质量。还通过使用设定的跨模态特征比例损失函数进行风格标签预测模型的训练，能够确保在训练完成的风格标签预测模型中，视频特征和音频特征能够被融合在一个空间内，从而能够确保风格标签预测模型对两种不同模态的特征具有较好的融合能力，提高最终推荐的配乐和视频的匹配质量。还能够确保在训练完成的风格标签预测模型中，视频特征之间的比例和视频风格标签信息之间的比例相等。还能够确保在训练完成的风格标签预测模型中，音频特征之间的比例和音频风格标签信息之间的比例相等。还能够使输出标签相似值的全连接层拟合预设的相似度函数s。还能够使风格标签预测模型能够输出合适的视频风格标签信息和音频风格标签信息。还基于频谱能量流分析目标配乐得到目标配乐的拍子数值，然后根据拍子数值对每段待配乐视频进行变速处理得到变速视频，最后将变速视频和目标配乐合成为目标视频，从而使最终合成的目标视频能够匹配目标配乐的节拍，有利于辅助用户制作目标视频。

实施例二

请参阅图3，图3是本发明实施例公开的一种基于神经网络技术的视频配乐推荐装置的结构示意图。如图3所示，该基于神经网络技术的视频配乐推荐装置可以包括：

分析模块301，用于将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息，其中，所述风格标签预测模型的输出包括视频风格标签信息、音频风格标签信息和用于表示所述视频风格标签信息和所述音频风格标签信息之间的相似度的标签相似值，且所述风格标签预测模型的预先训练是基于标签相似值完成的；

计算模块302，用于根据所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息计算所述视频集合和每段所述待选配乐的匹配值；

筛选模块303，用于根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐。

对于上述基于神经网络技术的视频配乐推荐装置的具体描述可以参照上述基于神经网络技术的视频配乐推荐方法的具体描述，为避免重复，在此不再一一赘述。

实施例三

请参阅图4，图4是本发明实施例公开的一种计算机设备的结构示意图。如图4所示，该计算机设备可以包括：

存储有可执行程序代码的存储器401；

与存储器401连接的处理器402；

处理器402调用存储器401中存储的可执行程序代码，执行本发明实施例一公开的基于神经网络技术的视频配乐推荐方法中的步骤。

实施例四

本发明实施例公开了一种计算机存储介质501，计算机存储介质501存储有计算机指令，该计算机指令被调用时，用于执行本发明实施例一公开的基于神经网络技术的视频配乐推荐方法中的步骤。

以上所描述的装置实施例仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施例的具体描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

最后应说明的是：本发明实施例公开的一种基于神经网络技术的视频配乐推荐方法、装置、计算机设备以及存储介质所揭露的仅为本发明较佳实施例而已，仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解；其依然可以对前述各项实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应的技术方案的本质脱离本发明各项实施例技术方案的精神和范围。

Claims

1.一种基于神经网络技术的视频配乐推荐方法，其特征在于，所述方法包括：

将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息，其中，所述风格标签预测模型的输出包括视频风格标签信息、音频风格标签信息和用于表示所述视频风格标签信息和所述音频风格标签信息之间的相似度的标签相似值，且所述风格标签预测模型的预先训练是基于标签相似值完成的，在进行所述风格标签预测模型的预先训练时，所使用的跨模态特征比例损失函数为：

其中，L_CFR是所述跨模态特征比例损失函数，是所述风格标签预测模型从待配乐视频v_i中提取的视频特征，/>是所述风格标签预测模型从待选配乐m_i中提取的音频特征，/>是所述风格标签预测模型从待选配乐m_j中提取的音频特征，v_i是指所述视频集合中第i段待配乐视频，m_i是指所述音乐库中第i段待选配乐，m_j是指所述音乐库中第j段待选配乐，i、j均为任意的正整数，相似度函数s的定义为：

其中，是待配乐视频v_i的视频风格标签信息，/>是待选配乐m_j的音频风格标签信息，/>是所有的所述待配乐视频和所述待选配乐之间的平均距离，m是所有的所述待配乐视频的总数量，n是所有的所述待选配乐的总数量；

2.根据权利要求1所述的基于神经网络技术的视频配乐推荐方法，其特征在于，在进行所述风格标签预测模型的预先训练时，对于模型中所提取的视频特征所使用的单模态特征比例损失函数为：

其中，是对于模型中所提取的视频特征所使用的单模态特征比例损失函数，/>是所述风格标签预测模型从待配乐视频v_i中提取的视频特征，/>是所述风格标签预测模型从待配乐视频v_j中提取的视频特征，/>是所述风格标签预测模型从待配乐视频v_k中提取的视频特征，/>是待配乐视频v_i的视频风格标签信息，/>是待配乐视频v_j的视频风格标签信息，/>是待配乐视频v_k的视频风格标签信息，i、j、k均为任意的正整数。

3.根据权利要求2所述的基于神经网络技术的视频配乐推荐方法，其特征在于，在进行所述风格标签预测模型的预先训练时，对于模型中所提取的音频特征所使用的单模态特征比例损失函数为：

其中，是对于模型中所提取的音频特征所使用的单模态特征比例损失函数，/>是所述风格标签预测模型从待选配乐m_i中提取的音频特征，/>是所述风格标签预测模型从待选配乐m_j中提取的音频特征，/>是所述风格标签预测模型从待选配乐m_k中提取的音频特征，/>是待选配乐m_i的音频风格标签信息，/>是待选配乐m_j的音频风格标签信息，是待选配乐m_k的音频风格标签信息，i、j、k均为任意的正整数。

4.根据权利要求3所述的基于神经网络技术的视频配乐推荐方法，其特征在于，在进行所述风格标签预测模型的预先训练时，对于输出所述标签相似值的全连接层所使用的损失函数为：

5.根据权利要求1-4任一项所述的基于神经网络技术的视频配乐推荐方法，其特征在于，所述根据所述视频集合和每段所述待选配乐的匹配值从所述音乐库中筛选出目标配乐，以作为所述视频集合的配乐之后，所述方法还包括：

6.一种基于神经网络技术的视频配乐推荐装置，其特征在于，所述装置包括：

分析模块，用于将包含有多段待配乐视频的视频集合和包含有多段待选配乐的音乐库输入至预先训练完成的风格标签预测模型进行分析，得到所述视频集合对应的视频风格标签信息和每段所述待选配乐对应的音频风格标签信息，其中，所述风格标签预测模型的输出包括视频风格标签信息、音频风格标签信息和用于表示所述视频风格标签信息和所述音频风格标签信息之间的相似度的标签相似值，且所述风格标签预测模型的预先训练是基于标签相似值完成的，在进行所述风格标签预测模型的预先训练时，所使用的跨模态特征比例损失函数为：

7.一种计算机设备，其特征在于，所述计算机设备包括：

存储有可执行程序代码的存储器；

与所述存储器连接的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行如权利要求1-5任一项所述的基于神经网络技术的视频配乐推荐方法。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5任一项所述的基于神经网络技术的视频配乐推荐方法。