CN109918539A

CN109918539A - 一种基于用户点击行为的音、视频互相检索方法

Info

Publication number: CN109918539A
Application number: CN201910148705.0A
Authority: CN
Inventors: 张炯衍; 彭新一; 刘孜文
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-06-21
Anticipated expiration: 2039-02-28
Also published as: CN109918539B

Abstract

本发明公开了一种基于用户点击行为的音、视频互相检索方法，包括步骤：对输入的音频、视频数据进行预处理；将预处理的音频数据送入深度卷积神经网络中得到音频的表示向量及注意力权重分布；将预处理所得视频关键帧送入深度卷积神经网络中得到关键帧表示向量并依次送入基于注意力机制的时间序列处理网络中，得到视频的表示向量及注意力权重分布；计算音、视频表示向量的相似度并将音、视频按相似度进行排序；根据注意力权重分布进行标注为排序提供可解释的依据；损失函数通过用户点击行为进行计算并采用后向传播法进行模型训练；基于训练的模型对媒体库中的音、视频进行检索匹配。本发明可在给定视频、音频的情况下检索媒体库中匹配的音频、视频。

Description

一种基于用户点击行为的音、视频互相检索方法

技术领域

本发明涉及数据检索技术，尤其涉及一种基于用户点击行为的音、视频互相检索方法。

背景技术

随着互联网行业，尤其是移动互联网行业的快速发展，大量的音视频内容被产出，如何处理这些音视频内容成了迫切需要解决的问题。在以往，为视频寻找匹配的音频或者为音频寻找匹配的视频并将其编辑为完整的作品往往只是音视频行业从业人员的需求。对于专业人士，他们可以依靠对大量音视频内容的接触和专业理解，将音视频有机组合起来。但即使如此，人对于音视频内容的记忆依然是有限的，音视频侯选库的大小受到了人的记忆力限制，因而单凭人力很难从海量的音视频中筛选出合适的内容。

在短视频应用中，普通用户拍摄一段时长较短的视频，并配上合适的音乐，发布到网络上与其它网民进行分享。这里也对音视频检索技术提出了要求。普通用户接触的音视频内容数量与专业从业人员有较大差距，对音视频内容也缺乏专业的理解。即使选择的视频和音频都是优质内容，但是由于两者不匹配，普通用户产出的短视频往往对大众缺乏吸引力。

为了给专业人员提供有效的音视频编辑辅助，以及提升普通用户音视频编辑水平，多种音视频检索方法已经被提出。这些方法多数仅支持通过给定视频检索音频，不支持通过给定音频检索匹配的视频，这在很大程度上限制了方法的应用场景。且许多已有的方法使用的特征提取、检测算法往往较为陈旧，在机器学习技术迅速发展的今天，效率和效果均较为落后。有的方法虽然采用了新型的深度神经网络，提升了检索效果，但是可解释性较差，无法对检索结果给出匹配依据。还有方法简单地对音视频进行分类，比如利用情感分类技术对音视频内容进行分类(激昂、低沉和欢快等)，然后进行匹配。这种方法虽然可解释性佳，但是只通过一种或多种分类结果进行匹配，依据较为单调，效果往往不佳。

发明内容

本发明旨在克服已有方法的不足和缺陷，提出一种新的基于用户点击行为的音、视频互相检索方法，在保证效率和效果的同时，给出一定的排序依据，为专业人员和普通用户提供音视频编辑上的帮助。

为了达到上述目的，本发明采用以下技术方案：

一种基于用户点击行为的音、视频互相检索方法，包括以下步骤：

S1、对输入的音频、视频数据进行预处理，获得音频数据的频谱图以及视频数据的关键帧；

S2、将预处理后的音频数据送入基于注意力机制的深度卷积神经网络组成的编码器中，得到输入音频的表示向量以及注意力权重分布；

S3、将预处理得到的视频关键帧送入深度卷积神经网络中，得到关键帧表示向量；依次将关键帧表示向量送入基于注意力机制的时间序列神经网络中，得到输入视频的表示向量以及注意力权重分布；

S4、计算步骤S2以及步骤S3得到的输入音、视频表示向量的相似度，对候选集中的视、音频按相似度进行排序；

S5、根据注意力权重分布，标注对排序结果影响最大的音、视频片段，为排序提供可解释的依据；

S6、损失函数通过用户点击行为进行计算，基于负对数似然函数以及softmax函数，采用后向传播算法进行模型训练；

S7、基于所训练的模型对媒体库中的音频、视频进行检索匹配。

进一步地，步骤S1中，所述对输入的音频数据进行预处理具体为：

对于输入的音频数据，先将音频数据绘制为频谱图；

然后对所述频谱图进行缩放操作，使其形成大小为H_a×W_a的二维图像I_a。

进一步地，步骤S1中，所述对输入的视频数据进行预处理具体为：

对于输入的视频数据，先使用关键帧抽取算法抽取出n张关键帧，作为输入视频的关键帧序列S_f＝[f₁,f₂,…,f_n]；

再将关键帧序列中的每一张图片统一缩放成H_v×W_v的二维图像。

进一步地，所述的步骤S2具体为：

将步骤S1中得到的频谱图输入基于注意力机制的深度卷积神经网络编码器E_a中，得到长度为h的输入音频表示向量h_a，以及大小为H_a×W_a的注意力权重分布矩阵A_a。

进一步地，所述的步骤S3具体为：

先将步骤S1中得到的关键帧序列[f₁,f₂,…,f_n]逐帧输入深度卷积神经网络中，得到各帧的表示向量序列S_h＝[h₁,h₁,…,h_n]；再将表示向量序列S_h中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中，得到长度为h的输入视频表示向量h_v以及长度为n的注意力权重分布数组A_v。

进一步地，所述的步骤S4具体为：

当检索请求为视频时，遍历音频侯选库，对每一个请求视频、候选音频对，通过计算步骤S2得到的音频表示向量h_a和步骤S3得到的视频表示向量h_v的余弦相似度作为排序分数，即相似地，当检索请求为音频时，遍历视频侯选库，计算每一个请求音频、候选视频对的表示向量的余弦相似度，作为排序的分数；获得侯选库中所有候选音频、视频的分数后，按照分数从高到低排序，向用户推荐分数最高的k个候选音频、视频。

进一步地，所述的步骤S5具体为：

将注意力权重矩阵A_a与图像I_a逐元素相乘，得到输入音频的注意力分布热力图并向用户展示，热力图上亮度越高的区域，说明其对排序结果的影响越大；同时将注意力权重分布数组A_v绘制为横坐标为关键帧编号、纵坐标为数组值的柱状图并向用户展示，数组值越大，说明该值对应的关键帧对排序结果的影响越大。

进一步地，所述的步骤S6具体为：

假设检索请求为q，那么p⁺代表用户点击过的候选音频、视频，作为正样本；而代表随机选择的t个用户未点击的候选音频、视频，作为负样本；损失通过以下公式计算：

其中，

其中，score(q,p)为模型在输入视频、音频为q，输入音频、视频为p时的输出值，代表q和p的相似性分数；

计算得到损失后，反向传播损失，更新模型参数，并反复迭代直至迭代次数超过预定值μ。

本发明相对于现有技术具有如下的优点及效果：

1、本发明可以同时应用于给定视频，检索匹配音频以及给定音频，检索匹配视频的场景。

2、本发明基于用户点击行为而非单调的数种类别训练模型，使得模型输出的检索结果更贴近用户的需求。

3、本发明为上述模型加入注意力机制，可以提高模型中的神经网络输出的可解释性，为用户选择检索结果提供依据。

附图说明

图1是本发明实施例的基于用户点击行为的音、视频互相检索方法的流程图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例

如图1所示，一种基于用户点击行为的音、视频互相检索方法，包括步骤：

步骤S1的具体实施方式为：对于输入的音频数据，先将音频数据绘制为频谱图。然后将对频谱图进行横向缩放操作，使其形成大小为128*128像素的二维图像I_a。对于输入的视频数据，使用帧平均法抽取出128张关键帧，作为输入视频的关键帧序列S_f＝[f₁,f₂,…,f_n]。将关键帧序列中的每一张图片统一缩放成高度为128*128像素的二维图像；

S2、将预处理后的音频数据送入基于注意力机制的深度卷积神经网络组成的编码器中。得到输入音频的表示向量以及注意力权重分布；

步骤S2的具体实施方式为：将步骤S1中得到的频谱图，输入基于注意力机制的深度卷积神经网络编码器E_a中。这里基于注意力机制的深度卷积神经网络使用Attention-56网络。得到长度为512的输入音频表示向量h_a，以及大小为128*128像素的注意力权重分布矩阵A_a；

S3、将预处理得到的视频关键帧送入深度卷积神经网络中。依次将关键帧表示向量送入基于注意力机制的时间序列处理网络中，得到输入视频的表示向量以及注意力权重分布；

步骤S3的具体实施方式为：将步骤S1中得到的关键帧序列[f₁,f₂,…,f_n]逐帧输入深度卷积神经网络中，这里的深度卷积神经网络使用Resnet-52。从每一帧关键帧得到长度为2048的关键帧表示向量。最终得到各帧的表示向量序列S_h＝[h₁,h₁,…,h_n]。将表示向量序列S_h中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中。这里的基于注意力机制的时间序列处理网络使用Transformer网络。得到长度为512的输入视频表示向量h_v以及长度为128的注意力权重分布向量A_v；

S4、计算步骤S2以及步骤S3得到的音、视频表示向量的相似度，对候选集中的视、音频按相似度进行排序；

步骤S4的具体实施方式为：当检索请求为视频时，遍历音频侯选库，对每一个请求视频、候选音频对，通过计算步骤S2得到的音频表示向量h_a和步骤S3得到的视频表示向量h_v的余弦相似度作为排序分数，即相似地，当检索请求为音频时，遍历视频侯选库，计算每一个请求音频、候选视频对的表示向量的余弦相似度，作为排序的分数。获得侯选库中所有候选音频/视频的分数后，按照分数从高到低排序，向用户推荐分数最高的15个候选音频/视频；

步骤S5的具体实施方式为：将注意力权重矩阵A_a与图像I_a逐元素相乘，得到输入音频的注意力分布热力图并向用户展示，热力图上亮度越高的区域，说明其对排序结果的影响越大。同时将注意力权重分布数组A_v绘制为横坐标为关键帧编号1～128、纵坐标为数组值0.0～1.0的柱状图并向用户展示，数组值越大，说明该值对应的关键帧对排序结果的影响越大。

S6、损失函数通过用户点击行为进行计算，基于负对数似然函数以及softmax函数，采用后向传播算法进行训练。

步骤S6的具体实施方式为：假设检索请求为q，那么p⁺代表用户点击过的候选音频、视频，作为正样本；而代表随机选择的4个用户未点击的候选音频、视频，作为负样本；损失通过以下公式计算：

其中，

计算得到损失后，反向传播损失，更新模型参数，并反复迭代直至迭代次数超过预定值200。

S7、基于所训练的模型对媒体库中的音频、视频进行检索匹配，提升了检索效果，解释性好，对检索结果给出了匹配依据。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种基于用户点击行为的音、视频互相检索方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法，其特征在于，步骤S1中，所述对输入的音频数据进行预处理具体为：

对于输入的音频数据，先将音频数据绘制为频谱图；

3.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法，其特征在于，步骤S1中，所述对输入的视频数据进行预处理具体为：

对于输入的视频数据，先使用关键帧抽取算法抽取出n张关键帧，作为输入视频的关键帧序列S_f＝[f₁，f₂，...，f_n]；

4.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法，其特征在于，所述的步骤S2具体为：

5.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法，其特征在于，所述的步骤S3具体为：

先将步骤S1中得到的关键帧序列[f₁，f₂，...，f_n]逐帧输入深度卷积神经网络中，得到各帧的表示向量序列S_h＝[h₁，h₁，...，h_n]；再将表示向量序列S_h中的元素按顺序输入到基于注意力机制的时间序列处理神经网络中，得到长度为h的输入视频表示向量h_v以及长度为n的注意力权重分布数组A_v。

6.根据权利要求5所述的基于用户点击行为的音、视频互相检索方法，其特征在于，所述的步骤S4具体为：

7.根据权利要求6所述的基于用户点击行为的音、视频互相检索方法，其特征在于，所述的步骤S5具体为：

8.根据权利要求1所述的基于用户点击行为的音、视频互相检索方法，其特征在于，所述的步骤S6具体为：

其中，

其中，score(q，p)为模型在输入视频、音频为q，输入音频、视频为p时的输出值，代表q和p的相似性分数；