CN110309360B

CN110309360B - 短视频标签标注方法及系统

Info

Publication number: CN110309360B
Application number: CN201910606153.3A
Authority: CN
Inventors: 尉寅玮; 聂礼强; 王英龙; 程志勇; 俞旭峥; 曹达; 甘甜; 刘威
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-06-13
Filing date: 2019-07-05
Publication date: 2021-09-28
Anticipated expiration: 2039-07-05
Also published as: CN110309360A

Abstract

本公开提供了短视频标签标注方法及系统。其中，短视频标签标注方法，包括：构建无向图结构，所述无向图结构中包含短视频、用户和话题标签这三种类型的节点；将无向图结构输入至图卷积神经网络，得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示；将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作，得到两者之间的相似性分数并对这些相似性分数排序，获得个性化话题标签推荐。

Description

短视频标签标注方法及系统

技术领域

本公开属于话题标签个性化推荐领域，尤其涉及短视频标签标注方法及系统。

背景技术

本部分的陈述仅仅是提供了与本公开相关的背景技术信息，不必然构成在先技术。

在当今的社交网络平台中，标签被频繁用于注解、分类与描述，它们可能为任意以#号开头的字符串，标签由用户创造，并且可以被认为是用户的一种自表达，用户个人的偏好会直接影射于文章与它们所使用的标签的风格中。使用标签，用户可以很容易的搜索与管理他们曾发布过的文章或是追踪别人的发布的内容，有研究表明标签可以为诸多任务提供有效的信息，例如语义分析或情感挖掘等。然而由于在手机上并不便捷的输入方式，的用户很少为他们所发布的内容标注标签。

近些年有传统的方法往往根据用户发表的内容来推荐标签，只关注基于短视频中所包含的内容，而对用户的偏好以及标签语义信息差别的捕捉不充分，造成话题标签的推荐大量无效的问题。

发明内容

为了解决上述问题，本公开的第一个方面提供短视频标签标注方法，其完全依照用户、标签与短视频之间的交互信息建模，实现了充分地学习标签与用户的表达，从而实现话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

为了实现上述目的，本公开采用如下技术方案：

短视频标签标注方法，包括：

构建无向图结构，所述无向图结构包含短视频节点、用户节点和话题标签节点；

将无向图结构输入至图卷积神经网络，得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示；

将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作，得到两者之间的相似性分数并对这些相似性分数排序，获得个性化话题标签推荐。

为了解决上述问题，本公开的第二个方面提供短视频标签标注系统，其完全依照用户、标签与短视频之间的交互信息建模，实现了充分地学习标签与用户的表达，从而实现话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

为了实现上述目的，本公开采用如下技术方案：

短视频标签标注系统，包括：

无向图结构构建模块，其用于构建无向图结构，所述无向图结构包含短视频节点、用户节点和话题标签节点；

短视频表示及话题标签表示模块，其用于将无向图结构输入至图卷积神经网络，得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示；

话题标签推荐模块，其用于将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作，得到两者之间的相似性分数并对这些相似性分数排序，获得个性化话题标签推荐。

为了解决上述问题，本公开的第三个方面提供一种计算机可读存储介质，其完全依照用户、标签与短视频之间的交互信息建模，实现了充分地学习标签与用户的表达，从而实现话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

为了实现上述目的，本公开采用如下技术方案：

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述所述的短视频的话题标签个性化推荐方法中的步骤。

为了解决上述问题，本公开的第四个方面提供一种计算机设备，其完全依照用户、标签与短视频之间的交互信息建模，实现了充分地学习标签与用户的表达，从而实现话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

为了实现上述目的，本公开采用如下技术方案：

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述所述的短视频的话题标签个性化推荐方法中的步骤。

本公开的有益效果是：

本公开的短视频的话题标签个性化推荐方法，完全依照用户、标签与短视频之间的交互信息建模，基于图卷积网络实现了充分地学习标签与用户的表达，从而实现了话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1是本公开实施例的短视频标签标注方法流程图。

图2是本公开实施例的短视频标签标注系统结构示意图。

具体实施方式

下面结合附图与实施例对本公开作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

图1提供了本实施例的短视频标签标注方法流程图。

如图1所示，本实施例的短视频标签标注方法，包括：

S101：构建无向图结构，所述无向图结构包含短视频节点、用户节点和话题标签节点。

短视频节点、用户节点和话题标签节点中的数据分别是短视频、用户和话题标签数据，这些数据从YFCC100M和Instagram上随机抽取数据集。

具体地，利用FFmpeg提取短视频的关键帧，用Pytorch预训练的ResNet50模型提取视频特征，通过VGGish来学习音频的深度学习特征，利用twitter文本集合训练的Sentence2Vector来提取短视频描述中的文本特征。

其中，FFmpeg是一套可以用来记录、转换数字音频、视频，并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec，为了保证高可移植性和编解码质量，libavcodec里很多code都是从头开发的。

使用VGGish模型来提取音频特征。大体的思路是，先把音频文件转换成mfcc图片，这时问题就变成了图片识别，跟音频已经没有关系，然后，图片需要进行切片，以960ms为一个切片，一个切片包括96个图片帧，一帧10ms，不重叠。每一帧都包括了64个mel频带。经过这个切片的处理后，就得到了音频特征的数据集。

定义短视频的数据集为

用户的数据集为

话题标签的数据集为

其中，

建立无向图结构

其中，

代表图中的点，ε代表图中点之间的连线，

所代表的点包含三种类型，分别是用户

其中i∈{1，...，N_u}，话题标签

其中j∈{1，...，N_h}，短视频

其中k∈{1，...，N_υ}。

是短视频的特征矩阵，由

组成，D_υ表示短视频特征向量v_k的长度。无向图结构中两点之间的连线由e_ik＝(w_i，w_k)∈ε来表达；N_u、N_h、N_υ分别表示用户总数量、话题标签总数量和短视频总数量；D表示短视频特征向量的数量。

S102：将无向图结构输入至图卷积神经网络，得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示。

在具体实施中，基于用户偏好的短视频表示的获取过程为：

将短视频特征和用户偏好的表示输入至第一全连接层得到；其中，用户偏好的表示是通过融合用户对话题标签的偏好表示和用户对短视频的偏好表示得到。

具体地，用户偏好的表示可以分解为用户对话题标签的偏好表示和对短视频的偏好，利用无向图结构可以分别对用户的偏好进行表示，再将两者融合，即可得到用户偏好的表示。

用户对话题标签的偏好表示：

根据图结构，话题标签

向用户u_i的信息传递表示如下：

其中

表示h_j向u_i传递的信息向量，

表示将话题标签向量投影到用户表示空间的权重矩阵，由此，

可以表示如下：

其中，φ(·)代表激活函数，

代表图结构中与话题标签相邻点的数量。

用户对短视频的偏好表示：

计算话题标签h_j与短视频υ_k的相似性，公式如下：

其中，

为将话题标签向量投影到短视频表示空间的权重矩阵，g(·)表示计算向量相似性的函数，g(·)可以代表多种函数，例如cosine函数，点乘等，本实施例中采用点乘的方法计算相似性。

表示被用户u_i用话题标签h_j标注过的短视频集合，υ′_k为

集合中的元素；s_jk′表示话题标签h_j与短视频υ′_k的相似性。

将公式(3)计算得到的相似性分数正则化，得到基于用户偏好的话题标签与短视频的绝对相似性，公式如下：

设

为用户u_i为短视频υ_k标注的标签的集合，那么图结构中由短视频υ_k传输到用户u_i的信息定义如下：

其中，

将短视频向量投影到用户表示空间的权重矩阵。

由此，用户对短视频的偏好即是其相邻的全部短视频信息的聚合，表示为：

通过融合

和

得到用户偏好的表示，融合方法可以采用基于神经网络的融合或基于转换的求和方法。

作为一种实施方式，采用神经网络来融合用户对话题标签的偏好表示和用户对短视频的偏好表示，其过程为：

拼接用户对话题标签的偏好表示和用户对短视频的偏好表示；

将拼接后的结果输入至第二全连接层，得到用户偏好的表示。

具体地，基于神经网络的融合，首先拼接

和

然后将其输入到一个全连接层，从而得到最终用户偏好的表达，公式如下：

其中[·，·]表示拼接计算，W_nn表示可学习的权重矩阵，b_nn表示全连接层的偏移向量。

作为另一种实施方式，采用转换求和方法来融合用户对话题标签的偏好表示和用户对短视频的偏好表示，其过程为：

将用户对话题标签的偏好表示和用户对短视频的偏好表示转换到同一空间；

对应相加转换到同一空间的用户对话题标签的偏好表示和用户对短视频的偏好表示，得到用户偏好的表示。

基于转换的求和方法，首先将

和

转换到同一空间，再进行对应元素相加(element-wise summation)，公式如下：

其中，

为将用户向量投影到短视频表示空间的权重矩阵。

代表将用户向量投影到话题标签表示空间的权重矩阵。

基于图结构，话题标签和用户都是图中的点，因此话题标签的表示学习和用户的表示学习步骤相同，同样可以把对话题标签的表示分为通过短视频传来的信息进行表示和通过用户传来的信息进行表示。

短视频υ_i的表示v_k来源于短视频的内容，是三个模态(图像、音频、文本)的集合，那么基于用户偏好的短视频表示为：

其中，W^υ代表短视频表示空间的权重矩阵，b^υ代表全连接层的偏移向量。

基于用户偏好的话题标签表示为：

其中，W^h代表话题标签表示空间的权重矩阵，b^h代表全连接层的偏移向量。

图卷积神经网络是一种能对图数据进行深度学习的方法。

图卷积神经网络具有卷积神经网络的以下性质：

1)局部参数共享，算子是适用于每个节点，处处共享。

2)感受域正比于层数，最开始的时候，每个节点包含了直接邻居的信息，再计算第二层时就能把邻居的信息包含进来，这样参与运算的信息就更多更充分。层数越多，感受域就更广，参与运算的信息就更多。

图卷积神经网络同样具备深度学习的三种性质：

1)层级结构(特征一层一层抽取，一层比一层更抽象，更高级)；

2)非线性变换(增加模型的表达能力)；

3)端对端训练(不需要再去定义任何规则，只需要给图的节点一个标记，让模型自己学习，融合特征信息和结构信息。)

因此，图卷积神经网络是对卷积神经网络在graph domain上的自然推广。

图卷积神经网络能同时对节点特征信息与结构信息进行端对端学习，是目前对图数据学习任务的最佳选择。

图卷积神经网络适用性极广，适用于任意拓扑结构的节点与图。

图卷积神经网络在节点分类与边预测等任务上，在公开数据集上效果要远远优于其他方法。

S103：将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作，得到两者之间的相似性分数并对这些相似性分数排序，获得个性化话题标签推荐。

具体地，通过

和

的点乘计算基于用户的短视频表示和基于用户的话题标签表示的相似性分数

并对其进行排序，从而获得个性化推荐。

该方法还包括：基于Pairwise算法来训练图卷积神经网络，其具体过程为：

建立一个三元组，包括一个短视频u_i，一个正确的话题标签h_j，一个错误的话题标签h′_j，

表示基于用户的短视频表示和基于用户的错误的话题标签表示的相似性分数；

设

为三元组训练集合，目标函数为：

其中λ代表标准化权重，Θ代表模型参数，||·||₂表示2-范数。

本实施例的短视频的话题标签个性化推荐方法，完全依照用户、标签与短视频之间的交互信息建模，基于图卷积网络实现了充分地学习标签与用户的表达，从而实现了话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

实施例二

图2提供了本实施例的短视频标签标注系统结构示意图。

如图2所示，本实施例的短视频标签标注系统，包括：

(1)无向图结构构建模块，其用于构建无向图结构，所述无向图结构包含短视频节点、用户节点和话题标签节点。

定义短视频的数据集为

用户的数据集为

话题标签的数据集为

其中，

建立无向图结构

其中，

代表图中的点，ε代表图中点之间的连线，

所代表的点包含三种类型，分别是用户

其中i∈{1，...，N_u}，话题标签

其中j∈{1，...，N_h}，短视频

其中k∈{1，...，N_υ}。

是短视频的特征矩阵，由

组成，D_υ表示短视频特征向量v_k的长度。无向图结构中两点之间的连线由e_ik＝(w_i，w_k)∈ε来表达；N_u、N_h、N_v分别表示用户总数量、话题标签总数量和短视频总数量；D表示短视频特征向量的数量。

(2)短视频表示及话题标签表示模块，其用于将无向图结构输入至图卷积神经网络，得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示；

在具体实施中，基于用户偏好的短视频表示的获取过程为：

用户对话题标签的偏好表示：

根据图结构，话题标签

向用户u_i的信息传递表示如下：

其中

表示h_j向u_i传递的信息向量，

可以表示如下：

其中，φ(·)代表激活函数，

代表图结构中与话题标签相邻点的数量。

用户对短视频的偏好表示：

计算话题标签h_j与短视频υ_k的相似性，公式如下：

其中，

表示被用户u_i用话题标签h_j标注过的短视频集合，υ′_k为

设

其中，

将短视频向量投影到用户表示空间的权重矩阵。

通过融合

和

具体地，基于神经网络的融合，首先拼接

和

基于转换的求和方法，首先将

和

其中，

和

代表权重矩阵。

基于用户偏好的话题标签表示为：

图卷积神经网络是一种能对图数据进行深度学习的方法。

图卷积神经网络具有卷积神经网络的以下性质：

1)局部参数共享，算子是适用于每个节点，处处共享。

2)感受域正比于层数，最开始的时候，每个节点包含了直接邻居的信息，再计算第二层时就能把邻居的邻居的信息包含进来，这样参与运算的信息就更多更充分。层数越多，感受域就更广，参与运算的信息就更多。

图卷积神经网络同样具备深度学习的三种性质：

2)非线性变换(增加模型的表达能力)；

(3)话题标签推荐模块，其用于将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作，得到两者之间的相似性分数并对这些相似性分数排序，获得个性化话题标签推荐。

在具体实施中，该系统还包括：

模型训练模块，其用于基于Pairwise算法来训练图卷积神经网络。

具体地，通过

和

并对其进行排序，从而获得个性化推荐。

设

为三元组训练集合，目标函数为：

通过实际短视频数据集的实验，对比传统推荐方法，本实施例所推荐的标签更加准确和合理，对比结果如表1所示：

表1实验对比结果

其中：

P@k＝所推荐的前k个标签的准确率，k为5或10。

R@k＝所推荐的前k个标签的召回率,召回率(Recall)＝检索出的相关信息量/系统中的相关信息总量。

A@k，其中，A＝area under curve(AUC)，A@k＝所推荐的前k个标签的AUC值。

GCN-PHR代表的是本实施例的短视频的话题标签个体化方法；

improvement指的是本实施例的模型比传统方法提高了多少，从而证明有效性。其他传统方法如下：

UTM：User Conditional Hashtag Prediction for Images，用户条件下的图像标签预测；

ConTagNet：Exploiting user context for image tag recommendation，利用用户上下文信息的图像标签推荐；

CSMN：Attend to You Personalized Image Captioning with ContextSequence Memory Networks，使用上下文序列存储网络参与的个性化图像捕获；

USHM：Separating Self-Expression and Visual Content in HashtagSupervision，在标签监督中分离自我表达和视觉内容。

本实施例的短视频的话题标签个性化推荐系统，完全依照用户、标签与短视频之间的交互信息建模，基于图卷积网络实现了充分地学习标签与用户的表达，从而实现了话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

实施例三

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如图1所示的短视频的话题标签个性化推荐方法中的步骤。

本实施例完全依照用户、标签与短视频之间的交互信息建模，基于图卷积网络实现了充分地学习标签与用户的表达，从而实现了话题标签的个性化推荐，提高了短视频的话题标签个性化推荐的有效性。

实施例四

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如图1所示的短视频的话题标签个性化推荐方法中的步骤。

本领域内的技术人员应明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(RandomAccessMemory，RAM)等。

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。