CN110309360B - 短视频标签标注方法及系统 - Google Patents

短视频标签标注方法及系统 Download PDF

Info

Publication number
CN110309360B
CN110309360B CN201910606153.3A CN201910606153A CN110309360B CN 110309360 B CN110309360 B CN 110309360B CN 201910606153 A CN201910606153 A CN 201910606153A CN 110309360 B CN110309360 B CN 110309360B
Authority
CN
China
Prior art keywords
user
representation
short video
topic
preference
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910606153.3A
Other languages
English (en)
Other versions
CN110309360A (zh
Inventor
尉寅玮
聂礼强
王英龙
程志勇
俞旭峥
曹达
甘甜
刘威
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Publication of CN110309360A publication Critical patent/CN110309360A/zh
Application granted granted Critical
Publication of CN110309360B publication Critical patent/CN110309360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • G06F16/739Presentation of query results in form of a video summary, e.g. the video summary being a video sequence, a composite still image or having synthesized frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本公开提供了短视频标签标注方法及系统。其中,短视频标签标注方法,包括:构建无向图结构,所述无向图结构中包含短视频、用户和话题标签这三种类型的节点;将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。

Description

短视频标签标注方法及系统
技术领域
本公开属于话题标签个性化推荐领域,尤其涉及短视频标签标注方法及系统。
背景技术
本部分的陈述仅仅是提供了与本公开相关的背景技术信息,不必然构成在先技术。
在当今的社交网络平台中,标签被频繁用于注解、分类与描述,它们可能为任意以#号开头的字符串,标签由用户创造,并且可以被认为是用户的一种自表达,用户个人的偏好会直接影射于文章与它们所使用的标签的风格中。使用标签,用户可以很容易的搜索与管理他们曾发布过的文章或是追踪别人的发布的内容,有研究表明标签可以为诸多任务提供有效的信息,例如语义分析或情感挖掘等。然而由于在手机上并不便捷的输入方式,的用户很少为他们所发布的内容标注标签。
近些年有传统的方法往往根据用户发表的内容来推荐标签,只关注基于短视频中所包含的内容,而对用户的偏好以及标签语义信息差别的捕捉不充分,造成话题标签的推荐大量无效的问题。
发明内容
为了解决上述问题,本公开的第一个方面提供短视频标签标注方法,其完全依照用户、标签与短视频之间的交互信息建模,实现了充分地学习标签与用户的表达,从而实现话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
为了实现上述目的,本公开采用如下技术方案:
短视频标签标注方法,包括:
构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点;
将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;
将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
为了解决上述问题,本公开的第二个方面提供短视频标签标注系统,其完全依照用户、标签与短视频之间的交互信息建模,实现了充分地学习标签与用户的表达,从而实现话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
为了实现上述目的,本公开采用如下技术方案:
短视频标签标注系统,包括:
无向图结构构建模块,其用于构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点;
短视频表示及话题标签表示模块,其用于将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;
话题标签推荐模块,其用于将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
为了解决上述问题,本公开的第三个方面提供一种计算机可读存储介质,其完全依照用户、标签与短视频之间的交互信息建模,实现了充分地学习标签与用户的表达,从而实现话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
为了实现上述目的,本公开采用如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述的短视频的话题标签个性化推荐方法中的步骤。
为了解决上述问题,本公开的第四个方面提供一种计算机设备,其完全依照用户、标签与短视频之间的交互信息建模,实现了充分地学习标签与用户的表达,从而实现话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
为了实现上述目的,本公开采用如下技术方案:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述所述的短视频的话题标签个性化推荐方法中的步骤。
本公开的有益效果是:
本公开的短视频的话题标签个性化推荐方法,完全依照用户、标签与短视频之间的交互信息建模,基于图卷积网络实现了充分地学习标签与用户的表达,从而实现了话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1是本公开实施例的短视频标签标注方法流程图。
图2是本公开实施例的短视频标签标注系统结构示意图。
具体实施方式
下面结合附图与实施例对本公开作进一步说明。
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
实施例一
图1提供了本实施例的短视频标签标注方法流程图。
如图1所示,本实施例的短视频标签标注方法,包括:
S101:构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点。
短视频节点、用户节点和话题标签节点中的数据分别是短视频、用户和话题标签数据,这些数据从YFCC100M和Instagram上随机抽取数据集。
具体地,利用FFmpeg提取短视频的关键帧,用Pytorch预训练的ResNet50模型提取视频特征,通过VGGish来学习音频的深度学习特征,利用twitter文本集合训练的Sentence2Vector来提取短视频描述中的文本特征。
其中,FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。它提供了录制、转换以及流化音视频的完整解决方案。它包含了非常先进的音频/视频编解码库libavcodec,为了保证高可移植性和编解码质量,libavcodec里很多code都是从头开发的。
使用VGGish模型来提取音频特征。大体的思路是,先把音频文件转换成mfcc图片,这时问题就变成了图片识别,跟音频已经没有关系,然后,图片需要进行切片,以960ms为一个切片,一个切片包括96个图片帧,一帧10ms,不重叠。每一帧都包括了64个mel频带。经过这个切片的处理后,就得到了音频特征的数据集。
定义短视频的数据集为
Figure GDA0003053451260000051
用户的数据集为
Figure GDA0003053451260000052
话题标签的数据集为
Figure GDA0003053451260000053
其中,
Figure GDA0003053451260000054
建立无向图结构
Figure GDA0003053451260000055
其中,
Figure GDA0003053451260000056
代表图中的点,ε代表图中点之间的连线,
Figure GDA0003053451260000057
所代表的点包含三种类型,分别是用户
Figure GDA0003053451260000058
其中i∈{1,...,Nu},话题标签
Figure GDA0003053451260000059
其中j∈{1,...,Nh},短视频
Figure GDA00030534512600000510
其中k∈{1,...,Nυ}。
Figure GDA00030534512600000511
是短视频的特征矩阵,由
Figure GDA00030534512600000512
组成,Dυ表示短视频特征向量vk的长度。无向图结构中两点之间的连线由eik=(wi,wk)∈ε来表达;Nu、Nh、Nυ分别表示用户总数量、话题标签总数量和短视频总数量;D表示短视频特征向量的数量。
S102:将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示。
在具体实施中,基于用户偏好的短视频表示的获取过程为:
将短视频特征和用户偏好的表示输入至第一全连接层得到;其中,用户偏好的表示是通过融合用户对话题标签的偏好表示和用户对短视频的偏好表示得到。
具体地,用户偏好的表示可以分解为用户对话题标签的偏好表示和对短视频的偏好,利用无向图结构可以分别对用户的偏好进行表示,再将两者融合,即可得到用户偏好的表示。
用户对话题标签的偏好表示:
根据图结构,话题标签
Figure GDA0003053451260000061
向用户ui的信息传递表示如下:
Figure GDA0003053451260000062
其中
Figure GDA0003053451260000063
表示hj向ui传递的信息向量,
Figure GDA0003053451260000064
表示将话题标签向量投影到用户表示空间的权重矩阵,由此,
Figure GDA0003053451260000065
可以表示如下:
Figure GDA0003053451260000066
其中,φ(·)代表激活函数,
Figure GDA0003053451260000067
代表图结构中与话题标签相邻点的数量。
用户对短视频的偏好表示:
计算话题标签hj与短视频υk的相似性,公式如下:
Figure GDA0003053451260000069
其中,
Figure GDA00030534512600000610
为将话题标签向量投影到短视频表示空间的权重矩阵,g(·)表示计算向量相似性的函数,g(·)可以代表多种函数,例如cosine函数,点乘等,本实施例中采用点乘的方法计算相似性。
Figure GDA00030534512600000611
表示被用户ui用话题标签hj标注过的短视频集合,υ′k
Figure GDA00030534512600000612
集合中的元素;sjk′表示话题标签hj与短视频υ′k的相似性。
将公式(3)计算得到的相似性分数正则化,得到基于用户偏好的话题标签与短视频的绝对相似性,公式如下:
Figure GDA0003053451260000071
Figure GDA0003053451260000075
为用户ui为短视频υk标注的标签的集合,那么图结构中由短视频υk传输到用户ui的信息定义如下:
Figure GDA0003053451260000072
其中,
Figure GDA0003053451260000076
将短视频向量投影到用户表示空间的权重矩阵。
由此,用户对短视频的偏好即是其相邻的全部短视频信息的聚合,表示为:
Figure GDA0003053451260000073
通过融合
Figure GDA0003053451260000077
Figure GDA0003053451260000078
得到用户偏好的表示,融合方法可以采用基于神经网络的融合或基于转换的求和方法。
作为一种实施方式,采用神经网络来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
拼接用户对话题标签的偏好表示和用户对短视频的偏好表示;
将拼接后的结果输入至第二全连接层,得到用户偏好的表示。
具体地,基于神经网络的融合,首先拼接
Figure GDA0003053451260000079
Figure GDA00030534512600000710
然后将其输入到一个全连接层,从而得到最终用户偏好的表达,公式如下:
Figure GDA0003053451260000074
其中[·,·]表示拼接计算,Wnn表示可学习的权重矩阵,bnn表示全连接层的偏移向量。
作为另一种实施方式,采用转换求和方法来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
将用户对话题标签的偏好表示和用户对短视频的偏好表示转换到同一空间;
对应相加转换到同一空间的用户对话题标签的偏好表示和用户对短视频的偏好表示,得到用户偏好的表示。
基于转换的求和方法,首先将
Figure GDA0003053451260000084
Figure GDA0003053451260000085
转换到同一空间,再进行对应元素相加(element-wise summation),公式如下:
Figure GDA0003053451260000081
其中,
Figure GDA0003053451260000086
为将用户向量投影到短视频表示空间的权重矩阵。
Figure GDA0003053451260000087
代表将用户向量投影到话题标签表示空间的权重矩阵。
基于图结构,话题标签和用户都是图中的点,因此话题标签的表示学习和用户的表示学习步骤相同,同样可以把对话题标签的表示分为通过短视频传来的信息进行表示和通过用户传来的信息进行表示。
短视频υi的表示vk来源于短视频的内容,是三个模态(图像、音频、文本)的集合,那么基于用户偏好的短视频表示为:
Figure GDA0003053451260000082
其中,Wυ代表短视频表示空间的权重矩阵,bυ代表全连接层的偏移向量。
基于用户偏好的话题标签表示为:
Figure GDA0003053451260000083
其中,Wh代表话题标签表示空间的权重矩阵,bh代表全连接层的偏移向量。
图卷积神经网络是一种能对图数据进行深度学习的方法。
图卷积神经网络具有卷积神经网络的以下性质:
1)局部参数共享,算子是适用于每个节点,处处共享。
2)感受域正比于层数,最开始的时候,每个节点包含了直接邻居的信息,再计算第二层时就能把邻居的信息包含进来,这样参与运算的信息就更多更充分。层数越多,感受域就更广,参与运算的信息就更多。
图卷积神经网络同样具备深度学习的三种性质:
1)层级结构(特征一层一层抽取,一层比一层更抽象,更高级);
2)非线性变换(增加模型的表达能力);
3)端对端训练(不需要再去定义任何规则,只需要给图的节点一个标记,让模型自己学习,融合特征信息和结构信息。)
因此,图卷积神经网络是对卷积神经网络在graph domain上的自然推广。
图卷积神经网络能同时对节点特征信息与结构信息进行端对端学习,是目前对图数据学习任务的最佳选择。
图卷积神经网络适用性极广,适用于任意拓扑结构的节点与图。
图卷积神经网络在节点分类与边预测等任务上,在公开数据集上效果要远远优于其他方法。
S103:将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
具体地,通过
Figure GDA0003053451260000091
Figure GDA0003053451260000092
的点乘计算基于用户的短视频表示和基于用户的话题标签表示的相似性分数
Figure GDA0003053451260000093
并对其进行排序,从而获得个性化推荐。
该方法还包括:基于Pairwise算法来训练图卷积神经网络,其具体过程为:
建立一个三元组,包括一个短视频ui,一个正确的话题标签hj,一个错误的话题标签h′j
Figure GDA0003053451260000102
表示基于用户的短视频表示和基于用户的错误的话题标签表示的相似性分数;
Figure GDA0003053451260000103
为三元组训练集合,目标函数为:
Figure GDA0003053451260000101
其中λ代表标准化权重,Θ代表模型参数,||·||2表示2-范数。
本实施例的短视频的话题标签个性化推荐方法,完全依照用户、标签与短视频之间的交互信息建模,基于图卷积网络实现了充分地学习标签与用户的表达,从而实现了话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
实施例二
图2提供了本实施例的短视频标签标注系统结构示意图。
如图2所示,本实施例的短视频标签标注系统,包括:
(1)无向图结构构建模块,其用于构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点。
短视频节点、用户节点和话题标签节点中的数据分别是短视频、用户和话题标签数据,这些数据从YFCC100M和Instagram上随机抽取数据集。
具体地,利用FFmpeg提取短视频的关键帧,用Pytorch预训练的ResNet50模型提取视频特征,通过VGGish来学习音频的深度学习特征,利用twitter文本集合训练的Sentence2Vector来提取短视频描述中的文本特征。
定义短视频的数据集为
Figure GDA0003053451260000104
用户的数据集为
Figure GDA0003053451260000105
话题标签的数据集为
Figure GDA0003053451260000106
其中,
Figure GDA0003053451260000112
建立无向图结构
Figure GDA0003053451260000113
其中,
Figure GDA0003053451260000114
代表图中的点,ε代表图中点之间的连线,
Figure GDA0003053451260000115
所代表的点包含三种类型,分别是用户
Figure GDA0003053451260000116
其中i∈{1,...,Nu},话题标签
Figure GDA0003053451260000117
其中j∈{1,...,Nh},短视频
Figure GDA0003053451260000118
其中k∈{1,...,Nυ}。
Figure GDA0003053451260000119
是短视频的特征矩阵,由
Figure GDA00030534512600001110
组成,Dυ表示短视频特征向量vk的长度。无向图结构中两点之间的连线由eik=(wi,wk)∈ε来表达;Nu、Nh、Nv分别表示用户总数量、话题标签总数量和短视频总数量;D表示短视频特征向量的数量。
(2)短视频表示及话题标签表示模块,其用于将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;
在具体实施中,基于用户偏好的短视频表示的获取过程为:
将短视频特征和用户偏好的表示输入至第一全连接层得到;其中,用户偏好的表示是通过融合用户对话题标签的偏好表示和用户对短视频的偏好表示得到。
具体地,用户偏好的表示可以分解为用户对话题标签的偏好表示和对短视频的偏好,利用无向图结构可以分别对用户的偏好进行表示,再将两者融合,即可得到用户偏好的表示。
用户对话题标签的偏好表示:
根据图结构,话题标签
Figure GDA00030534512600001111
向用户ui的信息传递表示如下:
Figure GDA0003053451260000111
其中
Figure GDA00030534512600001112
表示hj向ui传递的信息向量,
Figure GDA00030534512600001113
表示将话题标签向量投影到用户表示空间的权重矩阵,由此,
Figure GDA00030534512600001114
可以表示如下:
Figure GDA0003053451260000121
其中,φ(·)代表激活函数,
Figure GDA0003053451260000126
代表图结构中与话题标签相邻点的数量。
用户对短视频的偏好表示:
计算话题标签hj与短视频υk的相似性,公式如下:
Figure GDA0003053451260000122
其中,
Figure GDA0003053451260000127
为将话题标签向量投影到短视频表示空间的权重矩阵,g(·)表示计算向量相似性的函数,g(·)可以代表多种函数,例如cosine函数,点乘等,本实施例中采用点乘的方法计算相似性。
Figure GDA0003053451260000128
表示被用户ui用话题标签hj标注过的短视频集合,υ′k
Figure GDA0003053451260000129
集合中的元素;sjk′表示话题标签hj与短视频υ′k的相似性。
将公式(3)计算得到的相似性分数正则化,得到基于用户偏好的话题标签与短视频的绝对相似性,公式如下:
Figure GDA0003053451260000123
Figure GDA00030534512600001210
为用户ui为短视频υk标注的标签的集合,那么图结构中由短视频υk传输到用户ui的信息定义如下:
Figure GDA0003053451260000124
其中,
Figure GDA00030534512600001211
将短视频向量投影到用户表示空间的权重矩阵。
由此,用户对短视频的偏好即是其相邻的全部短视频信息的聚合,表示为:
Figure GDA0003053451260000125
通过融合
Figure GDA0003053451260000133
Figure GDA0003053451260000134
得到用户偏好的表示,融合方法可以采用基于神经网络的融合或基于转换的求和方法。
作为一种实施方式,采用神经网络来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
拼接用户对话题标签的偏好表示和用户对短视频的偏好表示;
将拼接后的结果输入至第二全连接层,得到用户偏好的表示。
具体地,基于神经网络的融合,首先拼接
Figure GDA0003053451260000135
Figure GDA0003053451260000136
然后将其输入到一个全连接层,从而得到最终用户偏好的表达,公式如下:
Figure GDA0003053451260000131
其中[·,·]表示拼接计算,Wnn表示可学习的权重矩阵,bnn表示全连接层的偏移向量。
作为另一种实施方式,采用转换求和方法来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
将用户对话题标签的偏好表示和用户对短视频的偏好表示转换到同一空间;
对应相加转换到同一空间的用户对话题标签的偏好表示和用户对短视频的偏好表示,得到用户偏好的表示。
基于转换的求和方法,首先将
Figure GDA0003053451260000137
Figure GDA0003053451260000138
转换到同一空间,再进行对应元素相加(element-wise summation),公式如下:
Figure GDA0003053451260000132
其中,
Figure GDA0003053451260000143
Figure GDA0003053451260000144
代表权重矩阵。
基于图结构,话题标签和用户都是图中的点,因此话题标签的表示学习和用户的表示学习步骤相同,同样可以把对话题标签的表示分为通过短视频传来的信息进行表示和通过用户传来的信息进行表示。
短视频υi的表示vk来源于短视频的内容,是三个模态(图像、音频、文本)的集合,那么基于用户偏好的短视频表示为:
Figure GDA0003053451260000141
其中,Wυ代表短视频表示空间的权重矩阵,bυ代表全连接层的偏移向量。
基于用户偏好的话题标签表示为:
Figure GDA0003053451260000142
其中,Wh代表话题标签表示空间的权重矩阵,bh代表全连接层的偏移向量。
图卷积神经网络是一种能对图数据进行深度学习的方法。
图卷积神经网络具有卷积神经网络的以下性质:
1)局部参数共享,算子是适用于每个节点,处处共享。
2)感受域正比于层数,最开始的时候,每个节点包含了直接邻居的信息,再计算第二层时就能把邻居的邻居的信息包含进来,这样参与运算的信息就更多更充分。层数越多,感受域就更广,参与运算的信息就更多。
图卷积神经网络同样具备深度学习的三种性质:
1)层级结构(特征一层一层抽取,一层比一层更抽象,更高级);
2)非线性变换(增加模型的表达能力);
3)端对端训练(不需要再去定义任何规则,只需要给图的节点一个标记,让模型自己学习,融合特征信息和结构信息。)
因此,图卷积神经网络是对卷积神经网络在graph domain上的自然推广。
图卷积神经网络能同时对节点特征信息与结构信息进行端对端学习,是目前对图数据学习任务的最佳选择。
图卷积神经网络适用性极广,适用于任意拓扑结构的节点与图。
图卷积神经网络在节点分类与边预测等任务上,在公开数据集上效果要远远优于其他方法。
(3)话题标签推荐模块,其用于将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
在具体实施中,该系统还包括:
模型训练模块,其用于基于Pairwise算法来训练图卷积神经网络。
具体地,通过
Figure GDA0003053451260000152
Figure GDA0003053451260000153
的点乘计算基于用户的短视频表示和基于用户的话题标签表示的相似性分数
Figure GDA0003053451260000154
并对其进行排序,从而获得个性化推荐。
该方法还包括:基于Pairwise算法来训练图卷积神经网络,其具体过程为:
建立一个三元组,包括一个短视频ui,一个正确的话题标签hj,一个错误的话题标签h′j
Figure GDA0003053451260000155
表示基于用户的短视频表示和基于用户的错误的话题标签表示的相似性分数;
Figure GDA0003053451260000156
为三元组训练集合,目标函数为:
Figure GDA0003053451260000151
其中λ代表标准化权重,Θ代表模型参数,||·||2表示2-范数。
通过实际短视频数据集的实验,对比传统推荐方法,本实施例所推荐的标签更加准确和合理,对比结果如表1所示:
表1实验对比结果
Figure GDA0003053451260000161
其中:
P@k=所推荐的前k个标签的准确率,k为5或10。
R@k=所推荐的前k个标签的召回率,召回率(Recall)=检索出的相关信息量/系统中的相关信息总量。
A@k,其中,A=area under curve(AUC),A@k=所推荐的前k个标签的AUC值。
GCN-PHR代表的是本实施例的短视频的话题标签个体化方法;
improvement指的是本实施例的模型比传统方法提高了多少,从而证明有效性。其他传统方法如下:
UTM:User Conditional Hashtag Prediction for Images,用户条件下的图像标签预测;
ConTagNet:Exploiting user context for image tag recommendation,利用用户上下文信息的图像标签推荐;
CSMN:Attend to You Personalized Image Captioning with ContextSequence Memory Networks,使用上下文序列存储网络参与的个性化图像捕获;
USHM:Separating Self-Expression and Visual Content in HashtagSupervision,在标签监督中分离自我表达和视觉内容。
本实施例的短视频的话题标签个性化推荐系统,完全依照用户、标签与短视频之间的交互信息建模,基于图卷积网络实现了充分地学习标签与用户的表达,从而实现了话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
实施例三
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如图1所示的短视频的话题标签个性化推荐方法中的步骤。
本实施例完全依照用户、标签与短视频之间的交互信息建模,基于图卷积网络实现了充分地学习标签与用户的表达,从而实现了话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
实施例四
本实施例提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图1所示的短视频的话题标签个性化推荐方法中的步骤。
本实施例完全依照用户、标签与短视频之间的交互信息建模,基于图卷积网络实现了充分地学习标签与用户的表达,从而实现了话题标签的个性化推荐,提高了短视频的话题标签个性化推荐的有效性。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(RandomAccessMemory,RAM)等。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。

Claims (10)

1.一种短视频的话题标签个性化推荐方法,其特征在于,包括:
构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点;
将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;
用户对话题标签的偏好表示:
根据图结构,话题标签
Figure FDA0003207157120000011
向用户ui的信息传递表示如下:
Figure FDA0003207157120000012
其中
Figure FDA0003207157120000013
表示hj向ui传递的信息向量,
Figure FDA0003207157120000014
表示将话题标签向量投影到用户表示空间的权重矩阵,由此,
Figure FDA0003207157120000015
可以表示如下:
Figure FDA0003207157120000016
其中,φ(·)代表激活函数,
Figure FDA0003207157120000017
代表图结构中与话题标签相邻点的数量;
用户对短视频的偏好表示:
计算话题标签hj与短视频vk的相似性,公式如下:
Figure FDA0003207157120000019
其中,
Figure FDA00032071571200000110
为将话题标签向量投影到短视频表示空间的权重矩阵,g(·)表示计算向量相似性的函数,
Figure FDA00032071571200000111
表示被用户ui用话题标签hj标注过的短视频集合,v′k
Figure FDA00032071571200000112
集合中的元素;sjk′表示话题标签hj与短视频v′k的相似性;
将公式(3)计算得到的相似性分数正则化,得到基于用户偏好的话题标签与短视频的绝对相似性,公式如下:
Figure FDA0003207157120000021
Figure FDA0003207157120000022
为用户ui为短视频vk标注的标签的集合,那么图结构中由短视频vk传输到用户ui的信息定义如下:
Figure FDA0003207157120000023
其中,
Figure FDA0003207157120000024
将短视频向量投影到用户表示空间的权重矩阵;
由此,用户对短视频的偏好即是其相邻的全部短视频信息的聚合,表示为:
Figure FDA0003207157120000025
通过融合
Figure FDA0003207157120000026
Figure FDA0003207157120000027
得到用户偏好的表示,融合方法可以采用基于神经网络的融合或基于转换的求和方法;
将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
2.如权利要求1所述的一种短视频的话题标签个性化推荐方法,其特征在于,基于用户偏好的短视频表示的获取过程为:
将短视频特征和用户偏好的表示输入至第一全连接层得到;其中,用户偏好的表示是通过融合用户对话题标签的偏好表示和用户对短视频的偏好表示得到。
3.如权利要求2所述的一种短视频的话题标签个性化推荐方法,其特征在于,采用神经网络来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
拼接用户对话题标签的偏好表示和用户对短视频的偏好表示;
将拼接后的结果输入至第二全连接层,得到用户偏好的表示;
采用转换求和方法来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
将用户对话题标签的偏好表示和用户对短视频的偏好表示转换到同一空间;
对应相加转换到同一空间的用户对话题标签的偏好表示和用户对短视频的偏好表示,得到用户偏好的表示。
4.如权利要求1所述的一种短视频的话题标签个性化推荐方法,其特征在于,该方法还包括:基于Pairwise算法来训练图卷积神经网络。
5.一种短视频的话题标签个性化推荐系统,其特征在于,包括:
无向图结构构建模块,其用于构建无向图结构,所述无向图结构包含短视频节点、用户节点和话题标签节点;
短视频表示及话题标签表示模块,其用于将无向图结构输入至图卷积神经网络,得到基于用户偏好的短视频表示和基于用户偏好的话题标签表示;用户对话题标签的偏好表示:
根据图结构,话题标签
Figure FDA0003207157120000031
向用户ui的信息传递表示如下:
Figure FDA0003207157120000041
其中
Figure FDA0003207157120000042
表示hj向ui传递的信息向量,
Figure FDA0003207157120000043
表示将话题标签向量投影到用户表示空间的权重矩阵,由此,
Figure FDA0003207157120000044
可以表示如下:
Figure FDA0003207157120000045
其中,φ(·)代表激活函数,
Figure FDA0003207157120000046
代表图结构中与话题标签相邻点的数量;
用户对短视频的偏好表示:
计算话题标签hj与短视频vk的相似性,公式如下:
Figure FDA0003207157120000047
其中,
Figure FDA0003207157120000048
为将话题标签向量投影到短视频表示空间的权重矩阵,g(·)表示计算向量相似性的函数,
Figure FDA0003207157120000049
表示被用户ui用话题标签hj标注过的短视频集合,v′k
Figure FDA00032071571200000410
集合中的元素;sjk′表示话题标签hj与短视频v′k的相似性;
将公式(3)计算得到的相似性分数正则化,得到基于用户偏好的话题标签与短视频的绝对相似性,公式如下:
Figure FDA00032071571200000411
Figure FDA00032071571200000412
为用户ui为短视频vk标注的标签的集合,那么图结构中由短视频vk传输到用户ui的信息定义如下:
Figure FDA00032071571200000413
其中,
Figure FDA0003207157120000051
将短视频向量投影到用户表示空间的权重矩阵;
由此,用户对短视频的偏好即是其相邻的全部短视频信息的聚合,表示为:
Figure FDA0003207157120000052
通过融合
Figure FDA0003207157120000053
Figure FDA0003207157120000054
得到用户偏好的表示,融合方法可以采用基于神经网络的融合或基于转换的求和方法;
话题标签推荐模块,其用于将基于用户偏好的短视频表示和基于用户偏好的话题标签表示进行点乘操作,得到两者之间的相似性分数并对这些相似性分数排序,获得个性化话题标签推荐。
6.如权利要求5所述的一种短视频的话题标签个性化推荐系统,其特征在于,在所述短视频表示及话题标签表示模块中,基于用户偏好的短视频表示的获取过程为:
将短视频特征和用户偏好的表示输入至第一全连接层得到;其中,用户偏好的表示是通过融合用户对话题标签的偏好表示和用户对短视频的偏好表示得到。
7.如权利要求6所述的一种短视频的话题标签个性化推荐系统,其特征在于,采用神经网络来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
拼接用户对话题标签的偏好表示和用户对短视频的偏好表示;
将拼接后的结果输入至第二全连接层,得到用户偏好的表示;
采用转换求和方法来融合用户对话题标签的偏好表示和用户对短视频的偏好表示,其过程为:
将用户对话题标签的偏好表示和用户对短视频的偏好表示转换到同一空间;
对应相加转换到同一空间的用户对话题标签的偏好表示和用户对短视频的偏好表示,得到用户偏好的表示。
8.如权利要求5所述的一种短视频的话题标签个性化推荐系统,其特征在于,该系统还包括:
模型训练模块,其用于基于Pairwise算法来训练图卷积神经网络。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-4中任一所述的短视频的话题标签个性化推荐方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-4中任一所述的短视频的话题标签个性化推荐方法中的步骤。
CN201910606153.3A 2019-06-13 2019-07-05 短视频标签标注方法及系统 Active CN110309360B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910511580 2019-06-13
CN2019105115803 2019-06-13

Publications (2)

Publication Number Publication Date
CN110309360A CN110309360A (zh) 2019-10-08
CN110309360B true CN110309360B (zh) 2021-09-28

Family

ID=68078266

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910606153.3A Active CN110309360B (zh) 2019-06-13 2019-07-05 短视频标签标注方法及系统

Country Status (1)

Country Link
CN (1) CN110309360B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111274443B (zh) * 2020-01-10 2023-06-09 北京百度网讯科技有限公司 视频片段描述的生成方法、装置、电子设备及存储介质
CN111709819B (zh) * 2020-01-20 2021-03-30 山东佳联电子商务有限公司 一种点拍网基于图神经网络的产权交易推荐系统及推荐方法
CN112016003B (zh) * 2020-08-19 2022-07-12 重庆邮电大学 基于cnn的社交小众用户标签挖掘及相似用户推荐方法
CN113158051B (zh) * 2021-04-23 2022-11-18 山东大学 一种基于信息传播和多层上下文信息建模的标签排序方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959374A (zh) * 2016-05-12 2016-09-21 腾讯科技(深圳)有限公司 一种数据推荐方法及其设备
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
CN109271550A (zh) * 2018-07-27 2019-01-25 华南理工大学 一种基于深度学习的音乐个性化分类推荐方法
CN109816101A (zh) * 2019-01-31 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于图卷积神经网络的会话序列推荐方法及系统
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120303710A1 (en) * 2011-05-27 2012-11-29 Gracenote, Inc. Systems and methods for generating and employing a social media graph
CN102890698B (zh) * 2012-06-20 2015-06-24 杜小勇 微博话题标签自动化描述方法
CN105574216A (zh) * 2016-03-07 2016-05-11 达而观信息科技(上海)有限公司 基于概率模型和用户行为分析的个性化推荐方法、系统
CN106326345B (zh) * 2016-08-08 2019-11-01 浙江工业大学 一种基于用户行为的社交网络中朋友关系挖掘方法
CN108268540A (zh) * 2016-12-31 2018-07-10 深圳市优朋普乐传媒发展有限公司 一种基于视频相似度的视频推荐方法、系统及终端

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105959374A (zh) * 2016-05-12 2016-09-21 腾讯科技(深圳)有限公司 一种数据推荐方法及其设备
CN108874914A (zh) * 2018-05-29 2018-11-23 吉林大学 一种基于图卷积与神经协同过滤的信息推荐方法
CN108846375A (zh) * 2018-06-29 2018-11-20 山东大学 一种基于神经网络的多模态协同学习方法及装置
CN109271550A (zh) * 2018-07-27 2019-01-25 华南理工大学 一种基于深度学习的音乐个性化分类推荐方法
CN109816101A (zh) * 2019-01-31 2019-05-28 中科人工智能创新技术研究院(青岛)有限公司 一种基于图卷积神经网络的会话序列推荐方法及系统
CN109874053A (zh) * 2019-02-21 2019-06-11 南京航空航天大学 基于视频内容理解和用户动态兴趣的短视频推荐方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Hashtag recommendation using attention-based convolutional neural network;Yuyun Gong 等;《IJCAI"16: Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence》;20160731;2782-2788 *
Time-aware Personalized Hashtag Recommendation on Social Media;Zhang Qi 等;《Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics: Technical Papers》;20140831;203-212 *
深度神经网络视频新媒体短视频个性化推荐系统研究;高晨峰;《卫星电视与宽带多媒体》;20190510;16-20 *

Also Published As

Publication number Publication date
CN110309360A (zh) 2019-10-08

Similar Documents

Publication Publication Date Title
CN110309360B (zh) 短视频标签标注方法及系统
TW201915790A (zh) 關注點文案的生成
CN106973244A (zh) 使用弱监督为图像配字幕
Zhao et al. Video classification and recommendation based on affective analysis of viewers
CN111209440A (zh) 一种视频播放方法、装置和存储介质
CN111837142A (zh) 用于表征视频内容的深度强化学习框架
CN115114395B (zh) 内容检索及模型训练方法、装置、电子设备和存储介质
US20160307044A1 (en) Process for generating a video tag cloud representing objects appearing in a video content
CN110837577A (zh) 一种视频推荐方法、装置、设备及存储介质
Siddiqi et al. A novel maximum entropy markov model for human facial expression recognition
Han et al. Internet of emotional people: Towards continual affective computing cross cultures via audiovisual signals
CN114998777A (zh) 一种针对跨模态视频检索模型的训练方法及装置
Xu et al. Reversible graph neural network-based reaction distribution learning for multiple appropriate facial reactions generation
Papalampidi et al. Film trailer generation via task decomposition
Qin et al. When I Fall in Love: Capturing Video-oriented Social Relationship Evolution via Attentive GNN
Zhang et al. Complex deep learning and evolutionary computing models in computer vision
WO2023168818A1 (zh) 视频和文本相似度确定方法、装置、电子设备、存储介质
CN114357301B (zh) 数据处理方法、设备及可读存储介质
Dave et al. Hierarchical language modeling for dense video captioning
Wang et al. Deep learning-based sentiment analysis for social media
Tsai et al. Classification algorithms for interactive multimedia services: a review
Chang et al. Report of 2017 NSF workshop on multimedia challenges, opportunities and research roadmaps
CN113869518A (zh) 视觉常识推理方法、装置、电子设备及存储介质
Patel et al. Image Captioning Using Deep Learning Model
Siarohin et al. Enhancing perceptual attributes with bayesian style generation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Wei Yin Wei

Inventor after: Nie Liqiang

Inventor after: Wang Yinglong

Inventor after: Cheng Zhiyong

Inventor after: Yu Xuzheng

Inventor after: Cao Da

Inventor after: Gan Tian

Inventor after: Liu Wei

Inventor before: Wei Yin Wei

Inventor before: Nie Liqiang

Inventor before: Cheng Zhiyong

Inventor before: Yu Xuzheng

Inventor before: Cao Da

Inventor before: Gan Tian

Inventor before: Liu Wei

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant