CN111984824A - 一种基于多模态的视频推荐方法 - Google Patents

一种基于多模态的视频推荐方法 Download PDF

Info

Publication number
CN111984824A
CN111984824A CN202010765025.6A CN202010765025A CN111984824A CN 111984824 A CN111984824 A CN 111984824A CN 202010765025 A CN202010765025 A CN 202010765025A CN 111984824 A CN111984824 A CN 111984824A
Authority
CN
China
Prior art keywords
video
feature vector
user
candidate
videos
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010765025.6A
Other languages
English (en)
Inventor
杨佳雪
韩立新
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202010765025.6A priority Critical patent/CN111984824A/zh
Publication of CN111984824A publication Critical patent/CN111984824A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于多模态的视频推荐方法,包括如下步骤:根据用户已经观看的视频序列获取用户行为特征向量;获取候选视频集中候选视频的视频标题特征向量;对候选视频集中候选视频进行图像筛选,得到候选视频对应的关键图像帧;将所有关键图像帧输入VGG16网络中,提取对应的图像特征向量;将视频标题特征向量和图像特征向量进行特征融合,得到多个视频特征向量;计算用户行为特征向量和视频特征向量的余弦相似度;根据余弦相似度向用户推荐视频。本发明通过分析目标用户和候选集中视频之间的相似度,将相似度最高的视频推荐给目标用户,以达到提升推荐效果的目的。

Description

一种基于多模态的视频推荐方法
技术领域
本发明涉及视频推荐领域,特别涉及一种基于多模态的视频推荐方法。
背景技术
随着互联网的快速发展,人们可以通过网络很便利地获取自己所需要的信息,然而,由于其数据量过大,人们不得不花费时间在海量数据中找出自己感兴趣的部分,信息过载问题越来越严重。推荐系统的出现,使得信息过载问题得以缓解。个性化推荐系统根据用户与项目之间交互的历史数据,分析用户的习惯、兴趣偏好等特征;另一方面,推荐系统根据项目自身的特性分析项目的特征,在用户特征和项目特征之间建立联系,最终精确地推荐给用户可能感兴趣的项目。近年来,随着短视频应用的流行,短视频推荐系统受到广泛关注,许多先进的推荐算法也被应用到视频推荐中,但是它们都有一些缺陷。基于协同过滤算法的视频推荐系统通过寻找与目标用户兴趣相近的用户进而进行推荐,然而当用户数量较少时容易引发冷启动问题;基于标签的推荐主要用于用户在上传视频时在标题中添加标签以方便用户检索,但是可能发生视频的标题标签与视频的内容不匹配的情况,此时基于标签的推荐系统无法正常推荐;基于社交网络的推荐利用社交网络数据获取用户兴趣偏好及其好友信息,并根据获取的数据为用户进行个性化推荐、好友推荐和信息流的会话推荐,然而好友数据通常难以获取,另一方面,有时用户的好友关系并不是基于共同兴趣产生的,所以用户好友的兴趣往往和用户的兴趣并不一致,比如,我们和自己父母的兴趣往往差别很大。因此,现有的视频推荐系统还存在一定的不足。
发明内容
针对现有技术的不足,本发明的目的在于提供一种基于多模态的视频推荐方法,以解决现有技术中存在的推荐效果不佳的问题。
为解决上述技术问题,本发明采用的技术方案为:
一种基于多模态的视频推荐方法,包括如下步骤:
根据用户已经观看的视频序列获取用户行为特征向量;
获取候选视频集中候选视频的视频标题特征向量;
对候选视频集中候选视频进行图像筛选,得到候选视频对应的关键图像帧;
将所有关键图像帧输入VGG16网络中,提取对应的图像特征向量;
将视频标题特征向量和图像特征向量进行特征融合,得到多个视频特征向量;
计算用户行为特征向量和视频特征向量的余弦相似度;
根据余弦相似度向用户推荐视频。
进一步的,所述用户行为特征向量的获取方法如下:
将用户已经观看的视频序列等效为一个词语;
通过word2vec对词语进行处理,使相似的视频聚集到特征空间中相近的位置,得到用户行为特征向量。
进一步的,所述视频序列表示为:
Figure BDA0002612226890000021
其中,
Figure BDA0002612226890000022
表示用户uj在观看第i-1个视频
Figure BDA0002612226890000023
后点击的第i个视频。
进一步的,所述视频标题特征向量的获取方法如下:
将候选视频的标题句子分割成词,同时去除低频词和停用词;
将句子中的词语依次输入经过预训练的CBOW模型中,得到词语向量,将其合并得到句子矩阵;
将句子矩阵输入textcnn中进行卷积操作,分别利用不同的卷积核提取标题中不同范围内的多个局部特征;
将多个局部特征分别经过最大池化操作,拼接合并形成视频标题特征向量。
进一步的,所述CBOW模型将句子中的每个词语映射成一个8维向量,用一个矩阵表示一个句子,矩阵的每一行对应一个词语,用一个8维向量表示,矩阵的行数对应句子的长度。
进一步的,所述关键图像帧的获取方法如下:
对于候选视频集中的任意一个视频使用多媒体处理工具ffmpeg按照固定间隔的方式提取视频的关键图像帧。
进一步的,所述图像特征向量的提取方法包括:
将关键图像帧依次输入到已在ImageNet数据集中预训练的VGG16网络中,分别经过多次卷积-池化层,用不同的卷积核提取图像的不同内容信息,提取最后一个池化层的输出作为图像特征向量,将同一个视频的不同图像特征向量进行平均,作为该视频的图像特征向量。
进一步的,所述视频特征向量的提取方法包括:
将视频标题特征向量和图像特征向量进行外积运算,得到矩阵;
将矩阵在行方向上进行平均运算操作,得到视频标题特征向量和图像特征向量的融合信息,即视频特征向量。
进一步的,所述余弦相似度计算公式为:
Figure BDA0002612226890000041
其中,
Figure BDA0002612226890000042
为用户集中第j个用户uj的特征向量;
Figure BDA0002612226890000043
为视频集中第i个用户vi的特征向量;
Figure BDA0002612226890000044
为向量
Figure BDA0002612226890000045
的第k个分量;
Figure BDA0002612226890000046
为向量
Figure BDA0002612226890000047
的第k个分量。
进一步的,还包括:
根据余弦相似度对候选视频集中所有的视频进行排序;
根据排序选出相似度最高的视频推荐给用户。
与现有技术相比,本发明所达到的有益效果是:
1、本发明通过分析用户历史视频序列,能够充分捕捉到用户随时间而变化的兴趣偏好,并将用户的偏好进行特征映射,反应用户对于特定视频或者特定用户的兴趣偏好,可以更好地得到用户行为特征向量,通过综合考虑候选视频的视频标题特征向量、关键图像帧信息,对视频标题特征向量和图像特征向量进行特征融合,消除视频标题标签与视频的具体内容不匹配的影响,最后通过分析目标用户和候选集中视频之间的相似度,将相似度最高的视频推荐给目标用户,以达到提升推荐效果的目的;
2、本发明方法使用深度学习算法分析视频的标题特征,对其使用卷积网络处理,同时使用了不同的卷积核对文本内容进行卷积操作,提取句子的不同特征,充分挖掘文本的语义信息;
3、本发明方法提取视频的关键帧,对图像信息进行一定程度上的筛选,将图像信息输入已经预训练的用于图像分类的卷积神经网络中,依次经过不同的卷积核用于提取不同方面的图像特征,在最后一个池化层的输出看作图像的特征向量,可以充分表示图像内容特征。
4、本发明方法通过融合标题特征以及图像特征作为视频的特征向量,求其与用户行为特征的余弦相似度,作为用户对该视频感兴趣程度的度量,根据余弦相似度进行排序,相似度最高的用户可能最感兴趣。
附图说明
图1为本发明实施例的短视频推荐系统的整体架构图;
图2为本发明实施例的多模态视频推荐方法的特征构造步骤流程图。
具体实施方式
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
一种基于多模态的视频推荐方法,包括如下步骤:
根据用户已经观看的视频序列获取用户行为特征向量;
获取候选视频集中候选视频的视频标题特征向量;
对候选视频集中候选视频进行图像筛选,得到候选视频对应的关键图像帧;
将所有关键图像帧输入VGG16网络中,提取对应的图像特征向量;
将视频标题特征向量和图像特征向量进行特征融合,得到多个视频特征向量;
计算用户行为特征向量和视频特征向量的余弦相似度;
根据余弦相似度向用户推荐视频。
参见图1,一种基于多模态的视频推荐方法,包括以下步骤:
101、获取用户行为特征向量:对于数据集中的任意一个用户,获取其已经观看的视频序列。由于用户经常倾向于关注相同的作者或类似的视频,因此可以将其兴趣向量化表示,将用户感兴趣的视频映射到特征空间中相近的位置。
102、获取候选视频的视频标题特征向量:对于任意一个视频的标题分量,使用textcnn网络分析其携带的内容信息并将其向量化表示。
103、图像筛选:对于任意一个候选视频,视频中通常包含过多的图像帧,其中会有许多冗余信息,因此需要筛选出最能代表视频信息的图像,作为候选视频对应的关键图像帧,在接下来的步骤中对其进行处理。
104、获取图像特征向量:对于任意一个候选视频,根据步骤103得到的关键图像帧,将各视频片段输入已经过预训练的VGG16网络中,用不同的卷积核提取图像的不同内容信息,同一个视频的不同图像特征向量求平均作为完整视频的图像特征向量。
105、特征融合:根据步骤102、步骤104提取的视频标题特征向量和图像特征向量,对其进行融合,生成最终关于视频的视频特征向量。
106、视频推荐:分析步骤101生成的用户行为特征向量以及步骤105中提取的视频特征向量的余弦相似度,向用户推荐其可能感兴趣的视频。
参见图2,给出了本发明实施例的多模态视频推荐方法的特征构造步骤流程图,包括以下步骤:
201、对于数据集中的任意一个用户,获取其已经观看的视频序列。由于用户经常倾向于关注相同的作者或类似的视频,因此可以将其兴趣向量化表示。对于用户集U中的任一用户uj,其历史观看序列为
Figure BDA0002612226890000071
其中,第i个视频
Figure BDA0002612226890000072
表示用户uj在观看第i-1个视频
Figure BDA0002612226890000073
后点击的视频。因此可以将用户的观看序列
Figure BDA0002612226890000074
看成一条语句,将其中的每一个视频
Figure BDA0002612226890000075
看作一个词语,通过word2vec训练之后,可以使相似的视频聚集到特征空间中相近的位置,这些相似的视频可以一定程度上表示用户对兴趣偏好。提取用户当前点击视频的embedding向量(记为
Figure BDA0002612226890000076
),用于最后的预测。
在word2vec预处理中,首先选择CBOW模型,根据窗口中上下文词语
Figure BDA0002612226890000077
对中心词
Figure BDA0002612226890000078
进行预测从而达到对词向量训练的目的。首先将上下文词语的词向量求和取平均得到语境向量
Figure BDA0002612226890000079
使用负采样方法,通过最大化中心词预测的概率实现对词向量及网络参数的预训练。每个词语被选为负样本的概率计算公式为:
Figure BDA00026122268900000710
其中,V为语料库中出现的全部视频集合。
202、对于数据集中的每个视频的标题分量
Figure BDA00026122268900000711
(第i个视频的标题分量),首先加载数据,将句子分割成词表示,同时去除低频词和停用词,用空格区分不同词,用换行符区分不同句子。先将其输入预训练的CBOW模型中,将句子中的每个词语用一个8维向量表示,用一个二维矩阵
Figure BDA00026122268900000712
表示一个句子,其中,
Figure BDA00026122268900000713
表示第vi个视频的标题句子中第j个词语的8维向量表示,矩阵的行数m代表标题句子中包含m个词语。矩阵的每一行对应一个8维词向量,矩阵的行数对应句子的长度。
将句子矩阵
Figure BDA0002612226890000081
输入textcnn中进行卷积操作,利用不同长度的卷积核提取标题中不同范围内的多个局部特征,分别经过最大池化操作后,将不同卷积核提取的特征值拼接得到标题的特征向量,记作
Figure BDA0002612226890000082
203、对于数据集中的任意一个视频vi,使用多媒体处理工具ffmpeg,按照固定间隔的方式提取视频的关键帧。
204、对于数据集中的每个视频,根据步骤203提取的视频关键帧,将视频片段依次输入到已在ImageNet数据集(140万张标记图像,1000个不同的类别)预训练的VGG16网络中,分别经过多次卷积-池化层,用不同的卷积核提取图像的不同内容信息,提取最后一个池化层的输出作为图像的特征向量,将同一个视频的不同图像特征向量进行平均,作为该视频的图像分量特征,记作
Figure BDA0002612226890000083
假设每个视频包含k个关键帧,分别经过VGG16网络提取特征,经过最大池化层后得到k个特征向量,分别为
Figure BDA0002612226890000084
则经过求和取平均后的关于视频的图像特征向量为
Figure BDA0002612226890000085
205、对于数据集中的每个视频vi,根据步骤202,步骤203得到该条记录对应的视频标题特征
Figure BDA0002612226890000086
和视频图像特征
Figure BDA0002612226890000087
将视频标题特征
Figure BDA0002612226890000088
和视频图像特征
Figure BDA0002612226890000089
进行外积运算,得到矩阵M,将矩阵M进行行方向上的平均运算,得到标题向量和图像向量的融合信息,即关于视频的特征向量,记作
Figure BDA00026122268900000810
矩阵M计算公式为:
Figure BDA00026122268900000811
其中
Figure BDA00026122268900000812
表示
Figure BDA00026122268900000813
的转置。
将矩阵按照行方向上进行平均计算的公式为:
Figure BDA00026122268900000814
其中,Mi表示矩阵M的第i行。
206、对于用户集U中的任意一个用户uj,根据步骤1中得到的用户特征向量
Figure BDA00026122268900000815
以及步骤205中得到的候选视频的特征向量
Figure BDA00026122268900000816
通过计算两个向量之间的余弦相似度判断用户喜欢该视频的概率。分别计算用户uj对于候选视频集中所有的视频的余弦相似度,将其从大到小排序,选出相似度最高的视频推荐给用户,余弦相似度计算公式为:
Figure BDA0002612226890000091
其中,
Figure BDA0002612226890000092
为用户集中第j个用户uj的特征向量;
Figure BDA0002612226890000093
为视频集中第i个用户vi的特征向量;
Figure BDA0002612226890000094
为向量
Figure BDA0002612226890000095
的第k个分量;
Figure BDA0002612226890000096
为向量
Figure BDA0002612226890000097
的第k个分量。
具体来说是从多模态角度深度挖掘视频内容特征,同时分析用户的兴趣偏好,并基于此为用户推荐相关视频的视频推荐方法。
本发明通过综合考虑视频标题、图像的内容信息,消除视频标题标签与视频的具体内容不匹配的影响,同时通过对用户历史观看记录的分析,深度挖掘用户的个人兴趣偏好,并且及时捕捉随着时间的推移用户兴趣的转移。最后通过分析目标用户和候选集中视频之间的相似度,将相似度最高的视频推荐给目标用户,以达到提升推荐效果的目的。
一种基于多模态的视频推荐系统,所述系统包括:
第一获取模块:用于根据用户已经观看的视频序列获取用户行为特征向量;
第二获取模块:用于获取候选视频集中候选视频的视频标题特征向量;
筛选模块:用于对候选视频集中候选视频进行图像筛选,得到候选视频对应的关键图像帧;
提取模块:用于将所有关键图像帧输入VGG16网络中,提取对应的图像特征向量;
融合模块:用于将视频标题特征向量和图像特征向量进行特征融合,得到多个视频特征向量;
计算模块:用于计算用户行为特征向量和视频特征向量的余弦相似度;
推荐模块:用于根据余弦相似度向用户推荐视频。
一种基于多模态的视频推荐系统,所述系统包括处理器和存储介质;
所述存储介质用于存储指令;
所述处理器用于根据所述指令进行操作以执行上述所述方法的步骤。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述所述方法的步骤。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上仅为本发明的实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均包含在申请待批的本发明的权利要求范围之内。

Claims (10)

1.一种基于多模态的视频推荐方法,其特征在于,包括如下步骤:
根据用户已经观看的视频序列获取用户行为特征向量;
获取候选视频集中候选视频的视频标题特征向量;
对候选视频集中候选视频进行图像筛选,得到候选视频对应的关键图像帧;
将所有关键图像帧输入VGG16网络中,提取对应的图像特征向量;
将视频标题特征向量和图像特征向量进行特征融合,得到多个视频特征向量;
计算用户行为特征向量和视频特征向量的余弦相似度;
根据余弦相似度向用户推荐视频。
2.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述用户行为特征向量的获取方法如下:
将用户已经观看的视频序列等效为一个词语;
通过word2vec对词语进行处理,使相似的视频聚集到特征空间中相近的位置,得到用户行为特征向量。
3.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述视频序列表示为:
Figure FDA0002612226880000011
其中,
Figure FDA0002612226880000012
表示用户uj在观看第i-1个视频
Figure FDA0002612226880000013
后点击的第i个视频。
4.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述视频标题特征向量的获取方法如下:
将候选视频的标题句子分割成词,同时去除低频词和停用词;
将句子中的词语依次输入经过预训练的CBOW模型中,得到词语向量,将其合并得到句子矩阵;
将句子矩阵输入textcnn中进行卷积操作,分别利用不同的卷积核提取标题中不同范围内的多个局部特征;
将多个局部特征分别经过最大池化操作,拼接合并形成视频标题特征向量。
5.根据权利要求4所述的一种基于多模态的视频推荐方法,其特征在于,所述CBOW模型将句子中的每个词语映射成一个8维向量,用一个矩阵表示一个句子,矩阵的每一行对应一个词语,用一个8维向量表示,矩阵的行数对应句子的长度。
6.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述关键图像帧的获取方法如下:
对于候选视频集中的任意一个视频使用多媒体处理工具ffmpeg按照固定间隔的方式提取视频的关键图像帧。
7.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述图像特征向量的提取方法包括:
将关键图像帧依次输入到已在ImageNet数据集中预训练的VGG16网络中,分别经过多次卷积-池化层,用不同的卷积核提取图像的不同内容信息,提取最后一个池化层的输出作为图像特征向量,将同一个视频的不同图像特征向量进行平均,作为该视频的图像特征向量。
8.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述视频特征向量的提取方法包括:
将视频标题特征向量和图像特征向量进行外积运算,得到矩阵;
将矩阵在行方向上进行平均运算操作,得到视频标题特征向量和图像特征向量的融合信息,即视频特征向量。
9.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,所述余弦相似度计算公式为:
Figure FDA0002612226880000031
其中,
Figure FDA0002612226880000032
为用户集中第j个用户uj的特征向量;
Figure FDA0002612226880000033
为视频集中第i个用户vi的特征向量;
Figure FDA0002612226880000034
为向量
Figure FDA0002612226880000035
的第k个分量;
Figure FDA0002612226880000036
为向量
Figure FDA0002612226880000037
的第k个分量。
10.根据权利要求1所述的一种基于多模态的视频推荐方法,其特征在于,还包括:
根据余弦相似度对候选视频集中所有的视频进行排序;
根据排序选出相似度最高的视频推荐给用户。
CN202010765025.6A 2020-07-31 2020-07-31 一种基于多模态的视频推荐方法 Withdrawn CN111984824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010765025.6A CN111984824A (zh) 2020-07-31 2020-07-31 一种基于多模态的视频推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010765025.6A CN111984824A (zh) 2020-07-31 2020-07-31 一种基于多模态的视频推荐方法

Publications (1)

Publication Number Publication Date
CN111984824A true CN111984824A (zh) 2020-11-24

Family

ID=73445955

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010765025.6A Withdrawn CN111984824A (zh) 2020-07-31 2020-07-31 一种基于多模态的视频推荐方法

Country Status (1)

Country Link
CN (1) CN111984824A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203152A (zh) * 2020-11-30 2021-01-08 华东交通大学 多模态对抗学习型视频推荐方法和系统
CN112487300A (zh) * 2020-12-18 2021-03-12 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN112818984A (zh) * 2021-01-27 2021-05-18 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质
CN112836088A (zh) * 2021-02-24 2021-05-25 腾讯科技(深圳)有限公司 用于生成与视频对应的标签的方法、设备和介质
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN117112834A (zh) * 2023-10-24 2023-11-24 苏州元脑智能科技有限公司 视频的推荐方法和装置、存储介质及电子装置

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112203152A (zh) * 2020-11-30 2021-01-08 华东交通大学 多模态对抗学习型视频推荐方法和系统
CN112487300A (zh) * 2020-12-18 2021-03-12 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN112487300B (zh) * 2020-12-18 2024-06-07 上海众源网络有限公司 一种视频推荐方法、装置、电子设备及存储介质
CN112818984A (zh) * 2021-01-27 2021-05-18 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质
CN112818984B (zh) * 2021-01-27 2023-10-24 北京奇艺世纪科技有限公司 标题生成方法、装置、电子设备和存储介质
CN112836088A (zh) * 2021-02-24 2021-05-25 腾讯科技(深圳)有限公司 用于生成与视频对应的标签的方法、设备和介质
CN112836088B (zh) * 2021-02-24 2023-07-18 腾讯科技(深圳)有限公司 用于生成与视频对应的标签的方法、设备和介质
CN113486833A (zh) * 2021-07-15 2021-10-08 北京达佳互联信息技术有限公司 多模态特征提取模型训练方法、装置、电子设备
CN117112834A (zh) * 2023-10-24 2023-11-24 苏州元脑智能科技有限公司 视频的推荐方法和装置、存储介质及电子装置
CN117112834B (zh) * 2023-10-24 2024-02-02 苏州元脑智能科技有限公司 视频的推荐方法和装置、存储介质及电子装置

Similar Documents

Publication Publication Date Title
CN111984824A (zh) 一种基于多模态的视频推荐方法
CN108509465B (zh) 一种视频数据的推荐方法、装置和服务器
CN102334118B (zh) 基于用户兴趣学习的个性化广告推送方法与系统
CN111428088A (zh) 视频分类方法、装置及服务器
CN107562742B (zh) 一种图像数据处理方法及装置
CN113158023B (zh) 基于混合推荐算法的公共数字生活精准分类服务方法
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
US9652675B2 (en) Identifying presentation styles of educational videos
CN102165464A (zh) 用于对视频内容中的人进行自动注释的方法和系统
SG194442A1 (en) In-video product annotation with web information mining
US20170206420A1 (en) System and methods for analysis of user-associated images to generate non-user generated labels and utilization of the generated labels
CN111783712A (zh) 一种视频处理方法、装置、设备及介质
CN115712780A (zh) 一种基于云计算和大数据的信息推送方法及装置
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
Helm et al. Shot boundary detection for automatic video analysis of historical films
Sreeja et al. A unified model for egocentric video summarization: an instance-based approach
CN113220974B (zh) 点击率预测模型训练、搜索召回方法、装置、设备及介质
Fei et al. Learning user interest with improved triplet deep ranking and web-image priors for topic-related video summarization
CN110851694A (zh) 基于用户记忆网络和树形结构的深度模型的个性化推荐系统
CN111723302A (zh) 一种基于协同双模型深度表示学习的推荐方法
Kalakoti Key-Frame Detection and Video Retrieval Based on DC Coefficient-Based Cosine Orthogonality and Multivariate Statistical Tests.
CN114880572B (zh) 新闻客户端智能推荐系统
CN113688281B (zh) 一种基于深度学习行为序列的视频推荐方法及系统
Vrochidis et al. Video popularity prediction through fusing early viewership with video content
Guntuku et al. Evaluating visual and textual features for predicting user ‘likes’

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20201124

WW01 Invention patent application withdrawn after publication