CN116775937B - 一种基于微博大数据的视频推荐方法、装置及存储介质 - Google Patents

一种基于微博大数据的视频推荐方法、装置及存储介质 Download PDF

Info

Publication number
CN116775937B
CN116775937B CN202310567661.1A CN202310567661A CN116775937B CN 116775937 B CN116775937 B CN 116775937B CN 202310567661 A CN202310567661 A CN 202310567661A CN 116775937 B CN116775937 B CN 116775937B
Authority
CN
China
Prior art keywords
user
users
community
communities
images
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310567661.1A
Other languages
English (en)
Other versions
CN116775937A (zh
Inventor
朱麒守
张志军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202310567661.1A priority Critical patent/CN116775937B/zh
Publication of CN116775937A publication Critical patent/CN116775937A/zh
Application granted granted Critical
Publication of CN116775937B publication Critical patent/CN116775937B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种基于微博大数据的视频推荐方法、装置及存储介质,该方法包括:从微博系统中获取N条用户数据,将所述N个用户划分为M个社区,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。本发明在视频推荐时,兼顾本社区及相邻社区的用户情况,提高了推荐准确度。

Description

一种基于微博大数据的视频推荐方法、装置及存储介质
技术领域
本发明涉及大数据及人工智能技术领域,具体涉及一种基于微博大数据的视频推荐方法、装置及存储介质。
背景技术
现有技术中,在进行视频推荐时,一般就是考虑与待推荐用于相似比较高的几个用户进行相应的视频推荐,导致视频推荐的准确度较低,影响了用户体验。
或者,在现有技术中,进行视频推荐时,计算待推荐用户的相关用户采用同样的方式进行计算,导致计算速度较慢。
发明内容
本发明针对上述现有技术中一个或多个技术缺陷,提出了如下技术方案。
一种基于微博大数据的视频推荐方法,该方法包括:
获取步骤,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分步骤,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;
预测步骤,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
扩展步骤,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
推荐步骤,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
更进一步地,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
更进一步地,所述预测步骤的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2。
更进一步地,所述计算与用户U1相似度最高的用户US1、US2、……、USk的操作为:将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk。
更进一步地,将所述用户U1以及用户Up、US1、US2、……、USk各作为一个节点以构建所述图神经网络模型所使用的图,所述用户U1以及用户Up、US1、US2、……、USk之间的连接构成所述图的边,基于所述用户U1以及用户Up、US1、US2、……、USk的相似度确定各边的权重,基于各节点的文本向量和图像确定各节点的特征值。
更进一步地,所述图的各边的权重确定的方式为:
用户U1以及用户Up对应的节点之间的边的权重为:
Weight1,p=αcos(RST1,RSTp)+βcos(RIma1,RIma1p),
其中,cos(RST1,RSTp)表示用户U1、用户Up对应的融合语义向量的余弦相似度,cos(RIma1,RIma1p)用户U1、用户Up对应的语义融合图像的余弦相似度;
用户U1与用户US1、US2、……、USk对应的节点之间的边的权重为:
Weight1,i=γecos(T1,USTi)
其中,cos(T1,USTi)表示用户U1、用户USi对应的文本向量的余弦相似度,k≥i≥1;
用户U1以及用户Up对应的节点的特征值C1、Cp为:
Cj=δTj+εIMj,其中j=1或p,Tj表示对应用户的文本向量,IM1表示用户U1观看的历史视频的特征帧向量,IMp表示用户Up当前观看的视频的特征帧向量;
CUSq=θUSTq+μUSIMq,其中k≥q≥1,USTq表示用户USi的文本向量,USIMq表示用户USq当前观看的视频的特征帧向量;
其中,α、β、γ、δ、ε、θ、μ为各公式中的参数值,且δ>θ,ε>μ。
本发明还提出了一种基于微博大数据的视频推荐装置,该装置包括:
获取单元,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分单元,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;
预测单元,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
扩展单元,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
推荐单元,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
更进一步地,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
更进一步地,所述预测单元的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2。
更进一步地,所述计算与用户U1相似度最高的用户US1、US2、……、USk的操作为:将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk。
更进一步地,所述图的各边的权重确定的方式为:
用户U1以及用户Up对应的节点之间的边的权重为:
Weight1,p=αcos(RST1,RSTp)+βcos(RIma1,RIma1p),
其中,cos(RST1,RSTp)表示用户U1、用户Up对应的融合语义向量的余弦相似度,cos(RIma1,RIma1p)用户U1、用户Up对应的语义融合图像的余弦相似度;
用户U1与用户US1、US2、……、USk对应的节点之间的边的权重为:
Weight1,i=γecos(T1,USTi)
其中,cos(T1,USTi)表示用户U1、用户USi对应的文本向量的余弦相似度,k≥i≥1;
用户U1以及用户Up对应的节点的特征值C1、Cp为:
Cj=δTj+εIMj,其中j=1或p,Tj表示对应用户的文本向量,IM1表示用户U1观看的历史视频的特征帧向量,IMp表示用户Up当前观看的视频的特征帧向量;
CUSq=θUSTq+μUSIMq,其中k≥q≥1,USTq表示用户USi的文本向量,USIMq表示用户USq当前观看的视频的特征帧向量;
其中,α、β、γ、δ、ε、θ、μ为各公式中的参数值,且δ>θ,ε>μ。
本发明还提出了一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述之任一的方法。
本发明的技术效果在于:本发明的一种基于微博大数据的视频推荐方法、装置及存储介质,该方法包括:获取步骤S101,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;划分步骤S102,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;社区划分算法可以采用现有的算法,比如GN社区发现算法。预测步骤S103,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;扩展步骤S104,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;推荐步骤S105,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。本发明中,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频,先将微博大数据中的用户划分多个社区,在需要进行推荐视频的用户所在社区中计算与其最接近的用户,再获取该用户所在社区中的相邻社区,并使用扩展方式计算相邻社区中与该用户相似度最高的多个用户,基于本社区最接近的用户与相邻社区相似度最高的多个用户的当前观看视频及该用户的历史观看记录向该用户进行视频推荐,由于本发明中不仅依据用户所在社区的用户还依赖相邻社区的用户进行视频推荐,从而给该用户推荐的视频准确度更高,提高了用户体验;本发明中,将该用户所在社区的所有L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,先将T1、T2、……、TL与ST1、ST2、……、STL分别进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,即本发明中,将每个用户的文本向量与图像语义识别得到语义向量进行首次融合,然后,将提取每个用户发表的图像的代表图像,将融合后的语义向量与相应的代表图像分别进行再次融合,得到对应的语义融合图像,由于采用两次融合,第一次融合保留了每个用户的绝大多数语义特征,再将其与代表图像进行融合,更加突出代表图像的重要性,且减少了计算量,提高了深度神经网络的计算速度;本发明的推荐依据是,在本社区的最接近的用户处于主要地位,相邻社区中的相似度最高的用户处于次要地位,基于这种方式设置了每条边的权重及每个节点的特征值,并提出了上述具体的计算公式,从而保证在视频推荐时,兼顾本社区及相邻社区的用户情况,提高了推荐准确度。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显。
图1是根据本发明的实施例的一种基于微博大数据的视频推荐方法的流程图。
图2是根据本发明的实施例的一种基于微博大数据的视频推荐装置的结构图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了本发明的一种基于微博大数据的视频推荐方法,该方法包括:
获取步骤S101,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分步骤S102,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;社区划分算法可以采用现有的算法,比如GN社区发现算法。
预测步骤S103,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
扩展步骤S104,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
推荐步骤S105,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
本发明中,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频,先将微博大数据中的用户划分多个社区,在需要进行推荐视频的用户所在社区中计算与其最接近的用户,再获取该用户所在社区中的相邻社区,并使用扩展方式计算相邻社区中与该用户相似度最高的多个用户,基于本社区最接近的用户与相邻社区相似度最高的多个用户的当前观看视频及该用户的历史观看记录向该用户进行视频推荐,由于本发明中不仅依据用户所在社区的用户还依赖相邻社区的用户进行视频推荐,从而给该用户推荐的视频准确度更高,提高了用户体验,这是本发明的一个重要发明点。
在一个实施例中,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
在一个实施例中,所述预测步骤S103的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2。
本发明中,将该用户所在社区的所有L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,先将T1、T2、……、TL与ST1、ST2、……、STL分别进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,即本发明中,将每个用户的文本向量与图像语义识别得到语义向量进行首次融合,然后,将提取每个用户发表的图像的代表图像,将融合后的语义向量与相应的代表图像分别进行再次融合,得到对应的语义融合图像,由于采用两次融合,第一次融合保留了每个用户的绝大多数语义特征,再将其与代表图像进行融合,更加突出代表图像的重要性,且减少了计算量,提高了深度神经网络的计算速度,这是本发明的另一个重要发明点。
在一个实施例中,所述计算与用户U1相似度最高的用户US1、US2、……、USk的操作为:将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk。本步骤中,由于相邻社区中的用户在视频推荐时处于次要位置,因此,仅采用文本向量余弦相似度计算确定相似度最高的用户即可,以提高计算速度,这是本发明的另一个重要发明点。
在一个实施例中,将所述用户U1以及用户Up、US1、US2、……、USk各作为一个节点以构建所述图神经网络模型所使用的图,所述用户U1以及用户Up、US1、US2、……、USk之间的连接构成所述图的边,基于所述用户U1以及用户Up、US1、US2、……、USk的相似度确定各边的权重,基于各节点的文本向量和图像确定各节点的特征值。
在一个实施例中,所述图的各边的权重确定的方式为:
用户U1以及用户Up对应的节点之间的边的权重为:
Weight1,p=αcos(RST1,RSTp)+βcos(RIma1,RIma1p),
其中,cos(RST1,RSTp)表示用户U1、用户Up对应的融合语义向量的余弦相似度,cos(RIma1,RIma1p)用户U1、用户Up对应的语义融合图像的余弦相似度;
用户U1与用户US1、US2、……、USk对应的节点之间的边的权重为:
Weight1,i=γecos(T1,USTi)
其中,cos(T1,USTi)表示用户U1、用户USi对应的文本向量的余弦相似度,k≥i≥1;
用户U1以及用户Up对应的节点的特征值C1、Cp为:
Cj=δTj+εIMj,其中j=1或p,Tj表示对应用户的文本向量,IM1表示用户U1观看的历史视频的特征帧向量,IMp表示用户Up当前观看的视频的特征帧向量;
CUSq=θUSTq+μUSIMq,其中k≥q≥1,USTq表示用户USi的文本向量,USIMq表示用户USq当前观看的视频的特征帧向量;
其中,α、β、γ、δ、ε、θ、μ为各公式中的参数值,这些参数值可以通过仿真计算时,根据仿真计算的效果进行设置,也可以基于神经网络进行预测,且δ>θ,ε>μ。
本发明创造性引入图神经网络进行视频的的推荐,其推荐依据是,在本社区的最接近的用户处于主要地位,相邻社区中的相似度最高的用户处于次要地位,基于这种方式设置了每条边的权重及每个节点的特征值,并提出了上述具体的权重及节点特征值的计算公式,从而保证在视频推荐时,兼顾本社区及相邻社区的用户情况,提高了视频推荐精度,提高了用户体验,且计算速度快,这是本发明的一个重要发明点。
经过仿真计算,在时,向该用户推荐的视频效果最佳。
图2示出了本发明的本发明的一种基于微博大数据的视频推荐装置,该装置包括:
获取单元201,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分单元202,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;社区划分算法可以采用现有的算法,比如GN社区发现算法。
预测单元203,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
扩展单元204,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
推荐单元205,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
本发明中,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频,先将微博大数据中的用户划分多个社区,在需要进行推荐视频的用户所在社区中计算与其最接近的用户,再获取该用户所在社区中的相邻社区,并使用扩展方式计算相邻社区中与该用户相似度最高的多个用户,基于本社区最接近的用户与相邻社区相似度最高的多个用户的当前观看视频及该用户的历史观看记录向该用户进行视频推荐,由于本发明中不仅依据用户所在社区的用户还依赖相邻社区的用户进行视频推荐,从而给该用户推荐的视频准确度更高,提高了用户体验,这是本发明的一个重要发明点。
在一个实施例中,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
在一个实施例中,所述预测单元203的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2。
本发明中,将该用户所在社区的所有L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,先将T1、T2、……、TL与ST1、ST2、……、STL分别进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,即本发明中,将每个用户的文本向量与图像语义识别得到语义向量进行首次融合,然后,将提取每个用户发表的图像的代表图像,将融合后的语义向量与相应的代表图像分别进行再次融合,得到对应的语义融合图像,由于采用两次融合,第一次融合保留了每个用户的绝大多数语义特征,再将其与代表图像进行融合,更加突出代表图像的重要性,且减少了计算量,提高了深度神经网络的计算速度,这是本发明的另一个重要发明点。
在一个实施例中,所述计算与用户U1相似度最高的用户US1、US2、……、USk的操作为:将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk。本步骤中,由于相邻社区中的用户在视频推荐时处于次要位置,因此,仅采用文本向量余弦相似度计算确定相似度最高的用户即可,以提高计算速度,这是本发明的另一个重要发明点。
在一个实施例中,将所述用户U1以及用户Up、US1、US2、……、USk各作为一个节点以构建所述图神经网络模型所使用的图,所述用户U1以及用户Up、US1、US2、……、USk之间的连接构成所述图的边,基于所述用户U1以及用户Up、US1、US2、……、USk的相似度确定各边的权重,基于各节点的文本向量和图像确定各节点的特征值。
在一个实施例中,所述图的各边的权重确定的方式为:
用户U1以及用户Up对应的节点之间的边的权重为:
Weight1,p=αcos(RST1,RSTp)+βcos(RIma1,RIma1p),
其中,cos(RST1,RSTp)表示用户U1、用户Up对应的融合语义向量的余弦相似度,cos(RIma1,RIma1p)用户U1、用户Up对应的语义融合图像的余弦相似度;
用户U1与用户US1、US2、……、USk对应的节点之间的边的权重为:
Weight1,i=γecos(T1,USTi)
其中,cos(T1,USTi)表示用户U1、用户USi对应的文本向量的余弦相似度,k≥i≥1;
用户U1以及用户Up对应的节点的特征值C1、Cp为:
Cj=δTj+εIMj,其中j=1或p,Tj表示对应用户的文本向量,IM1表示用户U1观看的历史视频的特征帧向量,IMp表示用户Up当前观看的视频的特征帧向量;
CUSq=θUSTq+μUSIMq,其中k≥q≥1,USTq表示用户USi的文本向量,USIMq表示用户USq当前观看的视频的特征帧向量;
其中,α、β、γ、δ、ε、θ、μ为各公式中的参数值,这些参数值可以通过仿真计算时,根据仿真计算的效果进行设置,也可以基于神经网络进行预测,且δ>θ,ε>μ。
本发明的推荐依据是,在本社区的最接近的用户处于主要地位,相邻社区中的相似度最高的用户处于次要地位,基于这种方式设置了每条边的权重及每个节点的特征值,并提出了上述具体的计算公式,从而保证在视频推荐时,兼顾本社区及相邻社区的用户情况,这是本发明的一个重要发明点。
经过仿真计算,在时,向该用户推荐的视频效果最佳。
本发明的为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的装置。
最后所应说明的是:以上实施例仅以说明而非限制本发明的技术方案,尽管参照上述实施例对本发明进行了详细说明,本领域的普通技术人员应当理解:依然可以对本发明进行修改或者等同替换,而不脱离本发明的精神和范围的任何修改或局部替换,其均应涵盖在本发明的权利要求范围当中。

Claims (6)

1.一种基于微博大数据的视频推荐方法,其特征在于,该方法包括:
获取步骤,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分步骤,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;
预测步骤,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
所述预测步骤的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2;
扩展步骤,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
具体地,将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk;
推荐步骤,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
2.根据权利要求1所述的方法,其特征在于,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
3.根据权利要求2所述的方法,其特征在于,将所述用户U1以及用户Up、US1、US2、……、USk各作为一个节点以构建所述图神经网络模型所使用的图,所述用户U1以及用户Up、US1、US2、……、USk之间的连接构成所述图的边,基于所述用户U1以及用户Up、US1、US2、……、USk的相似度确定各边的权重,基于各节点的文本向量和图像确定各节点的特征值。
4.一种基于微博大数据的视频推荐装置,其特征在于,该装置包括:
获取单元,从微博系统中获取N条用户数据,所述用户数据包括用户ID、用户发表的文字和图像,其中N≥10000;
划分单元,基于社区划分算法将所述N个用户划分为M个社区,其中,M≥2;
预测单元,对于M个社区中的一个社区S中的一个用户U1,使用训练后的第一预测模型基于所述社区S中的用户发表的文字和图像预测一个用户Up作为用户U1最接近的用户;
所述预测单元的操作为:社区S具有L个用户,对所述L个用户发表的文本进行分词处理得到L条文本向量T1、T2、……、TL,对所述L个用户发表的图像进行语义识别得到L条语义向量ST1、ST2、……、STL,将所述L条文本向量T1、T2、……、TL和L条语义向量ST1、ST2、……、STL进行语义融合得到L条融合语义向量RST1、RST2、……、RSTL,提取L个用户中每个用户发表的图像中的代表图像Ima1、Ima2、……、ImaL,将所述L条融合语义向量RST1、RST2、……、RSTL分别对应融合至所述L个用户的代表图像Ima1、Ima2、……、ImaL,得到语义融合图像RIma1、RIma2、……、RImaL,基于用户U1的语义融合图像RIma1使用第一预测模型基于语义融合图像RIma2、……、RImaL预测用户U1最接近的用户Up,其中,L≥2;
扩展单元,在所述M个社区查找与社区S相连的k个社区S1、S2、……、Sk,分别计算k个社区S1、S2、……Sk与用户U1相似度最高的用户US1、US2、……、USk,其中,k≥2;
具体地,将用户U1的文本向量T1分别与社区S相连的k个社区S1、S2、……、Sk中的每个用户的文本向量计算余弦相似度,将每个社区S1、S2、……Sk中的与用户U1余弦相似度最高的用户作为US1、US2、……、USk;
推荐单元,基于用户U1历史视频观看记录以及用户Up、US1、US2、……、USk的当前观看的视频使用第二预测模型向用户推荐U1视频。
5.根据权利要求4所述的装置,其特征在于,所述第一预测模型的为深度神经网络模型,所述第二预测模型为图神经网络模型。
6.一种计算机可读存储介质,所述存储介质上存储有计算机程序代码,当所述计算机程序代码被计算机执行时执行上述权利要求1-3之任一项所述的方法。
CN202310567661.1A 2023-05-19 2023-05-19 一种基于微博大数据的视频推荐方法、装置及存储介质 Active CN116775937B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310567661.1A CN116775937B (zh) 2023-05-19 2023-05-19 一种基于微博大数据的视频推荐方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310567661.1A CN116775937B (zh) 2023-05-19 2023-05-19 一种基于微博大数据的视频推荐方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN116775937A CN116775937A (zh) 2023-09-19
CN116775937B true CN116775937B (zh) 2024-04-26

Family

ID=87995390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310567661.1A Active CN116775937B (zh) 2023-05-19 2023-05-19 一种基于微博大数据的视频推荐方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN116775937B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158023A (zh) * 2021-02-05 2021-07-23 杭州码全信息科技有限公司 基于混合推荐算法的公共数字生活精准分类服务方法
CN113806588A (zh) * 2021-09-22 2021-12-17 北京百度网讯科技有限公司 搜索视频的方法和装置
CN114461879A (zh) * 2022-01-21 2022-05-10 哈尔滨理工大学 基于文本特征整合的语义社交网络多视角社区发现方法
CN114491267A (zh) * 2022-01-29 2022-05-13 桂林电子科技大学 一种物品的推荐方法、装置以及存储介质
CN114610913A (zh) * 2021-12-29 2022-06-10 亚信科技(中国)有限公司 多媒体数据的推荐方法、推荐模型训练方法及相关设备
CN116089567A (zh) * 2023-01-04 2023-05-09 浙江极氪智能科技有限公司 一种搜索关键词的推荐方法、装置、设备和存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113158023A (zh) * 2021-02-05 2021-07-23 杭州码全信息科技有限公司 基于混合推荐算法的公共数字生活精准分类服务方法
CN113806588A (zh) * 2021-09-22 2021-12-17 北京百度网讯科技有限公司 搜索视频的方法和装置
CN114610913A (zh) * 2021-12-29 2022-06-10 亚信科技(中国)有限公司 多媒体数据的推荐方法、推荐模型训练方法及相关设备
CN114461879A (zh) * 2022-01-21 2022-05-10 哈尔滨理工大学 基于文本特征整合的语义社交网络多视角社区发现方法
CN114491267A (zh) * 2022-01-29 2022-05-13 桂林电子科技大学 一种物品的推荐方法、装置以及存储介质
CN116089567A (zh) * 2023-01-04 2023-05-09 浙江极氪智能科技有限公司 一种搜索关键词的推荐方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN116775937A (zh) 2023-09-19

Similar Documents

Publication Publication Date Title
Kumar et al. Eratosthenes sieve based key-frame extraction technique for event summarization in videos
US9740775B2 (en) Video retrieval based on optimized selected fingerprints
EP1542155B1 (en) Object detection
CN107633023B (zh) 一种图像去重方法和装置
CN111522996B (zh) 视频片段的检索方法和装置
US20160335499A1 (en) Entity based temporal segmentation of video streams
CN105430505B (zh) 一种基于组合策略的iptv节目推荐方法
CN113095346A (zh) 数据标注的方法以及数据标注的装置
EP1542153A1 (en) Object detection
Bost et al. Remembering winter was coming: Character-oriented video summaries of TV series
CN110489574B (zh) 一种多媒体信息推荐方法、装置和相关设备
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
EP1542154A2 (en) Object detection
CN104754403A (zh) 视频序列比对的方法及其系统
CN112749726B (zh) 目标检测模型的训练方法、装置、计算机设备和存储介质
CN112291634B (zh) 视频处理方法及装置
CN111709493A (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN111026910B (zh) 视频推荐方法、装置、电子设备及计算机可读存储介质
JP4421527B2 (ja) 映像検索装置,方法及びプログラム並びにプログラムを記録した記録媒体
CN116775937B (zh) 一种基于微博大数据的视频推荐方法、装置及存储介质
EP4162387A1 (en) Method and system for selecting highlight segments
CN115439878A (zh) 目标重识别模型抗遗忘训练方法、目标重识别方法及装置
CN114299074A (zh) 一种视频分割方法、装置、设备及存储介质
CN114449342A (zh) 视频推荐方法、装置、计算机可读存储介质和计算机设备
CN115170994A (zh) 一种视频识别方法、装置、设备以及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231106

Address after: Unit 102-402, No. 12, guanri Road, phase II, Xiamen Software Park, Fujian Province, 361000

Applicant after: XIAMEN MEIYA PICO INFORMATION Co.,Ltd.

Address before: No. 169 Shuanggang East Street, Economic and Technological Development Zone, Qingshanhu District, Nanchang City, Jiangxi Province, 330044

Applicant before: JIANGXI University OF FINANCE AND ECONOMICS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant