CN112231579A - 基于隐式社群发现的社会化视频推荐系统与方法 - Google Patents

基于隐式社群发现的社会化视频推荐系统与方法 Download PDF

Info

Publication number
CN112231579A
CN112231579A CN202011241879.0A CN202011241879A CN112231579A CN 112231579 A CN112231579 A CN 112231579A CN 202011241879 A CN202011241879 A CN 202011241879A CN 112231579 A CN112231579 A CN 112231579A
Authority
CN
China
Prior art keywords
node
video
user
theme
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011241879.0A
Other languages
English (en)
Other versions
CN112231579B (zh
Inventor
田野
王舜尧
王文东
阙喜戎
龚向阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Publication of CN112231579A publication Critical patent/CN112231579A/zh
Application granted granted Critical
Publication of CN112231579B publication Critical patent/CN112231579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出一种基于隐式社群发现的社会化视频推荐系统与方法,属于社会化视频推荐技术领域。社会化视频推荐系统包括:弹幕评论采集模块、LDA主题聚类模块、随机游走模块、隐式社群发现模块、群组推荐模块和结果展示模块;方法包括:首先,从视频服务网站爬取用户的弹幕数据进行处理生成视频‑主题分布矩阵和主题‑词分布矩阵;然后,采用三元图法和聚类方法,获得各隐式社群对主题的喜好矩阵,并计算每个候选视频与喜好矩阵的相似度,按照相似度顺序选取视频推荐序列。本发明的社会化视频推荐系统及方法,建立了隐式社群推荐模型,结合弹幕文本信息,挖掘用户组成的隐式社群,能够缓解数据稀疏性,提升社会化视频推荐准确度。

Description

基于隐式社群发现的社会化视频推荐系统与方法
技术领域
本发明属于社会化视频推荐技术领域,具体涉及基于隐式社群发现的社会化视频推荐方法及系统。
背景技术
随着近年来移动互联网的发展及网速的飞快提升,在线视频已经成为人们生活中不可或缺的一部分。每时每刻都有新的视频被上传到网络上,而用户能够观看视频的时间和精力是有限的,面对海量的视频,用户根据兴趣选择视频的时间成本越来越高。一个高效而准确的推荐系统显得十分重要。
近几年随着新媒体技术日趋成熟,社会化视频浮出水面并逐渐在世界范围内流行起来。作为一种新兴的方式,用户可以在观看视频的同时,发表此时对内容的情感或评论。弹幕(Danmaku)是其主要的表现形式,用户可在观看视频的同时发送评论,文字内容会像子弹一样从视频画面划过,因此得名。目前国内主流视频网站均已提供弹幕发送功能。用户发布的文字保存在服务器端,可在播放视频的同时展现出来,其他用户亦可对前后弹幕讨论,形成一种社会化属性。弹幕的内容反映了当前视频内容,也包含了用户对视频的情感,同时相同喜好的用户聚集在同一类视频,这些特点为进一步展开推荐研究起到了良好的帮助作用。
早期的推荐系统普遍基于一种假设:用户和用户之间是独立的,而该假设并不总是符合事实的。一些近期的研究表明,社交关系有助于提升推荐系统的性能。传统的社群关系是显式的,例如“Facebook”、“微博”等社交网站,用户之间的好友关系是明确的,互为好友的用户有极大概率拥有相似的兴趣爱好。传统群组推荐算法基于已有的显式群组信息,例如以家庭作为单位,家庭中的所有成员都属于这个群组。然而视频网站的观众之间显然不具备这种显式关系,因此需要适用于这种情况的社会化视频推荐技术。
发明内容
更普遍的应用场景是视频网站管理者并不知道用户之间的实际关系,用户也不认识其他用户,只是由于兴趣相似而聚集到了同一视频页面。因此,对于社会化视频,本发明认为观众被视频的某些特征所吸引,会自然聚集成若干社群,这种好友关系是不可被直接观察到的,被称为隐式社群。本发明的目的是提供一种基于隐式社群发现的社会化视频推荐系统与方法,从视频的弹幕评论中分析语义信息,力求从隐藏特征中发现用户间的隐式社群,实现基于群组的推荐,以极大提高现有用户数据的利用率,并缓解数据稀疏性的问题。
本发明提供的基于隐式社群发现的社会化视频推荐系统,包括:弹幕评论采集模块、LDA主题聚类模块、随机游走模块、隐式社群发现模块、群组推荐模块和结果展示模块。
弹幕评论采集模块用于从视频服务网站爬取用户的弹幕数据;所述的弹幕数据包括弹幕ID、时间戳、视频ID、用户ID以及弹幕评论内容。LDA主题聚类模块将每部视频的全部弹幕评论内容作为一个语料库单位,对弹幕评论内容进行分词、去除停用词,得到词典和每部视频的词向量,再生成视频-主题分布矩阵和主题-词分布矩阵。
随机游走模块根据爬取的弹幕数据和视频-主题分布矩阵,构建用户-主题-视频三元图,对图中的每个用户采用PersonalRank算法随机游走,获得三元图的稳定状态,再从图中获得用户-主题喜好矩阵以及用户之间的相似度矩阵。
隐式社群发现模块由用户之间的相似度矩阵对用户进行聚类,获得隐式社群,再对用户-主题喜好矩阵合并,得到各隐式社群对主题的喜好矩阵。群组推荐模块首先计算候选视频的主题分布向量,再分别计算与各隐式社群对主题的喜好矩阵的相似度,按照相似度从高到低的顺序选取视频推荐序列,并通过结果展示模块展示在前端页面。
本发明提供的基于隐式社群发现的社会化视频推荐方法,包括:
步骤1,从视频服务网站爬取用户的弹幕数据,包括弹幕ID、时间戳、视频ID、用户ID以及弹幕评论内容;
步骤2,将每部视频的全部弹幕评论内容作为一个语料库单位,先对弹幕评论内容进行分词、去除停用词,获得词典和各视频的词向量,再利用文档主题生成模型LDA生成视频-主题分布矩阵和主题-词分布矩阵,并存入主题数据库;
步骤3,根据弹幕评论内容的用户以及视频-主题分布矩阵,构建“用户-主题-视频”三元图;三元图中的节点包括用户、主题和视频三种,节点之间通过有向边连接且具有权重,权重为边的转移概率;采用PersonalRank算法对三元图的用户节点进行游走,获得三元图的稳定状态,然后获得用户相似度矩阵和用户-主题喜好矩阵;
设在稳定状态下的三元图,得到节点间的重要度矩阵R;矩阵R中的第i行第j列元素取值为稳定状态的三元图中从节点j出发到达节点i的访问概率;从矩阵R中提取用户间的重要度子矩阵,作为用户相似度矩阵;
步骤4,基于用户相似度矩阵对用户进行聚类,获得隐式社群,再对用户-主题喜好矩阵合并,得到各隐式社群对主题的喜好矩阵;
步骤5,对候选视频集中的每个候选视频,计算其主题分布向量,再计算与各隐式社群对主题的喜好矩阵的相似度,按照相似度从高到低的顺序选取视频推荐序列。
所述的步骤3中,节点i指向节点j的边的转移概率为ηi,j,具体为:
若用户对视频发弹幕,则存在两节点相互指向的边,否则不存在边;当节点i和节点j分别对应用户u和视频v时,ηi,j=nu,v/Nu,nu,v表示用户u对视频v发送的弹幕数,Nu为用户u发送的弹幕总数;当节点i和节点j分别对应视频v和用户u时,ηi,j=1/|out(i)|,|out(i)|为节点i的出边数目;
每一用户节点与每一主题节点之间均存在相互指向的边;当节点i和节点j分别对应用户u和主题k时,
Figure BDA0002768673310000031
表示用户发送的弹幕c所属视频v属于主题k的概率,V表示视频总数;当节点i和节点j分别对应主题k和用户u时,ηi,j=1/|out(i)|;
每一视频节点与每一主题节点之间均存在相互指向的边;当节点i和节点j分别对应视频v和主题k时,ηi,j=θv,k,θv,k表示视频v属于主题k的概率值;当节点i和节点j分别对应主题k和视频v时,ηi,j=1/|out(i)|。
本发明的社会化视频推荐系统及方法,与现有技术相比,具有以下优势和积极效果:(1)本发明的社会化视频推荐系统及方法,建立了隐式社群推荐模型,将结合弹幕文本信息,挖掘用户组成的隐式社群,能够缓解数据稀疏性,并进一步提升社会化视频推荐准确度。(2)为了降低用户发送弹幕偶然性的负面影响,本发明在建立的推荐模型中,创新性地引入并改进PersonalRank算法,通过构建“用户-视频-主题”三元图,从某个用户节点出发,经过若干轮迭代后达到稳定状态,会得到其他所有节点相对于起始节点的访问概率。由于连线更多的两点间在随机游走过程中会拥有更高的访问概率,此时可以得到用户节点间的重要性程度,并结合了实际用户发送弹幕的情况,从而可准确挖掘隐式社群,提高社会化视频推荐的准确度。
附图说明
图1为本发明的基于隐式社群发现的社会化视频推荐系统的框架示意图;
图2为本发明的社会化视频推荐方法的一个实现流程图;
图3为LDA主题聚类模型概率图;
图4为本发明建立的用户-主题-视频三元图;
图5为本发明获得的用户相似度的示例图。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图对本发明作进一步的详细和深入描述。
对于社会化视频,本发明认为观众被视频的某些特征所吸引,会自然聚集成若干社群,这种被称为隐式社群,而基于隐式社群为用户推荐视频将具有更好的推荐效果,提高了社会化视频推荐准确度。
如图1所示,本发明的基于隐式社群发现的社会化视频推荐系统,包括弹幕评论采集模块1、LDA(文档主题生成模型)主题聚类模块2、随机游走模块3、隐式社群发现模块4、群组推荐模块5以及结果展示模块6。
弹幕评论采集模块1从视频服务网站采集用户的弹幕评论数据,存储弹幕ID、时间戳、视频ID、用户ID以及弹幕评论内容等数据到数据库中。
LDA主题聚类模块2读入待训练视频弹幕数据集,对各视频的弹幕评论内容经过分词、去除停用词,得到词典和各视频的词向量,将其传入LDA主题模型,生成视频-主题分布矩阵和主题-词分布矩阵,并存入主题数据库中。
随机游走模块3根据主题数据库中的数据及爬取的数据构建“用户-主题-视频”三元图,针对每个用户采用PersonalRank算法随机游走。三元图中所有节点的访问概率会逐渐趋于稳定,在稳定的三元图中即可得到用户对主题的喜好程度矩阵和用户之间的相似度,并将结果写入相应数据库。本发明的随机游走模块3采用改进的PersonalRank算法进行随机游走,如下面步骤3中说明。
隐式社群发现模块4读取用户间的相似度矩阵,采用Affinity Propagation算法对用户聚类得到隐式社群分布。此外,隐式社群发现模块4根据属于同一隐式社群的用户的主题喜好分布得到群组-主题喜好矩阵,并存入相应的数据库。
群组推荐模块首先计算候选视频的主题分布向量,再分别和群组-主题喜好矩阵做匹配,即可生成相应隐式社群的推荐序列,供结果展示模块使用。具体群组推荐模块进行计算的说明在下面步骤5中说明。
结果展示模块负责用户交互,根据服务器请求返回相应的推荐结果序列,展示在前端页面。
如图2所示,本发明的基于隐式社群发现的社会化视频推荐方法,主要分如下五个步骤来说明。
步骤1,从视频服务网站采集用户的弹幕评论数据。
本发明使用网络爬虫获取视频网站的弹幕数据,包括弹幕ID、时间戳、视频ID、用户ID、弹幕评论内容等信息。ID为唯一编号。在预训练阶段获得待训练的弹幕数据集存入训练数据库中。
步骤2,利用LDA主题模型对待训练数据库中的弹幕评论数据进行处理,包括:对弹幕评论内容经过分词、去除停用词,得到词典和词的向量,再利用LDA主题模型,生成视频-主题分布矩阵θ和主题-词分布矩阵
Figure BDA0002768673310000041
视频-主题分布矩阵θ中记录主题属于视频的概率,主题-词分布矩阵
Figure BDA0002768673310000042
中记录词语属于主题的概率。
LDA是文本分析领域经典的聚类算法,其概率图模型如图3所示。LDA是一种无监督学习模型,无需对数据打标签,即可实现聚类。LDA聚类的基本思想认为一篇文章(Document)中的词语出现是服从某种主题分布的。图3中,α和β是LDA中的超参数,θ是文章-主题分布矩阵,
Figure BDA0002768673310000043
表示主题-词语分布矩阵,z表示主题,
Figure BDA0002768673310000044
表示文章中实际的词语集合。K、M、N分别代表主题数、文章数量、字典的词语数量,欲要生成一篇文章,须先确定主题,再对主题抽样生成词语。实际情况下,词语集合
Figure BDA0002768673310000051
是可以被观测到的,需要反向求解分布矩阵θ和
Figure BDA0002768673310000052
LDA模型采用Gibbs Sampling(吉布斯采样)的方式根据已知结果去生成隐式变量,当多轮迭代收敛后,即可得到文章的主题分布。
本发明进行LDA聚类时,将一部视频的全部弹幕评论数据作为一个语料库单位,即将一部视频的所有弹幕评论数据看作LDA中的一个Document。对所有训练视频的弹幕数据进行预处理,包括分词、去除停用词,生成每个视频的词语集合,表示为向量
Figure BDA0002768673310000053
W为正整数。设训练1000部视频,即视频数量V=1000。定义全局主题数为K。最终输出视频-主题矩阵θ,规模为V*K;输出主题-词汇矩阵
Figure BDA0002768673310000054
规模为K*W。此处参数K需要通过实验确定最优值。通过本步骤,得到所有视频的主题分布θ,以及主题的词汇分布
Figure BDA0002768673310000055
存入主题数据库。
步骤3,由步骤2获得主题-视频的分布,结合采集的弹幕评论数据的用户ID,可以构建“用户-主题-视频”三元图,采用PersonalRank算法进行随机游走,获得三元图的稳定状态,进而得到主题对于用户的重要程度和用户之间的相关度。
PersonalRank算法被广泛用于协同过滤推荐领域,是一种基于图的推荐算法,其主要思想是从某点出发进行随机游走,每到一个节点都以(1-d)的概率停止游走并返回起始点重新开始,或者以概率d继续游走。本发明提出改良的PersonalRank算法,对每个用户进行随机游走。如图4所示,本发明中节点有用户、主题和视频三种,且节点之间的边具有权重。用户-主题-视频三元图采用邻接表的保存方式,初始时,设置目标用户target User的访问概率PR(target User)=1,其余节点的访问概率均为0。对于访问节点概率的迭代公式如下说明。
Figure BDA0002768673310000056
其中,PR(j)为访问节点j的概率,d为随机游走概率,i、j、u均为图中节点,in(j)为指向节点j的节点集合,ηi,j表示由节点i指向节点j的有向边的转移概率。标准PersonalRank算法中每条边的转移概率值是根据出边的个数均分的,由于本发明加入了边的权重,为了方便计算,同时为了确保马尔可夫链收敛时所有节点的PR值相加为1,本发明将权重体现在出边的转移概率值ηi,j上,且∑j∈out(i)ηi,j=1,out(i)为节点i指向的节点集合。各类有向边的转移概率设置如公式(2)所示。ηi,j为节点i指向节点j的有向边的转移概率。
Figure BDA0002768673310000057
在用户-主题-视频三元图中,如图4所示,若用户对视频发弹幕则有边,没有发弹幕则无边。在用户u给视频v发弹幕情况下,存在用户指向视频的有向边以及视频指向用户的有向边,分别标记为U→V、V→U,如公式(2),对于U→V,概率ηi,j=nu,v/Nu,Nu表示用户u发送的弹幕总数,nu,v表示用户u对视频v发送的弹幕数,此处节点i和节点j分别对应为用户u、视频v;对于V→U,转移概率根据节点i的出边数目取均值,此处节点i和节点j分别对应为视频v、用户u。对于用户与主题的节点,每一用户与每一主题之间均有边,用户指向主题的有向边,标记为U→K,此时节点i和节点j分别对应用户u和主题k,转移概率如公式(2)计算,
Figure BDA0002768673310000061
表示用户发送的弹幕c所属视频v属于主题k的概率,由LDA输出结果得到,对于K→U,转移概率根据节点i的出边数目取均值,此处节点i和节点j分别对应主题k和用户u。对于视频与主题的节点,每一视频与每一主题之间均有边,对于视频指向主题的有向边,标记为V→K,此处节点i和节点j分别对应视频v和主题k,转移概率为θv,k,θv,k表示视频v属于主题k的概率值;对于主题指向视频的有向边,此处节点i和节点j分别对应主题k和视频v时,标记为K→V,转移概率根据节点i的出边数目取均值。
最后,为满足马尔可夫链收敛的条件,状态转移矩阵每行元素的和须为1,故要对ηi,j进行如下处理:
Figure BDA0002768673310000062
通过PersonalRank算法得到的PR值是指其他节点相对于目标用户节点的访问概率。由于相似用户间会存在共同的视频和主题相连,那么从目标节点出发有更多的路径到达相似用户节点,本发明有理由认为这些相似用户节点拥有更大的访问概率。此外,通过上述设置,可以使随机游走的过程充分利用LDA模型的聚类结果,并结合实际用户发送弹幕的情况,优化了状态转移矩阵。例如用户u对视频v发送了更多的弹幕,那么对应的用户u指向视频v的边便拥有了更高的转移概率,这显然更加合理,最终收敛得到的相关性也会更加有效。
为了提高计算的时间效率,本发明需要将迭代过程转化为矩阵运算。公式(1)的矩阵表示形式如下:
Figure BDA0002768673310000063
其中,
Figure BDA0002768673310000064
表示以节点u为起点时的PR初始状态向量,
Figure BDA0002768673310000065
分别表示从节点u出发迭代第n次和第(n-1)次的PR状态向量,M为由η′i,j组成的状态转移矩阵,上角标T表示转置。与标准PersonalRank类似,当三元图经过若干次随机游走收敛后PR状态不再更新,可视为
Figure BDA0002768673310000066
因此上式可更新为:
Figure BDA0002768673310000067
其中,
Figure BDA0002768673310000068
表示从节点u出发达到稳态时的PR向量。上式经过变形可得到
Figure BDA0002768673310000069
的计算公式:
Figure BDA00027686733100000610
本发明设R为节点间的重要度矩阵,若Ri,j为R中第i行第j列的元素,则Ri,j表示节点i相对于节点j的重要性,取值为从节点j出发、经过若干轮随机游走收敛后、到达节点i的访问概率,且矩阵R的每列元素的和为1。矩阵R的计算公式如下:
R=(E-dMT)-1(1-d) (6)
用户和用户之间的重要度可以被视为兴趣相似度。记用户总数为U,本发明截取矩阵R前U行U列,为用户相似度矩阵S,依此可以构建一个有向带权完全图,如图5所示,节点为所有出现过的用户。若有箭头从节点u1指向节点u2,则箭头上的权重代表u2相对于u1的相似度。
通过随机游走得到用户对主题的喜好程度分布,即从目标用户u出发,收敛后得到所有主题对用户u的重要程度,表示为
Figure BDA0002768673310000071
其中
Figure BDA0002768673310000072
表示用户u对主题kK的喜好程度,也即主题kK对用户u的重要程度。
步骤4,基于用户相似度矩阵,采用Affinity Propagation算法聚类得到隐式社群;再聚合同组用户的主题分布得到群组对主题的喜好分布。
用户间由于视频的主题产生了相似度,记录在用户相似度矩阵S中,据此可以对用户聚类得到隐式社群。本发明采用Affinity Propagation(AP)算法进行聚类,使用AP算法可得到隐式社群G={g1,g2,…,g|G|},|G|表示隐式社群数。
欲对群组推荐,还需要根据组内用户喜好对群组的喜好更新。本发明中,可采用平均策略、最小痛苦策略、最大喜悦策略、随机策略等,对用户-主题喜好矩阵UserPreference合并,得到群组g对主题的喜好矩阵
Figure BDA0002768673310000073
对各种策略的使用说明如下。
(1)平均策略(Average Strategy)。假设每个成员在组内的画像是公平的,组的画像依赖于所有成员。其中GroupPreferenceg表示当前组的主题喜好程度,u为群组g中的一名成员用户,UserPreferenceu表示用户u对主题的喜好程度,n是组g中全部用户的个数,则:
Figure BDA0002768673310000074
(2)最小痛苦策略(Least Misery Strategy)。组的画像取决于组内成员画像的最小值。这意味着即使大部分人喜欢,但是只要有一个人喜好程度低,也会拉低整个群组的喜好程度。UserPreferenceu(k)表示用户u对主题k的喜好程度。
Figure BDA0002768673310000075
(3)最大喜悦策略(Most Pleasure Strategy)。与(2)相反,这个策略取组内成员画像的最大值。
Figure BDA0002768673310000076
(4)不痛苦的平均策略(Average without Misery)。仅使用组内所有成员共同感兴趣的分数进行计算,排除掉一些低于特定阈值δ的喜好程度。
Figure BDA0002768673310000081
其中,nUserPreference>δ为组内喜好程度大于阈值δ的成员个数。
(5)随机策略。随机选取组内某个成员的画像作为组的画像。
Figure BDA0002768673310000082
上述合并策略作为候选方案,具体选取哪种可经过实验验证来选取。经过此步骤,本发明得到了群组对主题喜好分布GroupPreference。
步骤5,计算候选视频的主题分布向量,再分别和群组-主题喜好矩阵做匹配,根据相关度从高到低排序,取排名靠前的若干个视频即为相应的推荐序列。
推荐序列从候选视频集合中产生,其来源分为两类,一类是训练集中已经出现过的但目标用户群组没有观看过的,这种视频在前期LDA模型处理阶段即已生成主题分布向量ObjectVideo={<k1,relevance1>,<k2,relevance2>,...,<kK,relevanceK>},relevanceK表示视频同主题kK相关的概率值,值越大表示相关度越高。另一类是之前没有出现过的视频,这些新视频需要借助前期保存的LDA模型矩阵来生成主题分布向量,其过程描述如下。
读取前述步骤中LDA模型生成的主题-词汇矩阵
Figure BDA0002768673310000085
转置并归一化。对于新视频中的每一个词进行主题采样,若有LDA词典中不存在的词则随机分配一个主题序号。统计视频中每个主题下的词语数量,即可得到该视频的主题分布向量。
随后与前述步骤中的群组-主题偏好矩阵GroupPreference匹配,根据相似度排序生成相应的推荐序列。由于主题数K是全局的,候选视频ObjectVideo的主题分布向量即是K维,前述步骤中得到的群组-主题喜好向量也是K维,因此可以直接对向量计算相似度。匹配方法采用皮尔逊相关系数,其定义如下:
Figure BDA0002768673310000083
其中,
Figure BDA0002768673310000084
对候选视频集合遍历计算相似度,按照相似度从高到低排序,选取靠前的若干个视频,即为目标群组的推荐序列。

Claims (7)

1.一种基于隐式社群发现的社会化视频推荐系统,其特征在于,包括:弹幕评论采集模块、LDA主题聚类模块、随机游走模块、隐式社群发现模块、群组推荐模块和结果展示模块;LDA表示文档主题生成模型;
弹幕评论采集模块用于从视频服务网站爬取用户的弹幕数据;所述的弹幕数据包括弹幕ID、时间戳、视频ID、用户ID以及弹幕评论内容;
LDA主题聚类模块将每部视频的全部弹幕评论内容作为一个语料库单位,对弹幕评论内容进行分词、去除停用词,得到词典和每部视频的词向量,再生成视频-主题分布矩阵和主题-词分布矩阵;
随机游走模块根据爬取的弹幕数据和视频-主题分布矩阵,构建用户-主题-视频三元图,对图中的每个用户采用PersonalRank算法随机游走,获得三元图的稳定状态,再从图中获得用户-主题喜好矩阵以及用户之间的相似度矩阵;
隐式社群发现模块由用户之间的相似度矩阵对用户进行聚类,获得隐式社群,再对用户-主题喜好矩阵合并,得到各隐式社群对主题的喜好矩阵;
群组推荐模块首先计算候选视频的主题分布向量,再分别计算与各隐式社群对主题的喜好矩阵的相似度,按照相似度从高到低的顺序选取视频推荐序列,并通过结果展示模块展示在前端页面。
2.根据权利要求1所述的系统,其特征在于,所述的随机游走模块,采用改进的PersonalRank算法对三元图的用户节点进行游走,初始时,设置目标用户的访问概率为1,其余节点的访问概率均为0;以概率d随机游走,访问节点概率的迭代公式如下:
Figure FDA0002768673300000011
其中,PR(j)为访问节点j的概率,i、j、u均为图中节点,in(j)为指向节点j的节点集合,PR(i)为访问节点i的概率;ηi,j为节点i指向节点j的有向边的转移概率,如下设置:
若用户对视频发弹幕,则存在两节点相互指向的边,否则不存在边;用户节点指向视频节点的边的转移概率为nu,v/Nu,nu,v表示用户u对视频v发送的弹幕数,Nu为用户u发送的弹幕总数;
每一用户节点与每一主题节点之间均存在相互指向的边;用户节点指向主题节点的边的转移概率为
Figure FDA0002768673300000012
Figure FDA0002768673300000013
表示用户发送的弹幕c所属视频v属于主题k的概率,V表示视频总数;
每一视频节点与每一主题节点之间均存在相互指向的边;视频节点指向主题节点的边的转移概率为θv,k,θv,k表示视频v属于主题k的概率值;
视频节点指向用户节点的边的转移概率、主题节点指向用户节点的边的转移概率、主题节点指向视频节点的边的转移概率是根据节点i的出边数目取均值得到。
3.根据权利要求1所述的系统,其特征在于,所述的群组推荐模块,计算候选视频的主题分布向量ObjectVideo={<k1,relevance1>,<k2,relevance2>,...,<kK,relevanceK>},其中,K表示主题数量,kK表示第K个主题,relevanceK表示候选视频与第K个主题的相关度;
设隐式社群g对主题的喜好矩阵
Figure FDA0002768673300000021
其中,
Figure FDA0002768673300000022
表示隐式社群g对第K个主题的喜好程度;
计算候选视频的主题分布向量与各隐式社群对主题的喜好矩阵的相似度,如下:
Figure FDA0002768673300000023
其中,
Figure FDA0002768673300000024
4.一种基于隐式社群发现的社会化视频推荐方法,其特征在于,包括如下步骤:
步骤1,从视频服务网站爬取用户的弹幕数据,包括弹幕ID、时间戳、视频ID、用户ID以及弹幕评论内容;
步骤2,将每部视频的全部弹幕评论内容作为一个语料库单位,先对弹幕评论内容进行分词、去除停用词,获得词典和各视频的词向量,再利用文档主题生成模型LDA生成视频-主题分布矩阵θ和主题-词分布矩阵
Figure FDA0002768673300000025
并存入主题数据库;
步骤3,根据弹幕评论内容的用户以及视频-主题分布矩阵,构建“用户-主题-视频”三元图;三元图中的节点包括用户、主题和视频三种,节点之间通过有向边连接且具有权重,权重为边的转移概率;采用PersonalRank算法对三元图的用户节点进行游走,获得三元图的稳定状态,然后获得用户相似度矩阵和用户-主题喜好矩阵;
节点i指向节点j的边的转移概率为ηi,j,具体为:
若用户对视频发弹幕,则存在两节点相互指向的边,否则不存在边;当节点i和节点j分别对应用户u和视频v时,ηi,j=nu,v/Nu,nu,v表示用户u对视频v发送的弹幕数,Nu为用户u发送的弹幕总数;当节点i和节点j分别对应视频v和用户u时,ηi,j=1/|out(i)|,|out(i)|为节点i的出边数目;
每一用户节点与每一主题节点之间均存在相互指向的边;当节点i和节点j分别对应用户u和主题k时,
Figure FDA0002768673300000026
Figure FDA0002768673300000027
表示用户发送的弹幕c所属视频v属于主题k的概率,V表示视频总数;当节点i和节点j分别对应主题k和用户u时,ηi,j=1/|out(i)|;
每一视频节点与每一主题节点之间均存在相互指向的边;当节点i和节点j分别对应视频v和主题k时,ηi,j=θv,k,θv,k表示视频v属于主题k的概率值;当节点i和节点j分别对应主题k和视频v时,ηi,j=1/|out(i)|;
设在稳定状态下的三元图,得到节点间的重要度矩阵R;矩阵R中的第i行第j列元素取值为稳定状态的三元图中从节点j出发到达节点i的访问概率;从矩阵R中提取用户间的重要度子矩阵,作为用户相似度矩阵;
步骤4,基于用户相似度矩阵对用户进行聚类,获得隐式社群,再对用户-主题喜好矩阵合并,得到各隐式社群对主题的喜好矩阵;
步骤5,对候选视频集中的每个候选视频,计算其主题分布向量,再计算与各隐式社群对主题的喜好矩阵的相似度,按照相似度从高到低的顺序选取视频推荐序列。
5.根据权利要求4所述的方法,其特征在于,所述的步骤3中,采用改进的PersonalRank算法对三元图的用户节点进行游走,包括:
初始时,设置目标用户的访问概率为1,其余节点的访问概率均为0;
以概率d随机游走,访问节点概率的迭代公式如下:
Figure FDA0002768673300000031
其中,PR(j)为访问节点j的概率,i、j、u均为图中节点,in(j)为指向节点j的节点集合,PR(i)为访问节点i的概率。
6.根据权利要求4或5所述的方法,其特征在于,所述的步骤3中,三元图采用存储,对节点i指向节点j的边的转移概率为ηi,j进行归一化处理如下:
Figure FDA0002768673300000032
其中,η′i,j为对ηi,j处理后得到的值,out(i)为节点i指向的节点集合。
7.根据权利要求4所述的方法,其特征在于,所述的步骤3中,将随机游走的迭代过程转化为矩阵运算,将访问节点概率的迭代公式转换为矩阵表示,如下:
Figure FDA0002768673300000033
其中,
Figure FDA0002768673300000034
表示以节点u为起点时的访问节点概率PR初始状态向量,
Figure FDA0002768673300000035
分别表示从节点u出发迭代第几次和第(n-1)次的PR状态向量,M为转移概率矩阵,上角标T表示转置;当三元图经过若干次随机游走收敛后PR状态不再更新,则上式更新为:
Figure FDA0002768673300000036
其中,
Figure FDA0002768673300000037
表示从节点u出发达到稳态时的PR向量;进一步,将上式变形得到
Figure FDA0002768673300000038
的计算公式:
Figure FDA0002768673300000039
节点间的重要度矩阵R=(E-dMT)-1(1-d)。
CN202011241879.0A 2019-12-30 2020-11-09 基于隐式社群发现的社会化视频推荐系统与方法 Active CN112231579B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911389589 2019-12-30
CN2019113895898 2019-12-30

Publications (2)

Publication Number Publication Date
CN112231579A true CN112231579A (zh) 2021-01-15
CN112231579B CN112231579B (zh) 2022-10-28

Family

ID=74121582

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011241879.0A Active CN112231579B (zh) 2019-12-30 2020-11-09 基于隐式社群发现的社会化视频推荐系统与方法

Country Status (1)

Country Link
CN (1) CN112231579B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076828A (zh) * 2021-03-22 2021-07-06 北京达佳互联信息技术有限公司 视频编辑方法和装置以及模型训练方法和装置
CN113312514A (zh) * 2021-07-30 2021-08-27 平安科技(深圳)有限公司 结合Deepwalk及社区发现技术的分组方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226651A1 (en) * 2011-03-03 2012-09-06 Xerox Corporation System and method for recommending items in multi-relational environments
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN108737859A (zh) * 2018-05-07 2018-11-02 华东师范大学 基于弹幕的视频推荐方法和装置
CN110209946A (zh) * 2019-06-10 2019-09-06 合肥工业大学 基于社交和社群的产品推荐方法、系统和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120226651A1 (en) * 2011-03-03 2012-09-06 Xerox Corporation System and method for recommending items in multi-relational environments
US20180293505A1 (en) * 2017-04-06 2018-10-11 Universite Paris Descartes Method for clustering nodes of a textual network taking into account textual content, computer-readable storage device and system implementing said method
CN108513176A (zh) * 2017-12-06 2018-09-07 北京邮电大学 一种基于话题模型的社会化视频主题提取系统及方法
CN108737859A (zh) * 2018-05-07 2018-11-02 华东师范大学 基于弹幕的视频推荐方法和装置
CN110209946A (zh) * 2019-06-10 2019-09-06 合肥工业大学 基于社交和社群的产品推荐方法、系统和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113076828A (zh) * 2021-03-22 2021-07-06 北京达佳互联信息技术有限公司 视频编辑方法和装置以及模型训练方法和装置
CN113076828B (zh) * 2021-03-22 2023-11-28 北京达佳互联信息技术有限公司 视频编辑方法和装置以及模型训练方法和装置
CN113312514A (zh) * 2021-07-30 2021-08-27 平安科技(深圳)有限公司 结合Deepwalk及社区发现技术的分组方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112231579B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
Yi et al. Sampling-bias-corrected neural modeling for large corpus item recommendations
Liu et al. Related pins at pinterest: The evolution of a real-world recommender system
Wu et al. Tracing fake-news footprints: Characterizing social media messages by how they propagate
CN108363804B (zh) 基于用户聚类的局部模型加权融合Top-N电影推荐方法
CN111931062B (zh) 一种信息推荐模型的训练方法和相关装置
Wang et al. Sentiment analysis for social media images
US20150081725A1 (en) System and method for actively obtaining social data
Li et al. Long-tail hashtag recommendation for micro-videos with graph convolutional network
CN110795641B (zh) 基于表示学习的网络谣言传播控制方法
CN113806630B (zh) 基于注意力的多视角特征融合跨域推荐方法及装置
CN112231579B (zh) 基于隐式社群发现的社会化视频推荐系统与方法
Armentano et al. Recommending information sources to information seekers in Twitter
Acharya et al. Gamma process Poisson factorization for joint modeling of network and documents
Zhuang et al. Data summarization with social contexts
CN114817712A (zh) 一种基于多任务学习和知识图谱增强的项目推荐方法
Chen et al. Context-aware ensemble of multifaceted factorization models for recommendation prediction in social networks
Harakawa et al. Consensus clustering of tweet networks via semantic and sentiment similarity estimation
CN113051468B (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
CN103136309A (zh) 通过基于核的学习对社交强度进行建模
Xu et al. Towards annotating media contents through social diffusion analysis
CN113065342B (zh) 一种基于关联关系分析的课程推荐方法
CN114637909A (zh) 一种基于改进深度结构化语义模型的电影推荐系统及方法
CN114090848A (zh) 数据推荐及分类方法、特征融合模型及电子设备
Kawamae Real time recommendations from connoisseurs
Li et al. An effective deep learning approach for personalized advertisement service recommend

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant