CN107145612B - 一种主题相关的影响力用户发现和追踪方法 - Google Patents

一种主题相关的影响力用户发现和追踪方法 Download PDF

Info

Publication number
CN107145612B
CN107145612B CN201710488321.4A CN201710488321A CN107145612B CN 107145612 B CN107145612 B CN 107145612B CN 201710488321 A CN201710488321 A CN 201710488321A CN 107145612 B CN107145612 B CN 107145612B
Authority
CN
China
Prior art keywords
user
topic
link
distribution
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710488321.4A
Other languages
English (en)
Other versions
CN107145612A (zh
Inventor
苏森
张忠宝
王亚坤
常诚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CN201710488321.4A priority Critical patent/CN107145612B/zh
Publication of CN107145612A publication Critical patent/CN107145612A/zh
Application granted granted Critical
Publication of CN107145612B publication Critical patent/CN107145612B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)

Abstract

本发明公开了一种主题相关的影响力用户发现和追踪方法,通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,能够通过离线或在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。

Description

一种主题相关的影响力用户发现和追踪方法
技术领域
本发明涉及机器学习技术领域,特别是指一种主题相关的影响力用户发现和追踪方法。
背景技术
近年来,社交媒体发展迅速,许多商业应用(如广告、推荐)在社交媒体平台大量涌现。在社交媒体中,用户的影响力可以影响他人的观点和行为。因此,如何充分利用用户的影响力来提升商业应用的效果,成为了急需解决的技术问题。
通常,人们想要找到的是当下有影响力的用户,而影响力会随着时间推移动态变化,为了更准确地衡量用户的影响力,除了利用链接的数量,如何利用链接生成的时间来捕捉影响力的动态变化趋势也极其重要。然而现有技术中,例如现有技术中的Link-LDA方法和FLDA方法,通常只利用累积的链接数,如用户的粉丝数,来衡量用户在不同主题上的影响力,以至于他们通常会找到那些影响力已经过时的用户。
发明内容
有鉴于此,本发明的目的在于提出一种主题相关的影响力用户发现和追踪方法,能够发现和追踪社交媒体中主题相关的当下最具有影响力的用户,优化广告和推荐的应用。
基于上述目的本发明提供的一种主题相关的影响力用户发现和追踪方法,包括:
建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,并建立所述TIT模型;
确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA0001330992150000012
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
分析用户主题相关影响力分布:通过所述隐含参数和模型参数,得到不同时间在不同主题下的用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前时刻或之前任意时刻的用户主题相关影响力;其中,所述模型参数包括:α、β、γ、ε和ρ,其中α、β、γ、ε分别为θ、
Figure BDA0001330992150000011
σ、π的狄利克雷分布的超参数,ρ为μ的贝塔分布的超参数。
可选地,所述TIT模型包括用户-链接-时间模块和用户-单词模块;
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体内容进行建模,将各个用户的目标社交媒体内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure BDA0001330992150000028
可选地,所述TIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布
Figure BDA0001330992150000029
生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
可选地,所述利用吉布斯抽样,确定所述TIT模型中的隐含参数,包括:
单词分布主题zu,m的抽样公式为:
Figure BDA0001330992150000021
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数
Figure BDA0001330992150000022
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure BDA0001330992150000023
Figure BDA0001330992150000024
Figure BDA0001330992150000025
表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;
Figure BDA0001330992150000026
表示用户u的单词分配给第k个主题的次数,
Figure BDA0001330992150000027
表示用户u产生的链接f分配给第k个主题的次数;
链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure BDA0001330992150000031
当yu,l=0时
Figure BDA0001330992150000032
其中,抽样i表示(u,l);次数
Figure BDA0001330992150000033
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure BDA0001330992150000034
n(f,t)
Figure BDA0001330992150000035
Figure BDA0001330992150000036
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure BDA0001330992150000037
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure BDA0001330992150000038
表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,所述隐含参数确定为:
Figure BDA0001330992150000041
Figure BDA0001330992150000042
Figure BDA0001330992150000043
Figure BDA0001330992150000044
Figure BDA0001330992150000045
其中,T代表链接生成时间到当前时间中的某一时刻。
可选地,所述分析用户影响力分布的方法为:
通过所述不同时间在不同主题下的用户主题相关影响力分布σ,利用指数衰减得出用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Figure BDA0001330992150000046
其中,λ为控制影响力衰减速度的的参数,λ>0,t为链接f的生成时间。
本发明的另一方面,还提供一种主题相关的影响力用户发现和追踪方法,包括:
建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型;
确定隐含参数:利用吉布斯抽样,确定所述oTIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA0001330992150000048
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新;其中,所述模型参数包括αs、βs、γs、εs和ρs,αs、βs、γs、εs分别为θ、
Figure BDA0001330992150000047
σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数,s表示第s个数据流,其大小为δ',s=0,1,2,…;
分析用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
可选地,所述oTIT模型包括用户-链接-时间模块和用户-单词模块:
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure BDA0001330992150000053
可选地,所述oTIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布
Figure BDA0001330992150000051
生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
可选地,所述利用吉布斯抽样,确定所述oTIT模型中的隐含参数,包括:
所述单词分布主题zu,m的抽样公式为:
Figure BDA0001330992150000052
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数
Figure BDA0001330992150000061
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure BDA0001330992150000062
Figure BDA0001330992150000063
Figure BDA0001330992150000064
表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;
Figure BDA0001330992150000065
表示用户u的单词分配给第k个主题的次数,
Figure BDA0001330992150000066
表示用户u产生的链接f分配给第k个主题的次数;
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure BDA0001330992150000067
当yu,l=0时
Figure BDA0001330992150000068
其中,抽样i表示(u,l);次数
Figure BDA0001330992150000069
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure BDA00013309921500000610
n(f,t)
Figure BDA00013309921500000611
Figure BDA00013309921500000612
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure BDA00013309921500000613
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure BDA00013309921500000614
表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,流s中所述隐含参数确定为:
Figure BDA0001330992150000071
Figure BDA0001330992150000072
Figure BDA0001330992150000073
Figure BDA0001330992150000074
Figure BDA0001330992150000075
其中,(*)s表示流s中的对应参数。
可选地,所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
Figure BDA0001330992150000076
Figure BDA0001330992150000077
Figure BDA0001330992150000078
Figure BDA0001330992150000079
Figure BDA00013309921500000710
其中,λ'和λ均为控制影响力衰减速的的参数,可根据实际需要进行设置,λ'>0,λ>0;
Figure BDA00013309921500000711
表示在流s中u的单词中与主题k相关的次数,
Figure BDA00013309921500000712
表示在流s中主题k与第w个单词相关的次数,
Figure BDA00013309921500000713
表示在流s中用户u的所有连接中与用户u的主题兴趣相关的次数,
Figure BDA00013309921500000714
表示流s中链接f分配给第k个主题的次数,(n(f,t))s表示流s中链接f和主题无关的次数。通通过利用oTIT模型从当前数据流s中得到的数据更新oTIT模型中的模型参数αs、βs、γs、εs和ρs,得到更新后的模型参数αs+1、βs+1、γs+1、εs+1和ρs+1,并且将所述更新后的模型参数作为流s+1中的模型参数。
可选地,所述分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u
从上面所述可以看出,本发明提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,通过在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。
附图说明
图1为本发明实施例1一种主题相关的影响力用户发现和追踪方法流程示意图;
图2为本发明实施例1一种主题相关的影响力用户发现和追踪方法TIT模型示意图;
图3为本发明实施例2一种主题相关的影响力用户发现和追踪方法流程示意图;
图4为本发明实施例2一种主题相关的影响力用户发现和追踪方法oTIT模型示意图;
图5为本发明实施例一种主题相关的影响力用户发现和追踪方法在不同主题下与现有技术的准确度比较示意图;其中图5(a)为在医疗主题下不同方法准确度比较示意图,图5(b)为在电影主题下不同方法准确度比较示意图,图5(c)为在所有主题不同方法平均准确度比较示意图;
图6为本发明实施例一种主题相关的影响力用户发现和追踪方法人工评判对比示意图;
图7为本发明实施例一种主题相关的影响力用户发现和追踪方法效率比较示意图;
图8为本发明实施例一种主题相关的影响力用户发现和追踪方法内存消耗比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
实施例1:
本发明实施例1提供的一种主题相关的影响力用户发现和追踪方法利用TIT(Topic-level Influence over Time,主题相关的时间影响力分析模型)模型,能够以离线的方式发现主题相关当下有影响力的用户。
如图1所示,为本发明实施例1一种主题相关的影响力用户发现和追踪方法流程图。所述一种主题相关的影响力用户发现和追踪方法包括:
1.建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述TIT模型;
2.确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA0001330992150000091
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ(即用户主题相关影响力分布),以及主题无关的用户影响力的多项式分布π;
3.分析不同时间在不同主题下的用户主题相关影响力分布:通过所述隐含参数和模型参数,得到不同时间在不同主题下的用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前时刻或之前任意时刻的用户主题相关影响力;
所述模型参数包括:α、β、γ、ε和ρ,其中α、β、γ、ε分别为θ、
Figure BDA0001330992150000092
σ、π的狄利克雷分布的超参数,ρ为μ的贝塔分布的超参数,所述模型参数作为超参数,根据经验估计预先设置。
如图2所示,为本发明实施例1一种主题相关的影响力用户发现和追踪方法TIT模型示意图,所述TIT模型包括用户-链接-时间模块11和用户-单词模块12,其中,u表示第u个用户,u∈[1,U],U为用户的数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;f表示用户u关注另一用户产生的链接,t为链接f的生成时间;t'为第t'个时间片,所述时间片长度为δ,t'∈[1,T'],T'为时间片的数量;x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;K表示主题的数量;Nu为用户u的单词数量;Lu为用户u的链接数量。
用户-链接-时间模块11对用户u的链接f以及链接生成的时间进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,同时,将整个链接网络当做一个文档。在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词。用户-链接-时间模块11包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π。其中,μ用来判断f的生成是否是基于f产生者(用户u)的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t)。
用户-单词模块12对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用基于LDA(LatentDirichlet Allocation,隐含狄利克雷分布)的LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure BDA0001330992150000101
所述TIT模型的生成过程为:
一方面,利用用户u的主题分布θu,生成一个单词分布主题zu,m,其中m表示用户u的第m个单词,m∈[1,Nu],利用单词分布主题zu,m在单词上的分布
Figure BDA0001330992150000102
生成单词wu,m;同时,另一方面,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l
本发明实施例1利用吉布斯采样来推断并生成所述TIT模型中的隐含参数。则所述单词分布主题zu,m的抽样公式为:
Figure BDA0001330992150000103
抽样j表示(u,m),
Figure BDA0001330992150000104
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure BDA0001330992150000105
Figure BDA0001330992150000106
其中,
Figure BDA0001330992150000107
表示第w个单词分配给第k个主题的次数,k∈[1,K];
Figure BDA0001330992150000108
表示用户u的单词分配给第k个主题的次数,
Figure BDA0001330992150000109
表示用户u产生的链接分配给第k个主题的次数。
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure BDA00013309921500001010
当yu,l=0时
Figure BDA00013309921500001011
其中,抽样i表示(u,l),次数
Figure BDA0001330992150000111
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure BDA0001330992150000112
n(f,t)
Figure BDA0001330992150000113
Figure BDA0001330992150000114
其中,
Figure BDA0001330992150000115
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure BDA0001330992150000116
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure BDA0001330992150000117
表示用户u的所有链接中与u的主题兴趣无关的次数,ρ1和ρ0分别为参数ρ的两个不同的值。
在经过预定次数的抽样迭代后,通过如下公式确定所述隐含参数:
Figure BDA0001330992150000118
Figure BDA0001330992150000119
Figure BDA00013309921500001110
Figure BDA00013309921500001111
Figure BDA00013309921500001112
所述抽样迭代的次数根据实际需求进行设定。通过所述TIT模型,可以得到用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA00013309921500001113
主题在f和t上的多项式分布σ、主题无关的用户影响力的多项式分布π和用户在二元指示符y上的伯努利分布μ。
本发明实施例1提供的分析用户影响力分布的方法为:
通过所述不同时间在不同主题下的用户主题相关影响力分布σ,得到用户主题相关影响力随时间的变化,利用指数衰减得出用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Figure BDA00013309921500001114
其中,λ为控制影响力衰减速度的的参数,λ>0。当T为当前时间时,即可得到当前时间用户u在主题k下的影响力。
从上面所述可以看出,本发明实施例1提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,能够通过离线的方式全面而准确地发现和追踪有影响力的用户,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,并且能够得出用户影响力的动态变化及趋势。
实施例2
本发明实施例2提供的一种主题相关的影响力用户发现和追踪方法,通过构建oTIT(online Topic-level Influence over Time,在线主题相关的时间影响力分析模型)对以数据流形式到达的数据进行处理,实现在动态数据流中发现并追踪主题相关的影响力用户。
如图3所示,为本发明实施例2一种主题相关的影响力用户发现和追踪方法流程图。所述一种主题相关的影响力用户发现和追踪方法包括:
1.建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型。
2.确定oTIT模型的隐含参数:通过吉布斯抽样,确定所述oTIT模型的隐含参数,所述隐含参数包括用户u在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA0001330992150000121
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ(即用户主题相关影响力分布),以及主题无关的用户影响力的多项式分布π;
3.实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新,所述模型参数包括αs、βs、γs、εs和ρs,其中αs、βs、γs、εs分别为θ、
Figure BDA0001330992150000122
σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数;
4.分析不同时间在不同主题下的用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
如图4所示,为本发明实施例2一种主题相关的影响力用户发现和追踪方法oTIT模型示意图,所述oTIT模型包括用户-链接-时间模块41和用户-单词模块42,其中,u表示第u个用户,u∈[1,U],U为用户的数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;f表示用户u关注另一用户产生的链接;t为链接f的生成时间;t'为第t'个时间片,所述时间片长度为δ,t'∈[1,T'],T'为时间片的数量;s表示第s个数据流,其大小为δ',s=0,1,2,…,δ'的取值可根据结果的时间粒度需求设定;x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;K表示主题的数量;Nu为用户u的单词数量;Lu为用户u的链接数量。
用户-链接-时间模块41对用户u的链接f以及链接生成的时间进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,同时,将整个链接网络当做一个文档。在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词。用户-链接-时间模块11包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于f产生者(用户u)的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成链接f和链接生成时间t的组合(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t)。
用户-单词模块42对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用基于LDA(LatentDirichlet Allocation,隐含狄利克雷分布)的LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure BDA0001330992150000131
所述oTIT模型的生成过程为:
一方面,利用用户u的主题分布θu,生成一个单词分布主题zu,m,其中m表示用户u的第m个单词,m∈[1,Nu],利用单词分布主题zu,m在单词上的分布
Figure BDA0001330992150000132
生成单词wu,m;同时,另一方面,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l
本发明实施例2利用吉布斯采样来推断并生成所述oTIT模型中的隐含参数。则所述单词分布主题zu,m的抽样公式为:
Figure BDA0001330992150000133
抽样j表示(u,m),
Figure BDA0001330992150000134
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure BDA0001330992150000135
Figure BDA0001330992150000136
其中,
Figure BDA0001330992150000137
表示第w个单词分配给第k个主题的次数,k∈[1,K];
Figure BDA0001330992150000138
表示用户u的单词分配给第k个主题的次数,
Figure BDA0001330992150000139
表示用户u产生的链接分配给第k个主题的次数。
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure BDA0001330992150000141
当yu,l=0时
Figure BDA0001330992150000142
其中,抽样i表示(u,l),次数
Figure BDA0001330992150000143
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure BDA0001330992150000144
n(f,t)
Figure BDA0001330992150000145
Figure BDA0001330992150000146
其中,
Figure BDA0001330992150000147
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure BDA0001330992150000148
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure BDA0001330992150000149
表示用户u的所有链接中与u的主题兴趣无关的次数,ρ1和ρ0分别为参数ρ的两个不同的值。
在经过足够次数的抽样迭代后,通过如下公式确定所述隐含参数:
Figure BDA00013309921500001410
Figure BDA00013309921500001411
Figure BDA00013309921500001412
Figure BDA00013309921500001413
Figure BDA00013309921500001414
其中,(*)s表示流s中的对应参数;通过所述oTIT模型,可以得到用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure BDA0001330992150000151
主题在f和t上的多项式分布σ、主题无关的用户影响力的多项式分布π和用户在二元指示符y上的伯努利分布μ。
所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
Figure BDA0001330992150000152
Figure BDA0001330992150000153
Figure BDA0001330992150000154
Figure BDA0001330992150000155
Figure BDA0001330992150000156
其中,λ'和λ均为控制影响力衰减速的的参数,可根据实际需要进行设置,λ'>0,λ>0;
Figure BDA0001330992150000157
表示在流s中u的单词中与主题k相关的次数,
Figure BDA0001330992150000158
表示在流s中主题k与第w个单词相关的次数,
Figure BDA0001330992150000159
表示在流s中用户u的所有连接中与用户u的主题兴趣相关的次数,
Figure BDA00013309921500001510
表示流s中链接f分配给第k个主题的次数,(n(f,t))s表示流s中链接f和主题无关的次数。通过利用oTIT模型从当前数据流s中得到的数据更新oTIT模型中的模型参数αs、βs、γs、εs和ρs,得到更新后的模型参数αs+1、βs+1、γs+1、εs+1和ρs+1,并且将所述更新后的模型参数作为流s+1中的模型参数。
本发明实施例2提供的分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u
从上面所述可以看出,本发明实施例2提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,通过在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。
利用本发明提供的一种主题相关的影响力用户发现和追踪方法(oTIT模型)与现有技术中的Link-LDA方法和FLDA方法,同时对同一数据集进行处理,发掘所述数据集中的主题相关影响力用户,得到的比较结果如下:
所述数据集为来自新浪微博的时间跨度为从2015年12月1号到2016年1月5号的数据所述数据集包含0.4M用户、207M的单词和4.6M的用户关注关系(其中0.7M的用户关注关系包含时间信息),时间片长度δ=1.5天,时间片数量t的范围为1到24,第24各个时间片表示距离现在最近的时间片。其中一个数据流包含4个时间片,数据流的大小δ'=6,数据流个数s的范围为1到6。对于没有时间信息的关注信息,随机指派一个从-400到0的值,这部分数据作为数据流s=0的信息;主题数K=100,oTIT模型的初始模型参数设置为:
Figure BDA0001330992150000161
β=γ=ε=0.01,ρ=1;设置λ'→+∞,吉布斯采样的迭代次数为500,通过最小化训练集的困惑度,确定并设置λ=11。
如图5所示,为本发明实施例一种主题相关的影响力用户发现和追踪方法在不同主题下与现有技术的准确度比较示意图;其中图5(a)为在医疗主题下不同方法准确度比较示意图,图5(b)为在电影主题下不同方法准确度比较示意图,图5(c)为在所有主题不同方法平均准确度比较示意图,所述准确度比较以新浪微博给出的不同主题下用户流行度的前100名为参考标准,将不同方法得到的排名中前k名用户中出现在参考标准中的比例做为准确度,可以看出,本发明实施例提供的一种主题相关的影响力用户发现和追踪方法相比现有技术能够更准确地发掘数据集中的影响力用户。
如图6所示,为本发明提供的人工评判对比示意图,分别提取每一不同主题下由3种方法得到的排序结果中的前20个用户,并将提取得到的每一不同主题下的不超过60个用户的充分混合的结果作为待测样本,由同一组由大量用户组成的评判组对每一不同主题下的待测样本进行相关性评判,所述相关性评判依据相应主题下用户的流行程度,评价标准为:3分:极好、2分:好、1分:一般和0分:差。3种方法取得的结果的平均得分如图5所示,可以看出本采用发明实施例提供的一种主题相关的影响力用户发现和追踪方法得到的用户影响力结果更符合人工评判的标准,准确性更高。
如图7所示,为本发明提供的效率比较示意图,如图8所示,为本发明提供的内存消耗比较示意图,3种方法处理相同的数据时的时间消耗和内存消耗分别如图7和图8所示,可以看出在处理相同的数据的情况下,本发明实施例提供的一种主题相关的影响力用户发现和追踪方法具有更低的内存消耗和时间消耗,由于采用了oTIT模型进行在线发现和追踪,每次仅需要对新到的数据流进行处理,内存消耗和处理时间都仅仅取决于新到的数据流的大小,相比现有技术的处理方式,处理效率和系统消耗都大大降低,大大提高了影响力用户的发现和追踪效率。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种主题相关的影响力用户发现和追踪方法,其特征在于,包括:
建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,并建立所述TIT模型;
确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure FDA0002592713900000011
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
分析用户主题相关影响力分布:通过所述隐含参数和模型参数,得到不同时间在不同主题下的用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前时刻或之前任意时刻的用户主题相关影响力;其中,所述模型参数包括:α、β、γ、ε和ρ,其中α、β、γ、ε分别为θ、
Figure FDA0002592713900000012
σ、π的狄利克雷分布的超参数,ρ为μ的贝塔分布的超参数。
2.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述TIT模型包括用户-链接-时间模块和用户-单词模块;
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体内容进行建模,将各个用户的目标社交媒体内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure FDA0002592713900000013
3.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述TIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布
Figure FDA0002592713900000014
生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
4.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用吉布斯抽样,确定所述TIT模型中的隐含参数,包括:
单词分布主题zu,m的抽样公式为:
Figure FDA0002592713900000021
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数
Figure FDA0002592713900000022
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure FDA0002592713900000023
Figure FDA0002592713900000024
Figure FDA0002592713900000025
Figure FDA0002592713900000026
表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;
Figure FDA0002592713900000027
表示用户u的单词分配给第k个主题的次数,
Figure FDA0002592713900000028
表示用户u产生的链接f分配给第k个主题的次数;
链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure FDA0002592713900000029
当yu,l=0时
Figure FDA00025927139000000210
其中,抽样i表示(u,l);次数
Figure FDA00025927139000000211
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure FDA00025927139000000212
n(f,t)
Figure FDA00025927139000000213
Figure FDA00025927139000000214
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure FDA00025927139000000215
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure FDA0002592713900000031
表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,所述隐含参数确定为:
Figure FDA0002592713900000032
Figure FDA0002592713900000033
Figure FDA0002592713900000034
Figure FDA0002592713900000035
Figure FDA0002592713900000036
其中,T代表链接生成时间到当前时间中的某一时刻。
5.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述分析用户影响力分布的方法为:
通过所述不同时间在不同主题下的用户主题相关影响力分布σ,利用指数衰减得出用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Figure FDA0002592713900000037
其中,λ为控制影响力衰减速度参数,λ>0,t为链接f的生成时间。
6.一种主题相关的影响力用户发现和追踪方法,其特征在于,包括:
建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型;
确定隐含参数:利用吉布斯抽样,确定所述oTIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布
Figure FDA0002592713900000038
用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新;其中,所述模型参数包括αs、βs、γs、εs和ρs,αs、βs、γs、εs分别为θ、
Figure FDA0002592713900000041
σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数,s表示第s个数据流,其大小为δ',s=0,1,2,…;
分析用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
7.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述oTIT模型包括用户-链接-时间模块和用户-单词模块:
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
Figure FDA0002592713900000043
8.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述oTIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布
Figure FDA0002592713900000042
生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
9.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用吉布斯抽样,确定所述oTIT模型中的隐含参数,包括:
所述单词分布主题zu,m的抽样公式为:
Figure FDA0002592713900000051
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数
Figure FDA0002592713900000052
表示将元素j从相应的文档中去掉;通过抽样,得出
Figure FDA0002592713900000053
Figure FDA0002592713900000054
Figure FDA0002592713900000055
Figure FDA0002592713900000056
表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;
Figure FDA0002592713900000057
表示用户u的单词分配给第k个主题的次数,
Figure FDA0002592713900000058
表示用户u产生的链接f分配给第k个主题的次数;
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
Figure FDA0002592713900000059
当yu,l=0时
Figure FDA00025927139000000510
其中,抽样i表示(u,l);次数
Figure FDA00025927139000000511
表示将元素i从相应的文档中去掉;通过抽样,得到
Figure FDA00025927139000000512
n(f,t)
Figure FDA00025927139000000513
Figure FDA00025927139000000514
Figure FDA00025927139000000515
表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,
Figure FDA00025927139000000516
表示用户u的所有链接中与u的主题兴趣相关的次数,
Figure FDA00025927139000000517
表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,流s中所述隐含参数确定为:
Figure FDA0002592713900000061
Figure FDA0002592713900000062
Figure FDA0002592713900000063
Figure FDA0002592713900000064
Figure FDA0002592713900000065
其中,(*)s表示流s中的对应参数。
10.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
Figure FDA0002592713900000066
Figure FDA0002592713900000067
Figure FDA0002592713900000068
Figure FDA0002592713900000069
Figure FDA00025927139000000610
其中,λ'和λ均为控制影响力衰减速参数,可根据实际需要进行设置,λ'>0,λ>0;
Figure FDA0002592713900000071
表示在流s中u的单词中与主题k相关的次数,
Figure FDA0002592713900000072
表示在流s中主题k与第w个单词相关的次数,
Figure FDA0002592713900000073
表示在流s中用户u的所有连接中与用户u的主题兴趣相关的次数,
Figure FDA0002592713900000074
表示流s中链接f分配给第k个主题的次数,(n(f,t))s表示流s中链接f和主题无关的次数,通过利用oTIT模型从当前数据流s中得到的数据更新oTIT模型中的模型参数αs、βs、γs、εs和ρs,得到更新后的模型参数αs+1、βs+1、γs+1、εs+1和ρs+1,并且将所述更新后的模型参数作为流s+1中的模型参数。
11.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u
CN201710488321.4A 2017-06-23 2017-06-23 一种主题相关的影响力用户发现和追踪方法 Active CN107145612B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710488321.4A CN107145612B (zh) 2017-06-23 2017-06-23 一种主题相关的影响力用户发现和追踪方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710488321.4A CN107145612B (zh) 2017-06-23 2017-06-23 一种主题相关的影响力用户发现和追踪方法

Publications (2)

Publication Number Publication Date
CN107145612A CN107145612A (zh) 2017-09-08
CN107145612B true CN107145612B (zh) 2020-11-10

Family

ID=59782237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710488321.4A Active CN107145612B (zh) 2017-06-23 2017-06-23 一种主题相关的影响力用户发现和追踪方法

Country Status (1)

Country Link
CN (1) CN107145612B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109508444B (zh) * 2018-12-18 2022-11-04 桂林电子科技大学 区间量测下交互式多模广义标签多伯努利的快速跟踪方法
CN110209962B (zh) * 2019-06-12 2021-02-26 合肥工业大学 主题层次高影响力用户的获取方法和系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886105A (zh) * 2014-04-11 2014-06-25 北京工业大学 一种基于社交网络用户行为的用户影响力分析方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101770487A (zh) * 2008-12-26 2010-07-07 聚友空间网络技术有限公司 社交网络中用户影响力的计算方法和系统
CN102663101B (zh) * 2012-04-13 2015-10-28 北京交通大学 一种基于新浪微博的用户等级排序算法
US9558273B2 (en) * 2012-09-21 2017-01-31 Appinions Inc. System and method for generating influencer scores
US9294576B2 (en) * 2013-01-02 2016-03-22 Microsoft Technology Licensing, Llc Social media impact assessment

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886105A (zh) * 2014-04-11 2014-06-25 北京工业大学 一种基于社交网络用户行为的用户影响力分析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Topic-Level Influencers Identification in the Microblog;YakunWang and Zhongbao Zhang and Sen Su and Cheng Chang and Muha;《The Authors and IOS Press.》;20161231;1559-1560 *

Also Published As

Publication number Publication date
CN107145612A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN109902708B (zh) 一种推荐模型训练方法及相关装置
Preoţiuc-Pietro et al. A temporal model of text periodicities using Gaussian Processes
Ziegler et al. Taxonomy-driven computation of product recommendations
Mair et al. An investigation of machine learning based prediction systems
Zhou et al. Exploring social annotations for information retrieval
Lu et al. Selective transfer learning for cross domain recommendation
CN109033408B (zh) 信息推送方法及装置、计算机可读存储介质、电子设备
US20210158713A1 (en) Method, apparatus, and computer program for operating machine-learning framework
CN110647678B (zh) 一种基于用户性格标签的推荐方法
CN109582875A (zh) 一种在线医疗教育资源的个性化推荐方法及系统
Wachs et al. Why do men get more attention? Exploring factors behind success in an online design community
Ziegler et al. Exploiting semantic product descriptions for recommender systems
Jaffe et al. Modelling human behaviour in cognitive tasks with latent dynamical systems
CN107145612B (zh) 一种主题相关的影响力用户发现和追踪方法
WO2019228000A1 (zh) 用户评论价值的评估方法及装置
Pornprasertmanit et al. A Monte Carlo approach for nested model comparisons in structural equation modeling
Moniz et al. A framework for recommendation of highly popular news lacking social feedback
CN110457895A (zh) 一种pc应用程序违规内容监测方法及装置
Chen et al. Learning with noisy foundation models
Gündüz et al. A poisson model for user accesses to web pages
Yu et al. The research of the recommendation algorithm in online learning
De Roover et al. How to detect which variables are causing differences in component structure among different groups
Balayn et al. Characterising and mitigating aggregation-bias in crowdsourced toxicity annotations
Scott et al. Radiology reports: a quantifiable and objective textual approach
Poslavskaya et al. Encoding categorical data: Is there yet anything'hotter'than one-hot encoding?

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant