CN107145612B - 一种主题相关的影响力用户发现和追踪方法 - Google Patents
一种主题相关的影响力用户发现和追踪方法 Download PDFInfo
- Publication number
- CN107145612B CN107145612B CN201710488321.4A CN201710488321A CN107145612B CN 107145612 B CN107145612 B CN 107145612B CN 201710488321 A CN201710488321 A CN 201710488321A CN 107145612 B CN107145612 B CN 107145612B
- Authority
- CN
- China
- Prior art keywords
- user
- topic
- link
- distribution
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 69
- 238000005070 sampling Methods 0.000 claims description 43
- 230000001419 dependent effect Effects 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 238000013016 damping Methods 0.000 claims description 2
- 230000001276 controlling effect Effects 0.000 abstract description 7
- 235000019580 granularity Nutrition 0.000 abstract description 4
- 230000007547 defect Effects 0.000 abstract description 3
- 230000001105 regulatory effect Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 15
- 239000000203 mixture Substances 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
Abstract
本发明公开了一种主题相关的影响力用户发现和追踪方法,通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,能够通过离线或在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。
Description
技术领域
本发明涉及机器学习技术领域,特别是指一种主题相关的影响力用户发现和追踪方法。
背景技术
近年来,社交媒体发展迅速,许多商业应用(如广告、推荐)在社交媒体平台大量涌现。在社交媒体中,用户的影响力可以影响他人的观点和行为。因此,如何充分利用用户的影响力来提升商业应用的效果,成为了急需解决的技术问题。
通常,人们想要找到的是当下有影响力的用户,而影响力会随着时间推移动态变化,为了更准确地衡量用户的影响力,除了利用链接的数量,如何利用链接生成的时间来捕捉影响力的动态变化趋势也极其重要。然而现有技术中,例如现有技术中的Link-LDA方法和FLDA方法,通常只利用累积的链接数,如用户的粉丝数,来衡量用户在不同主题上的影响力,以至于他们通常会找到那些影响力已经过时的用户。
发明内容
有鉴于此,本发明的目的在于提出一种主题相关的影响力用户发现和追踪方法,能够发现和追踪社交媒体中主题相关的当下最具有影响力的用户,优化广告和推荐的应用。
基于上述目的本发明提供的一种主题相关的影响力用户发现和追踪方法,包括:
建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,并建立所述TIT模型;
确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
分析用户主题相关影响力分布:通过所述隐含参数和模型参数,得到不同时间在不同主题下的用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前时刻或之前任意时刻的用户主题相关影响力;其中,所述模型参数包括:α、β、γ、ε和ρ,其中α、β、γ、ε分别为θ、σ、π的狄利克雷分布的超参数,ρ为μ的贝塔分布的超参数。
可选地,所述TIT模型包括用户-链接-时间模块和用户-单词模块;
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体内容进行建模,将各个用户的目标社交媒体内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
可选地,所述TIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
可选地,所述利用吉布斯抽样,确定所述TIT模型中的隐含参数,包括:
单词分布主题zu,m的抽样公式为:
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数表示将元素j从相应的文档中去掉;通过抽样,得出 和表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接f分配给第k个主题的次数;
链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l);次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,所述隐含参数确定为:
其中,T代表链接生成时间到当前时间中的某一时刻。
可选地,所述分析用户影响力分布的方法为:
通过所述不同时间在不同主题下的用户主题相关影响力分布σ,利用指数衰减得出用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
其中,λ为控制影响力衰减速度的的参数,λ>0,t为链接f的生成时间。
本发明的另一方面,还提供一种主题相关的影响力用户发现和追踪方法,包括:
建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型;
确定隐含参数:利用吉布斯抽样,确定所述oTIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新;其中,所述模型参数包括αs、βs、γs、εs和ρs,αs、βs、γs、εs分别为θ、σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数,s表示第s个数据流,其大小为δ',s=0,1,2,…;
分析用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
可选地,所述oTIT模型包括用户-链接-时间模块和用户-单词模块:
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
所述用户-单词模块对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
可选地,所述oTIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
可选地,所述利用吉布斯抽样,确定所述oTIT模型中的隐含参数,包括:
所述单词分布主题zu,m的抽样公式为:
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数表示将元素j从相应的文档中去掉;通过抽样,得出 和表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接f分配给第k个主题的次数;
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l);次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,流s中所述隐含参数确定为:
其中,(*)s表示流s中的对应参数。
可选地,所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
其中,λ'和λ均为控制影响力衰减速的的参数,可根据实际需要进行设置,λ'>0,λ>0;表示在流s中u的单词中与主题k相关的次数,表示在流s中主题k与第w个单词相关的次数,表示在流s中用户u的所有连接中与用户u的主题兴趣相关的次数,表示流s中链接f分配给第k个主题的次数,(n(f,t))s表示流s中链接f和主题无关的次数。通通过利用oTIT模型从当前数据流s中得到的数据更新oTIT模型中的模型参数αs、βs、γs、εs和ρs,得到更新后的模型参数αs+1、βs+1、γs+1、εs+1和ρs+1,并且将所述更新后的模型参数作为流s+1中的模型参数。
可选地,所述分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u。
从上面所述可以看出,本发明提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,通过在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。
附图说明
图1为本发明实施例1一种主题相关的影响力用户发现和追踪方法流程示意图;
图2为本发明实施例1一种主题相关的影响力用户发现和追踪方法TIT模型示意图;
图3为本发明实施例2一种主题相关的影响力用户发现和追踪方法流程示意图;
图4为本发明实施例2一种主题相关的影响力用户发现和追踪方法oTIT模型示意图;
图5为本发明实施例一种主题相关的影响力用户发现和追踪方法在不同主题下与现有技术的准确度比较示意图;其中图5(a)为在医疗主题下不同方法准确度比较示意图,图5(b)为在电影主题下不同方法准确度比较示意图,图5(c)为在所有主题不同方法平均准确度比较示意图;
图6为本发明实施例一种主题相关的影响力用户发现和追踪方法人工评判对比示意图;
图7为本发明实施例一种主题相关的影响力用户发现和追踪方法效率比较示意图;
图8为本发明实施例一种主题相关的影响力用户发现和追踪方法内存消耗比较示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
实施例1:
本发明实施例1提供的一种主题相关的影响力用户发现和追踪方法利用TIT(Topic-level Influence over Time,主题相关的时间影响力分析模型)模型,能够以离线的方式发现主题相关当下有影响力的用户。
如图1所示,为本发明实施例1一种主题相关的影响力用户发现和追踪方法流程图。所述一种主题相关的影响力用户发现和追踪方法包括:
1.建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述TIT模型;
2.确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ(即用户主题相关影响力分布),以及主题无关的用户影响力的多项式分布π;
3.分析不同时间在不同主题下的用户主题相关影响力分布:通过所述隐含参数和模型参数,得到不同时间在不同主题下的用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前时刻或之前任意时刻的用户主题相关影响力;
如图2所示,为本发明实施例1一种主题相关的影响力用户发现和追踪方法TIT模型示意图,所述TIT模型包括用户-链接-时间模块11和用户-单词模块12,其中,u表示第u个用户,u∈[1,U],U为用户的数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;f表示用户u关注另一用户产生的链接,t为链接f的生成时间;t'为第t'个时间片,所述时间片长度为δ,t'∈[1,T'],T'为时间片的数量;x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;K表示主题的数量;Nu为用户u的单词数量;Lu为用户u的链接数量。
用户-链接-时间模块11对用户u的链接f以及链接生成的时间进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,同时,将整个链接网络当做一个文档。在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词。用户-链接-时间模块11包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π。其中,μ用来判断f的生成是否是基于f产生者(用户u)的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t)。
用户-单词模块12对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用基于LDA(LatentDirichlet Allocation,隐含狄利克雷分布)的LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
所述TIT模型的生成过程为:
一方面,利用用户u的主题分布θu,生成一个单词分布主题zu,m,其中m表示用户u的第m个单词,m∈[1,Nu],利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,另一方面,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l。
本发明实施例1利用吉布斯采样来推断并生成所述TIT模型中的隐含参数。则所述单词分布主题zu,m的抽样公式为:
抽样j表示(u,m),表示将元素j从相应的文档中去掉;通过抽样,得出和其中,表示第w个单词分配给第k个主题的次数,k∈[1,K];表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接分配给第k个主题的次数。
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l),次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和其中,表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数,ρ1和ρ0分别为参数ρ的两个不同的值。
在经过预定次数的抽样迭代后,通过如下公式确定所述隐含参数:
所述抽样迭代的次数根据实际需求进行设定。通过所述TIT模型,可以得到用户在主题上的多项式分布θ、主题在单词上的多项式分布主题在f和t上的多项式分布σ、主题无关的用户影响力的多项式分布π和用户在二元指示符y上的伯努利分布μ。
本发明实施例1提供的分析用户影响力分布的方法为:
通过所述不同时间在不同主题下的用户主题相关影响力分布σ,得到用户主题相关影响力随时间的变化,利用指数衰减得出用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
其中,λ为控制影响力衰减速度的的参数,λ>0。当T为当前时间时,即可得到当前时间用户u在主题k下的影响力。
从上面所述可以看出,本发明实施例1提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,能够通过离线的方式全面而准确地发现和追踪有影响力的用户,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,并且能够得出用户影响力的动态变化及趋势。
实施例2
本发明实施例2提供的一种主题相关的影响力用户发现和追踪方法,通过构建oTIT(online Topic-level Influence over Time,在线主题相关的时间影响力分析模型)对以数据流形式到达的数据进行处理,实现在动态数据流中发现并追踪主题相关的影响力用户。
如图3所示,为本发明实施例2一种主题相关的影响力用户发现和追踪方法流程图。所述一种主题相关的影响力用户发现和追踪方法包括:
1.建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型。
2.确定oTIT模型的隐含参数:通过吉布斯抽样,确定所述oTIT模型的隐含参数,所述隐含参数包括用户u在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ(即用户主题相关影响力分布),以及主题无关的用户影响力的多项式分布π;
3.实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新,所述模型参数包括αs、βs、γs、εs和ρs,其中αs、βs、γs、εs分别为θ、σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数;
4.分析不同时间在不同主题下的用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
如图4所示,为本发明实施例2一种主题相关的影响力用户发现和追踪方法oTIT模型示意图,所述oTIT模型包括用户-链接-时间模块41和用户-单词模块42,其中,u表示第u个用户,u∈[1,U],U为用户的数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;f表示用户u关注另一用户产生的链接;t为链接f的生成时间;t'为第t'个时间片,所述时间片长度为δ,t'∈[1,T'],T'为时间片的数量;s表示第s个数据流,其大小为δ',s=0,1,2,…,δ'的取值可根据结果的时间粒度需求设定;x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;K表示主题的数量;Nu为用户u的单词数量;Lu为用户u的链接数量。
用户-链接-时间模块41对用户u的链接f以及链接生成的时间进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,同时,将整个链接网络当做一个文档。在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词。用户-链接-时间模块11包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于f产生者(用户u)的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成链接f和链接生成时间t的组合(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t)。
用户-单词模块42对用户的目标社交媒体中的内容进行建模,将各个用户的目标社交媒体中的内容分别整合为一个文档,并对整合后的所有文档利用基于LDA(LatentDirichlet Allocation,隐含狄利克雷分布)的LDA主题模型来发现用户潜在的主题,从而得到用户在主题上的多项式分布θ,以及主题在单词上的多项式分布
所述oTIT模型的生成过程为:
一方面,利用用户u的主题分布θu,生成一个单词分布主题zu,m,其中m表示用户u的第m个单词,m∈[1,Nu],利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,另一方面,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l。
本发明实施例2利用吉布斯采样来推断并生成所述oTIT模型中的隐含参数。则所述单词分布主题zu,m的抽样公式为:
抽样j表示(u,m),表示将元素j从相应的文档中去掉;通过抽样,得出和其中,表示第w个单词分配给第k个主题的次数,k∈[1,K];表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接分配给第k个主题的次数。
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l),次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和其中,表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数,ρ1和ρ0分别为参数ρ的两个不同的值。
在经过足够次数的抽样迭代后,通过如下公式确定所述隐含参数:
其中,(*)s表示流s中的对应参数;通过所述oTIT模型,可以得到用户在主题上的多项式分布θ、主题在单词上的多项式分布主题在f和t上的多项式分布σ、主题无关的用户影响力的多项式分布π和用户在二元指示符y上的伯努利分布μ。
所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
其中,λ'和λ均为控制影响力衰减速的的参数,可根据实际需要进行设置,λ'>0,λ>0;表示在流s中u的单词中与主题k相关的次数,表示在流s中主题k与第w个单词相关的次数,表示在流s中用户u的所有连接中与用户u的主题兴趣相关的次数,表示流s中链接f分配给第k个主题的次数,(n(f,t))s表示流s中链接f和主题无关的次数。通过利用oTIT模型从当前数据流s中得到的数据更新oTIT模型中的模型参数αs、βs、γs、εs和ρs,得到更新后的模型参数αs+1、βs+1、γs+1、εs+1和ρs+1,并且将所述更新后的模型参数作为流s+1中的模型参数。
本发明实施例2提供的分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u
从上面所述可以看出,本发明实施例2提供的一种主题相关的影响力用户发现和追踪方法通过结合考虑时间因素以及主题相关性的手段,适应影响力随时间的动态变化,并且通过调控数据流的大小,能够获得具有不同时间粒度的结果,通过在线的方式全面而准确地发现和追踪有影响力的用户,更精确地反映用户的影响力变化,克服了仅仅利用累计链接找到过时的影响力用户的技术缺陷,能够得出用户影响力的动态变化及趋势,并进行实时跟踪。
利用本发明提供的一种主题相关的影响力用户发现和追踪方法(oTIT模型)与现有技术中的Link-LDA方法和FLDA方法,同时对同一数据集进行处理,发掘所述数据集中的主题相关影响力用户,得到的比较结果如下:
所述数据集为来自新浪微博的时间跨度为从2015年12月1号到2016年1月5号的数据所述数据集包含0.4M用户、207M的单词和4.6M的用户关注关系(其中0.7M的用户关注关系包含时间信息),时间片长度δ=1.5天,时间片数量t的范围为1到24,第24各个时间片表示距离现在最近的时间片。其中一个数据流包含4个时间片,数据流的大小δ'=6,数据流个数s的范围为1到6。对于没有时间信息的关注信息,随机指派一个从-400到0的值,这部分数据作为数据流s=0的信息;主题数K=100,oTIT模型的初始模型参数设置为:β=γ=ε=0.01,ρ=1;设置λ'→+∞,吉布斯采样的迭代次数为500,通过最小化训练集的困惑度,确定并设置λ=11。
如图5所示,为本发明实施例一种主题相关的影响力用户发现和追踪方法在不同主题下与现有技术的准确度比较示意图;其中图5(a)为在医疗主题下不同方法准确度比较示意图,图5(b)为在电影主题下不同方法准确度比较示意图,图5(c)为在所有主题不同方法平均准确度比较示意图,所述准确度比较以新浪微博给出的不同主题下用户流行度的前100名为参考标准,将不同方法得到的排名中前k名用户中出现在参考标准中的比例做为准确度,可以看出,本发明实施例提供的一种主题相关的影响力用户发现和追踪方法相比现有技术能够更准确地发掘数据集中的影响力用户。
如图6所示,为本发明提供的人工评判对比示意图,分别提取每一不同主题下由3种方法得到的排序结果中的前20个用户,并将提取得到的每一不同主题下的不超过60个用户的充分混合的结果作为待测样本,由同一组由大量用户组成的评判组对每一不同主题下的待测样本进行相关性评判,所述相关性评判依据相应主题下用户的流行程度,评价标准为:3分:极好、2分:好、1分:一般和0分:差。3种方法取得的结果的平均得分如图5所示,可以看出本采用发明实施例提供的一种主题相关的影响力用户发现和追踪方法得到的用户影响力结果更符合人工评判的标准,准确性更高。
如图7所示,为本发明提供的效率比较示意图,如图8所示,为本发明提供的内存消耗比较示意图,3种方法处理相同的数据时的时间消耗和内存消耗分别如图7和图8所示,可以看出在处理相同的数据的情况下,本发明实施例提供的一种主题相关的影响力用户发现和追踪方法具有更低的内存消耗和时间消耗,由于采用了oTIT模型进行在线发现和追踪,每次仅需要对新到的数据流进行处理,内存消耗和处理时间都仅仅取决于新到的数据流的大小,相比现有技术的处理方式,处理效率和系统消耗都大大降低,大大提高了影响力用户的发现和追踪效率。
所属领域的普通技术人员应当理解:以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (11)
1.一种主题相关的影响力用户发现和追踪方法,其特征在于,包括:
建立TIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,并建立所述TIT模型;
确定隐含参数:利用吉布斯抽样,确定所述TIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
2.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述TIT模型包括用户-链接-时间模块和用户-单词模块;
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
3.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述TIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
4.根据权利要求1所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用吉布斯抽样,确定所述TIT模型中的隐含参数,包括:
单词分布主题zu,m的抽样公式为:
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数表示将元素j从相应的文档中去掉;通过抽样,得出 和 表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接f分配给第k个主题的次数;
链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l);次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,所述隐含参数确定为:
其中,T代表链接生成时间到当前时间中的某一时刻。
6.一种主题相关的影响力用户发现和追踪方法,其特征在于,包括:
建立oTIT模型:获取用户的目标社交媒体中的文本数据、链接以及链接生成的时间数据,建立所述oTIT模型;
确定隐含参数:利用吉布斯抽样,确定所述oTIT模型中的隐含参数;其中,所述隐含参数包括用户在主题上的多项式分布θ、主题在单词上的多项式分布用户在二元指示符y上的伯努利分布μ,主题在链接f和链接生成时间t上的多项式分布σ,以及主题无关的用户影响力的多项式分布π;
实时更新模型参数:利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数,实现对所述模型参数的实时更新;其中,所述模型参数包括αs、βs、γs、εs和ρs,αs、βs、γs、εs分别为θ、σ、π的在流s中的狄利克雷分布的超参数,ρs为μ的在流s中的贝塔分布的超参数,s表示第s个数据流,其大小为δ',s=0,1,2,…;
分析用户主题相关影响力分布:通过所述隐含参数和更新后的所述模型参数,得到用户主题相关影响力分布σ,得出用户主题相关影响力随时间的变化,从而得出当前数据流下的用户主题相关影响力。
7.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述oTIT模型包括用户-链接-时间模块和用户-单词模块:
所述用户-链接-时间模块对用户u的链接f以及链接生成的时间t进行建模,将链接f生成时间t到当前时刻的时间段分成T'个时间片,其中u表示第u个用户,u∈[1,U],U为用户的数量,同时,将整个链接网络当做一个文档,在该文档中,链接f和链接的生成时间t的组合(f,t)被作为该文档的单词;所述用户-链接-时间模块包含一个上层的伯努利混合模型μ、一个下层的多项式混合模型σ以及一个下层的多项式混合模型π,其中,μ用来判断f的生成是否是基于用户u的主题兴趣,通过μ生成二元指示符y,若y=1,即f的生成是基于用户u的主题兴趣,则利用用户u的主题x在(f,t)上的多项式分布σ来生成(f,t);若y=0,即f的生成并非基于用户u的主题兴趣,则利用全局的多项式分布π来生成(f,t);
8.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述oTIT模型的生成过程为:利用用户u的主题分布θu,生成一个单词分布主题zu,m,利用单词分布主题zu,m在单词上的分布生成单词wu,m;同时,利用用户u的伯努利分布μu生成二元指示符yu,l,确定用户u在时刻tu,l生成的链接fu,l是否是基于用户u的主题兴趣,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量,若yu,l=1,则从用户u的主题分布θu中生成一个链接分布主题xu,l,并利用主题-链接-时间多项式分布σu,l生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;若yu,l=0,则利用与主题无关的全局的多项式分布π生成fu,l和tu,l;其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量。
9.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用吉布斯抽样,确定所述oTIT模型中的隐含参数,包括:
所述单词分布主题zu,m的抽样公式为:
其中,u表示第u个用户,u∈[1,U],U为用户的数量,m表示用户u的第m个单词,m∈[1,Nu],Nu为用户u的单词数量,l表示用户u的第l个链接,l∈[1,Lu],Lu为用户u的链接数量;w表示第w个单词,w∈[1,W],W为不重复的单词的总量;抽样j表示(u,m);次数表示将元素j从相应的文档中去掉;通过抽样,得出 和 表示第w个单词分配给第k个主题的次数,k∈[1,K],K为主题的数量;表示用户u的单词分配给第k个主题的次数,表示用户u产生的链接f分配给第k个主题的次数;
所述链接fu,l和链接生成时间tu,l的抽样公式为:
当yu,l=1时:
当yu,l=0时
其中,抽样i表示(u,l);次数表示将元素i从相应的文档中去掉;通过抽样,得到n(f,t)、和 表示链接f分配给第k个主题的次数,n(f,t)表示链接f和主题无关的次数,表示用户u的所有链接中与u的主题兴趣相关的次数,表示用户u的所有链接中与u的主题兴趣无关的次数;ρ1和ρ0分别为参数ρ的两个不同的值,x表示指派给链接f的主题;z表示指派给单词w的主题;y为二元指示符,指示用户u产生的链接f是否基于用户u的主题兴趣;
经过预定次数的抽样迭代后,流s中所述隐含参数确定为:
其中,(*)s表示流s中的对应参数。
10.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述利用当前数据流中得到的模型参数,作为下一个数据流中模型参数的先验,替换原有模型参数的方法为:
11.根据权利要求6所述的一种主题相关的影响力用户发现和追踪方法,其特征在于,所述分析用户影响力分布的方法为:
通过更新了所述模型参数后的所述oTIT模型,得到当前数据流下的用户主题相关影响力分布σ,从而得到用户主题相关影响力的分布及变化,则用户u在第k个主题下在时间T时的影响力Influence(u)@k&T:
Influence(u)@k&T=σk,T,u。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710488321.4A CN107145612B (zh) | 2017-06-23 | 2017-06-23 | 一种主题相关的影响力用户发现和追踪方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710488321.4A CN107145612B (zh) | 2017-06-23 | 2017-06-23 | 一种主题相关的影响力用户发现和追踪方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107145612A CN107145612A (zh) | 2017-09-08 |
CN107145612B true CN107145612B (zh) | 2020-11-10 |
Family
ID=59782237
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710488321.4A Active CN107145612B (zh) | 2017-06-23 | 2017-06-23 | 一种主题相关的影响力用户发现和追踪方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107145612B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109508444B (zh) * | 2018-12-18 | 2022-11-04 | 桂林电子科技大学 | 区间量测下交互式多模广义标签多伯努利的快速跟踪方法 |
CN110209962B (zh) * | 2019-06-12 | 2021-02-26 | 合肥工业大学 | 主题层次高影响力用户的获取方法和系统 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101770487A (zh) * | 2008-12-26 | 2010-07-07 | 聚友空间网络技术有限公司 | 社交网络中用户影响力的计算方法和系统 |
CN102663101B (zh) * | 2012-04-13 | 2015-10-28 | 北京交通大学 | 一种基于新浪微博的用户等级排序算法 |
US9558273B2 (en) * | 2012-09-21 | 2017-01-31 | Appinions Inc. | System and method for generating influencer scores |
US9294576B2 (en) * | 2013-01-02 | 2016-03-22 | Microsoft Technology Licensing, Llc | Social media impact assessment |
-
2017
- 2017-06-23 CN CN201710488321.4A patent/CN107145612B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103886105A (zh) * | 2014-04-11 | 2014-06-25 | 北京工业大学 | 一种基于社交网络用户行为的用户影响力分析方法 |
Non-Patent Citations (1)
Title |
---|
Topic-Level Influencers Identification in the Microblog;YakunWang and Zhongbao Zhang and Sen Su and Cheng Chang and Muha;《The Authors and IOS Press.》;20161231;1559-1560 * |
Also Published As
Publication number | Publication date |
---|---|
CN107145612A (zh) | 2017-09-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902708B (zh) | 一种推荐模型训练方法及相关装置 | |
Preoţiuc-Pietro et al. | A temporal model of text periodicities using Gaussian Processes | |
Ziegler et al. | Taxonomy-driven computation of product recommendations | |
Mair et al. | An investigation of machine learning based prediction systems | |
Zhou et al. | Exploring social annotations for information retrieval | |
Lu et al. | Selective transfer learning for cross domain recommendation | |
CN109033408B (zh) | 信息推送方法及装置、计算机可读存储介质、电子设备 | |
US20210158713A1 (en) | Method, apparatus, and computer program for operating machine-learning framework | |
CN110647678B (zh) | 一种基于用户性格标签的推荐方法 | |
CN109582875A (zh) | 一种在线医疗教育资源的个性化推荐方法及系统 | |
Wachs et al. | Why do men get more attention? Exploring factors behind success in an online design community | |
Ziegler et al. | Exploiting semantic product descriptions for recommender systems | |
Jaffe et al. | Modelling human behaviour in cognitive tasks with latent dynamical systems | |
CN107145612B (zh) | 一种主题相关的影响力用户发现和追踪方法 | |
WO2019228000A1 (zh) | 用户评论价值的评估方法及装置 | |
Pornprasertmanit et al. | A Monte Carlo approach for nested model comparisons in structural equation modeling | |
Moniz et al. | A framework for recommendation of highly popular news lacking social feedback | |
CN110457895A (zh) | 一种pc应用程序违规内容监测方法及装置 | |
Chen et al. | Learning with noisy foundation models | |
Gündüz et al. | A poisson model for user accesses to web pages | |
Yu et al. | The research of the recommendation algorithm in online learning | |
De Roover et al. | How to detect which variables are causing differences in component structure among different groups | |
Balayn et al. | Characterising and mitigating aggregation-bias in crowdsourced toxicity annotations | |
Scott et al. | Radiology reports: a quantifiable and objective textual approach | |
Poslavskaya et al. | Encoding categorical data: Is there yet anything'hotter'than one-hot encoding? |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |