CN103970866A - 基于微博文本的微博用户兴趣发现方法及系统 - Google Patents

基于微博文本的微博用户兴趣发现方法及系统 Download PDF

Info

Publication number
CN103970866A
CN103970866A CN201410194170.8A CN201410194170A CN103970866A CN 103970866 A CN103970866 A CN 103970866A CN 201410194170 A CN201410194170 A CN 201410194170A CN 103970866 A CN103970866 A CN 103970866A
Authority
CN
China
Prior art keywords
sigma
user
theme
alpha
integrated
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410194170.8A
Other languages
English (en)
Other versions
CN103970866B (zh
Inventor
徐华
杨炜炜
王玮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tsinghua University
Original Assignee
Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tsinghua University filed Critical Tsinghua University
Priority to CN201410194170.8A priority Critical patent/CN103970866B/zh
Publication of CN103970866A publication Critical patent/CN103970866A/zh
Application granted granted Critical
Publication of CN103970866B publication Critical patent/CN103970866B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出一种基于微博文本的微博用户兴趣发现方法,包括以下步骤:从互联网上获取数据信息,其中,数据信息包括微博文本、转发信息和关注信息;对微博文本进行分析以获取先验知识,其中,先验知识包括用户互动关系和种子词;对微博文本进行主题聚类以生成主题模型;以及将先验知识集成至主题模型中以对用户的兴趣进行发现。本发明实施例的方法能够快速的从海量微博用户及其文本中发现用户兴趣分布,另外,该方法自适应性好、易于扩展。本发明还提供了一种基于微博文本的微博用户兴趣发现系统。

Description

基于微博文本的微博用户兴趣发现方法及系统
技术领域
本发明涉及计算机应用技术与互联网技术领域,特别涉及一种基于微博文本的微博用户兴趣发现方法及系统。
背景技术
随着网络与Web2.0的不断发展,微博已经成为了人们日常生活中记录事件、发表看法的重要渠道。在微博上,不同的用户有着不同的兴趣爱好,发布着不同领域的微博。通过对用户发布的微博文本进行分析,我们可以推断出用户的兴趣所在。也正是由于这个原因,各大厂商都在致力于从微博上挖掘单个用户和所有用户的兴趣分布并加以聚类,从而为今后的决策提供数据支持。但是,以新浪微博为例,新浪微博共有约5亿注册用户,每天有超过2亿条新微博被发布。如果这些微博全由人工处理,显然既费时费力,又不能把握最新的用户兴趣。
发明内容
本发明旨在至少在一定程度上解决上述相关技术中的技术问题之一。
为此,本发明的一个目的在于提出一种基于微博文本的微博用户兴趣发现方法,该方法能够快速的从海量微博用户及其文本中发现用户兴趣分布,另外,该方法自适应性好,易于扩展。
本发明的另一个目的在于提供一种基于微博文本的微博用户兴趣发现系统。
为了实现上述目的,本发明第一方面的实施例提出了一种基于微博文本的微博用户兴趣发现方法,包括以下步骤:从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词;对所述微博文本进行主题聚类以生成主题模型;以及将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
根据本发明实施例的基于微博文本的微博用户兴趣发现方法,从互联网上获取微博文本、转发信息和关注信息,并对微博文本进行分析以获取先验知识(即用户互动关系和种子词),并对微博文本进行主题聚类以生成主题模型,并进一步将先验知识集成至主题模型中以对用户的兴趣进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到用户的兴趣分布,省时省力。另外,该方法的自适应性强,即对兴趣种类数能自适应,在用户指定兴趣的种类数后,能自动地重新抽取需要的先验知识,并重新训练模型,不需要对核心算法进行修改。进一步地,该方法能够很容易地通过加入先验知识的方式对核心算法进行扩展,另外当有新的数据信息加入时,可在原有模型的基础上,使用新数据对模型进行更新,无需重新训练整个模型,因此,该方法还具有良好的扩展性。
另外,根据本发明上述实施例的基于微博文本的微博用户兴趣发现方法还可以具有如下附加的技术特征:
在一些示例中,所述主题模型为隐式狄利克雷分配(LDA),所述LDA通过吉布斯采样实现,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
在一些示例中,所述用户互动关系包括、转发和关注。
在一些示例中,所述将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现,具体包括:通过非对称狄利克雷分配对所述用户的互动关系进行集成,其中,用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
在一些示例中,还包括:对集成后的用户互动关系进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
在一些示例中,还包括:通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
在一些示例中,还包括:对集成后的种子词进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
本发明第二方面的实施例提供了一种基于微博文本的微博用户兴趣发现系统,包括:用户界面模块,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的兴趣分布或计算用户之间的兴趣相似度;数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口;功能模块,所述功能模块包括:数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词;主题模型子模块,所述主题模型子模块用于对所述微博文本进行主题聚类以生成主题模型;集成子模块,所述集成子模块用于将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
根据本发明实施例的基于微博文本的微博用户兴趣发现系统,从互联网上获取微博文本、转发信息和关注信息,并对微博文本进行分析以获取先验知识(即用户互动关系和种子词),并对微博文本进行主题聚类以生成主题模型,并进一步将先验知识集成至主题模型中以对用户的兴趣进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快速、自动地得到用户的兴趣分布,省时省力。另外,该系统的自适应性强,即对兴趣种类数能自适应,在用户指定兴趣的种类数后,能自动地重新抽取需要的先验知识,并重新训练模型,不需要对核心算法进行修改。进一步地,该系统能够很容易地通过加入先验知识的方式对核心算法进行扩展,另外当有新的数据信息加入时,可在原有模型的基础上,使用新数据对模型进行更新,无需重新训练整个模型,因此,该系统还具有良好的扩展性。
另外,根据本发明上述实施例的基于微博文本的微博用户兴趣发现系统还可以具有如下附加的技术特征:
在一些示例中,所述主题模型为隐式狄利克雷分配(LDA),所述LDA通过吉布斯采样实现,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
在一些示例中,所述用户互动关系包括、转发和关注。
在一些示例中,所述集成子模块还用于通过非对称狄利克雷分配对所述用户的互动关系进行集成,其中,用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
在一些示例中,所述集成子模块还用于对集成后的用户互动关系进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
在一些示例中,所述集成子模块还用于通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
在一些示例中,所述集成子模块还用于对集成后的种子进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1是根据本发明一个实施例的基于微博文本的微博用户兴趣发现方法的流程图;
图2是根据本发明一个实施例的基于微博文本的微博用户兴趣发现方法的原理示意图;
图3是根据本发明一个实施例的基于微博文本的微博用户兴趣发现方法的部分主题下的高频词示意图;以及
图4是根据本发明一个实施例的基于微博文本的微博用户兴趣发现系统的结构示意图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
以下结合附图描述根据本发明实施例的基于微博文本的微博用户兴趣发现方法及系统。
图1是根据本发明一个实施例的基于微博文本的微博用户兴趣发现方法的流程图。如图1所示,根据本发明一个实施例的基于微博文本的微博用户兴趣发现方法,包括以下步骤:
步骤S101,从互联网上获取数据信息,其中,数据信息包括微博文本、转发信息和关注信息。具体而言,在本发明的一个具体实施例中,结合图2所示,主要根据互联网上的个人认证(黄V)用户发布的微博文本,以进行兴趣发现。数据信息主要是基于新浪微博的API通过网络爬虫从新浪微博上爬取,并保存到相应数据库。抓取的数据信息包括微博本文、转发信息、和关注信息等。另外,网络爬虫会定期抓取新的数据信息以保证数据信息的完整性与实时性。进而通过该步骤可以形成主题挖掘的数据集,能用来进行下一步的分析。
步骤S102,对微博文本进行分析以获取先验知识,其中,先验知识包括用户互动关系和自动提取的种子词。更为具体地,在本发明的一个实施例中,用户互动关系包括、转发和关注。
作为一个具体示例,用户关系指的是用户之间互动的情况。在微博上,用户之间可以进行互动,常用的互动方式包括、转发和关注。例如用户A想与用户B分享信息时,A可以在微博中加入B的用户名,同时在用户名前加一个符号,这样B就会收到通知,并查看到A分享给他的信息。当A对B的一条微博感兴趣时,可将B的微博转发到自己的微博中。当A对B感兴趣时,A可以关注B,这样A就可以收到B发的每一条新微博了。因此,可以看出,互动是基于相似的兴趣,从而可以将互动看作用户兴趣相似度的体现,并将其作为先验知识集成到采样过程中。
进一步地,对于互动的获取,首先通过新浪微博API获取数据库中所有用户的用户名,然后扫描每一条微博文本,使用正确表达式匹配,检测是否含有数据库中用户的情况,如果有,则提取微博作者和被用户的信息。对于转发互动的获取,可以直接通过抓取微博文本时的被转发者ID获得。对于关注互动的获取,可以通过新浪微博API判断两个用户是否关注。
种子词是为每个主题预先指定的一类词。这些词只属于它被预先指定的主题,并且不会被采样。获取种子词的目的是通过这些预先指定的词,对采样过程进行引导和约束,使与种子词相似的词尽量多地落到相应的主题当中。在本发明的一个具体实施例中,获取种子词的方法如下:
首先根据词频过滤多数影响力较小的词,保留词频最高的一部分词(例如约为1000个),例如图3所示,为部分主题下保留的高频词。然后用skip-gram模型(由Google开发的word2vec工具包实现)训练每个词的词向量。然后对词向量使用k-means根据主题数进行聚类。在聚类结果基础上,通过skip-gram模型的转移矩阵,计算每一类中每个词转移到同类中其它词的概率之和,取概率和最高的3至4个词作为种子词。
步骤S103,对微博文本进行主题聚类以生成主题模型。
具体而言,主题模型是一类无监督学习算法,用于检测文档的主题分布。而在本发明的一个实施例中,主题模型为LDA(Latent Dirichlet Allocation,隐式狄利克雷分配)。其中,LDA是一种生成式模型。其通过生成文档中的每个词来估计文档在主题上(用θ表示)和主题在词上(用φ表示)的分布。LDA通过吉布斯采样(Gibbs Sampling)实现,采样公式如下:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,但不包括i,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
步骤S104,将先验知识集成至主题模型中以对用户的兴趣进行发现。
具体而言,在本发明的一个实施例中,用户互动关系的集成方法是通过非对称狄利克雷先验实现的。换言之,即通过非对称狄利克雷分配对用户互动关系进行集成,其中,例如用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
进一步地,集成用户互动关系后,进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
在本发明的另一个实施例中,集成种子词是通过计算和加入文档-主题相关度实现的。换言之,即通过计算和加入文档-主题相关度对种子词进行集成,其中,例如文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
进一步地,在集成种子词之后,进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
需要说明的是,在上述示例中,使用集成先验知识的LDA基于用户微博文本对用户的兴趣进行发现。其中,采样过程是迭代进行的,在迭代过程中使用困惑度作为评价指标,具体的原理如图2所示。在本发明的一个具体示例中,使用的数据(约5万用户,950万条微博)上,迭代进行300次,部分结果如图3所示。
根据本发明实施例的基于微博文本的微博用户兴趣发现方法,从互联网上获取微博文本、转发信息和关注信息,并对微博文本进行分析以获取先验知识(即用户互动关系和种子词),并对微博文本进行主题聚类以生成主题模型,并进一步将先验知识集成至主题模型中以对用户的兴趣进行发现。因此,该方法无需对当前的微博文本进行人工分析,即可快速、自动地得到用户的兴趣分布,省时省力。另外,该方法的自适应性强,即对兴趣种类数能自适应,在用户指定兴趣的种类数后,能自动地重新抽取需要的先验知识,并重新训练模型,不需要对核心算法进行修改。进一步地,该方法能够很容易地通过加入先验知识的方式对核心算法进行扩展,另外当有新的数据信息加入时,可在原有模型的基础上,使用新数据对模型进行更新,无需重新训练整个模型,因此,该方法还具有良好的扩展性。
本发明还提供了一种基于微博文本的微博用户兴趣系统。图4为根据本发明一个实施例的基于微博文本的微博用户兴趣发现系统的结构示意图。如图4所示,根据本发明一个实施例的基于微博文本的微博用户兴趣发现系统400,包括:用户界面模块410、数据库接口模块420和功能模块430。
具体而言,用户界面模块410用于为用户提供一个图像化的用户操作界面,以方便用户浏览其所需的兴趣分布,例如用户自己或其他人的兴趣分布,用户也可通过用户界面接口模块410计算用户之间的兴趣相似度。
数据库接口模块420用于为发现系统400提供数据库读写接口,以方便系统中各个不同的功能模块进行数据的I/O操作。
功能模块430包括:数据信息子模块4301、先验知识获取子模块4302、主题模型子模块4303和集成子模块4304。
其中,数据信息获取子模块4301用于从互联网上获取数据信息,其中,数据信息包括微博文本、转发信息和关注信息。具体而言,在本发明的一个具体实施例中,主要根据互联网上的个人认证(黄V)用户发布的微博文本,以进行兴趣发现。数据信息主要是基于新浪微博的API通过网络爬虫从新浪微博上爬取,并保存到相应数据库。抓取的数据信息包括微博本文、转发信息、和关注信息等。另外,网络爬虫会定期抓取新的数据信息以保证数据信息的完整性与实时性。
先验知识获取子模块4302用于对微博文本进行分析以获取先验知识,其中,先验知识包括用户互动关系和自动提取的种子词。更为具体地,在本发明的一个实施例中,用户互动关系包括、转发和关注。
作为一个具体示例,用户关系指的是用户之间互动的情况。在微博上,用户之间可以进行互动,常用的互动方式包括、转发和关注。例如用户A想与用户B分享信息时,A可以在微博中加入B的用户名,同时在用户名前加一个符号,这样B就会收到通知,并查看到A分享给他的信息。当A对B的一条微博感兴趣时,可将B的微博转发到自己的微博中。当A对B感兴趣时,A可以关注B,这样A就可以收到B发的每一条新微博了。因此,可以看出,互动是基于相似的兴趣,从而可以将互动看作用户兴趣相似度的体现,并将其作为先验知识集成到采样过程中。
进一步地,对于互动的获取,首先通过新浪微博API获取数据库中所有用户的用户名,然后扫描每一条微博文本,使用正确表达式匹配,检测是否含有数据库中用户的情况,如果有,则提取微博作者和被用户的信息。对于转发互动的获取,可以直接通过抓取微博文本时的被转发者ID获得。对于关注互动的获取,可以通过新浪微博API判断两个用户是否关注。
种子词是为每个主题预先指定的一类词。这些词只属于它被预先指定的主题,并且不会被采样。获取种子词的目的是通过这些预先指定的词,对采样过程进行引导和约束,使与种子词相似的词尽量多地落到相应的主题当中。在本发明的一个具体实施例中,获取种子词的方法如下:
首先根据词频过滤多数影响力较小的词,保留词频最高的一部分词(例如约为1000个),然后用skip-gram模型(由Google开发的word2vec工具包实现)训练每个词的词向量。然后对词向量使用k-means根据主题数进行聚类。在聚类结果基础上,通过skip-gram模型的转移矩阵,计算每一类中每个词转移到同类中其它词的概率之和,取概率和最高的3至4个词作为种子词。
主题模型子模块4303用于对微博文本进行主题聚类以生成主题模型。
具体而言,主题模型是一类无监督学习算法,用于检测文档的主题分布。而在本发明的一个实施例中,主题模型为LDA(Latent Dirichlet Allocation,隐式狄利克雷分配)。其中,LDA是一种生成式模型。其通过生成文档中的每个词来估计文档在主题上(用θ表示)和主题在词上(用φ表示)的分布。LDA通过吉布斯采样(Gibbs Sampling)实现,采样公式如下:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,但不包括i,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
集成子模块4304用于将先验知识集成至主题模型中以对用户的兴趣进行发现。
具体而言,在本发明的一个实施例中,用户互动关系的集成是通过非对称狄利克雷先验实现的。换言之,即集成子模块4304通过非对称狄利克雷分配对用户互动关系进行集成,其中,例如用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
进一步地,集成用户互动关系后,集成子模块4304对集成后的用户互动关系进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
在本发明的另一个实施例中,集成种子词是通过计算和加入文档-主题相关度实现的。换言之,即集成子模块4304通过计算和加入文档-主题相关度对种子词进行集成,其中,例如文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
进一步地,在集成种子词之后,集成子模块4304对集成后的种子词进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
需要说明的是,在上述示例中,该系统使用集成先验知识的LDA基于用户微博文本对用户的兴趣进行发现。其中,采样过程是迭代进行的,在迭代过程中使用困惑度作为评价指标。在本发明的一个具体示例中,使用的数据(约5万用户,950万条微博)上,迭代进行300次。
另外,作为具体的示例,该发现系统400的上述用户界面模块410、数据库接口模块420和功能模块430均在Windows下用Python、java等语言开发实现。进一步地,基于上述开发平台,该发现系统400的部署运行需要如下几个层级运行环境的支撑。首先在操作系统层,发现系统400需要在Windows XP或其兼容的操作系统平台之上运行,同时还需要程序运行支撑环境,也就是java和Python运行支撑环境。当具备了上述支撑环境时,该发现系统400即可正常运行。而用户只需要通过网页浏览器访问系统就能浏览自己或他人的兴趣发现和软聚类结果。
根据本发明实施例的基于微博文本的微博用户兴趣发现系统,从互联网上获取微博文本、转发信息和关注信息,并对微博文本进行分析以获取先验知识(即用户互动关系和种子词),并对微博文本进行主题聚类以生成主题模型,并进一步将先验知识集成至主题模型中以对用户的兴趣进行发现。因此,该系统无需对当前的微博文本进行人工分析,即可快速、自动地得到用户的兴趣分布,省时省力。另外,该系统的自适应性强,即对兴趣种类数能自适应,在用户指定兴趣的种类数后,能自动地重新抽取需要的先验知识,并重新训练模型,不需要对核心算法进行修改。进一步地,该系统能够很容易地通过加入先验知识的方式对核心算法进行扩展,另外当有新的数据信息加入时,可在原有模型的基础上,使用新数据对模型进行更新,无需重新训练整个模型,因此,该系统还具有良好的扩展性。
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”、“轴向”、“径向”、“周向”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征“上”或“下”可以是第一和第二特征直接接触,或第一和第二特征通过中间媒介间接接触。而且,第一特征在第二特征“之上”、“上方”和“上面”可是第一特征在第二特征正上方或斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”可以是第一特征在第二特征正下方或斜下方,或仅仅表示第一特征水平高度小于第二特征。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (14)

1.一种基于微博文本的微博用户兴趣发现方法,其特征在于,包括以下步骤:
从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;
对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词;
对所述微博文本进行主题聚类以生成主题模型;以及
将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
2.根据权利要求1所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述主题模型为隐式狄利克雷分配(LDA),而所述LDA则通过吉布斯采样实现,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
3.根据权利要求2所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述用户互动关系包括、转发和关注。
4.根据权利要求3所述的基于微博文本的微博用户兴趣发现方法,其特征在于,所述将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现,具体包括:
通过非对称狄利克雷分配对所述用户互动关系进行集成,其中,用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
5.根据权利要求4所述的基于微博文本的微博用户兴趣发现方法,其特征在于,还包括:
对集成后的用户互动关系进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
6.根据权利要求4所述的基于微博文本的微博用户兴趣法发现方法,其特征在于,还包括:
通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
7.根据权利要求6所述的基于微博文本的微博用户兴趣法发现方法,其特征在于,还包括:
对集成后的种子词进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
8.一种基于微博文本的微博用户兴趣发现系统,其特征在于,包括:
用户界面模块,所述用户界面模块用于为用户提供图形化的操作界面,以使用户浏览所需的兴趣分布或计算用户之间的兴趣相似度;
数据库接口模块,所述数据库接口模块用于为所述发现系统提供数据库读写接口;
功能模块,所述功能模块包括:
数据信息获取子模块,所述数据信息获取子模块用于从互联网上获取数据信息,其中,所述数据信息包括微博文本、转发信息和关注信息;
先验知识获取子模块,所述先验知识获取子模块用于对所述微博文本进行分析以获取先验知识,其中,所述先验知识包括用户互动关系和自动提取的种子词;
主题模型子模块,所述主题模型子模块用于对所述微博文本进行主题聚类以生成主题模型;
集成子模块,所述集成子模块用于将所述先验知识集成至所述主题模型中以对用户的兴趣进行发现。
9.根据权利要求8所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述主题模型为隐式狄利克雷分配(LDA),所述LDA通过吉布斯采样实现,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,z表示主题,w表示词,i表示第m个文档的第i个词,分别表示主题k被分到文档m和词t被分到主题k的次数,α和β为超参数,zi表示第i个主题,z-i表示除第i个主题之外的主题。
10.根据权利要求9所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述用户互动关系包括、转发和关注。
11.根据权利要求10所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于通过非对称狄利克雷分配对所述用户互动关系进行集成,其中,用户m对于主题k的互动系数为:
a m ( k ) = Σ u = 1 , u ≠ m M ( a 1 × men u + a 2 × rep u + a 3 × fol u ) × n u ( k ) ,
其中,menu和repu分别表示用户m和转发用户u的次数,当m关注u时,folu=1,否则为0,a1,a2,a3是线性系数,folu表示用户之间的关注关系的布尔系数,表示在当前主题下用户u的系数。
12.根据权利要求11所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于对集成后的用户互动关系进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) ,
其中,α′为新引入的用户互动先验的超参数。
13.根据权利要求11所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于通过计算和加入文档-主题相关度对所述种子词进行集成,其中,文档m和主题k的相关度计算公式为:
Rel ( m , k ) = 1 + Σ t = 1 N m δ ( t ∈ ML ( k ) ) Σ t = 1 N m Σ k = 1 K δ ( t ∈ ML ( k ) ) ,
其中,ML(k)表示第k个主题的种子词集合,δ(t∈ML(k))是一个指示函数,当t∈ML(k)时取值为1,否则为0。
14.根据权利要求13所述的基于微博文本的微博用户兴趣发现系统,其特征在于,所述集成子模块还用于对集成后的种子进行采样,采样公式为:
P ( z i = k | z - i , w ) ∝ n m , - i ( k ) + α a m ( k ) + α ′ Σ k = 1 K ( a m ( k ) + α ′ ) Σ k = 1 K ( n m , - i ( k ) + α ) × n k , - i ( t ) + β Σ t = 1 v ( n k , - i ( t ) + β ) × Rel ( m , k ) × δ ( t ∈ ML ( k ) ) ,
其中,当t不是任何一个主题的种子词时,则(t∈ML(k))≡1。
CN201410194170.8A 2014-05-08 2014-05-08 基于微博文本的微博用户兴趣发现方法及系统 Active CN103970866B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410194170.8A CN103970866B (zh) 2014-05-08 2014-05-08 基于微博文本的微博用户兴趣发现方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410194170.8A CN103970866B (zh) 2014-05-08 2014-05-08 基于微博文本的微博用户兴趣发现方法及系统

Publications (2)

Publication Number Publication Date
CN103970866A true CN103970866A (zh) 2014-08-06
CN103970866B CN103970866B (zh) 2017-11-21

Family

ID=51240363

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410194170.8A Active CN103970866B (zh) 2014-05-08 2014-05-08 基于微博文本的微博用户兴趣发现方法及系统

Country Status (1)

Country Link
CN (1) CN103970866B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104850578A (zh) * 2015-03-19 2015-08-19 浙江工商大学 一种基于lda算法的社会化网络交互活动用户兴趣挖掘方法
CN105354343A (zh) * 2015-12-24 2016-02-24 成都陌云科技有限公司 基于远程对话的用户特征挖掘方法
CN105512303A (zh) * 2015-12-14 2016-04-20 成都陌云科技有限公司 基于大数据分析的内容呈现方法
CN107704460A (zh) * 2016-06-22 2018-02-16 北大方正集团有限公司 用户关系抽取方法和用户关系抽取系统
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN108230171A (zh) * 2017-12-26 2018-06-29 爱品克科技(武汉)股份有限公司 一种基于时间节点lda主题算法
CN108228608A (zh) * 2016-12-14 2018-06-29 北大方正集团有限公司 人物的推荐方法、系统及终端
CN117082020A (zh) * 2023-10-13 2023-11-17 湖南双鸿科技有限公司 基于即时通讯软件的朋友圈自动化转发方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103064917A (zh) * 2012-12-20 2013-04-24 中国科学院深圳先进技术研究院 一种面向微博的特定倾向的高影响力用户群发现方法
CN103279479A (zh) * 2013-04-19 2013-09-04 中国科学院计算技术研究所 一种面向微博客平台文本流的突发话题检测方法及系统
CN103309990A (zh) * 2013-06-18 2013-09-18 上海晶樵网络信息技术有限公司 基于互联网用户公开信息的用户多维度分析与监测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张晨逸 等: ""基于MB-LDA模型的微博主题挖掘"", 《计算机研究与发展》 *
石晶 等: ""基于LDA模型的主题词抽取方法"", 《计算机工程》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104850578B (zh) * 2015-03-19 2018-04-20 浙江工商大学 一种基于lda算法的社会化网络交互活动用户兴趣挖掘方法
CN104850578A (zh) * 2015-03-19 2015-08-19 浙江工商大学 一种基于lda算法的社会化网络交互活动用户兴趣挖掘方法
CN104834686B (zh) * 2015-04-17 2018-12-28 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN104834686A (zh) * 2015-04-17 2015-08-12 中国科学院信息工程研究所 一种基于混合语义矩阵的视频推荐方法
CN105512303A (zh) * 2015-12-14 2016-04-20 成都陌云科技有限公司 基于大数据分析的内容呈现方法
CN105354343B (zh) * 2015-12-24 2018-08-14 成都陌云科技有限公司 基于远程对话的用户特征挖掘方法
CN105354343A (zh) * 2015-12-24 2016-02-24 成都陌云科技有限公司 基于远程对话的用户特征挖掘方法
CN107704460A (zh) * 2016-06-22 2018-02-16 北大方正集团有限公司 用户关系抽取方法和用户关系抽取系统
CN108228608A (zh) * 2016-12-14 2018-06-29 北大方正集团有限公司 人物的推荐方法、系统及终端
CN107766576A (zh) * 2017-11-15 2018-03-06 北京航空航天大学 一种微博用户兴趣特征的提取方法
CN108230171A (zh) * 2017-12-26 2018-06-29 爱品克科技(武汉)股份有限公司 一种基于时间节点lda主题算法
CN117082020A (zh) * 2023-10-13 2023-11-17 湖南双鸿科技有限公司 基于即时通讯软件的朋友圈自动化转发方法
CN117082020B (zh) * 2023-10-13 2023-12-29 湖南双鸿科技有限公司 基于即时通讯软件的朋友圈自动化转发方法

Also Published As

Publication number Publication date
CN103970866B (zh) 2017-11-21

Similar Documents

Publication Publication Date Title
CN103970866A (zh) 基于微博文本的微博用户兴趣发现方法及系统
Feng et al. An expert recommendation algorithm based on Pearson correlation coefficient and FP-growth
Lai et al. Content analysis of social media: A grounded theory approach
Liang et al. Dynamic clustering of streaming short documents
Biancalana et al. An approach to social recommendation for context-aware mobile services
Foley et al. Learning to extract local events from the web
CN102622396B (zh) 一种基于标签的web服务聚类方法
US20150032751A1 (en) Methods and Systems for Utilizing Subject Matter Experts in an Online Community
US20150032492A1 (en) Methods of Identifying Relevant Content and Subject Matter Expertise for Online Communities
Bauman et al. Discovering Contextual Information from User Reviews for Recommendation Purposes.
US9069880B2 (en) Prediction and isolation of patterns across datasets
CN106354844B (zh) 基于文本挖掘的服务组合包推荐系统及方法
CN103593425A (zh) 基于偏好的智能检索方法及系统
Almars et al. Modelling user attitudes using hierarchical sentiment-topic model
CN105843799A (zh) 一种基于多源异构信息图模型的学术论文标签推荐方法
Debattista et al. A preliminary investigation towards improving linked data quality using distance-based outlier detection
KR20220074576A (ko) 마케팅 지식 그래프 구축을 위한 딥러닝 기반 신조어 추출 방법 및 그 장치
Ma et al. Content Feature Extraction-based Hybrid Recommendation for Mobile Application Services.
Rao et al. Supervised intensive topic models for emotion detection over short text
Qiu et al. CLDA: An effective topic model for mining user interest preference under big data background
Coelho et al. Semantic similarity for mobile application recommendation under scarce user data
Chen et al. Automatic web services classification based on rough set theory
Zhang et al. A knowledge graph based approach for mobile application recommendation
Shi et al. [Retracted] Research on Fast Recommendation Algorithm of Library Personalized Information Based on Density Clustering
Zhuo Consumer demand behavior mining and product recommendation based on online product review mining and fuzzy sets

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant