CN103970863A

CN103970863A - 基于lda主题模型的微博用户兴趣的挖掘方法及系统

Info

Publication number: CN103970863A
Application number: CN201410193287.4A
Authority: CN
Inventors: 徐华; 黄笑秋; 王玮
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2014-05-08
Filing date: 2014-05-08
Publication date: 2014-08-06
Anticipated expiration: 2034-05-08
Also published as: CN103970863B

Abstract

本发明公开了一种基于LDA主题模型的微博用户兴趣的挖掘方法，包括以下步骤：从微博中采集用户关系信息和用户标签信息；将用户关系信息集成至LDA主题模型中；根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将多个种子词集成至LDA主题模型中，以利用LDA主题模型对用户的兴趣进行挖掘。本发明实施例的挖掘方法，通过采集用户关系信息和用户标签信息，从而根据用户关系信息和用户标签信息深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户标签的对应关系，找出用户在不同兴趣领域的分布。本发明还公开了一种基于LDA主题模型的微博用户兴趣的挖掘系统。

Description

基于LDA主题模型的微博用户兴趣的挖掘方法及系统

技术领域

本发明涉及计算机应用与互联网技术领域，特别涉及一种基于LDA(LatentDirichlet Allocation，隐式狄利克雷分配)主题模型的微博用户兴趣的挖掘方法及系统。

背景技术

近些年，许多用户开始通过微博例如推特或者新浪微博向他人分享自己的想法或者展示自己，例如用户在社交网络中通过各种社交行为如发微博或者给某种资源点赞，从而分享自己的想法或者展示自己。因此，在某种程度上，用户的社交行为或者微博可以显示用户的兴趣领域。举例而言，新浪微博的用户可以给自己加上标签信息，以用来展示自己的不同，因此用户标签信息可以显示用户的兴趣。另外，由于用户之间的关系不仅仅能表现他们的交往关系，也能展示他们之间有共同的兴趣，因此用户关系信息也能被用来做用户兴趣的挖掘。

然而，虽然对如何从用户的社交行为或者微博中挖掘兴趣信息做了很多研究，但是都忽略了用户标签信息和用户关系信息，尤其是基于新浪微博的研究并没有考虑用户标签信息，且由于基于推特的研究并没有这种资源，所以也没有考虑标签信息，导致无法深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系。

发明内容

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本发明的一个目的在于提出一种能深入的挖掘隐藏在用户关系和用户标签当中的用户兴趣和用户标签的对应关系的基于LDA主题模型的微博用户兴趣的挖掘方法。

本发明的另一个目的在于提出一种基于LDA主题模型的微博用户兴趣的挖掘系统。

为达到上述目的，本发明一方面实施例提出了一种基于LDA主题模型的微博用户兴趣的挖掘方法，包括以下步骤：从微博中采集用户关系信息和用户标签信息，其中，所述用户标签信息包括多个用户标签；将所述用户关系信息集成至隐式狄利克雷分配LDA主题模型中，所述LDA主题模型根据兴趣类别设置有多个主题；以及根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中，以利用所述LDA主题模型对用户的兴趣进行挖掘。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘方法，通过采集用户关系信息和用户标签信息，并将用户关系信息集成至LDA主题模型中，且从用户标签信息中提取出多个种子词，以将多个种子词集成至LDA模型中，实现利用LDA主题模型对用户的兴趣进行挖掘，可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系，找出用户在不同兴趣领域的分布。

另外，根据本发明上述实施例的基于LDA主题模型的微博用户兴趣的挖掘方法还可以具有如下附加的技术特征：

在本发明的一个实施例中，在将所述用户关系信息集成至所述LDA主题模型中之后，还包括：将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中。

进一步地，在本发明的一个实施例中，所述用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样，以集成至所述LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

其中，为文档d在狄利克雷森林中节点s上分配的词的数目，γ为所述狄利克雷森林的超参数，η为软约束的参数，为文档所述d分配至主题k上的数目，σ(k)为指示器函数，为主题v在所述狄利克雷森林上的边的权重，C_v(s↓i)为所述主题v的狄利克雷树中，同时属于叶子节点w_i的祖先以及所述节点s的孩子节点的节点集合，为所述主题v的狄利克雷树中，所述叶子节点w_i的祖先的节点集合。

进一步地，在本发明的一个实施例中，从所述用户标签信息中提取所述多个种子词，并将所述多个种子词集成至所述LDA主题模型中，进一步包括：通过计算每个剩余标签与所述每个主题的种子词的共现，为所述每个主题选定预设个数标签作为所述种子词的候选词，并集成至所述LDA主题模型中，以对所述种子词进行补充。

进一步地，在本发明的一个实施例中，根据以下公式计算所述每个剩余标签与所述每个主题的种子词的共现：

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}

其中，r为所述种子词，m为剩余标签中的一个，P_r,m表示所述种子词r和所述剩余标签中的一个m共同出现的概率，P_r表示所述种子词r出现的概率，P_m则为所述剩余标签中的一个m出现的概率。

本发明另一方面实施例提出了一种基于LDA主题模型的微博用户兴趣的挖掘系统，包括：根据本发明实施例的采集模块，用于从微博中采集用户关系信息和用户标签信息，其中，所述用户标签信息包括多个用户标签；集成模块，用于将所述用户关系信息集成至LDA主题模型中，其中，所述LDA主题模型根据兴趣类别设置有多个主题；以及提取模块，用于根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中，以利用所述LDA主题模型对用户的兴趣进行挖掘。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统，通过采集用户关系信息和用户标签信息，并将用户关系信息集成至LDA主题模型中，且从用户标签信息中提取出多个种子词，以将多个种子词集成至LDA模型中，实现利用LDA主题模型对用户的兴趣进行挖掘，可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系，找出用户在不同兴趣领域的分布。

另外，根据本发明上述实施例的基于LDA主题模型的微博用户兴趣的挖掘系统还可以具有如下附加的技术特征：

在本发明的一个实施例中，所述集成模块还用于将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中。

进一步地，在本发明的一个实施例中，所述用户关系信息验、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样，以集成到所述LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

其中，为文档d在狄利克雷森林中节点s上分配的词的数目，γ为所述狄利克雷森林的超参数，η为软约束的参数，为所述文档d分配至主题k上的数目，σ(k)为指示器函数，为主题v在所述狄利克雷森林上的边的权重，C_v(s↓i)为所述主题v的狄利克雷树中，同时属于叶子节点w_i的祖先以及所述节点s的孩子节点的节点集合，为所述主题v的狄利克雷树中，所述叶子节点w_i的祖先的节点集合。

进一步地，在本发明的一个实施例中，所述提取模块还用于通过计算每个剩余标签与所述每个主题的种子词的共现，为所述每个主题选定预设个数标签作为所述种子词的候选词，并集成至所述LDA主题模型中，以对所述种子词进行补充。

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}

其中，r为所述种子词，m为所述剩余标签中的一个，P_r,m表示所述种子词r和所述剩余标签中的一个m共同出现的概率，P_r表示所述种子词r出现的概率，P_m则为所述剩余标签中的一个m出现的概率。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘方法的流程图；

图2为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘方法的流程图；

图3为根据本发明一个实施例的基于不同先验的主题模型结果示意图；

图4为根据本发明一个实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的结构示意图；以及

图5为根据本发明一个具体实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的结构示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能解释为对本发明的限制。

下文的公开提供了许多不同的实施例或例子用来实现本发明的不同结构。为了简化本发明的公开，下文中对特定例子的部件和设置进行描述。当然，它们仅仅为示例，并且目的不在于限制本发明。此外，本发明可以在不同例子中重复参考数字和/或字母。这种重复是为了简化和清楚的目的，其本身不指示所讨论各种实施例和/或设置之间的关系。此外，本发明提供了的各种特定的工艺和材料的例子，但是本领域普通技术人员可以意识到其他工艺的可应用于性和/或其他材料的使用。另外，以下描述的第一特征在第二特征之“上”的结构可以包括第一和第二特征形成为直接接触的实施例，也可以包括另外的特征形成在第一和第二特征之间的实施例，这样第一和第二特征可能不是直接接触。

在本发明的描述中，需要说明的是，除非另有规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是机械连接或电连接，也可以是两个元件内部的连通，可以是直接相连，也可以通过中间媒介间接相连，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语的具体含义。

下面参照附图描述根据本发明实施例提出的基于LDA主题模型的微博用户兴趣的挖掘方法及系统，首先将参照附图描述根据本发明实施例提出的基于LDA主题模型的微博用户兴趣的挖掘方法。参照图1所示，该挖掘方法包括以下步骤：

S101，从微博中采集用户关系信息和用户标签信息，其中，用户标签信息包括多个用户标签。

在本发明的一个实施例中，如图2所示，本发明实施例基于API(ApplicationProgramming Interface，应用程序编程接口)通过网络爬虫定期从微博中爬取微博用户信息，并提取微博用户信息中的用户关系信息和用户标签信息，保证了信息的实时性。

S102，将用户关系信息集成至LDA主题模型中，LDA主题模型根据兴趣类别设置有多个主题。

在本发明的一个实施例中，在将用户关系信息集成至LDA主题模型中之后，还包括：将Topic-in-set先验、狄利克雷森林(Dirichlet Forest)先验和层次非对称先验集成至LDA主题模型中。

其中，参照图2所示，主题模型是一个无监督的学习算法，根据约束聚类方法的性质，先验知识可以更加有效的提升聚类效果，使聚类效果更加符合预期。具体地，主题模型是当前很常用的文本挖掘模型，本发明实施例的LDA主题模型集成了Topic-in-set先验，Dirichlet Forest先验，层次非对称先验和用户关系先验四种先验知识，可以理解为对LDA主题模型进行改进，改进后的LDA主题模型也可以称为兴趣挖掘模型。进一步地，在Topic-in-set先验中，主题和标签之间通过添加了Topic-must-link，从而固定种子词的主题分布。在Dirichlet Forest先验中，标签和标签之间通过添加了Must-link和Cannot-link，从而引导部分标签的主题分布，并且考虑到整个文档不同类别标签数量的不平衡性，层次非对称先验也被引入LAD主题模型中，实现使整个主题模型更加贴近数据集。另外，由于用户关系也会影响用户兴趣领域的分布，所以将用户关系作为先验知识，并集成至LDA主题模型中。

具体地，在本发明的一个实施例中，用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样，以集成至LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

其中，为文档d在狄利克雷森林中节点s上分配的词的数目，γ为狄利克雷森林的超参数，η为软约束的参数，为文档d分配至主题k上的数目，σ(k)为指示器函数，为主题v在狄利克雷森林上的边的权重，C_v(s↓i)为主题v的狄利克雷树中，同时属于叶子节点w_i的祖先以及节点s的孩子节点的节点集合，为主题v的狄利克雷树中，叶子节点w_i的祖先的节点集合。在本发明的实施例中，采样公式将四种先验结合起来，以共同影响标签信息的主题分布。换言之，本发明实施例的LDA主题模型通过整合用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验约束LDA主题模型，并且通过采样公式来融合这些先验知识和LDA主题模型。

S103，根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将多个种子词集成至LDA主题模型中，以利用LDA主题模型对用户的兴趣进行挖掘。

进一步地，在本发明的一个实施例中，从用户标签信息中提取多个种子词，并将多个种子词集成至LDA主题模型中，进一步包括：通过计算每个剩余标签与每个主题的种子词的共现，为每个主题选定预设个数标签作为种子词的候选词，并集成至LDA主题模型中，以对种子词进行补充。

其中，在本发明的一个实施例中，根据以下公式计算每个剩余标签与每个主题的种子词的共现：

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}

其中，r为种子词，m为剩余标签中的一个，P_r,m表示r和m共同出现的概率，P_r表示r出现的概率，P_m则为m出现的概率。

在本发明的一个实施例中，参照图2所示，四种先验集成兴趣分布采样过程为迭代采样过程，并且可以利用不同先验的在LDA主题模型对用户兴趣进行挖掘，例如LDA主题模型可以集成用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验中的一个或者多个。

具体地，本发明的一个实施例中，首先预定义K个主题，然后为每一个主题选择种子标签即种子词作为Topic-in-set的知识。需要说明的是，这里每个主题的部分标签可能相同，因为这些标签体现出用户兴趣领域，所以希望有Topic-in-set知识的LDA模型可以产生与预定义的兴趣领域相关的主题。

进一步地，在本发明的实施例中，为了能够获取这些标签，首先选择了每个兴趣领域最有代表性的标签即种子词r，计算种子词r和剩余所有标签中的一个m即每个剩余标签之间共同出现的概率，然后每个标签在每个主题下都按照共现的结果进行排序，最后每个主题下的前预设个数例如前K个标签被选为种子词的候选词。例如设置K为5，则取每个主题下前五个标签即词选为种子标签即种子词的候选词，并且将Topic-must-link放在种子标签和相应的主题之间。换言之，本发明实施例通过从用户标签信息中抽取种子词作为先验知识，集成到改进后的LDA主题模型中，首先根据设定的兴趣类别，为每一个兴趣领域即主题选定一个种子词，例如“旅游”、“游戏”等，再利用PMI(Pointwise Mutual Information，点互式信息)作为评价标准，以即根据每个剩余标签与每个主题的种子词的共现，为每个主题的种子词额外选出一部分标签补充到种子词中，实现对用户的兴趣挖掘可以基于种子词分析微博用户的兴趣领域。

进一步地，图3为根据本发明一个实施例的基于不同先验的主题模型结果示意图。其中，TIS-LDA约束主题模型为只集成了Topic-in-set先验的LDA主题模型，DT-LDA约束主题模型为集成了Topic-in-set先验和狄利克雷森林先验的LDA主题模型，ADT-LDA约束主题模型为集成了Topic-in-set先验、狄利克雷森林先验和层次非对称先验的LDA主题模型，DR-LDA约束主题模型为集成了用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验的LDA主题模型。如图3所示，不同种类的标签信息被分配到不同的主题中，且合理的先验知识能够帮助主题产生更好的聚类效果，即随着先验知识的增加，聚类效果越来越好，更加符合预期，因此本发明实施例优选为利用DR-LDA约束主题模型即集成了上述四种先验的LDA主题模型，以从用户标签信息和用户关系信息中挖掘用户的兴趣信息，找出用户在不同兴趣领域的分布。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘方法，通过采集用户关系信息和用户标签信息，并将用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至LDA主题模型中，且从用户标签信息中提取出多个种子词，以将多个种子词集成至LDA模型中，实现利用LDA主题模型对用户的兴趣进行挖掘，可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系，找出用户在不同兴趣领域的分布。

图4为根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统的结构示意图。参照图4所示，根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统(以下简称系统100)包括：采集模块10、集成模块20和提取模块30。

其中，采集模块10用于从微博中采集用户关系信息和用户标签信息，其中，用户标签信息包括多个用户标签。集成模块20用于将用户关系信息集成至LDA主题模型中，其中，LDA主题模型根据兴趣类别设置有多个主题。提取模块30用于根据兴趣类别从用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将多个种子词集成至LDA主题模型中，以利用LDA主题模型对用户的兴趣进行挖掘。

在本发明的一个实施例中，如图2所示，本发明实施例基于API通过网络爬虫定期从微博中爬取微博用户信息，并提取微博用户信息中的用户关系信息和用户标签信息，保证了信息的实时性。

在本发明的一个实施例中，集成模块20还用于将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至LDA主题模型中。

具体地，在本发明的一个实施例中，用户关系信息、Topic-in-set先验、Dirichlet先验和层次非对称先验根据以下公式进行采样，以集成至LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

其中，为文档d在狄利克雷森林中节点s上分配的词的数目，γ为狄利克雷森林的超参数，η为软约束的参数，为文档d分配至主题k上的数目，σ(k)为指示器函数，为主题v在狄利克雷森林上的边的权重，C_v(s↓i)为主题v的狄利克雷树中，同时属于叶子节点w_i的祖先以及节点s的孩子节点的节点集合，为主题v的狄利克雷树中，叶子节点w_i的祖先的节点集合。

在本发明的实施例中，采样公式将四种先验结合起来，以共同影响标签信息的主题分布。换言之，本发明实施例的LDA主题模型通过整合用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验约束LDA主题模型，并且通过采样公式来融合这些先验知识和LDA主题模型。

进一步地，在本发明的一个实施例中，提取模块30还用于通过计算每个剩余标签与每个主题的种子词的共现，为每个主题选定预设个数标签作为种子词的候选词，并集成至LDA主题模型中，以对种子词进行补充。

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}

进一步地，在本发明的实施例中，为了能够获取这些标签，首先选择了每个兴趣领域最有代表性的标签即种子词r，计算种子词r和剩余所有标签中的一个m即每个剩余标签之间共同出现的概率，然后每个标签在每个主题下都按照共现的结果进行排序，最后每个主题下的前预设个数例如前K个标签被选为种子词的候选词。例如设置K为5，则取每个主题下前五个标签即词选为种子标签即种子词的候选词，并且将Topic-must-link放在种子标签和相应的主题之间。换言之，本发明实施例通过从用户标签信息中抽取种子词作为先验知识，集成到改进后的LDA主题模型中，首先根据设定的兴趣类别，为每一个兴趣领域即主题选定一个种子词，例如“旅游”、“游戏”等，再利用PMI作为评价标准，以根据每个剩余标签与每个主题的种子词的共现，为每个主题的种子词额外选出一部分标签补充到种子词中，实现对用户的兴趣挖掘可以基于种子词分析微博用户的兴趣领域。

进一步地，在本发明的一个实施例中，参照图5所示，上述的挖掘系统100还可以包括：前台展示界面模块40和展示界面模块接口50。

其中，前台展示界面模块40用于给用户例如微博用户兴趣挖掘系统的使用者提供良好的操作界面，以方便用户查看当前兴趣领域的大致分布，例如用户自己或其他人的兴趣分布，并查找与自己兴趣相近的微博用户。界面展示模块接口50分别与采集模块10、集成模块20、提取模块30和前台界面展示模块40相连，界面展示模块接口50用于提供前台展示界面模块40和后台程序的接口，即前台展示界面模块40可以通过界面展示模块接口50调用采集模块10、集成模块20和提取模块30，以方便程序聚类结果可以展示到前台界面上。

另外，在本发明的一个实施例中，该挖掘系统100的上述采集模块10、集成模块20、提取模块30、前台界面展示模块40和界面展示模块接口50均在Windows下用java、Python和JSP语言开发实现。进一步地，基于上述开发平台，该挖掘系统100的部署运行需要如下几个层次运行环境的支撑。首先在操作系统层，挖掘系统100需要在Windows XP或其兼容的操作系统平台之上运行，同时还需要程序运行支撑环境，也就是java和Python运行支撑环境。当具备了上述支撑环境时，该挖掘系统100即可正常运行。而用户只需要通过网页浏览器访问系统就能浏览自己感兴趣的产品的评论的分析结果。

根据本发明实施例的基于LDA主题模型的微博用户兴趣的挖掘系统，通过采集用户关系信息和用户标签信息，并将用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至LDA主题模型中，且从用户标签信息中提取出多个种子词，以将多个种子词集成至LDA模型中，实现利用LDA主题模型对用户的兴趣进行挖掘，可以深入的挖掘隐藏在用户关系和标签当中的用户兴趣和用户标签的对应关系，找出用户在不同兴趣领域的分布。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。另外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于LDA主题模型的微博用户兴趣的挖掘方法，其特征在于，包括以下步骤：

从微博中采集用户关系信息和用户标签信息，其中，所述用户标签信息包括多个用户标签；

将所述用户关系信息集成至隐式狄利克雷分配LDA主题模型中，所述LDA主题模型根据兴趣类别设置有多个主题；以及

根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中，以利用所述LDA主题模型对用户的兴趣进行挖掘。

2.根据权利要求1所述的方法，其特征在于，在将所述用户关系信息集成至所述LDA主题模型中之后，还包括：

将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中。

3.根据权利要求2所述的方法，其特征在于，所述用户关系信息、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样，以集成至所述LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

其中，为文档d在狄利克雷森林中节点s上分配的词的数目，γ为所述狄利克雷森林的超参数，η为软约束的参数，为所述文档d分配至主题k上的数目,σ(k)为指示器函数，为主题v在所述狄利克雷森林上的边的权重，C_v(s↓i)为所述主题v的狄利克雷树中，同时属于叶子节点w_i的祖先以及所述节点s的孩子节点的节点集合，为所述主题v的狄利克雷树中，所述叶子节点w_i的祖先的节点集合。

4.根据权利要求1所述的方法、其特征在于，从所述用户标签信息中提取所述多个种子词，并将所述多个种子词集成至所述LDA主题模型中，进一步包括：

通过计算每个剩余标签与所述每个主题的种子词的共现，为所述每个主题选定预设个数标签作为所述种子词的候选词，并集成至所述LDA主题模型中，以对所述种子词进行补充。

5.根据权利要求4所述的方法，其特征在于，根据以下公式计算所述每个剩余标签与所述每个主题的种子词的共现：

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}

6.一种基于LDA主题模型的微博用户兴趣的挖掘系统，其特征在于，包括：

采集模块，用于从微博中采集用户关系信息和用户标签信息，其中，所述用户标签信息包括多个用户标签；

集成模块，用于将所述用户关系信息集成至LDA主题模型中，其中，所述LDA主题模型根据兴趣类别设置有多个主题；以及

提取模块，用于根据所述兴趣类别从所述用户标签信息中分别为每个主题选定一个标签作为种子词，并提取多个种子词以将所述多个种子词集成至所述LDA主题模型中，以利用所述LDA主题模型对用户的兴趣进行挖掘。

7.根据权利要求6所述的系统，其特征在于，所述集成模块还用于将Topic-in-set先验、狄利克雷森林先验和层次非对称先验集成至所述LDA主题模型中。

8.根据权利要求7所述的系统，其特征在于，所述用户关系信息验、Topic-in-set先验、狄利克雷森林先验和层次非对称先验根据以下公式进行采样，以集成到所述LDA主题模型中：

\begin{matrix} P (z_{i} = k | z_{- i}, w, q_{1 : T}) &Proportional; \\ (\frac{Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}{Σ_{k = 1}^{T} Σ_{s}^{F_{d}} n_{- i, s}^{(d)} + γ}) \times (ησ (k) &Element; S^{(i)} + 1 - η) \\ \times Π_{s}^{I_{v}^{&UpArrow; i}} \frac{r_{v}^{(C_{v} (s &DownArrow; i))} + n_{- i, v}^{C_{v} (s &DownArrow; i)}}{Σ_{k}^{Cv (s)} (r_{v}^{k} + n_{- i, v}^{(k)})} \cdot \frac{n_{- i, k}^{(d)} + α \frac{N_{k} + α^{'} / T}{Σ_{t} N_{k} + α}}{Σ_{k}^{T} n_{- i, k}^{(d)} + α} \end{matrix}

9.根据权利要求6所述的系统，其特征在于，所述提取模块还用于通过计算每个剩余标签与所述每个主题的种子词的共现，为所述每个主题选定预设个数标签作为所述种子词的候选词，并集成至所述LDA主题模型中，以对所述种子词进行补充。

10.根据权利要求9所述的系统，其特征在于，根据以下公式计算所述每个剩余标签与所述每个主题的种子词的共现：

frequency * PMI (r, m) = P_{r, m} * \log_{2} \frac{P_{r, m}}{P_{r} P_{m}}