CN104102635A

CN104102635A - 一种挖掘知识图谱的方法及装置

Info

Publication number: CN104102635A
Application number: CN201310112407.9A
Authority: CN
Inventors: 程刚
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2013-04-01
Filing date: 2013-04-01
Publication date: 2014-10-15
Anticipated expiration: 2033-04-01
Also published as: CN104102635B; WO2014161426A1

Abstract

本发明公开了一种挖掘知识图谱的方法及装置，属于计算机领域。所述方法包括：根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群，对所述社区用户进行聚类并形成社区用户圈子，所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数；根据所述社区用户圈子包括的社区用户产生的用户行为数据，创建所述社区用户圈子的知识图谱。所述装置包括：聚类模块和创建模块。本发明能够提高搜索关联词汇的精度。

Description

一种挖掘知识图谱的方法及装置

技术领域

本发明涉及计算机领域，特别涉及一种挖掘知识图谱的方法及装置。

背景技术

随着搜索引擎技术的快速发展，目前搜索引擎中出现了知识图谱，用户在搜索引擎中输入关键词，搜索引擎根据该关键词从知识图谱中搜索出与该关键词相关联的关联词汇给用户。

其中，事先需要挖掘知识图谱来供搜索引擎使用，目前现有技术的提供了一种挖掘知识图谱的方法，可以为：对文献库中包括的每篇文献进行分析，分析出文献中包括的各词汇之间的关联性，根据各词汇之间的关联性构建一个知识图谱。如此，当用户向搜索引擎输入一个关键词时，搜索引擎会从该知识图谱中搜索出该关键词的关联词汇。

在实现本发明的过程中，发明人发现现有技术至少存在以下问题：

不同词汇在不同的人群中具有的含义可能不同，某人群的用户搜索出的关联词汇更希望搜索出的是该人群对应的词汇，而目前该人群的对应的词汇都沉没在搜索的大量关联词汇中，搜索关联词汇的精度不高。

发明内容

为了提高搜索关联词汇的精度，本发明提供了一种挖掘知识图方法及装置。所述技术方案如下：

一种挖掘知识图谱的方法，所述方法包括：

根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群，对所述社区用户进行聚类并形成社区用户圈子，所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数；

根据所述社区用户圈子包括的社区用户产生的用户行为数据，创建所述社区用户圈子的知识图谱。

一种挖掘知识图谱的装置，所述装置包括：

聚类模块，用根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群，对所述社区用户进行聚类并形成社区用户圈子，所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数；

创建模块，用于根据所述社区用户圈子包括的社区用户产生的用户行为数据，创建所述社区用户圈子的知识图谱。

在本发明实施例中，根据该社区用户的社区原始数据、用户属性、属于的主题论坛或属于的即时通信工作的聊天群，对该社区用户进行聚类并形成社区用户圈子，根据该社区用户圈子包括的社区用户产生的用户行为数据，创建该社区用户圈子的知识图谱。如此，当某一社区用户圈子的社区用户需要搜索关键词的关联词汇时，可以到该社区用户圈子对应的知识图谱中搜索出该社区用户圈子对应的关联词汇，提高搜索关联词汇的精度。

附图说明

图1是本发明实施例1提供的一种挖掘知识图谱的方法流程图；

图2是本发明实施例2提供的一种挖掘知识图谱的方法流程图；

图3是本发明实施例3提供的一种挖掘知识图谱的方法流程图；

图4是本发明实施例4提供的一种挖掘知识图谱的装置结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1

参见图1，本发明实施例提供了一种挖掘知识图谱的方法，包括：

步骤101：根据社区用户的社区原始数据、社区用户的用户属性、社区用户属于的主题论坛或社区用户属于的即时通信工作的聊天群，对社区用户进行聚类并形成社区用户圈子；

其中，该社区原始数据包括社区用户对其他社区用户的关注度信息和该社区用户与其他社区用户共同关注的话题个数。

步骤102：根据该社区用户圈子包括的社区用户产生的用户行为数据，创建该社区用户圈子的知识图谱。

在本发明实施例中，根据社区用户的社区原始数据、用户属性、属于的主题论坛或属于的即时通信工作的聊天群，对社区用户进行聚类并形成社区用户圈子，根据该社区用户圈子包括的社区用户产生的用户行为数据，创建该社区用户圈子的知识图谱。如此，当某一社区用户圈子的社区用户需要搜索关键词的关联词汇时，可以到该社区用户圈子对应的知识图谱中搜索出该社区用户圈子对应的关联词汇，提高搜索关联词汇的精度。

实施例2

参见图2，本发明实施例提供了一种挖掘知识图谱的方法，包括：

步骤201：获取社区用户的社区原始数据，该社区原始数据包括社区用户对其他社区用户的关注度信息和社区用户与其他社区用户共同关注话题的个数；

具体地，获取社区用户对其他社区用户的关注度信息和社区用户与其他社区用户共同关注话题的个数。

其中，社区用户对其他社区用户的关注度信息包括：社区用户的收听信息、社区用户转发其他社区用户发布的内容的转发次数、社区用户评论其他社区用户发布的内容的评论次数、社区用户发送信息给其他社区用户的信息发送次数和/或社区用户发送私信给其他社区用户的私信发送次数。

其中，社区用户的收听信息包括该社区用户收听的其他社区用户的身份标识。

其中，在本发明实施例中，社区服务器中存储有社区包括的每个社区用户的收听信息、每个社区用户转发其他社区用户的社区的转发次数、每个社区用户评论其他社区用户发布的内容的评论次数、每个社区用户发送信息给其他社区用户的信息发送次数、每个社区用户发送私信给其他社区用户的私信发送次数以及每个社区用户关注的社区话题。

所以，在本发明实施例中，对于任一个社区用户，可以从社区服务器中获取该社区用户的收听信息、该社区用户转发其他社区用户发布的内容的转发次数、该社区用户评论其他社区用户发布的内容的评论次数、该社区用户发送信息给其他社区用户的信息发送次数、该社区用户发送私信给其他社区用户的私信发送次数和/或该社区用户关注的社区话题，根据该社区用户关注的社区话题和其他社区用户关注的社区话题，获取该社区用户和其他社区用户共同关注的社区话题。

步骤202：根据社区用户对其他社区用户的关注度信息，计算社区用户对其他社区用户的关注度分数；

其中，社区用户对其他社区用户的关注度分数包括：社区用户对其他社区用户的收听信息分数、社区用户转发评论其他社区用户发布的内容的转发评论分数、社区用户发送信息给其他社区用户的信息发送分数和/或社区用户发送私信给其他社区用户的私信发送分数。

其中，根据社区用户的收听信息，计算社区用户对其他社区用户的收听信息分数，可以为：

根据社区用户收听其他社区用户的收听信息和公式（1），计算社区用户对其他社区用户的收听分数；

z (i, j) = \{\begin{matrix} 1 \\ 0 \end{matrix} \cdot \cdot \cdot \cdot \cdot \cdot (1)

其中，z(i,j)为社区用户对其他社区用户的收听信息分数函数，i为该社区用户，j为除该社区用户以外其他任一个社区用户，如果社区用户i收听社区用户j，则社区用户i对社区用户j的收听信息分数为z(i,j)=1，如果社区用户i没有收听社区用户j，则社区用户i对社区用户j的收听信息分数为z(i,j)=0。

其中，根据社区用户转发其他社区用户发布的内容的转发次数、社区用户评论其他社区用户发布的内容的评论次数，计算社区用户转发评论其他社区用户发布的内容的转发评论分数，可以为：

根据社区用户转发其他社区用户发布的内容的转发次数、社区用户评论其他社区用户发布的内容的评论次数和公式（2）计算社区用户转发评论其他社区用户发布的内容的转发评论分数；

f(i,j)=x+y……(2)

其中，f(i,j)为社区用户转发评论其他社区用户发布的内容的转发评论分数函数，i为该社区用户,j为除该社区用户以外其他任一个社区用户，x为社区用户i转发社区用户j发布的内容的转发次数，y为社区用户i评论社区用户j发布的内容的评论次数。

其中，根据社区用户发送信息给其他社区用户的信息发送次数，计算社区社区用户发送信息给其他社区用户的信息发送分数，可以为：

根据社区用户发送信息给其他社区用户的信息发送次数和公式（3）计算社区社区用户发送信息给其他社区用户的信息发送分数；

g(i,j)=x……(3)

其中，g(i,j)为社区用户发送信息给其他社区用户的信息发送次数函数，i为该社区用户，j为除该社区用户以外其他任一个社区用户，x为社区用户i发送信息给社区用户j的信息发送次数。

其中，根据社区用户发送私信给其他社区用户的私信发送次数，计算社区社区用户发送私信给其他社区用户的私信发送分数，可以为：

根据社区用户发送私信给其他社区用户的私信发送次数和公式（4）计算社区社区用户发送私信给其他社区用户的私信发送分数；

h(i,j)=x……(4)

其中，h(i,j)为社区用户发送信息给其他社区用户的信息发送次数函数，i为该社区用户，j为除该社区用户以外其他任一个社区用户，x为社区用户i发送私信给社区用户j的私信发送次数。

步骤203：根据社区用户与其他社区用户共同关注的话题个数，计算社区用户与其他社区用户之间的关注热点分数；

具体地，根据社区用户与其他社区用户共同关注的话题个数和公式（5），计算社区用户与其他社区用户之间的关注热点分数；

l(i,j,x)=x……(5)

其中，l(i,j,x)为社区用户与其他社区用户之间的关注热点分数函数，i为该社区用户，j为除该社区用户以外其他任一个社区用户，x为社区用户i和社区用户j共同关注话题的个数。

步骤204：根据社区用户对其他社区用户的关注度分数和社区用户与其他社区用户之间的关注热点分数，计算社区用户对其他社区用户的亲密度分数；

其中，该亲密度分数用于标识社区用户对其他社区用户的亲密程度。

具体地，根据社区用户对其他社区用户的关注度分数、社区用户与其他社区用户之间的关注热点分数和公式6，计算社区用户对其他社区用户的亲密度分数；

dis_score (i, j) = \frac{1}{α * z (i, j) + β * f (i, j) + γ * g (i, j) + δ * h (i, j) + ϵ * l (i, j)} \cdot \cdot \cdot \cdot \cdot \cdot (6)

其中，dis_score(i,j)为用户对其他社区用户的亲密度分数函数，其中，i为该社区用户，j为除该社区用户以外其他任一个社区用户，z(i,j)为关注信息函数，f(i,j)为社区转发评论分数函数，g(i,j)为信息发送分数函数，h(i,j)为私信发送分数函数，l(i,j,x)为关注热点分数函数，α+β+γ+δ+ε=1，且α，β，γ，δ，ε中的一项或者多项可以取值为零，取值为零时，不需要计算相关函数的分数。

其中，社区用户对其他社区用户的亲密度分数越小，表示社区用户对其他社区用户之间关系越亲密，反之则社区用户对其他社区用户之间的关系越疏远。

例如，现获取到社区用户i对社区用户j和社区用户j对社区用户i的社区原始数据以及相关函数分数如下表1所示：

表1

根据表1的社区原始数据，计算社区用户i对社区用户j的亲密度分数，为：

dis_score (i, j) = \frac{1}{0.2 * 1 + 0.2 * (10 + 5) + 0.2 * 7 + 0.2 * 3 + 0.2 * 5} = 0.1612;

计算社区用户j对社区用户i的亲密度分数，为:

dis_score (i, j) = \frac{1}{0.2 * 1 + 0.2 * (5 + 6) + 0.2 * 3 + 0.2 * 1 + 0.2 * 5} = 0.2381;

可以看出社区用户i对社区用户j的亲密度分数小于社区用户j对社区用户i的亲密度分数，则说明社区用户i对社区用户j比社区用户j对社区用户i亲密。

步骤205：根据社区用户对其他社区用户的亲密度分数对社区用户进行聚类并形成社区用户圈子；

具体地，本步骤可以具体包括如下（1）至（4）的步骤，分别为：

（1）：扫描社区用户；

（2）：根据扫描的社区用户对除扫描的社区用户以外的其他社区用户的亲密度分数和其他社区用户对扫描的社区用户的亲密度分数，计算扫描的社区用户与其他社区用户之间的用户距离；

（3）：选取与扫描的社区用户的之间的用户距离小于预设用户距离门限的社区用户，将扫描的社区用户与选取的社区用户组成一个社区用户圈子；

其中，计算扫描的社区用户与其他社区用户之间的用户距离，可以为：

根据扫描的社区用户对除扫描的社区用户以外的其他社区用户的亲密度分数、其他社区用户对扫描的社区用户的亲密度分数和公式（7），计算扫描的社区用户与其他社区用户之间的用户距离。

dis(i,j)=dis_score(i,j)*dis_score(j,i)……（7）

其中，dis(i，j)为社区用户与其他社区用户之间的用户距离函数，i为该社区用户，j为除该社区用户以外其他任一个社区用户，dis_score(i,j)为社区用户i对社区用户j的亲密度分数，dis_score(j，i)为社区用户j对社区用户i的亲密度分数。

其中，预设用户距离门限根据实际情况取值，且取值小于1，预设用户距离门限越小，圈子越小。

（4）：如果还存在未扫描的社区用户，则扫描下一个社区用户，并返回执行步骤（2），如果不存在未扫描的社区用户，则返回结束。

相应地，对社区网络上所有的社区用户执行上述操作，将社区用户之间距离小于预设用户距离门限的两个社区用户组成一个社区用户圈子。

进一步地，形成社区用户圈子后，还可以对社区用户圈子进行合并，具体包括如下步骤（11）至（17）。

（11）：将所有社区用户圈子组成圈子集合，设置指针指向圈子集合包括的第一个社区用户圈子；

（12）：从圈子集合包括的剩下第一个社区用户圈子开始扫描，并计算当前指针所指的社区用户圈子和扫描的社区用户圈子之间的圈子距离；

具体地，根据当前指针指向的社区用户圈子包括的社区用户对扫描的社区用户圈子包括的社区用户的亲密度分数、扫描的社区用户圈子包括的社区用户对当前指针指向的社区用户圈子包括的社区用户的亲密度和公式（8），计算当前指针所指的圈子和扫描的社区用户圈子之间的圈子距离；

C_dis (I, J) = Σ_{0}^{n} dis_score (i, j) * dis_score (j, i) \cdot \cdot \cdot \cdot \cdot \cdot (8)

其中，c_dis(I,J)为两个社区用户圈子之间距离的圈子距离函数，I为当前指针指向的社区用户圈子，J为扫描的社区用户圈子，i，j分别为两个不同的社区用户，且社区用户i属于社区用户圈子I，社区用户j属于社区用户圈子J，n为社区用户圈子中社区用户的个数。

（13）：判断当前指针所指的圈子和扫描的社区用户圈子之间的圈子距离是否小于预设圈子距离门限，如果当前指针所指的圈子和扫描的社区用户圈子之间的圈子距离小于预设圈子距离门限，执行步骤（16），如果当前指针所指的圈子和扫描的社区用户圈子之间的圈子距离大于或者等于预设圈子距离门限，执行步骤（14）；

（14）：判断当前扫描的社区用户圈子是否为圈子集合包括的最后一个社区用户圈子，如果当前扫描的社区用户圈子是圈子集合包括的最后一个社区用户圈子，执行步骤（17），如果当前扫描的社区用户圈子不是圈子集合包括的最后一个社区用户圈子，执行步骤（15）；

（15）：扫描圈子集合包括的下一个社区用户圈子，并计算当前指针所指的社区用户圈子和扫描的社区用户圈子之间的圈子距离，并返回执行步骤（13）；

（16）：合并当前指针所指的圈子和扫描的社区用户圈子；

（17）：判断指针指向的社区用户圈子是否为圈子集合包括的最后一个社区用户圈子，若指针指向的社区用户圈子是最后一个社区用户圈子，结束返回，若指针指向的社区用户圈子不是圈子集合包括的最后一个社区用户圈子，移动指针指向圈子集合中包括的下一个社区用户圈子，返回执行上述步骤（12）；

例如，有A、B、C、D、E五个社区用户圈子，首先将这五个社区用户圈子组成圈子集合，设置指针指向社区用户圈子A，从圈子包含的剩下的社区用户圈子B开始扫描，计算社区用户圈子A和社区用户圈子B之间的圈子距离，如果社区用户圈子A和社区用户圈子B之间的圈子距离小于预设圈子距离门限，则合并社区用户圈子A和社区用户圈子B，并移动指针指向社区用户圈子C，从社区用户圈子D开始扫描；如果社区用户圈子A和社区用户圈子B之间的圈子距离大于或等于预设圈子距离门限，则扫描社区用户圈子中的下一个社区用户圈子，即社区用户圈子C，一直扫描到圈子集合中的最后一个社区用户圈子E为止，此时设置指针指向社区用户圈子B，从社区用户圈子C开始扫描，一直到指针所指的社区用户圈子为圈子集合中的最后一个圈子E时，停止扫描。

其中，在本发明实施例中，可以将社区用户的年龄、地域、学历和/或收入等用户属性组成特征向量，根据社区用户的特征向量，对社区用户进行聚类形成社区用户圈子。

或者，根据社区用户属于的即时通信工具的聊天群或主题论坛，对社区用户进行聚类，形成社区用户圈子。

其中，可以将即时通信工具的聊天群内包括的社区用户组成社区用户图子，或者，将一个主题论坛包括的社区用户组成一个社区用户圈子。

步骤206：获取社区用户圈子包括的每个社区用户产生的用户行为数据，从社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户行为数据形成文档；

其中，每个社区用户使用社区产生用户行为数据后，社区服务器都会存储社区用户产生的用户行为数据。从社区服务器中获取社区用户圈子包括的每个社区用户产生的用户行为数据，从社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户行为数据形成文档。

例如，如果社区为微博，bbs（Bulletin Board System，电子布告栏系统）论坛、贴吧或网络空间，则社区用户产生的用户行为数据为社区用户发布的内容以及对该内容进行评论的评论内容。相地的，社区用户发布的内容和对该内容进行评论的评论内容组一主题的用户行为数据，将该主题的用户行为数据形成一文档。

其中，如果社区为即时通信工具，则社区用户的用户行为数据为社区用户发送一条聊天数据，一条聊天数据即为一主题的用户行为数据，将社区用户发送一条聊天数据形成一文档。

其中，如果社区为即时通信工具的聊天群，获取该聊天群的聊天内容，对该聊天内容持续的时间进行划分，划分成多个时长相等的时间段，获取每个时间段的聊天频率和该聊天群的平均聊天频率，获取聊天频率大于或等于平均聊天频率的预设数值倍的时间段，将获取的每个时间段内的聊天内容分别形成每个时间段对应的文档。

步骤207：对形成的每个文档包括的数据进行分词，并将每个文档包括的分词分别组成每个文档的特征向量；

具体地，对于形成的任一个文档，采用分词库对该文档包括的数据进行分词，得到该文档包括的一个或多个分词，从该文档包括的分词中去除副词和常用词，将该文档包括的剩下分词组成该文档的特征向量。对于其他每个文档，按上述相同方法获取每个文档的特征向量。

其中，从该文档包括的分词中去除常用词的操作，可以为：

对于该文档包括的任一个分词，获取该分词在形成的所有文档中出现的频次，对于每个文档的其他所有分词同该分词一样，获取每个文档的其他所有分词在所文档中出现的频次，将频次最大的预设数值个分词确定为常用词，从该文档包括的分词中去除确定的常用词。

步骤208：根据每个文档的特征向量，对每个文档进行聚类，将同一话题的文档聚为一个文档聚类；

其中，根据每个文档的特征向量，可以采用现有的聚类算法对每个文档进行聚类，将同一话题的文档聚为一个文档聚类。

其中，对于任一个文档，根据该文档的特征向量，采用现有的聚类算法可以获取该文档与其他每个文档之间的聚合度；如此可以获取到任意两文档之间的聚合度，将任意相互之间的聚合度超过预设阈值的文档确定为同一话题的文档，并聚为一个文档聚类。

步骤209：对每个文档聚类包括的文档，采用挖掘知识图谱算法进行挖掘，得到该社区用户圈子对应的知识图谱。

其中，该社区用户圈子包括的社区用户需要搜索关联词汇时，该社区用户可以将其所在社区用户圈子和关键词输入到搜索引擎。搜索引擎根据该关键词从该社区用户圈子对应的知识图谱中搜索出对应的关联词汇，如此提高搜索关联词汇的精度。

在本发明实施例中，获取社区用户的社区原始数据，根据该社区用户的社区原始数据对该社区用户进行聚类并形成社区用户圈子，根据该社区用户圈子包括的社区用户产生的用户行为数据，创建该社区用户圈子的知识图谱。如此，当某一社区用户圈子的社区用户需要搜索关键词的关联词汇时，可以到该社区用户圈子对应的知识图谱中搜索出该社区用户圈子对应的关联词汇，提高搜索关联词汇的精度。

实施例3

参见图3，本发明实施例提供了一种挖掘知识图谱的方法，包括：

步骤301至304：分别与实施例2的步骤201至204相同，在此不再详细说明；

步骤305：根据社区用户对其他社区用户的亲密度分数对社区用户进行聚类并形成社区用户圈子；

（1）：扫描社区用户，将其他社区用户形成第一用户集合，根据扫描的社区用户对第一用户集合包括的社区用户的亲密度分数和第一用户集合包括的社区用户对扫描的社区用户的亲密度分数，计算扫描的社区用户与第一用户集合包括的社区用户之间的用户距离；

具体地，扫描社区用户，将其他社区用户形成第一用户集合，根据扫描的社区用户对第一用户集合包括的社区用户的亲密度分数、第一用户集合包括的社区用户对扫描的社区用户的亲密度分数和公式（9），计算扫描的社区用户与第一用户集合包括的社区用户之间的用户距离；

dis(i,j)=dis_score(i,j)*dis_score(j,i)……(9)

其中，dis(i，j)为扫描的社区用户与第一用户集合包括的社区用户之间的用户距离函数，i为该扫描的社区用户，j为第一用户集合包括的任一社区用户，dis_score(i,j)为扫描的社区用户对第一用户集合包括的社区用户的亲密度分数，dis_score(j,i)为第一用户集合包括的社区用户对扫描的社区用户的亲密度分数。

（2）：从第一用户集合中选取与社区用户之间的用户距离最小的社区用户，将社区用户和选取的社区用户组成第二用户集合，获取第一用户集合包括的未选择的社区用户与第二用户集合的边数，选取与第二用户集合的边数最多的社区用户，统计边数最多的社区用户的个数；

其中，当两社区用户之间的用户距离小于预设用户距离门限时，该两社区用户互为其有效边，预设用户距离门限根据实际情况取值，预设用户距离门限越小，社区用户的边数越小。

其中，当社区用户A与社区用户B之间的用户距离小于预设用户距离门限时，社区用户A与社区用户B互为有效边，若第二用户集合中包括两个社区用户，第一用户集合中任一社区用户和第二用户集合中两个社区用户之间的距离均小于预设距离门限，则第一用户集合中的该社区用户边数为2。

（3）：如果统计的边数最多的社区用户的个数不为零，则将边数最多的社区用户添加到第二用户集合中，计算第二用户集合包括的任一社区用户与第二用户集合包括的其他社区用户之间的边数，选取边数最少的社区用户，如果边数最少的社区用户的个数小于二分之一的统计的个数，则将边数最少的社区用户从第二用户集合中排除；

其中，如果统计的边数最多的社区用户的个数为零，则说明第二用户集合中的两个用户距离最小的社区用户不属于任何圈子。

（4）：对第二用户集合包括的社区用户的个数进行判断，如果第二用户集合包括的社区用户的个数大于或等于预设第一阈值且小于或等于预设第二阈值，执行步骤（8），如果第二用户集合包括的社区用户的个数小于预设第一阈值，执行步骤（5），如果第二用户集合包括的社区用户的个数大于预设第二阈值，执行步骤（6）；

其中，预设第一阈值和预设第二阈值根据实际情况取值，预设第一阈值和预设第二阈值的大小决定用户集合中包括的社区用户的数量。

（5）：获取第一用户集合包括的未选择的社区用户与第二用户集合的边数，选取与第二用户集合的边数最多的社区用户，统计边数最多的社区用户的个数，如果统计的边数最多的社区用户的个数为零，执行步骤（8），如果统计的个数不为零，则返回步骤（3）；

如果统计的边数最多的社区用户的个数为零，则说明第二用户集合已经扩展到边界。

（6）：计算第二用户集合包括的任一社区用户与第二用户集合包括的其他社区用户之间的边数，选取边数最少的一个社区用户并从第二用户集合排除；

（7）：对第二用户集合包括的社区用户的个数进行判断，如果第二用户集合包括的社区用户的个数大于预设第二阈值，执行步骤（6），如果第二用户集合包括的社区用户的个数小于或者等于预设第二阈值，执行步骤（8）；

（8）：将第二用户集合包括的社区用户形成社区用户圈子。

步骤306：获取第一社区用户圈子和第二社区用户圈子中相同的社区用户，如果第一社区用户圈子和第二社区用户圈子中相同的社区用户数量达到一定值，将第一社区用户圈子和第二社区用户圈子合并；

具体地，获取第一社区用户圈子和第二社区用户圈子中相同的社区用户，第一社区用户圈子和第二社区用户圈子为任一两社区用户圈子，计算获取的相同的社区用户在第一社区用户圈子中的第一百分比以及在第二社区用户圈子中的第二百分比，如果第一百分比和/或第二百分比大于预设百分比时，将第一社区用户圈子和第二社区用户圈子合并。

步骤307：根据预设第二阈值以及合并后的社区用户圈子中包括的社区用户的个数，调整合并后的社区用户圈子中社区用户的数量；

具体地，将第一社区用户圈子和第二社区用户圈子合并后，计算合并后圈子中包括的任一社区用户与该合并后圈子中包括的其他社区用户之间的边数，选取边数最少的一个社区用户并从该合并的圈子中排除，如果合并后圈子中包括的社区用户的个数大于预设第二阈值，则重复执行上述流程，直到合并后圈子中包括的社区用户的个数小于或等于预设第二阈值时。

其中，可以通过调整预设第二阈值来调整圈子中社区用户的数量。

步骤308：获取社区用户圈子包括的每个社区用户产生的用户行为数据，从社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户行为数据形成文档；

例如，如果社区为微博，bbs论坛、贴吧或网络空间，则社区用户产生的用户行为数据为社区用户发布的内容以及对该内容进行评论的评论内容。相地的，社区用户发布的内容和对该内容进行评论的评论内容组一主题的用户行为数据，将该主题的用户行为数据形成一文档。

步骤309：对形成的每个文档包括的数据进行分词，并将每个文档包括的分词分别组成每个文档的特征向量；

其中，从该文档包括的分词中去除常用词的操作，可以为：

步骤310：根据每个文档的特征向量，对每个文档进行聚类，将同一话题的文档聚为一个文档聚类；

步骤311：对每个文档聚类包括的文档，采用挖掘知识图谱算法进行挖掘，得到该社区用户圈子对应的知识图谱。

实施例4

参见图4，本发明实施例提供了一种挖掘知识图谱的装置，包括：

聚类模块401，用于根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群，对所述社区用户进行聚类并形成社区用户圈子，所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数；

创建模块402，用于根据所述社区用户圈子包括的社区用户产生的用户行为数据，创建所述社区用户圈子的知识图谱。

其中，所述聚类模块401包括：

第一计算单元，用于根据所述社区用户的社区原始数据，计算所述社区用户对其他社区用户的亲密度分数，所述亲密度分数用于标识所述社区用户对其他社区用户的亲密程度；

聚类单元，用于根据所述社区用户对其他社区用户的亲密度分数，对所述社区用户进行聚类并形成社区用户圈子。

其中，所述第一计算单元包括：

第一计算子单元，用于根据所述社区用户对所述其他社区用户的关注度信息，计算所述社区用户对所述其他社区用户的关注度分数；

第二计算子单元，用于根据所述社区用户与所述其他社区用户共同关注的话题个数，计算所述社区用户与所述其他社区用户之间的关注热点分数；

第三计算子单元，用于根据所述社区用户对所述其他社区用户的关注度分数和所述社区用户与所述其他社区用户之间的关注热点分数，计算所述社区用户对所述其他社区用户的亲密度分数。

其中，所述聚类单元包括：

第四计算子单元，用于扫描社区用户；根据所述扫描的社区用户对除所述扫描的社区用户以外的其他社区用户的亲密度分数和所述其他社区用户对所述扫描的社区用户的亲密度分数，计算所述扫描的社区用户与所述其他社区用户之间的用户距离；

聚类子单元，用于选取与所述扫描的社区用户的之间的用户距离小于预设用户距离门限的社区用户，将所述扫描的社区用户与所述选取的社区用户聚类成一个社区用户圈子。

其中，所述聚类单元包括：

扫描子单元，用于扫描社区用户，将其他社区用户形成第一用户集合，根据所述扫描的社区用户对所述第一用户集合包括的社区用户的亲密度分数和所述第一用户集合包括的社区用户对所述扫描的社区用户的亲密度分数，计算所述扫描的社区用户与所述第一用户集合包括的社区用户之间的用户距离；

统计子单元，用于从第一用户集合中选取与所述社区用户之间的用户距离最小的社区用户，将所述社区用户和所述选取的社区用户组成第二用户集合，获取第一用户集合包括的未选择的社区用户与所述第二用户集合的边数，选取与所述第二用户集合的边数最多的社区用户，统计所述边数最多的社区用户的个数；

排除子单元，用于如果所述统计的个数不为零，则将所述边数最多的社区用户添加到所述第二用户集合中，计算所述第二用户集合包括的任一社区用户与所述第二用户集合包括的其他社区用户之间的边数，选取边数最少的社区用户，如果所述边数最少的社区用户的个数小于二分之一的所述统计的个数，则将所述边数最少的社区用户从所述第二用户集合中排除；

第一聚类子单元，用于对所述第二用户集合包括的社区用户的个数进行判断，如果所述第二用户集合包括的社区用户的个数大于或等于预设第一阈值且小于或等于预设第二阈值，将所述第二用户集合包括的社区用户聚类形成社区用户圈子。

其中，所述创建模块402包括：

形成单元，用于从所述社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户行为数据形成文档；

挖掘单元，用于对形成的每个文档进行挖掘，得到所述社区用户圈子的知识图谱。

其中，所述挖掘单元包括：

分词子单元，用于对形成的每个文档包括的数据进行分词，并将所述每个文档包括的分词分别组成每个文档的特征向量；

第二聚类子单元，用于根据所述每个文档的特征向量，对所述每个文档进行聚类，将同一话题的文档聚为一个文档聚类；

挖掘子单元，用于对所述每个文档聚类包括的文档进行挖掘，得到所述社区用户圈子的知识图谱。

在本发明实施例中，根据社区用户的社区原始数据、社区用户的用户属性、社区用户属于的主题论坛或社区用户属于的即时通信工作的聊天群，根据该社区用户圈子包括的社区用户产生的用户行为数据，创建该社区用户圈子的知识图谱。如此，当某一社区用户圈子的社区用户需要搜索关键词的关联词汇时，可以到该社区用户圈子对应的知识图谱中搜索出该社区用户圈子对应的关联词汇，提高搜索关联词汇的精度。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种挖掘知识图谱的方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述根据所述社区用户的社区原始数据对所述社区用户进行聚类并形成社区用户圈子，包括：

根据所述社区用户的社区原始数据，计算所述社区用户对其他社区用户的亲密度分数，所述亲密度分数用于标识所述社区用户对其他社区用户的亲密程度；

根据所述社区用户对其他社区用户的亲密度分数，对所述社区用户进行聚类并形成社区用户圈子。

3.如权利要求2所述的方法，其特征在于，所述根据所述社区用户的社区原始数据，计算所述社区用户对其他社区用户的亲密度分数，包括：

根据所述社区用户对所述其他社区用户的关注度信息，计算所述社区用户对所述其他社区用户的关注度分数；

根据所述社区用户与所述其他社区用户共同关注的话题个数，计算所述社区用户与所述其他社区用户之间的关注热点分数；

根据所述社区用户对所述其他社区用户的关注度分数和所述社区用户与所述其他社区用户之间的关注热点分数，计算所述社区用户对所述其他社区用户的亲密度分数。

4.如权利要求2所述的方法，其特征在于，所述根据所述社区用户对其他社区用户的亲密度分数，对所述社区用户进行聚类并形成社区用户圈子，包括：

扫描社区用户；

根据所述扫描的社区用户对除所述扫描的社区用户以外的其他社区用户的亲密度分数和所述其他社区用户对所述扫描的社区用户的亲密度分数，计算所述扫描的社区用户与所述其他社区用户之间的用户距离；

选取与所述扫描的社区用户的之间的用户距离小于预设用户距离门限的社区用户，将所述扫描的社区用户与所述选取的社区用户聚类成一个社区用户圈子。

5.如权利要求2所述的方法，其特征在于，所述根据所述社区用户对其他社区用户的亲密度分数，对所述社区用户进行聚类并形成社区用户圈子，包括：

扫描社区用户，将其他社区用户形成第一用户集合，根据所述扫描的社区用户对所述第一用户集合包括的社区用户的亲密度分数和所述第一用户集合包括的社区用户对所述扫描的社区用户的亲密度分数，计算所述扫描的社区用户与所述第一用户集合包括的社区用户之间的用户距离；

从第一用户集合中选取与所述社区用户之间的用户距离最小的社区用户，将所述社区用户和所述选取的社区用户组成第二用户集合，获取第一用户集合包括的未选择的社区用户与所述第二用户集合的边数，选取与所述第二用户集合的边数最多的社区用户，统计所述边数最多的社区用户的个数；

如果所述统计的个数不为零，则将所述边数最多的社区用户添加到所述第二用户集合中，计算所述第二用户集合包括的任一社区用户与所述第二用户集合包括的其他社区用户之间的边数，选取边数最少的社区用户，如果所述边数最少的社区用户的个数小于二分之一的所述统计的个数，则将所述边数最少的社区用户从所述第二用户集合中排除；

对所述第二用户集合包括的社区用户的个数进行判断，如果所述第二用户集合包括的社区用户的个数大于或等于预设第一阈值且小于或等于预设第二阈值，将所述第二用户集合包括的社区用户聚类形成社区用户圈子。

6.如权利要求1所述的方法，其特征在于，所述根据所述社区用户圈子包括的社区用户产生的用户行为数据，创建所述社区用户圈子的知识图谱，包括：

从所述社区用户圈子包括的每个社区用户产生的用户行为数据中将同一主题的用户行为数据形成文档；

对形成的每个文档进行挖掘，得到所述社区用户圈子的知识图谱。

7.如权利要求6所述的方法，其特征在于，所述根据形成的每个文档，采用挖掘知识图谱算法进行挖掘，得到所述社区用户圈子的知识图谱，包括：

对形成的每个文档包括的数据进行分词，并将所述每个文档包括的分词分别组成每个文档的特征向量；

根据所述每个文档的特征向量，对所述每个文档进行聚类，将同一话题的文档聚为一个文档聚类；

对所述每个文档聚类包括的文档进行挖掘，得到所述社区用户圈子的知识图谱。

8.一种挖掘知识图谱的装置，其特征在于，所述装置包括：

聚类模块，用于根据社区用户的社区原始数据、所述社区用户的用户属性、所述社区用户属于的主题论坛或所述社区用户属于的即时通信工作的聊天群，对所述社区用户进行聚类并形成社区用户圈子，所述社区原始数据包括所述社区用户对其他社区用户的关注度信息和所述社区用户与所述其他社区用户共同关注的话题个数；

9.如权利要求8所述的装置，其特征在于，所述聚类模块包括：

10.如权利要求9所述的装置，其特征在于，所述第一计算单元包括：

11.如权利要求9所述的装置，其特征在于，所述聚类单元包括：

12.如权利要求9所述的装置，其特征在于，所述聚类单元包括：

13.如权利要求8所述的装置，其特征在于，所述创建模块包括：

14.如权利要求13所述的装置，其特征在于，所述挖掘单元包括：