CN105589916B

CN105589916B - 显式和隐式兴趣知识的提取方法

Info

Publication number: CN105589916B
Application number: CN201510493215.6A
Authority: CN
Inventors: 杜亚军; 彭彪; 孟庆瑞; 李曦
Original assignee: Tibet Feiyue Intelligent Technology Co ltd; Xihua University
Current assignee: Tibet Feiyue Intelligent Technology Co ltd; Xihua University
Priority date: 2016-01-11
Filing date: 2016-01-11
Publication date: 2020-05-08
Anticipated expiration: 2036-01-11
Also published as: CN105589916A

Abstract

本发明涉及网络搜索领域，其公开了一种社交网络中用户显式和隐式兴趣知识的提取方法，包括以下步骤：（A）计算用户之间的相似度；（B）文本实体的提取；（C）构建用户相似度向量及兴趣知识矩阵；（D）获取用户的兴趣知识。本发明的有益效果是：本发明用户的社交网络，根据社交网络中用户之间的结构相似度，提出了一种基于社交网络链路结构的用户相似度计算方法，用于构建用户的高相似度社交网络；实现了在社交平台上对用户兴趣知识的挖掘与发现，确保了数据来源的确定性与高相关性。

Description

显式和隐式兴趣知识的提取方法

【技术领域】

本发明涉及网络搜索领域，尤其涉及一种提取显式和隐式兴趣知识的方法。

【背景技术】

用户的兴趣提取是指在社交平台中，通过用户在社交平台上的文字活动，挖掘出与用户相关的兴趣爱好；据《东方早报》报道，2014年是微博活跃用户增幅最快的一年。截至2014年四季度末，微博月活跃用户达到1.76亿，全年净增4700万，为推出以来的最高纪录；月活跃用户中来自移动端的比例高达80％。其中去年下半年用户增长速度更为迅速。伴随着互联网时代的到来，网络社交已经成为交友的新的趋势，基于社交网络的数据挖掘是运营商了解用户的一种重要的途径。在微博这种基于短文本的社交网络中，由于微博信息很短，这些文字不像长文本能反应用户的具体兴趣点，同时在用户长期发表的微博本文中，其中只有很少量的微博文本能反应用户的兴趣点。所以通过文字来挖掘用户信息有着较高的技术难点，微博中用户的兴趣挖掘是社交平台运营商了解用户的重要途径之一，是通过社交平台进一步进行商业运作的基础，充分挖掘用户的社交网络信息并分析他们的兴趣爱好，是社交平台运营商盈利的关键。因此有效的微博用户兴趣提取算法是确保社交平台运营情况的核心技术。

在发明专利“一种基于标签的社交网络用户兴趣挖掘方法与装置”(专利申请号：201210249582.8)中提出了一种基于社交网络用户标签的用户兴趣挖掘方法与装置，该方法通过用户在社交网络上生成的文字性数据包含的所有标签和每个标签所对应地权重构成用户的兴趣序列，从而达到用户兴趣挖掘的目的。但是在这一技术中，“一种基于标签的社交网络用户兴趣挖掘方法与装置”(专利申请号：201210249582.8)提出的社交网络用户兴趣挖掘方法与装置，建立在以用户生成的文本基础之上。该方法通过用户的兴趣标签作为挖掘用户兴趣的依据，不能挖掘出用户潜在的兴趣知识。同时，当用户文字信息较少的时候将无法有效、准确地挖掘出用户的兴趣爱好。只有当用户的文字信息达到一定数量时该方法才有可能挖掘用户感兴趣的知识。

在发明专利“社交网络用户兴趣挖掘方法和系统”(专利申请号：201410062761.X)中提出一种基于用户群组的社交网络用户兴趣挖掘方法，该方法通过分析用户的兴趣广义组对应的兴趣类别，从中挖掘用户的兴趣。该专利所提出的基于兴趣类别的社交网络用户兴趣挖掘方法和系统，建立在用户关注对象分类的基础之上。该方法需要首先将用户的关注对象分类，这一过程需要消耗相当多的时间，不能快速、有效地挖掘出用户的兴趣知识。其次该方法只能挖掘与用户显式的兴趣爱好，不能挖掘出用户未提及的潜在兴趣知识，限制了对用户兴趣知识挖掘的全面性。在论文“Mining the interests of Chinesemicrobloggers via keyword extration”(Z.Y.Liu,X.X.Chen,M.S.Sun.Frontiers ofComputer Science,2012,1(6),76-87.)中提出了一种基于词频统计和传统关键词提取方法相结合的用户兴趣挖掘算法，该算法通过对上述两种算法的结果合并来挖掘出用户的兴趣。该算法只能从当前用户已经发表的微博文本中挖掘用户的显式兴趣，但无法发现用户潜在的兴趣知识。

【发明内容】

为了解决现有技术中的问题，本发明提供了一种热点人物提取方法，解决了现有技术无法充分、有效挖掘社交平台中用户的兴趣爱好，无法满足运营商搜集用户需求这一难点问题。

本发明提供了一种显式和隐式兴趣知识的提取方法，包括以下步骤：(A)计算用户之间的相似度；(B)文本实体的提取；(C)构建用户相似度向量及兴趣知识矩阵；(D)获取用户的兴趣知识。

作为本发明的进一步改进，所述步骤(A)进一步中，在获取了用户原始的社交网络关系图的基础上，利用节点的结构相似度算法，计算出用户与其社交网络中的其他节点的相似度，并将用户的关系及相似度存入数据库中。

作为本发明的进一步改进，所述步骤(B)中，提取用户以及一定阈值以上的社交网络节点的发表的文本信息，提取出每条文本信息出现的实体，并存入数据库中。

作为本发明的进一步改进，所述步骤(C)中，将步骤(A)中提取的用户相似度靠前的用户，将步骤(B)中提取出来的实体，统计出每个用户发表的文本信息中提到每个实体的数量，构成用户-兴趣知识矩阵。

作为本发明的进一步改进，所述步骤(D)中，将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识。

作为本发明的进一步改进，相似度算法公式为：

其中，l是最有效层次数，

是衰减因子，

是指在用户的局部社交网络中，从节点v_x到v_y并且链路长度为i的链路条数，n_i是在用户的局部社交网络中v_x到其他节点并且长度为i链路条数，N_{od_y}是节点v_y在其全局社交网络中的出度，N_{id_y}是节点v_y在其全局社交网络中的如度，

是

的归一化因子,其中MinId是全局社交网络中最小的出度，MaxOd是全局社交网络中最大的入度。

作为本发明的进一步改进，用户兴趣知识矩阵为：

其中，W表示“用户-兴趣知识”矩阵，w_ij表示节点v_j最近发表的微博当中提及到p_i的微博的条数，p_i表示兴趣知识并且p_i∈P，v_j表示第j个候选用户并且v_j∈V。

作为本发明的进一步改进，将用户的相似度向量与用户-兴趣知识矩阵相乘，得出用户对各个实体的一个分值，得分越高，表明用户对该实体越有兴趣，得分高于某一阈值的实体则是用户的兴趣。

本发明的有益效果是：在用户的社交网络中，根据社交网络中用户之间的结构相似度，提出了一种基于社交网络链路结构的用户相似度计算方法，用于构建用户的高相似度社交网络；实现了在社交平台上对用户兴趣知识的挖掘与发现，确保了数据来源的确定性与高相关性。

【附图说明】

图1是本发明流程示意图。

图2是本发明一实施例中节点A的全局社交网络示意图。

图3是本发明一实施例中节点A的局部社交网络示意图。

图4时本发明又一实施例中A的全局社交网络示意图。

图5是本发明又一实施例中A的局部社交网络示意图。

【具体实施方式】

下面结合附图说明及具体实施方式对本发明进一步说明。

一种显式和隐式兴趣知识的提取方法，包括以下步骤：(A)计算用户之间的相似度；(B)文本实体的提取；(C)构建用户相似度向量及兴趣知识矩阵；(D)获取用户的兴趣知识。

所述步骤(A)进一步中，在获取了用户原始的社交网络关系图的基础上，利用节点的结构相似度算法，计算出用户与其社交网络中的其他节点的相似度，并将用户的关系及相似度存入数据库中。

所述步骤(B)中，提取用户以及一定阈值以上的社交网络节点的发表的文本信息，提取出每条文本信息出现的实体，并存入数据库中。

所述步骤(C)中，将步骤(A)中提取的用户相似度靠前的用户，将步骤(B)中提取出来的实体，统计出每个用户发表的文本信息中提到每个实体的数量，构成用户-兴趣知识矩阵。

所述步骤(D)中，将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识。

相似度算法公式为：

其中，l是最有效层次数，

是衰减因子，

是的归一化因子,其中

是全局社交网络中最小的出度，MaxOd是全局社交网络中最大的入度。

作为本发明的进一步改进，用户兴趣知识矩阵为：

将用户的相似度向量与用户-兴趣知识矩阵相乘，得出用户对各个实体的一个分值，得分越高，表明用户对该实体越有兴趣，得分高于某一阈值的实体则是用户的兴趣。

目前在社交网络中用户兴趣知识的提取方发大多是基于用户的本身发表内容的分析，或者是基于第三方知识(如百度百科，维基百科)库进行数据的扩展,随着社交网络的流行，用户的网络社交活动越来越频繁。当前的用户兴趣挖掘方法无法充分的挖掘社交平台中用户的兴趣爱好，难以满足运营商对用户了解的需要。

本发明采用基于社交网络关系图的方法实现用户兴趣挖掘，充分利用用户及其社交网络中关系紧密的用户，首先构建了用户的高相似度拒不社交网络，然后基于该社交网络分别从正面和侧面了解用户的兴趣爱好,本发明适用于任何社交网络，不需通过第三方数据库对用户进行分析。

本发明首先通过构建出目标用户的高相似度局部社交网络，然后从高相似度社交网络的节点中挖掘出这些节点的兴趣知识，这些兴趣知识从侧面反映出目标用户的兴趣知识。综上所述，本发明能较好地解决用户发表微博稀疏的问题，能够充分地挖掘用的兴趣知识。

1.方法过程描述

我们将在线社交网络抽象成有向图G＝(V,E,P)，其中V表示节点的集合，E表示变得集合,e_ij＝(v_i,v_j)表示节点v_i是节点v_j的跟随者(也就是说两个节点之间存在着有向边v_i→v_j),其中v_i,v_j∈V，e_ij∈E,而P表示在社交网络中被涉及到的兴趣知识的集合，对于其中p_i∈P，如果p_i没有被目标用户所发表的微博所提及，我们称p_i为隐式兴趣知识，否则p_i为目标用户所关注的显式兴趣知识。

下面描述的方法，用于挖掘社交网络中用户关注的显式和隐式的兴趣知识。

第一，我们从目标用户的全局社将网络中提取他的出局部社交网络(因为局部社交网络中的用户与目标用户有较高的相似性)，用来计算用户之间的相似度。我们假设节点v₁是目标用户，并且图4是他的全局社交网络关系图。根据以往的局部网络节点相似度的实验表明，当局部社交网络的层次数为3的时候对于计算节点相似度是恰当的，因此我们移除节点v₁₀，因为v₁到v₁₀的距离为4，他超出了最合适的距离。另一方面，米见表用户的全局社交网络关系图是一个有向图，它包含了一些回链，比如说v₁→v₄→v₆→v₁，这样的回链会误导计算机计算节点v₁与v₁之间的相似度，这显然是在计算用户之间的相似度的过程中是不合理的，所以我们在计算相似度之前删除边(v₆,v₁)。同样在图1中，边(v₆,v₄)在我们的方法中也是不合理的，它同样会误导计算机计算不合理的链，如v₁→v₄→v₆→v₄。所以我们要移除所有类似于上述情况的不合理链接。接着，我们就构建出了v₁三层的局部社交网络关系图，如图5所示。然后我们根据AFP来计算目标用户和他间接关注对象的相似度，AFP如公式(1)所示：

其中：

■l是最有效层次数，本专利中该层次数的取值为3。

■

是衰减因子，它意味着两个节点的距离越长，则它们之间的相似度就越小。

■

是指在用户的局部社交网络中，从节点v_x到v_y并且链路长度为i的链路条数。

■n_i是在用户的局部社交网络中v_x到其他节点并且长度为i链路条数。

■N_{od_y}是节点v_y在其全局社交网络中的出度。

■N_{id_y}是节点v_y在其全局社交网络中的如度。

■

是

的归一化因子,其中MinId是全局社交网络中最小的出度，MaxOd是全局社交网络中最大的入度

通过该相似度计算公式，我们构建出目标用户的相似度向量

其中我们将目标用户与其直接邻居的相似度设置为1。

其中，

表示相似度向量，s_i表示目标用户和其他用户v_i的相似度，i＝1,2…m，如果v_i是目标用户或者目标用户的直接邻居的话，我们令s_i＝1。

第二，我们根据用户的相似度将他们排序，然后从中选取前k个用户作为候选用户，同时建立候选用户的相似度向量

其中s_i'是第i个用户的相似度值，其中i＝1,2…k并且k≤m。接着，我们获取候选用户集最近发表的微博内容，并提取这些微博中的兴趣知识，之后我们就可以构建出“用户-兴趣知识”矩阵，如下：

第三，我们将提取目标用户关注的显式和隐式的兴趣知识，并且为每个兴趣知识计算出一个分值来表示目标用户对显式和隐式兴趣知识的关注程度。在这个步骤中，我们计算显式和隐式兴趣知识的关注度向量

如下：

其中a_i表示目标用户v₁对兴趣知识p_i的关注程度，如果w_1i＝0，p_i则表示隐式的兴趣知识，否则p_i表示显式的兴趣知识。最后我们就可以得到目标用户所关注的显式或隐式的兴趣知识，a_i的值越高表示p_i的关注度越高。

一种实施例中，提取用户显式和隐式的兴趣知识的算法及流程：其流程图如图1所示,其具体步骤如下：

1)输入用户账号：

用户首先在相应社交网站官方平台授权，各网站都是基于auto2.0授权机制的，该步骤是第三方获取用户信息的必要步骤。

2)社交网络的获取：

通过宽度优先策略并以被输入用户的账号作为种子，在社交平台上爬取该用户原始的社交网络关系网络，为下一步做准备。

3)用户相似度的计算

在获取了用户原始的社交网络关系图的基础上，利用节点的结构相似度算法，计算出用户与其社交网络中的其他节点的相似度(用户及其邻接用户的相似度设置为1)，并将用户的关系及相似度存入数据库中。

4)文本实体的提取

提取用户以及一定阈值以上的社交网络节点的发表的文本信息，利用哈工大云平台提供的实体提取API，提取出每条文本信息出现的实体，并存入数据库中。

5)用户相似度向量及兴趣知识矩阵的构建

在第三部中计算出来的用户相似度中选出靠前的用户构建出相似度向量，同时利用第四部中提取出来的实体，统计出每个用户发表的文本信息中提到每个实体的数量，将其构成“用户-兴趣知识”矩阵。

6)用户兴趣知识的计算：

将用户的相似度向量与“用户-兴趣知识”矩阵相乘，得出用户对各个实体的一个分值，得分越高，表明用户对该实体越有兴趣，得分高于某一阈值的实体则是用户的兴趣

在一实施例中，设置社交网络的有效层数l＝3，图2是节点A的全局社交网络图，图3是节点A的局部社交网络图。根据图2，我们统计出全局社交网路图中各个节点间的出度和入度，如表1所示，根据图3，我们统计出节点A到其他各个节点的不同层次的链路条数，如表2所示。

表1.各节点在全局社交关系图中的出度/入度

表2.节点A到其他节点的链路情况

然后根据表1和表2的统计数据，我们利用AFP的相似度计算公式

计算出目标节点与其他的点的相似度，其相似度列表如表3所示。.

表3.节点A与其他节点的相似度

我们可以得到排序后的相似度向量，这里我们令候选用户集参数k＝7，

然后，列举出用户发表的微博中提到的命名实体，如表4所示，每一行表示一个用户发表的微博。

表4.微博中提到的实体

根据表4所里举出的内容，我们将其转换成“用户-实体举证”，行数据分别表示节点：A、B、C、D、F、E、G，列数据分别表示实体：姚明、中国、乐山、NBA、成都、APEC、北京、熊猫、刘翔、四川、Tracy、雅安。

最后我们计算出用户的兴趣知识评分向量：

在构建了用户的局部社交网络过后，我们基于不同的社交网络构建方法和基于频率的方法(TFIDF)进行用户兴趣知识挖掘得到一下结果，如表6所示，基于以上四个数据集下，挖掘用户的兴趣知识的平均个数、平均准确率，平均召回率和F值如下。我们可以，FPE的效果优于传统的TFIDF方法，而FPE的精确度取决于用户社交网络的构建效果。

表6.用户兴趣知识提取结果

	正确的兴趣个数	平均准确率	平均召回率	F值
					TFIDF	1.8	40％	0.525％	1.03％
FPE(LHN-I)	25.3	20.3％	7.12％	10.5％
					FPE(FOFA)	25.5	21.2％	8.35％	12.0％
FPE(AFP)	28.8	23.4％	8.33％	12.3％

在一实施例中，本发明基于微博用户的社交网络，根据社交网络中用户之间的结构相似度，提出了一种基于社交网络链路结构的用户相似度计算方法，用于构建用户的高相似度社交网络。实现了在社交平台上对用户兴趣知识的挖掘与发现，确保了数据来源的确定性与高相关性。对用户的高相似度局部社交网络的构建，通过AFP来计算用户之间的相似度，构建出用户的局部高相似度社交网路，确保构建出的社交网络有益于用户兴趣提取。基于已经构建好的用户局部社交网络，从用户自身以及用户的社交网络里的其他用户发表的微博中分析并提取用户的兴趣爱好，并计算用户兴趣爱好的强弱程度。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种显式和隐式兴趣知识的提取方法，其特征在于：包括以下步骤：

(A)计算用户之间的相似度；(B)文本实体的提取；(C)构建用户相似度向量及兴趣知识矩阵；(D)获取用户的兴趣知识；所述步骤(A)进一步中，在获取了用户原始的社交网络关系图的基础上，利用节点的结构相似度算法，计算出用户与其社交网络中的其他节点的相似度，并将用户的关系及相似度存入数据库中；所述步骤

(B)中，提取用户以及一定阈值以上的社交网络节点的发表的文本信息，提取出每条文本信息出现的实体，并存入数据库中；所述步骤(C)中，将步骤(A)中提取的用户相似度靠前的用户，将步骤(B)中提取出来的实体，统计出每个用户发表的文本信息中提到每个实体的数量，构成用户-兴趣知识矩阵；所述步骤(D)中，将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识；相似度算法公式为：

其中，l是最有效层次数，

是衰减因子，

是指在用户的局部社交网络中，从节点v_x到v_y并且链路长度为i的链路条数，n_i是在用户的局部社交网络中v_x到其他节点并且长度为i链路条数，N_{od_y}是节点v_y在其全局社交网络中的出度，N_{id_y}是节点v_y在其全局社交网络中的入度，

是

2.根据权利要求1所述的显式和隐式兴趣知识的提取方法，其特征在于：用户兴趣知识矩阵为：p₁ p₂…p_n

3.根据权利要求1所述的显式和隐式兴趣知识的提取方法，其特征在于：将用户的相似度向量与用户-兴趣知识矩阵相乘，得出用户对各个实体的一个分值，得分越高，表明用户对该实体越有兴趣，得分高于某一阈值的实体则是用户的兴趣。