CN105589916B - 显式和隐式兴趣知识的提取方法 - Google Patents
显式和隐式兴趣知识的提取方法 Download PDFInfo
- Publication number
- CN105589916B CN105589916B CN201510493215.6A CN201510493215A CN105589916B CN 105589916 B CN105589916 B CN 105589916B CN 201510493215 A CN201510493215 A CN 201510493215A CN 105589916 B CN105589916 B CN 105589916B
- Authority
- CN
- China
- Prior art keywords
- user
- social network
- interest
- similarity
- knowledge
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
Abstract
本发明涉及网络搜索领域,其公开了一种社交网络中用户显式和隐式兴趣知识的提取方法,包括以下步骤:(A)计算用户之间的相似度;(B)文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用户的兴趣知识。本发明的有益效果是:本发明用户的社交网络,根据社交网络中用户之间的结构相似度,提出了一种基于社交网络链路结构的用户相似度计算方法,用于构建用户的高相似度社交网络;实现了在社交平台上对用户兴趣知识的挖掘与发现,确保了数据来源的确定性与高相关性。
Description
【技术领域】
本发明涉及网络搜索领域,尤其涉及一种提取显式和隐式兴趣知识的方法。
【背景技术】
用户的兴趣提取是指在社交平台中,通过用户在社交平台上的文字活动,挖掘出与用户相关的兴趣爱好;据《东方早报》报道,2014年是微博活跃用户增幅最快的一年。截至2014年四季度末,微博月活跃用户达到1.76亿,全年净增4700万,为推出以来的最高纪录;月活跃用户中来自移动端的比例高达80%。其中去年下半年用户增长速度更为迅速。伴随着互联网时代的到来,网络社交已经成为交友的新的趋势,基于社交网络的数据挖掘是运营商了解用户的一种重要的途径。在微博这种基于短文本的社交网络中,由于微博信息很短,这些文字不像长文本能反应用户的具体兴趣点,同时在用户长期发表的微博本文中,其中只有很少量的微博文本能反应用户的兴趣点。所以通过文字来挖掘用户信息有着较高的技术难点,微博中用户的兴趣挖掘是社交平台运营商了解用户的重要途径之一,是通过社交平台进一步进行商业运作的基础,充分挖掘用户的社交网络信息并分析他们的兴趣爱好,是社交平台运营商盈利的关键。因此有效的微博用户兴趣提取算法是确保社交平台运营情况的核心技术。
在发明专利“一种基于标签的社交网络用户兴趣挖掘方法与装置”(专利申请号:201210249582.8)中提出了一种基于社交网络用户标签的用户兴趣挖掘方法与装置,该方法通过用户在社交网络上生成的文字性数据包含的所有标签和每个标签所对应地权重构成用户的兴趣序列,从而达到用户兴趣挖掘的目的。但是在这一技术中,“一种基于标签的社交网络用户兴趣挖掘方法与装置”(专利申请号:201210249582.8)提出的社交网络用户兴趣挖掘方法与装置,建立在以用户生成的文本基础之上。该方法通过用户的兴趣标签作为挖掘用户兴趣的依据,不能挖掘出用户潜在的兴趣知识。同时,当用户文字信息较少的时候将无法有效、准确地挖掘出用户的兴趣爱好。只有当用户的文字信息达到一定数量时该方法才有可能挖掘用户感兴趣的知识。
在发明专利“社交网络用户兴趣挖掘方法和系统”(专利申请号:201410062761.X)中提出一种基于用户群组的社交网络用户兴趣挖掘方法,该方法通过分析用户的兴趣广义组对应的兴趣类别,从中挖掘用户的兴趣。该专利所提出的基于兴趣类别的社交网络用户兴趣挖掘方法和系统,建立在用户关注对象分类的基础之上。该方法需要首先将用户的关注对象分类,这一过程需要消耗相当多的时间,不能快速、有效地挖掘出用户的兴趣知识。其次该方法只能挖掘与用户显式的兴趣爱好,不能挖掘出用户未提及的潜在兴趣知识,限制了对用户兴趣知识挖掘的全面性。在论文“Mining the interests of Chinesemicrobloggers via keyword extration”(Z.Y.Liu,X.X.Chen,M.S.Sun.Frontiers ofComputer Science,2012,1(6),76-87.)中提出了一种基于词频统计和传统关键词提取方法相结合的用户兴趣挖掘算法,该算法通过对上述两种算法的结果合并来挖掘出用户的兴趣。该算法只能从当前用户已经发表的微博文本中挖掘用户的显式兴趣,但无法发现用户潜在的兴趣知识。
【发明内容】
为了解决现有技术中的问题,本发明提供了一种热点人物提取方法,解决了现有技术无法充分、有效挖掘社交平台中用户的兴趣爱好,无法满足运营商搜集用户需求这一难点问题。
本发明提供了一种显式和隐式兴趣知识的提取方法,包括以下步骤:(A)计算用户之间的相似度;(B)文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用户的兴趣知识。
作为本发明的进一步改进,所述步骤(A)进一步中,在获取了用户原始的社交网络关系图的基础上,利用节点的结构相似度算法,计算出用户与其社交网络中的其他节点的相似度,并将用户的关系及相似度存入数据库中。
作为本发明的进一步改进,所述步骤(B)中,提取用户以及一定阈值以上的社交网络节点的发表的文本信息,提取出每条文本信息出现的实体,并存入数据库中。
作为本发明的进一步改进,所述步骤(C)中,将步骤(A)中提取的用户相似度靠前的用户,将步骤(B)中提取出来的实体,统计出每个用户发表的文本信息中提到每个实体的数量,构成用户-兴趣知识矩阵。
作为本发明的进一步改进,所述步骤(D)中,将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识。
作为本发明的进一步改进,相似度算法公式为:
其中,l是最有效层次数,是衰减因子,是指在用户的局部社交网络中,从节点vx到vy并且链路长度为i的链路条数,ni是在用户的局部社交网络中vx到其他节点并且长度为i链路条数,Nod_y是节点vy在其全局社交网络中的出度,Nid_y是节点vy在其全局社交网络中的如度,是的归一化因子,其中MinId是全局社交网络中最小的出度,MaxOd是全局社交网络中最大的入度。
其中,W表示“用户-兴趣知识”矩阵,wij表示节点vj最近发表的微博当中提及到pi的微博的条数,pi表示兴趣知识并且pi∈P,vj表示第j个候选用户并且vj∈V。
作为本发明的进一步改进,将用户的相似度向量与用户-兴趣知识矩阵相乘,得出用户对各个实体的一个分值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的实体则是用户的兴趣。
本发明的有益效果是:在用户的社交网络中,根据社交网络中用户之间的结构相似度,提出了一种基于社交网络链路结构的用户相似度计算方法,用于构建用户的高相似度社交网络;实现了在社交平台上对用户兴趣知识的挖掘与发现,确保了数据来源的确定性与高相关性。
【附图说明】
图1是本发明流程示意图。
图2是本发明一实施例中节点A的全局社交网络示意图。
图3是本发明一实施例中节点A的局部社交网络示意图。
图4时本发明又一实施例中A的全局社交网络示意图。
图5是本发明又一实施例中A的局部社交网络示意图。
【具体实施方式】
下面结合附图说明及具体实施方式对本发明进一步说明。
一种显式和隐式兴趣知识的提取方法,包括以下步骤:(A)计算用户之间的相似度;(B)文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用户的兴趣知识。
所述步骤(A)进一步中,在获取了用户原始的社交网络关系图的基础上,利用节点的结构相似度算法,计算出用户与其社交网络中的其他节点的相似度,并将用户的关系及相似度存入数据库中。
所述步骤(B)中,提取用户以及一定阈值以上的社交网络节点的发表的文本信息,提取出每条文本信息出现的实体,并存入数据库中。
所述步骤(C)中,将步骤(A)中提取的用户相似度靠前的用户,将步骤(B)中提取出来的实体,统计出每个用户发表的文本信息中提到每个实体的数量,构成用户-兴趣知识矩阵。
所述步骤(D)中,将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识。
相似度算法公式为:
其中,l是最有效层次数,是衰减因子,是指在用户的局部社交网络中,从节点vx到vy并且链路长度为i的链路条数,ni是在用户的局部社交网络中vx到其他节点并且长度为i链路条数,Nod_y是节点vy在其全局社交网络中的出度,Nid_y是节点vy在其全局社交网络中的如度,是的归一化因子,其中是全局社交网络中最小的出度,MaxOd是全局社交网络中最大的入度。
其中,W表示“用户-兴趣知识”矩阵,wij表示节点vj最近发表的微博当中提及到pi的微博的条数,pi表示兴趣知识并且pi∈P,vj表示第j个候选用户并且vj∈V。
将用户的相似度向量与用户-兴趣知识矩阵相乘,得出用户对各个实体的一个分值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的实体则是用户的兴趣。
目前在社交网络中用户兴趣知识的提取方发大多是基于用户的本身发表内容的分析,或者是基于第三方知识(如百度百科,维基百科)库进行数据的扩展,随着社交网络的流行,用户的网络社交活动越来越频繁。当前的用户兴趣挖掘方法无法充分的挖掘社交平台中用户的兴趣爱好,难以满足运营商对用户了解的需要。
本发明采用基于社交网络关系图的方法实现用户兴趣挖掘,充分利用用户及其社交网络中关系紧密的用户,首先构建了用户的高相似度拒不社交网络,然后基于该社交网络分别从正面和侧面了解用户的兴趣爱好,本发明适用于任何社交网络,不需通过第三方数据库对用户进行分析。
本发明首先通过构建出目标用户的高相似度局部社交网络,然后从高相似度社交网络的节点中挖掘出这些节点的兴趣知识,这些兴趣知识从侧面反映出目标用户的兴趣知识。综上所述,本发明能较好地解决用户发表微博稀疏的问题,能够充分地挖掘用的兴趣知识。
1.方法过程描述
我们将在线社交网络抽象成有向图G=(V,E,P),其中V表示节点的集合,E表示变得集合,eij=(vi,vj)表示节点vi是节点vj的跟随者(也就是说两个节点之间存在着有向边vi→vj),其中vi,vj∈V,eij∈E,而P表示在社交网络中被涉及到的兴趣知识的集合,对于其中pi∈P,如果pi没有被目标用户所发表的微博所提及,我们称pi为隐式兴趣知识,否则pi为目标用户所关注的显式兴趣知识。
下面描述的方法,用于挖掘社交网络中用户关注的显式和隐式的兴趣知识。
第一,我们从目标用户的全局社将网络中提取他的出局部社交网络(因为局部社交网络中的用户与目标用户有较高的相似性),用来计算用户之间的相似度。我们假设节点v1是目标用户,并且图4是他的全局社交网络关系图。根据以往的局部网络节点相似度的实验表明,当局部社交网络的层次数为3的时候对于计算节点相似度是恰当的,因此我们移除节点v10,因为v1到v10的距离为4,他超出了最合适的距离。另一方面,米见表用户的全局社交网络关系图是一个有向图,它包含了一些回链,比如说v1→v4→v6→v1,这样的回链会误导计算机计算节点v1与v1之间的相似度,这显然是在计算用户之间的相似度的过程中是不合理的,所以我们在计算相似度之前删除边(v6,v1)。同样在图1中,边(v6,v4)在我们的方法中也是不合理的,它同样会误导计算机计算不合理的链,如v1→v4→v6→v4。所以我们要移除所有类似于上述情况的不合理链接。接着,我们就构建出了v1三层的局部社交网络关系图,如图5所示。然后我们根据AFP来计算目标用户和他间接关注对象的相似度,AFP如公式(1)所示:
其中:
■l是最有效层次数,本专利中该层次数的取值为3。
■ni是在用户的局部社交网络中vx到其他节点并且长度为i链路条数。
■Nod_y是节点vy在其全局社交网络中的出度。
■Nid_y是节点vy在其全局社交网络中的如度。
第二,我们根据用户的相似度将他们排序,然后从中选取前k个用户作为候选用户,同时建立候选用户的相似度向量其中si'是第i个用户的相似度值,其中i=1,2…k并且k≤m。接着,我们获取候选用户集最近发表的微博内容,并提取这些微博中的兴趣知识,之后我们就可以构建出“用户-兴趣知识”矩阵,如下:
其中,W表示“用户-兴趣知识”矩阵,wij表示节点vj最近发表的微博当中提及到pi的微博的条数,pi表示兴趣知识并且pi∈P,vj表示第j个候选用户并且vj∈V。
其中ai表示目标用户v1对兴趣知识pi的关注程度,如果w1i=0,pi则表示隐式的兴趣知识,否则pi表示显式的兴趣知识。最后我们就可以得到目标用户所关注的显式或隐式的兴趣知识,ai的值越高表示pi的关注度越高。
一种实施例中,提取用户显式和隐式的兴趣知识的算法及流程:其流程图如图1所示,其具体步骤如下:
1)输入用户账号:
用户首先在相应社交网站官方平台授权,各网站都是基于auto2.0授权机制的,该步骤是第三方获取用户信息的必要步骤。
2)社交网络的获取:
通过宽度优先策略并以被输入用户的账号作为种子,在社交平台上爬取该用户原始的社交网络关系网络,为下一步做准备。
3)用户相似度的计算
在获取了用户原始的社交网络关系图的基础上,利用节点的结构相似度算法,计算出用户与其社交网络中的其他节点的相似度(用户及其邻接用户的相似度设置为1),并将用户的关系及相似度存入数据库中。
4)文本实体的提取
提取用户以及一定阈值以上的社交网络节点的发表的文本信息,利用哈工大云平台提供的实体提取API,提取出每条文本信息出现的实体,并存入数据库中。
5)用户相似度向量及兴趣知识矩阵的构建
在第三部中计算出来的用户相似度中选出靠前的用户构建出相似度向量,同时利用第四部中提取出来的实体,统计出每个用户发表的文本信息中提到每个实体的数量,将其构成“用户-兴趣知识”矩阵。
6)用户兴趣知识的计算:
将用户的相似度向量与“用户-兴趣知识”矩阵相乘,得出用户对各个实体的一个分值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的实体则是用户的兴趣
在一实施例中,设置社交网络的有效层数l=3,图2是节点A的全局社交网络图,图3是节点A的局部社交网络图。根据图2,我们统计出全局社交网路图中各个节点间的出度和入度,如表1所示,根据图3,我们统计出节点A到其他各个节点的不同层次的链路条数,如表2所示。
表1.各节点在全局社交关系图中的出度/入度
表2.节点A到其他节点的链路情况
表3.节点A与其他节点的相似度
然后,列举出用户发表的微博中提到的命名实体,如表4所示,每一行表示一个用户发表的微博。
表4.微博中提到的实体
根据表4所里举出的内容,我们将其转换成“用户-实体举证”,行数据分别表示节点:A、B、C、D、F、E、G,列数据分别表示实体:姚明、中国、乐山、NBA、成都、APEC、北京、熊猫、刘翔、四川、Tracy、雅安。
最后我们计算出用户的兴趣知识评分向量:
在构建了用户的局部社交网络过后,我们基于不同的社交网络构建方法和基于频率的方法(TFIDF)进行用户兴趣知识挖掘得到一下结果,如表6所示,基于以上四个数据集下,挖掘用户的兴趣知识的平均个数、平均准确率,平均召回率和F值如下。我们可以,FPE的效果优于传统的TFIDF方法,而FPE的精确度取决于用户社交网络的构建效果。
表6.用户兴趣知识提取结果
正确的兴趣个数 | 平均准确率 | 平均召回率 | F值 | |
TFIDF | 1.8 | 40% | 0.525% | 1.03% |
FPE(LHN-I) | 25.3 | 20.3% | 7.12% | 10.5% |
FPE(FOFA) | 25.5 | 21.2% | 8.35% | 12.0% |
FPE(AFP) | 28.8 | 23.4% | 8.33% | 12.3% |
在一实施例中,本发明基于微博用户的社交网络,根据社交网络中用户之间的结构相似度,提出了一种基于社交网络链路结构的用户相似度计算方法,用于构建用户的高相似度社交网络。实现了在社交平台上对用户兴趣知识的挖掘与发现,确保了数据来源的确定性与高相关性。对用户的高相似度局部社交网络的构建,通过AFP来计算用户之间的相似度,构建出用户的局部高相似度社交网路,确保构建出的社交网络有益于用户兴趣提取。基于已经构建好的用户局部社交网络,从用户自身以及用户的社交网络里的其他用户发表的微博中分析并提取用户的兴趣爱好,并计算用户兴趣爱好的强弱程度。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (3)
1.一种显式和隐式兴趣知识的提取方法,其特征在于:包括以下步骤:
(A)计算用户之间的相似度;(B)文本实体的提取;(C)构建用户相似度向量及兴趣知识矩阵;(D)获取用户的兴趣知识;所述步骤(A)进一步中,在获取了用户原始的社交网络关系图的基础上,利用节点的结构相似度算法,计算出用户与其社交网络中的其他节点的相似度,并将用户的关系及相似度存入数据库中;所述步骤
(B)中,提取用户以及一定阈值以上的社交网络节点的发表的文本信息,提取出每条文本信息出现的实体,并存入数据库中;所述步骤(C)中,将步骤(A)中提取的用户相似度靠前的用户,将步骤(B)中提取出来的实体,统计出每个用户发表的文本信息中提到每个实体的数量,构成用户-兴趣知识矩阵;所述步骤(D)中,将用户的相似度向量与用户-兴趣知识矩阵进行运算获取用户的兴趣知识;相似度算法公式为:
3.根据权利要求1所述的显式和隐式兴趣知识的提取方法,其特征在于:将用户的相似度向量与用户-兴趣知识矩阵相乘,得出用户对各个实体的一个分值,得分越高,表明用户对该实体越有兴趣,得分高于某一阈值的实体则是用户的兴趣。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510493215.6A CN105589916B (zh) | 2016-01-11 | 2016-01-11 | 显式和隐式兴趣知识的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510493215.6A CN105589916B (zh) | 2016-01-11 | 2016-01-11 | 显式和隐式兴趣知识的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105589916A CN105589916A (zh) | 2016-05-18 |
CN105589916B true CN105589916B (zh) | 2020-05-08 |
Family
ID=55929497
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510493215.6A Expired - Fee Related CN105589916B (zh) | 2016-01-11 | 2016-01-11 | 显式和隐式兴趣知识的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105589916B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110866181B (zh) * | 2019-10-12 | 2022-04-22 | 平安国际智慧城市科技股份有限公司 | 资源推荐的方法、装置及存储介质 |
CN111368202B (zh) * | 2020-03-06 | 2023-09-19 | 咪咕文化科技有限公司 | 搜索推荐方法、装置、电子设备及存储介质 |
CN111461118B (zh) * | 2020-03-31 | 2023-11-24 | 中国移动通信集团黑龙江有限公司 | 兴趣特征确定方法、装置、设备及存储介质 |
CN112990430B (zh) * | 2021-02-08 | 2021-12-03 | 辽宁工业大学 | 基于长短时记忆网络的群组划分方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
CN105183925A (zh) * | 2015-10-30 | 2015-12-23 | 合一网络技术(北京)有限公司 | 内容关联推荐方法及装置 |
-
2016
- 2016-01-11 CN CN201510493215.6A patent/CN105589916B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105095442A (zh) * | 2015-07-23 | 2015-11-25 | 海信集团有限公司 | 一种多媒体数据的推荐方法及装置 |
CN105183925A (zh) * | 2015-10-30 | 2015-12-23 | 合一网络技术(北京)有限公司 | 内容关联推荐方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN105589916A (zh) | 2016-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | What's in a name? An unsupervised approach to link users across communities | |
CN106168953B (zh) | 面向弱关系社交网络的博文推荐方法 | |
US11797620B2 (en) | Expert detection in social networks | |
US9324112B2 (en) | Ranking authors in social media systems | |
CN106484764A (zh) | 基于人群画像技术的用户相似度计算方法 | |
CN106682172A (zh) | 一种基于关键词的文献研究热点推荐方法 | |
CN109858040B (zh) | 命名实体识别方法、装置和计算机设备 | |
CN110457404A (zh) | 基于复杂异质网络的社交媒体账户分类方法 | |
CN105589916B (zh) | 显式和隐式兴趣知识的提取方法 | |
Mirani et al. | Sentiment analysis of isis related tweets using absolute location | |
CN110019689A (zh) | 职位匹配方法和职位匹配系统 | |
CN103927398A (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
CN111324801B (zh) | 基于热点词的司法领域热点事件发现方法 | |
CN107516235A (zh) | 商品偏好预估方法和装置 | |
CN104536956A (zh) | 一种基于微博平台的事件可视化方法及系统 | |
CN107944032B (zh) | 用于生成信息的方法和装置 | |
US10482390B2 (en) | Information discovery system | |
Liao et al. | Coronavirus pandemic analysis through tripartite graph clustering in online social networks | |
CN107070932B (zh) | 社会网络动态发布中防止标签邻居攻击的匿名方法 | |
Han et al. | Fitnet: Identifying fashion influencers on twitter | |
CN103955480A (zh) | 一种用于确定用户所对应的目标对象信息的方法与设备 | |
CN105069003B (zh) | 一种基于转发链相似度的用户关注对象推荐计算方法 | |
Liang et al. | Automatic rumors identification on Sina Weibo | |
CN116127178A (zh) | 基于属性多重异构信息网络的网络文章影响力评估方法 | |
Kryszkiewicz* | Generalized disjunction-free representation of frequent patterns with negation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20200508 Termination date: 20210111 |
|
CF01 | Termination of patent right due to non-payment of annual fee |