CN103309962A - 一种基于内容相关度和社交影响力的微博服务专家定位方法 - Google Patents

一种基于内容相关度和社交影响力的微博服务专家定位方法 Download PDF

Info

Publication number
CN103309962A
CN103309962A CN2013102109930A CN201310210993A CN103309962A CN 103309962 A CN103309962 A CN 103309962A CN 2013102109930 A CN2013102109930 A CN 2013102109930A CN 201310210993 A CN201310210993 A CN 201310210993A CN 103309962 A CN103309962 A CN 103309962A
Authority
CN
China
Prior art keywords
user
microblogging
checked
key word
expert
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2013102109930A
Other languages
English (en)
Inventor
杨燕
张波
郝娟
黄保荃
潘云
杜泽宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN2013102109930A priority Critical patent/CN103309962A/zh
Publication of CN103309962A publication Critical patent/CN103309962A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于内容相关度和社交影响力的微博服务专家定位方法,包括步骤:a.抽取微博服务中的潜在语义主题;b.计算微博用户在各个主题下的社交影响力;c.对每次查询,确定微博服务用户在待查询关键字下的专业度;d.根据微博服务用户在待查询关键字下的专业度定位与该关键字对应的专家。本发明在专家定位的过程中综合考虑用户与查询关键字的内容相关度和用户在查询关键字下的社交影响力,具有的优点是:更准确反映用户在待查询关键字下的专业度,为微博服务中的专家定位提供准确的排名。

Description

一种基于内容相关度和社交影响力的微博服务专家定位方法
技术领域
本发明涉及用于微博服务的专家定位领域,具体地说是一种基于内容相关度和社交影响力的微博服务专家定位方法。
背景技术
微博服务中的专家定位是指在微博服务中找出在与某个关键字相关的专家用户,专家定位也常被称作专家搜索。在微博服务上进行专家用户的定位,能有助于微博用户较快地找到感兴趣的领域中的专家用户,从而不仅可以通过关注这些专家来获取领域的动态信息,还可以直接向专家用户请教问题。而且,在微博服务中对专家用户进行定位也有利于商家进行产品市场营销等。
微博服务中专家定位的相关研究还比较少,有些微博服务本身也提供了类似专家定位的功能,但并未公开其算法细节。微博服务中除了包含用户发表过的微博内容外,还存在用户与用户之间的多种交互关系(关注、转发、提及等)。很少有研究准确捕获用户微博内容中的潜在语义以及充分利用了微博服务中的丰富信息来进行专家定位。
发明内容
本发明的目的是针对现有技术中没有充分考虑微博服务中的丰富信息以及没有准确捕获用户微博内容中的潜在语义的缺陷而提出的一种基于内容相关度和社交影响力的微博服务专家定位方法,该方法利用LDA(隐含狄利克雷分配)抽取出微博服务中的潜在语义主题,拓展PageRank算法利用用户与用户之间的拓扑关系计算用户在不同主题下的社交影响力,进而计算用户在特定关键字下的社交影响力。通过将用户与待查询关键字的内容相关度和该用户在待查询关键字下的社交影响力结合起来得到用户在该查询关键字下的专业度,利用专业度来进行专家定位。
实现本发明目的的具体技术方案是:
一种基于内容相关度和社交影响力的微博服务专家定位方法,该方法包括如下步骤:
a)抽取微博服务中的潜在语义主题;具体包括:
⑴对每一个微博用户,聚集他发布和转发的所有微博内容形成一篇文档;
⑵对⑴中形成的每篇文档进行分词、去除中英文停词、去除在大部分微博内容中均出现的单词;
⑶将⑵中形成的每篇文档当作LDA主题模型的输入,确定主题个数,抽取微博服务中的潜在语义主题;
b)计算微博用户在各个主题下的社交影响力;
c)对每次查询,确定微博用户在待查询关键字下的专业度;具体包括:
⑴确定微博用户与待查询关键字的内容相关度;
⑵确定微博用户在待查询关键字下的社交影响力;
⑶利用相关转换公式对⑵中得到的社交影响力进行转换得到转换后的社交影响力值;
⑷将⑴中得到的内容相关度值和⑶中得到的社交影响力值进行相加得到微博用户在待查询关键字下的专业度;其中:
所述⑴包括:
ⅰ)用步骤a)中⑴的每个用户生成的文档来代替用户;
ⅱ)通过BM25计算公式计算待查询关键字与步骤a)中⑴的每个用户生成的文档的内容相关度得到用户与待查询关键字的内容相关度;所述⑵包括:
ⅰ)将待查询关键字映射到与它最相关的多个语义主题;
ⅱ)计算用户在ⅰ)中得到的多个语义主题下的社交影响力,继而计算得到用户在此关键字下的社交影响力;
d)根据微博用户在待查询关键字下的专业度选取前100名用户作为定位结果;具体包括:
⑴根据用户在待查询关键字下的专业度对用户进行排序;
⑵根据用户排序结果从高到底选取前100名用户作为专家。
与背景技术相比,本发明有以下优点:
本发明在进行专家定位时,综合考虑到了微博用户与查询关键字的内容相关度和微博用户在查询关键字下的社交影响力,更加合理地反映了用户在查询关键字下的专业度。
本发明在计算用户在查询关键字下的社交影响力时,充分考虑了关键字对应的多个语义主题,这样能够加深对关键字的理解,达到更好的效果。
本发明在专家定位的过程中综合考虑用户与查询关键字的内容相关度和用户在查询关键字下的社交影响力,具有的优点是:更准确反映用户在待查询关键字下的专业度,为微博服务中的专家定位提供准确的排名。
附图说明
图1为本发明流程示意图;
图2、图3、图4及图5为本发明实施例中的页面示意图。
具体实施方式
本发明利用LDA抽取出微博服务中的潜在语义主题,然后拓展PageRank算法计算出用户在每个主题下的社交影响力,进行专家定位时,根据微博用户在查询关键字下的内容相关度和微博用户在查询关键字的社交影响力计算出微博用户在查询关键字下的专业度,对专业度从高到低进行排序得到定位结果。本领域技术人员可以参考图1示出的流程;以下详述本发明的过程:
第一步:对所有微博用户来说,将他发布(包括转发)的所有微博内容聚集成一篇文档,对这些文档进行数据清洗作为LDA的输入,确定待抽取主题个数,利用LDA抽取这些文档中的潜在语义主题作为微博服务中的潜在语义主题,LDA处理后可以得到每篇文档对主题的概率分布,每个主题对词语的概率分布;
第二步:对第一步抽取出的每个主题,根据公式(1)计算用户在该主题下社交影响力,其中R为向量,代表用户在一个特定主题下的社交影响力值,公式(1)迭代固定次数或一直迭代至收敛,P为矩阵,其定义如公式(2)所示,其中Tnum(j)为用户j发过的微博总数,Follows(i)代表用户i关注的所有用户,Dt为LDA处理得到的结果矩阵中的其中一个,其每一行代表一篇文档(对应一个微博用户),每一列代表一个主题,Dt[j][t]代表主题t在用户j中所占的权重,Dt’代表用户Dt矩阵列正规化后的矩阵,Et为其第t列,每一个主题都有对应的P矩阵和E向量;
R=rPTR+(1-r)E  (1)
p ij t = Tnum ( j ) × Dt [ j ] [ t ] Σ u ∈ Follows ( i ) Tnum ( u ) × Dt [ u ] [ t ] - - - ( 2 )
Et=Dt′·t  (3)
第三步:确定要进行查询的关键字,假定其编号为k;
第四步:利用BM25计算公式得到代表用户的文档与查询关键字k的内容相关度,将其作为用户与k的内容相关度;
第五步:根据公式(4)计算用户在关键字k下的社交影响力,其中Tw矩阵为LDA结果矩阵的另外一个,每一行代表一个主题,每一列代表一个词语,Tw[t][k]代表词语k在主题t中所占的权重,MappedTopics(k)为与词语k最相关的多个语义主题,其从Tw矩阵的第k列根根据值从大到小选取特定数目,Iu t代表第二步算出的用户u在主题t下的社交影响力;
SI ( u , k ) = Σ t ∈ MappedTopics ( k ) Tw [ t ] [ k ] × I u t Σ t ∈ MappedTopics ( k ) Tw [ t ] [ k ] - - - ( 4 )
第六步:采用公式(5)对第五步得到的社交影响力值进行转换以便于与第四步得到的内容相关度值进行相加,s为原社交影响力,w为预定义参数;
log(s,w)=w×log(s)  (5)
第七步:将第五步和第六步的结果进行相加得到用户在查询关键字k下的专业度;
第八步:根据第七步的结果从高到底进行排序,选取前100名的专家作为定位结果;
第九步:判断是否继续进行专家定位,如果为否,退出结束,否则转到第三步。
通过以下实施例更好的理解本发明。
实施例
假设微博服务中一共包含1000名用户。
第一步:对1000个微博用户来说,将每个用户发布(包括转发)的所有微博内容聚集成一篇文档,对这1000篇文档进行数据清洗作为LDA的输入,假定要抽取的主题个数为50,LDA处理后可以得到每篇文档在抽取的50个主题的概率分布以及每个主题在所有词语的概率分布,这些概率分布都以矩阵形式(矩阵Dt和矩阵Tw)存储,图2表示抽取的主题部分截图,字体越大代表该词语在该主题中所占的权重越大;
第二步:对第一步抽取出的每个主题,根据公式(1)计算用户在该主题下社交影响力,图3为计算得到的用户影响力部分截图;
第三步:确定要进行查询的关键字,假定要查询的关键字为“互联网”;
第四步:利用BM25计算公式得到代表用户的文档与“互联网”的内容相关度,将其作为用户与“互联网”的内容相关度;
第五步:将“互联网”映射图4所示的三个主题,根据在第二步计算出来的用户在这些主题下的影响力,根据公式(4)得到用户在“互联网”下的主题影响力;
第六步:采用公式(5)对第五步得到的社交影响力值进行转换以便于与第四步得到的内容相关度值进行相加
第七步:将第五步和第六步的结果进行相加得到用户在查询“互联网”下的专业度;
第八步:根据第七步的结果从高到底进行排序,选取前100名的专家作为定位结果,图5即为所示结果,每个用户右上角即为其专业度排名,底部则为其专业度(乘以1000方便显示);
第九步:判断是否继续进行专家定位,如果为否,退出结束,否则转到第三步。

Claims (6)

1.一种基于内容相关度和社交影响力的微博服务专家定位方法,其特征在于,包括如下步骤:
a)抽取微博服务中的潜在语义主题;
b)计算微博用户在各个主题下的社交影响力;
c)对每次查询,确定微博用户在待查询关键字下的专业度;
d)根据微博用户在待查询关键字下的专业度选取前100名用户作为定位结果。
2.根据权利要求1所述的专家定位方法,其特征在于,所述步骤 a)包括:
⑴ 对每一个微博用户,聚集他发布和转发的所有微博内容形成一篇文档;
⑵ 对⑴中形成的每篇文档进行分词、去除中英文停词、去除在大部分微博内容中均出现的单词; 
⑶ 将⑵中形成的每篇文档当作LDA主题模型的输入,确定主题个数,抽取微博服务中的潜在语义主题。
3.根据权利要求1所述的专家定位方法,其特征在于,所述步骤c)包括:
⑴ 确定微博用户与待查询关键字的内容相关度;
⑵ 确定微博用户在待查询关键字下的社交影响力;
⑶ 利用相关转换公式对⑵中得到的社交影响力进行转换得到转换后的社交影响力值;
⑷ 将 ⑴ 中得到的内容相关度值和 ⑶ 中得到的社交影响力值进行相加得到微博用户在待查询关键字下的专业度。
4.根据权利要求3所述的专家定位方法,其特征在于,所述步骤c)中的⑴包括:
ⅰ)用步骤 a)中⑴的每个用户生成的文档来代替用户;
ⅱ)通过BM25计算公式计算待查询关键字与步骤 a)中⑴的每个用户生成的文档的内容相关度得到用户与待查询关键字的内容相关度。
5.根据权利要求3所述的专家定位方法,其特征在于,所述步骤c)中的⑵包括:
ⅰ)将待查询关键字映射到与它最相关的多个语义主题;
ⅱ)计算用户在ⅰ)中得到的多个语义主题下的社交影响力,继而计算得到用户在此关键字下的社交影响力。
6.根据权利要求1所述的专家定位方法,其特征在于,所述步骤d)包括:
⑴ 根据用户在待查询关键字下的专业度对用户进行排序;
⑵ 根据用户排序结果从高到底选取前100个用户作为专家。
CN2013102109930A 2013-05-31 2013-05-31 一种基于内容相关度和社交影响力的微博服务专家定位方法 Pending CN103309962A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2013102109930A CN103309962A (zh) 2013-05-31 2013-05-31 一种基于内容相关度和社交影响力的微博服务专家定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2013102109930A CN103309962A (zh) 2013-05-31 2013-05-31 一种基于内容相关度和社交影响力的微博服务专家定位方法

Publications (1)

Publication Number Publication Date
CN103309962A true CN103309962A (zh) 2013-09-18

Family

ID=49135180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2013102109930A Pending CN103309962A (zh) 2013-05-31 2013-05-31 一种基于内容相关度和社交影响力的微博服务专家定位方法

Country Status (1)

Country Link
CN (1) CN103309962A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035967A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的领域专家发现方法和系统
CN104572932A (zh) * 2014-12-29 2015-04-29 微梦创科网络科技(中国)有限公司 一种兴趣标签的确定方法及装置
CN105512943A (zh) * 2015-12-18 2016-04-20 合肥寰景信息技术有限公司 一种网络社区用户信息的智能分析方法
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法
CN108701155A (zh) * 2016-02-26 2018-10-23 微软技术许可有限责任公司 社交网络中的专家检测

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070079358A1 (en) * 2005-10-05 2007-04-05 Microsoft Corporation Expert system analysis and graphical display of privilege elevation pathways in a computing environment
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070079358A1 (en) * 2005-10-05 2007-04-05 Microsoft Corporation Expert system analysis and graphical display of privilege elevation pathways in a computing environment
CN101075942A (zh) * 2007-06-22 2007-11-21 清华大学 基于专家值传播算法的社会网络专家信息处理系统及方法
CN102880657A (zh) * 2012-08-31 2013-01-16 电子科技大学 基于搜索者的专家推荐方法
CN102945290A (zh) * 2012-12-03 2013-02-27 北京奇虎科技有限公司 微博热点话题挖掘装置及方法

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035967A (zh) * 2014-05-20 2014-09-10 微梦创科网络科技(中国)有限公司 社交网络中的领域专家发现方法和系统
CN104035967B (zh) * 2014-05-20 2018-05-01 微梦创科网络科技(中国)有限公司 社交网络中的领域专家发现方法和系统
CN104572932A (zh) * 2014-12-29 2015-04-29 微梦创科网络科技(中国)有限公司 一种兴趣标签的确定方法及装置
CN104572932B (zh) * 2014-12-29 2017-11-24 微梦创科网络科技(中国)有限公司 一种兴趣标签的确定方法及装置
CN105512943A (zh) * 2015-12-18 2016-04-20 合肥寰景信息技术有限公司 一种网络社区用户信息的智能分析方法
CN108701155A (zh) * 2016-02-26 2018-10-23 微软技术许可有限责任公司 社交网络中的专家检测
US11797620B2 (en) 2016-02-26 2023-10-24 Microsoft Technology Licensing, Llc Expert detection in social networks
CN107230158A (zh) * 2017-06-12 2017-10-03 合肥工业大学 社交网络用户相对影响力度量方法

Similar Documents

Publication Publication Date Title
CN103593425B (zh) 基于偏好的智能检索方法及系统
CN101944099B (zh) 一种使用本体进行文本文档自动分类的方法
CN103268348B (zh) 一种用户查询意图识别方法
CN105653706A (zh) 一种基于文献内容知识图谱的多层引文推荐方法
CN107609052A (zh) 一种基于语义三角的领域知识图谱的生成方法及装置
CN104050235B (zh) 基于集合选择的分布式信息检索方法
CN107193858A (zh) 面向多源异构数据融合的智能服务应用平台和方法
CN103235812B (zh) 查询多意图识别方法和系统
CN103886099B (zh) 一种模糊概念的语义检索系统及方法
CN103309962A (zh) 一种基于内容相关度和社交影响力的微博服务专家定位方法
CN103838735A (zh) 一种提高检索效率和质量的数据检索方法
CN103995903B (zh) 基于同构子空间映射和优化的跨媒体检索方法
CN104484380A (zh) 个性化搜索方法及装置
CN104408033A (zh) 一种文本信息提取的方法及系统
Wu et al. Slangsd: Building and using a sentiment dictionary of slang words for short-text sentiment classification
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN105426529A (zh) 基于用户搜索意图定位的图像检索方法及系统
CN104778276A (zh) 一种基于改进tf-idf的多索引合并排序算法
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
CN104572758A (zh) 一种电力领域专业词汇自动抽取方法及系统
CN104036051A (zh) 一种基于标签传播的数据库模式摘要生成方法
CN102693316A (zh) 基于线性泛化回归模型的跨媒体检索方法
CN105468649A (zh) 一种待展示对象匹配的判断方法及其装置
CN104143006A (zh) 一种城市数据处理方法及装置
CN105740310A (zh) 一种用于问答系统中的自动答案摘要方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130918