CN105528419A - 一种考虑用户-作者关系建模的个性化搜索方法 - Google Patents

一种考虑用户-作者关系建模的个性化搜索方法 Download PDF

Info

Publication number
CN105528419A
CN105528419A CN201510889763.0A CN201510889763A CN105528419A CN 105528419 A CN105528419 A CN 105528419A CN 201510889763 A CN201510889763 A CN 201510889763A CN 105528419 A CN105528419 A CN 105528419A
Authority
CN
China
Prior art keywords
word
author
follower
theme
search subscriber
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510889763.0A
Other languages
English (en)
Other versions
CN105528419B (zh
Inventor
姜元春
邵亮
刘业政
徐玉祥
梁世全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei University of Technology
Original Assignee
Hefei University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei University of Technology filed Critical Hefei University of Technology
Priority to CN201510889763.0A priority Critical patent/CN105528419B/zh
Publication of CN105528419A publication Critical patent/CN105528419A/zh
Application granted granted Critical
Publication of CN105528419B publication Critical patent/CN105528419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种考虑用户-作者关系建模的个性化搜索方法,包括如下步骤:1从社交网络上收集原始语料集进行LDA模型训练获得主题词矩阵;2获得搜索用户及其关注者的兴趣度及词语集的混合概率;3获得关注者在主题上的交互率;4搜索用户对所有主题的兴趣度与所述关注者的所有主题的兴趣度集合之间的相似度,关注者的热门度;5获得搜索用户的评价模型;6由相似度和关注交叉率构成的搜索用户与作者的交互率;7得由影响力、传播能力、认证度和权威度所构成的作者评价指标;8由长度比值、外联度、标签值和转发率所构成的原始语料的评价指标,从而获得搜索结果。本发明能有效利用文本信息和用户与作者的关系信息,从而对搜索结果进行个性化。

Description

一种考虑用户-作者关系建模的个性化搜索方法
技术领域
本发明属于个性化搜索领域,具体涉及针对语言模型的个性化搜索方法。
背景技术
作为一种通过关注机制分享简短实时信息的广播式社交网络平台,微博、微信等已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富信息的同时,也提供了大量无关的和重复的信息,通过社交网络搜索感兴趣的信息越来越困难。
与传统的网页内容不同,社交网络具有其自身的特点。在信息内容方面,社交网络中的内容更专注于事件和话题,内容精简丰富,涉及主题的范围广;在信息来源方面,每条内容都有明确的作者,这些作者在自身特征、社交影响、与搜索者的关系等方面均有着巨大差异,内容作者的特征对用户的信息选择有着重要影响。
目前面向社交网络中信息搜索的研究通常聚焦于如何将社交网络中的文本信息区别于网页的特征引入搜索排序模型,从而改进搜索效果。例如,KailongChen等人提出了基于微博特征的微博内容重要性计算模型,并利用协同过滤方法进行微博内容的个性化推荐,但是该方法没有有效的利用社交网络中的用户以及用户之间的关联信息,无法解决个性化搜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点,MorganHavey等人利用主题模型构建用户兴趣模型,YajuanDuan等人提出了基于Learningtorank方法的微博搜索技术,两种方法有效利用了文本信息,但模型复杂,所需的反馈信息难以收集,并且无法与社交网络信息有效结合,提供个性化搜索。Vosecky等人将社交网络信息引入微博搜索建模,利用用户好友的搜索兴趣构建微博用户的兴趣建模,但在建模过程中并未考虑用户关心的搜索结果与作者信息,无法站在用户角度为用户提供感兴趣的搜索结果。现有技术虽然将微博特征引入微博搜索模型,对面向网页的搜索进行了扩展。但是,在进行用户兴趣建模时,并未考虑用户-作者关系这一关键要素,无法站在搜索者角度为搜索者提供真正感兴趣的社交网络信息。
发明内容
本发明为了克服现有技术的不足之处,提出一种考虑用户-作者关系建模的个性化搜索方法,以期能有效的利用用户的历史文本信息进行用户建模,利用好友信息进行完善,并考虑用户与作者关系进行结果评价,从而能有效的对用户的微博搜索结果进行个性化处理,提高搜索的准确性,将用户真正感兴趣的内容呈现给用户。
为了达到上述目的,本发明所采用的技术方案为:
本发明一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;并特点是按如下步骤进行:
步骤1、获得主题词矩阵
步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D的词语集W;
步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;
步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;
步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF
步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以及所述关注者集合FU的词语集,记为表示所述搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;
步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集WU进行训练,获得所述搜索用户U的词语集WU中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣度,记为表示所述搜索用户U对第p个主题的兴趣度;
步骤2.3、统计所述词语集WU中每个词语在所对应的主题上出现的概率,记为表示所述搜索用户U的词语集WU中第k个词语在其对应的主题上出现的概率;
步骤2.4、根据所述词语集WU的概率在所述主题词矩阵中进行匹配,获得所述词语集WU中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集WU中第k个词语在所述主题词矩阵中出现的概率;
步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集WU中第k个词语的混合概率从而获得所述词语集WU的混合概率
式(1)中,λ表示所述Jelinek-Mercer平滑方法的平滑参数;
步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合FU的词语集WF进行处理,获得J个关注者对每个主题的兴趣度,记为以及J个关注者的词语集的混合概率集表示第j个关注者fj的所有主题的兴趣度集合;并有表示第j个关注者fj对第p个主题的兴趣度;表示第j个关注者fj的词语集中所有词语的混合概率;
步骤3、获得J个关注者FU在m个主题上的交互率IN:
步骤3.1、将所述搜索用户U的原始语料集DU与所述第j个关注者fj的原始语料集进行交集处理,获得所述搜索用户U转发所述第j个关注者fj的原始语料集,记为并进行分词处理,获得所述搜索用户U转发第j个关注者fj的词语集,记为表示所述搜索用户U转发所述第j个关注者fj的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;
步骤3.2、统计所述搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为 S j ( p ) = { s j , 1 ( p ) , s j , 2 ( p ) , ... , s j , t ( p ) , ... , s j , T ( p ) } ;
步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者fj的词语集中T个词语在m个主题上出现的次数,记为
步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者FU的词语集中的所有词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};
步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得第j个关注者fj在m个主题上的交互率进而获得J个关注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:
IN j ( p ) = S j ( p ) Σ j = 1 J S j ( p ) - - - ( 2 )
步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度 SIM U = { SIM 1 U , SIM 2 U , ... , SIM j U , ... , SIM J U } ;
SIM j U = 1 K L ( θ U | | θ j F ) - - - ( 3 )
步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门度POPU={POP1,POP2,…,POPj,…,POPJ}:
POP j = l o g ( ρ j ) l o g ( ρ max ) - - - ( 4 )
式(4)中,ρj表示所述社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示所述社交网络中拥有最大粉丝数用户的粉丝量;
步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型
步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值
Γ p ( j ) = ( σ 1 , σ 2 , σ 3 , σ 4 ) T θ p ( j ) IN j ( p ) SIM j U POP j - - - ( 5 )
式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1234=1;
步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:
Γ j = Σ p = 1 m Γ p ( j ) - - - ( 6 )
步骤6.3、对所述J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示所述前X个评价和中第x个评价和;1≤x≤X;
步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型
式(7)中,表示所述第x个关注者fx的词语集中第k个词语在所述主题词矩阵中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数;
步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;
步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始语料和所述G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表示第g个作者;将所述G个作者的所有原始语料集合记为表示第g个作者ag的原始语料集;1≤g≤G;
步骤7.2、对所述G个作者A的原始语料集合DA进行分词处理,获得所述G个作者A的词语集,记为表示所述第g个作者ag的词语集;1≤e≤E;
步骤7.3、对所述作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣度,记为表示第g个作者ag的所有主题的兴趣度集合;并有表示第g个作者ag对第p个主题的兴趣度;
步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度 SIM U ′ = { SIM 1 ′ U , SIM 2 ′ U , ... , SIM g ′ U , ... , SIM G ′ U } ;
SIM g ′ U = 1 K L ( θ U | | θ g A ) - - - ( 8 )
步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关注交叉率Jaccard(U,g),从而获得所述搜索用户U与G个作者的关注交叉率:
J a c c a r d ( U , g ) = | F o l ( U ) ∩ F o l ( g ) | | F o l ( U ) ∪ F o l ( g ) | - - - ( 9 )
式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;
步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标;
步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):
I n f ( g ) = i n p ( g ) i n p ( g ) + o u t ( g ) - - - ( 10 )
式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量;
步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):
Tra(g)=lg(1+ret(g))(11)
式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;
步骤8.3、判断所述第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)=τ;否则,令认证度PC(g)=0;
步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);
A u t h ( g ) = Σ p = 1 m η Q u e ( g , p ) × θ p ( g ) - - - ( 12 )
步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标;
步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):
L e n ( g ) = l ( g ) m a x d ′ ∈ D g A l ( d ′ ) - - - ( 13 )
式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原始语料集中任意一条语料的词语总数;
步骤9.3、判断所述第g条原始语料是否含有链接,若含有链接,则令外联度Url(g)=μ;否则,令外联度Url(g)=0;
步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has(g)=ρ;否则,令标签值Has(g)=0;
步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):
Re t ( g ) = r e t ( g ) m a x g ′ ∈ D Q u e r e t ( g ′ ) - - - ( 14 )
式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语料DQue中任意一条原始语料被转发的次数;
步骤10、获得搜索结果;
步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者ag的信任度ψU,g
ψ U , g = α 1 T L e n ( g ) U r l ( g ) H a s ( g ) Re t ( g ) α 2 T I n f ( g ) T r a ( g ) P C ( g ) A u t h ( g ) α 3 T S I M g ′ U J a c c a r d ( U , g ) - - - ( 15 )
式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;
步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分:
步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果即为所述个性化搜索方法的搜索结果。
与已有技术相比,本发明的有益效果体现在:
1、本发明在给搜索用户呈现社交网络的搜索结果时对用户的文本进行了建模,利用用户与关注者的社交网络关系对模型进行了补充,解决了数据稀疏性的问题;同时也考虑用户与社交网络文章作者的社交网络关系,对用户与作者的关系进行建模,从用户对文本的兴趣,与作者的兴趣两方面给搜索结果进行评分,有效提升了个性化的效果。
2、本发明运用搜索用户的兴趣度及其词语集构建了混合概率,构建基于社交网络文本主题维度的搜索用户兴趣模型;所提模型提出了一种将单个用户的原始语料集作为一个文本的训练方法,有效解决了社交网络中文本短,语料稀疏等问题。
3、本发明充分利用用户与社交网络文本作者的关系特征,提出了融合社交属性的用户-作者关系学习方法,构建基于用户-作者关系维度的用户兴趣模型,有效的反映了用户对文本的兴趣以及用户对作者的兴趣,为用户提供真正的个性化的搜索结果。
附图说明
图1为本发明用户-作者关系建模的个性化搜索方法阶段示意图。
具体实施方式
本实施例中的个性化搜索方法,采集了大量的社交网络用户的原始语料集来训练基础的lda主题模型,然后采集用户信息与原始语料集,训练得到用户模型,采集用户好友信息与原始语料集拓展用户模型,并在用户提交搜索关键词返回结果后,采集文章作者的信息和原始语料集,以及该搜索结果的其他信息,从作者权威度,质量,用户和作者的关联三个方面对用户和作者进行建模,最终对搜索结果进行重排序。最后,通过真实的语料集对本发明所提的方法与其他基础算法进行比较。具体的说:
一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,社交网络中包含搜索用户U以及搜索用户U所关注的对象;将搜索用户U所关注的对象记为搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则搜索用户U为第j个关注者fj的粉丝;1≤j≤J;按如下步骤进行:
步骤1、获得主题词矩阵
步骤1.1、从社交网络上收集原始语料集D并进行分词处理,获得原始语料集D的词语集W;这里的社交网络可以是微博、微信等社交网络平台,本实施例中以微博为例。分词处理使用Ansj分词,Ansj分词是一个ictclas的java实现,基本上重写了所有的数据结构和算法。词典使用了pullword词典,并且对专有名词进行了部分的人工优化。原始语料通过爬虫抓取,可直接对stream进行采集,也可利用微博认证名人堂进行用户与微博抓取;
步骤1.2、对词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示词典C中第i个词语;n表示词语的总数;1≤i≤n;去冗余的过程中可使用哈工大停用词表对停用词进行处理;
步骤1.3、对词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;训练LDA可使用Mallet,Mallet为UMassAmherst提供的开源的语言机器学习工具箱,其中在LDA中建议将alpha、beta设置为0.01,主题设置可利用信息熵进行选择,迭代次数不低于2000次;为构建主题模型,本发明通过爬虫抓取了新浪微博的数据。随机选取了5138个用户,共259万条微博。通过用户名和用户粉丝和关注数的特定模式删除了“僵尸”用户,剩余用户5003个。本发明将少于10字的微博过滤掉,共剩余212万条微博。本发明基于该数据集训练LDA模型。
步骤2、获得搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF
步骤2.1、从社交网络上收集搜索用户U的原始语料集以及关注者集合FU的原始语料集并分别进行分词处理,获得搜索用户U的词语集,记为以及关注者集合FU的词语集,记为表示搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;LiangjieHong等人在EmpiricalStudyofTopicModelinginTwitter中指出将搜索用户U的原始语料集以及关注者的原始语料集作为一个整体进行处理将获得更好的效果,能有效解决短文本的问题;步骤2.2、利用主题词矩阵对搜索用户U的词语集WU进行训练,获得搜索用户U的词语集WU中每个词语所对应的主题,以及搜索用户U对所有主题的兴趣度,记为表示搜索用户U对第p个主题的兴趣度;
表一为通过LDA训练得到的用户微博在主题上词的分布示意表;将搜索者的词语集进行LDA训练,可有效的训练出搜索者语料的主题,以及每个词语对应的主题;如“林俊杰”、“新曲”、“MV”等明显属于“音乐”主题,“魅族”、“小米”、“忠诚度”等明显属于“科技数码”主题;
表1:本发明在步骤二训练得到的用户微博在主题上词的分布示意表
步骤2.3、统计词语集WU中每个词语在所对应的主题上出现的概率,记为表示搜索用户U的词语集WU中第k个词语在其对应的主题上出现的概率;如表2所示,在获得搜索用户的词语集每个词语对应的主题之后,可以获得搜索用户对所有主题的兴趣度,并可统计获得词语集中每个词语所对应的概率;词语“林俊杰”在“音乐”主题下出现4次,“小米”在“科技数码”主题下出现12次;
表2:本发明在步骤二训练得到的用户微博在主题上分布的示意表
步骤2.4、根据词语集WU的概率在主题词矩阵中进行匹配,获得词语集WU中每个词语在主题词矩阵中出现的概率表示搜索用户U的词语集WU中第k个词语在主题词矩阵中出现的概率;
步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得词语集WU中第k个词语的混合概率从而获得词语集WU的混合概率
式(1)中,λ表示Jelinek-Mercer平滑方法的平滑参数;
步骤2.6、根据步骤2.2-步骤2.5,对关注者集合FU的词语集WF进行处理,获得J个关注者对每个主题的兴趣度,记为以及J个关注者的词语集的混合概率集表示第j个关注者fj的所有主题的兴趣度集合;并有表示第j个关注者fj对第p个主题的兴趣度;表示第j个关注者fj的词语集中所有词语的混合概率;
步骤3、获得J个关注者FU在m个主题上的交互率IN:
步骤3.1、将搜索用户U的原始语料集DU与第j个关注者fj的原始语料集进行交集处理,获得搜索用户U转发第j个关注者fj的原始语料集,记为并进行分词处理,获得搜索用户U转发第j个关注者fj的词语集,记为表示搜索用户U转发第j个关注者fj的原始语料集中第z条原始语料;表示搜索用户U转发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;
步骤3.2、统计搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为 S j ( p ) = { s j , 1 ( p ) , s j , 2 ( p ) , ... , s j , t ( p ) , ... , s j , T ( p ) } ;
步骤3.3,重复步骤3.2,从而获得搜索用户U转发第j个关注者fj的词语集中T个词语在m个主题上出现的次数,记为
步骤3.4,重复步骤3.3,获得搜索用户U转发J个关注者FU的词语集中的所有词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};
步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得第j个关注者fj在m个主题上的交互率进而获得J个关注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:
IN j ( p ) = S j ( p ) Σ j = 1 J S j ( p ) - - - ( 2 )
步骤4、利用式(3)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θU与第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度KL散度,又称相对熵,是描述两个概率分布P和Q差异的一种方法,这里使用KL散度可有效表征出用户U对所有主题的兴趣度θU与第j个关注者fj的所有主题的兴趣度集合之间的相似度。
SIM j U = 1 K L ( θ U | | θ j F ) - - - ( 3 )
步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门度POPU={POP1,POP2,…,POPj,…,POPJ}:
POP j = l o g ( ρ j ) l o g ( ρ max ) - - - ( 4 )
式(4)中,ρj表示社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示社交网络中拥有最大粉丝数用户的粉丝量;
步骤6、获得搜索用户U在m个主题下K个词语的评价模型
步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值
Γ p ( j ) = ( σ 1 , σ 2 , σ 3 , σ 4 ) T θ p ( j ) IN j ( p ) SIM j U POP j - - - ( 5 )
式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1234=1;
步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:
Γ j = Σ p = 1 m Γ p ( j ) - - - ( 6 )
步骤6.3、对J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示前X个评价和中第x个评价和;1≤x≤X;可将X设置成20;
步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得搜索用户U在第p个主题下对第k个词语的评价模型从而获得搜索用户U在第p个主题下K个词语的评价模型进而获得搜索用户U在m个主题下K个词语的评价模型
式(7)中,表示第x个关注者fx的词语集中第k个词语在主题词矩阵中出现的概率;β表示Dirichlet先验平滑方法的平滑参数;可将λ设置为0.2,β设置为80;
步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;
步骤7.1、搜索用户U在社交网络中提交搜索词组Que进行查询,返回G条原始语料和G条原始语料所对应的作者;将G条原始语料记为表示第g条原始语料;将G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表示第g个作者;将G个作者的所有原始语料集合记为表示第g个作者ag的原始语料集;1≤g≤G;
本发明共选择了33位活跃用户(半年发微博数量多于200)。为了构建用户个性化兴趣模型,抽取每一用户半年内的微博,并抓取了用户的好友列表,计算用户和好友的关系,选取关系最近的前二十位好友,抓取这些好友的微博,以及好友的粉丝数等信息。为了度量微博作者的特征,抓取了返回结果的作者在半年内发布的微博、每条微博的转发次数与评论次数、作者的粉丝数、关注数、关注列表和认证信息等。实验共收集查询139个,将搜索结果不足20个的去除掉,剩余125组搜索结果;用户提交关键词之后,获得返回的2页搜索结果以及每条结果对应的评论数与转发数,并按照每条结果的作者,抓取对应的微博作者,获取微博作者的历史微博,是否为认证微博,关注数与粉丝数,历史微博的转发总数;
步骤7.2、对G个作者A的原始语料集合DA进行分词处理,获得G个作者A的词语集,记为表示第g个作者ag的词语集;1≤e≤E;
步骤7.3、根据步骤2.2-步骤2.5,对作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣度,记为表示第g个作者ag的所有主题的兴趣度集合;并有表示第g个作者ag对第p个主题的兴趣度;
步骤7.4、利用式(8)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θU与第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度 SIM U ′ = { SIM 1 ′ U , SIM 2 ′ U , ... , SIM g ′ U , ... , SIM G ′ U } ;
SIM g ′ U = 1 K L ( θ U | | θ g A ) - - - ( 8 )
步骤7.5、利用式(9)所示的Jaccard距离计算搜索用户U与第g个作者ag的关注交叉率Jaccard(U,g),从而获得搜索用户U与G个作者的关注交叉率:
J a c c a r d ( U , g ) = | F o l ( U ) ∩ F o l ( g ) | | F o l ( U ) ∪ F o l ( g ) | - - - ( 9 )
式(9)中,Fol(U)表示搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;Jaccard距离是用来衡量两个集合差异性的一种指标,它是Jaccard相似系数的补集,被定义为1减去Jaccard相似系数;
步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标;
步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):
I n f ( g ) = i n p ( g ) i n p ( g ) + o u t ( g ) - - - ( 10 )
式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量;
步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):
Tra(g)=lg(1+ret(g))(11)
式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;
步骤8.3、判断第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)=τ;否则,令认证度PC(g)=0;
步骤8.4、利用主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);
A u t h ( g ) = Σ p = 1 m η Q u e ( g , p ) × θ p ( g ) - - - ( 12 )
步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标;
步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):
L e n ( g ) = l ( g ) m a x d ′ ∈ D g A l ( d ′ ) - - - ( 13 )
式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原始语料集中任意一条语料的词语总数;
步骤9.3、判断第g条原始语料是否含有链接,若含有链接,则令外联度Url(g)=μ;否则,令外联度Url(g)=0;
步骤9.4、判断第g条原始语料是否含有标签,若含有标签,则令标签值Has(g)=ρ;否则,令标签值Has(g)=0;
步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):
Re t ( g ) = r e t ( g ) m a x g ′ ∈ D Q u e r e t ( g ′ ) - - - ( 14 )
式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语料DQue中任意一条原始语料被转发的次数;
步骤10、获得搜索结果;
步骤10.1、利用式(15)获得搜索用户U对第g条原始语料的第g个作者ag的信任度ψU,g
ψ U , g = α 1 T L e n ( g ) U r l ( g ) H a s ( g ) Re t ( g ) α 2 T I n f ( g ) T r a ( g ) P C ( g ) A u t h ( g ) α 3 T S I M g ′ U J a c c a r d ( U , g ) - - - ( 15 )
式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;
步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分:
步骤10.3、对G条原始语料的综合评分进行降序排序,所获得的排序结果即为个性化搜索方法的搜索结果。
为了验证模型的有效性,本发明对查询似然模型(B-QM)和协同个性化搜索主题-语言模型(B-CM)进行了程序实现。B-QM是语言模型的经典方法,可以对搜索关键词与微博内容的相关性进行度量。B-CM是由JanVosecky等人提出的个性化微博搜索方法,该方法运用主题模型与语言模型进行个性化搜索。此外,实验将专利所提方法逐块拆分为A-AMQ模型(仅考虑由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标)、A-AMQF模型(考虑由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标与由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标)、以及A-AMQFA模型(考虑以上所有特征)。并将上述简化模型与本文所提综合模型的个性化搜索结果进行对比。排序结果使用PN(前N个结果的正确率)和MAP(宏平均正确率)指标进行评价。
本发明方法与各基准方法在MAP指标下的表现如表3所示。从表3中可以看出本发明方法在微博语料集中较其他方法在MAP(3)、MAP(6)、MAP(9)、MAP(15)指标下均有较好的表现。说明使用本发明方法可将用户真正感兴趣的搜索结果展现在前面;
表3:本发明与各基准模型在MAP指标下的表现
模型 MAP(3) MAP(6) MAP(9) MAP(12) MAP(15)
QM 0.091067 0.096896 0.097905 0.098472 0.099776
CM 0.105067 0.108798 0.108221 0.108689 0.108841
AMQ 0.125067 0.126484 0.124264 0.122397 0.121052
AMQF 0.124667 0.127685 0.126504 0.125561 0.124194
AMQFA 0.126933 0.129347 0.126268 0.124903 0.125218
本发明与各基准模型在PN指标下的表现如表4所示。从表4中可以看到本发明方法在微博语料集中较其他方法在P5、P10、P15指标下均有较好的表现。说明使用本发明方法能能用户感兴趣的结果从结果集中抽取出来;
表4:本发明与各基准模型在PN指标下的表现
模型 P5 P10 P15
QM 0.07616 0.08928 0.097614 -->
CM 0.08672 0.09824 0.101867
AMQ 0.10496 0.11008 0.106773
AMQF 0.10912 0.11040 0.106667
AMQFA 0.11072 0.11248 0.108373
表5直观的展现了本发明方法在微博实验集合中的效果,如图搜索用户何小台RMadrid为一真实用户,其搜索“金球奖”,用户-作者关系建模的个性化搜索方法与其他方法的结果如下。在表5中可以直观的看到,被发明方法排序靠前的方法都是该用户感兴趣的足球话题,而非电影话题,并且本发明方法给出排序结果考前的作者都在该领域有一定的影响力或较为权威;
表5何小台RMadrid搜索“金球奖”,用户-作者关系建模的个性化搜索方法与其他方法的结果表现
如图1所示,本发明方法在实验中完成分为四个阶段进行。第一阶段进行搜索与打标,收集搜索用户的查询、对搜索用户提供的查询结果进行抽取、将抽取的的搜索用户的查询结果提供给搜索用户进行打分;第二阶段进行微博数据的抓取,需要抓取搜索者历史微博语料集、搜索者好友基本信息与好友历史微博语料集、搜索者所提供查询的搜索结果的作者基本信息与历史微博语料集,并由此得到主题词矩阵;第三阶段进行建模,训练得到搜索用户兴趣度与词语集混合矩阵、关注者兴趣度与词语混合矩阵、关注者在主题上交互率、搜索用户与专注者相似度、关注者热门度,即获得搜索用户评价模型,通过获得交互率、影响力、传播能力、认证度、权威度、长度比值、外联度、标签值、转发率训练得到搜索用户与作者训练模型;第四阶段利用第三阶段建立的模型对查询及搜索结果的排序,参照第一阶段的用户打分,查看最终的排序结果。

Claims (1)

1.一种考虑用户-作者关系建模的个性化搜索方法,是应用于社交网络中,所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象;将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合FU={f1,f2,…,fj,…fJ};fj表示第j个关注者;则所述搜索用户U为所述第j个关注者fj的粉丝;1≤j≤J;其特征是按如下步骤进行:
步骤1、获得主题词矩阵
步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理,获得所述原始语料集D的词语集W;
步骤1.2、对所述词语集W进行去冗余处理,获得词典C={c1,c2,…,ci,…,cn};ci表示所述词典C中第i个词语;n表示词语的总数;1≤i≤n;
步骤1.3、对所述词语集W进行LDA模型训练,获得主题词矩阵ωp,q表示第q个词语cq在第p个主题上出现的概率;m表示主题的总数;1≤p≤m;
步骤2、获得所述搜索用户U的兴趣度θU及其词语集WU的混合概率以及J个关注者的兴趣度ΘF及其词语集WU的混合概率ΦF
步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合FU的原始语料集并分别进行分词处理,获得所述搜索用户U的词语集,记为以及所述关注者集合FU的词语集,记为 表示所述搜索用户U的第l条原始语料;表示第j个关注者fj的原始语料集;表示所述搜索用户U的词语集WU中第k个词语;表示第j个关注者fj的词语集;1≤k≤K;1≤l≤L;
步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集WU进行训练,获得所述搜索用户U的词语集WU中每个词语所对应的主题,以及所述搜索用户U对所有主题的兴趣度,记为 表示所述搜索用户U对第p个主题的兴趣度;
步骤2.3、统计所述词语集WU中每个词语在所对应的主题上出现的概率,记为 表示所述搜索用户U的词语集WU中第k个词语在其对应的主题上出现的概率;
步骤2.4、根据所述词语集WU的概率在所述主题词矩阵中进行匹配,获得所述词语集WU中每个词语在所述主题词矩阵中出现的概率 表示所述搜索用户U的词语集WU中第k个词语在所述主题词矩阵中出现的概率;
步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集WU中第k个词语的混合概率从而获得所述词语集WU的混合概率
式(1)中,λ表示所述Jelinek-Mercer平滑方法的平滑参数;
步骤2.6、根据步骤2.2-步骤2.5,对所述关注者集合FU的词语集WF进行处理,获得J个关注者对每个主题的兴趣度,记为以及J个关注者的词语集的混合概率集 表示第j个关注者fj的所有主题的兴趣度集合;并有 表示第j个关注者fj对第p个主题的兴趣度;表示第j个关注者fj的词语集中所有词语的混合概率;
步骤3、获得J个关注者FU在m个主题上的交互率IN:
步骤3.1、将所述搜索用户U的原始语料集DU与所述第j个关注者fj的原始语料集进行交集处理,获得所述搜索用户U转发所述第j个关注者fj的原始语料集,记为并进行分词处理,获得所述搜索用户U转发第j个关注者fj的词语集,记为 表示所述搜索用户U转发所述第j个关注者fj的原始语料集中第z条原始语料;表示所述搜索用户U转发第j个关注者fj的词语集中第t个词语;1≤t≤T;1≤z≤Z;
步骤3.2、统计所述搜索用户U转发第j个关注者fj的词语集中第t个词语在第p个主题上出现的次数,记为从而获得T个词语在第p个主题上出现的次数,记为 S j ( p ) = { s j , 1 ( p ) , s j , 2 ( p ) , ... , s j , t ( p ) , ... , s j , T ( p ) } ;
步骤3.3,重复步骤3.2,从而获得所述搜索用户U转发第j个关注者fj的词语集中T个词语在m个主题上出现的次数,记为
步骤3.4,重复步骤3.3,获得所述搜索用户U转发J个关注者FU的词语集中的所有词语在m个主题上出现的次数,记为S={S1,S2,…,Sj,…,SJ};
步骤3.5、利用式(2)获得第j个关注者fj在第p个主题上的交互率从而获得第j个关注者fj在m个主题上的交互率进而获得J个关注者FU在m个主题上的交互率IN={IN1,IN2,…,INj,…,INJ}:
IN j ( p ) = S j ( p ) Σ j = 1 J S j ( p ) - - - ( 2 )
步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第j个关注者fj的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与J个关注者的所有主题的兴趣度集合之间的相似度 SIM U = { SIM 1 U , SIM 2 U , ... , SIM j U , ... , SIM J U } ;
SIM j U = 1 K L ( θ U | | θ j F ) - - - ( 3 )
步骤5、利用式(4)获得第j个关注者fj的热门度POPj,从而获得J个关注者FU的热门度POPU={POP1,POP2,…,POPj,…,POPJ}:
POP j = l o g ( ρ j ) l o g ( ρ max ) - - - ( 4 )
式(4)中,ρj表示所述社交网络中第j个关注者fj拥有的粉丝数量,ρmax表示所述社交网络中拥有最大粉丝数用户的粉丝量;
步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型
步骤6.1、利用式(5)获得第j个关注者fj对第p个主题的评价值
Γ p ( j ) = ( σ 1 , σ 2 , σ 3 , σ 4 ) T θ p ( j ) IN j ( p ) SIM j U POP j - - - ( 5 )
式(5)中,σ1234分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POPj的权重;并有σ1234=1;
步骤6.2、利用式(6)获得第j个关注者fj对m个主题的评价和Γj,从而获得J个关注者FU对m个主题的评价和ΓU={Γ12,…,Γj,…,ΓJ}:
Γ j = Σ p = 1 m Γ p ( j ) - - - ( 6 )
步骤6.3、对所述J个关注者的评价和ΓU进行降序排序,并选取前X个评价和,记为Γ′U={Γ′1,Γ′2,…,Γ′x,…,Γ′X};Γ′x表示所述前X个评价和中第x个评价和;1≤x≤X;
步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型
式(7)中,表示所述第x个关注者fx的词语集中第k个词语在所述主题词矩阵中出现的概率;β表示所述Dirichlet先验平滑方法的平滑参数;
步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者ag的交互率;
步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询,返回G条原始语料和所述G条原始语料所对应的作者;将G条原始语料记为 表示第g条原始语料;将所述G条原始语料所对应的作者记为集合A={a1,a2,…,ag,…,aG};ag表示第g个作者;将所述G个作者的所有原始语料集合记为 表示第g个作者ag的原始语料集;1≤g≤G;
步骤7.2、对所述G个作者A的原始语料集合DA进行分词处理,获得所述G个作者A的词语集,记为 表示所述第g个作者ag的词语集;1≤e≤E;
步骤7.3、对所述作者集合A的词语集WA进行处理,获得G个作者对每个主题的兴趣度,记为 表示第g个作者ag的所有主题的兴趣度集合;并有 表示第g个作者ag对第p个主题的兴趣度;
步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θU与所述第g个作者ag的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θU与G个作者的所有主题的兴趣度集合之间的相似度 SIM U ′ = { SIM 1 ′ U , SIM 2 ′ U , ... , SIM g ′ U , ... , SIM G ′ U } ;
SIM g ′ U = 1 K L ( θ U | | θ g A ) - - - ( 8 )
步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者ag的关注交叉率Jaccard(U,g),从而获得所述搜索用户U与G个作者的关注交叉率:
J a c c a r d ( U , g ) = | F o l ( U ) ∩ F o l ( g ) | | F o l ( U ) ∪ F o l ( g ) | - - - ( 9 )
式(9)中,Fol(U)表示所述搜索用户U所关注的对象的集合;Fol(g)表示第g个作者ag所关注的对象的集合;
步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者ag的评价指标;
步骤8.1、利用式(10)获得第g个作者ag的影响力Inf(g):
I n f ( g ) = i n p ( g ) i n p ( g ) + o u t ( g ) - - - ( 10 )
式(10)中,inp(g)表示第g个作者ag的粉丝数量;out(g)表示第g个作者ag所关注的对象数量;
步骤8.2、利用式(11)获得第g个作者ag的传播能力Tra(g):
Tra(g)=lg(1+ret(g))(11)
式(11)中,ret(g)表示第g个作者ag所有原始语料的被转发总数;
步骤8.3、判断所述第g个作者ag是否为认证用户,若是认证用户,则令认证度PC(g)=τ;否则,令认证度PC(g)=0;
步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集WU进行训练,获得第g条原始语料的词语集中每个词语所对应的主题,以及第g条原始语料所对应的第p个主题分布ηQue(g,p);并利用式(12)获得第g个作者ag的权威度Auth(g);
A u t h ( g ) = Σ p = 1 m η Q u e ( g , p ) × θ p ( g ) - - - ( 12 )
步骤9,获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标;
步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g):
L e n ( g ) = l ( g ) m a x d ′ ∈ D g A l ( d ′ ) - - - ( 13 )
式(13)中,l(g)表示第g条原始语料的词语总数;l(d′)表示第g个作者ag的原始语料集中任意一条语料的词语总数;
步骤9.3、判断所述第g条原始语料是否含有链接,若含有链接,则令外联度Url(g)=μ;否则,令外联度Url(g)=0;
步骤9.4、判断所述第g条原始语料是否含有标签,若含有标签,则令标签值Has(g)=ρ;否则,令标签值Has(g)=0;
步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g):
Re t ( g ) = r e t ( g ) m a x g ′ ∈ D Q u e r e t ( g ′ ) - - - ( 14 )
式(14)中,ret(g)表示第g条原始语料被转发的次数;ret(g')表示G条原始语料DQue中任意一条原始语料被转发的次数;
步骤10、获得搜索结果;
步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者ag的信任度ψU,g
ψ U , g = α 1 T L e n ( g ) U r l ( g ) H a s ( g ) Re t ( g ) α 2 T I n f ( g ) T r a ( g ) P C ( g ) A u t h ( g ) α 3 T SIM g ′ U J a c c a r d ( U , g ) - - - ( 15 )
式(15)中,分别表示第g条原始语料评价指标的权重、第g个作者ag评价指标的权重、搜索用户U与第g个作者ag交互率的权重;0≤ψU,g≤1;
步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分:
步骤10.3、对所述G条原始语料的综合评分进行降序排序,所获得的排序结果即为所述个性化搜索方法的搜索结果。
CN201510889763.0A 2015-11-30 2015-11-30 一种考虑用户‑作者关系建模的个性化搜索方法 Active CN105528419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510889763.0A CN105528419B (zh) 2015-11-30 2015-11-30 一种考虑用户‑作者关系建模的个性化搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510889763.0A CN105528419B (zh) 2015-11-30 2015-11-30 一种考虑用户‑作者关系建模的个性化搜索方法

Publications (2)

Publication Number Publication Date
CN105528419A true CN105528419A (zh) 2016-04-27
CN105528419B CN105528419B (zh) 2017-05-17

Family

ID=55770642

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510889763.0A Active CN105528419B (zh) 2015-11-30 2015-11-30 一种考虑用户‑作者关系建模的个性化搜索方法

Country Status (1)

Country Link
CN (1) CN105528419B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN107204193A (zh) * 2017-06-12 2017-09-26 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
CN111324807A (zh) * 2020-01-13 2020-06-23 北京工业大学 基于信任度的协同过滤推荐方法
CN112925980A (zh) * 2021-03-11 2021-06-08 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119234A1 (en) * 2007-11-02 2009-05-07 Hunch Inc. Interactive machine learning advice facility
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN103810169A (zh) * 2012-11-06 2014-05-21 腾讯科技(深圳)有限公司 一种挖掘社区领域专家的方法和装置
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090119234A1 (en) * 2007-11-02 2009-05-07 Hunch Inc. Interactive machine learning advice facility
CN103810169A (zh) * 2012-11-06 2014-05-21 腾讯科技(深圳)有限公司 一种挖掘社区领域专家的方法和装置
CN103559262A (zh) * 2013-11-04 2014-02-05 北京邮电大学 基于社区的作者及其学术论文推荐系统和推荐方法
CN103793481A (zh) * 2014-01-16 2014-05-14 中国科学院软件研究所 基于用户兴趣挖掘的微博词云生成方法及访问支持系统
CN104978320A (zh) * 2014-04-02 2015-10-14 东华软件股份公司 一种基于相似度的知识推荐方法和设备

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503066A (zh) * 2016-09-29 2017-03-15 北京百度网讯科技有限公司 基于人工智能的处理搜索结果方法和装置
CN107204193A (zh) * 2017-06-12 2017-09-26 山东师范大学 基于直方图统计和池化算法的音频场景识别方法及装置
CN111324807A (zh) * 2020-01-13 2020-06-23 北京工业大学 基于信任度的协同过滤推荐方法
CN112925980A (zh) * 2021-03-11 2021-06-08 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法
CN112925980B (zh) * 2021-03-11 2022-08-19 合肥工业大学 一种基于文本和图像的用户个性化偏好挖掘方法

Also Published As

Publication number Publication date
CN105528419B (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
Salloum et al. Mining social media text: extracting knowledge from Facebook
CN106250412B (zh) 基于多源实体融合的知识图谱构建方法
CN103218400B (zh) 基于链接与文本内容的网络社区用户群划分方法
CN104008109B (zh) 基于用户兴趣的Web信息推送服务系统
CN101320375B (zh) 基于用户点击行为的数字图书搜索方法
CN102332025B (zh) 一种智能垂直搜索方法和系统
CN104156450B (zh) 一种基于用户网络数据的物品信息推荐方法
CN103455613B (zh) 基于MapReduce模型的兴趣感知服务推荐方法
CN104133897B (zh) 一种基于话题影响力的微博话题溯源方法
CN106156286A (zh) 面向专业文献知识实体的类型抽取系统及方法
CN103279515B (zh) 基于微群的推荐方法及微群推荐装置
CN105045931A (zh) 一种基于Web挖掘的视频推荐方法和系统
CN105589948A (zh) 一种文献引用网络可视化及文献推荐方法及系统
CN103246644B (zh) 一种网络舆情信息处理方法和装置
CN107169873A (zh) 一种多特征融合的微博用户权威度评价方法
CN105912642A (zh) 产品价格数据采集方法及系统
CN104035972B (zh) 一种基于微博的知识推荐方法与系统
CN104268230B (zh) 一种基于异质图随机游走的中文微博客观点探测方法
CN103258020A (zh) 一种结合sns和搜索引擎技术的推荐系统与方法
CN105528419A (zh) 一种考虑用户-作者关系建模的个性化搜索方法
CN102236646A (zh) 对象级垂直搜索引擎个性化排序算法iRank
CN106484829A (zh) 一种微博排序模型的建立及微博多样性检索方法
CN103593336A (zh) 一种基于语义分析的知识推送系统及方法
CN103593474A (zh) 基于深度学习的图像检索排序方法
CN104199938B (zh) 基于rss的农用土地信息发送方法和系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant