CN105528419B

CN105528419B - 一种考虑用户‑作者关系建模的个性化搜索方法

Info

Publication number: CN105528419B
Application number: CN201510889763.0A
Authority: CN
Inventors: 姜元春; 邵亮; 刘业政; 徐玉祥; 梁世全
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2015-11-30
Filing date: 2015-11-30
Publication date: 2017-05-17
Anticipated expiration: 2035-11-30
Also published as: CN105528419A

Abstract

本发明公开了一种考虑用户‑作者关系建模的个性化搜索方法，包括如下步骤：1从社交网络上收集原始语料集进行LDA模型训练获得主题词矩阵；2获得搜索用户及其关注者的兴趣度及词语集的混合概率；3获得关注者在主题上的交互率；4搜索用户对所有主题的兴趣度与所述关注者的所有主题的兴趣度集合之间的相似度，关注者的热门度；5获得搜索用户的评价模型；6由相似度和关注交叉率构成的搜索用户与作者的交互率；7得由影响力、传播能力、认证度和权威度所构成的作者评价指标；8由长度比值、外联度、标签值和转发率所构成的原始语料的评价指标，从而获得搜索结果。本发明能有效利用文本信息和用户与作者的关系信息，从而对搜索结果进行个性化。

Description

一种考虑用户-作者关系建模的个性化搜索方法

技术领域

本发明属于个性化搜索领域，具体涉及针对语言模型的个性化搜索方法。

背景技术

作为一种通过关注机制分享简短实时信息的广播式社交网络平台，微博、微信等已经成为人们信息沟通的重要渠道。社交网络中内容爆炸式的传播速度给用户带来更丰富信息的同时，也提供了大量无关的和重复的信息，通过社交网络搜索感兴趣的信息越来越困难。

与传统的网页内容不同，社交网络具有其自身的特点。在信息内容方面，社交网络中的内容更专注于事件和话题，内容精简丰富，涉及主题的范围广；在信息来源方面，每条内容都有明确的作者，这些作者在自身特征、社交影响、与搜索者的关系等方面均有着巨大差异，内容作者的特征对用户的信息选择有着重要影响。

目前面向社交网络中信息搜索的研究通常聚焦于如何将社交网络中的文本信息区别于网页的特征引入搜索排序模型，从而改进搜索效果。例如，Kailong Chen等人提出了基于微博特征的微博内容重要性计算模型，并利用协同过滤方法进行微博内容的个性化推荐，但是该方法没有有效的利用社交网络中的用户以及用户之间的关联信息，无法解决个性化搜索文本相同而作者不同的排序问题。针对微博内容短、主题广的特点，Morgan Havey等人利用主题模型构建用户兴趣模型，Yajuan Duan等人提出了基于Learning to rank方法的微博搜索技术，两种方法有效利用了文本信息，但模型复杂，所需的反馈信息难以收集，并且无法与社交网络信息有效结合，提供个性化搜索。Vosecky等人将社交网络信息引入微博搜索建模，利用用户好友的搜索兴趣构建微博用户的兴趣建模，但在建模过程中并未考虑用户关心的搜索结果与作者信息，无法站在用户角度为用户提供感兴趣的搜索结果。现有技术虽然将微博特征引入微博搜索模型，对面向网页的搜索进行了扩展。但是，在进行用户兴趣建模时，并未考虑用户-作者关系这一关键要素，无法站在搜索者角度为搜索者提供真正感兴趣的社交网络信息。

发明内容

本发明为了克服现有技术的不足之处，提出一种考虑用户-作者关系建模的个性化搜索方法，以期能有效的利用用户的历史文本信息进行用户建模，利用好友信息进行完善，并考虑用户与作者关系进行结果评价，从而能有效的对用户的微博搜索结果进行个性化处理，提高搜索的准确性，将用户真正感兴趣的内容呈现给用户。

为了达到上述目的，本发明所采用的技术方案为：

本发明一种考虑用户-作者关系建模的个性化搜索方法，是应用于社交网络中，所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象；将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合F_U＝{f₁,f₂,…,f_j,…f_J}；f_j表示第j个关注者；则所述搜索用户U为所述第j个关注者f_j的粉丝；1≤j≤J；并特点是按如下步骤进行：

步骤1、获得主题词矩阵

步骤1.1、从所述社交网络上收集原始语料集D并进行分词处理，获得所述原始语料集D的词语集W；

步骤1.2、对所述词语集W进行去冗余处理，获得词典C＝{c₁,c₂,…,c_i,…,c_n}；c_i表示所述词典C中第i个词语；n表示词语的总数；1≤i≤n；

步骤1.3、对所述词语集W进行LDA模型训练，获得主题词矩阵ω_p,q表示第q个词语c_q在第p个主题上出现的概率；m表示主题的总数；1≤p≤m；

步骤2、获得所述搜索用户U的兴趣度θ_U及其词语集W_U的混合概率以及J个关注者的兴趣度Θ_F及其词语集W_U的混合概率Φ_F；

步骤2.1、从所述社交网络上收集所述搜索用户U的原始语料集以及所述关注者集合F_U的原始语料集并分别进行分词处理，获得所述搜索用户U的词语集，记为以及所述关注者集合F_U的词语集，记为表示所述搜索用户U的第l条原始语料；表示第j个关注者f_j的原始语料集；表示所述搜索用户U的词语集W_U中第k个词语；表示第j个关注者f_j的词语集；1≤k≤K；1≤l≤L；

步骤2.2、利用所述主题词矩阵对所述搜索用户U的词语集W_U进行训练，获得所述搜索用户U的词语集W_U中每个词语所对应的主题，以及所述搜索用户U对所有主题的兴趣度，记为表示所述搜索用户U对第p个主题的兴趣度；

步骤2.3、统计所述词语集W_U中每个词语在所对应的主题上出现的概率，记为表示所述搜索用户U的词语集W_U中第k个词语在其对应的主题上出现的概率；

步骤2.4、根据所述词语集W_U的概率在所述主题词矩阵中进行匹配，获得所述词语集W_U中每个词语在所述主题词矩阵中出现的概率表示所述搜索用户U的词语集W_U中第k个词语在所述主题词矩阵中出现的概率；

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得所述词语集W_U中第k个词语的混合概率从而获得所述词语集W_U的混合概率

式(1)中，λ表示所述Jelinek-Mercer平滑方法的平滑参数；

步骤2.6、根据步骤2.2-步骤2.5，对所述关注者集合F_U的词语集W_F进行处理，获得J个关注者对每个主题的兴趣度，记为以及J个关注者的词语集的混合概率集表示第j个关注者f_j的所有主题的兴趣度集合；并有表示第j个关注者f_j对第p个主题的兴趣度；表示第j个关注者f_j的词语集中所有词语的混合概率；

步骤3、获得J个关注者F_U在m个主题上的交互率IN：

步骤3.1、将所述搜索用户U的原始语料集D_U与所述第j个关注者f_j的原始语料集进行交集处理，获得所述搜索用户U转发所述第j个关注者f_j的原始语料集，记为并进行分词处理，获得所述搜索用户U转发第j个关注者f_j的词语集，记为表示所述搜索用户U转发所述第j个关注者f_j的原始语料集中第z条原始语料；表示所述搜索用户U转发第j个关注者f_j的词语集中第t个词语；1≤t≤T；1≤z≤Z；

步骤3.2、统计所述搜索用户U转发第j个关注者f_j的词语集中第t个词语在第p个主题上出现的次数，记为从而获得T个词语在第p个主题上出现的次数，记为

步骤3.3，重复步骤3.2，从而获得所述搜索用户U转发第j个关注者f_j的词语集中T个词语在m个主题上出现的次数，记为

步骤3.4，重复步骤3.3，获得所述搜索用户U转发J个关注者F_U的词语集中的所有词语在m个主题上出现的次数，记为S＝{S₁,S₂,…,S_j,…,S_J}；

步骤3.5、利用式(2)获得第j个关注者f_j在第p个主题上的交互率从而获得第j个关注者f_j在m个主题上的交互率进而获得J个关注者F_U在m个主题上的交互率IN＝{IN₁,IN₂,…,IN_j,…,IN_J}：

步骤4、利用式(3)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θ_U与所述第j个关注者f_j的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θ_U与J个关注者的所有主题的兴趣度集合之间的相似度

步骤5、利用式(4)获得第j个关注者f_j的热门度POP_j，从而获得J个关注者F_U的热门度POP_U＝{POP₁,POP₂,…,POP_j,…,POP_J}：

式(4)中，ρ_j表示所述社交网络中第j个关注者f_j拥有的粉丝数量，ρ_max表示所述社交网络中拥有最大粉丝数用户的粉丝量；

步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者f_j对第p个主题的评价值

式(5)中，σ₁,σ₂,σ₃,σ₄分别表示兴趣度的权重、交互率的权重、相似度的权重和热门度POP_j的权重；并有σ₁+σ₂+σ₃+σ₄＝1；

步骤6.2、利用式(6)获得第j个关注者f_j对m个主题的评价和Γ_j，从而获得J个关注者F_U对m个主题的评价和Γ_U＝{Γ₁,Γ₂,…,Γ_j,…,Γ_J}：

步骤6.3、对所述J个关注者的评价和Γ_U进行降序排序，并选取前X个评价和，记为Γ′_U＝{Γ′₁,Γ′₂，…,Γ′_x,…,Γ′_X}；Γ′_x表示所述前X个评价和中第x个评价和；1≤x≤X；

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得所述搜索用户U在第p个主题下对第k个词语的评价模型从而获得所述搜索用户U在第p个主题下K个词语的评价模型进而获得所述搜索用户U在m个主题下K个词语的评价模型

式(7)中，表示所述第x个关注者f_x的词语集中第k个词语在所述主题词矩阵中出现的概率；β表示所述Dirichlet先验平滑方法的平滑参数；

步骤7、获得由相似度和关注交叉率构成的搜索用户U与第g个作者a_g的交互率；

步骤7.1、所述搜索用户U在所述社交网络中提交搜索词组Que进行查询，返回G条原始语料和所述G条原始语料所对应的作者；将G条原始语料记为表示第g条原始语料；将所述G条原始语料所对应的作者记为集合A＝{a₁,a₂,…,a_g,…,a_G}；a_g表示第g个作者；将所述G个作者的所有原始语料集合记为表示第g个作者a_g的原始语料集；1≤g≤G；

步骤7.2、对所述G个作者A的原始语料集合D_A进行分词处理，获得所述G个作者A的词语集，记为表示所述第g个作者a_g的词语集；1≤e≤E；

步骤7.3、对所述作者集合A的词语集W_A进行处理，获得G个作者对每个主题的兴趣度，记为表示第g个作者a_g的所有主题的兴趣度集合；并有表示第g个作者a_g对第p个主题的兴趣度；

步骤7.4、利用式(8)所示的KL散度来衡量所述搜索用户U对所有主题的兴趣度θ_U与所述第g个作者a_g的所有主题的兴趣度集合之间的相似度从而获得所述搜索用户U对所有主题的兴趣度θ_U与G个作者的所有主题的兴趣度集合之间的相似度

步骤7.5、利用式(9)所示的Jaccard距离计算所述搜索用户U与第g个作者a_g的关注交叉率Jaccard(U,g)，从而获得所述搜索用户U与G个作者的关注交叉率：

式(9)中，Fol(U)表示所述搜索用户U所关注的对象的集合；Fol(g)表示第g个作者a_g所关注的对象的集合；

步骤8、获得由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者a_g的评价指标；

步骤8.1、利用式(10)获得第g个作者a_g的影响力Inf(g)：

式(10)中，inp(g)表示第g个作者a_g的粉丝数量；out(g)表示第g个作者a_g所关注的对象数量；

步骤8.2、利用式(11)获得第g个作者a_g的传播能力Tra(g)：

Tra(g)＝lg(1+ret(g)) (11)

式(11)中，ret(g)表示第g个作者a_g所有原始语料的被转发总数；

步骤8.3、判断所述第g个作者a_g是否为认证用户，若是认证用户，则令认证度PC(g)＝τ；否则，令认证度PC(g)＝0；

步骤8.4、利用所述主题词矩阵对第g条原始语料的词语集W_U进行训练，获得第g条原始语料的词语集中每个词语所对应的主题，以及第g条原始语料所对应的第p个主题分布η_Que(g,p)；并利用式(12)获得第g个作者a_g的权威度Auth(g)；

步骤9，获得由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标；

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g)：

式(13)中，l(g)表示第g条原始语料的词语总数；l(d′)表示第g个作者a_g的原始语料集中任意一条语料的词语总数；

步骤9.3、判断所述第g条原始语料是否含有链接，若含有链接，则令外联度Url(g)＝μ；否则，令外联度Url(g)＝0；

步骤9.4、判断所述第g条原始语料是否含有标签，若含有标签，则令标签值Has(g)＝ρ；否则，令标签值Has(g)＝0；

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g)：

式(14)中，ret(g)表示第g条原始语料被转发的次数；ret(g')表示G条原始语料D_Que中任意一条原始语料被转发的次数；

步骤10、获得搜索结果；

步骤10.1、利用式(15)获得所述搜索用户U对第g条原始语料的第g个作者a_g的信任度ψ_U,g：

式(15)中，分别表示第g条原始语料评价指标的权重、第g个作者a_g评价指标的权重、搜索用户U与第g个作者a_g交互率的权重；0≤ψ_U,g≤1；

步骤10.2、利用式(16)获得第g条原始语料的综合评分从而获得G条原始语料的综合评分：

步骤10.3、对所述G条原始语料的综合评分进行降序排序，所获得的排序结果即为所述个性化搜索方法的搜索结果。

与已有技术相比，本发明的有益效果体现在：

1、本发明在给搜索用户呈现社交网络的搜索结果时对用户的文本进行了建模，利用用户与关注者的社交网络关系对模型进行了补充，解决了数据稀疏性的问题；同时也考虑用户与社交网络文章作者的社交网络关系，对用户与作者的关系进行建模，从用户对文本的兴趣，与作者的兴趣两方面给搜索结果进行评分，有效提升了个性化的效果。

2、本发明运用搜索用户的兴趣度及其词语集构建了混合概率，构建基于社交网络文本主题维度的搜索用户兴趣模型；所提模型提出了一种将单个用户的原始语料集作为一个文本的训练方法，有效解决了社交网络中文本短，语料稀疏等问题。

3、本发明充分利用用户与社交网络文本作者的关系特征，提出了融合社交属性的用户-作者关系学习方法，构建基于用户-作者关系维度的用户兴趣模型，有效的反映了用户对文本的兴趣以及用户对作者的兴趣，为用户提供真正的个性化的搜索结果。

附图说明

图1为本发明用户-作者关系建模的个性化搜索方法阶段示意图。

具体实施方式

本实施例中的个性化搜索方法，采集了大量的社交网络用户的原始语料集来训练基础的lda主题模型，然后采集用户信息与原始语料集，训练得到用户模型，采集用户好友信息与原始语料集拓展用户模型，并在用户提交搜索关键词返回结果后，采集文章作者的信息和原始语料集，以及该搜索结果的其他信息，从作者权威度，质量，用户和作者的关联三个方面对用户和作者进行建模，最终对搜索结果进行重排序。最后，通过真实的语料集对本发明所提的方法与其他基础算法进行比较。具体的说：

一种考虑用户-作者关系建模的个性化搜索方法，是应用于社交网络中，社交网络中包含搜索用户U以及搜索用户U所关注的对象；将搜索用户U所关注的对象记为搜索用户U的关注者集合F_U＝{f₁,f₂,…,f_j,…f_J}；f_j表示第j个关注者；则搜索用户U为第j个关注者f_j的粉丝；1≤j≤J；按如下步骤进行：

步骤1、获得主题词矩阵

步骤1.1、从社交网络上收集原始语料集D并进行分词处理，获得原始语料集D的词语集W；这里的社交网络可以是微博、微信等社交网络平台，本实施例中以微博为例。分词处理使用Ansj分词，Ansj分词是一个ictclas的java实现，基本上重写了所有的数据结构和算法。词典使用了pullword词典，并且对专有名词进行了部分的人工优化。原始语料通过爬虫抓取，可直接对stream进行采集，也可利用微博认证名人堂进行用户与微博抓取；

步骤1.2、对词语集W进行去冗余处理，获得词典C＝{c₁,c₂,…,c_i,…,c_n}；c_i表示词典C中第i个词语；n表示词语的总数；1≤i≤n；去冗余的过程中可使用哈工大停用词表对停用词进行处理；

步骤1.3、对词语集W进行LDA模型训练，获得主题词矩阵ω_p,q表示第q个词语c_q在第p个主题上出现的概率；m表示主题的总数；1≤p≤m；训练LDA可使用Mallet，Mallet为UMassAmherst提供的开源的语言机器学习工具箱，其中在LDA中建议将alpha、beta设置为0.01，主题设置可利用信息熵进行选择，迭代次数不低于2000次；为构建主题模型，本发明通过爬虫抓取了新浪微博的数据。随机选取了5138个用户，共259万条微博。通过用户名和用户粉丝和关注数的特定模式删除了“僵尸”用户，剩余用户5003个。本发明将少于10字的微博过滤掉，共剩余212万条微博。本发明基于该数据集训练LDA模型。

步骤2、获得搜索用户U的兴趣度θ_U及其词语集W_U的混合概率以及J个关注者的兴趣度Θ_F及其词语集W_U的混合概率Φ_F；

步骤2.1、从社交网络上收集搜索用户U的原始语料集以及关注者集合F_U的原始语料集并分别进行分词处理，获得搜索用户U的词语集，记为以及关注者集合F_U的词语集，记为表示搜索用户U的第l条原始语料；表示第j个关注者f_j的原始语料集；表示搜索用户U的词语集W_U中第k个词语；表示第j个关注者f_j的词语集；1≤k≤K；1≤l≤L；Liangjie Hong等人在Empirical Study of Topic ModelinginTwitter中指出将搜索用户U的原始语料集以及关注者的原始语料集作为一个整体进行处理将获得更好的效果，能有效解决短文本的问题；步骤2.2、利用主题词矩阵对搜索用户U的词语集W_U进行训练，获得搜索用户U的词语集W_U中每个词语所对应的主题，以及搜索用户U对所有主题的兴趣度，记为表示搜索用户U对第p个主题的兴趣度；

表一为通过LDA训练得到的用户微博在主题上词的分布示意表；将搜索者的词语集进行LDA训练，可有效的训练出搜索者语料的主题，以及每个词语对应的主题；如“林俊杰”、“新曲”、“MV”等明显属于“音乐”主题，“魅族”、“小米”、“忠诚度”等明显属于“科技数码”主题；

表1：本发明在步骤二训练得到的用户微博在主题上词的分布示意表

步骤2.3、统计词语集W_U中每个词语在所对应的主题上出现的概率，记为表示搜索用户U的词语集W_U中第k个词语在其对应的主题上出现的概率；如表2所示，在获得搜索用户的词语集每个词语对应的主题之后，可以获得搜索用户对所有主题的兴趣度，并可统计获得词语集中每个词语所对应的概率；词语“林俊杰”在“音乐”主题下出现4次，“小米”在“科技数码”主题下出现12次；

表2：本发明在步骤二训练得到的用户微博在主题上分布的示意表

步骤2.4、根据词语集W_U的概率在主题词矩阵中进行匹配，获得词语集W_U中每个词语在主题词矩阵中出现的概率表示搜索用户U的词语集W_U中第k个词语在主题词矩阵中出现的概率；

步骤2.5、利用式(1)所示的Jelinek-Mercer平滑方法获得词语集W_U中第k个词语的混合概率从而获得词语集W_U的混合概率

式(1)中，λ表示Jelinek-Mercer平滑方法的平滑参数；

步骤2.6、根据步骤2.2-步骤2.5，对关注者集合F_U的词语集W_F进行处理，获得J个关注者对每个主题的兴趣度，记为以及J个关注者的词语集的混合概率集表示第j个关注者f_j的所有主题的兴趣度集合；并有表示第j个关注者f_j对第p个主题的兴趣度；表示第j个关注者f_j的词语集中所有词语的混合概率；

步骤3、获得J个关注者F_U在m个主题上的交互率IN：

步骤3.1、将搜索用户U的原始语料集D_U与第j个关注者f_j的原始语料集进行交集处理，获得搜索用户U转发第j个关注者f_j的原始语料集，记为并进行分词处理，获得搜索用户U转发第j个关注者f_j的词语集，记为表示搜索用户U转发第j个关注者f_j的原始语料集中第z条原始语料；表示搜索用户U转发第j个关注者f_j的词语集中第t个词语；1≤t≤T；1≤z≤Z；

步骤3.2、统计搜索用户U转发第j个关注者f_j的词语集中第t个词语在第p个主题上出现的次数，记为从而获得T个词语在第p个主题上出现的次数，记为

步骤3.3，重复步骤3.2，从而获得搜索用户U转发第j个关注者f_j的词语集中T个词语在m个主题上出现的次数，记为

步骤3.4，重复步骤3.3，获得搜索用户U转发J个关注者F_U的词语集中的所有词语在m个主题上出现的次数，记为S＝{S₁,S₂,…,S_j,…,S_J}；

步骤4、利用式(3)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θ_U与第j个关注者f_j的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度θ_U与J个关注者的所有主题的兴趣度集合之间的相似度KL散度，又称相对熵，是描述两个概率分布P和Q差异的一种方法，这里使用KL散度可有效表征出用户U对所有主题的兴趣度θ_U与第j个关注者f_j的所有主题的兴趣度集合之间的相似度。

式(4)中，ρ_j表示社交网络中第j个关注者f_j拥有的粉丝数量，ρ_max表示社交网络中拥有最大粉丝数用户的粉丝量；

步骤6、获得搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者f_j对第p个主题的评价值

步骤6.2、利用式(6)获得第j个关注者f_j对m个主题的评价和Γ_j，从而获得J个关注者F_U对m个主题的评价和Γ_U＝{Γ₁,Γ₂,…，Γ_j,…,Γ_J}：

步骤6.3、对J个关注者的评价和Γ_U进行降序排序，并选取前X个评价和，记为Γ′_U＝{Γ′₁,Γ′₂，…,Γ′_x,…,Γ′_X}；Γ′_x表示前X个评价和中第x个评价和；1≤x≤X；可将X设置成20；

步骤6.4、利用式(7)所示的Dirichlet先验平滑方法获得搜索用户U在第p个主题下对第k个词语的评价模型从而获得搜索用户U在第p个主题下K个词语的评价模型进而获得搜索用户U在m个主题下K个词语的评价模型

式(7)中，表示第x个关注者f_x的词语集中第k个词语在主题词矩阵中出现的概率；β表示Dirichlet先验平滑方法的平滑参数；可将λ设置为0.2，β设置为80；

步骤7.1、搜索用户U在社交网络中提交搜索词组Que进行查询，返回G条原始语料和G条原始语料所对应的作者；将G条原始语料记为表示第g条原始语料；将G条原始语料所对应的作者记为集合A＝{a₁,a₂,…,a_g,…,a_G}；a_g表示第g个作者；将G个作者的所有原始语料集合记为表示第g个作者a_g的原始语料集；1≤g≤G；

本发明共选择了33位活跃用户(半年发微博数量多于200)。为了构建用户个性化兴趣模型，抽取每一用户半年内的微博，并抓取了用户的好友列表，计算用户和好友的关系，选取关系最近的前二十位好友，抓取这些好友的微博，以及好友的粉丝数等信息。为了度量微博作者的特征，抓取了返回结果的作者在半年内发布的微博、每条微博的转发次数与评论次数、作者的粉丝数、关注数、关注列表和认证信息等。实验共收集查询139个，将搜索结果不足20个的去除掉，剩余125组搜索结果；用户提交关键词之后，获得返回的2页搜索结果以及每条结果对应的评论数与转发数，并按照每条结果的作者，抓取对应的微博作者，获取微博作者的历史微博，是否为认证微博，关注数与粉丝数，历史微博的转发总数；

步骤7.2、对G个作者A的原始语料集合D_A进行分词处理，获得G个作者A的词语集，记为表示第g个作者a_g的词语集；1≤e≤E；

步骤7.3、根据步骤2.2-步骤2.5，对作者集合A的词语集W_A进行处理，获得G个作者对每个主题的兴趣度，记为表示第g个作者a_g的所有主题的兴趣度集合；并有表示第g个作者a_g对第p个主题的兴趣度；

步骤7.4、利用式(8)所示的KL散度来衡量搜索用户U对所有主题的兴趣度θ_U与第g个作者a_g的所有主题的兴趣度集合之间的相似度从而获得搜索用户U对所有主题的兴趣度θ_U与G个作者的所有主题的兴趣度集合之间的相似度

步骤7.5、利用式(9)所示的Jaccard距离计算搜索用户U与第g个作者a_g的关注交叉率Jaccard(U,g)，从而获得搜索用户U与G个作者的关注交叉率：

式(9)中，Fol(U)表示搜索用户U所关注的对象的集合；Fol(g)表示第g个作者a_g所关注的对象的集合；Jaccard距离是用来衡量两个集合差异性的一种指标，它是Jaccard相似系数的补集，被定义为1减去Jaccard相似系数；

步骤8.1、利用式(10)获得第g个作者a_g的影响力Inf(g)：

步骤8.2、利用式(11)获得第g个作者a_g的传播能力Tra(g)：

Tra(g)＝lg(1+ret(g)) (11)

步骤8.3、判断第g个作者a_g是否为认证用户，若是认证用户，则令认证度PC(g)＝τ；否则，令认证度PC(g)＝0；

步骤8.4、利用主题词矩阵对第g条原始语料的词语集W_U进行训练，获得第g条原始语料的词语集中每个词语所对应的主题，以及第g条原始语料所对应的第p个主题分布η_Que(g,p)；并利用式(12)获得第g个作者a_g的权威度Auth(g)；

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g)：

步骤9.3、判断第g条原始语料是否含有链接，若含有链接，则令外联度Url(g)＝μ；否则，令外联度Url(g)＝0；

步骤9.4、判断第g条原始语料是否含有标签，若含有标签，则令标签值Has(g)＝ρ；否则，令标签值Has(g)＝0；

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g)：

步骤10、获得搜索结果；

步骤10.1、利用式(15)获得搜索用户U对第g条原始语料的第g个作者a_g的信任度ψ_U,g：

步骤10.3、对G条原始语料的综合评分进行降序排序，所获得的排序结果即为个性化搜索方法的搜索结果。

为了验证模型的有效性，本发明对查询似然模型(B-QM)和协同个性化搜索主题-语言模型(B-CM)进行了程序实现。B-QM是语言模型的经典方法，可以对搜索关键词与微博内容的相关性进行度量。B-CM是由Jan Vosecky等人提出的个性化微博搜索方法，该方法运用主题模型与语言模型进行个性化搜索。此外，实验将专利所提方法逐块拆分为A-AMQ模型(仅考虑由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标)、A-AMQF模型(考虑由长度比值Len(g)、外联度Url(g)、标签值Has(g)和转发率Ret(g)所构成的第g条原始语料的评价指标与由影响力Inf(g)、传播能力Tra(g)、认证度PC(g)和权威度Auth(g)所构成的第g个作者a_g的评价指标)、以及A-AMQFA模型(考虑以上所有特征)。并将上述简化模型与本文所提综合模型的个性化搜索结果进行对比。排序结果使用P@N(前N个结果的正确率)和MAP(宏平均正确率)指标进行评价。

本发明方法与各基准方法在MAP指标下的表现如表3所示。从表3中可以看出本发明方法在微博语料集中较其他方法在MAP(3)、MAP(6)、MAP(9)、MAP(15)指标下均有较好的表现。说明使用本发明方法可将用户真正感兴趣的搜索结果展现在前面；

表3：本发明与各基准模型在MAP指标下的表现

模型	MAP(3)	MAP(6)	MAP(9)	MAP(12)	MAP(15)
						QM	0.091067	0.096896	0.097905	0.098472	0.099776
CM	0.105067	0.108798	0.108221	0.108689	0.108841
						AMQ	0.125067	0.126484	0.124264	0.122397	0.121052
AMQF	0.124667	0.127685	0.126504	0.125561	0.124194
						AMQFA	0.126933	0.129347	0.126268	0.124903	0.125218

本发明与各基准模型在P@N指标下的表现如表4所示。从表4中可以看到本发明方法在微博语料集中较其他方法在P@5、P@10、P@15指标下均有较好的表现。说明使用本发明方法能能用户感兴趣的结果从结果集中抽取出来；

表4：本发明与各基准模型在P@N指标下的表现

模型	P@5	P@10	P@15
				QM	0.07616	0.08928	0.0976
CM	0.08672	0.09824	0.101867
				AMQ	0.10496	0.11008	0.106773
AMQF	0.10912	0.11040	0.106667
				AMQFA	0.11072	0.11248	0.108373

表5直观的展现了本发明方法在微博实验集合中的效果，如图搜索用户@何小台RMadrid为一真实用户，其搜索“金球奖”，用户-作者关系建模的个性化搜索方法与其他方法的结果如下。在表5中可以直观的看到，被发明方法排序靠前的方法都是该用户感兴趣的足球话题，而非电影话题，并且本发明方法给出排序结果考前的作者都在该领域有一定的影响力或较为权威；

表5 @何小台RMadrid搜索“金球奖”，用户-作者关系建模的个性化搜索方法与其他方法的结果表现

如图1所示，本发明方法在实验中完成分为四个阶段进行。第一阶段进行搜索与打标，收集搜索用户的查询、对搜索用户提供的查询结果进行抽取、将抽取的的搜索用户的查询结果提供给搜索用户进行打分；第二阶段进行微博数据的抓取，需要抓取搜索者历史微博语料集、搜索者好友基本信息与好友历史微博语料集、搜索者所提供查询的搜索结果的作者基本信息与历史微博语料集，并由此得到主题词矩阵；第三阶段进行建模，训练得到搜索用户兴趣度与词语集混合矩阵、关注者兴趣度与词语混合矩阵、关注者在主题上交互率、搜索用户与专注者相似度、关注者热门度，即获得搜索用户评价模型，通过获得交互率、影响力、传播能力、认证度、权威度、长度比值、外联度、标签值、转发率训练得到搜索用户与作者训练模型；第四阶段利用第三阶段建立的模型对查询及搜索结果的排序，参照第一阶段的用户打分，查看最终的排序结果。

Claims

1.一种考虑用户-作者关系建模的个性化搜索方法，是应用于社交网络中，所述社交网络中包含搜索用户U以及所述搜索用户U所关注的对象；将所述搜索用户U所关注的对象记为所述搜索用户U的关注者集合F_U＝{f₁,f₂,…,f_j,…f_J}；f_j表示第j个关注者；则所述搜索用户U为所述第j个关注者f_j的粉丝；1≤j≤J；其特征是按如下步骤进行：

步骤1、获得主题词矩阵

式(1)中，λ表示所述Jelinek-Mercer平滑方法的平滑参数；

步骤3、获得J个关注者F_U在m个主题上的交互率IN：

{IN}_{j}^{(p)} = \frac{S_{j}^{(p)}}{Σ_{j = 1}^{J} S_{j}^{(p)}} - - - (2)

{SIM}_{j}^{U} = \frac{1}{K L (θ_{U} | | θ_{j}^{F})} - - - (3)

{POP}_{j} = \frac{l o g (ρ_{j})}{l o g (ρ_{\max})} - - - (4)

步骤6、获得所述搜索用户U在m个主题下K个词语的评价模型

步骤6.1、利用式(5)获得第j个关注者f_j对第p个主题的评价值

Γ_{p}^{(j)} = {(σ_{1}, σ_{2}, σ_{3}, σ_{4})}^{T} (\begin{matrix} θ_{p}^{(j)} \\ {IN}_{j}^{(p)} \\ {SIM}_{j}^{U} \\ {POP}_{j} \end{matrix}) - - - (5)

Γ_{j} = Σ_{p = 1}^{m} Γ_{p}^{(j)} - - - (6)

步骤7.3、根据步骤2.2-步骤2.5，对所述作者集合A的词语集W_A进行处理，获得G个作者对每个主题的兴趣度，记为表示第g个作者a_g的所有主题的兴趣度集合；并有表示第g个作者a_g对第p个主题的兴趣度；

{SIM}_{g}^{' U} = \frac{1}{K L (θ_{U} | | θ_{g}^{A})} - - - (8)

J a c c a r d (U, g) = \frac{| F o l (U) \cap F o l (g) |}{| F o l (U) \cup F o l (g) |} - - - (9)

步骤8.1、利用式(10)获得第g个作者a_g的影响力Inf(g)：

I n f (g) = \frac{i n p (g)}{i n p (g) + o u t (g)} - - - (10)

步骤8.2、利用式(11)获得第g个作者a_g的传播能力Tra(g)：

Tra(g)＝lg(1+ret(g)) (11)

A u t h (g) = Σ_{p = 1}^{m} η_{Q u e} (g, p) \times θ_{p}^{(g)} - - - (12)

步骤9.1、利用式(13)获得第g条原始语料的长度比值Len(g)：

L e n (g) = \frac{l (g)}{\underset{d^{'} &Element; D_{g}^{A}}{m a x} l (d^{'})} - - - (13)

步骤9.5、利用式(14)获得第g条原始语料的转发率Ret(g)：

Re t (g) = \frac{r e t (g)}{\underset{g^{'} &Element; D_{Q u e}}{m a x} r e t (g^{'})} - - - (14)

步骤10、获得搜索结果；

ψ_{U, g} = α_{1}^{T} (\begin{matrix} L e n (g) \\ U r l (g) \\ H a s (g) \\ Re t (g) \end{matrix}) α_{2}^{T} (\begin{matrix} I n f (g) \\ T r a (g) \\ P C (g) \\ A u t h (g) \end{matrix}) α_{3}^{T} (\begin{matrix} {SIM}_{g}^{' U} \\ J a c c a r d (U, g) \end{matrix}) - - - (15)