CN104077417A - 社交网络中的人物标签推荐方法和系统 - Google Patents
社交网络中的人物标签推荐方法和系统 Download PDFInfo
- Publication number
- CN104077417A CN104077417A CN201410342939.6A CN201410342939A CN104077417A CN 104077417 A CN104077417 A CN 104077417A CN 201410342939 A CN201410342939 A CN 201410342939A CN 104077417 A CN104077417 A CN 104077417A
- Authority
- CN
- China
- Prior art keywords
- label
- social
- bunch
- text
- social object
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
- G06F16/337—Profile generation, learning or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Abstract
本发明提供一种社交网络中的人物标签推荐方法和系统,所述方法包括:基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。所述方法还包括:对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。本发明解决了现有人物标签推荐技术中,标签推荐质量不高的问题,以及能使标签推荐的结果更具个性化并且更加多样化。
Description
技术领域
本发明属于个性化推荐技术领域,尤其涉及一种社交网络中的人物标签推荐方法和系统。
背景技术
随着网络的社会化属性越来越明显,新兴的社交网络(如国外的Facebook、Twitter、LinkedIn和国内的新浪微博、人人网等)将人们更紧密地结合在一起。在这些社交网络中,人们为了表明自己的兴趣爱好、职业特征等,常常选择一组词汇或者短语对自身进行标注,从而将自身与一组词汇或者短语建立联系,这些标注词汇或者短语通常被称为人物标签(或标签,Tag)。由于社交网络中的用户数量和数据信息日益庞大,很多用户没有为自身添加标签,而个性化的推荐系统能够迅速捕捉用户的兴趣爱好和行为特征、加快用户信息获取,因此人物标签推荐系统是社交网络中不可缺少的模块。在社交网络中,进行人物标签推荐的作用包括:(1)增加用户标注的几率,避免用户因为麻烦而不进行标注的情况产生;(2)帮助用户减少标注时间;(3)减少系统中冗余标签的产生;以及(4)能够基于人物标签进行人物搜索。
目前,社交网络中的人物标签的推荐方法主要包括:(1)基于社交关系的人物标签推荐方法和(2)基于内容的人物标签推荐方法,这两种方法均存在一些不足。其中,前者主要利用用户之间的社交关系,通过分析标签在社交网络上的传播来进行标签推荐。这种方法没有考虑推荐结果的多样性和质量问题,导致推荐结果中常常出现多个相似标签或者出现拼写错误、语义含糊等问题标签,因此不能覆盖用户的兴趣特征并且保证标签推荐的质量。后者主要依据用户所发布的内容,挖掘与发布内容相关的关键词作为人物标签推荐给用户。通过挖掘用户关键词来构造人物标签往往忽视了关键词与标签之间的词汇鸿沟问题,此外,考虑到人物标签的随意性、标签之间没有具体的层次结构以及刻画粒度不易控制等因素,人物标签的自动标注往往非常困难。
以上标签推荐方法存在的问题是:无法从用户的社交对象中获取个性化和多样化的标签,此外也没有考虑到推荐标签的质量问题。
发明内容
为解决上述问题,本发明提供一种社交网络中的人物标签推荐方法,该方法包括:
步骤1)、基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成;
步骤2)、对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。
在一个实施例中,所述方法的步骤1)包括:
步骤11)、对每个所述社交对象发布的文本内容进行文本特征抽取,根据抽取出的文本特征得到该社交对象发布的文本内容的语义空间向量表示形式;
步骤12)、基于所述社交对象发布的文本内容的语义空间向量表示形式,将所述社交对象划分为在语义空间上相似的多个类簇。
在一个实施例中,步骤11)包括:采用LDA进行文本特征抽取,其中文本特征包括关于文本主题的信息。其中,通过EM变分法训练LDA中的主题发生概率参数θ,包括:
A)、在E阶段计算P(z|x,θold);其中,x为观测到的变量,z为隐含变量;
B)、在M阶段计算θnew=argmaxQ(θ,θold);
其中,Q(θ,θold)=ΣzP(z|x,θold)lnP(x,z|θ),P(x,z|θ)是给定的联合分布;
C)、判断似然函数P(x|θ)或者主题发生概率参数是否收敛;如果不收敛,则令θold←θnew并返回步骤A)。
在一个实施例中,步骤12)包括:
在划分所述社交对象时,根据下式度量所述社交对象在语义空间上的相似度:
其中,与分别是社交对象ui与社交对象uj发布的文本内容的语义空间向量表示形式。
在一个实施例中,所述方法的步骤2)包括:
步骤21)、在每个类簇所包括的社交对象所对应的标签中,将问题标签转换为与其语义相似的预先定义的标签,得到与每个类簇对应的标签集合;其中,问题标签包括语义相似的多个标签、语义模糊的标签以及有拼写错误问题的标签;
步骤22)、在每个标签集合中,合并相同的标签,并且记录该标签在所属标签集合中出现的频率。
在一个实施例中,所述方法还包括:
步骤3)、在每个类簇所对应的标签集合中,根据标签在所属标签集合中出现的频率以及该标签在社交网络中出现的频率计算标签的第一权重,选出第一权重大于预定第一阈值的标签;其中,计算第一权重的公式如下:
representativeness(t)=TFt*IDFt
其中,TFt是标签t在所属标签集合中出现的频率,IDFt是在社交网络中标签t的用户数和社交网络全部用户数的逆频率对数。
在一个实施例中,所述方法还包括:
步骤4)、在所有类簇所对应的标签集合中,根据标签的第一权重以及被推荐用户与该标签所属标签集合所对应的类簇的相似度计算该标签的第二权重,选出第二权重大于预定第二阈值的标签推荐给被推荐用户;其中,计算第二权重的公式如下:
wt=representativeness(t)*sim(u,Cuj)
其中,representativeness(t)是标签t的第一权重,sim(u,Cuj)是被推荐用户u与标签t所属标签集合所对应的类簇Cuj之间的相似度。
在一个实施例中,根据下式计算被推荐用户与类簇之间的相似度:
其中,sim(u,Cuj)是被推荐用户u与类簇Cuj之间的相似度,sim(u,u')是被推荐用户u与类簇Cuj中的社交对象u'的相似度。
根据本发明的一个实施例,还提供一种社交网络中的人物标签推荐系统,包括:
社交对象划分设备,用于基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成;以及
标签冗余处理设备,用于对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。
在一个实施例中,所述社交对象划分设备包括:
向量空间抽取装置,用于对每个所述社交对象发布的文本内容进行文本特征抽取,根据抽取出的文本特征得到该社交对象发布的文本内容的语义空间向量表示形式;以及
社交对象聚类装置,用于基于所述社交对象发布的文本内容的语义空间向量表示形式,将所述社交对象划分为在语义空间上相似的多个类簇。
在一个实施例中,所述系统还包括:
标签选择设备,用于在每个类簇所对应的标签集合中,根据标签在所属标签集合中出现的频率以及该标签在社交网络中出现的频率计算标签的第一权重,选出第一权重大于预定第一阈值的标签。
在一个实施例中,所述标签选择设备还用于:在所有类簇所对应的标签集合中,根据标签的第一权重以及被推荐用户与该标签所属标签集合所对应的类簇的相似度计算该标签的第二权重,选出第二权重大于预定第二阈值的标签推荐给被推荐用户。
采用本发明可以达到如下的有益效果:
根据用户的社交特征来获得能够反映用户的不同兴趣特征的标签集合,并且对不同兴趣特征下的标签进行冗余处理,把具有语义相似、语义模糊、拼写错误等问题的标签规范化为语义相近的高质量标签,解决了标签推荐结果质量不高的问题。通过对规范化的反映不同兴趣特征的标签集合进行排序,获取能够准确反映兴趣特征的若干标签加入标签候选队列,减少了兴趣特征较弱的标签在推荐过程中引入的噪音。此外,对标签候选队列进行融合排序,得到能够反映出用户的多个兴趣特征的推荐标签,使得标签推荐的结果更具个性化并且更加多样化。
附图说明
图1是根据本发明一个实施例的社交网络中的人物标签推荐方法的流程图;
图2是根据本发明一个实施例的社交网络中的人物标签推荐系统的框图。
具体实施方式
下面结合附图和具体实施方式对本发明加以说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
根据本发明的一个实施例,提供一种社交网络中的人物标签推荐方法。概括而言,该方法包括:对被推荐用户的社交对象(即与该用户存在社交关系的其他社交网络用户)进行划分,获取该用户在不同兴趣上的社交对象类簇,并且得到在不同兴趣上的社交对象的标签类簇;接着,对每个标签类簇进行冗余处理,并且从处理后的标签中选取代表标签加入相应的标签候选队列;继而对所有标签候选队列进行融合排序,最终获得推荐标签。
图1基于微博系统示出了本发明提供的社交网络中的人物标签推荐方法的流程,现具体描述该方法的各个步骤:
第一步:获取被推荐用户的社交对象及其发布的文本内容,构建被推荐用户的社交对象集合。
本领域技术人员应理解,这里的社交对象是指与被推荐用户存在社交关系的其他社交网络用户,这些用户具有正常的社交关系、发布内容等社交特征(即排除诸如水军、机器粉、僵尸账号等低质量的用户);社交对象发布的文本内容是由该社交对象所发布的多篇短文本消息组成的。
在一个实施例中,要排除诸如水军、机器粉、僵尸账号等低质量的社交对象,在本步骤中,可以先根据用户所有社交对象的特征来筛选出满足一定规则的社交对象,再由筛选出的社交对象构成社交对象集合Fr,包括以下子步骤:
1、通过对社交对象的特征参数进行综合评判来执行社交对象的筛选,找出满足一定规则的社交对象(例如,找出较活跃的用户)。
在一个实施例中,可以采用候选分类器通过人工方式确定的或者监督学习得到的分类规则来获得满足一定条件的社交对象。其中,监督学习的方式包括:对一批社交对象的特征参数进行类型标注:分为应输出对象的状态和不应输出对象的状态,并采用现有的各种分类器训练方法,利用类型标注结果和特征值进行分类器的训练。在一个实施例中,社交对象的特征可包括粉丝数量、关注数量、发布内容数量、是否有标签等。
2、对于满足一定条件的社交对象Obji,将由该社交对象的用户idi、标签列表和发布的文本内容msgi所构成的三元组<idi,msgi>加入社交对象集合Fr,最终得到由N个满足一定条件的社交对象构成的社交对象集合 其中N不为空。
在进一步的实施例中,为了能更准确地获取社交对象的语义空间信息(将在下一步进行描述),还可以根据社交网络中的文本特征对每个社交对象发布的短文本消息进行筛选,选出具有实质内容的短文本消息来构成该社交对象所发布的文本内容。
第二步:获取被推荐用户在不同兴趣上的社交对象类簇。
简要而言,本步骤包括:对社交对象集合Fr中的每个社交对象Obji所发布的文本内容msgi进行文本分析,获取msgi的语义空间向量表示形式使用聚类方法根据社交对象在语义空间上的相似度对社交对象集合Fr进行划分,从而得到K个由相似语义空间的社交对象构成的不同类簇集合 其中, 且Lj>0,Cuj中的社交对象之间具有相似的语义空间,而Cuj中的社交对象与Cuj'(j≠j')中的社交对象之间的语义空间差距较大。聚类后,Cuj包括多个社交对象的标签列表i∈[1,Lj]。
下面用两个子步骤来描述本步骤的内容:
1、对社交对象集合Fr中的每个社交对象Obji所发布的文本内容msgi进行文本分析,获取msgi的语义空间向量表示形式其中,对msgi进行文本分析并获取语义空间向量表示形式可以包括分词、去除停用词和文本特征抽取等过程;而文本特征可以由词语、短语、文本主题等信息来表示。
在一个实施例中,在进行文本特征提取时,可根据隐含狄利克雷分配(LDA)获取文本内容msgi的潜在文本主题来构建msgi的语义空间向量表示形式包括以下子步骤:
1)、选择msgi长度M(即分词后得到的单词数目),其中M服从泊松分布。
2)、选择参数θ,其中θ服从Dir(α)分布,且θ为矢量,表示主题发生概率,α为Dirichlet分布的参数。
3)、对M个单词依次进行如下操作(即对于msgi,LDA定义如下生成过程):
①、选择主题zn,其中zn服从多项式分布。
②、根据主题zn,选择单词wn,服从多项式分布P(wn|zn,β),其中,β是一个矩阵,其保存了某个主题条件下生成某个单词的概率。
③、重复前两步,完成msgi中所有单词的抽取。从而得到潜在主题向量(即msgi的语义空间向量表示形式)。
要估计上述超参数α和β,在一个实施例中,可以使用EM-变分法进行超参数α和β的训练,其每轮迭代分为两个阶段:E阶段和M阶段。给定联合分布P(x,z|θ),其中x为观测到的变量、z为隐含变量,且θ为参数,则求解似然函数P(x|θ)的极大值过程如下:
1)、E阶段:计算P(z|x,θold);
2)、M阶段:θnew=argmaxQ(θ,θold)。
其中,Q(θ,θold)=ΣzP(z|x,θold)lnP(x,z|θ)。每轮迭代后判断似然函数或者参数值是否收敛,如果不收敛,则令θold←θnew并继续迭代,否则停止迭代。
需要说明的是,在另一个实施例中,可以使用吉布斯采样(GibbsSampling)的方法学习LDA模型。其中利用Dirichlet分布和多项分布之间的对偶性,只对隐含变量z进行采样,得到两个参数分布:“文档-主题”分布和“主题-词语”分布。
应理解,尽管上文以LDA为例描述了文本特征提取过程,但这里也可以采用其他传统的文本特征抽取方法来获取社交对象的语义空间。
2、使用聚类方法根据社交对象在语义空间上的相似度对社交对象集合Fr进行划分,得到由相似语义空间的社交对象构成的不同类簇集合,其中,不同类簇集合可对应于不同的兴趣爱好。
本领域技术人员应理解,本发明可采用能够有效划分社交对象集合的任何聚类方法,且不局限于传统的文本聚类方法,例如,可采用扁平聚类、层次聚类等。其中,聚类结果的数量可以由用户事先指定,也可以当类簇中的对象不再变化或者误差达到一定阈值时返回。在一个实施例中,被推荐用户的社交对象ui与社交对象uj之间的相似度sim(ui,uj)可以使用如下的余弦相似度来度量:
在一个实施例中,在聚类结束后,还可以淘汰用户数量较少的类簇。
在本步骤中,通过对被推荐用户的社交对象按照其发布文本内容的语义空间进行聚类分析,可以获取被推荐用户在不同兴趣爱好上的分布,即能够获取被推荐用户多方面的社交特征,在此基础上可以获得多样性的标签推荐结果。
第三步:对社交对象类簇中的人物标签进行标签冗余处理。
上一步得到的社交对象类簇(例如Cuj)中包含了在语义空间上相似的社交对象,获取其中每个社交对象的标签列表,则可以得到由语义空间上相似的社交对象的标签构成的标签类簇Taj(相对于Cuj)。由于Taj中可能含有不同的社交对象的标签,因此可能会出现大量语义相似、语义模糊,或出现拼写错误等问题的标签。
在本步骤中,要在每个标签类簇中对标签进行冗余处理,可以首先将语义相似、语义模糊、具有拼写错误等问题的标签转换为与其语义相近的高质量标签;接着合并相同的标签并记录该标签出现的频率,从而得到相应的多个标签类簇其中,高质量标签的获取是通过对社交网络中的所有人物标签进行统计分析得到的,高质量标签可以由标签使用频率、标签规范性等特征来衡量(即可将满足一定规则的标签定义为高质量标签)。
在一个实施例中,可先将语义相似的标签聚类到一起,以下列举了标签之间的相似度计算方法:
1、利用外部知识库进行标签语义扩充以计算标签间相似度。
2、以标签作为查询词获取相关的网页摘要信息进行语义扩充以进行标签相似度计算。
3、获取标签在网页共现信息(出现在同一个网页中),基于统计信息进行标签相似度计算。
此外,标签的聚类方法可以采用扁平聚类、层次聚类、基于图划分的聚类等方法。
在本步骤中,通过把上一步得到的标签规范化为高质量标签,提高了标签推荐的质量,并且减少了系统中冗余标签的产生。
第四步:构建标签候选队列。
构建的过程包括:对所有标签类簇中的每个标签类簇Taj'中的标签进行排序,将具有代表性的若干个标签加入相应的标签候选队列。
根据上一步,能够得到与不同社交对象类簇Cuj对应的标签类簇其中,tfi是标签ti在社交对象类簇Cuj中出现的频率。在一个实施例中,选取具有代表性的标签包括:从标签类簇Taj'中选取能够反映对应的社交对象类簇Cuj兴趣特征的若干个标签进入其标签候选队列Qj(即与Taj'、Cuj对应的标签候选队列),从而能够得到K个不同的标签候选队列Qj(对应于K个社交对象类簇)。
在进一步的实施例中,在选取能够反映社交对象类簇Cuj兴趣特征的标签时,可以综合标签在所属的标签类簇中出现的频率,以及该标签在整个微博平台上出现的频率等信息来对标签进行排序。例如,可根据经典的TF-IDF计算每个标签类簇中的标签的权重,进而根据权重来选取具有代表性的标签。具体来说,对于标签类簇Taj'中的某个标签,如果其在Taj'中出现的次数较多,且该标签在整个标签系统中出现的次数(即该标签在整个微博平台上出现的频率)较少,则可认为该标签能够反映Cuj的兴趣特征。其中,计算标签权重的公式如下:
representativeness(t)=TFt*IDFt (2)
其中,TFt是标签在所属标签类簇中出现的频率,IDFt是在整个标签系统(即微博平台)中标记为标签t的用户数和全部用户数的逆频率对数。
第五步:对所有标签候选队列进行融合排序。
在本步骤中,融合上述K个标签候选队列中的标签,得到最终的推荐标签排序。
在一个实施例中,由于标签候选队列Qj是根据被推荐用户的社交对象Cuj得到的,因此被推荐用户与Cuj之间的相似程度也反映了用户与标签候选队列Qj之间的亲密度。因此,可以基于被推荐用户与标签候选队列之间的亲密程度从不同标签候选队列中获取若干标签来进行排序,得到最终的标签推荐结果。在进一步的实施例中,被推荐用户与社交对象Cuj之间的相似程度可以由该用户与Cuj中的Lj个社交对象的相似度进行度量。例如,用户u与Cuj中社交对象u'的相似度可以通过以下方法进行计算:
1、根据共同的粉丝数、共同的关注数或者共同的粉丝数和关注数来度量,其计算公式如下:
其中,该方法采用Jaccard系数比较相似性和分散性的一个概率。Co(u,u')代表用户u和u'的相同粉丝数或者相同关注数,Co(u)代表用户u的粉丝数或者关注数,Co(u')代表用户u'的粉丝数或者关注数。
2、用户发布内容之间的相似度,即参考公式(1)中给出的用户间相似度计算公式。
3、综合上述两种计算方式度量。
在得到被推荐用户u与Cuj中的Lj个社交对象的相似度后,在一个实施例中,用户u与Cuj之间的相似程度计算公式如下:
接着,根据用户与标签候选队列之间的亲密度对标签进行排序。在进一步的实施例中,融合排序过程还可以采用其它能够有效地融合标签候选队列的标签得到多样化推荐结果的方法。
在一个实施例中,对于被推荐用户u的每个标签候选队列中的标签t,可根据标签的最终权重来对标签进行排序,该最终权重wt可以表示为标签代表性(即上一步中得到的标签权重)representativeness(t)和用户u与Cuj之间的相似程度的乘积,计算公式如下:
wt=representativeness(t)*sim(u,Cuj) (5)
一个标签候选队列中的标签是用户某一类兴趣爱好的体现,而上文的标签候选队列融合排序方法揭露了用户不同的兴趣爱好。标签候选队列的构建方法和不同标签候选队列的融合排序方法实现了标签推荐结果的个性化与多样性。
为实现本发明的目的还提供了一种社交网络中的人物标签推荐系统,如图2所示,包括社交对象筛选设备、社交对象划分设备、标签冗余处理设备和标签选择设备。
社交对象筛选设备用于在被推荐用户的所有社交对象中选出满足预定规则的社交对象。
社交对象划分设备用于基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成。社交对象划分设备包括向量空间抽取装置和社交对象聚类装置。其中,向量空间抽取装置用于对每个社交对象发布的文本内容进行文本特征抽取,根据抽取出的文本特征得到该社交对象发布的文本内容的语义空间向量表示形式。社交对象聚类装置用于基于社交对象发布的文本内容的语义空间向量表示形式,将社交对象划分为在语义空间上相似的多个类簇。
标签冗余处理设备用于对每个社交对象类簇中的社交对象的标签进行冗余处理。
标签选择设备用于在每个社交对象类簇所包括的标签中,根据标签在所属社交对象类簇中出现的频率以及该标签在社交网络中出现的频率计算标签的第一权重,选出第一权重大于预定第一阈值的标签。在进一步的实施例中标签选择设备还用于在所有社交对象类簇所包括的标签中,根据标签的第一权重以及被推荐用户与该标签所属社交对象类簇的相似度计算该标签的第二权重,选出第二权重大于预定第二阈值的标签推荐给被推荐用户。
应该注意到并理解,在不脱离后附的权利要求所要求的本发明的精神和范围的情况下,能够对上述详细描述的本发明做出各种修改和改进。因此,要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。
Claims (17)
1.一种社交网络中的人物标签推荐方法,包括:
步骤1)、基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成;
步骤2)、对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。
2.根据权利要求1所述的方法,其中,步骤1)包括:
步骤11)、对每个所述社交对象发布的文本内容进行文本特征抽取,根据抽取出的文本特征得到该社交对象发布的文本内容的语义空间向量表示形式;
步骤12)、基于所述社交对象发布的文本内容的语义空间向量表示形式,将所述社交对象划分为在语义空间上相似的多个类簇。
3.根据权利要求2所述方法,其中,步骤11)包括:
采用LDA进行文本特征抽取,其中文本特征包括关于文本主题的信息。
4.根据权利要求3所述的方法,其中,通过EM变分法训练LDA中的主题发生概率参数θ,包括:
A)、在E阶段计算P(z|x,θold);其中,x为观测到的变量,z为隐含变量;
B)、在M阶段计算θnew=argmaxQ(θ,θold);
其中,Q(θ,θold)=ΣzP(z|x,θold)lnP(x,z|θ),P(x,z|θ)是给定的联合分布;
C)、判断似然函数P(x|θ)或者主题发生概率参数是否收敛;如果不收敛,则令θold←θnew并返回步骤A)。
5.根据权利要求3所述的方法,其中,通过吉布斯采样的方法训练LDA中的参数。
6.根据权利要求2-5中任何一个所述的方法,其中,步骤12)包括:
在划分所述社交对象时,根据下式度量所述社交对象在语义空间上的相似度:
其中,与分别是社交对象ui与社交对象uj发布的文本内容的语义空间向量表示形式。
7.根据权利要求1-5中任何一个所述的方法,其中,步骤2)包括:
步骤21)、在每个类簇所包括的社交对象所对应的标签中,将问题标签转换为与其语义相似的预先定义的标签,得到与每个类簇对应的标签集合;其中,问题标签包括语义相似的多个标签、语义模糊的标签以及有拼写错误问题的标签;
步骤22)、在每个标签集合中,合并相同的标签,并且记录该标签在所属标签集合中出现的频率。
8.根据权利要求7所述方法,其中,通过以下步骤得到所述预先定义的标签:
根据标签在社交网络中的使用频率以及标签规范性选取满足预定规则的标签作为预先定义的标签。
9.根据权利要求1-5中任何一个所述的方法,还包括:
步骤3)、在每个类簇所对应的标签集合中,根据标签在所属标签集合中出现的频率以及该标签在社交网络中出现的频率计算标签的第一权重,选出第一权重大于预定第一阈值的标签;其中,计算第一权重的公式如下:
representativeness(t)=TFt*IDFt
其中,TFt是标签t在所属标签集合中出现的频率,IDFt是在社交网络中标签t的用户数和社交网络全部用户数的逆频率对数。
10.根据权利要求9所述的方法,还包括:
步骤4)、在所有类簇所对应的标签集合中,根据标签的第一权重以及被推荐用户与该标签所属标签集合所对应的类簇的相似度计算该标签的第二权重,选出第二权重大于预定第二阈值的标签推荐给被推荐用户;其中,计算第二权重的公式如下:
wt=representativeness(t)*sim(u,Cuj)
其中,representativeness(t)是标签t的第一权重,sim(u,Cuj)是被推荐用户u与标签t所属标签集合所对应的类簇Cuj之间的相似度。
11.根据权利要求10所述的方法,其中,根据下式计算被推荐用户与类簇之间的相似度:
其中,sim(u,Cuj)是被推荐用户u与类簇Cuj之间的相似度,sim(u,u')是被推荐用户u与类簇Cuj中的社交对象u'的相似度。
12.根据权利要求1所述的方法,其中,步骤1)之前还包括:
在被推荐用户的所有社交对象中选出满足预定规则的社交对象。
13.一种社交网络中的人物标签推荐系统,包括:
社交对象划分设备,用于基于被推荐用户的社交对象发布的文本内容,将社交对象划分为在语义空间上相似的多个类簇;其中,每个社交对象发布的文本内容由该社交对象发布的多个短文本消息组成;以及
标签冗余处理设备,用于对于所述多个类簇中的每个类簇,将该类簇中的社交对象所对应的标签进行冗余处理,得到与该类簇对应的标签集合以提供给被推荐用户。
14.根据权利要求13所述的系统,所述社交对象划分设备包括:
向量空间抽取装置,用于对每个所述社交对象发布的文本内容进行文本特征抽取,根据抽取出的文本特征得到该社交对象发布的文本内容的语义空间向量表示形式;以及
社交对象聚类装置,用于基于所述社交对象发布的文本内容的语义空间向量表示形式,将所述社交对象划分为在语义空间上相似的多个类簇。
15.根据权利要求13或14所述的系统,还包括:
标签选择设备,用于在每个类簇所对应的标签集合中,根据标签在所属标签集合中出现的频率以及该标签在社交网络中出现的频率计算标签的第一权重,选出第一权重大于预定第一阈值的标签。
16.根据权利要求15所述的系统,其中,所述标签选择设备还用于:
在所有类簇所对应的标签集合中,根据标签的第一权重以及被推荐用户与该标签所属标签集合所对应的类簇的相似度计算该标签的第二权重,选出第二权重大于预定第二阈值的标签推荐给被推荐用户。
17.根据权利要求13或14所述的系统,还包括:
社交对象筛选设备,用于在被推荐用户的所有社交对象中选出满足预定规则的社交对象。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410342939.6A CN104077417B (zh) | 2014-07-18 | 2014-07-18 | 社交网络中的人物标签推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410342939.6A CN104077417B (zh) | 2014-07-18 | 2014-07-18 | 社交网络中的人物标签推荐方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104077417A true CN104077417A (zh) | 2014-10-01 |
CN104077417B CN104077417B (zh) | 2018-05-22 |
Family
ID=51598671
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410342939.6A Active CN104077417B (zh) | 2014-07-18 | 2014-07-18 | 社交网络中的人物标签推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104077417B (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391976A (zh) * | 2014-12-08 | 2015-03-04 | 畅捷通信息技术股份有限公司 | 社交对象的推荐方法和装置 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
WO2016206099A1 (en) * | 2015-06-26 | 2016-12-29 | Hewlett-Packard Development Company, L.P. | Latent topic determination |
CN106452809A (zh) * | 2015-08-04 | 2017-02-22 | 北京奇虎科技有限公司 | 一种数据处理方法和装置 |
CN107122378A (zh) * | 2017-01-13 | 2017-09-01 | 北京小度信息科技有限公司 | 对象处理方法及装置 |
CN108427769A (zh) * | 2018-03-29 | 2018-08-21 | 苏州大学 | 一种基于社交网络的人物兴趣标签提取方法 |
CN109523012A (zh) * | 2018-10-11 | 2019-03-26 | 上海交通大学 | 基于变分解耦合方式对符号有向网络的表达学习方法 |
WO2019153552A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 自动打标签的方法、装置、计算机设备及存储介质 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
CN110929166A (zh) * | 2019-12-27 | 2020-03-27 | 咪咕文化科技有限公司 | 一种内容推荐的方法、电子设备和存储介质 |
CN111552799A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN111723301A (zh) * | 2020-06-01 | 2020-09-29 | 山西大学 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077574A1 (en) * | 2006-09-22 | 2008-03-27 | John Nicholas Gross | Topic Based Recommender System & Methods |
US20090287687A1 (en) * | 2008-04-14 | 2009-11-19 | Gianni Martire | System and method for recommending venues and events of interest to a user |
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
CN103164463A (zh) * | 2011-12-16 | 2013-06-19 | 国际商业机器公司 | 推荐标签的方法和装置 |
CN103810192A (zh) * | 2012-11-09 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种用户的兴趣推荐方法和装置 |
-
2014
- 2014-07-18 CN CN201410342939.6A patent/CN104077417B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080077574A1 (en) * | 2006-09-22 | 2008-03-27 | John Nicholas Gross | Topic Based Recommender System & Methods |
US20090287687A1 (en) * | 2008-04-14 | 2009-11-19 | Gianni Martire | System and method for recommending venues and events of interest to a user |
CN101587493A (zh) * | 2009-06-29 | 2009-11-25 | 中国科学技术大学 | 文本分类方法 |
CN101751448A (zh) * | 2009-07-22 | 2010-06-23 | 中国科学院自动化研究所 | 一种基于情景信息的个性化资源信息的推荐方法 |
CN103164463A (zh) * | 2011-12-16 | 2013-06-19 | 国际商业机器公司 | 推荐标签的方法和装置 |
CN102594905A (zh) * | 2012-03-07 | 2012-07-18 | 南京邮电大学 | 一种基于场景的社交网络位置兴趣点推荐方法 |
CN103810192A (zh) * | 2012-11-09 | 2014-05-21 | 腾讯科技(深圳)有限公司 | 一种用户的兴趣推荐方法和装置 |
Non-Patent Citations (4)
Title |
---|
《ADAPTIVITY,PERSONALIZATION AND FUSION OF HETEROGENEOUS INFORMATION》 * |
《智能计算机与应用》 * |
孙大飞等: "基于EM算法的极大似然参数估计探讨", 《河南大学学报(自然科学版)》 * |
钟青燕等: "基于层次聚类和语义的标签推荐研究", 《微计算机信息(管控一体化)》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104391976A (zh) * | 2014-12-08 | 2015-03-04 | 畅捷通信息技术股份有限公司 | 社交对象的推荐方法和装置 |
WO2016206099A1 (en) * | 2015-06-26 | 2016-12-29 | Hewlett-Packard Development Company, L.P. | Latent topic determination |
CN106452809A (zh) * | 2015-08-04 | 2017-02-22 | 北京奇虎科技有限公司 | 一种数据处理方法和装置 |
CN105893484A (zh) * | 2016-03-29 | 2016-08-24 | 西安交通大学 | 一种基于文本特征和行为特征的微博Spammer识别方法 |
CN107122378A (zh) * | 2017-01-13 | 2017-09-01 | 北京小度信息科技有限公司 | 对象处理方法及装置 |
WO2019153552A1 (zh) * | 2018-02-12 | 2019-08-15 | 平安科技(深圳)有限公司 | 自动打标签的方法、装置、计算机设备及存储介质 |
CN108427769A (zh) * | 2018-03-29 | 2018-08-21 | 苏州大学 | 一种基于社交网络的人物兴趣标签提取方法 |
CN108427769B (zh) * | 2018-03-29 | 2021-10-08 | 苏州大学 | 一种基于社交网络的人物兴趣标签提取方法 |
CN109523012B (zh) * | 2018-10-11 | 2021-06-04 | 上海交通大学 | 基于变分解耦合方式对符号有向网络的表达学习方法 |
CN109523012A (zh) * | 2018-10-11 | 2019-03-26 | 上海交通大学 | 基于变分解耦合方式对符号有向网络的表达学习方法 |
CN110457711A (zh) * | 2019-08-20 | 2019-11-15 | 电子科技大学 | 一种基于主题词的社交媒体事件主题识别方法 |
CN110929166A (zh) * | 2019-12-27 | 2020-03-27 | 咪咕文化科技有限公司 | 一种内容推荐的方法、电子设备和存储介质 |
CN110929166B (zh) * | 2019-12-27 | 2023-10-20 | 咪咕文化科技有限公司 | 一种内容推荐的方法、电子设备和存储介质 |
CN111552799A (zh) * | 2020-04-30 | 2020-08-18 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN111552799B (zh) * | 2020-04-30 | 2021-07-09 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、电子设备及存储介质 |
CN111723301A (zh) * | 2020-06-01 | 2020-09-29 | 山西大学 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
CN111723301B (zh) * | 2020-06-01 | 2022-05-27 | 山西大学 | 基于层次化主题偏好语义矩阵的关注关系识别及标注方法 |
Also Published As
Publication number | Publication date |
---|---|
CN104077417B (zh) | 2018-05-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Saad et al. | Twitter sentiment analysis based on ordinal regression | |
CN104077417A (zh) | 社交网络中的人物标签推荐方法和系统 | |
CN109299994B (zh) | 推荐方法、装置、设备及可读存储介质 | |
CN105069102B (zh) | 信息推送方法和装置 | |
CN108073568A (zh) | 关键词提取方法和装置 | |
CN107357793B (zh) | 信息推荐方法和装置 | |
CN102890698B (zh) | 微博话题标签自动化描述方法 | |
CN104572797A (zh) | 基于主题模型的个性化服务推荐系统和方法 | |
CN104933622A (zh) | 一种基于用户和微博主题的微博流行度预测方法及系统 | |
CN102193936A (zh) | 一种数据分类的方法及装置 | |
CN112434151A (zh) | 一种专利推荐方法、装置、计算机设备及存储介质 | |
CN105426514A (zh) | 个性化的移动应用app推荐方法 | |
CN103049435A (zh) | 文本细粒度情感分析方法及装置 | |
CN103198057A (zh) | 一种自动给文档添加标签的方法和装置 | |
CN103838756A (zh) | 一种确定推送信息的方法及装置 | |
US10002187B2 (en) | Method and system for performing topic creation for social data | |
CN108845986A (zh) | 一种情感分析方法、设备及系统、计算机可读存储介质 | |
CN104484380A (zh) | 个性化搜索方法及装置 | |
US11269928B2 (en) | Identification and analysis of cohesive and topic-focused groups of user accounts from user-generated content on electronic communication platforms | |
CN104572915A (zh) | 一种基于内容环境增强的用户事件相关度计算方法 | |
CN104077288B (zh) | 网页内容推荐方法和网页内容推荐设备 | |
CN103761246A (zh) | 一种基于链接网络的用户领域识别方法及其装置 | |
CN111930944B (zh) | 文件标签分类方法及装置 | |
CN103823847A (zh) | 一种关键词的扩充方法及装置 | |
CN103312584A (zh) | 一种在网络社区中发布信息的方法与设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |