CN105809559A - 一种在社交网络中挖掘能力用户的方法和装置 - Google Patents
一种在社交网络中挖掘能力用户的方法和装置 Download PDFInfo
- Publication number
- CN105809559A CN105809559A CN201610147532.7A CN201610147532A CN105809559A CN 105809559 A CN105809559 A CN 105809559A CN 201610147532 A CN201610147532 A CN 201610147532A CN 105809559 A CN105809559 A CN 105809559A
- Authority
- CN
- China
- Prior art keywords
- user
- ability
- tag
- domain classification
- list
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000005065 mining Methods 0.000 title claims abstract description 24
- 238000004364 calculation method Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims description 10
- 230000001143 conditioned effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 7
- 238000002372 labelling Methods 0.000 claims description 6
- 238000001035 drying Methods 0.000 claims description 4
- 238000004422 calculation algorithm Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000009286 beneficial effect Effects 0.000 abstract description 3
- 230000006978 adaptation Effects 0.000 abstract 1
- 230000005611 electricity Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000005516 engineering process Methods 0.000 description 5
- 238000013461 design Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- Marketing (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例提供一种在社交网络中挖掘能力用户的方法和装置,所述方法包括:根据社交网络的领域分类,确定初始的能力标签集合;获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。上述技术方案具有如下有益效果:通过标签分类来发现领域专家,而避免了博文分析,且领域适应性强,应用广,具有算法简单,运行速度快等特点。
Description
技术领域
本发明涉及互联网技术领域,尤其涉及一种在社交网络中挖掘能力用户的方法和装置。
背景技术
在社交网络中挖掘能力用户,一种传统的方法是对用户所发的博文进行领域分类,确定该用户经常发布博文的类别,如果用户经常发布相关领域的博文,则认为用户具有该方面的能力。该方法采用的是一种语言模型,它严重依赖于用户的博文内容,而微博内容是一类UGC(UserGeneratedContent,用户原创内容)的多媒体数据,形式杂,歧义多,因此内容分析难度很大。
链接分析是一种比较流行的对网络节点排序的算法。例如通过PageRank(网页排名,又称网页级别)算法或HITS(Hypertext-InducedTopicSearch,超链主题诱导搜索)算法等,利用节点之间的链接结构即可确定节点的重要性。在社交网络下,将用户看作一个节点,用户间的关注关系(或粉丝关系)看作边,即可形成一个有向网络,使用pagerank可找到各用户基于关注关系的权威度排序。使用HITS算法则需要先准备好领域类的小部分能力用户作为种子集,然后再进行迭代计算找出领域里的能力用户。但是,单纯的pagerank链接分析方法在社交网络全网上进行用户节点排序,忽略了用户的领域相关性。而HITS算法虽然与领域密切相关,但是用户社交关系链接不完全等同于网页的超级链接关系。社交网络中,大号等权威用户多是倾向于宣传自己的观点言论等,领域内的能力用户不一定也大量关注该领域内的其他能力用户,所以基于社交网络中的能力在用户挖掘不能直接套用HITS算法。
发明内容
本发明实施例提供一种在社交网络中挖掘能力用户的方法和装置,以在社交网络环境中利用标签扩展技术识别能力用户。
一方面,本发明实施例提供了一种在社交网络中挖掘能力用户的方法,所述方法包括:
根据社交网络的领域分类,确定初始的能力标签集合;
获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
另一方面,本发明实施例提供了一种在社交网络中挖掘能力用户的装置,所述装置包括:
初始确定单元,用于根据社交网络的领域分类,确定初始的能力标签集合;
标签扩充单元,用于获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
能力计算单元,用于根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
能力挖掘单元,用于如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
上述技术方案具有如下有益效果:通过标签分类来发现领域专家,而避免了博文分析,且领域适应性强,应用广,具有算法简单,运行速度快等特点。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一种在社交网络中挖掘能力用户的方法流程图;
图2为本发明实施例一种在社交网络中挖掘能力用户的装置结构示意图;
图3为本发明实施例标签扩充单元结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,为本发明实施例一种在社交网络中挖掘能力用户的方法流程图,所述方法包括:
101、根据社交网络的领域分类,确定初始的能力标签集合;
102、获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
103、根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
104、如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
优选地,所述获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合,包括:获取用户的标签列表,并对用户的标签列表中的用户标签进行去噪处理;利用去燥处理后的用户标签建立用户标签的特征集合,根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果;利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合。
优选地,所述对所述用户的标签列表中的用户标签进行去噪处理后,所述方法还包括:对用户标签按照打标签人数进行降序排列,过滤掉后10%的用户标签。
优选地,所述根据所述特征集合,对用户标签列表中的所有用户标签同初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果,包括:根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签,利用杰卡德Jaccard距离进行标签相似度计算,获取计算结果;所述利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合,包括:针对每一个领域分类对应的能力标签,利用所述计算结果,筛选出标签相似度大于第一特定阈值的用户标签作为该领域分类下的相关词,获得扩充后的能力标签集合。
优选地,所述如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户,包括:根据所述用户在每个领域分类下的能力得分,选择得分最高,且超过第二特定阈值的领域,判定所述用户为所述领域分类下的能力用户。
如图2所示,为本发明实施例一种在社交网络中挖掘能力用户的装置结构示意图,所述装置包括:
初始确定单元21,用于根据社交网络的领域分类,确定初始的能力标签集合;
标签扩充单元22,用于获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
能力计算单元23,用于根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
能力挖掘单元24,用于如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
优选地,如图3所示,为本发明实施例标签扩充单元结构示意图,所述标签扩充单元22,具体包括:去噪模块221,用于获取用户的标签列表,并对用户的标签列表中的用户标签进行去噪处理;计算模块222,用于利用去燥处理后的用户标签建立用户标签的特征集合,根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果;筛选模块223,用于利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合。
优选地,所述标签扩充单元22对对所述用户的标签列表中的用户标签进行去噪处理后,还对用户标签按照打标签人数进行降序排列,过滤掉后10%的用户标签。
优选地,所述计算模块222,具体用于根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签,利用杰卡德Jaccard距离进行标签相似度计算,获取计算结果;所述筛选模块223,具体针对每一个领域分类对应的能力标签,利用所述计算结果,筛选出标签相似度大于第一特定阈值的用户标签作为该领域分类下的相关词,获得扩充后的能力标签集合。
优选地,所述能力挖掘单元24,具体用于根据所述用户在每个领域分类下的能力得分,选择得分最高,且超过第二特定阈值的领域,判定所述用户为所述领域分类下的能力用户。
以下结合应用实例对本发明实施例上述技术方案进行详细说明:
在社交网络中,挖掘出有某些领域的能力用户是相当重要的,比如:可以支撑找人功能,满足用户寻找特定领域能力的专家用户;发现用户对某些领域的能力用户感兴趣时,可以向其推荐该领域下的其他能力用户。
本发明应用实例旨在社交网络环境中利用标签扩展技术识别能力用户。即通过扩展能力标签,再对用户进行标签自动分类,来找到特定领域的专家。目前未看到文献提到能够实现上述功能的算法和专利。
本发明应用实例提出的基于扩展标签分类方案如下:
本发明应用实例是扩展的能力标签,利用自动分类的方法计算出能力用户,其技术流程如下的四个步骤:
步骤一:确定初始的能力标签集合。
该步骤需要定义社交网络用户的领域分类(即能力类别),例如可以分为财经、房地产、互联网、时事等领域,并将这些领域分类作为初始的能力标签集合。该步骤可以根据不同社交网络的具体特点进行分类,后期可以不断扩充类别,将这些领域分类(即能力类别)作为初始的能力标签集合。
步骤二:扩充能力标签集合。
该步骤需要初始的能力标签集合继续扩充,找到更多的相似的能力标签。具体方法如下:
(1)获取用户的标签列表,并对其进行去噪处理。
用户标签的数据形式为:用户ID标签名1:为用户ID打上该标签名1的人数标签名2:为用户ID打上该标签名1的人数……标签名n:为用户ID打上该标签名n的人数
因为用户的标签是其他用户对该用户的标注,因而有些标注并不能体现为用户的能力,本发明应用实例将其标注为噪音,如:特别关注、同学、同事……,对该部分标签要进行过滤处理。另外,为了更好的过滤噪音,本发明应用实例可以对用户的标签按照打标签人数进行降序排列,过滤掉后10%的标签。
(2)建立用户标签的特征集合,对所有用户标签同初始的能力标签集合进行标签相似度计算。
得到的标签集合的形式为Tagu={用户ID1,用户ID2,……,用户IDn},表示被打上该标签的用户集合。本发明应用实例试用杰卡德Jaccard距离计算相似度,公式如下:
(3)能力标签筛选。
将相似度大于特定阈值(如0.2)的用户标签作为扩充后的能力标签。至此,得到初始的能力标签集合的所有扩展标签。
步骤三:根据用户的标签列表和扩充后的能力标签集合,进行用户能力计算。
该步骤需要计算用户在每个领域分类下的能力得分。具体公式如下:
M表示用户在领域分类d下的不同标签数量,N表示用户在领域分类d下的标签出现总数量。
步骤四:筛选出用户最可能的能力。
步骤三计算出用户在不同领域下的得分score后,选择得分最高,且超过特定阈值(0.8)的领域分类,作为用户的能力。
下面用一个具体例子来说明上述技术方案。
步骤1:确定初始的能力标签集合。
为便于举例,仅将用户的能力分为三个类型,分别为:房地产,互联网,财经。
步骤2:扩充能力标签集合。
先获取用户的标签列表,并去除噪声后,如下:
先对房地产标签进行扩展,计算该标签同其他标签的相似度
房地产,地产人
W(房地产,房产)=2/6=1/3
W(房地产,地产)=2/6=1/3
W(房地产,地产人)=3/6=1/2
W(房地产,互联网)=1/6
W(房地产,互联电商)=1/6
W(房地产,互联大佬)=0
W(房地产,电商)=0
W(房地产,移动互联网)=0
W(房地产,电子商务)=0
W(房地产,财经)=0
W(房地产,投资)=0
W(房地产,股票)=0
W(房地产,理财)=0
W(房地产,股市)=0
只选取阈值大于0.2的相关词,得到房地产的相关词为房产、地产、地产人。
再对财经的相关词进行扩展。
W(财经,投资)=2/4=1/2
W(财经,股票)=2/4=1/2
W(财经,理财)=2/4=1/2
W(财经,股市)=2/4=1/2
W(财经,互联网)=2/11
W(财经,互联网大佬)=0
W(财经,互联网电商)=0
W(财经,电商)=0
W(财经,电子商务)=0
W(财经,移动互联网)=0
W(财经,电子商务)=0
W(财经,房地产)=0
W(财经,房产)=0
W(财经,地产)=0
W(财经,地产人)=0
根据阈值,得到财经的相关词为投资、股票、理财、股市。
再对互联网的相关词进行扩展。
W(互联网,互联网大佬)=2/8=1/4
W(互联网,电商)=2/8=1/4
W(互联网,移动互联网)=2/8=1/4
W(互联网,电子商务)=2/8=1/4
W(互联网,投资)=2/10=1/5
W(互联网,互联网电商)=1/8
W(互联网,财经)=2/11
W(互联网,房地产)=1/13
W(互联网,房产)=0
W(互联网,地产)=0
W(互联网,地产人)=0
W(互联网,股票)=0
W(互联网,股市)=0
W(互联网,理财)=0
根据阈值,得到财经的相关词为互联网大佬、电商、移动互联网、电子商务。
假设有如下用户ID1794759985,其标签列表为:
1794759985名人:3869房地产:3066地产:361房产:267财经:77地产人:23互联网:19互联网电商:4
步骤3:根据用户的标签列表和扩充后的能力标签集合,进行用户能力计算。
其地产领域有标签词为房地产、地产、房产、地产人,计算其地产领域得分score=(4/(4+1))*((3066+361+267+23)/(3066+361+267+23+1))=0.7998
该用户财经领域有1个标签词为财经,计算其财经领域得分为score=(1/(1+1))*(77/(77+1))=0.4936
该用户互联网领域有1个标签词为互联网,计算其互联网领域得分为score=(1/(1+1))*(19/(19+1))=0.475
步骤4:筛选出用户最可能的能力。
由于该用户房地产领域分值最高,且分值高于阈值0.8,因而判定其为房地产领域能力用户。
本发明应用实例技术方案带来的有益效果:通过本发明应用实例,可以找到的不同领域内的能力用户,这些用户不仅能够产生有价值的内容供普通用户阅读,而且还是领域信息的重要传播节点,找到这些社交网络中的重要节点,并推荐给用户关注,可以显著提升信息传播的效率和质量。
本发明应用实例主要通过相似度技术扩展相关标签词,再结合标签词多样性和标签词出现数量设计分类器实现某一领域分类下的能力用户的自动判定。本发明应用实例关键是运用相似度技术扩展标签词,并实现一个同时考虑标签多样性和标签出现数量的能力用户判定分类器。
应该明白,公开的过程中的步骤的特定顺序或层次是示例性方法的实例。基于设计偏好,应该理解,过程中的步骤的特定顺序或层次可以在不脱离本公开的保护范围的情况下得到重新安排。所附的方法权利要求以示例性的顺序给出了各种步骤的要素,并且不是要限于所述的特定顺序或层次。
在上述的详细描述中,各种特征一起组合在单个的实施方案中,以简化本公开。不应该将这种公开方法解释为反映了这样的意图,即,所要求保护的主题的实施方案需要比清楚地在每个权利要求中所陈述的特征更多的特征。相反,如所附的权利要求书所反映的那样,本发明处于比所公开的单个实施方案的全部特征少的状态。因此,所附的权利要求书特此清楚地被并入详细描述中,其中每项权利要求独自作为本发明单独的优选实施方案。
为使本领域内的任何技术人员能够实现或者使用本发明,上面对所公开实施例进行了描述。对于本领域技术人员来说;这些实施例的各种修改方式都是显而易见的,并且本文定义的一般原理也可以在不脱离本公开的精神和保护范围的基础上适用于其它实施例。因此,本公开并不限于本文给出的实施例,而是与本申请公开的原理和新颖性特征的最广范围相一致。
上文的描述包括一个或多个实施例的举例。当然,为了描述上述实施例而描述部件或方法的所有可能的结合是不可能的,但是本领域普通技术人员应该认识到,各个实施例可以做进一步的组合和排列。因此,本文中描述的实施例旨在涵盖落入所附权利要求书的保护范围内的所有这样的改变、修改和变型。此外,就说明书或权利要求书中使用的术语“包含”,该词的涵盖方式类似于术语“包括”,就如同“包括,”在权利要求中用作衔接词所解释的那样。此外,使用在权利要求书的说明书中的任何一个术语“或者”是要表示“非排它性的或者”。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogicalblock),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种在社交网络中挖掘能力用户的方法,其特征在于,所述方法包括:
根据社交网络的领域分类,确定初始的能力标签集合;
获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
2.如权利要求1所述在社交网络中挖掘能力用户的方法,其特征在于,所述获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合,包括:
获取用户的标签列表,并对用户的标签列表中的用户标签进行去噪处理;
利用去燥处理后的用户标签建立用户标签的特征集合,根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果;
利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合。
3.如权利要求2所述在社交网络中挖掘能力用户的方法,其特征在于,所述对所述用户的标签列表中的用户标签进行去噪处理后,所述方法还包括:
对用户标签按照打标签人数进行降序排列,过滤掉后10%的用户标签。
4.如权利要求2所述在社交网络中挖掘能力用户的方法,其特征在于,
所述根据所述特征集合,对用户的标签列表中的所有用户标签同初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果,包括:根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签,利用杰卡德Jaccard距离进行标签相似度计算,获取计算结果;
所述利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合,包括:针对每一个领域分类对应的能力标签,利用所述计算结果,筛选出标签相似度大于第一特定阈值的用户标签作为该领域分类下的相关词,获得扩充后的能力标签集合。
5.如权利要求1所述在社交网络中挖掘能力用户的方法,其特征在于,所述如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户,包括:
根据所述用户在每个领域分类下的能力得分,选择得分最高,且超过第二特定阈值的领域,判定所述用户为所述领域分类下的能力用户。
6.一种在社交网络中挖掘能力用户的装置,其特征在于,所述装置包括:
初始确定单元,用于根据社交网络的领域分类,确定初始的能力标签集合;
标签扩充单元,用于获取用户的标签列表,根据用户的标签列表对初始的能力标签集合进行各领域分类下的相关词扩充,获得扩充后的能力标签集合;
能力计算单元,用于根据用户的标签列表和扩充后的能力标签集合进行用户能力计算,获得用户在各领域分类下的能力得分;
能力挖掘单元,用于如果一用户在某个领域分类下的能力得分满足预设条件,则挖掘出所述用户为该领域分类下的能力用户。
7.如权利要求6所述在社交网络中挖掘能力用户的装置,其特征在于,所述标签扩充单元,具体包括:
去噪模块,用于获取用户的标签列表,并对用户的标签列表中的用户标签进行去噪处理;
计算模块,用于利用去燥处理后的用户标签建立用户标签的特征集合,根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签进行标签相似度计算,获取计算结果;
筛选模块,用于利用所述计算结果,进行各领域分类下的相关词筛选,获得扩充后的能力标签集合。
8.如权利要求7所述在社交网络中挖掘能力用户的装置,其特征在于,所述标签扩充单元对所述用户的标签列表中的用户标签进行去噪处理后,还对用户标签按照打标签人数进行降序排列,过滤掉后10%的用户标签。
9.如权利要求7所述在社交网络中挖掘能力用户的装置,其特征在于,
所述计算模块,具体用于根据所述特征集合,对用户的标签列表中的所有用户标签与初始的能力标签集合中各领域分类对应的能力标签,利用杰卡德Jaccard距离进行标签相似度计算,获取计算结果;
所述筛选模块,具体针对每一个领域分类对应的能力标签,利用所述计算结果,筛选出标签相似度大于第一特定阈值的用户标签作为该领域分类下的相关词,获得扩充后的能力标签集合。
10.如权利要求6所述在社交网络中挖掘能力用户的装置,其特征在于,所述能力挖掘单元,具体用于根据所述用户在每个领域分类下的能力得分,选择得分最高,且超过第二特定阈值的领域,判定所述用户为所述领域分类下的能力用户。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610147532.7A CN105809559A (zh) | 2016-03-15 | 2016-03-15 | 一种在社交网络中挖掘能力用户的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610147532.7A CN105809559A (zh) | 2016-03-15 | 2016-03-15 | 一种在社交网络中挖掘能力用户的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105809559A true CN105809559A (zh) | 2016-07-27 |
Family
ID=56468444
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610147532.7A Pending CN105809559A (zh) | 2016-03-15 | 2016-03-15 | 一种在社交网络中挖掘能力用户的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105809559A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038097A (zh) * | 2017-11-20 | 2018-05-15 | 西安电子科技大学 | 基于nlp社交问答网络用户兴趣能力模型构建系统及方法 |
CN108287916A (zh) * | 2018-02-11 | 2018-07-17 | 北京方正阿帕比技术有限公司 | 一种资源推荐方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156747A (zh) * | 2011-04-21 | 2011-08-17 | 清华大学 | 一种引入社会化标签的协作过滤评分预测方法及装置 |
CN102508870A (zh) * | 2011-10-10 | 2012-06-20 | 南京大学 | 一种结合评分数据与标签数据的个性化推荐方法 |
CN102622396A (zh) * | 2011-11-30 | 2012-08-01 | 浙江大学 | 一种基于标签的web服务聚类方法 |
CN103577405A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 基于兴趣分析的微博博主社区分类方法 |
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
CN104142948A (zh) * | 2013-05-09 | 2014-11-12 | 富士通株式会社 | 挖掘领域观点领袖的方法和设备 |
-
2016
- 2016-03-15 CN CN201610147532.7A patent/CN105809559A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102156747A (zh) * | 2011-04-21 | 2011-08-17 | 清华大学 | 一种引入社会化标签的协作过滤评分预测方法及装置 |
CN102508870A (zh) * | 2011-10-10 | 2012-06-20 | 南京大学 | 一种结合评分数据与标签数据的个性化推荐方法 |
CN102622396A (zh) * | 2011-11-30 | 2012-08-01 | 浙江大学 | 一种基于标签的web服务聚类方法 |
CN103577405A (zh) * | 2012-07-19 | 2014-02-12 | 中国人民大学 | 基于兴趣分析的微博博主社区分类方法 |
CN103678431A (zh) * | 2013-03-26 | 2014-03-26 | 南京邮电大学 | 一种基于标准标签和项目评分的推荐方法 |
CN104142948A (zh) * | 2013-05-09 | 2014-11-12 | 富士通株式会社 | 挖掘领域观点领袖的方法和设备 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108038097A (zh) * | 2017-11-20 | 2018-05-15 | 西安电子科技大学 | 基于nlp社交问答网络用户兴趣能力模型构建系统及方法 |
CN108287916A (zh) * | 2018-02-11 | 2018-07-17 | 北京方正阿帕比技术有限公司 | 一种资源推荐方法 |
CN108287916B (zh) * | 2018-02-11 | 2021-06-15 | 北京方正阿帕比技术有限公司 | 一种资源推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105893349B (zh) | 类目标签匹配映射方法及装置 | |
CN103577549B (zh) | 一种基于微博标签的人群画像系统和方法 | |
Jäschke et al. | Tag recommendations in folksonomies | |
CN102929959B (zh) | 一种基于用户行为的图书推荐方法 | |
CN104102639B (zh) | 基于文本分类的推广触发方法和装置 | |
US9928296B2 (en) | Search lexicon expansion | |
CN102142003B (zh) | 兴趣点信息提供方法及装置 | |
CN100517304C (zh) | 结果页分类方法 | |
CN103294781B (zh) | 一种用于处理页面数据的方法与设备 | |
CN107665252A (zh) | 一种创建知识图谱的方法及装置 | |
CN104516910B (zh) | 在客户端服务器环境中推荐内容 | |
CN103455545A (zh) | 社交网络用户的位置估计的方法和系统 | |
CN109033200A (zh) | 事件抽取的方法、装置、设备及计算机可读介质 | |
CN104750789A (zh) | 标签的推荐方法及装置 | |
CN103324666A (zh) | 一种基于微博数据的话题跟踪方法及装置 | |
CN107292365A (zh) | 商品标签的绑定方法、装置、设备及计算机可读存储介质 | |
CN104239399A (zh) | 社交网络中的潜在好友推荐方法 | |
CN102253988A (zh) | 网络文本服务中敏感词过滤的方法 | |
CN103390044A (zh) | 一种连锁类兴趣点数据识别方法及装置 | |
CN109710776B (zh) | 相册的知识图谱的构建方法 | |
CN106204297A (zh) | 一种封闭社交传播意见领袖的识别方法及装置 | |
CN109992784A (zh) | 一种融合多模态信息的异构网络构建和距离度量方法 | |
CN103399855A (zh) | 基于多数据源的行为意图确定方法及装置 | |
CN105373531A (zh) | 一种基于社交网络的短话题文本识别方法及装置 | |
Yin et al. | Pinpointing locational focus in microblogs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20160727 |
|
RJ01 | Rejection of invention patent application after publication |