CN103136267B - 一种基于社区的专家挖掘方法与装置 - Google Patents
一种基于社区的专家挖掘方法与装置 Download PDFInfo
- Publication number
- CN103136267B CN103136267B CN201110392534.XA CN201110392534A CN103136267B CN 103136267 B CN103136267 B CN 103136267B CN 201110392534 A CN201110392534 A CN 201110392534A CN 103136267 B CN103136267 B CN 103136267B
- Authority
- CN
- China
- Prior art keywords
- user
- expert
- authority
- relation chain
- chain
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于社区的专家挖掘方法及装置。该方法包括:根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;获取扩展的候选用户集中各用户社区关系链信息;根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算;将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。应用本发明,可以优化专家资源利用、提升用户获取专家信息的效率。
Description
技术领域
本发明涉及计算机通信技术,特别涉及一种基于社区的专家挖掘方法与装置。
背景技术
随着计算机通信技术的发展,尤其是3g网络和智能移动终端的发展,用户的网络生活越来越丰富,在网络上聊天、浏览新闻、看电影、玩游戏、搜索、购物、发布信息等,越来越成为网络生活的一部分。而如何让网络用户有效地从网络社区中找到有价值的信息,成为信息领域一个重要的研究课题。
目前,在社区中海量的各领域的网络信息中,采用专家挖掘的方法,挖掘出专家发表的信息,推荐给网络用户,成为网络用户获取有价值信息的重要手段之一,其中,社区是指一种由个人或者组织构成的社会网络结构体系,该社会网络结构体系中的人或者组织通过一种或者多种关系进行关联,这些关系包含但不限于友谊关系、亲戚关系、共同兴趣关系、金钱往来关系、喜恶关系等。社区可以包含但不限于博客社区、微博社区、论坛社区、问答社区等;专家是指社区中,对于某个主题或者某个领域具有很深理解或者很多知识,或者在某个领域具有一定影响力的用户;专家挖掘是指从一个或者多个包含有多个用户集合的社区中,找出专家。
现有基于社区的专家挖掘方法,通常利用候选专家(用户)的个人信息,例如,该候选专家发表的文章、撰写的专利、发送的邮件等,并将该个人信息作为该候选专家的表征信息,采用贝叶斯分类等方法,计算表征信息与各领域之间的关联度,如果计算得到的关联度超过预先设置的关联度阈值,则该候选专家为设置的关联度阈值所属领域的专家。用统计语言来说,也就是通过如下公式计算该候选专家是否为专家:
式中,
pi为第i个候选专家在领域的关联度,即与领域的关联概率;
di是第i个候选专家的表征信息。
cj的值是0或者1,其中1表示专家。
由上述可见,现有基于社区的专家挖掘方法,通过利用候选专家个人信息挖掘专家,但由于实际应用中,候选专家的个人信息可能丢失或者不完全,由此将导致无法对这些候选专家进行判定,或者,经过缺少表征信息的关联度判定,可能将这些本是专家的候选专家作为非专家处理,用户不容易获取到这些专家的信息,使得这些专家的资源得不到有效的优化利用,也降低了用户获取专家信息的效率。
发明内容
有鉴于此,本发明的主要目的在于提出一种基于社区的专家挖掘方法,优化专家资源利用、提升用户获取专家信息的效率。
本发明的另一目的在于提出一种基于社区的专家挖掘装置,优化专家资源利用、提升用户获取专家信息的效率。
为达到上述目的,本发明提供了一种基于社区的专家挖掘方法,该方法包括:
根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;
获取扩展的候选用户集中各用户社区关系链信息,其中所述用户社区关系链信息包括用户与用户关系链信息以及用户与物关系链信息,所述获取扩展的候选用户集中各用户社区关系链信息包括:
从扩展的候选用户集中,构建用户与用户的关系链矩阵,关系链矩阵中第i行第j列的元素的值为从用户i到用户j具有的用户与用户关系链,当从用户i到用户j具有用户与用户关系链时,该值为1,否则,该值为0;
从扩展的候选用户集中,构建用户与物的关系链矩阵,所述用户与物关系链信息为社区中用户产生的信息,包含但不限于文字、图像、音频、视频;
根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算,所述社区关系链计分策略为网页级别排名运算算法,所述进行专家权威度计算包括:
A1、设置扩展的候选用户集中各用户的初始用户关系链专家权威度值,形成初始用户关系链专家权威度向量矩阵;
A2、计算邻接链矩阵、初始用户关系链专家权威度向量矩阵和预先设置的系数相乘所得的乘积;
A3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
A4、将步骤A2得到的乘积与步骤A3得到的差相加,所得的和为用户关系链专家权威度向量矩阵;
A5、通过A1--A4步骤计算出两次相邻用户关系链专家权威度向量矩阵,计算此两次相邻用户关系链专家权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则步骤A4得到的矩阵为各用户的用户关系链专家权威度,并将该用户关系链专家权威度作为专家权威度;如果计算得到的残差大于于预先设置的残差阈值,则将步骤A4得到的矩阵替换步骤A2中的初始用户关系链专家权威度向量矩阵,返回执行步骤A2;
将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。
所述社区关系链计分策略为网页级别排名运算算法以及超文本推导主题检索算法,所述进行专家权威度计算包括:
根据用户与用户的关系链矩阵,采用网页级别排名运算算法对用户关系链专家权威度矩阵进行迭代运算,收敛后,获取用户与用户的关系链矩阵对应的用户关系链专家权威度;
根据用户与物的关系链矩阵,采用超文本推导主题检索算法对信息专家权威度矩阵进行迭代运算,收敛后,获取用户与物的关系链矩阵对应的信息专家权威度;
根据各用户对应的用户关系链专家权威度以及信息专家权威度,分别进行权重计算,得到各用户的专家权威度。
所述获取用户与物的关系链矩阵对应的信息专家权威度包括:
根据物的属性设置计算公式,计算物的重要度,再将该重要度值扩展到与物相关的用户,得到依据用户与物的关系计算的信息专家权威度,其中所述物的属性包括被浏览数、转载数中的至少一个。
所述用户社区关系链信息包括用户与物关系链信息,所述获取扩展的候选用户集中各用户社区关系链信息包括:
从扩展的候选用户集中,构建用户与物的关系链矩阵,关系链矩阵中第i行第j列的元素的值为从用户i到物j或物i到用户j具有的用户与物关系链,当从用户i到物j或物i到用户j具有用户与物关系链时,该值为1,否则,该值为0。
所述社区关系链计分策略为超文本推导主题检索算法,所述进行专家权威度计算包括:
B1、设置扩展的候选用户集中各用户的中心度以及各物品的权威度值,分别形成用户中心度向量矩阵以及物品权威度向量矩阵,并根据用户与物品之间的有向关系链构建邻接矩阵;
B2、计算邻接矩阵与各物品的权威度向量矩阵的乘积,并与预先设定的系数相乘;
B3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
B4、将步骤B2所得的积与步骤B3所得的差相加,所得的和为用户的中心度向量矩阵;
B5、计算邻接矩阵的转置矩阵、步骤B4所得的用户的中心度向量矩阵与预先设置的系数相乘所得的积;
B6、将步骤B5得积与步骤B2得到的矩阵相加,所得的和为物品的权威度向量矩阵;
B7、步骤B6得到的矩阵与步骤B2中物品的权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则执行步骤B8;
B8、根据步骤B7得到的物品的权威度向量矩阵,将用户拥有的物品的权威度累加,即得到用户的专家权威度。
所述用户与用户关系链包含:社区中用户显式添加的关系以及隐性产生的关系。
一种基于社区的专家挖掘装置,该装置包括:用户社区关系链信息获取模块、用户社区关系链计算模块以及专家权威度判断模块,其中,
用户社区关系链信息获取模块,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户社区关系链计算模块,用于根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算,所述社区关系链计分策略为网页级别排名运算算法,所述进行专家权威度计算包括:
A1、设置扩展的候选用户集中各用户的初始用户关系链专家权威度值,形成初始用户关系链专家权威度向量矩阵;
A2、计算邻接链矩阵、初始用户关系链专家权威度向量矩阵和预先设置的系数相乘所得的乘积;
A3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
A4、将步骤A2得到的乘积与步骤A3得到的差相加,所得的和为用户关系链专家权威度向量矩阵;
A5、通过A1--A4步骤计算出两次相邻用户关系链专家权威度向量矩阵,计算此两次相邻用户关系链专家权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则步骤A4得到的矩阵为各用户的用户关系链专家权威度,并将该用户关系链专家权威度作为专家权威度;如果计算得到的残差大于于预先设置的残差阈值,则将步骤A4得到的矩阵替换步骤A2中的初始用户关系链专家权威度向量矩阵,返回执行步骤A2;
专家权威度判断模块,用于将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家;
所述用户社区关系链信息获取模块包括:用户社区关系链信息获取单元、用户与用户关系链信息获取单元以及用户与物关系链信息获取单元,其中,
用户社区关系链信息获取单元,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户与用户关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与用户关系链信息;
用户与物关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与物关系链信息;
所述用户与物关系链信息为社区中用户产生的信息,包含但不限于文字、图像、音频、视频。
所述用户社区关系链计算模块包括:用户与用户关系链计算单元、用户与物关系链计算单元以及组合单元,其中,
用户与用户关系链计算单元,用于基于预先设置的用户计分策略,对用户与用户关系链信息获取单元获取的用户与用户的关系链信息进行计分,获取各用户的用户关系链专家权威度;
用户与物关系链计算单元,用于基于预先设置的信息计分策略,分别对用户与物关系链信息获取单元获取的用户与物关系链信息进行计分,获取各用户的信息专家权威度;
组合单元,用于对各用户对应的用户关系链专家权威度以及信息专家权威度进行权重计算,得到专家权威度。
由上述的技术方案可见,本发明提供的一种基于社区的专家挖掘方法及装置,根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;获取扩展的候选用户集中各用户社区关系链信息;根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算;将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。这样,基于用户社区关系链信息进行专家挖掘,由于用户社区关系链信息不会丢失,也不存在信息不完全的情形,因而,经过关联判断后,不会遗漏专家,使得专家资源能被用户有效地优化利用,提升了用户获取专家信息的效率。
附图说明
图1为本发明实施例基于社区的专家挖掘装置结构示意图。
图2为本发明实施例基于社区的专家挖掘方法流程示意图。
图3为本发明实施例基于社区的专家挖掘方法具体流程示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图及具体实施例对本发明作进一步地详细描述。
专家对于用户知识和信息的正确获取与传递有着很重要的作用,因此,专家挖掘一直是信息领域一个重要的研究方向,而现有利用候选专家个人信息挖掘专家的方法,由于候选专家的个人信息丢失或者不完全,使得将一些本是专家的候选专家作为非专家处理。本发明实施例中,考虑社区中一个用户存在多个社区关系链,例如,用户与用户之间的社区关系链以及用户与物的社区关系链,因而,基于社区,利用用户和用户,甚至用户和物之间的社区关系链,通过社区关系链分析来发现专家,从而解决用户个人信息丢失或者用户个人信息不全的问题,提升专家资源的利用效率,同时也从另外的视角提供专家挖掘的方法。
图1为本发明实施例基于社区的专家挖掘装置结构示意图。参见图1,该装置包括:用户社区关系链信息获取模块、用户社区关系链计算模块以及专家权威度判断模块,其中,
用户社区关系链信息获取模块,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户社区关系链计算模块,用于根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算;
专家权威度判断模块,用于将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。
本发明实施例中,用户社区关系链包括:用户与用户关系链、和/或,用户与物关系链。用户与用户的关系链包含:社区中用户显式添加的关系以及隐性产生的关系,显式添加的关系包含:微博收听人、社区中添加的好友、放入群组中的用户等信息;隐性产生的关系信息包含浏览、点击、回复、评论其他用户的信息。用户与物关系链信息为社区中用户产生的信息,包含但不限于文字、图像、音频、视频。
其中,较佳地,用户社区关系链信息获取模块包括:用户社区关系链信息获取单元、用户与用户关系链信息获取单元以及用户与物关系链信息获取单元,其中,
用户社区关系链信息获取单元,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户与用户关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与用户关系链信息;
用户与物关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与物关系链信息。
相对应地,用户社区关系链计算模块包括:用户与用户关系链计算单元、用户与物关系链计算单元以及组合单元,其中,
用户与用户关系链计算单元,用于基于预先设置的用户计分策略,对用户与用户关系链信息获取单元获取的用户与用户的关系链信息进行计分,获取各用户的用户关系链专家权威度;
本发明实施例中,用户与用户关系链计算单元基于用户与用户的关系链,根据预先设置的用户计分策略计算出领域中该用户的用户关系链专家权威度,关于计算的具体流程,后续再进行详细描述。
用户与物关系链计算单元,用于基于预先设置的信息计分策略,分别对用户与物关系链信息获取单元获取的用户与物关系链信息进行计分,获取各用户的信息专家权威度;
本发明实施例中,用户与物关系链计算单元基于用户与物的关系链,根据预先设置的信息计分策略计算出领域中该用户的信息专家权威度。
组合单元,用于对各用户对应的用户关系链专家权威度以及信息专家权威度进行权重计算,得到专家权威度。
图2为本发明实施例基于社区的专家挖掘方法流程示意图。参见图2,该流程包括:
步骤201,根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;
本步骤中,用户初始种子集中的用户可以是专家,也可以是非专家。根据用户初始种子集中各用户的社区关系链信息进行扩展,例如,将用户初始种子集中各用户与用户关系链信息中涉及的其他用户包括进来,得到扩展的候选用户集,当然,还可以进一步对其他用户按照如上策略进行扩展。
步骤202,获取扩展的候选用户集中各用户社区关系链信息;
本步骤中,根据扩展的候选用户集,获取其中每个用户对应的用户社区关系链信息。
步骤203,根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算;
本步骤中,如果用户社区关系链信息为用户与用户关系链信息,则采用用户计分策略对用户与用户关系链信息进行计分,获取各用户的用户关系链专家权威度,并将该用户关系链专家权威度作为专家权威度;如果用户社区关系链信息为用户与物关系链信息,则采用信息计分策略对用户与物关系链信息进行计分,获取各用户的信息专家权威度,并将该信息专家权威度作为专家权威度;如果用户社区关系链信息为用户与用户关系链信息以及用户与物关系链信息,则分别采用相应的积分策略进行计分,并对计算得到的计分进行加权运算,将得到的加权运算结果作为专家权威度。
步骤204,将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。
以下以用户社区关系链信息包括用户与用户关系链信息以及用户与物关系链信息为例,对本发明实施例的基于社区的专家挖掘方法作详细说明。
图3为本发明实施例基于社区的专家挖掘方法具体流程示意图。参见图3,该流程包括:
步骤301,预先设置用户初始种子集;
本步骤中,可以针对任一主题或者领域,预先设置多个用户或者多个用户产生的信息作为用户初始种子集。如果关注多个主题或多个领域,可以先对一个或者多个社区中所有用户进行聚类或者分类,然后针对每一个领域设置用户初始种子集后,执行后续步骤。
用户初始种子集中的用户可以是专家,也可以是非专家。当可以确定用户初始种子集中的用户为专家时,还可以通过相似专家查找方法来挖掘新的专家。例如,可以通过标注用户初始种子集中的专家所在领域,然后对未标注的用户发表内容进行领域分类,将领域相同的,且被关注超过一定阈值的用户认为是相似专家。
步骤302,获取用户初始种子集中各用户社区关系链,根据各用户社区关系链进行扩展,得到扩展的候选用户集;
本步骤中,可以根据用户初始种子集中各用户社区关系链中的用户与用户关系链,例如,第一层好友关系,对该用户初始种子集进行外向扩展,得到用户初始种子集中各用户对应的好友,形成扩展的候选用户集。也就是说,从用户初始种子集出发,顺着用户初始种子集中各用户的社区关系链往外扩展一步,即将用户初始种子集中所有的用户或物对应的社区关系链包含的用户或物作为扩展的候选用户集。当然,实际应用中,也可以在往外扩展一步时,进一步考虑一步外的用户或者物是否在关心的领域内,如果是,进一步考虑该领域内的用户或者物,例如,可以从评价或回复等互动情况进行判断,如果一步外的用户或者物与扩展的候选用户集中的用户或者物互动超过预先设置的次数,可以确定该用户或者物在关心的领域内。
步骤303,从扩展的候选用户集中,构建用户与用户的关系链矩阵;
本步骤中,从扩展的候选用户集中,利用集合中用户与用户的关系链,构建一个用户与用户的关系链矩阵,即关系链子集X,构建关系链子集X具体如下:
设置子集X中的结点为用户,边为用户与用户的关系链,子集X等价于一个邻接矩阵M。该邻接矩阵M中,行数为子集X中的用户数,列数为与子集X中的用户数,对于邻接矩阵M中的元素Mij,如果从用户i到用户j具有关系链,则Mij=1,如果从用户i到用户j不具有关系链,则Mij=0。
步骤304,根据构建的用户与用户的关系链矩阵,利用预先设置的用户计分策略计算各用户的用户关系链专家权威度;
本步骤中,利用预先设置的用户计分策略,计算子集X中各用户的用户关系链专家权威度。
预先设置的用户计分策略可以是网页级别(Page Rank)排名运算算法,具体如下:
设向量p=(p1,p2,...,pn)T为子集X中各用户的用户关系链专家权威度。首先为向量p赋初值,一种方式为p=(1/n,1/n,...1/n)T,其中n为子集X中结点数目,即用户数。当然,也可以采用其他方式为向量p赋初值,例如,可以采用随机赋值的方式,也可以利用现有的基于个人信息的方法得到的初始分值为向量p赋初值,还可以是根据关注专家的人数等热度信息来设置向量p的初值。
然后按如下公式进行迭代运算:
pk+1=λ*Mpk+(1-λ)I
式中,
M为邻接矩阵,I为单位向量矩阵,λ为预先指定的小于1大于0的浮点数,k为迭代次数。
计算向量p两次迭代之间的残差,如果计算得到的残差小于预先设置的残差阈值,则当前计算得到的向量p为子集X中各用户的用户关系链专家权威度。
当然,实际应用中,也可以根据用户的属性,例如,被关注数、活跃度、解答问题的被采纳率等设置一个公式,计算用户关系链专家权威度。
步骤305,从扩展的候选用户集中,构建用户与物的关系链矩阵;
本步骤中,从扩展的候选用户集中,利用集合中用户与物的关系链,构建一个用户与物的关系链矩阵,即关系链子集Y,构建子集Y与构建子集X相类似,具体如下:
设置子集Y中的结点为用户或物,边为用户与物的关系链,子集Y等价于一个邻接矩阵A。该邻接矩阵A中的元素Aij,如果从用户i到物j或物i到用户j具有关系链,则Aij=1,否则,Aij=0。
实际应用中,步骤305也可以在步骤303之前执行,也可以与步骤303同时执行。
步骤306,根据构建的用户与物的关系链矩阵,利用预先设置的信息计分策略计算各用户的信息专家权威度;
本步骤中,利用预先设置的信息计分策略,计算子集Y中各用户的信息专家权威度。
预先设置的信息计分策略可以是超文本推导主题检索(HITS,Hy-pertextInduced Topic Search)算法,根据HITS算法计算各用户的信息专家权威度具体如下:
设向量a=(a1,a2,…,aN)T为子集Y中物的权威度,向量h=(h1,h2,…,hM)T为子集Y中人的中心度。首先为向量a和向量h赋初始值,本发明实施例中,赋初始值的方式为:
a=(1,1,...,1)T
h=(1,1,...,1)T
然后按如下公式进行迭代运算:
h=λ*Aa+(1-λ)I
a=λ*ATh+(1-λ)I
式中,
A为根据用户与物品之间的有向关系链构建的邻接矩阵,AT为A的转置矩阵,I为单位向量,λ为预先指定的小于1大于0的浮点数。
实际应用中,在每次迭代计算完a后,可以对向量a和h进行归一化处理,例如,采用线性归一化方法,以保证其数值不会在反复的迭代中溢出,线性归一化公式如下所示:
a(i)=(a(i)-a(min))/(a(max)-a(min))
式中,
a(max)是所有a中的最大值,a(min)是所有a中的最小值。
判断迭代运算后得到的向量矩阵是否收敛,如果是,停止迭代运算,否则,继续进行迭代运算,收敛的判断与步骤304中相类似,在此不再赘述。
在确定收敛后,用户的中心度可以累加到该用户的物的权威度上,得到信息专家权威度。
实际应用中,也可以根据信息的属性如被浏览数、转载数等设置计算公式,计算物(信息)的重要度,再将该重要度值扩展到与信息相关的用户,得到依据用户与物的关系计算的信息专家权威度。
步骤307,根据各用户对应的用户关系链专家权威度以及信息专家权威度,分别进行权重计算,得到各用户的专家权威度;
本步骤中,组合上述关系链子集X和关系链子集Y的计算结果,得到该主题或领域中,各用户最终的专家权威度。具体来说,针对领域中的每一个候选专家,假设他在关系链子集X的得分是s(x),在关系链子集Y的得分是s(y),则该候选专家的最终得分是关系链子集X和关系链子集Y中两个得分的线性加权,即:
ui=w(x)×si(x)+w(y)×si(y)
式中,ui为扩展的候选用户集中第i个候选用户的专家权威度;
w(x)为子集X的权重系数;
w(y)为子集Y的权重系数;
si(x)为第i个候选用户在子集X中的用户关系链专家权威度;
si(y)为第i个候选用户在子集Y中的信息专家权威度。
较佳地,w(x)+w(y)=1。
实际应用中,计算专家权威度也可以不仅限于线性加权,也可以使用非线性加权、基于统计或非统计中的一种或其组合方式。例如,非线性加权公式可以为:
ui=(1+a×si(x))×(1+b×si(y))
式中,a、b为非线性加权系数。
基于统计的方式可以利用逻辑回归方法,基于非统计的方式可以利用神经网络方法等。
步骤308,将专家权威度超过预先设置的专家权威度阈值的用户作为专家。
本步骤中,专家权威度阈值可以根据抽样选择一些样本点来分析设置。
由上述可见,本发明实施例的基于社区的专家挖掘方法及装置,根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;获取扩展的候选用户集中各用户社区关系链信息;根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算;将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。这样,基于用户的社区关系链进行专家挖掘,由于用户的社区关系链信息不会丢失,也不存在信息不完全的情形,因而,经过关联判断后,不会遗漏专家,使得专家资源能被用户有效地优化利用,也使得用户能更容易获取到这些专家的信息,从而提升了用户获取专家信息的效率。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换以及改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于社区的专家挖掘方法,其特征在于,该方法包括:
根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集;
获取扩展的候选用户集中各用户社区关系链信息,其中所述用户社区关系链信息包括用户与用户关系链信息以及用户与物关系链信息,所述获取扩展的候选用户集中各用户社区关系链信息包括:
从扩展的候选用户集中,构建用户与用户的关系链矩阵,关系链矩阵中第i行第j列的元素的值为从用户i到用户j具有的用户与用户关系链,当从用户i到用户j具有用户与用户关系链时,该值为1,否则,该值为0;
从扩展的候选用户集中,构建用户与物的关系链矩阵,所述用户与物关系链信息为社区中用户产生的信息,包含但不限于文字、图像、音频、视频;
根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算,所述社区关系链计分策略为网页级别排名运算算法,所述进行专家权威度计算包括:
A1、设置扩展的候选用户集中各用户的初始用户关系链专家权威度值,形成初始用户关系链专家权威度向量矩阵;
A2、计算邻接链矩阵、初始用户关系链专家权威度向量矩阵和预先设置的系数相乘所得的乘积;
A3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
A4、将步骤A2得到的乘积与步骤A3得到的差相加,所得的和为用户关系链专家权威度向量矩阵;
A5、通过A1--A4步骤计算出两次相邻用户关系链专家权威度向量矩阵,计算此两次相邻用户关系链专家权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则步骤A4得到的矩阵为各用户的用户关系链专家权威度,并将该用户关系链专家权威度作为专家权威度;如果计算得到的残差大于于预先设置的残差阈值,则将步骤A4得到的矩阵替换步骤A2中的初始用户关系链专家权威度向量矩阵,返回执行步骤A2;
将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家。
2.如权利要求1所述的方法,其特征在于,所述社区关系链计分策略为网页级别排名运算算法以及超文本推导主题检索算法,所述进行专家权威度计算包括:
根据用户与用户的关系链矩阵,采用网页级别排名运算算法对用户关系链专家权威度矩阵进行迭代运算,收敛后,获取用户与用户的关系链矩阵对应的用户关系链专家权威度;
根据用户与物的关系链矩阵,采用超文本推导主题检索算法对信息专家权威度矩阵进行迭代运算,收敛后,获取用户与物的关系链矩阵对应的信息专家权威度;
根据各用户对应的用户关系链专家权威度以及信息专家权威度,分别进行权重计算,得到各用户的专家权威度。
3.根据权利要求2所述的方法,其特征在于,所述获取用户与物的关系链矩阵对应的信息专家权威度包括:
根据物的属性设置计算公式,计算物的重要度,再将该重要度值扩展到与物相关的用户,得到依据用户与物的关系计算的信息专家权威度,其中所述物的属性包括被浏览数、转载数中的至少一个。
4.如权利要求2所述的方法,其特征在于,所述用户社区关系链信息包括用户与物关系链信息,所述获取扩展的候选用户集中各用户社区关系链信息包括:
从扩展的候选用户集中,构建用户与物的关系链矩阵,关系链矩阵中第i行第j列的元素的值为从用户i到物j或物i到用户j具有的用户与物关系链,当从用户i到物j或物i到用户j具有用户与物关系链时,该值为1,否则,该值为0。
5.如权利要求4所述的方法,其特征在于,所述社区关系链计分策略为超文本推导主题检索算法,所述进行专家权威度计算包括:
B1、设置扩展的候选用户集中各用户的中心度以及各物品的权威度值,分别形成用户中心度向量矩阵以及物品权威度向量矩阵,并根据用户与物品之间的有向关系链构建邻接矩阵;
B2、计算邻接矩阵与各物品的权威度向量矩阵的乘积,并与预先设定的系数相乘;
B3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
B4、将步骤B2所得的积与步骤B3所得的差相加,所得的和为用户的中心度向量矩阵;
B5、计算邻接矩阵的转置矩阵、步骤B4所得的用户的中心度向量矩阵与预先设置的系数相乘所得的积;
B6、将步骤B5得积与步骤B2得到的矩阵相加,所得的和为物品的权威度向量矩阵;
B7、步骤B6得到的矩阵与步骤B2中物品的权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则执行步骤B8;
B8、根据步骤B7得到的物品的权威度向量矩阵,将用户拥有的物品的权威度累加,即得到用户的专家权威度。
6.如权利要求2-3任一项所述的方法,其特征在于,所述用户与用户关系链包含:社区中用户显式添加的关系以及隐性产生的关系。
7.一种基于社区的专家挖掘装置,其特征在于,该装置包括:用户社区关系链信息获取模块、用户社区关系链计算模块以及专家权威度判断模块,其中,
用户社区关系链信息获取模块,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户社区关系链计算模块,用于根据预先设置的社区关系链计分策略分别对获取的各用户社区关系链信息进行专家权威度计算,所述社区关系链计分策略为网页级别排名运算算法,所述进行专家权威度计算包括:
A1、设置扩展的候选用户集中各用户的初始用户关系链专家权威度值,形成初始用户关系链专家权威度向量矩阵;
A2、计算邻接链矩阵、初始用户关系链专家权威度向量矩阵和预先设置的系数相乘所得的乘积;
A3、计算单位向量矩阵减去单位向量矩阵与与预先设置的系数的乘积,所得的差;
A4、将步骤A2得到的乘积与步骤A3得到的差相加,所得的和为用户关系链专家权威度向量矩阵;
A5、通过A1--A4步骤计算出两次相邻用户关系链专家权威度向量矩阵,计算此两次相邻用户关系链专家权威度向量矩阵的残差,如果计算得到的残差小于或等于预先设置的残差阈值,则步骤A4得到的矩阵为各用户的用户关系链专家权威度,并将该用户关系链专家权威度作为专家权威度;如果计算得到的残差大于于预先设置的残差阈值,则将步骤A4得到的矩阵替换步骤A2中的初始用户关系链专家权威度向量矩阵,返回执行步骤A2;
专家权威度判断模块,用于将计算得到的专家权威度超过预先设置的专家权威度阈值的用户作为专家;
所述用户社区关系链信息获取模块包括:用户社区关系链信息获取单元、用户与用户关系链信息获取单元以及用户与物关系链信息获取单元,其中,
用户社区关系链信息获取单元,用于根据预先设置的用户初始种子集对应的用户社区关系链信息,对所述用户初始种子集进行扩展得到扩展的候选用户集,获取扩展的候选用户集中各用户社区关系链信息;
用户与用户关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与用户关系链信息;
用户与物关系链信息获取单元,用于从获取的用户社区关系链信息中分离出用户与物关系链信息;
所述用户与物关系链信息为社区中用户产生的信息,包含但不限于文字、图像、音频、视频。
8.如权利要求7所述的装置,其特征在于,所述用户社区关系链计算模块包括:用户与用户关系链计算单元、用户与物关系链计算单元以及组合单元,其中,
用户与用户关系链计算单元,用于基于预先设置的用户计分策略,对用户与用户关系链信息获取单元获取的用户与用户的关系链信息进行计分,获取各用户的用户关系链专家权威度;
用户与物关系链计算单元,用于基于预先设置的信息计分策略,分别对用户与物关系链信息获取单元获取的用户与物关系链信息进行计分,获取各用户的信息专家权威度;
组合单元,用于对各用户对应的用户关系链专家权威度以及信息专家权威度进行权重计算,得到专家权威度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110392534.XA CN103136267B (zh) | 2011-12-01 | 2011-12-01 | 一种基于社区的专家挖掘方法与装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110392534.XA CN103136267B (zh) | 2011-12-01 | 2011-12-01 | 一种基于社区的专家挖掘方法与装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103136267A CN103136267A (zh) | 2013-06-05 |
CN103136267B true CN103136267B (zh) | 2017-12-08 |
Family
ID=48496099
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110392534.XA Active CN103136267B (zh) | 2011-12-01 | 2011-12-01 | 一种基于社区的专家挖掘方法与装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103136267B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991767A (zh) * | 2019-12-20 | 2020-04-10 | 浙江大学 | 领先用户识别、预测方法以及技术趋势预测方法 |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104348871B (zh) * | 2013-08-05 | 2019-01-11 | 深圳市腾讯计算机系统有限公司 | 一种同类账号扩展方法及装置 |
CN103399958B (zh) * | 2013-08-21 | 2017-03-15 | 中新网络信息安全股份有限公司 | 一种网民不良程度的评估方法及系统 |
CN105427129B (zh) * | 2015-11-12 | 2020-09-04 | 腾讯科技(深圳)有限公司 | 一种信息的投放方法及系统 |
CN105653605B (zh) * | 2015-12-23 | 2020-04-21 | 北京搜狗科技发展有限公司 | 一种用于网络社区作弊用户挖掘的方法、系统及电子设备 |
CN106095942B (zh) * | 2016-06-12 | 2018-07-27 | 腾讯科技(深圳)有限公司 | 强变量提取方法及装置 |
CN106886921A (zh) * | 2017-02-17 | 2017-06-23 | 正源信用(北京)科技有限公司 | 基于用户兴趣的个性化推荐方法 |
CN110110154B (zh) * | 2018-02-01 | 2023-07-11 | 腾讯科技(深圳)有限公司 | 一种图文件的处理方法、装置及存储介质 |
CN110070410A (zh) * | 2019-03-07 | 2019-07-30 | 特斯联(北京)科技有限公司 | 一种基于大数据的人口社交分析方法及系统 |
CN110443574B (zh) * | 2019-07-25 | 2023-04-07 | 昆明理工大学 | 多项目卷积神经网络评审专家推荐方法 |
CN111667200B (zh) * | 2020-07-09 | 2023-09-19 | 腾讯科技(深圳)有限公司 | 一种权威度确定方法、装置、设备及存储介质 |
CN112818258B (zh) * | 2021-03-08 | 2024-05-10 | 珠海市蜂巢数据技术有限公司 | 基于关键词的社交网络用户查找方法、计算机装置及计算机可读存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理系统及方法 |
CN102087730A (zh) * | 2009-12-08 | 2011-06-08 | 深圳市腾讯计算机系统有限公司 | 一种产品用户网络构建方法和装置 |
-
2011
- 2011-12-01 CN CN201110392534.XA patent/CN103136267B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101075942A (zh) * | 2007-06-22 | 2007-11-21 | 清华大学 | 基于专家值传播算法的社会网络专家信息处理系统及方法 |
CN102087730A (zh) * | 2009-12-08 | 2011-06-08 | 深圳市腾讯计算机系统有限公司 | 一种产品用户网络构建方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于链接分析的SNS核心用户识别研究综述;陆晓燕 等;《中国电子商情 通信市场》;20101231(第6期);第310-315页 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110991767A (zh) * | 2019-12-20 | 2020-04-10 | 浙江大学 | 领先用户识别、预测方法以及技术趋势预测方法 |
CN110991767B (zh) * | 2019-12-20 | 2022-06-10 | 浙江大学 | 领先用户识别、预测方法以及技术趋势预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN103136267A (zh) | 2013-06-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103136267B (zh) | 一种基于社区的专家挖掘方法与装置 | |
Liu et al. | Towards early identification of online rumors based on long short-term memory networks | |
Acar et al. | Link prediction on evolving data using matrix and tensor factorizations | |
Wang et al. | A fusion probability matrix factorization framework for link prediction | |
Taha et al. | SIIMCO: A forensic investigation tool for identifying the influential members of a criminal organization | |
CN103064917A (zh) | 一种面向微博的特定倾向的高影响力用户群发现方法 | |
Chen et al. | Influence maximization on signed social networks with integrated pagerank | |
CN103927398A (zh) | 基于最大频繁项集挖掘的微博炒作群体发现方法 | |
CN107273396A (zh) | 一种社交网络信息传播检测节点的选择方法 | |
CN103488637B (zh) | 一种基于动态社区挖掘进行专家检索的方法 | |
CN106844407A (zh) | 基于数据集相关性的标签网络产生方法和系统 | |
CN112765482A (zh) | 产品投放方法、装置、设备及计算机可读介质 | |
CN103838806B (zh) | 一种社会网络用户参与主题行为分析方法 | |
Yu et al. | Fast budgeted influence maximization over multi-action event logs | |
Jiang et al. | Dynamic community detection based on game theory in social networks | |
CN110851684B (zh) | 一种基于三元关联图的社交话题影响力识别方法及装置 | |
CN102915369A (zh) | 基于超链接来源分析的网页排名方法 | |
Bhatnagar et al. | Role of machine learning in sustainable engineering: a review | |
Wang et al. | Emotion-based Independent Cascade model for information propagation in online social media | |
Yang et al. | On characterizing and computing the diversity of hyperlinks for anti-spamming page ranking | |
Zhao et al. | Prediction of competitive diffusion on complex networks | |
CN115330056A (zh) | 一种基于深度传播和广度传播的话题网络影响力用户预测方法 | |
Zhou et al. | Information diffusion on communication networks based on Big Data analysis | |
Manna et al. | Exploring topic models on short texts: a case study with crisis data | |
CN106209978A (zh) | 一种联盟关系服务组合选择系统及选择方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |