CN111127232A - 兴趣圈发现方法、装置、服务器和介质 - Google Patents

兴趣圈发现方法、装置、服务器和介质 Download PDF

Info

Publication number
CN111127232A
CN111127232A CN201811291543.8A CN201811291543A CN111127232A CN 111127232 A CN111127232 A CN 111127232A CN 201811291543 A CN201811291543 A CN 201811291543A CN 111127232 A CN111127232 A CN 111127232A
Authority
CN
China
Prior art keywords
relationship
network structure
user
interest
nodes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811291543.8A
Other languages
English (en)
Other versions
CN111127232B (zh
Inventor
潘剑飞
戴明洋
石逸轩
罗程亮
姚远
杨胜文
范斌
周俊
许金泉
陈家伟
王栋
刘少杰
刘康
王楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201811291543.8A priority Critical patent/CN111127232B/zh
Publication of CN111127232A publication Critical patent/CN111127232A/zh
Application granted granted Critical
Publication of CN111127232B publication Critical patent/CN111127232B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Tourism & Hospitality (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种兴趣圈发现方法、装置、服务器和介质,其中,该方法包括:基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;利用特定算法发现关系网络结构中的团块,将每个团块作为发现的兴趣圈。本发明实施例解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。

Description

兴趣圈发现方法、装置、服务器和介质
技术领域
本发明实施例涉及计算机技术领域,尤其涉及一种兴趣圈发现方法、装置、服务器和介质。
背景技术
生活中的各种关系都能构成关系网络结构,根据网络结构内关系连接的紧密和稀疏分布,能发现其中内部结构紧密,外部结构稀疏的不同的关系圈子。在社会学领域,社会学家也发现社区结构在各种复杂网络中的普遍存在性。近年来,随着关系网络的崛起,人们对该领域的关注度已大大提升。并且,随着互联网的发展和网络结构的扩张,网络内部的顶点数量不断增加,网络结构顶点几乎达到亿级别。发现这种庞大网络的内在社区结构对建立用户画像、进行文章推荐和广告推荐等都有一定指引作用。
现有的关系圈子发现算法通常是基于单数据源来进行处理,而单数据源数据量有限,关系的产生也具有很大的局限性,无法对关系圈子进行合理地发现,也就无法满足各领域对于发现关系圈子的现实需求。
发明内容
本发明实施例提供一种兴趣圈发现方法、装置、服务器和介质,以提高兴趣圈发现的合理性。
第一方面,本发明实施例提供了一种兴趣圈发现方法,该方法包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。
第二方面,本发明实施例还提供了一种兴趣圈发现装置,该装置包括:
关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
兴趣圈发现模块,用于利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈。
第三方面,本发明实施例还提供了一种服务器,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明任一实施例所述的兴趣圈发现方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任一实施例所述的兴趣圈发现方法。
本发明实施例通过基于至少两种数据源,构建出可用于描述用户和用户以及用户和每种不同数据源之间关系的关系网络结构,利用特定算法发现该关系网络结构中的团块,将每个团块作为发现的兴趣圈,解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。
附图说明
图1是本发明实施例一提供的兴趣圈发现方法的流程图;
图2是本发明实施例二提供的兴趣圈发现方法的流程图;
图3是本发明实施例二提供的一种异构网络结构的示意图;
图4是本发明实施例三提供的兴趣圈发现装置的结构示意图;
图5是本发明实施例四提供的一种服务器的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1是本发明实施例一提供的兴趣圈发现方法的流程图,本实施例可适用于基于关系网络结构发现兴趣圈的情况,该方法可以由兴趣圈发现装置来执行,该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图1所示,本实施例提供的兴趣圈发现方法可以包括:
S110、基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系。
在虚拟网络中,每个用户均可以参与不同的网络主题服务,因而在复杂关系网络中,除了同一网络主题服务下的用户可能存在交互关系外,不同网络主题服务之间的用户也可能存在一定的交互关系。其中,不同的网络主题服务是指基于不同服务策略的网络服务,不同网络主题服务对应不同的数据源,例如贴吧、feed文章和博文等属于不同的网络主题服务。相比于利用单一数据源建立关系网络结构的方式,基于多种数据源构建关系网络结构,即考虑用户在多种网络主题服务中的交叉网络行为,可以构建出更加全面的关系网络结构,从而为合理发现兴趣圈奠定基础。
示例性的,本实施例中至少两种数据源包括贴吧、feed文章和博文中的至少两种。网站贴吧数据指根据帖子的内容产生的用户交互数据,包括针对统一帖子内容的针对性评论、楼层对帖子的回复、楼层间相互的交互、楼中楼的交互和用户发布帖子的行为等;feed文章数据指针对feed文章的用户交互数据,包括用户针对文章的评论、用户间的点赞、用户间的关注和用户发布文章的行为等;博文数据指基于微博平台产生的用户交互数据,包括针对微博内容的用户评论、用户点赞、用户间交互和用户发布微博的行为等。以上数据源之间很少存在单纯的用户和用户之间的交互,更多的是通过文章或者帖子对不同的用户行为关系进行转化得到的交互关系,例如同时关注贴吧和微博的用户A对微博用户B的微博进行点赞,则可认为贴吧用户A和微博用户B通过微博点赞行为产生了交互关系。因此,尽管不同的数据源之间社交关系较弱,但是基于数据分析,仍可以建立起大规模的关系网络结构。
S120、利用特定算法发现关系网络结构中的团块,将每个团块作为发现的兴趣圈。
根据实际需求,可以从现有的社区发现算法选择特定算法,用于发现所建立的关系网络结构中的团块,一个团块即代表一个兴趣爱好一致的用户群。可选的,特定算法包括重叠标签传递算法,该算法即可用于发现重叠社区的基于标签传递的社区发现算法,其特点在于发现的兴趣圈结果中,用户可以属于不同的兴趣圈,即用户可以含有多个不同的兴趣点。此外,本实施例中特定算法还可以包括派系过滤CPM(Cluster Percolation method)算法和Louvain算法等。
现有技术中通常在单数据源的基础上利用k-means算法或者DBSCAN聚类等算法发现兴趣圈,其中的局限性包括用于发现兴趣圈的数据量有限,以及用户只能属于单一兴趣圈等,本实施例中采用将多源数据进行关系融合后发现兴趣圈的方式,不仅解决了现有技术中用于发现兴趣圈的数据量有限的问题,而且兴趣圈发现结果中用户可以属于多个不同的兴趣圈,使得兴趣圈的发现更加贴合实际情况。
因此,本实施例技术方案通过基于至少两种数据源构建出可用于描述用户和用户以及用户和每种不同数据源之间关系的关系网络结构,利用特定算法发现该关系网络结构中的团块,将每个团块作为发现的兴趣圈,解决了现有技术中基于单数据源的兴趣圈发现方案的合理性较低的问题,实现了基于多源数据关系融合发现兴趣圈的效果,提高了兴趣圈发现的合理性。
实施例二
图2是本发明实施例二提供的兴趣圈发现方法的流程图,本实施例是在上述实施例的基础上进一步进行优化。如图2所示,该方法可以包括:
S210、分析至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型。
其中,用户和用户之间的关系包括但不限于基于用户之间直接的回复(Reply)交互、关注(Focus)交互和点赞(Praise)交互等产生的多种类型的关系。例如,基于回复交互产生的用户关系包括在同一帖子、同一feed文章下或者同一博文下,楼层之间的回复交互关系以及楼中楼之间的回复交互关系等。
用户和每种不同的数据源之间的关系类型包括数据发布关系(Post)和数据评论(Comment)关系。数据发布关系包括但不限于:用户发布贴吧帖子、用户发布feed文章和用户发布博文所产生的关系;数据评论关系包括但不限于用户分别对贴吧帖子、feed文章和博文进行评论所产生的关系。
S220、基于确定的关系以及关系类型构建异构网络结构,其中,异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系。
确定出用户和用户之间、用户和不同数据源之间的关系后,便可进行抽象化的网络结构建模。本实施例中,首先构建出包含所有用户和数据源以及它们彼此间的关系的异构网络结构。在异构网络结构中,一个用户实体节点表示一个真实用户,一个数据源概念节点表示一种数据源,不同节点之间关系用节点之间的连线表示。图3以数据源包括贴吧、微博和feed文章为例,示出了一种异构网络结构的示意图。
S230、基于异构网络结构中各节点之间的关系和关系类型,将异构网络结构转化为同质网络结构,其中,同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。
如果直接基于异构网络结构发现兴趣圈,很大程度会产生数据源的硬切分的问题。数据源的硬切分是指数据源之间存在隐含的划分关系,基于同一数据源产生交互关系的用户很容易被直接划分到一个兴趣圈中,而这种划分存在不合理性,实际上,在兴趣圈的划分过程中应该将基于不同数据源产生的用户交互关系同样加以考虑。基于此,将异构网络结构中用户实体节点之间的关系以及用户实体节点和数据源概念节点之间的关系转化为用户实体节点与用户实体节点之间的统一关系,并将转化后的用户实体节点之间的关系确定为用户兴趣关系,从而得到同质网络结构,即在同质网络结构中,只存在用户实体节点,节点之间的关系即为用户兴趣关系。
可选的,基于异构网络结构中各节点之间的关系和关系类型,将异构网络结构转化为同质网络结构,包括:
基于异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
基于异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
基于用户实体节点和用户兴趣关系确定同质网络结构。
其中,异构网络结构中用户实体节点之间的关系可以保留至同质网络结构中;但是,在对用户实体节点与数据源概念节点之间的关系进行转化的过程中,可以将用户与数据源之间的数据评论关系转化为用户与评论对象对应的当前用户之间的兴趣关系,例如将数据评论关系转化为用户与贴吧帖子、feed文章或博文的当前发布者之间的兴趣关系;同时,可以将用户与数据源之间的数据发布关系转化为用户与发布内容对应的当前用户之间的兴趣关系,例如将数据发布关系转化为用户对贴吧帖子、feed文章或博文的当前发布者之间的兴趣关系。
S240、利用特定算法发现同质网络结构中的团块,每个团块作为发现的兴趣圈。
示例性的,可以利用重叠标签传递算法,发现同质网络结构中内部结构紧密且外部结构稀疏的团块结构,作为兴趣圈。
本实施例技术方案通过进行多源的数据关系融合,将多源异构网络结构合理转化为同质网络结构,进而利用特定算法发现同质网络结构中的团块,将每个团块作为兴趣圈,提高了兴趣圈发现的合理性。
在上述技术方案的基础上,可选的,在利用特定算法发现最后构建出的关系网络结构中的团块,将每个团块作为发现的兴趣圈之前,该方法还包括:
确定同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对同质网络结构中交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
将同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对至少两种数据源中的单一数据对象产生的兴趣关系。
考虑通过异构网络结构的转化得到的同质网络结构中,用户实体节点之间存在兴趣程度的强弱差异,而存在的较弱的兴趣关系,将会影响兴趣圈划分的合理性,例如,用户A和用户B之间存在较弱的兴趣关系,如果将用户A和用户B划分到同一个兴趣圈内,用户A和用户B真正发生交互行为的概率很小,这样划分显然存在不合理之处。因此,在发现兴趣圈之前,可以将同质网络结构中的弱关系进行过滤。
具体的,用户之间兴趣程度的强弱可利用用户之间的交互频数和用户兴趣关系涉及的具体数据对象的数量来衡量。其中,用户之间的交互频数总和包括基于不同数据源,用户之间发生回复交互、关注交互和点赞交互的所有交互次数之和,如果得到的用户之间的交互频数总和低于第一预设阈值,则说明用户之间的兴趣程度较弱,可以将对应的兴趣关系过滤掉。第一预设阈值可以根据关系过滤的需求进行适应性设置。其次,如果用户之间的兴趣关系是基于单一数据对象产生的,例如基于单一帖子、单一feed文章或者单一博文产生,同样说明用户之间的兴趣程度较弱,可以将对应的兴趣关系过滤掉。
需要说明的是,同质网络结构中弱关系的过滤,可以择一选择将用户之间的交互频数或者用户兴趣关系涉及的数据对象的数量作为过滤条件,也可以选择同时将两者作为过滤条件,即同时考虑用户之间的交互频数以及用户兴趣关系涉及的数据对象的数量。
弱关系过滤操作完成之后,便可以利用特定算法发现过滤之后的同质网络结构中的团块,作为兴趣圈。
在上述技术方案的基础上,进一步的,基于异构网络结构中各节点之间的关系和关系类型,将异构网络结构转化为同质网络结构,还包括:确定同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值,该程度值也用于同质网络结构中用户之间弱关系的过滤。
具体的,用户兴趣关系的程度值的确定过程包括:
统计异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据每种关系类型的交互次数和节点间关系类型总数,确定每种关系类型的权重;
确定同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值。
示例性的,异构网络结构中存在的节点间关系类型包括用户实体节点之间的关注交互关系a以及用户实体节点和数据源概念节点之间的数据发布关系b,其中,关系a对应的交互次数为3次,关系b对应的交互关系为6次,则关系a对应的权重为1/3,关系b对应的权重为2/3。将异构网络结构转化为同质网络结构后,如果同质网络结构中对应的用户实体节点A和用户实体节点B之间产生关注交互关系a的次数为2次,则用户实体节点A和B之间的兴趣关系程度值为2*(1/3)=2/3。依此方法,可以确定出同质网络结构中所有用户实体节点之间兴趣关系的程度值。程度值越大,表示用户之间的兴趣关系越强;程度值越小,表示用户之间的兴趣关系越弱。
相应的,在利用特定算法发现关系网络结构中的团块,每个团块作为发现的兴趣圈之前,该方法还包括:
对同质网络结构中用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。其中,第二预设阈值同样根据关系过滤需求进行适应性设置。
本实施例中提供了多种过滤同质网络结构中弱关系的过滤方式,例如可以利用用户之间的交互频数,用户兴趣关系涉及的数据对象的数量,以及异构网络结构中所有用户实体节点之间的用户兴趣关系的程度值等实现,方案实施的过程中可以根据实际需求选择任意一种弱关系过滤方式,或者将任意的弱关系过滤方式进行组合应用。
本实施例的技术方案通过进行多源的数据关系融合,将多源异构网络结构合理转化为同质网络结构,其中,同质网络结构中只包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系;然后对同质网络结构中的较弱的用户兴趣关系进行过滤,进而基于弱关系过滤后的同质网络结构发现兴趣圈,解决了基于单数据源发现兴趣圈的方案合理性较低的问题,提高了兴趣圈发现的合理性。
实施例三
图4是本发明实施例三提供的兴趣圈发现装置的结构示意图,本实施例可适用于基于关系网络结构发现兴趣圈的情况。该装置可以采用软件和/或硬件的方式实现,并可集成在服务器上。
如图4所示,本实施例提供的兴趣圈发现装置包括关系网络结构构建模块310和兴趣圈发现模块320,其中:
关系网络结构构建模块310,用于基于至少两种数据源构建关系网络结构,其中,关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
兴趣圈发现模块320,用于利用特定算法发现关系网络结构中的团块,每个团块作为发现的兴趣圈。
可选的,关系网络结构构建模块310包括:
数据分析单元,用于分析至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型;
异构网络结构构建单元,用于基于确定的关系以及关系类型构建异构网络结构,其中,异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系;
网络结构转化单元,用于基于异构网络结构中各节点之间的关系和关系类型,将异构网络结构转化为同质网络结构,其中,同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。
可选的,网络结构转化单元包括用户兴趣关系确定子单元和同质网络结构确定子单元,其中:
用户兴趣关系确定子单元,用于基于异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
用户兴趣关系确定子单元用于基于异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
同质网络结构确定子单元,用于基于用户实体节点和用户兴趣关系确定同质网络结构。
可选的,该装置还包括:
第一过滤模块,用于确定同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对同质网络结构中交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
第二过滤模块,用于将同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对至少两种数据源中的单一数据对象产生的兴趣关系。
可选的,网络结构转化单元还包括:关系程度确定子单元,用于确定所述同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值。
可选的,关系程度确定子单元具体用于:
统计异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据每种关系类型的交互次数和节点间关系类型总数,确定每种关系类型的权重;
确定同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值;
相应的,该装置还包括:
第三过滤模块,用于对同质网络结构中用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。
可选的,兴趣圈发现模块320中的特定算法包括重叠标签传递算法。
可选的,关系网络结构构建模块310中的至少两种数据源包括贴吧、feed文章和博文中的至少两种。
本发明实施例所提供的兴趣圈发现装置可执行本发明任意实施例所提供的兴趣圈发现方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意方法实施例的内容解释。
实施例四
图5是本发明实施例四提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器412的框图。图5显示的服务器412仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图5所示,服务器412以通用服务器的形式表现。服务器412的组件可以包括但不限于:一个或者多个处理器416,存储装置428,连接不同系统组件(包括存储装置428和处理器416)的总线418。
总线418表示几类总线结构中的一种或多种,包括存储装置总线或者存储装置控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance,ISA)总线,微通道体系结构(Micro Channel Architecture,MAC)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
服务器412典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器412访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置428可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)430和/或高速缓存存储器432。服务器412可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统434可以用于读写不可移动的、非易失性磁介质(图5未显示,通常称为“硬盘驱动器”)。尽管图5中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘,例如只读光盘(Compact Disc Read-Only Memory,CD-ROM),数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线418相连。存储装置428可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块442的程序/实用工具440,可以存储在例如存储装置428中,这样的程序模块442包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块442通常执行本发明所描述的实施例中的功能和/或方法。
服务器412也可以与一个或多个外部设备414(例如键盘、指向终端、显示器424等)通信,还可与一个或者多个使得用户能与该服务器412交互的终端通信,和/或与使得该服务器412能与一个或多个其它计算终端进行通信的任何终端(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口422进行。并且,服务器412还可以通过网络适配器420与一个或者多个网络(例如局域网(Local Area Network,LAN),广域网(Wide AreaNetwork,WAN)和/或公共网络,例如因特网)通信。如图5所示,网络适配器420通过总线418与服务器412的其它模块通信。应当明白,尽管图中未示出,可以结合服务器412使用其它硬件和/或软件模块,包括但不限于:微代码、终端驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器416通过运行存储在存储装置428中的程序,从而执行各种功能应用以及数据处理,例如实现本发明任意实施例所提供的兴趣圈发现方法,该方法可以包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。
实施例五
本发明实施例五还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明任意实施例所提供的兴趣圈发现方法,该方法可以包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或终端上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (18)

1.一种兴趣圈发现方法,其特征在于,包括:
基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
利用特定算法发现所述关系网络结构中的团块,将每个团块作为发现的兴趣圈。
2.根据权利要求1所述的方法,其特征在于,所述基于至少两种数据源构建关系网络结构,包括:
分析所述至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型;
基于所述关系以及关系类型构建异构网络结构,其中,所述异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系;
基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,其中,所述同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。
3.根据权利要求2所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,包括:
基于所述异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
基于所述异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
基于所述用户实体节点和所述用户兴趣关系确定所述同质网络结构。
4.根据权利要求3所述的方法,其特征在于,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
确定所述同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对所述同质网络结构中所述交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
将所述同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对所述至少两种数据源中的单一数据对象产生的兴趣关系。
5.根据权利要求3所述的方法,其特征在于,基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,还包括:确定所述同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值。
6.根据权利要求5所述的方法,其特征在于,所述用户兴趣关系的程度值的确定过程包括:
统计所述异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据所述每种关系类型的交互次数和所述节点间关系类型总数,确定每种关系类型的权重;
确定所述同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用所述权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值;
相应的,在所述利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈之前,所述方法还包括:
对所述同质网络结构中所述用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。
7.根据权利要求1~6任一所述的方法,其特征在于,所述特定算法包括重叠标签传递算法。
8.根据权利要求1~6任一所述的方法,其特征在于,所述至少两种数据源包括贴吧、feed文章和博文中的至少两种。
9.一种兴趣圈发现装置,其特征在于,包括:
关系网络结构构建模块,用于基于至少两种数据源构建关系网络结构,其中,所述关系网络结构用于描述用户和用户以及用户和每种不同的数据源之间的关系;
兴趣圈发现模块,用于利用特定算法发现所述关系网络结构中的团块,每个团块作为发现的兴趣圈。
10.根据权利要求9所述的装置,其特征在于,所述关系网络结构构建模块包括:
数据分析单元,用于分析所述至少两种数据源中的数据,确定用户和用户之间、以及用户和每种不同的数据源之间的关系以及关系类型;
异构网络结构构建单元,用于基于所述关系以及关系类型构建异构网络结构,其中,所述异构网络结构中包含用户实体节点、数据源概念节点、用户实体节点和用户实体节点的关系、用户实体节点和数据源概念节点的关系;
网络结构转化单元,用于基于所述异构网络结构中各节点之间的关系和关系类型,将所述异构网络结构转化为同质网络结构,其中,所述同质网络结构中包含用户实体节点、以及用户实体节点与用户实体节点之间的用户兴趣关系。
11.根据权利要求10所述的装置,其特征在于,所述网络结构转化单元包括:
用户兴趣关系确定子单元,用于基于所述异构网络结构中用户实体节点之间的关系确定用户实体节点之间的用户兴趣关系;以及
基于所述异构网络结构中用户实体节点与数据源概念节点之间的关系和关系类型,将多个用户实体节点与数据源概念节点之间的关系转化为多个用户实体节点之间的用户兴趣关系;
同质网络结构确定子单元,用于基于所述用户实体节点和所述用户兴趣关系确定所述同质网络结构。
12.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第一过滤模块,用于确定所述同质网络结构中用户实体节点之间基于不同数据源的交互频数总和,并对所述同质网络结构中所述交互频数总和低于第一预设阈值的用户兴趣关系进行过滤;和/或
第二过滤模块,用于将所述同质网络结构中用户实体节点之间符合如下条件的用户兴趣关系进行过滤:用户兴趣关系为针对所述至少两种数据源中的单一数据对象产生的兴趣关系。
13.根据权利要求11所述的装置,其特征在于,所述网络结构转化单元还包括:关系程度确定子单元,用于确定所述同质网络结构中任意两个用户实体节点之间的用户兴趣关系的程度值。
14.根据权利要求13所述的装置,其特征在于,所述关系程度确定子单元具体用于:
统计所述异构网络结构中存在的节点间关系类型总数,以及每种关系类型的交互次数;
根据所述每种关系类型的交互次数和所述节点间关系类型总数,确定每种关系类型的权重;
确定所述同质网络结构中任意两个用户实体节点之间存在的每种关系类型的交互次数,利用所述权重和每种关系类型的交互次数,经加权求和得到该任意两个用户实体节点之间的用户兴趣关系的程度值;
相应的,所述装置还包括:
第三过滤模块,用于对所述同质网络结构中所述用户兴趣关系的程度值低于第二预设阈值的用户兴趣关系进行过滤。
15.根据权利要求9~14任一所述的装置,其特征在于,所述特定算法包括重叠标签传递算法。
16.根据权利要求9~14任一所述的装置,其特征在于,所述至少两种数据源包括贴吧、feed文章和博文中的至少两种。
17.一种服务器,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1~8中任一所述的兴趣圈发现方法。
18.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1~8中任一所述的兴趣圈发现方法。
CN201811291543.8A 2018-10-31 2018-10-31 兴趣圈发现方法、装置、服务器和介质 Active CN111127232B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811291543.8A CN111127232B (zh) 2018-10-31 2018-10-31 兴趣圈发现方法、装置、服务器和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811291543.8A CN111127232B (zh) 2018-10-31 2018-10-31 兴趣圈发现方法、装置、服务器和介质

Publications (2)

Publication Number Publication Date
CN111127232A true CN111127232A (zh) 2020-05-08
CN111127232B CN111127232B (zh) 2023-08-29

Family

ID=70494667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811291543.8A Active CN111127232B (zh) 2018-10-31 2018-10-31 兴趣圈发现方法、装置、服务器和介质

Country Status (1)

Country Link
CN (1) CN111127232B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115367A (zh) * 2020-09-28 2020-12-22 北京百度网讯科技有限公司 基于融合关系网络的信息推荐方法、装置、设备和介质
CN112115381A (zh) * 2020-09-28 2020-12-22 北京百度网讯科技有限公司 融合关系网络的构建方法、装置、电子设备和介质

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198171A (ja) * 2007-02-13 2008-08-28 Iru Kim ウェブ文書の利用者関心度分析方法及びこのためのシステム
CN103544623A (zh) * 2013-11-06 2014-01-29 武汉大学 一种基于用户偏好特征建模的Web 服务推荐方法
CN103870510A (zh) * 2012-12-17 2014-06-18 华中科技大学 一种基于分布式并行处理模式的社交网络好友过滤方法
CN104268271A (zh) * 2014-10-13 2015-01-07 北京建筑大学 一种兴趣和网络结构双内聚的社交网络社区发现方法
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
US20160203523A1 (en) * 2014-02-21 2016-07-14 Lithium Technologies, Inc. Domain generic large scale topic expertise and interest mining across multiple online social networks
US20170039278A1 (en) * 2012-12-26 2017-02-09 Google Inc. Annotating social graph edges with interest graph information
US20170076297A1 (en) * 2015-09-10 2017-03-16 Salesforce.Com, Inc. Polarity turn-around time of social media posts
WO2017133007A1 (en) * 2016-02-05 2017-08-10 Hewlett Packard Enterprise Development Lp User interest and relationship determination
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN108090197A (zh) * 2017-12-22 2018-05-29 河南科技大学 一种多维社交网络的社区发现方法
CN108197332A (zh) * 2018-02-13 2018-06-22 黑龙江大学 社会网中基于主题兴趣的影响最大化方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008198171A (ja) * 2007-02-13 2008-08-28 Iru Kim ウェブ文書の利用者関心度分析方法及びこのためのシステム
CN103870510A (zh) * 2012-12-17 2014-06-18 华中科技大学 一种基于分布式并行处理模式的社交网络好友过滤方法
US20170039278A1 (en) * 2012-12-26 2017-02-09 Google Inc. Annotating social graph edges with interest graph information
CN103544623A (zh) * 2013-11-06 2014-01-29 武汉大学 一种基于用户偏好特征建模的Web 服务推荐方法
US20160203523A1 (en) * 2014-02-21 2016-07-14 Lithium Technologies, Inc. Domain generic large scale topic expertise and interest mining across multiple online social networks
CN105573995A (zh) * 2014-10-09 2016-05-11 中国银联股份有限公司 一种兴趣识别方法、设备以及数据分析方法
CN104268271A (zh) * 2014-10-13 2015-01-07 北京建筑大学 一种兴趣和网络结构双内聚的社交网络社区发现方法
US20170076297A1 (en) * 2015-09-10 2017-03-16 Salesforce.Com, Inc. Polarity turn-around time of social media posts
WO2017133007A1 (en) * 2016-02-05 2017-08-10 Hewlett Packard Enterprise Development Lp User interest and relationship determination
CN107122455A (zh) * 2017-04-26 2017-09-01 中国人民解放军国防科学技术大学 一种基于微博的网络用户增强表示方法
CN108090197A (zh) * 2017-12-22 2018-05-29 河南科技大学 一种多维社交网络的社区发现方法
CN108197332A (zh) * 2018-02-13 2018-06-22 黑龙江大学 社会网中基于主题兴趣的影响最大化方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
TL WANG,等: "A Review of Link Prediction in Social Networks", 《INTERNATIONAL CONFERENCE ON MANAGEMENT OF E-COMMERCE AND E-GOVERNMENT》 *
潘可: "面向多源社交网络的用户兴趣爱好特征分析与推荐技术研究", 《万方》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112115367A (zh) * 2020-09-28 2020-12-22 北京百度网讯科技有限公司 基于融合关系网络的信息推荐方法、装置、设备和介质
CN112115381A (zh) * 2020-09-28 2020-12-22 北京百度网讯科技有限公司 融合关系网络的构建方法、装置、电子设备和介质
CN112115367B (zh) * 2020-09-28 2024-04-02 北京百度网讯科技有限公司 基于融合关系网络的信息推荐方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111127232B (zh) 2023-08-29

Similar Documents

Publication Publication Date Title
Guo et al. Robust spammer detection using collaborative neural network in Internet-of-Things applications
US9679074B2 (en) Social genome
CN106357517B (zh) 定向标签生成方法及装置
Andryani et al. Social media analytics: data utilization of social media for research
CN105378717B (zh) 用于对社交媒体的用户分类的方法、计算机程序和计算机
US11570214B2 (en) Crowdsourced innovation laboratory and process implementation system
CN111538774B (zh) 数据存储及展示方法、系统、设备及存储介质
CN110555172A (zh) 用户关系挖掘方法及装置、电子设备和存储介质
CN104424187B (zh) 一种向客户端用户推荐好友的方法及装置
CN108108419B (zh) 一种信息推荐方法、装置、设备和介质
JP7167229B2 (ja) 融合関係ネットワークの構築方法、融合関係ネットワークの構築装置、電子デバイス、記憶媒体及びプログラム
US11010687B2 (en) Detecting abusive language using character N-gram features
CN110399564B (zh) 帐号分类方法和装置、存储介质及电子装置
CN111127232B (zh) 兴趣圈发现方法、装置、服务器和介质
Gunti et al. Data mining approaches for sentiment analysis in online social networks (OSNs)
CN103999082A (zh) 用于检测社交媒体中的社区的方法、计算机程序和计算机
Wang et al. The silent majority speaks: Inferring silent users' opinions in online social networks
CN111092804B (zh) 信息推荐方法、信息推荐装置、电子设备和存储介质
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
Cao E-Commerce Big Data Mining and Analytics
CN111832304B (zh) 楼盘名称的查重方法、装置、电子设备及存储介质
CN114926201B (zh) 拼团请求推送方法、装置、设备及存储介质
Ria Andryani et al. Social Media Analytics: Data Utilization of Social Media for Research.
Dong et al. Relational Graph Construction Method and Information Management System Based on the Relational Graph Convolutional Network
CN113051483A (zh) 一种帖子热度的计算方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant