CN108985309A - 一种数据处理方法以及装置 - Google Patents

一种数据处理方法以及装置 Download PDF

Info

Publication number
CN108985309A
CN108985309A CN201710405424.XA CN201710405424A CN108985309A CN 108985309 A CN108985309 A CN 108985309A CN 201710405424 A CN201710405424 A CN 201710405424A CN 108985309 A CN108985309 A CN 108985309A
Authority
CN
China
Prior art keywords
user
customer relationship
vector
node
net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710405424.XA
Other languages
English (en)
Other versions
CN108985309B (zh
Inventor
尹红军
张�浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201710405424.XA priority Critical patent/CN108985309B/zh
Priority to PCT/CN2018/088399 priority patent/WO2018219223A1/zh
Publication of CN108985309A publication Critical patent/CN108985309A/zh
Application granted granted Critical
Publication of CN108985309B publication Critical patent/CN108985309B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例公开了一种数据处理方法以及装置,其中方法包括:获取用户关系网,并根据用户关系网创建以用户关系网中的每个用户为节点的用户关系拓扑图,并根据用户关系拓扑图生成每个用户分别对应的用户关系向量;获取每个用户分别对应的用户属性向量,并分别将每个用户对应的用户关系向量和用户属性向量进行合并,得到每个用户分别对应的目标向量;根据每个用户分别对应的目标向量对用户关系网进行聚类,以将用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。采用本发明,可丰富划分维度,以提高社区划分的精度。

Description

一种数据处理方法以及装置
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据处理方法以及装置。
背景技术
目前社交网络中进行社区划分的主要方法为Fast Unfolding,Fast Unfolding是基于模块度作为度量社区划分优劣的重要标准。基于Fast Unfolding划分后的网络模块度值越大,说明社区划分的效果越好。Fast Unfolding算法是一种迭代的算法,主要目标是不断划分社区使得划分后的整个网络的模块度不断增大。
但是对于目前海量的社交关系,Fast Unfolding在进行社区划分时将要面对十分高的计算复杂度,如需要进行海量的迭代操作才能使社区结构收敛。而且Fast Unfolding在进行社区划分时仅仅考虑了用户之间的社交关系,导致划分维度比较单一,降低了社区划分的精度。
发明内容
本发明实施例提供一种数据处理方法以及装置,可丰富划分维度,以提高社区划分的精度。
本发明第一方面提供了一种数据处理方法,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
其中,所述获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
根据所述多个节点序列生成所述每个用户分别对应的用户关系向量。
其中,所述在所述用户关系拓扑图中生成多个节点序列,具体包括:
在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列,继续在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并重复执行本步骤,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。
其中,还包括:
接收预设的参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数。
其中,所述根据所述多个节点序列生成所述每个用户分别对应的用户关系向量,具体包括:
将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
其中,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。
其中,所述获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量,并继续选择下一个子拓扑图作为所述目标子拓扑图,重复执行本步骤,直至每个子拓扑图均被作为所述目标子拓扑图;
将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
其中,所述根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合,包括:
在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
其中,在所述目标向量所在的向量空间设置多个聚类中心向量的步骤之前,还包括:
基于预设的预测模型,对各目标向量进行预测处理,得到聚类中心向量的数量。
其中,还包括:
计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。
本发明第二方面提供了一种数据处理装置,包括:
生成模块,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
合并模块,用于获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
聚类模块,用于根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
其中,所述生成模块包括:
第一获取创建单元,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
第一生成单元,用于在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
第二生成单元,用于根据所述多个节点序列生成所述每个用户分别对应的用户关系向量。
其中,所述第一生成单元包括:
序列生成子单元,用于在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列;
通知子单元,用于在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并通知所述序列生成子单元生成新选择出的所述起始节点对应的多个节点序列,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。
其中,所述第一生成单元包还包括:
度数接收子单元,用于接收预设的参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数。
其中,所述第二生成单元,具体用于将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
其中,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。
其中,所述生成模块包括:
第二获取创建单元,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
划分创建单元,用于将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
第三生成单元,用于在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
第四生成单元,用于在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量;
通知单元,用于选择下一个子拓扑图作为所述目标子拓扑图,并通知所述第四生成单元生成新选择出的所述目标子拓扑图中各节点分别对应的子节点关系向量,直至每个子拓扑图均被作为所述目标子拓扑图;
组合生成单元,用于将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
其中,所述聚类模块包括:
设置计算单元,用于在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
划分单元,用于根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
其中,所述聚类模块还包括:
预测单元,用于基于预设的预测模型,对各目标向量进行预测处理,得到聚类中心向量的数量。
其中,还包括:
计算获取模块,用于计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
标签设置模块,用于根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。
本发明第三方面提供一种数据处理装置,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
本发明第四方面提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行本发明第一方面中的方法。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图1a是本发明实施例提供的一种用户关系拓扑图的局部示意图;
图1b是本发明实施例提供的另一种用户关系拓扑图的局部示意图;
图2是本发明实施例提供的另一种数据处理方法的流程示意图;
图3是本发明实施例提供的又一种数据处理方法的流程示意图;
图3a是本发明实施例提供的又一种用户关系拓扑图的局部示意图;
图4是本发明实施例提供的一种数据处理装置的结构示意图;
图5是本发明实施例提供的一种生成模块的结构示意图;
图6是本发明实施例提供的另一种生成模块的结构示意图
图7是本发明实施例提供的一种聚类模块的结构示意图;
图8是本发明实施例提供的另一种数据处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参见图1,是本发明实施例提供的一种数据处理方法的流程示意图,所述方法可以包括:
S101,获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
具体的,服务器可以获取用户关系网。所述用户关系网可以为即时通信应用系统中的用户关系网。所述即时通信应用系统可以为一种网络社交平台,用户之间可以在该网络社交平台上相互进行数据通信,同时一个用户可以在该网络社交平台上与一个或多个用户建立好友关系,多个用户之间的好友关系可以构成所述即时通信应用系统中的用户关系网。进一步的,所述服务器可以根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,即所述用户关系拓扑图中的每两个直接连接的节点表示这两个节点对应的用户为好友关系。
进一步的,请一并参见图1a,是本发明实施例提供的一种用户关系拓扑图的局部示意图,如图1a所示,局部的用户关系拓扑图包括5个节点,分别为X1、X2、X3、X4、X5,这5个节点也分别代表5个不同的用户;其中,(X1和X2)、(X1和X3)、(X2和X3)、(X3和X4)、(X3和X5)之间均为直接好友关系,可以相互称为一度好友,如X1是X3的一度好友;其中,(X1和X4)、(X1和X5)、(X2和X4)、(X2和X5)、(X4和X5)之间均为间接好友关系,可以互相称为二度好友,如X4是X1的二度好友(即X4是X1的一度好友X3的一度好友),即一个节点可以对应有零度好友(即该节点本身)、一度好友以及二度好友。
所述服务器还可以进一步在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;以图1a为例,可以生成节点序列“X1-X3-X4”、“X2-X3-X4”等长度为3的节点序列。其中,所述服务器可以具体通过Random Walk(随机漫步)算法在所述用户关系拓扑图中生成多个节点序列。所述Random Walk算法的具体过程为:在所述用户关系拓扑图中选择一个节点作为起始节点,标记起始节点为当前位置,随机或根据预设概率选择当前位置的一个邻居节点,并将当前位置移动至被选择的邻居节点位置(即标记被选择的邻居节点为当前位置),重复该步骤n次,最终会得到从起始节点到结束节点的长度为n的节点序列,通过选择不同的节点作为起始节点,可以生成更多的长度为n的节点序列。
进一步的,请一并参见图1b,是本发明实施例提供的另一种用户关系拓扑图的局部示意图,如图1b所示,设t为节点序列的起始节点,其中,X1和X2均是t的一度好友,X3是t的二度好友,且预设的跳转到t本身的转移概率a=1/p,跳转到t的一度好友的转移概率a=1,跳转到t的二度好友的转移概率a=1/q;因此,若t已经跳转到X2,则X2跳转到t的转移概率a=1/p,X2跳转到X1转移概率a=1的,X2跳转到X3转移概率a=1/q,进而X2可以根据相应的转移概率跳转至t或X1或X3;若X2进一步跳转到X1后,则可以根据X1跳转回X2、X1跳转到X2的一度好友、X1跳转到X2的二度好友分别对应的转移概率进行进一步跳转。即每个节点均可以跳转到上一个节点对应的自身或一度好友或二度好友,所以在生成节点序列的过程中可以根据每次跳转到的节点重新确定相应节点的转移概率。其中,p和q是Random Walk算法中的两个重要参数,可以影响Random Walk算法所生成的节点序列。当q>1时,X2偏向于向t的一度好友转移,此时的Random Walk倾向于广度优先搜索;当q<1时,X2偏向于向t的二度好友转移,此时的Random Walk倾向于深度优先搜索。
所述服务器可以进一步基于word2vec工具对所述多个节点序列进行处理,以生成所述用户关系拓扑图中的每个节点分别对应的用户关系向量(即所述每个用户分别对应的用户关系向量)。word2vec使用的是Distributed representation的词向量表示方式,word2vec的基本思想是通过训练多个节点序列以将每个节点映射成用户关系向量(如实数向量)。由于所述用户关系向量可以用来表征用户的社交关系特征,所以各用户关系向量之间的距离(比如cosine相似度、欧氏距离等)可以表征各节点之间的社交关系的相关性(如两个用户关系向量的距离越小,则说明对应的两个节点之间的社交关系的相关性越高)。word2vec是采用一个三层的神经网络的模型(输入层-隐层-输出层),即可以将所述多个节点序列输入到神经网络的输入层,在隐层对所述多个节点序列进行训练以将每个节点映射到n维的空间向量,生成每个节点分别对应的n维的用户关系向量,并在输出层输出各用户关系向量。
S102,获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
具体的,所述服务器可以在所述即时通信应用系统中获取所述用户关系网中各用户的用户属性信息,所述用户属性信息可以包括年龄、性别、兴趣、职业、地理位置等属性信息。所述服务器可以进一步将所述各用户的用户属性信息映射到多维向量空间,以生成所述各用户的用户属性向量。由于所述用户属性向量可以表征用户属性特征,所以两个用户属性向量之间的距离越小,就说明对应的两个用户之间的用户属性越相似(如这两个用户的年龄、兴趣、职业越相似)。所述服务器可以进一步将分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量。例如,有用户A、用户B以及用户C,若用户A对应的用户关系向量为a1,用户A对应的用户属性向量为a2,用户B对应的用户关系向量为b1,用户B对应的用户属性向量为b2,用户C对应的用户关系向量为c1,用户C对应的用户属性向量为c2,则用户A对应的目标向量为(a1,a2),用户B对应的目标向量为(b1,b2),用户C对应的目标向量为(c1,c2)。得到所述目标向量的向量融合过程即为向量拼接过程。
S103,根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同;
具体的,所述服务器可以通过kmeans对所述每个用户分别对应的目标向量进行聚类,以实现对所述用户关系网进行聚类,即可以将所述用户关系网中的所有用户划分成多个不同的用户圈子(即用户集合)。例如,不同的用户圈子可以包括同事圈子、家人圈子、游戏好友圈子、篮球好友圈子等等,即各用户集合分别对应的人群类型互不相同,所述人群类型可以包括同事类型、家人类型、游戏好友类型、篮球好友类型等等。
其中,通过kmeans进行聚类的具体过程可以为:基于kmeans聚类算法,在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;其中,所述用户集合的数量与所述聚类中心向量的数量相同。其中,若所述用户关系网为即时通信应用系统中的整个关系网,则通过所述各用户集合,即可得到所述用户关系网中各用户的ego-centric network(以自我为中心的社会网络)的圈子分布。若所述用户关系网为即时通信应用系统中的某个用户的ego-centricnetwork,则所述各用户集合即为该用户的ego-centric network的圈子分布。其中,若S101中的所述Random Walk算法中的p=1,q=0.5,则聚类后的各节点之间具有关系上的同质性;若S101中的所述Random Walk算法中的p=1,q=2,则聚类后的各节点之间具有结构上的等效性。
例如,第一步,从n个目标向量中任意选择k个目标向量作为初始的聚类中心向量;第二步,对于所剩下的(n-k)个目标向量,则计算剩下的(n-k)个目标向量与k个初始的聚类中心向量之间的向量距离(即相似度),对于一个目标向量,可以将该目标向量分配给最小的向量距离所对应的聚类中心向量所代表的圈子,因此,可以将剩下的(n-k)个目标向量分别分配到不同的圈子;第三步,再根据每个圈子中的目标向量更新每个圈子的聚类中心向量(如可以将圈子中所有目标向量的均值作为更新后的聚类中心向量);不断重复第二步和第三步的过程,直到标准测度函数开始收敛为止,即完成了对n个目标向量的聚类。一般都采用均方差作为标准测度函数。kmeans聚类具有以下特点:各聚类本身尽可能的紧凑,而各聚类之间尽可能的分开。其中,在使用kmeans聚类算法之前,还需要确定k的值,即聚类中心向量的数量,具体可以通过预设的预测模型从所有目标向量中推断簇的数量,即推断出k的值,所述预设的预测模型可以为DPMM(Dirichlet Process Mixture Model,狄利克雷过程混合模型)。
可选的,由于一个人属于某个圈子的置信度与其目标向量与聚类中心向量的距离正相关,所以可以预设一个距离阈值,通过所述距离阈值可以进一步对各用户集合进行调整,如可以将用户集合中的向量距离大于所述距离阈值的用户移出用户集合,以保证用户集合中的用户更符合该用户集合对应的人群类型,即进一步提高圈子划分的精度。
可选的,通过kmeans算法进行聚类所得到的各用户集合之间互不重叠,因此,若要用户集合之间存在重叠,则需要采用软聚类算法,如GMM(Gaussian Mixture Mode,高斯混合模型)、模糊c-means算法、模糊c-均值聚类算法等软聚类算法。通过采用软聚类算法进行聚类的各节点都会存在相对于每个聚类的隶属度;通过采用软聚类算法进行聚类所得到的各用户集合具备更好的灵活性。
所述服务器可以进一步计算各用户集合分别对应的人群特征参数;所述人群特征参数可以包括属性特征方差、属性特征均值等参数,所述属性特征方差可以包括地理位置方差、年龄方差、兴趣特征方差等方差,所述属性特征均值可以包括地理位置均值、年龄均值、兴趣特征均值等均值。所述服务器可以基于GBDT(Gradient Boosting Decision Tree,梯度提升决策树)等机器学习算法对所述人群特征参数进行训练,以识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。例如,若某个用户集合的地理位置方差比较小,则可以为该用户集合设置家人类型标签;若某个用户集合的篮球兴趣特征方差比较小,则可以为该用户集合设置篮球好友类型标签。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。
请参见图2,是本发明实施例提供的另一种数据处理方法的流程示意图,所述方法可以包括:
S201,获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
具体的,服务器可以获取用户关系网。所述用户关系网可以为即时通信应用系统中的用户关系网。所述即时通信应用系统可以为一种网络社交平台,用户之间可以在该网络社交平台上相互进行数据通信,同时一个用户可以在该网络社交平台上与一个或多个用户建立好友关系,多个用户之间的好友关系可以构成所述即时通信应用系统中的用户关系网。进一步的,所述服务器可以根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,即所述用户关系拓扑图中的每两个直接连接的节点表示这两个节点对应的用户为好友关系。具体可以参见对上述图1a的用户关系拓扑图的局部示意图的描述,这里不再进行赘述。
S202,在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
具体的,所述服务器可以在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列,继续在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并重复执行本步骤,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。其中,所述随机漫步参数可以为上述图1b对应实施例中的Random Walk算法中的p、q参数,所述关系度数可以指上述图1b对应实施例中的零度好友、一度好友、二度好友。基于Random Walk算法的p和q参数生成所述多个节点序列的具体过程可以参见上述图1b对应实施例的描述,这里不再进行赘述。
S203,将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
具体的,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。基于所述多个节点序列生成所述用户关系向量的具体过程可以参见上述图1对应实施例中的S101中对word2vec的描述,这里不再进行赘述。
Random Walk和word2vec的过程可以称为node2vec算法,而S202步骤是基于Random Walk算法对整个用户关系网进行处理的,所以本实施例的node2vec算法具体为全局node2vec,即对整个用户关系网进行node2vec处理。本实施例是采用分布式计算进行node2vec,即本实施例通过多个业务服务器并行处理node2vec(每个业务服务器分别负责不同的节点),以解决规模网络图中单机无法计算的问题。并同时采用参数服务器(Parameter-Server)的架构来解决这一问题。由于Random Walk的过程中需要查询二度好友关系,所以每个业务服务器之间需要相互请求整个用户关系网的好友关系,而且每次查询二度好友关系时都需要对邻接表进行JOIN操作,从而导致分布式计算过程产生大量的Shuffle过程,这样不仅会产生巨大的中间结果,而且网络通信消耗巨大。而且在word2vec过程中各业务服务器需要互相同步梯度和更新参数,所以也进一步增加了分布式计算过程中的网络通信消耗。因此,为了解决分布式计算过程中网络通信消耗巨大的问题,本实施例可以采用PS架构形成邻接表存储于参数服务器中,使得后续可以基于参数服务器中的邻接表进行二度好友的批量查询操作,以完成Random Walk过程,而且还可以通过参数服务器计算一些通用参数(如用户关系向量),从而可以有效减少网络通信消耗。
因此,在S202步骤之前,所述服务器可以接收所述参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数,以减少业务服务器向其他多个业务服务器进行基于关系度数的通信,从而可以有效减少网络通信消耗;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数。所述关系度数可以存放在所述参数服务器中的所述邻接表中。
S204,获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
其中,S204步骤的具体实现方式可以参见上述图1对应实施例中的S102,这里不再进行赘述。
S205,在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
S206,根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。S205步骤和S206步骤的具体实现方式可以参见上述图1对应实施例中的S103,这里不再进行赘述。
S207,计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
具体的,所述服务器可以进一步计算各用户集合分别对应的人群特征参数;所述人群特征参数可以包括属性特征方差、属性特征均值等参数,所述属性特征方差可以包括地理位置方差、年龄方差、兴趣特征方差等方差,所述属性特征均值可以包括地理位置均值、年龄均值、兴趣特征均值等均值。所述服务器还可以进一步获取所述各用户集合分别对应的活跃用户属性,一个用户集合中的所述活跃用户属性可以是指该用户集合中的N个活跃用户的用户属性信息,所述用户属性信息可以包括年龄、性别、兴趣、职业、地理位置等属性信息,所述N个活跃用户可以指该用户集合中社交互动频率排在前N位的用户。
S208,根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签;
具体的,所述服务器进一步基于GBDT对所述人群特征参数和所述活跃用户属性进行训练,以识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。所述活跃用户属性是更加细粒度的特征,所以通过加入所述活跃用户属性,可以提高识别所述各用户集合分别对应的人群类型的准确性。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。而且在进行全局node2vec的过程中,通过引入参数服务器,可以有效减少网络通信消耗。
请参见图3,是本发明实施例提供的又一种数据处理方法的流程示意图,所述方法可以包括:
S301,获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
具体的,S301步骤的具体实现方式可以参见上述图2对应实施例的S201,这里不再进行赘述。
S302,将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
例如,所述用户关系拓扑图有10个节点,则可以在所述用户关系拓扑图中划分出子拓扑图A、子拓扑图B、子拓扑图C,子拓扑图A包括3个节点、子拓扑图B包括3个节点、子拓扑图C包括4个节点;进一步的,将子拓扑图A、子拓扑图B、子拓扑图C均作为新的节点,并以这3个新的节点创建模块化拓扑图,即模块化拓扑图是由这3个新的节点构成。
S303,在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
具体的,所述服务器基于Random Walk算法在所述模块化拓扑图中生成多个模块节点序列,每个模块节点序列均是由所述模块化拓扑图中的节点构成的。所述服务器基于Random Walk算法在所述模块化拓扑图中生成多个模块节点序列的原理,与上述图1对应实施例中的S101和上述图1b中在所述用户关系拓扑图中生成多个节点序列的原理是相同的,这里不再进行赘述。所述模块节点序列是基于子拓扑图生成的,所述节点序列是基于所述用户关系拓扑图中的节点生成的,所以生成所述模块节点序列的过程与生成所述节点序列的过程,仅仅是处理对象不同。
所述服务器进一步基于word2vec对所述多个模块节点序列进行训练,以生成所述每个子拓扑图分别对应的模块关系向量。所述服务器基于word2vec生成所述模块关系向量的原理,与上述图1对应实施例中的S101和上述图1b中基于word2vec生成所述用户关系向量的原理相同,这里不再进行赘述。
S304,在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量,并继续选择下一个子拓扑图作为所述目标子拓扑图,重复执行本步骤,直至每个子拓扑图均被作为所述目标子拓扑图;
具体的,所述服务器可以基于Random Walk算法在所述目标子拓扑图中生成多个子节点序列,所述服务器生成子节点序列的原理与上述图1对应实施例中的S101和上述图1b中在所述用户关系拓扑图中生成多个节点序列的原理是相同的,这里不再进行赘述。所述子节点序列是在子拓扑图中生成的,所述节点序列是在所述用户关系拓扑图中生成的,所以生成所述子节点序列的过程和生成所述节点序列的过程,仅仅是处理范围不同。
所述服务器可以进一步基于word2vec对所述多个子节点序列进行训练,以生成所述目标子拓扑图中各节点分别对应的子节点关系向量,所述服务器生成所述子节点关系向量的原理与上述图1对应实施例中的S101和上述图1b中基于word2vec生成所述用户关系向量的原理相同,这里不再进行赘述。
S305,将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的;
其中,一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
具体的,请一并参见图3a,是本发明实施例提供的又一种用户关系拓扑图的局部示意图,如图3a所示,在所述用户关系拓扑图中可以划分出3个子拓扑图,分别为子拓扑图A、子拓扑图B、子拓扑图C,进一步将子拓扑图A作为节点a,将子拓扑图B作为节点b,将子拓扑图C作为节点c,并通过节点a、节点b、节点c构成模块化拓扑图,即如图3a所示的模块化拓扑图中相互连接的节点a、节点b、节点c。所述服务器可以基于模块化拓扑图生成多个模块节点序列(如模块节点序列可以为a-b-c),并基于多个模块节点序列生成节点a、节点b、节点c分别对应的模块关系向量,即子拓扑图A、子拓扑图B、子拓扑图C分别对应的模块关系向量。所述服务器继续在子拓扑图A中生成多个子节点序列,并基于子拓扑图A的多个子节点序列生成子拓扑图A中的7个节点分别对应的子节点关系向量;所述服务器继续在子拓扑图B中生成多个子节点序列,并基于子拓扑图B的多个子节点序列生成子拓扑图B中的8个节点分别对应的子节点关系向量;所述服务器继续在子拓扑图C中生成多个子节点序列,并基于子拓扑图C的多个子节点序列生成子拓扑图C中的6个节点分别对应的子节点关系向量。若子拓扑图A中的7个节点分别为节点1、节点2、节点3、节点4、节点5、节点6、节点7,则所述服务器进一步将节点1对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点1对应的用户关系向量;将节点2对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点2对应的用户关系向量;将节点3对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点3对应的用户关系向量;将节点4对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点4对应的用户关系向量;将节点5对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点5对应的用户关系向量;将节点6对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点6对应的用户关系向量;将节点7对应的子节点关系向量组合子拓扑图A对应的模块关系向量,得到节点7对应的用户关系向量。同理可得子拓扑图B和子拓扑图C中的各节点分别对应的用户关系向量。以子拓扑图A中的节点1为例,若节点1对应的子节点关系向量为(0.15,0.62),子拓扑图A对应的模块关系向量为(0.15,0.26,0.59,0.55),则将节点1对应的子节点关系向量与子拓扑图A对应的模块关系向量组合后,可得到节点1对应的用户关系向量(0.15,0.26,0.59,0.55,0.15,0.62)。
其中,Random Walk和word2vec的过程可以称为node2vec算法,而S302-S305步骤是对多个子拓扑图分别使用node2vec算法,并对模块化拓扑图也使用node2vec算法,所以本实施例的node2vec算法具体为层次化node2vec,即将整个用户关系网划分成多个模块后再进行node2vec处理,这种层次化node2vec的处理过程,可以有效减少Random Walk中的通信量,因此,可以提高计算效率。
S306,获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
S307,根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;
S306-S307步骤的具体实现方式可以参见上述图1对应实施例中的S103,或参加上述图2对应实施例中的S204-S208,这里不再进行赘述。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。而且本发明实施例可以将整个用户关系网划分成多个模块后再进行node2vec处理,这种层次化node2vec的处理过程,可以有效减少Random Walk中的通信量,因此,可以提高计算效率。
请参见图4,是本发明实施例提供的一种数据处理装置的结构示意图。所述数据处理装置1可以应用于业务服务器中,该业务服务器可以负责管理即时通信应用系统中的部分或所有用户,所述数据处理装置1可以包括:生成模块10、合并模块20、聚类模块30、计算获取模块40、标签设置模块50;
所述生成模块10,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
所述合并模块20,用于获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
所述聚类模块30,用于根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同;
所述计算获取模块40,用于计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
所述标签设置模块50,用于根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。
其中,所述生成模块10、所述合并模块20以及所述聚类模块30的具体功能实现方式可以参见上述图1对应实施例中的S101-S103,这里不再进行赘述。所述计算获取模块40和所述标签设置模块50的具体功能实现方式可以参见上述图1对应实施例中的S207-S208,这里不再进行赘述。
进一步的,请一并参见图5,是本发明实施例提供的一种生成模块10的结构示意图,所述生成模块10可以包括:第一获取创建单元101、第一生成单元102、第二生成单元103;
所述第一获取创建单元101,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
所述第一生成单元102,用于在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
所述第二生成单元103,用于根据所述多个节点序列生成所述每个用户分别对应的用户关系向量;
具体的,所述第二生成单元103具体用于将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
其中,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。所述第二生成单元103的具体功能实现方式可以参见上述图1对应实施例中的S101中对word2vec的描述,这里不再进行赘述。
其中,如图5所示,所述第一生成单元102可以包括:度数接收子单元1021、序列生成子单元1022、通知子单元1023;
所述度数接收子单元1021,用于接收预设的参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数;
其中,所述参数服务器的具体功能可以参见上述图2对应实施例中的S203中对参数服务器的描述,这里不再进行赘述。
所述序列生成子单元1022,用于在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列;
所述通知子单元1023,用于在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并通知所述序列生成子单元1022生成新选择出的所述起始节点对应的多个节点序列,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。
其中,所述序列生成子单元1022和所述通知子单元1023的具体功能实现方式可以参见上述图2对应实施例中的S202,这里不再进行赘述。
进一步的,再请参见图6,是本发明实施例提供的另一种生成模块10的结构示意图,所述生成模块10可以包括:第二获取创建单元104、划分创建单元105、第三生成单元106、第四生成单元107、通知单元108、组合生成单元109;
所述第二获取创建单元104,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
所述划分创建单元105,用于将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
所述第三生成单元106,用于在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
所述第四生成单元107,用于在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量;
所述通知单元108,用于选择下一个子拓扑图作为所述目标子拓扑图,并通知所述第四生成单元107生成新选择出的所述目标子拓扑图中各节点分别对应的子节点关系向量,直至每个子拓扑图均被作为所述目标子拓扑图;
所述组合生成单元109,用于将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
其中,所述第二获取创建单元104与上述的第一获取创建单元101可以为同一个单元。所述第二获取创建单元104、所述划分创建单元105、所述第三生成单元106、所述第四生成单元107、所述通知单元108、所述组合生成单元109的具体功能实现方式可以参见上述图3对应实施例中的S301-S305,这里不再进行赘述。
进一步的,再请参见图7,是本发明实施例提供的一种聚类模块30的结构示意图,所述聚类模块30可以包括:预测单元301、设置计算单元302、划分单元303;
所述预测单元301,用于基于预设的预测模型,对各目标向量进行预测处理,得到聚类中心向量的数量;所述预设的预测模型可以为DPMM狄利克雷过程混合模型;
所述设置计算单元302,用于在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
所述划分单元303,用于根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
其中,所述预测单元301、所述设置计算单元302以及所述划分单元303的具体功能实现方式可以参见上述图1对应实施例中的S103,这里不再进行赘述。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。而且在进行全局node2vec的过程中,通过引入参数服务器,可以有效减少网络通信消耗;或者通过将整个用户关系网划分成多个模块后再进行层次化node2vec处理,也可以有效减少网络通信消耗。
请参见图8,是本发明实施例提供的另一种数据处理装置的结构示意图。如图8所示,所述数据处理装置1000可以应用于业务服务器中,该业务服务器可以负责管理即时通信应用系统中的部分或所有用户。所述数据处理装置1000可以包括:处理器1001和存储器1005,此外,所述数据处理装置1000还可以包括:网络接口1004,用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003可以包括显示屏(Display)、键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图8所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
在图8所示的数据处理装置1000中,网络接口1004可以与多个用户客户端(用户客户端可以向数据处理装置1000上报相关的好友关系、用户属性信息)、其他业务服务器进行通信;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
在一个实施例中,所述处理器1001在执行获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量时,具体执行以下步骤:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
根据所述多个节点序列生成所述每个用户分别对应的用户关系向量。
在一个实施例中,所述处理器1001在执行在所述用户关系拓扑图中生成多个节点序列时,具体执行以下步骤:
在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列,继续在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并重复执行本步骤,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。
在一个实施例中,所述处理器1001还可以执行以下步骤:
接收预设的参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数。
在一个实施例中,所述处理器1001在执行根据所述多个节点序列生成所述每个用户分别对应的用户关系向量时,具体执行以下步骤:
将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
其中,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。
在一个实施例中,所述处理器1001在执行获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量时,具体执行以下步骤:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量,并继续选择下一个子拓扑图作为所述目标子拓扑图,重复执行本步骤,直至每个子拓扑图均被作为所述目标子拓扑图;
将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
在一个实施例中,所述处理器1001在执行根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合时,具体执行以下步骤:
在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
在一个实施例中,所述处理器1001在执行在所述目标向量所在的向量空间设置多个聚类中心向量之前,还可以执行以下步骤:
基于预设的预测模型,对各目标向量进行预测处理,得到聚类中心向量的数量。
在一个实施例中,所述处理器1001还可以执行以下步骤:
计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。
本发明实施例通过获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,并获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量,并根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合。由于将用户的属性和社交关系都转换为向量来计算,所以可以有效降低计算复杂度,而且通过同时考虑用户的属性和社交关系,可以丰富划分维度,进而可以提高社区划分的精度。而且在进行全局node2vec的过程中,通过引入参数服务器,可以有效减少网络通信消耗;或者通过将整个用户关系网划分成多个模块后再进行层次化node2vec处理,也可以有效减少网络通信消耗。
此外,这里需要指出的是:本发明实施例还提供了一种计算机存储介质,且所述计算机存储介质中存储有前文提及的数据处理装置1所执行的计算机程序,且所述计算机程序包括程序指令,当所述处理器执行所述程序指令时,能够执行前文图1至图3所对应实施例中对所述数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本发明所涉及的计算机存储介质实施例中未披露的技术细节,请参照本发明方法实施例的描述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (15)

1.一种数据处理方法,其特征在于,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
2.如权利要求1所述的方法,其特征在于,所述获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
根据所述多个节点序列生成所述每个用户分别对应的用户关系向量。
3.如权利要求2所述的方法,其特征在于,所述在所述用户关系拓扑图中生成多个节点序列,具体包括:
在所述用户关系拓扑图中选取目标节点作为起始节点,并根据预设的随机漫步参数、所述用户关系拓扑图中各节点之间的关系度数,计算用于进行节点跳转的转移概率,并根据所述转移概率和预设序列长度生成包括所述起始节点的多个节点序列,继续在所述用户关系拓扑图中选择下一个节点作为所述起始节点,并重复执行本步骤,直至所述用户关系拓扑图中的所有节点均被作为所述起始节点。
4.如权利要求3所述的方法,其特征在于,还包括:
接收预设的参数服务器广播的所述用户关系拓扑图中各节点之间的关系度数;所述参数服务器用于统计和存储所述用户关系拓扑图中各节点之间的关系度数,并用于周期性广播所述用户关系拓扑图中各节点之间的关系度数。
5.如权利要求2所述的方法,其特征在于,所述根据所述多个节点序列生成所述每个用户分别对应的用户关系向量,具体包括:
将所述多个节点序列映射到预设的多维向量空间,生成所述每个用户分别对应的用户关系向量;
其中,每个用户分别对应的用户关系向量的维数与所述多维向量空间的维数相同,且每个用户分别对应的用户关系向量均用于表征对应用户在所述用户关系网中的社交关系特征。
6.如权利要求1所述的方法,其特征在于,所述获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量,包括:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量,并继续选择下一个子拓扑图作为所述目标子拓扑图,重复执行本步骤,直至每个子拓扑图均被作为所述目标子拓扑图;
将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
7.如权利要求1所述的方法,其特征在于,所述根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合,包括:
在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
8.如权利要求7所述的方法,其特征在于,在所述目标向量所在的向量空间设置多个聚类中心向量的步骤之前,还包括:
基于预设的预测模型,对各目标向量进行预测处理,得到聚类中心向量的数量。
9.如权利要求1所述的方法,其特征在于,还包括:
计算各用户集合分别对应的人群特征参数,并获取所述各用户集合分别对应的活跃用户属性;
根据所述人群特征参数和所述活跃用户属性,识别所述各用户集合分别对应的人群类型,并根据所述人群类型为所述各用户集合分别设置对应的人群类型标签。
10.一种数据处理装置,其特征在于,包括:
生成模块,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
合并模块,用于获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
聚类模块,用于根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
11.如权利要求10所述的装置,其特征在于,所述生成模块包括:
第一获取创建单元,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
第一生成单元,用于在所述用户关系拓扑图中生成多个节点序列;每个节点序列均由相同数量的节点所组成,且每个节点序列中的节点均存在于所述用户关系拓扑图中;
第二生成单元,用于根据所述多个节点序列生成所述每个用户分别对应的用户关系向量。
12.如权利要求10所述的装置,其特征在于,所述生成模块包括:
第二获取创建单元,用于获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图;
划分创建单元,用于将所述用户关系拓扑图划分为多个子拓扑图,并创建以所述多个子拓扑图为节点的模块化拓扑图;
第三生成单元,用于在所述模块化拓扑图中生成多个模块节点序列,并根据所述多个模块节点序列生成所述每个子拓扑图分别对应的模块关系向量;
第四生成单元,用于在所述多个子拓扑图中选择目标子拓扑图,在所述目标子拓扑图中生成多个子节点序列,并根据所述多个子节点序列生成所述目标子拓扑图中各节点分别对应的子节点关系向量;
通知单元,用于选择下一个子拓扑图作为所述目标子拓扑图,并通知所述第四生成单元生成新选择出的所述目标子拓扑图中各节点分别对应的子节点关系向量,直至每个子拓扑图均被作为所述目标子拓扑图;
组合生成单元,用于将所述用户关系拓扑图中的各节点对应的子节点关系向量,分别与节点所属的子拓扑图所对应的模块关系向量进行组合,生成所述每个用户分别对应的用户关系向量;一个用户关系向量是由一个节点对应的子节点关系向量和该节点所属的子拓扑图所对应的模块关系向量构成的。
13.如权利要求10所述的装置,其特征在于,所述聚类模块包括:
设置计算单元,用于在所述目标向量所在的向量空间设置多个聚类中心向量,分别计算所述每个用户分别对应的目标向量与所述多个聚类中心向量之间的向量距离;
划分单元,用于根据所述向量距离,确定各目标向量与各聚类中心向量之间的映射关系,并将映射有相同聚类中心向量的目标向量所对应的用户划分至相同的用户集合中,得到多个用户集合;
其中,所述用户集合的数量与所述聚类中心向量的数量相同。
14.一种数据处理装置,其特征在于,包括:处理器和存储器;
所述处理器和存储器相连,其中,所述存储器用于存储程序代码,所述处理器用于调用所述程序代码,以执行以下操作:
获取用户关系网,并根据所述用户关系网创建以所述用户关系网中的每个用户为节点的用户关系拓扑图,并根据所述用户关系拓扑图生成所述每个用户分别对应的用户关系向量;
获取所述每个用户分别对应的用户属性向量,并分别将所述每个用户对应的用户关系向量和用户属性向量进行合并,得到所述每个用户分别对应的目标向量;
根据所述每个用户分别对应的目标向量对所述用户关系网进行聚类,以将所述用户关系网划分为多个用户集合;各用户集合分别对应的人群类型互不相同。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,当所述处理器执行所述程序指令时执行如权利要求1-9任一项所述的方法。
CN201710405424.XA 2017-05-31 2017-05-31 一种数据处理方法以及装置 Active CN108985309B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201710405424.XA CN108985309B (zh) 2017-05-31 2017-05-31 一种数据处理方法以及装置
PCT/CN2018/088399 WO2018219223A1 (zh) 2017-05-31 2018-05-25 数据处理方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710405424.XA CN108985309B (zh) 2017-05-31 2017-05-31 一种数据处理方法以及装置

Publications (2)

Publication Number Publication Date
CN108985309A true CN108985309A (zh) 2018-12-11
CN108985309B CN108985309B (zh) 2022-11-29

Family

ID=64455197

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710405424.XA Active CN108985309B (zh) 2017-05-31 2017-05-31 一种数据处理方法以及装置

Country Status (2)

Country Link
CN (1) CN108985309B (zh)
WO (1) WO2018219223A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635147A (zh) * 2018-12-13 2019-04-16 阿里巴巴集团控股有限公司 一种顶点的图嵌入向量生成、查询方法和装置
CN110147366A (zh) * 2019-05-05 2019-08-20 电子科技大学 从自我中心角度出发的异常通信行为可视化分析方法
CN110399430A (zh) * 2019-06-14 2019-11-01 平安科技(深圳)有限公司 用户特征确定方法、装置、设备及计算机可读存储介质
CN111177493A (zh) * 2020-01-03 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
WO2020224298A1 (zh) * 2019-05-06 2020-11-12 创新先进技术有限公司 获取关系网络图中节点的动态嵌入向量的方法和装置
CN111949840A (zh) * 2019-05-15 2020-11-17 杭州海康威视数字技术股份有限公司 一种基于物联网数据的拓扑图结构的构建方法、装置
CN112100300A (zh) * 2020-08-22 2020-12-18 中国测绘科学研究院 矢量地表覆盖图斑空间拓扑关系快速构建方法及存储介质
CN112559310A (zh) * 2021-02-25 2021-03-26 北京芯盾时代科技有限公司 一种基于动态图的对象识别方法及装置
CN112967790A (zh) * 2021-04-02 2021-06-15 北京声智科技有限公司 创建服务点的方法、服务管理方法及相关设备
US11100167B2 (en) 2019-05-06 2021-08-24 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110275941A (zh) * 2019-06-21 2019-09-24 福州大学 一种基于粗化与局部重叠模块度的邮件挖掘方法
CN111367669B (zh) * 2020-03-02 2023-08-15 北京小米松果电子有限公司 一种确定最优运算通路的方法、装置及介质
CN113867850B (zh) * 2020-06-29 2023-12-29 阿里巴巴集团控股有限公司 数据处理方法、装置、设备和存储介质
CN111815359B (zh) * 2020-07-09 2024-05-24 北京火山引擎科技有限公司 一种目标人群确定方法、装置、电子设备和存储介质
CN111953535B (zh) * 2020-07-31 2023-06-09 鹏城实验室 一种网络故障定位方法、终端及存储介质
CN112560963A (zh) * 2020-12-17 2021-03-26 北京赢识科技有限公司 大规模人脸图像聚类方法、装置、电子设备及介质
CN113724892B (zh) * 2021-08-31 2024-06-21 深圳平安智慧医健科技有限公司 一种人口流动的分析方法、装置、电子设备及存储介质
CN115910240B (zh) * 2022-11-03 2023-09-26 广东科云诚新材料有限公司 聚酯增塑剂的性能测试数据处理方法及系统
CN115795342B (zh) * 2022-11-15 2024-02-06 支付宝(杭州)信息技术有限公司 一种业务场景分类的方法、装置、存储介质及电子设备
CN115599873B (zh) * 2022-12-06 2023-08-29 广州丰网互联科技有限公司 基于人工智能物联网的数据采集方法、系统及云平台
CN115935027B (zh) * 2023-01-19 2024-08-06 北京百度网讯科技有限公司 目标对象拓扑图的数据处理方法及图分类模型的训练方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252178A (ja) * 2008-04-10 2009-10-29 Ntt Docomo Inc レコメンド情報評価装置およびレコメンド情報評価方法
CN104580385A (zh) * 2014-12-16 2015-04-29 腾讯科技(深圳)有限公司 一种拓展用户关系链的方法及装置
CN104717124A (zh) * 2013-12-13 2015-06-17 腾讯科技(深圳)有限公司 一种好友推荐方法、装置及服务器
CN105741175A (zh) * 2016-01-27 2016-07-06 电子科技大学 一种对在线社交网络中账户进行关联的方法
US20160371792A1 (en) * 2014-03-10 2016-12-22 Huawei Technologies Co., Ltd. Method and Apparatus for Mining Social Relationship Based on Financial Data
CN106685809A (zh) * 2017-02-24 2017-05-17 腾讯科技(深圳)有限公司 一种社交圈子的生成方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9558246B1 (en) * 2014-04-29 2017-01-31 Dell Software Inc. System and method for time-based clustering of data-access instances
CN104933139B (zh) * 2015-06-17 2018-06-01 中国科学院计算技术研究所 一种社交网络用户身份虚实映射的方法及装置
CN106372072B (zh) * 2015-07-20 2019-11-01 北京大学 一种基于位置的移动社会网络用户关系的识别方法
CN107240029B (zh) * 2017-05-11 2023-03-31 腾讯科技(深圳)有限公司 一种数据处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009252178A (ja) * 2008-04-10 2009-10-29 Ntt Docomo Inc レコメンド情報評価装置およびレコメンド情報評価方法
CN104717124A (zh) * 2013-12-13 2015-06-17 腾讯科技(深圳)有限公司 一种好友推荐方法、装置及服务器
US20160371792A1 (en) * 2014-03-10 2016-12-22 Huawei Technologies Co., Ltd. Method and Apparatus for Mining Social Relationship Based on Financial Data
CN104580385A (zh) * 2014-12-16 2015-04-29 腾讯科技(深圳)有限公司 一种拓展用户关系链的方法及装置
CN105741175A (zh) * 2016-01-27 2016-07-06 电子科技大学 一种对在线社交网络中账户进行关联的方法
CN106685809A (zh) * 2017-02-24 2017-05-17 腾讯科技(深圳)有限公司 一种社交圈子的生成方法和装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109635147A (zh) * 2018-12-13 2019-04-16 阿里巴巴集团控股有限公司 一种顶点的图嵌入向量生成、查询方法和装置
CN109635147B (zh) * 2018-12-13 2023-08-22 创新先进技术有限公司 一种顶点的图嵌入向量生成、查询方法和装置
CN110147366A (zh) * 2019-05-05 2019-08-20 电子科技大学 从自我中心角度出发的异常通信行为可视化分析方法
CN110147366B (zh) * 2019-05-05 2023-10-03 电子科技大学 从自我中心角度出发的异常通信行为可视化分析方法
US11288318B2 (en) 2019-05-06 2022-03-29 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs
US11100167B2 (en) 2019-05-06 2021-08-24 Advanced New Technologies Co., Ltd. Obtaining dynamic embedding vectors of nodes in relationship graphs
WO2020224298A1 (zh) * 2019-05-06 2020-11-12 创新先进技术有限公司 获取关系网络图中节点的动态嵌入向量的方法和装置
CN111949840A (zh) * 2019-05-15 2020-11-17 杭州海康威视数字技术股份有限公司 一种基于物联网数据的拓扑图结构的构建方法、装置
CN111949840B (zh) * 2019-05-15 2024-05-31 杭州海康威视数字技术股份有限公司 一种基于物联网数据的拓扑图结构的构建方法、装置
CN110399430A (zh) * 2019-06-14 2019-11-01 平安科技(深圳)有限公司 用户特征确定方法、装置、设备及计算机可读存储介质
CN111177493B (zh) * 2020-01-03 2023-05-05 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN111177493A (zh) * 2020-01-03 2020-05-19 腾讯科技(深圳)有限公司 数据处理方法、装置、服务器和存储介质
CN112100300A (zh) * 2020-08-22 2020-12-18 中国测绘科学研究院 矢量地表覆盖图斑空间拓扑关系快速构建方法及存储介质
CN112100300B (zh) * 2020-08-22 2022-02-18 中国测绘科学研究院 矢量地表覆盖图斑空间拓扑关系快速构建方法及存储介质
CN112559310A (zh) * 2021-02-25 2021-03-26 北京芯盾时代科技有限公司 一种基于动态图的对象识别方法及装置
CN112559310B (zh) * 2021-02-25 2021-06-08 北京芯盾时代科技有限公司 一种基于动态图的对象识别方法及装置
CN112967790A (zh) * 2021-04-02 2021-06-15 北京声智科技有限公司 创建服务点的方法、服务管理方法及相关设备

Also Published As

Publication number Publication date
WO2018219223A1 (zh) 2018-12-06
CN108985309B (zh) 2022-11-29

Similar Documents

Publication Publication Date Title
CN108985309A (zh) 一种数据处理方法以及装置
Cherifi et al. On community structure in complex networks: challenges and opportunities
Kumar et al. Influence maximization in social networks using graph embedding and graph neural network
Oda et al. Evaluation of WMN-GA for different mutation operators
CN112084422B (zh) 一种账号数据智能处理方法和装置
Jin et al. Community detection in complex networks by density-based clustering
CN110118566B (zh) 机器人运行路径生成方法及装置
CN110213164A (zh) 一种基于拓扑信息融合的识别网络关键传播者的方法及装置
Sadi et al. An efficient community detection method using parallel clique-finding ants
CN110738577A (zh) 社区发现方法、装置、计算机设备和存储介质
Dong et al. CPR-TOPSIS: A novel algorithm for finding influential nodes in complex networks based on communication probability and relative entropy
Christodoulou et al. Designing networks with good equilibria under uncertainty
Liu et al. Finding densest lasting subgraphs in dynamic graphs: A stochastic approach
Nguyen et al. Rethinking virtual link mapping in network virtualization
CN109670624A (zh) 一种预估用餐等候时间的方法及装置
Serrano et al. Competition and adaptation in an Internet evolution model
CN117061365B (zh) 一种节点选择方法、装置、设备及可读存储介质
Cheng et al. Complex networks based manufacturing service and task management in cloud environment
Drugan et al. Detecting communities in sparse manets
CN108737158B (zh) 基于最小生成树的社交网络层次化社区发现方法及系统
CN103051476B (zh) 基于拓扑分析的网络社区发现方法
Bernardino et al. Swarm optimisation algorithms applied to large balanced communication networks
Alzahrani et al. Energy-aware virtual network embedding approach for distributed cloud
Du et al. Optimization of the critical diameter and average path length of social networks
CN111162923B (zh) 即时通讯群的排名方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant