CN107248929B

CN107248929B - 一种多维关联数据的强关联数据生成方法

Info

Publication number: CN107248929B
Application number: CN201710389456.5A
Authority: CN
Inventors: 蔡自彬
Original assignee: Beijing Know Future Information Technology Co ltd
Current assignee: Beijing Know Future Information Technology Co ltd
Priority date: 2017-05-27
Filing date: 2017-05-27
Publication date: 2020-08-11
Anticipated expiration: 2037-05-27
Also published as: CN107248929A

Abstract

本发明公开了一种多维关联数据的强关联数据生成方法。本方法为：1)将提取的多维关联数据存入图系统；2)对每一记录生成一对节点以及连接该对节点的边；3)确定强关联的目标数据，对于每一节点，如果该节点的类型为目标数据的类型，则将该节点的标签设置为该节点对应的数据；否则将该节点的标签设置为unknown；4)利用图的标签传播算法进行消息发送；5)各节点选择收到消息中权重最大的标签作为本节点的标签，如果节点本身是目标数据，则该节点的标签不做修改；6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点，剩余节点对应的数据即为目标数据的强关联数据。本发明可有效的针对多维关联数据计算强关联数据。

Description

一种多维关联数据的强关联数据生成方法

技术领域

本发明涉及一种多维关联数据的强关联数据生成方法，属于网络技术领域。

背景技术

通过用户授权后，网站会记录用户的手机号、IMEI等信息。实际使用过程中，一个用户可能会换手机登陆网站，网站获取的手机号不变，但IMEI或IDFA会发生变化；同样用户可能在相同的手机设备上使用不同手机号登陆，即手机号不同，IMEI号不变。另外网站可能会遭受撞库攻击，即大量出现同一个IMEI号，手机号却不同的情况。

在某些场景下，例如用户画像，需要将IMEI和手机号关联起来，并找到IMEI强关联的手机号，即该IMEI最有可能与哪个手机号绑定。

现有技术方案一般处理方法为统计IMEI关联的所有手机号，选择关联次数最多、关联时间最近的手机号作为强关联手机号。

然而现有技术方案无法解决多维关联问题，例如一个手机号与Email关联，并且关联次数很多、关联时间较新，该Email又与IMEI关联并且关联次数很多、关联时间较新；然后该手机号和IMEI直接关联次数较少。实际中该手机号和IMEI是强关联的，但是现有技术方案未得出这样的结果。

发明内容

针对现有技术中存在的技术问题，本发明的目的在于提供一种多维关联数据的强关联数据生成方法。

本发明的技术方案为：

一种多维关联数据的强关联数据生成方法，其步骤为：

1)将提取的多维关联数据存入图系统；所述多维关联数据的每一记录包括相互关联的数据、关联次数、最近关联时间；

2)对每一记录生成一对节点以及连接该对节点的边；

3)确定强关联的目标数据，对于每一节点，如果该节点的类型为目标数据的类型，则将该节点的标签设置为该节点对应的数据；否则将该节点的标签设置为unknown；

4)利用图的标签传播算法进行消息发送，其中，对于步骤2)生成的每一对节点，如果节点1的标签不是unknown并且节点2的类型不是目标数据的类型，则向节点2发送消息，该消息内容包括：节点1的标签值和边的权重；如果节点2的标签不是unknown并且节点1的类型不是目标数据的类型，则向节点1发送消息，该消息内容包括节点2的标签值和边的权重；其中节点1、节点2是同一边连接的两节点；

5)各节点选择收到消息中权重最大的标签作为本节点的标签，如果节点本身是目标数据，则该节点的标签不做修改；

6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点，剩余节点对应的数据即为目标数据的强关联数据。

进一步的，所述记录的数据格式为：ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间；其中，ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值，ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。

进一步的，所述节点的属性包括类型编号及其类型值、标签。

进一步的，所述边的属性包括权重。

进一步的，所述边的权重

其中，n为关联次数，t为最近关联时间，t_now为当前时间。

进一步的，所述数据包括手机号、Email和IMEI。

进一步的，所述图系统为Spark GraphX。

本发明基于图标签传播算法的思想来计算强关联数据，其关键步骤如下：

1.提取关联数据，包括关联的数据、关联次数、最近关联时间，表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。

2.将数据存入图系统，例如Spark GraphX，即是将数据存储到Spark GraphX的HDFS上。

3.根据关联数据计算节点、节点属性、边、边属性。根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括：ID类型编号、ID值、标签)，并生成节点的边(边的属性包括：权重)

4.修改图的标签传播算法并执行算法

5.遍历图的节点，过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点，导出节点的属性。

6.如果需要计算所有数据的强关联的其他数据类型，例如所有数据的强关联IMEI号，则可以重复步骤3～5，适当设置初始标签。

与现有技术相比，本发明的积极效果为：

1、本发明可以有效的计算强关联数据，即使是海量数据。

2、本发明可以有效的针对多维关联数据计算强关联数据。

附图说明

图1为本发明方法的流程图。

具体实施方式

下面结合附图，对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

本发明的完整技术方案如下，其中以以下例子作为说明，并且强关联计算的目标是得到所有ID的强关联手机号。

数据1	数据2	关联次数	关联时间
				IMEI1	手机号1	2	2017-05-20
Email1	手机号2	5	2017-05-20
				Email1	IMEI1	4	2017-05-20

如图1所示，本发明的流程为：

1、提取关联数据

提取关联数据，包括关联的数据、关联次数、最近关联时间，表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。例如手机号与IMEI号关联，则关联数据为(手机号类型、手机号、IMEI号类型、IMEI号、关联次数、最近关联时间)，同一个手机号可能与多个IMEI号关联；同一个IMEI可能与多个手机号关联。

假设手机号的类型编号为1，IMEI的类型编号为2，Email的类型编号为3，上述例子提取的关联数据如下：

ID1类型编号	ID1值	ID2类型编号	ID2值	关联次数	最近关联时间
						2	IMEI1	1	手机号1	5	2017-05-20
3	Email1	1	手机号2	4	2017-05-20
						3	Email1	2	IMEI1	2	2017-05-20

2、数据存入图系统

将数据存入图系统，例如Spark GraphX，即是将数据存储到Spark GraphX的HDFS上。

3、预计算

根据关联数据计算节点、节点属性、边、边属性。

1.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括：ID类型编号、ID值、标签)：

节点1的属性为：ID1类型编号、ID1值、标签。节点1的ID为“ID1类型编号-ID1值”的Hash结果。

节点2的属性为：ID2类型编号、ID2值、标签。节点2的ID为“ID2类型编号-ID2值”的Hash结果。

其中标签与强关联计算的目标有关，如果强关联计算的目标是计算所有ID与手机号的强关联，则当节点的类型为手机号时，其标签为手机号的值；当节点的类型为非手机号时，其标签为“unknown”。

2.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成节点的边(边的属性包括：权重)：

边的两个节点分别为节点1的ID和节点2的ID。

边的属性权重是根据关联次数和最近关联时间计算得到的，假设权重为w，关联次数为n，最近关联时间为t，当前时间为t_now，则其计算方式为：

其中t_now-t表示关联时间距离当前时间有多久。

表示距离当前时间越久，其值越小，对最终权重产生的影响越小。

以步骤3的结果[2,IMEI1,1,手机号1,2,2017-05-20]为例，其生成的节点和边分别为：

节点1的ID为Hash(“2-IMEI1”)，属性:ID类型编号为2，ID值为IMEI1。

节点2的ID为Hash(“1-手机号1”)，属性:ID类型编号为1，ID值为手机号1。

边为节点1-节点2，由于t_now-t等于0，因此边属性权重等于关联次数2。

4、修改图的标签传播算法并执行

现有的图的标签传播算法不能直接满足强关联计算的要求，需要做如下改动：

1.在图的标签传播过程中，根据边来传播消息，如果边的节点1的标签不是“unknown”并且节点2的类型不是强关联计算的目标，例如手机号，则向节点2发送消息，该消息的内容包括：节点1的标签值和边的权重值；如果节点2的标签不是“unknown”并且节点1的类型不是强关联计算的目标，则向节点1发送消息，该消息的内容包括节点2的标签值和边的权重值。

2.在图的标签传播过程中，当图中的节点接收到消息时，统计各种标签传播过来的权重，选择权重最大的标签作为本节点的标签，但是如果节点本身是强关联计算的目标，例如手机号，则该节点的标签不做修改。

执行图的标签传播算法将标签传播到其他节点上。

上述例子计算的结果为：

节点1的属性：ID类型编号为1，ID值为手机号1，标签为手机号1；

节点2的属性：ID类型编号为2，ID值为IMEI1，标签为手机号2；

节点3的属性：ID类型编号为3，ID值为Email1，标签为手机号2；

节点4的属性：ID类型编号为1，ID值为手机号2，标签为手机号2。

5、导出强关联数据

遍历图的节点，过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点，导出节点的属性。其结果格式如下：

ID类型编号、ID值、标签

上述例子的结果为：

ID类型编号	ID值	标签
			2	IMEI1	手机号2
3	Email1	手机号2

6、计算其他数据的强关联数据

如果需要计算其他数据类型的强关联数据，则可以重复步骤2～4，相应的设置初始标签。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

1.一种多维关联数据的强关联数据生成方法，其步骤为：

2)对每一记录生成一对节点以及连接该对节点的边；其中，根据关联数据计算节点、节点属性、边和边属性，根据关联数据生成两个节点和节点之间的边，关联数据包括：ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间；节点的属性包括类型编号及其类型值、标签；边的属性包括权重；边的权重

其中，n为关联次数，t为最近关联时间，t_now为当前时间；

2.如权利要求1所述的方法，其特征在于，所述记录的数据格式为：ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间；其中，ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值，ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。

3.如权利要求1或2所述的方法，其特征在于，所述数据包括手机号、Email和IMEI。

4.如权利要求1所述的方法，其特征在于，所述图系统为Spark GraphX。