CN107248929B - 一种多维关联数据的强关联数据生成方法 - Google Patents

一种多维关联数据的强关联数据生成方法 Download PDF

Info

Publication number
CN107248929B
CN107248929B CN201710389456.5A CN201710389456A CN107248929B CN 107248929 B CN107248929 B CN 107248929B CN 201710389456 A CN201710389456 A CN 201710389456A CN 107248929 B CN107248929 B CN 107248929B
Authority
CN
China
Prior art keywords
node
data
label
type
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710389456.5A
Other languages
English (en)
Other versions
CN107248929A (zh
Inventor
蔡自彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Know Future Information Technology Co ltd
Original Assignee
Beijing Know Future Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Know Future Information Technology Co ltd filed Critical Beijing Know Future Information Technology Co ltd
Priority to CN201710389456.5A priority Critical patent/CN107248929B/zh
Publication of CN107248929A publication Critical patent/CN107248929A/zh
Application granted granted Critical
Publication of CN107248929B publication Critical patent/CN107248929B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/04Processing captured monitoring data, e.g. for logfile generation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/067Generation of reports using time frame reporting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/10Network architectures or network communication protocols for network security for controlling access to devices or network resources
    • H04L63/102Entity profiles

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Algebra (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种多维关联数据的强关联数据生成方法。本方法为:1)将提取的多维关联数据存入图系统;2)对每一记录生成一对节点以及连接该对节点的边;3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;4)利用图的标签传播算法进行消息发送;5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。本发明可有效的针对多维关联数据计算强关联数据。

Description

一种多维关联数据的强关联数据生成方法
技术领域
本发明涉及一种多维关联数据的强关联数据生成方法,属于网络技术领域。
背景技术
通过用户授权后,网站会记录用户的手机号、IMEI等信息。实际使用过程中,一个用户可能会换手机登陆网站,网站获取的手机号不变,但IMEI或IDFA会发生变化;同样用户可能在相同的手机设备上使用不同手机号登陆,即手机号不同,IMEI号不变。另外网站可能会遭受撞库攻击,即大量出现同一个IMEI号,手机号却不同的情况。
在某些场景下,例如用户画像,需要将IMEI和手机号关联起来,并找到IMEI强关联的手机号,即该IMEI最有可能与哪个手机号绑定。
现有技术方案一般处理方法为统计IMEI关联的所有手机号,选择关联次数最多、关联时间最近的手机号作为强关联手机号。
然而现有技术方案无法解决多维关联问题,例如一个手机号与Email关联,并且关联次数很多、关联时间较新,该Email又与IMEI关联并且关联次数很多、关联时间较新;然后该手机号和IMEI直接关联次数较少。实际中该手机号和IMEI是强关联的,但是现有技术方案未得出这样的结果。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种多维关联数据的强关联数据生成方法。
本发明的技术方案为:
一种多维关联数据的强关联数据生成方法,其步骤为:
1)将提取的多维关联数据存入图系统;所述多维关联数据的每一记录包括相互关联的数据、关联次数、最近关联时间;
2)对每一记录生成一对节点以及连接该对节点的边;
3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;
4)利用图的标签传播算法进行消息发送,其中,对于步骤2)生成的每一对节点,如果节点1的标签不是unknown并且节点2的类型不是目标数据的类型,则向节点2发送消息,该消息内容包括:节点1的标签值和边的权重;如果节点2的标签不是unknown并且节点1的类型不是目标数据的类型,则向节点1发送消息,该消息内容包括节点2的标签值和边的权重;其中节点1、节点2是同一边连接的两节点;
5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;
6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。
进一步的,所述记录的数据格式为:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;其中,ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值,ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。
进一步的,所述节点的属性包括类型编号及其类型值、标签。
进一步的,所述边的属性包括权重。
进一步的,所述边的权重
Figure BDA0001307156760000021
其中,n为关联次数,t为最近关联时间,tnow为当前时间。
进一步的,所述数据包括手机号、Email和IMEI。
进一步的,所述图系统为Spark GraphX。
本发明基于图标签传播算法的思想来计算强关联数据,其关键步骤如下:
1.提取关联数据,包括关联的数据、关联次数、最近关联时间,表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。
2.将数据存入图系统,例如Spark GraphX,即是将数据存储到Spark GraphX的HDFS上。
3.根据关联数据计算节点、节点属性、边、边属性。根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括:ID类型编号、ID值、标签),并生成节点的边(边的属性包括:权重)
4.修改图的标签传播算法并执行算法
5.遍历图的节点,过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点,导出节点的属性。
6.如果需要计算所有数据的强关联的其他数据类型,例如所有数据的强关联IMEI号,则可以重复步骤3~5,适当设置初始标签。
与现有技术相比,本发明的积极效果为:
1、本发明可以有效的计算强关联数据,即使是海量数据。
2、本发明可以有效的针对多维关联数据计算强关联数据。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明的完整技术方案如下,其中以以下例子作为说明,并且强关联计算的目标是得到所有ID的强关联手机号。
数据1 数据2 关联次数 关联时间
IMEI1 手机号1 2 2017-05-20
Email1 手机号2 5 2017-05-20
Email1 IMEI1 4 2017-05-20
如图1所示,本发明的流程为:
1、提取关联数据
提取关联数据,包括关联的数据、关联次数、最近关联时间,表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。例如手机号与IMEI号关联,则关联数据为(手机号类型、手机号、IMEI号类型、IMEI号、关联次数、最近关联时间),同一个手机号可能与多个IMEI号关联;同一个IMEI可能与多个手机号关联。
假设手机号的类型编号为1,IMEI的类型编号为2,Email的类型编号为3,上述例子提取的关联数据如下:
ID1类型编号 ID1值 ID2类型编号 ID2值 关联次数 最近关联时间
2 IMEI1 1 手机号1 5 2017-05-20
3 Email1 1 手机号2 4 2017-05-20
3 Email1 2 IMEI1 2 2017-05-20
2、数据存入图系统
将数据存入图系统,例如Spark GraphX,即是将数据存储到Spark GraphX的HDFS上。
3、预计算
根据关联数据计算节点、节点属性、边、边属性。
1.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括:ID类型编号、ID值、标签):
节点1的属性为:ID1类型编号、ID1值、标签。节点1的ID为“ID1类型编号-ID1值”的Hash结果。
节点2的属性为:ID2类型编号、ID2值、标签。节点2的ID为“ID2类型编号-ID2值”的Hash结果。
其中标签与强关联计算的目标有关,如果强关联计算的目标是计算所有ID与手机号的强关联,则当节点的类型为手机号时,其标签为手机号的值;当节点的类型为非手机号时,其标签为“unknown”。
2.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成节点的边(边的属性包括:权重):
边的两个节点分别为节点1的ID和节点2的ID。
边的属性权重是根据关联次数和最近关联时间计算得到的,假设权重为w,关联次数为n,最近关联时间为t,当前时间为tnow,则其计算方式为:
Figure BDA0001307156760000041
其中tnow-t表示关联时间距离当前时间有多久。
Figure BDA0001307156760000042
表示距离当前时间越久,其值越小,对最终权重产生的影响越小。
以步骤3的结果[2,IMEI1,1,手机号1,2,2017-05-20]为例,其生成的节点和边分别为:
节点1的ID为Hash(“2-IMEI1”),属性:ID类型编号为2,ID值为IMEI1。
节点2的ID为Hash(“1-手机号1”),属性:ID类型编号为1,ID值为手机号1。
边为节点1-节点2,由于tnow-t等于0,因此边属性权重等于关联次数2。
4、修改图的标签传播算法并执行
现有的图的标签传播算法不能直接满足强关联计算的要求,需要做如下改动:
1.在图的标签传播过程中,根据边来传播消息,如果边的节点1的标签不是“unknown”并且节点2的类型不是强关联计算的目标,例如手机号,则向节点2发送消息,该消息的内容包括:节点1的标签值和边的权重值;如果节点2的标签不是“unknown”并且节点1的类型不是强关联计算的目标,则向节点1发送消息,该消息的内容包括节点2的标签值和边的权重值。
2.在图的标签传播过程中,当图中的节点接收到消息时,统计各种标签传播过来的权重,选择权重最大的标签作为本节点的标签,但是如果节点本身是强关联计算的目标,例如手机号,则该节点的标签不做修改。
执行图的标签传播算法将标签传播到其他节点上。
上述例子计算的结果为:
节点1的属性:ID类型编号为1,ID值为手机号1,标签为手机号1;
节点2的属性:ID类型编号为2,ID值为IMEI1,标签为手机号2;
节点3的属性:ID类型编号为3,ID值为Email1,标签为手机号2;
节点4的属性:ID类型编号为1,ID值为手机号2,标签为手机号2。
5、导出强关联数据
遍历图的节点,过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点,导出节点的属性。其结果格式如下:
ID类型编号、ID值、标签
上述例子的结果为:
ID类型编号 ID值 标签
2 IMEI1 手机号2
3 Email1 手机号2
6、计算其他数据的强关联数据
如果需要计算其他数据类型的强关联数据,则可以重复步骤2~4,相应的设置初始标签。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (4)

1.一种多维关联数据的强关联数据生成方法,其步骤为:
1)将提取的多维关联数据存入图系统;所述多维关联数据的每一记录包括相互关联的数据、关联次数、最近关联时间;
2)对每一记录生成一对节点以及连接该对节点的边;其中,根据关联数据计算节点、节点属性、边和边属性,根据关联数据生成两个节点和节点之间的边,关联数据包括:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;节点的属性包括类型编号及其类型值、标签;边的属性包括权重;边的权重
Figure FDA0002381799950000011
其中,n为关联次数,t为最近关联时间,tnow为当前时间;
3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;
4)利用图的标签传播算法进行消息发送,其中,对于步骤2)生成的每一对节点,如果节点1的标签不是unknown并且节点2的类型不是目标数据的类型,则向节点2发送消息,该消息内容包括:节点1的标签值和边的权重;如果节点2的标签不是unknown并且节点1的类型不是目标数据的类型,则向节点1发送消息,该消息内容包括节点2的标签值和边的权重;其中节点1、节点2是同一边连接的两节点;
5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;
6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。
2.如权利要求1所述的方法,其特征在于,所述记录的数据格式为:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;其中,ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值,ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。
3.如权利要求1或2所述的方法,其特征在于,所述数据包括手机号、Email和IMEI。
4.如权利要求1所述的方法,其特征在于,所述图系统为Spark GraphX。
CN201710389456.5A 2017-05-27 2017-05-27 一种多维关联数据的强关联数据生成方法 Active CN107248929B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710389456.5A CN107248929B (zh) 2017-05-27 2017-05-27 一种多维关联数据的强关联数据生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710389456.5A CN107248929B (zh) 2017-05-27 2017-05-27 一种多维关联数据的强关联数据生成方法

Publications (2)

Publication Number Publication Date
CN107248929A CN107248929A (zh) 2017-10-13
CN107248929B true CN107248929B (zh) 2020-08-11

Family

ID=60017721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710389456.5A Active CN107248929B (zh) 2017-05-27 2017-05-27 一种多维关联数据的强关联数据生成方法

Country Status (1)

Country Link
CN (1) CN107248929B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109190035A (zh) * 2018-08-24 2019-01-11 北京奇虎科技有限公司 Id数据网数据分析方法、装置及计算设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610294B2 (en) * 2007-05-31 2009-10-27 International Business Machines Corporation Multidimensional data cube validation
CN104504264A (zh) * 2014-12-08 2015-04-08 深圳市华傲数据技术有限公司 虚拟人建立方法及装置
CN105099729A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种识别用户身份标识的方法和装置
CN105677648A (zh) * 2014-11-18 2016-06-15 四三九九网络股份有限公司 一种基于标签传播算法的社团发现方法及系统
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610294B2 (en) * 2007-05-31 2009-10-27 International Business Machines Corporation Multidimensional data cube validation
CN105099729A (zh) * 2014-04-22 2015-11-25 阿里巴巴集团控股有限公司 一种识别用户身份标识的方法和装置
CN105677648A (zh) * 2014-11-18 2016-06-15 四三九九网络股份有限公司 一种基于标签传播算法的社团发现方法及系统
CN104504264A (zh) * 2014-12-08 2015-04-08 深圳市华傲数据技术有限公司 虚拟人建立方法及装置
CN106570178A (zh) * 2016-11-10 2017-04-19 重庆邮电大学 一种基于图聚类的高维文本数据特征选择方法

Also Published As

Publication number Publication date
CN107248929A (zh) 2017-10-13

Similar Documents

Publication Publication Date Title
US11030311B1 (en) Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise
CN106878262B (zh) 报文检测方法及装置、建立本地威胁情报库的方法及装置
CN106933854B (zh) 短链接处理方法、装置及服务器
CN105447113B (zh) 一种基于大数据的信息分析方法
CN107729371B (zh) 区块链的数据索引及查询方法、装置、设备及存储介质
CN108959370B (zh) 一种基于知识图谱中实体相似度的社区发现方法及装置
CN110033302B (zh) 恶意账户识别方法及装置
CN106682906B (zh) 一种风险识别、业务处理方法和设备
CN111523143B (zh) 针对多方的隐私数据进行聚类的方法和装置
CN104866478A (zh) 恶意文本的检测识别方法及装置
CN111859368A (zh) 弱密码生成方法、密码检测方法、装置及电子设备
CN105912679A (zh) 一种数据查询的方法和装置
US20150220648A1 (en) Systems and Methods for Performing Machine-Implemented Tasks
CN113076319B (zh) 基于离群值检测技术和位图索引的动态数据库填充方法
CN109905366B (zh) 终端设备安全验证方法、装置、可读存储介质及终端设备
CN113704252B (zh) 规则引擎决策树实现方法、装置、计算机设备及计算机可读存储介质
US8756093B2 (en) Method of monitoring a combined workflow with rejection determination function, device and recording medium therefor
CN107248929B (zh) 一种多维关联数据的强关联数据生成方法
CN111178678B (zh) 基于社团影响力的网络节点重要性评估方法
US20220171693A1 (en) Optimizing large scale data analysis
CN108681587B (zh) bitmap生成方法、装置、设备及存储介质
CN109213972B (zh) 确定文档相似度的方法、装置、设备和计算机存储介质
CN106817364B (zh) 一种暴力破解的检测方法及装置
EP3985569A1 (en) Information processing program, information processing method, and information processing device
US9374474B1 (en) System, method, and computer program for detecting duplicated telecommunications events in a consumer telecommunications network

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: Room 301, Unit 1, 3rd Floor, Building 15, No.1 Courtyard, Gaolizhang Road, Haidian District, Beijing, 100080

Patentee after: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.

Address before: 100102 room 112102, unit 1, building 3, yard 1, Futong East Street, Chaoyang District, Beijing

Patentee before: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD.