CN107248929B - 一种多维关联数据的强关联数据生成方法 - Google Patents
一种多维关联数据的强关联数据生成方法 Download PDFInfo
- Publication number
- CN107248929B CN107248929B CN201710389456.5A CN201710389456A CN107248929B CN 107248929 B CN107248929 B CN 107248929B CN 201710389456 A CN201710389456 A CN 201710389456A CN 107248929 B CN107248929 B CN 107248929B
- Authority
- CN
- China
- Prior art keywords
- node
- data
- label
- type
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/04—Processing captured monitoring data, e.g. for logfile generation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/067—Generation of reports using time frame reporting
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/102—Entity profiles
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Physics & Mathematics (AREA)
- Algebra (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种多维关联数据的强关联数据生成方法。本方法为:1)将提取的多维关联数据存入图系统;2)对每一记录生成一对节点以及连接该对节点的边;3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;4)利用图的标签传播算法进行消息发送;5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。本发明可有效的针对多维关联数据计算强关联数据。
Description
技术领域
本发明涉及一种多维关联数据的强关联数据生成方法,属于网络技术领域。
背景技术
通过用户授权后,网站会记录用户的手机号、IMEI等信息。实际使用过程中,一个用户可能会换手机登陆网站,网站获取的手机号不变,但IMEI或IDFA会发生变化;同样用户可能在相同的手机设备上使用不同手机号登陆,即手机号不同,IMEI号不变。另外网站可能会遭受撞库攻击,即大量出现同一个IMEI号,手机号却不同的情况。
在某些场景下,例如用户画像,需要将IMEI和手机号关联起来,并找到IMEI强关联的手机号,即该IMEI最有可能与哪个手机号绑定。
现有技术方案一般处理方法为统计IMEI关联的所有手机号,选择关联次数最多、关联时间最近的手机号作为强关联手机号。
然而现有技术方案无法解决多维关联问题,例如一个手机号与Email关联,并且关联次数很多、关联时间较新,该Email又与IMEI关联并且关联次数很多、关联时间较新;然后该手机号和IMEI直接关联次数较少。实际中该手机号和IMEI是强关联的,但是现有技术方案未得出这样的结果。
发明内容
针对现有技术中存在的技术问题,本发明的目的在于提供一种多维关联数据的强关联数据生成方法。
本发明的技术方案为:
一种多维关联数据的强关联数据生成方法,其步骤为:
1)将提取的多维关联数据存入图系统;所述多维关联数据的每一记录包括相互关联的数据、关联次数、最近关联时间;
2)对每一记录生成一对节点以及连接该对节点的边;
3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;
4)利用图的标签传播算法进行消息发送,其中,对于步骤2)生成的每一对节点,如果节点1的标签不是unknown并且节点2的类型不是目标数据的类型,则向节点2发送消息,该消息内容包括:节点1的标签值和边的权重;如果节点2的标签不是unknown并且节点1的类型不是目标数据的类型,则向节点1发送消息,该消息内容包括节点2的标签值和边的权重;其中节点1、节点2是同一边连接的两节点;
5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;
6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。
进一步的,所述记录的数据格式为:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;其中,ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值,ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。
进一步的,所述节点的属性包括类型编号及其类型值、标签。
进一步的,所述边的属性包括权重。
进一步的,所述数据包括手机号、Email和IMEI。
进一步的,所述图系统为Spark GraphX。
本发明基于图标签传播算法的思想来计算强关联数据,其关键步骤如下:
1.提取关联数据,包括关联的数据、关联次数、最近关联时间,表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。
2.将数据存入图系统,例如Spark GraphX,即是将数据存储到Spark GraphX的HDFS上。
3.根据关联数据计算节点、节点属性、边、边属性。根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括:ID类型编号、ID值、标签),并生成节点的边(边的属性包括:权重)
4.修改图的标签传播算法并执行算法
5.遍历图的节点,过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点,导出节点的属性。
6.如果需要计算所有数据的强关联的其他数据类型,例如所有数据的强关联IMEI号,则可以重复步骤3~5,适当设置初始标签。
与现有技术相比,本发明的积极效果为:
1、本发明可以有效的计算强关联数据,即使是海量数据。
2、本发明可以有效的针对多维关联数据计算强关联数据。
附图说明
图1为本发明方法的流程图。
具体实施方式
下面结合附图,对优选实施例作详细说明。应该强调的是下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
本发明的完整技术方案如下,其中以以下例子作为说明,并且强关联计算的目标是得到所有ID的强关联手机号。
数据1 | 数据2 | 关联次数 | 关联时间 |
IMEI1 | 手机号1 | 2 | 2017-05-20 |
Email1 | 手机号2 | 5 | 2017-05-20 |
Email1 | IMEI1 | 4 | 2017-05-20 |
如图1所示,本发明的流程为:
1、提取关联数据
提取关联数据,包括关联的数据、关联次数、最近关联时间,表示为(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)。例如手机号与IMEI号关联,则关联数据为(手机号类型、手机号、IMEI号类型、IMEI号、关联次数、最近关联时间),同一个手机号可能与多个IMEI号关联;同一个IMEI可能与多个手机号关联。
假设手机号的类型编号为1,IMEI的类型编号为2,Email的类型编号为3,上述例子提取的关联数据如下:
ID1类型编号 | ID1值 | ID2类型编号 | ID2值 | 关联次数 | 最近关联时间 |
2 | IMEI1 | 1 | 手机号1 | 5 | 2017-05-20 |
3 | Email1 | 1 | 手机号2 | 4 | 2017-05-20 |
3 | Email1 | 2 | IMEI1 | 2 | 2017-05-20 |
2、数据存入图系统
将数据存入图系统,例如Spark GraphX,即是将数据存储到Spark GraphX的HDFS上。
3、预计算
根据关联数据计算节点、节点属性、边、边属性。
1.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成两个节点(节点的属性包括:ID类型编号、ID值、标签):
节点1的属性为:ID1类型编号、ID1值、标签。节点1的ID为“ID1类型编号-ID1值”的Hash结果。
节点2的属性为:ID2类型编号、ID2值、标签。节点2的ID为“ID2类型编号-ID2值”的Hash结果。
其中标签与强关联计算的目标有关,如果强关联计算的目标是计算所有ID与手机号的强关联,则当节点的类型为手机号时,其标签为手机号的值;当节点的类型为非手机号时,其标签为“unknown”。
2.根据关联数据(ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间)生成节点的边(边的属性包括:权重):
边的两个节点分别为节点1的ID和节点2的ID。
边的属性权重是根据关联次数和最近关联时间计算得到的,假设权重为w,关联次数为n,最近关联时间为t,当前时间为tnow,则其计算方式为:
以步骤3的结果[2,IMEI1,1,手机号1,2,2017-05-20]为例,其生成的节点和边分别为:
节点1的ID为Hash(“2-IMEI1”),属性:ID类型编号为2,ID值为IMEI1。
节点2的ID为Hash(“1-手机号1”),属性:ID类型编号为1,ID值为手机号1。
边为节点1-节点2,由于tnow-t等于0,因此边属性权重等于关联次数2。
4、修改图的标签传播算法并执行
现有的图的标签传播算法不能直接满足强关联计算的要求,需要做如下改动:
1.在图的标签传播过程中,根据边来传播消息,如果边的节点1的标签不是“unknown”并且节点2的类型不是强关联计算的目标,例如手机号,则向节点2发送消息,该消息的内容包括:节点1的标签值和边的权重值;如果节点2的标签不是“unknown”并且节点1的类型不是强关联计算的目标,则向节点1发送消息,该消息的内容包括节点2的标签值和边的权重值。
2.在图的标签传播过程中,当图中的节点接收到消息时,统计各种标签传播过来的权重,选择权重最大的标签作为本节点的标签,但是如果节点本身是强关联计算的目标,例如手机号,则该节点的标签不做修改。
执行图的标签传播算法将标签传播到其他节点上。
上述例子计算的结果为:
节点1的属性:ID类型编号为1,ID值为手机号1,标签为手机号1;
节点2的属性:ID类型编号为2,ID值为IMEI1,标签为手机号2;
节点3的属性:ID类型编号为3,ID值为Email1,标签为手机号2;
节点4的属性:ID类型编号为1,ID值为手机号2,标签为手机号2。
5、导出强关联数据
遍历图的节点,过滤掉标签仍然为“unknown”的节点以及过滤掉ID值与标签值相同的节点,导出节点的属性。其结果格式如下:
ID类型编号、ID值、标签
上述例子的结果为:
ID类型编号 | ID值 | 标签 |
2 | IMEI1 | 手机号2 |
3 | Email1 | 手机号2 |
6、计算其他数据的强关联数据
如果需要计算其他数据类型的强关联数据,则可以重复步骤2~4,相应的设置初始标签。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种多维关联数据的强关联数据生成方法,其步骤为:
1)将提取的多维关联数据存入图系统;所述多维关联数据的每一记录包括相互关联的数据、关联次数、最近关联时间;
2)对每一记录生成一对节点以及连接该对节点的边;其中,根据关联数据计算节点、节点属性、边和边属性,根据关联数据生成两个节点和节点之间的边,关联数据包括:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;节点的属性包括类型编号及其类型值、标签;边的属性包括权重;边的权重其中,n为关联次数,t为最近关联时间,tnow为当前时间;
3)确定强关联的目标数据,对于每一节点,如果该节点的类型为目标数据的类型,则将该节点的标签设置为该节点对应的数据;否则将该节点的标签设置为unknown;
4)利用图的标签传播算法进行消息发送,其中,对于步骤2)生成的每一对节点,如果节点1的标签不是unknown并且节点2的类型不是目标数据的类型,则向节点2发送消息,该消息内容包括:节点1的标签值和边的权重;如果节点2的标签不是unknown并且节点1的类型不是目标数据的类型,则向节点1发送消息,该消息内容包括节点2的标签值和边的权重;其中节点1、节点2是同一边连接的两节点;
5)各节点选择收到消息中权重最大的标签作为本节点的标签,如果节点本身是目标数据,则该节点的标签不做修改;
6)过滤掉标签为unknown的节点以及过滤掉数据与标签值相同的节点,剩余节点对应的数据即为目标数据的强关联数据。
2.如权利要求1所述的方法,其特征在于,所述记录的数据格式为:ID1类型编号、ID1值、ID2类型编号、ID2值、关联次数、最近关联时间;其中,ID1类型编号、ID1值分别为记录中一数据的类型编号及其类型值,ID2类型编号、ID2值分别为该记录中另一数据的类型编号及其类型值。
3.如权利要求1或2所述的方法,其特征在于,所述数据包括手机号、Email和IMEI。
4.如权利要求1所述的方法,其特征在于,所述图系统为Spark GraphX。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710389456.5A CN107248929B (zh) | 2017-05-27 | 2017-05-27 | 一种多维关联数据的强关联数据生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710389456.5A CN107248929B (zh) | 2017-05-27 | 2017-05-27 | 一种多维关联数据的强关联数据生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107248929A CN107248929A (zh) | 2017-10-13 |
CN107248929B true CN107248929B (zh) | 2020-08-11 |
Family
ID=60017721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710389456.5A Active CN107248929B (zh) | 2017-05-27 | 2017-05-27 | 一种多维关联数据的强关联数据生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107248929B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190035A (zh) * | 2018-08-24 | 2019-01-11 | 北京奇虎科技有限公司 | Id数据网数据分析方法、装置及计算设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610294B2 (en) * | 2007-05-31 | 2009-10-27 | International Business Machines Corporation | Multidimensional data cube validation |
CN104504264A (zh) * | 2014-12-08 | 2015-04-08 | 深圳市华傲数据技术有限公司 | 虚拟人建立方法及装置 |
CN105099729A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种识别用户身份标识的方法和装置 |
CN105677648A (zh) * | 2014-11-18 | 2016-06-15 | 四三九九网络股份有限公司 | 一种基于标签传播算法的社团发现方法及系统 |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
-
2017
- 2017-05-27 CN CN201710389456.5A patent/CN107248929B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610294B2 (en) * | 2007-05-31 | 2009-10-27 | International Business Machines Corporation | Multidimensional data cube validation |
CN105099729A (zh) * | 2014-04-22 | 2015-11-25 | 阿里巴巴集团控股有限公司 | 一种识别用户身份标识的方法和装置 |
CN105677648A (zh) * | 2014-11-18 | 2016-06-15 | 四三九九网络股份有限公司 | 一种基于标签传播算法的社团发现方法及系统 |
CN104504264A (zh) * | 2014-12-08 | 2015-04-08 | 深圳市华傲数据技术有限公司 | 虚拟人建立方法及装置 |
CN106570178A (zh) * | 2016-11-10 | 2017-04-19 | 重庆邮电大学 | 一种基于图聚类的高维文本数据特征选择方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107248929A (zh) | 2017-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030311B1 (en) | Detecting and protecting against computing breaches based on lateral movement of a computer file within an enterprise | |
CN106878262B (zh) | 报文检测方法及装置、建立本地威胁情报库的方法及装置 | |
CN106933854B (zh) | 短链接处理方法、装置及服务器 | |
CN105447113B (zh) | 一种基于大数据的信息分析方法 | |
CN107729371B (zh) | 区块链的数据索引及查询方法、装置、设备及存储介质 | |
CN108959370B (zh) | 一种基于知识图谱中实体相似度的社区发现方法及装置 | |
CN110033302B (zh) | 恶意账户识别方法及装置 | |
CN106682906B (zh) | 一种风险识别、业务处理方法和设备 | |
CN111523143B (zh) | 针对多方的隐私数据进行聚类的方法和装置 | |
CN104866478A (zh) | 恶意文本的检测识别方法及装置 | |
CN111859368A (zh) | 弱密码生成方法、密码检测方法、装置及电子设备 | |
CN105912679A (zh) | 一种数据查询的方法和装置 | |
US20150220648A1 (en) | Systems and Methods for Performing Machine-Implemented Tasks | |
CN113076319B (zh) | 基于离群值检测技术和位图索引的动态数据库填充方法 | |
CN109905366B (zh) | 终端设备安全验证方法、装置、可读存储介质及终端设备 | |
CN113704252B (zh) | 规则引擎决策树实现方法、装置、计算机设备及计算机可读存储介质 | |
US8756093B2 (en) | Method of monitoring a combined workflow with rejection determination function, device and recording medium therefor | |
CN107248929B (zh) | 一种多维关联数据的强关联数据生成方法 | |
CN111178678B (zh) | 基于社团影响力的网络节点重要性评估方法 | |
US20220171693A1 (en) | Optimizing large scale data analysis | |
CN108681587B (zh) | bitmap生成方法、装置、设备及存储介质 | |
CN109213972B (zh) | 确定文档相似度的方法、装置、设备和计算机存储介质 | |
CN106817364B (zh) | 一种暴力破解的检测方法及装置 | |
EP3985569A1 (en) | Information processing program, information processing method, and information processing device | |
US9374474B1 (en) | System, method, and computer program for detecting duplicated telecommunications events in a consumer telecommunications network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CP02 | Change in the address of a patent holder | ||
CP02 | Change in the address of a patent holder |
Address after: Room 301, Unit 1, 3rd Floor, Building 15, No.1 Courtyard, Gaolizhang Road, Haidian District, Beijing, 100080 Patentee after: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD. Address before: 100102 room 112102, unit 1, building 3, yard 1, Futong East Street, Chaoyang District, Beijing Patentee before: BEIJING KNOW FUTURE INFORMATION TECHNOLOGY CO.,LTD. |