CN107682344A - 一种基于dpi数据互联网身份识别的id图谱建立方法 - Google Patents

一种基于dpi数据互联网身份识别的id图谱建立方法 Download PDF

Info

Publication number
CN107682344A
CN107682344A CN201710969019.0A CN201710969019A CN107682344A CN 107682344 A CN107682344 A CN 107682344A CN 201710969019 A CN201710969019 A CN 201710969019A CN 107682344 A CN107682344 A CN 107682344A
Authority
CN
China
Prior art keywords
information
collection
terminal type
illustrative plates
type information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710969019.0A
Other languages
English (en)
Inventor
王攀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Post Mdt Infotech Ltd
Original Assignee
Nanjing Post Mdt Infotech Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post Mdt Infotech Ltd filed Critical Nanjing Post Mdt Infotech Ltd
Priority to CN201710969019.0A priority Critical patent/CN107682344A/zh
Publication of CN107682344A publication Critical patent/CN107682344A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/08Network architectures or network communication protocols for network security for authentication of entities
    • H04L63/0876Network architectures or network communication protocols for network security for authentication of entities based on the identity of the terminal or configuration, e.g. MAC address, hardware or software configuration or device fingerprint
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24564Applying rules; Deductive queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computing Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Power Engineering (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于DPI数据互联网身份识别的ID图谱建立方法,包括步骤:通过抓包测试获取信息中特征字符串和HTTP请求、关键字;对DPI数据采集系统中数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息;对终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,进行频繁模式挖掘,挖掘获得一个家庭宽带下最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的集合;进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取关联关系;进行聚合形成一条数据并生成用户ID图谱且存放在HDFS。本发明利用ID图谱能够辨识到具体用户,提高了用户识别的效率和准确性。

Description

一种基于DPI数据互联网身份识别的ID图谱建立方法
技术领域
本发明涉及一种基于DPI数据互联网身份识别的ID图谱建立方法,属于互联网挖掘的技术领域。
背景技术
现如今DPI深度报文检测技术已经发展的相当成熟,运营商通过DPI平台已经累积了海量的流量数据。通信运营商通过这些流量数据已经提取出了如号码等关键字段;通过号码塑造家庭画像,进而对家庭实施精准的融合业务营销、异网用户策反等经营手段。
如今大多数用户识别使用imei/idfa终端唯一识别码进行识别,在进行大量的家庭画像塑造的同时,通信运营商发现流量数据十分驳杂,充满了噪声与不确定数据。这些数据是由谁产生,家庭下到底有几个人,及用户所采用信息等都难以判断。因此需要一个用户ID图谱来识别具体用户身份。
发明内容
本发明所要解决的技术问题在于克服现有技术的不足,提供一种基于DPI数据互联网身份识别的ID图谱建立方法,解决现有的方法进行用户识别时数据驳杂充满了噪声与不确定数据,无法快速准确的构建互联网下的用户ID图谱的问题。
本发明具体采用以下技术方案解决上述技术问题:
一种基于DPI数据互联网身份识别的ID图谱建立方法,包括以下步骤:
步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和COOKIE中的关键字;
步骤二、利用得到的特征字符串、HTTP请求和关键字对DPI数据采集系统中的数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息;
步骤三、对所获得的用户终端型号信息、号码信息以及互联网帐号信息中终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,对频繁集进行频繁模式挖掘,挖掘获得一个家庭宽带下由最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现组成的集合;
步骤四、利用步骤三频繁模式挖掘所得到集合进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取得到终端型号信息、号码信息以及互联网帐号信息之间的关联关系;
步骤五、利用步骤四得到的关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据并生成用户互联网身份的ID图谱,且将ID图谱存放在HDFS中以用于检索。
进一步地,作为本发明的一种优选技术方案:所述步骤二中互联网帐号信息至少包括一个用户使用的应用账号。
进一步地,作为本发明的一种优选技术方案:所述所述步骤二中互联网帐号信息包括电商类应用帐号、社交类应用帐号、视频类应用帐号、外卖类应用帐号。
进一步地,作为本发明的一种优选技术方案:所述步骤二中用户的号码信息包括手机号码、互联网帐号、宽带帐号。
进一步地,作为本发明的一种优选技术方案:所述步骤二中用户的终端型号信息包括终端标识码、MAC地址以及终端型号。
本发明采用上述技术方案,能产生如下技术效果:
本发明提供一种基于DPI数据互联网身份识别的ID图谱建立方法,通过关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据,建立出用户互联网身份的ID图谱。基于DPI数据提取出的互联网帐号、宽带帐号、终端识别码imsi/idfa、mac地址以及终端型号信息挖掘关联规则,设计帐号关联关系算法,通过关联规则建立ID图谱;该方法的目标是通过ID图来识别用户的互联网身份。
本发明方法扩充了原有方案的采集面,从终端唯一标识码拓展到了互联网帐号体系。利用ID图谱能在终端唯一标识码、或者号码等信息缺失的时候依然能够辨识到具体用户,提高了用户识别的效率和准确性。尤其是在做用户行为分析相关业务时,每种终端应用和浏览器上传的数据各不相同,原先需要结合大量的外部数据源进行关联分析;效率低下人工投入高,现只需要将单条流量数据中包含的终端型号信息、号码信息以及互联网帐号信息中的任意一种放到索引库中检索,即可分析出这条流量属于那个用户;解决了家庭宽带下长久以来的用户识别困难。
附图说明
图1为本发明基于DPI数据互联网身份识别的ID图谱建立方法的流程示意图。
图2为本发明中建立关联关系的示意图。
图3为本发明中生成的用户互联网身份的ID图谱示意图。
具体实施方式
下面结合说明书附图对本发明的实施方式进行描述。
如图1所示,本发明设计了一种基于DPI数据互联网身份识别的ID图谱建立方法,包括以下步骤:
步骤一、通过抓包测试获取用户终端如PC、移动终端的上网流量信息中特征字符串和流量信息中HTTP请求和COOKIE中的关键字。
步骤二、利用步骤一得到的特征字符串和HTTP请求、关键字对运营商DPI数据采集系统中的数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息。
其中,所述步骤二中互联网帐号信息至少包括一个用户使用的应用账号。优选地互联网帐号信息包括电商类应用帐号、社交类应用帐号、视频类应用帐号、外卖类应用帐号。
以及,用户号码信息可以包括用户的手机号码、互联网帐号、宽带帐号;及用户的终端型号信息可以包括终端识别码、MAC地址以及终端型号信息等。
步骤三、对步骤二所获得的用户终端型号信息、号码信息以及互联网帐号信息中终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,对频繁集进行频繁模式挖掘,挖掘获得一个家庭宽带下由最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现组成的集合。
步骤四、利用步骤三频繁模式挖掘所得到集合进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取得到终端型号信息、号码信息以及互联网帐号信息之间的关联关系,获得的关联关系如图2所示。
步骤五、利用步骤四得到的关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据并生成用户的ID图谱,如图3所示,且将ID图谱存放在HDFS中以用于检索。
综上,本发明方法扩充了原有方案的采集面,从用户终端型号信息拓展到了互联网帐号体系;本发明方法利用ID图谱能在终端或者号码等信息缺失的时候依然能够辨识到具体用户,提高了用户识别的效率和准确性。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (5)

1.一种基于DPI数据互联网身份识别的ID图谱建立方法,其特征在于,包括以下步骤:
步骤一、通过抓包测试获取用户终端的上网流量信息中特征字符串和流量信息中HTTP请求和COOKIE中的关键字;
步骤二、利用得到的特征字符串、HTTP请求和关键字对DPI数据采集系统中的数据提取获得用户的终端型号信息、号码信息以及互联网帐号信息;
步骤三、对所获得的用户终端型号信息、号码信息以及互联网帐号信息中终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现的进行频次统计生成频繁集,对频繁集进行频繁模式挖掘,挖掘获得一个家庭宽带下由最频繁的终端型号信息与号码信息、终端型号信息与互联网账号信息成对出现组成的集合;
步骤四、利用步骤三频繁模式挖掘所得到集合进行关联规则挖掘,将同一个终端下的所有号码信息和互联网账号信息相互关联,获取得到终端型号信息、号码信息以及互联网帐号信息之间的关联关系;
步骤五、利用步骤四得到的关联关系进行聚合使多条终端型号信息、号码信息以及互联网账号信息形成一条数据并生成用户ID图谱,且将用户ID图谱存放在HDFS中以用于检索。
2.根据权利要求1所述基于DPI数据互联网身份识别的ID图谱建立方法,其特征在于:所述步骤二中互联网帐号信息至少包括一个用户使用的应用账号。
3.根据权利要求2所述基于DPI数据互联网身份识别的ID图谱建立方法,其特征在于:所述所述步骤二中互联网帐号信息包括电商类应用帐号、社交类应用帐号、视频类应用帐号、外卖类应用帐号。
4.根据权利要求1所述基于DPI数据互联网身份识别的ID图谱建立方法,其特征在于:所述步骤二中用户的号码信息包括手机号码、互联网帐号、宽带帐号。
5.根据权利要求1所述基于DPI数据互联网身份识别的ID图谱建立方法,其特征在于:所述步骤二中用户的终端型号信息包括终端标识码、MAC地址以及终端型号。
CN201710969019.0A 2017-10-18 2017-10-18 一种基于dpi数据互联网身份识别的id图谱建立方法 Pending CN107682344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710969019.0A CN107682344A (zh) 2017-10-18 2017-10-18 一种基于dpi数据互联网身份识别的id图谱建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710969019.0A CN107682344A (zh) 2017-10-18 2017-10-18 一种基于dpi数据互联网身份识别的id图谱建立方法

Publications (1)

Publication Number Publication Date
CN107682344A true CN107682344A (zh) 2018-02-09

Family

ID=61141357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710969019.0A Pending CN107682344A (zh) 2017-10-18 2017-10-18 一种基于dpi数据互联网身份识别的id图谱建立方法

Country Status (1)

Country Link
CN (1) CN107682344A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959376A (zh) * 2018-05-25 2018-12-07 深圳市买买提信息科技有限公司 一种数据处理方法及装置
CN109086452A (zh) * 2018-08-24 2018-12-25 北京奇虎科技有限公司 Id数据网剪枝预处理方法、装置及计算设备
CN110543586A (zh) * 2019-09-04 2019-12-06 北京百度网讯科技有限公司 多重用户身份融合方法、装置、设备及存储介质
CN110866048A (zh) * 2019-11-15 2020-03-06 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置
CN111147511A (zh) * 2019-12-31 2020-05-12 杭州涂鸦信息技术有限公司 一种用户的身份串并方法及系统
CN113672777A (zh) * 2021-08-30 2021-11-19 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统
CN115277106A (zh) * 2022-06-30 2022-11-01 北京安博通科技股份有限公司 一种网络设备的用户识别方法及系统

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634164A (zh) * 2013-12-04 2014-03-12 中国联合网络通信集团有限公司 一种获取流量信息的方法及系统
CN104951544A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 用户数据处理方法、用户数据的提供方法和系统
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
CN105224593A (zh) * 2015-08-25 2016-01-06 中国人民解放军信息工程大学 一种短暂上网事务中频繁共现账号挖掘方法
CN105681312A (zh) * 2016-01-28 2016-06-15 李青山 一种基于频繁项集挖掘的移动互联网异常用户检测方法
CN105959173A (zh) * 2016-04-05 2016-09-21 王攀 一种基于dpi的固定宽带互联网流量中提取手机号码的方法v1.0
CN106897359A (zh) * 2017-01-09 2017-06-27 成都达拓智通科技有限公司 互联网信息收集及关联方法
US20170214702A1 (en) * 2016-01-21 2017-07-27 Cyiot Ltd Distributed techniques for detecting atypical or malicious wireless communications activity
CN106998262A (zh) * 2016-10-10 2017-08-01 深圳汇网天下科技有限公司 一种识别上网用户的系统与方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103634164A (zh) * 2013-12-04 2014-03-12 中国联合网络通信集团有限公司 一种获取流量信息的方法及系统
CN104951544A (zh) * 2015-06-19 2015-09-30 百度在线网络技术(北京)有限公司 用户数据处理方法、用户数据的提供方法和系统
CN105224593A (zh) * 2015-08-25 2016-01-06 中国人民解放军信息工程大学 一种短暂上网事务中频繁共现账号挖掘方法
CN105183841A (zh) * 2015-09-06 2015-12-23 南京游族信息技术有限公司 大数据环境下结合频繁项集和深度学习的推荐方法
US20170214702A1 (en) * 2016-01-21 2017-07-27 Cyiot Ltd Distributed techniques for detecting atypical or malicious wireless communications activity
CN105681312A (zh) * 2016-01-28 2016-06-15 李青山 一种基于频繁项集挖掘的移动互联网异常用户检测方法
CN105959173A (zh) * 2016-04-05 2016-09-21 王攀 一种基于dpi的固定宽带互联网流量中提取手机号码的方法v1.0
CN106998262A (zh) * 2016-10-10 2017-08-01 深圳汇网天下科技有限公司 一种识别上网用户的系统与方法
CN106897359A (zh) * 2017-01-09 2017-06-27 成都达拓智通科技有限公司 互联网信息收集及关联方法

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959376A (zh) * 2018-05-25 2018-12-07 深圳市买买提信息科技有限公司 一种数据处理方法及装置
CN109086452A (zh) * 2018-08-24 2018-12-25 北京奇虎科技有限公司 Id数据网剪枝预处理方法、装置及计算设备
CN110543586A (zh) * 2019-09-04 2019-12-06 北京百度网讯科技有限公司 多重用户身份融合方法、装置、设备及存储介质
CN110543586B (zh) * 2019-09-04 2022-11-15 北京百度网讯科技有限公司 多重用户身份融合方法、装置、设备及存储介质
CN110866048A (zh) * 2019-11-15 2020-03-06 杭州数梦工场科技有限公司 证件信息的关联规则获取方法及装置
CN111147511A (zh) * 2019-12-31 2020-05-12 杭州涂鸦信息技术有限公司 一种用户的身份串并方法及系统
CN113672777A (zh) * 2021-08-30 2021-11-19 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统
CN113672777B (zh) * 2021-08-30 2023-09-08 上海飞旗网络技术股份有限公司 一种基于流量关联分析的用户意图探索方法及系统
CN115277106A (zh) * 2022-06-30 2022-11-01 北京安博通科技股份有限公司 一种网络设备的用户识别方法及系统
CN115277106B (zh) * 2022-06-30 2024-03-19 北京安博通科技股份有限公司 一种网络设备的用户识别方法及系统

Similar Documents

Publication Publication Date Title
CN107682344A (zh) 一种基于dpi数据互联网身份识别的id图谱建立方法
JP6438135B2 (ja) ソーシャルプラットフォームに基づくデータマイニング方法及び装置
CN106778876B (zh) 基于移动用户轨迹相似性的用户分类方法和系统
CN104283918B (zh) 一种无线局域网终端类型获取方法及系统
CN110457404B (zh) 基于复杂异质网络的社交媒体账户分类方法
CN111385297B (zh) 无线设备指纹识别方法、系统、设备及可读存储介质
CN103970733B (zh) 一种基于图结构的中文新词识别方法
CN104915354B (zh) 多媒体文件推送方法及装置
CN105447147A (zh) 一种数据处理方法及装置
CN102722709A (zh) 一种垃圾图片识别方法和装置
CN104915351A (zh) 图片排序方法及终端
CN106998262A (zh) 一种识别上网用户的系统与方法
CN109905873B (zh) 一种基于特征标识信息的网络账号关联方法
CN104735169A (zh) 一种居住社区群发现方法
CN104348871A (zh) 一种同类账号扩展方法及装置
CN105512301A (zh) 基于社交内容的用户分组方法
Hur et al. Towards smart phone traffic classification
CN107133689B (zh) 一种位置标记方法
CN110472410B (zh) 识别数据的方法、设备和数据处理方法
CN105589935A (zh) 社交群组识别方法
WO2017000817A1 (zh) 获取数据之间的匹配关系的方法和装置
CN102184201A (zh) 一种用于选取查询序列的推荐序列的设备和方法
CN108199878B (zh) 高性能ip网络中个人标识信息识别系统及方法
CN105183806A (zh) 一种不同平台间识别同一用户的方法与系统
CN108153860A (zh) 一种基于多语言新闻的地理位置分析方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20180209

WD01 Invention patent application deemed withdrawn after publication