CN108650145A - 一种家庭宽带WiFi下手机号码特征自动提取方法 - Google Patents
一种家庭宽带WiFi下手机号码特征自动提取方法 Download PDFInfo
- Publication number
- CN108650145A CN108650145A CN201810285458.4A CN201810285458A CN108650145A CN 108650145 A CN108650145 A CN 108650145A CN 201810285458 A CN201810285458 A CN 201810285458A CN 108650145 A CN108650145 A CN 108650145A
- Authority
- CN
- China
- Prior art keywords
- phone number
- data
- extraction method
- automatic extraction
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/026—Capturing of monitoring data using flow identification
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/02—Capturing of monitoring data
- H04L43/028—Capturing of monitoring data by filtering
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L69/00—Network arrangements, protocols or services independent of the application payload and not provided for in the other groups of this subclass
- H04L69/22—Parsing or analysis of headers
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
本发明公开了一种家庭宽带WiFi下手机号码特征自动提取方法,采用DPI(深度包检测)技术、Hyperscan高速字符串匹配、Hadoop分布式架构、分布式爬虫等技术,可以更加快速准确的识别出固网WiFi下用户手机号码特征。
Description
技术领域
本发明涉及一种家庭宽带WiFi下手机号码特征自动提取方法,属于深度包解析技术领域。
背景技术
目前大多数的特征字发现是采用人工离线的方法进行:即通过人工模拟用户使用特定应用的行为,并进行抓包,通过经验和肉眼比对提取关键特征字,形成针对特定应用的特征字库。离线的人工比对获取特征字的方法工作量大、低效且模拟行为有限,且对人员的要求较高。
发明内容
为解决现有技术的不足,本发明的目的在于提供一种家庭宽带WiFi下手机号码特征自动提取方法,解决人工比对效率低的问题。
为了实现上述目标,本发明采用如下的技术方案:
一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,包括如下步骤:
步骤1)通过深度包检测技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包;对剩下的HTTP数据包进行HTTP应用层报文解析,提取字段内容;
步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包;
步骤3)利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,整理成数据清单送入大数据分析模块进行分析;
步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取,匹配出ua信息;当匹配出非手机型号的终端,判断此11位数字并非真的手机号,此手机号码特征关键字是无效的;
步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除出去;
步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数;
通过设置应用阈值和时间阈值,所述应用阈值为出现次数阈值,时间阈值为app应用启动时间阈值,当应用阈值和时间阈值均不满足时,继续累积数据,否则归类进手机号码特征关键字库中;
步骤7)采用黑名单的方式进行过滤,过滤黑名单关键字后再检查关键字,验证是否属于手机号码特征黑名单中,如否,则进入下一步,否则再次过滤黑名单关键字;
步骤8)输出最终结果,形成手机号码特征结果表,包括手机号码特征关键字和手机号码特征对应app名称。
前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤1)中的字段内容包括uri、host、ua、referer、cookie和content。
前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤2)中资源类型不符合的数据包为不携带用户相关身份信息的数据包。
前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤3)中结果记录的信息包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie和content。
前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤6)中数据库的数据累积的方法为:将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作为唯一标识,累积每天的数据,计算四元组数据出现的天数;
通过设置时间阈值过滤具有临时性、时效性的噪声数据;
通过设置应用出现次数阈值,超过应用阈值,最终会归类进手机号码特征关键字库中。
前述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述应用阈值具体内容为:利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数,所述二元组的数据包含手机号码和宽带账号。
本发明所达到的有益效果:本发明相比传统离线人工肉眼识别方法,手机号码特征可以每天定时自动输出,且根据这些手机号码特征提取的手机号准确率可以达到86%以上,提取特征的效率有很大的提高。
附图说明
图1为DPI数据清洗模块流程图;
图2为大数据分析去噪流程图;
图3为具体实施工程图;
图4为手机号码特征准确率;
图5为手机号码特征漏判率;
图6为手机号码特征误判率。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明采用了DPI(深度包检测)技术对家庭宽带WiFi下的流量进行用户信息感知、采用Hyperscan高速字符串匹配提高提取方法的字符匹配和信息采集速率、采用Hadoop分布式架构和分布式爬虫实现对关键字信息库的清洗和分析。
与现有技术相比,本发明相比传统离线人工肉眼识别方法,手机号码特征可以每天定时自动输出,且根据这些手机号码特征提取的手机号准确率可以达到86%以上,提取特征的效率有很大的提高。
具体内容为:
步骤1)通过DPI技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP(超文本传输协议)、非RADIUS(远程用户拨号认证服务)协议的数据包,例如,FTP(文件传输协议)、DNS(域名系统)、SMTP(简单邮件传输协议)等数据包。然后对剩下的HTTP数据包进行HTTP应用层报文解析,提取其中uri、host、ua、referer、cookie、content等字段内容;
步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包,例如,uri字段中以jpg、gif、png、js、jpeg、css等作为扩展名,用于对图片资源、网页样式进行请求的数据包,因为这些数据包不携带用户相关身份信息,不可能包含用户手机号码,对手机号码关键字的提取是毫无用处的。
步骤3)由于手机号码包含一些数字特性,例如,号码前三位代表运营商、号码中间四位代表地域信息等,通过这些手机号码特征可以反向地去提取手机号码所携带的手机号码关键字。利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,结果记录包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie、content等信息,整理成一系列数据清单送入大数据分析去噪中心进行进一步的分析。
步骤4)在DPI清洗后获得的ua字段信息,代表了手机型号信息。通过事先利用Webmagic爬虫框架对电子商城终端信息的爬取,匹配出ua信息。当匹配出非手机型号的终端,很容易就可以判断此11位数字并非真的手机号,从而此手机号码特征关键字是无效的。
步骤5)在DPI清洗后获得的host字段信息,代表了手机号码特征关键字的数据包的主机名称。利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,有效地将同种应用产生出的许多不同host主机名的情况归为同一种应用,将那些来自未知应用的噪声数据记录剔除出去,帮助之后的数据分析计算手机号码在同一宽带账号下出现在不同app应用的次数,提高了手机号码特征关键字的提取准确率。
步骤6)DPI清洗出的手机号码数字串可能来自某应用的时间戳或者临时上报的数据,因此,此类噪声数据都具有临时性、时效性等特点。本发明采用数据累积的方法,将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作为key(唯一标识),累积每天的数据,计算四元组数据出现的天数。通过设置时间阈值,有效地过滤掉那些具有临时性、时效性的噪声数据,而有些出现天数少而不被采用的真的手机号码,通过数据的不断再累积、再沉淀,超过时间阈值,最终会归类进手机号码特征关键字库中。采用计算手机号码在同一宽带账号下出现在不同app应用的次数的方法,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数。通过设置应用出现次数阈值,超过应用阈值,最终会归类进手机号码特征关键字库中。
步骤7)DPI清洗出的手机号码数字串可能来自手机本身固有的标识用户身份的其他数字串,比如手机的IMEI(国际移动设备身份码)号、IMSI(国际移动用户识别码)号等,因此,对于此类和手机号码一样可标识一个用户身份的强干扰项,本发明采用黑名单的方式进行过滤,最终那些利用时间维度、应用维度无法过滤的强噪声,可被黑名单的方式过滤掉,更加有效地提高手机号码特征关键字提取的准确率。
如图4,准确率:通过手机号码特征结果提取的正确手机号码占所有识别出的手机号码的百分比。该百分比可以度量手机号码特征结果的识别正确性。随着时间阈值、应用阈值的提高,准确率有着明显的提高,准确率最高可达86.2%以上。
如图5,漏判率:通过手机号码特征结果没有识别出的手机号码个数占所有接入本地测试环境的手机号码总数的百分比。该百分比可以度量应用阈值、时间阈值对正确手机号码输出量的影响大小。随着时间阈值、应用阈值的提高,漏判率缓慢增加,最高控制在10.9%以下。
如图6,误判率:通过手机号码特征结果提取的错误手机号码占所有接入本地测试环境的手机号码总数的百分比。该百分比可以度量手机号码特征结果的输出正确性。随着时间阈值、应用阈值的提高,误判率有着明显的降低,最低可控制在5.4%以下。
通过本发明上述步骤,搭建如图3的手机号码特征关键字的设备图,通过本地环境的测试证明,最终本发明可以得到如图4、图5、图6的手机号码特征关键字准确率、漏判率、误判率,根据这些手机号码特征提取的手机号准确率可以达到86%以上,论证了本发明的可行性和准确性,相比传统离线人工肉眼识别方法,提取特征的效率有很大的提高。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (6)
1.一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,包括如下步骤:
步骤1)通过深度包检测技术解析数据包,提取相关信息,判断数据包协议类型,清洗程序一次过滤丢弃非HTTP、非RADIUS协议的数据包;对剩下的HTTP数据包进行HTTP应用层报文解析,提取字段内容;
步骤2)对报文进行二次过滤,丢弃uri字段中资源类型不符合的数据包;
步骤3)利用Hyperscan技术对数据包进行高效快速匹配,发现其中的疑似手机号,并与其他相关信息形成初步分析结果记录,整理成数据清单送入大数据分析模块进行分析;
步骤4)通过事先利用Webmagic爬虫框架对终端信息库的爬取,匹配出ua信息;当匹配出非手机型号的终端,判断此11位数字并非真的手机号,此手机号码特征关键字是无效的;
步骤5)利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,匹配出手机号码关键字出自于哪种app应用,将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除出去;
步骤6)计算手机号码在同一宽带账号下出现在不同app应用的次数,利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数;
通过设置应用阈值和时间阈值,所述应用阈值为出现次数阈值,时间阈值为app应用启动时间阈值,当应用阈值和时间阈值均不满足时,继续累积数据,否则归类进手机号码特征关键字库中;
步骤7)采用黑名单的方式进行过滤,过滤黑名单关键字后再检查关键字,验证是否属于手机号码特征黑名单中,如否,则进入下一步,否则再次过滤黑名单关键字;
步骤8)输出最终结果,形成手机号码特征结果表,包括手机号码特征关键字和手机号码特征对应app名称。
2.根据权利要求1所述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤1)中的字段内容包括uri、host、ua、referer、cookie和content。
3.根据权利要求1所述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤2)中资源类型不符合的数据包为不携带用户相关身份信息的数据包。
4.根据权利要求1所述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤3)中结果记录的信息包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie和content。
5.根据权利要求1所述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述步骤6)中数据库的数据累积的方法为:将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作为唯一标识,累积每天的数据,计算四元组数据出现的天数;
通过设置时间阈值过滤具有临时性、时效性的噪声数据;
通过设置应用出现次数阈值,超过应用阈值,最终会归类进手机号码特征关键字库中。
6.根据权利要求5所述的一种家庭宽带WiFi下手机号码特征自动提取方法,其特征是,所述应用阈值具体内容为:利用hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数,所述二元组的数据包含手机号码和宽带账号。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810285458.4A CN108650145A (zh) | 2018-04-03 | 2018-04-03 | 一种家庭宽带WiFi下手机号码特征自动提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810285458.4A CN108650145A (zh) | 2018-04-03 | 2018-04-03 | 一种家庭宽带WiFi下手机号码特征自动提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108650145A true CN108650145A (zh) | 2018-10-12 |
Family
ID=63745399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810285458.4A Pending CN108650145A (zh) | 2018-04-03 | 2018-04-03 | 一种家庭宽带WiFi下手机号码特征自动提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108650145A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110213286A (zh) * | 2019-06-12 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种基于双引擎的高效waf设计方法 |
CN111988161A (zh) * | 2019-05-24 | 2020-11-24 | 中国电信股份有限公司 | 识别用户更新宽带网络的方法及装置 |
CN113127767A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106452859A (zh) * | 2016-09-29 | 2017-02-22 | 南京邮电大学 | 一种固网WiFi环境下手机号码特征关键字自动提取方法 |
KR20170142320A (ko) * | 2016-06-17 | 2017-12-28 | 김철호 | 주차 차주 연결 서비스 제공 방법 |
-
2018
- 2018-04-03 CN CN201810285458.4A patent/CN108650145A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20170142320A (ko) * | 2016-06-17 | 2017-12-28 | 김철호 | 주차 차주 연결 서비스 제공 방법 |
CN106452859A (zh) * | 2016-09-29 | 2017-02-22 | 南京邮电大学 | 一种固网WiFi环境下手机号码特征关键字自动提取方法 |
Non-Patent Citations (1)
Title |
---|
金石等: "家庭 WiFi 下手机号码特征自动提取方法", 《电子技术及信息科学》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111988161A (zh) * | 2019-05-24 | 2020-11-24 | 中国电信股份有限公司 | 识别用户更新宽带网络的方法及装置 |
CN110213286A (zh) * | 2019-06-12 | 2019-09-06 | 四川长虹电器股份有限公司 | 一种基于双引擎的高效waf设计方法 |
CN113127767A (zh) * | 2019-12-31 | 2021-07-16 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
CN113127767B (zh) * | 2019-12-31 | 2023-02-10 | 中国移动通信集团四川有限公司 | 手机号码提取方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104283918B (zh) | 一种无线局域网终端类型获取方法及系统 | |
US9201953B2 (en) | Filtering information using targeted filtering schemes | |
CN111385297B (zh) | 无线设备指纹识别方法、系统、设备及可读存储介质 | |
CN107360118B (zh) | 一种高级持续威胁攻击防护方法及装置 | |
CN111131260B (zh) | 一种海量网络恶意域名识别和分类方法及系统 | |
CN103051637A (zh) | 用户识别方法与装置 | |
CN105491018B (zh) | 一种基于dpi技术的网络数据安全性分析方法 | |
CN102708186A (zh) | 一种钓鱼网站的识别方法 | |
CN103442014A (zh) | 一种自动检测疑似仿冒网站的方法及系统 | |
CN108650145A (zh) | 一种家庭宽带WiFi下手机号码特征自动提取方法 | |
CN103237094A (zh) | 一种识别用户的方法及装置 | |
CN110648172B (zh) | 一种融合多种移动设备的身份识别方法和系统 | |
CN108319672A (zh) | 基于云计算的移动终端不良信息过滤方法及系统 | |
CN106452859A (zh) | 一种固网WiFi环境下手机号码特征关键字自动提取方法 | |
CN110020161B (zh) | 数据处理方法、日志处理方法和终端 | |
CN109981389A (zh) | 手机号码识别方法、装置、设备及介质 | |
CN104021348A (zh) | 一种隐匿p2p程序实时检测方法及系统 | |
CN113688905A (zh) | 一种有害域名核验方法及装置 | |
CN112468444B (zh) | 互联网域名滥用识别方法和装置,电子设备,存储介质 | |
CN109190408B (zh) | 一种数据信息的安全处理方法及系统 | |
CN112199388A (zh) | 陌电识别方法、装置、电子设备及存储介质 | |
CN104572765A (zh) | 一种基于用户账号行为分析的查找马甲账号的方法及系统 | |
CN114339639B (zh) | 通话识别方法、装置、存储介质和电子设备 | |
CN110944290B (zh) | 一种伴随关系的分析方法及装置 | |
CN103701765A (zh) | 一种短域名的监控方法、装置和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181012 |