CN109981389A - 手机号码识别方法、装置、设备及介质 - Google Patents

手机号码识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN109981389A
CN109981389A CN201711459451.1A CN201711459451A CN109981389A CN 109981389 A CN109981389 A CN 109981389A CN 201711459451 A CN201711459451 A CN 201711459451A CN 109981389 A CN109981389 A CN 109981389A
Authority
CN
China
Prior art keywords
phone number
doubtful
fixed network
data
network data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711459451.1A
Other languages
English (en)
Inventor
高东生
王欣
王峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Liaoning Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Liaoning Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711459451.1A priority Critical patent/CN109981389A/zh
Publication of CN109981389A publication Critical patent/CN109981389A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/026Capturing of monitoring data using flow identification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/02Capturing of monitoring data
    • H04L43/028Capturing of monitoring data by filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/06Generation of reports
    • H04L43/062Generation of reports related to network traffic

Abstract

本发明公开了一种手机号码识别方法、装置、设备及介质。该方法包括:从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。由此,通过对固网流量数据包的精准快速地解析,实现高效的手机号码特征关键字的提取,提高手机号码识别的准确性。

Description

手机号码识别方法、装置、设备及介质
技术领域
本发明涉及网络安全审计和流量经营分析技术领域,尤其涉及一种用于固网流量数据包的手机号码识别方法、装置、设备及介质。
背景技术
随着家庭自建WiFi、城市免费WiFi的出现,越来越多的移动终端通过WiFi接入有线宽带互联网来获得移动互联网内容。为了实现通信运营商对网络流量的解析与识别,达到网络安全审计和流量经营分析的目标,如何高效提取手机号码特征、准确识别用户手机号就显得尤为重要。随着互联网信息体量和通信速率的快速增长,现有方案对手机号码特征的分析和手机号码的识别的效率已不能满足分析需求,
综上所述,迫切需要一种高效、精准的手机号码识别方案。
发明内容
本发明实施例提供了一种用于固网流量数据包的手机号码识别方法、装置、设备及介质,实现对固网流量数据包中的手机号码特征的提取,并准确识别网络流量中的手机号码。进一步地,通过相应的手机号码关键字,提高手机号码识别的效率。
第一方面,本发明实施例提供了一种用于固网流量数据包的手机号码识别方法,方法包括:
从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;
基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及
在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
第二方面,本发明实施例提供了一种用于固网流量数据包的手机号码识别装置,装置包括:
数据清单提取单元,用于从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;
手机号码判断单元,用于基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及
关键字写入单元,用于在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
第三方面,本发明实施例提供了一种计算设备,包括:至少一个处理器、至少一个存储器以及存储在存储器中的计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序指令,当计算机程序指令被处理器执行时实现如上述实施方式中第一方面的方法。
本发明实施例提供的用于固网流量数据包的手机号码识别方法、装置、设备及介质,快速、高效地提取固网流量数据包中的手机号码特征数据,准确识别网络流量中的手机号码。进一步地,通过相应的手机号码关键字,提高手机号码识别的效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了根据本发明一个实施例的用于固网流量数据包的手机号码识别方法的流程示意图。
图2示出了根据本发明一个应用示例的模块示意图。
图3示出了根据本发明一个实施例的手机号码识别装置的示意性框图。
图4示出了本发明实施例提供的计算设备的硬件结构示意图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
当前,通信运营商目前常用的互联网流量识别与分类方法包括:端口分析法、应用层净荷分析法、流量行为特征分析法、流统计特征识别法等。
应用层净荷分析法:由于其识别精度高并能实现早期检测,已成为运营商实际使用的主流方法。当前国外网络设备生产商和网络服务提供商都推出了相关的产品或技术,如Cisco公司的NetFlow技术,CacheLogic公司的CacheLogieP2P管理方案及VersoTechnologies的NetSpective系列产品等。不管是国外还是国内的流量识别产品,大都采用了DPI(深度包检测)技术和基于数据流特征的识别技术,其技术本质是相同的。
端口检测法:各种P2P软件都自默认的端口号,利用这些端口信息,可以进行P2P流量检测。例如早期的eDonkey采用4661和4662端口,BT采用6881-6890端口。监控系统通过检测网络流量所使用的端口是否属于典型P2P的端口即可判断其相应的数据包是否属于P2P数据包。
流量行为特征分析法及流统计特征识别法:主要依赖成熟的流量特征标签数据库来进行识别,通过对流量特征与流量特征数据库中的特征标签数据进行比对,分析出流量特点。这两种方法特别依赖基于人工构建的流量特征数据库。并且,流量特征分析法目前主要应用于通过直接获取移动流量的设备进行分析以及针对性的进行一些专题分析(如视频流量)等,而对于固网流量(例如家庭带宽网络流量)的分析尚处于探索阶段。
综上所述,通过对现有技术方案的分析,得出目前大多数的流量分析主要是基于人工分析及数据库依赖,现有技术方案存在如下不足:
(1)现有技术需要通过人工模拟用户使用特定应用的行为,并利用抓包工具进行抓包,通过经验和肉眼比对提取关键特征字,形成针对特定应用的特征字库。人工离线匹配获取特征字的方法工作量大、低效且模拟行为有限,对人员的要求较高。
(2)随着互联网信息体量和通信速率的快速增长,现有技术对于流量特征的分析越来越力不从心。一方面,现有流量特征数据库的特征增长已不能满足快速增长的流量,匹配率下降正在扩大。另一方面,由于流量呈现及时增长,现有的人工分析效率已不能满足分析需求。
有鉴于此,本发明提出了一种高效、准确的用于固网流量数据包的手机号码识别方案,以解决上述至少一个技术问题。
本发明通过采用深度包检测技术(DPI)、Hyperscan(高速正则表达式匹配引擎)、分布式爬虫(基于分布式ETL)等技术,提出一种家庭宽带WiFi下手机号码特征自动提取技术,实现高效的手机号码特征提取和手机号码识别。同时,通过对手机号码访问的流量资源进行深度分析,提高手机号码识别的准确率,确定该手机号码关联的特征关键字是手机号码特征关键字,该手机号码特征关键字可用作为进行手机号码识别的特征数据而写入手机号码特征关键字库,进而提升手机号码识别效率。
如下将结合附图及实施例详细说明本发明的手机号码特征提取方案。
图1示出了根据本发明一个实施例的用于固网流量数据包的手机号码识别方法的流程示意图。
参见图1,在步骤S110,从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息。
本发明的固网可区别于传统的移动网络,例如是家庭宽带WiFi、城市免费WiFi等网络接入方式,通过固网接入有线宽带互联网来获得移动互联网内容。固网流量就是通过固网传输的数据量,固网流量数据包是其传输的数据包。本发明优选可对家庭宽带下的网络流量进行采集和分析。
疑似手机号码是固网流量数据包中包含的号码字符串,该号码字符串具有与手机号码相似的数字特性,例如都是十一位数字、号码前三位对应预定通信运营商等。
在一个优选实施例中,上述包含疑似手机号码的一个或多个固网流量数据包可以是基于预定的手机号码规则筛选出的。
例如,可以通过使用深度包检测技术(DPI)中应用层净荷分析法快速过滤无关的网络流量数据包(例如邮件日志、FTP等日志)以及对相关网络流量数据包的特征数据提取。并且,通过Hyperscan(高速正则表达式匹配引擎)技术同时对多个正则表达式进行并行匹配,利用Hyperscan的特点缩减疑似手机号码的查寻匹配时间,以及利用此数据库对数据包进行快速匹配,发现其中的疑似手机号,由此确定包含疑似手机号码的一个或多个固网流量数据包。
之后,从所确定的一个或多个固网流量数据包中提取疑似手机号码相应的数据清单。该数据清单中可以关联地记录有该疑似手机号码及其相关数据信息,例如,与疑似手机号码关联的关键字、HTTP报文基础信息以及相应的宽带账号等。其中,HTTP报文基础信息可以包括但不限于是相关的时间戳、关键字、uri、host、ua、referer、cookie、content等信息。该数据清单可以作为后续进行手机号码识别的数据基础。
之后,在步骤S120,例如可以基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码。
一个完整的数据包基本上都包含uri、ua、host等字段,与手机号码来自同一个数据包的host、ua等字段可用于识别手机号码,并判断手机号码是否准确,进而确保其关联的手机号码特征关键字是否准确。
因此,本发明可以通过上述ua、host等字段来判断上述的疑似手机号码是否为手机号码,并在判定所述疑似手机号码不是手机号码的情况下,删除其相应的数据清单。
在一个优选实施例中,可以通过判断该固网流量数据包是否来自手机终端,以提升手机号码识别的准确率。
例如,可以基于HTTP报文基础信息中的用户终端信息,判断固网流量数据包是否来自于手机。具体地,可以基于HTTP报文基础信息中的ua字段识别用户使用的终端类型、操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
当上述ua字段匹配到手机终端时,判断该固网流量数据包来自手机终端,可认为该固网流量数据包中提取的疑似手机号码为手机号码。
而当上述ua字段匹配到非手机终端时,判断该固网流量数据包来自非手机终端,此时,判断从该数据包中提取的疑似手机号码只是一串符合手机号码特征的数字,而非真正的手机号。从而可知,该疑似手机号码关联的关键字也不适合用于作为手机号码关键字。
因此,可在判定所述固网流量数据包不是来自于手机的情况下,可以删除所述数据清单。由此,将来自非手机终端的噪声数据剔除,进一步提高手机号码识别的准确率。
在一个优选实施例中,还可以通过对手机号码访问的流量资源进行分析以进行识别,可以判断固网流量数据包来自哪个应用程序(APP)来进行识别。
例如,可以基于所述HTTP报文基础信息中的主机名,确定所述固网流量数据包对应的应用。具体地,可以基于HTTP报文基础信息中的host字段识别与该字段相对应的应用程序(APP)。
在该固网流量数据包能够对应于预定应用(例如某手机应用APP)的情况下,可认为该固网流量数据包中提取的疑似手机号码为手机号码。
而在固网流量数据包不对应于预定应用(例如未知应用)的情况下,删除所述数据清单。由此,将来自未知应用的噪声数据剔除,进一步提高手机号码识别的准确率。
目前市场上的手机终端品牌及类型、应用程序类型众多,各款终端、应用程序的特征信息会有一定程度的差异。为保证上述手机号码识别的准确性以及其关联的关键字的准确性,在一个优选实施例中,本发明可以通过网络爬取等方式构建其相应的数据库,通过将数据清单的HTTP报文基础信息与各自数据库中的特征数据进行匹配,来确保手机号码识别的准确性。
具体地,例如,可以利用Webmagic爬虫框架事先爬取电子商城终端信息,并基于爬取到的终端信息构建终端信息数据库,该数据库中的终端信息优选为手机终端信息(也可以包括非手机终端信息)。之后,基于HTTP报文基础信息中的用户终端信息是否与所述终端信息数据库中的手机终端信息匹配,从而判断所述固网流量包是否来自手机。
或者,也可以利用Webmagic爬虫框架事先爬取host主机名与应用(例如手机应用APP)名称的对应关系,并构建主机名数据库,在主机名数据库中关联地记录主机名与其对应的应用,之后,基于与HTTP报文基础信息中的主机名匹配的主机名数据库中的主机名,确定固网流量数据包对应的应用。
由此,基于大数据分析构建的数据库及其中相应的特征数据,即可实现对HTTP报文基础信息的匹配分析,实现对手机号码的识别判定。
之后,在步骤S130,在判定疑似手机号码为手机号码的情况下,将与疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
由此,通过如上的方式实现对网络流量中的手机号码特征的提取以及手机号码的精准识别。基于手机号码的精准识别,即可认为与之关联的关键字是手机号码特征关键字,可被写入手机号码特征关键字库。
由于手机号码特征可以每天定时自动输出,基于该手机号码特征关键字库,当在固网流量数据包中识别出手机号码特征关键字后,即可将与该手机号码特征关键字关联的号码确定为手机号码。根据这些手机号码特征关键字识别的手机号准确率可以达到80%以上,相比传统离线人工肉眼识别方法,能够极大地提高手机号码识别的效率。
由此,通过上述对手机号码特征提取以及手机号码的识别,能够极大地提升手机号码关键字的准确率,进而提升网络流量特征分析来识别手机号码的准确率。
另外,上述疑似手机号码数字串可能来自某应用的时间戳或者临时上报的数据,是具有临时性、时效性等特点的噪声数据。或者,疑似手机号码数字串也可能来自某应用标识用户身份的自有ID号。
因此,为确保数据的准确性,在上述过程中,还可以通过大数据分析能力对上述数据清单进行分析,进一步确保手机号码以及相应的手机号码特征关键字的准确性。
在一个优选实施例中,可以以数据清单中的固网宽带账号、疑似手机号码、疑似手机号码关联的关键字和应用的标识作为一个四元组数据,统计四元组数据的累计出现天数或次数,在四元组数据的累计出现天数或次数达到第一预定阈值的情况下,判定其疑似手机号码为手机号码,将其关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
由此,通过合理设置时间阈值,有效过滤了具有临时性、时效性的噪声数据。并且,出现天数少而不被采用的、真的手机号码,还可以通过数据的不断再累积、再沉淀,在其超过第一预定阈值的情况下,再将其相应的疑似手机号码确定为手机号码,进而将其关联的关键字写入手机号码特征关键字库中。
由于固网宽带账号、手机号码组成的二元组信息和应用程序呈一一对应的关系,以固网宽度账号和手机号码组成的二元组只会对应唯一一个应用。因此,在一个优选实施例中,可以统计疑似手机号码在同一宽带账号下所对应的不同应用的应用个数,并在所述应用个数超过第二预定阈值的情况下,判定所述疑似手机号码为手机号码,进而将其关联的关键字写入手机号码特征关键字库中。
此外,为确保手机号码特征关键字的准确性,在一个优选实施例中,还可以对通过上述识别过程确定的手机号码特征关键字进行检查,在疑似手机号码关联的关键字属于关键字黑名单的情况下,剔除其相应的关键字。而在疑似手机号码关联的关键字不属于关键字黑名单的情况下,将其作为手机号码特征关键字而写入手机号码特征关键字库中。由此,剔除具有干扰性的关键字。
至此,已经结合图1的方法流程图详细说明了本发明的用于固网流量数据包的手机号码识别方法。
图2示出了根据本发明一个应用示例的模块示意图。
为了更清楚地理解本发明的技术方案,如下将结合图2所示应用示例的数据模块及其手机号码特征提取和识别的流程,对本发明的手机号码识别方法进行详细描述。
为了挖掘手机号码对应的手机号码特征关键字,本应用示例对家庭宽带下的网络流量进行采集,并使用深度包检测技术(DPI)中的应用层净荷分析法快速过滤无关流量,识别出数据包中疑似手机号及其关联的关键字,再将识别的关键字及其相应数据清单导入Hadoop平台,通过网页爬虫技术爬取应用程序(app)对应域名、手机终端等相关信息,并从时间维度和应用维度去关联数据,筛选出准确度较高的手机号码特征关键字。
参见图2,本发明创新地提出了一种新型的手机号码特征自动提取技术模块,该模块主要由DPI数据清洗模块和大数据分析模块构成。其中,DPI数据清洗模块重点采用手机号码特征自动提取方法进行,大数据分析模块对清洗后的数据进行分析,从时间维度和应用维度去关联数据,进一步筛选出准确度较高的手机号码及其关联的手机号码特征关键字,基于手机号码特征关键字库进一步提高对网络流量中的手机号码识别和分析的效率。以下分别对各个模块及其实现方法进行详细描述。
(一)DPI数据清洗模块
DPI数据清洗模型首先基于深度包检测技术(DPI),针对不同的网络应用层载荷(例如HTTP、DNS等)进行深度检测,并对分拣出的日志进行协议分析,分拣出HTTP报文、RADIUS报文,将干扰信息清洗(例如将邮件日志、FTP等日志等过滤)。
之后,DPI数据清洗模型提取报文的关键信息。如对RADUIS报文,提取其中的固网宽带账号;对HTTP报文,提取HTTP报文中的字段信息,并提取的字段信息进行统一解码,并按照手机号码字冠规则,解析出带有疑似手机号码字冠的手机上网报文。
由于流量数据中存在大量的冗余信息,对于大数据分析系统而言手机号码包含一些数字特性,例如,号码前三位代表运营商、号码中间四位代表地域信息等,目前这些规则一定、数量有限的手机号码形成了一组约三十万左右的号码特征,通过这些手机号码特征可以反向地去提取手机号码所携带的手机号码关键字。
在清洗程序在初始化时,可以利用Hyperscan高速匹配技术同时对多个正则表达式进行并行匹配,在Hyperscan数据库中配置首号码字冠,形成手机号码Hyperscan特征数据库,以便于利用Hyperscan的特点缩减手机号码的查寻匹配时间。
之后,DPI数据清洗模型利用此数据库对一个或多个数据包进行快速匹配。按照疑似手机号码、将疑似手机号码与其他相关信息形成初步分析结果记录,形成带有疑似手机号码、关键字、HTTP报文基础信息及固网宽带账号绑定的HTTP报文信息串,结果记录的HTTP报文信息串中包含时间戳、固网宽带账号、疑似手机号、关键字、uri、host、ua、referer、cookie、content等信息。该信息串可被整理成一系列数据清单送入大数据分析模块进行进一步的分析。
(二)大数据分析模块
(1)通过大数据分析能力建立分析库
一个完整的数据包基本上都包含uri、ua、host等字段,与手机号码来自同一个数据包的host、ua字段,可用于判断手机号码是否准确,进而判断该数据包中的手机号码特征关键字是否准确。
UA(用户终端)使得服务器能够识别用户使用的终端类型、操作系统及版本、CPU类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
为解决此问题,本应用示例可事先利用Webmagic爬虫框架爬取相关信息作为分析特征数据以构建分析库。分析库的形成主要是通过大数据的分析能力,按照数据建模方法,抓取长时间的网络爬取数据和DPI解析的数据进行比对、积累、沉淀,按照数学分析方法形成,避免单一的数据来源形成的分析库的不准确性。分析库中针对不同的信息还可以构建不同的信息库。
目前市场上的手机终端品牌及类型众多,各款终端的特征信息会有一定程度的差异,如果只按手机号码特征关键字进行匹配,则会出现较多手机号码的误判,导致获取的手机号码不准确。
本应用示例中,可事先利用Webmagic爬虫框架对电子商城终端信息的爬取,将获取到信息增加至分析库中的终端信息库。分析库的终端信息库形成,记录了用户终端的分析特征数据,可用于提供对用户行为进行数学关联和计算。
应用示例中,还可事先利用Webmagic爬虫框架爬取host主机名与app名称的对应关系信息,并将获取到的信息增加至分析库中的主机名数据库。分析库的主机名(host)信息库形成,记录了host相关的分析特征数据,可用于提供对用户行为进行数学关联和计算。
(2)大数据分析模块对经过DPI数据清洗后的数据清单进行分析
随着家庭宽带客户的膨胀式发展,传统的数据处理和分析方法,已经无法应对海量的家宽上网话单。
本应用示例使用Hadoop平台强大的分布式运算能力,通过开发Map-Reduce脚本,对上网话单的ua字段进行匹配,利用封装好的终端匹配函数,调用分析库中相应的分析特征,判断手机号码关键字所在的数据包是来自于哪个型号的终端。当匹配出非手机型号的终端,则判断此11位数字并非真的手机号,只是一串符合手机号码特征的数字。从而可知,按照此手机号码特征关键字取得的并非是手机号码,此手机号码特征关键字是无效的。
在DPI清洗后获得的host字段信息,代表了手机号码特征关键字的数据包的主机名称。由于本发明对手机号码关键字数据分析,是通过对应用维度的分析,判断其准确与否。因此,本应用示例利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,利用host信息库编写MapReduce代码去host字段中匹配。将host匹配封装成MapReduce打包成jar,通过Hadoop集群中的hadoopjar命令,利用封装好的host匹配函数判断手机号码关键字出自于哪种app应用,有效地将同种应用产生出的许多不同host主机名的情况归为同一种应用,将来自未知应用的噪声数据记录剔除,帮助之后的数据分析计算手机号码在同一宽带账号下出现在不同app应用的次数,提高手机号码特征关键字的提取准确率。
在以上的数据处理过程中,为确保数据的准确性,数据分析模块采用两种维度,使用大数据分析能力,提升分析手机号码关键字准确率。
a.时间维度
DPI清洗出的手机号码数字串可能来自某应用的时间戳或者临时上报的数据,因此,此类噪声数据都具有临时性、时效性等特点,本方法采用数据累积的方法,将宽带账号、手机号码、手机号码特征关键字、app名称这一四元组数据作为key(唯一标识),累积每天的数据,利用Hadoop中的hive数据库分布式计算四元组数据出现的天数,即通过大量数据计算出手机号码特征关键字出现的天数,以供数据分析使用,可有效地减少冗余数据,缓解系统的存储压力,最终得到一张累积所有程序运行天数的相对轻量级的数据表。
通过设置时间阈值,有效过滤掉具有临时性、时效性的噪声数据,而出现天数少而不被采用的、真的手机号码,通过数据的不断再累积、再沉淀,超过时间阈值,则归类进手机号码特征关键特征库中。
b.应用维度
DPI清洗出的手机号码数字串可能来自某应用标识用户身份的自有id号,因此,此类噪声数据中,其宽带账号、手机号码组成的二元组信息和应用呈一一对应的关系,即此类噪声数据包的二元组只会对应唯一一个应用。考虑到此类噪声的特性,本方法采用计算手机号码在同一宽带账号下出现在不同app应用的次数的方法,利用Hadoop中的hive数据库分布式计算二元组数据出现的不同app应用的个数。最终,我们利用宽带账号、手机号码这一二元组数据作为key(唯一标识),在上述时间维度过滤后的表中作匹配,补全表中app应用个数这项元素,对已存在的app应用次数作累积运算,更新所有二元组数据的app应用次数。
通过设置应用阈值,有效过滤那些应用的标识用户身份的自有id号,而使用不同应用次数少而不被采用的真的手机号码,通过数据的不断再累积、再沉淀,超过应用阈值,则归类进手机号码特征关键字库中。
通过实验发现,利用DPI、Hyperscan高速匹配、Hadoop、爬虫技术可以更加快速准确地识别出固网WiFi下用户手机号码特征关键字,实现手机号码特征关键字又准、又高效的输出,大大提高DPI技术人员挖掘手机号码特征关键字的效率,可为通信运营商实现网络安全审计和流量经营分析提供巨大帮助。具体如下:
1)本发明解决了以往对于手机号码通过WIFI上网而导致的数据缺少问题,有效的弥补了使用WIFI上网导致的流量信息缺失,使运营商能够更好的分析手机上网流量行为;
2)本发明采用了一种新的深度DPI解析联合Hyperscan(高速正则表达式匹配引擎)、分布式爬虫(基于分布式ETL)等技术,实现了手机WIFI上网信息精准快的解析,能够快速输出手机号码特征结果表,解决了传统手机号码挖掘困难,输出慢且不准确的问题;
3)本发明使用时间维度和应用维度的数学模型识别,通过大数据的分析能力,建立长效的判别机制,确保识别的准确性。
另外,本发明的用于网络流量数据包的手机号码识别方法还可以由一种用于网络流量数据包的手机号码识别装置实现。图3示出了根据本发明一个实施例的手机号码识别装置的示意性框图。其中,手机号码识别装置300的功能模块可以由实现本发明原理的硬件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是,图3所描述的功能模块可以组合起来或者划分成子模块,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能模块的任何可能的组合、或者划分、或者更进一步的限定。
图3所示的手机号码识别装置300可以用来实现图1所示的手机号码识别方法,下面仅就手机号码识别装置300可以具有的功能模块以及各功能模块可以执行的操作做简要说明,对于其中涉及的细节部分可以参见上文结合图1的描述,这里不再赘述。
如图3所示,本发明的手机号码识别装置300可以包括数据清单提取单元310、手机号码判断单元320和关键字写入单元330。
数据清单提取单元310,用于从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;
手机号码判断单元320,用于基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及
关键字写入单元330,用于在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
手机号码识别装置300优选地还可以包括删除单元。在手机号码判断单元320判定所述疑似手机号码不是手机号码的情况下,删除单元删除所述数据清单。
优选地,手机号码判断单元320可以基于所述HTTP报文基础信息中的用户终端信息,判断所述固网流量数据包是否来自于手机。在判定所述固网流量数据包不是来自于手机的情况下,删除单元可以删除所述数据清单。
优选地,手机号码识别装置300还可以包括数据库构建单元。数据库构建单元可以构建终端信息数据库,并基于所述HTTP报文基础信息中的用户终端信息是否与所述终端信息数据库中的手机终端匹配,判断所述固网流量包是否来自手机。
优选地,手机号码判断单元320可以基于所述HTTP报文基础信息中的主机名,确定所述固网流量数据包对应的应用,在所述固网流量数据包不对应于预定应用的情况下,删除所述数据清单。
优选地,手机号码识别装置300还可以包括数据库构建单元。数据库构建单元可以构建主机名数据库,所述主机名数据库中关联地记录主机名与其对应的应用,并基于与所述HTTP报文基础信息中的主机名匹配的所述主机名数据库中的主机名,确定所述固网流量数据包对应的应用。
优选地,手机号码判断单元320可以统计四元组数据的累计出现天数或次数,所述四元组数据包括固网宽带账号、所述疑似手机号码、所述关键字和所述应用的标识,在四元组数据的累计出现天数或次数达到第一预定阈值的情况下,判定所述疑似手机号码为手机号码。
优选地,手机号码判断单元320可以统计疑似手机号码在同一宽带账号下所对应的不同应用的应用个数,在所述应用个数超过第二预定阈值的情况下,判定所述疑似手机号码为手机号码。
优选地,手机号码识别装置300还可以包括黑名单单元。黑名单单元可以在所述疑似手机号码关联的关键字属于关键字黑名单的情况下,剔除所述关键字。
优选地,手机号码识别装置300还可以包括筛选单元。筛选单元可以基于预定手机号码规则,筛选包含疑似手机号码的固网流量数据包。
优选地,手机号码识别装置300还可以包括关键字识别单元。关键字识别单元可以基于手机号码特征关键字库,在固网流量数据包中识别手机号码特征关键字,并将与所述手机号码特征关键字关联的号码确定为手机号码。
由此,本发明中以家庭WIFI下手机号码特征自动提取为实现目标,而实现提取目标主要基于“自动号码提取技术方法”,自动号码提取方法包括DPI数据清洗模型和大数据分析匹配模型,关键点如下所示:
(1)DPI数据清洗模型及输出的字符串
DPI数据清洗模型包括如下清洗步骤:第一,对分拣出的日志进行协议分析,分拣出HTTP报文、RADIUS报文,目的是将干扰信息清洗(例如将邮件日志、FTP等日志等过滤)。第二,提取报文关键信息,包括对HTTP报文,RADUIS报文宽带账号进行提取分析并进行关联并进行统一解码,按照手机号码字冠规则,解析出带有手机号码字冠的手机上网报文。第三,对手机号码特征清单进行特征匹配,按照手机号、手机关键字与HTTP报文基础信息进行匹配,后匹配宽带账号,形成带有手机号,手机关键字及宽带账号绑定的HTTP报文信息串。
(2)数据分析挖掘模型
在DPI清洗后获得的host字段信息,代表手机号码特征关键字的数据包的主机名称。本方法利用Webmagic爬虫框架事先爬取host主机名与app名称的对应关系,形成分析特征库,利用分析特征库的特征模型编写MapReduce代码去匹配。将host匹配封装成MapReduce打包成jar,通过Hadoop集群中的hadoopjar命令,利用封装好的host匹配函数判断手机号码关键字出自于哪种app应用,有效地将同种应用产生出的许多不同host主机名的情况归为同一种应用,并通过时间维度和应用维度将来自未知应用的噪声数据记录剔除出去,帮助之后的数据分析计算手机号码在同一宽带账号下出现在不同app应用的次数,提高手机号码特征关键字的提取准确率。
另外,结合图1描述的本发明实施例的用于网络流量数据包的手机号码识别方法可以由计算设备来实现。图4示出了本发明实施例提供的计算设备的硬件结构示意图。
计算设备可以包括处理器401以及存储有计算机程序指令的存储器402。
具体地,上述处理器401可以包括中央处理器(CPU),或者特定集成电路(Application Specific Integrated Circuit,ASIC),或者可以被配置成实施本发明实施例的一个或多个集成电路。
存储器402可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器402可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器402可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器402可在数据处理装置的内部或外部。在特定实施例中,存储器402是非易失性固态存储器。在特定实施例中,存储器402包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
处理器401通过读取并执行存储器402中存储的计算机程序指令,以实现上述实施例中的任意一种用于网络流量数据包的手机号码识别方法。
在一个示例中,计算设备还可包括通信接口403和总线410。其中,如图4所示,处理器401、存储器402、通信接口403通过总线410连接并完成相互间的通信。
通信接口403,主要用于实现本发明实施例中各模块、装置、单元和/或设备之间的通信。
总线410包括硬件、软件或两者,将计算设备的部件彼此耦接在一起。举例来说而非限制,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线410可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
另外,结合上述实施例中的用于网络流量数据包的手机号码识别方法方法,本发明实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种手机号码识别方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。

Claims (14)

1.一种用于固网流量数据包的手机号码识别方法,其特征在于,所述方法包括:
从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;
基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及
在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在判定所述疑似手机号码不是手机号码的情况下,删除所述数据清单。
3.根据权利要求1所述的方法,其特征在于,所述判断所述疑似手机号码是否为手机号码的步骤包括:
基于所述HTTP报文基础信息中的用户终端信息,判断所述固网流量数据包是否来自于手机;以及
在判定所述固网流量数据包不是来自于手机的情况下,删除所述数据清单。
4.根据权利要求3所述的方法,其特征在于,所述基于所述HTTP报文基础信息中的用户终端信息、判断所述固网流量数据包是否来自于手机的步骤包括:
构建终端信息数据库;以及
基于所述HTTP报文基础信息中的用户终端信息是否与所述终端信息数据库中的手机终端匹配,判断所述固网流量包是否来自手机。
5.根据权利要求1所述的方法,其特征在于,所述判断所述疑似手机号码是否为手机号码的步骤包括:
基于所述HTTP报文基础信息中的主机名,确定所述固网流量数据包对应的应用;
在所述固网流量数据包不对应于预定应用的情况下,删除所述数据清单。
6.根据权利要求5所述的方法,其特征在于,所述基于所述HTTP报文基础信息中的主机名、确定所述固网流量数据包对应的应用的步骤包括:
构建主机名数据库,所述主机名数据库中关联地记录主机名与其对应的应用;以及
基于与所述HTTP报文基础信息中的主机名匹配的所述主机名数据库中的主机名,确定所述固网流量数据包对应的应用。
7.根据权利要求5所述的方法,其特征在于,所述数据清单还包括固网宽带账号,所述判断所述疑似手机号码是否为手机号码的步骤还包括:
统计四元组数据的累计出现天数或次数,所述四元组数据包括固网宽带账号、所述疑似手机号码、所述关键字和所述应用的标识;以及
在四元组数据的累计出现天数或次数达到第一预定阈值的情况下,判定所述疑似手机号码为手机号码。
8.根据权利要求5所述的方法,其特征在于,所述判断所述疑似手机号码是否为手机号码的步骤包括:
统计疑似手机号码在同一宽带账号下所对应的不同应用的应用个数;以及
在所述应用个数超过第二预定阈值的情况下,判定所述疑似手机号码为手机号码。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在所述疑似手机号码关联的关键字属于关键字黑名单的情况下,剔除所述关键字。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于手机号码规则,筛选包含疑似手机号码的固网流量数据包。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于手机号码特征关键字库,在固网流量数据包中识别手机号码特征关键字;以及
将与所述手机号码特征关键字关联的号码确定为手机号码。
12.一种用于固网流量数据包的手机号码识别装置,其特征在于,所述装置包括:
数据清单提取单元,用于从包含疑似手机号码的固网流量数据包中提取数据清单,所述数据清单包括所述疑似手机号码、与所述疑似手机号码关联的关键字及HTTP报文基础信息;
手机号码判断单元,用于基于所述HTTP报文基础信息,判断所述疑似手机号码是否为手机号码;以及
关键字写入单元,用于在判定所述疑似手机号码为手机号码的情况下,将与所述疑似手机号码关联的关键字作为手机号码特征关键字,写入手机号码特征关键字库中。
13.一种计算设备,其特征在于,包括:至少一个处理器、至少一个存储器以及存储在所述存储器中的计算机程序指令,当所述计算机程序指令被所述处理器执行时实现如权利要求1-11任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,当所述计算机程序指令被处理器执行时实现如权利要求1-11中任一项所述的方法。
CN201711459451.1A 2017-12-28 2017-12-28 手机号码识别方法、装置、设备及介质 Pending CN109981389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711459451.1A CN109981389A (zh) 2017-12-28 2017-12-28 手机号码识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711459451.1A CN109981389A (zh) 2017-12-28 2017-12-28 手机号码识别方法、装置、设备及介质

Publications (1)

Publication Number Publication Date
CN109981389A true CN109981389A (zh) 2019-07-05

Family

ID=67074717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711459451.1A Pending CN109981389A (zh) 2017-12-28 2017-12-28 手机号码识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109981389A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111104579A (zh) * 2019-12-31 2020-05-05 北京神州绿盟信息安全科技股份有限公司 一种公网资产的识别方法、装置及存储介质
CN112367663A (zh) * 2019-07-23 2021-02-12 中国移动通信集团广东有限公司 一种确定宽带接入用户号码的方法、装置及设备
CN112583832A (zh) * 2020-12-14 2021-03-30 北京鼎普科技股份有限公司 一种基于dpi的应用层协议识别方法及系统
CN113127767A (zh) * 2019-12-31 2021-07-16 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469117A (zh) * 2010-11-08 2012-05-23 中国移动通信集团广东有限公司 一种异常访问行为的识别方法及装置
CN104283918A (zh) * 2013-07-05 2015-01-14 中国移动通信集团浙江有限公司 一种无线局域网终端类型获取方法及系统
CN106452859A (zh) * 2016-09-29 2017-02-22 南京邮电大学 一种固网WiFi环境下手机号码特征关键字自动提取方法
CN106991316A (zh) * 2016-01-21 2017-07-28 滴滴(中国)科技有限公司 一种用户身份识别方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102469117A (zh) * 2010-11-08 2012-05-23 中国移动通信集团广东有限公司 一种异常访问行为的识别方法及装置
CN104283918A (zh) * 2013-07-05 2015-01-14 中国移动通信集团浙江有限公司 一种无线局域网终端类型获取方法及系统
CN106991316A (zh) * 2016-01-21 2017-07-28 滴滴(中国)科技有限公司 一种用户身份识别方法及装置
CN106452859A (zh) * 2016-09-29 2017-02-22 南京邮电大学 一种固网WiFi环境下手机号码特征关键字自动提取方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112367663A (zh) * 2019-07-23 2021-02-12 中国移动通信集团广东有限公司 一种确定宽带接入用户号码的方法、装置及设备
CN112367663B (zh) * 2019-07-23 2023-04-07 中国移动通信集团广东有限公司 一种确定宽带接入用户号码的方法、装置及设备
CN111104579A (zh) * 2019-12-31 2020-05-05 北京神州绿盟信息安全科技股份有限公司 一种公网资产的识别方法、装置及存储介质
CN113127767A (zh) * 2019-12-31 2021-07-16 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN113127767B (zh) * 2019-12-31 2023-02-10 中国移动通信集团四川有限公司 手机号码提取方法、装置、电子设备及存储介质
CN112583832A (zh) * 2020-12-14 2021-03-30 北京鼎普科技股份有限公司 一种基于dpi的应用层协议识别方法及系统

Similar Documents

Publication Publication Date Title
CN109981389A (zh) 手机号码识别方法、装置、设备及介质
CN103559235B (zh) 一种在线社交网络恶意网页检测识别方法
CN102420723A (zh) 一种面向多类入侵的异常检测方法
CN110620770B (zh) 一种分析网络黑产账号的方法及装置
US11537751B2 (en) Using machine learning algorithm to ascertain network devices used with anonymous identifiers
CN106789242B (zh) 一种基于手机客户端软件动态特征库的识别应用智能分析方法
CN107222511B (zh) 恶意软件的检测方法及装置、计算机装置及可读存储介质
CN111431939A (zh) 基于cti的sdn恶意流量防御方法及系统
CN111371778B (zh) 攻击团伙的识别方法、装置、计算设备以及介质
CN108334758A (zh) 一种用户越权行为的检测方法、装置及设备
CN110691080A (zh) 自动溯源方法、装置、设备及介质
CN107733902A (zh) 一种目标数据扩散过程的监控方法及装置
CN110414236A (zh) 一种恶意进程的检测方法及装置
CN110020161B (zh) 数据处理方法、日志处理方法和终端
CN113821793A (zh) 一种基于图卷积神经网络的多阶段攻击场景构建方法及系统
CN108055227B (zh) 基于站点自学习的waf未知攻击防御方法
CN106528805B (zh) 基于用户的移动互联网恶意程序url智能分析挖掘方法
CN107209834A (zh) 恶意通信模式提取装置、恶意通信模式提取系统、恶意通信模式提取方法及恶意通信模式提取程序
CN110336798A (zh) 一种基于dpi的报文匹配过滤方法及其装置
CN112822121A (zh) 流量识别方法、流量确定方法、知识图谱建立方法
CN114422211A (zh) 基于图注意力网络的http恶意流量检测方法及装置
CN103166942B (zh) 一种恶意代码的网络协议解析方法
CN109672586A (zh) 一种dpi业务流量识别方法、装置与计算机可读存储介质
CN108650145A (zh) 一种家庭宽带WiFi下手机号码特征自动提取方法
CN116915450A (zh) 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190705

RJ01 Rejection of invention patent application after publication