CN113127767B - 手机号码提取方法、装置、电子设备及存储介质 - Google Patents

手机号码提取方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113127767B
CN113127767B CN201911425710.8A CN201911425710A CN113127767B CN 113127767 B CN113127767 B CN 113127767B CN 201911425710 A CN201911425710 A CN 201911425710A CN 113127767 B CN113127767 B CN 113127767B
Authority
CN
China
Prior art keywords
mobile phone
host
phone number
key field
key
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911425710.8A
Other languages
English (en)
Other versions
CN113127767A (zh
Inventor
王毅
孙娟
张旭辉
邹伟
陈泓竹
唐书伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Sichuan Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Sichuan Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Sichuan Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201911425710.8A priority Critical patent/CN113127767B/zh
Publication of CN113127767A publication Critical patent/CN113127767A/zh
Application granted granted Critical
Publication of CN113127767B publication Critical patent/CN113127767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/957Browsing optimisation, e.g. caching or content distillation
    • G06F16/9577Optimising the visualization of content, e.g. distillation of HTML documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种手机号码提取方法、装置、电子设备及存储介质,以解决相关技术中无法从移动网络数据中批量、准确地提取手机号码的问题。所述方法包括:获取目标上网日志数据;提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。

Description

手机号码提取方法、装置、电子设备及存储介质
技术领域
本申请涉及互联网技术领域,尤其涉及一种手机号码提取方法、装置、电子设备及存储介质。
背景技术
URL(Uniform Resource Locator,统一资源定位符)是可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含用于指示文件的位置及浏览器应该如何处理该文件的信息。为了实现通信运营商对移动网络的解析,如何从URL中准确提取手机号码十分重要。
相关技术中,通常由人工梳理URL中的手机号码特征信息以及URL的特征参数的方式从移动网络发送的HTTP GET报文中提取出手机号码,或者通过将各URL子文本数据汇聚到本地文件池,通过将号码文本数据上传到云端分布式文件系统中,再利用Hadoop的数据仓库工具进行分布式计算提取出类似手机号码的11位连续数字。
然而,前一种方式虽然能够准确提取手机号码,但该方式的效率低,且由于URL具有唯一性且不同网站的URL中的特征参数可能不同,进而通过该方式无法实现手机号码的批量提取。后一种方式虽然能够实现手机号码的批量提取,但根据手机号码具有11位连续数字的特征在URL中可以匹配到各种类似的数据,比如LINUX服务器上的时间值等,进而该方式的准确率低。
发明内容
本申请实施例的目的是提供一种手机号码提取方法、装置、电子设备及存储介质,以解决相关技术中无法从移动网络数据中批量、准确地提取手机号码的问题。
为了解决上述技术问题,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供了一种手机号码提取方法,包括:
获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
第二方面,本申请实施例还提供了一种手机号码提取装置,包括:
第一获取单元,用于获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
第一提取单元,用于提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
确定单元,用于基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
第二提取单元,用于基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
第三方面,本申请实施例还提供了一种电子设备,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现第一方面所述的手机号码提取方法。
第四方面,本申请实施例还提供了一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备够执行第一方面所述的手机号码提取方法。
本申请实施例采用的上述至少一个技术方案能够达到以下有益效果:
通过从包含多条携带有疑似手机号码的URL的目标上网日志数据中提取与疑似手机号码关联的关键字段及对应的HOST,并基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,由于分类模型是基于不同HOST对应的关键字段及关键字段的类别标签训练得到的,因而可以准确识别各关键字段关联的疑似手机号码是否为手机号码,进而基于所述目标上网日志数据中的关键字段及对应的类别可以准确识别所述目标上网日志数据中的手机号码,提高手机号码提取的准确率和效率,且能够适用于不同的手机使用群访问的网站各相同、同一手机在不同的时间点访问的网站不相同以及访问同一个网站页面的参数系列会根据手机的行为动态变化等场景。此外,基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码,将机器学习与大数据技术相集合,可以实现从海量URL中批量提取手机号码。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据一示例性实施例示出的一种手机号码提取方法的流程图;
图2是根据一示例性实施例示出的一种构建分类模型的方法的流程图;
图3是根据一示例性实施例示出的一种获取样本数据的方法的流程图;
图4是根据一示例性实施例示出的一种手机号码提取装置的框图;
图5是根据一示例性实施例示出的另一种手机号码提取装置的框图;
图6是根据一示例性实施例示出的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
请参见图1,图1是根据一示例性实施例示出的一种手机号码提取方法的流程图。如图1所示,该方法包括以下步骤:
S11、获取目标上网日志数据。
其中,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL。
疑似手机号码可以是具有与手机号码相似的数字特征的字符串,例如11位连续数字或者前三位为区域标识(如+86)的13位连续数字。
具体实施时,可通过对原始上网日志数据进行清洗和预处理,比如删除上网日志数据中URL为空的上网日志数据以及或URL中未携带疑似手机号码的上网日志数据,得到所述目标上网日志。示例性地,原始上网日志数据中的URL“tool.xxx.com/Tools/unixtime.aspx”中未携带疑似手机号码,则可将该URL丢弃。由此,可以减少对上网日志数据的处理工作量,进而提高从上网日志数据中提取手机号码的效,节省处理设备的计算资源。
S12、提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST。
具体实施时,考虑到URL中携带的手机号码的前缀字符串和/或后缀字符串通常具有能够反映手机号码的特征的关键字符(如mobile,no,num,phone等),因而可将URL中的疑似手机号码的前缀字符串和/或后缀字符串作为与该疑似手机号码关联的关键字段。并且,考虑到一个完整的URL中通常携带有HOST,进而提取疑似手机号码所属的URL中携带的HOST作为所述疑似手机号码的关键字段对应的HOST。进而,通过与疑似手机号码关联的关键字段及对应的HOST共同识别手机号码,可以后续提升对手机号码提取的准确性。
示例性地,一种URL如下所示:
“a1.xxx.com/RobotTaskSMS?mobileNo=135****1111&id=&sign=18e772379fd9b91284833d7d3abec165&t=1547479335000”。可确定“135****1111”为疑似手机号码,“a1.xxx.com”为HOST,进而可以提取该疑似手机号码的前缀字符串“mobileNo=”以及后缀字符串“&”作为与该疑似手机号码关联的关键字段,将“a1.xxx.com”作为该关键字段对应的HOST。
另一URL如下所示:
“xxx.tv/d5/c3/3d04b677695b9fea.ts?start=10435732&end=11832226&hsize=1912&tag=1&v=&contentlength=493312&qdv=1&qd_uid=1633141139&qd_vip=1&qd_tm=1547558433151&qd_ip=75b1110a&qd_p=75b1110a&qd_k=bd572b173b7aea6ca7fa904b51763b35&&dfp=&qd_sc=89db67b6ca046eca15d9d138****9576”。可确定“138****9576”为疑似手机号码,“xxx.tv”为HOST,进而可以提取该疑似手机号码的前缀字符串“qd_sc=89db67b6ca046eca15d9d”作为该疑似手机号码关联的关键字段,将“xxx.tv”作为该关键字段对应的HOST。
需要说明的是,不同URL的HOST可能不同,可以是域名(比如XXX.com),也可以是IP地址(比如0.0.0.0)。
S13、基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别。
其中,关键字段的类别可以包括手机号码的关键字段和非手机号码的关键字段,其中,手机号码的关键字段表征与该关键字段关联的为手机号码,非手机号码的关键字段表征与该关键字段关联的为非手机号码。
所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码。
需要说明的是,构建所述分类模型的过程将在下文图2和图3所示的实施例中进行详细说明,此处不再赘述。
S14、基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
由于关键字段的类别能够表明与关键字段关联的疑似手机号码是否为手机号码,因而在具体实施时,可以选取所述目标上网日志数据中类别为手机号码的关键字段,从所述目标上网日志数据中提取出与该类关键字段关联的疑似手机号码作为手机号码。
进一步地,为了保证提取出的手机号码的安全性,可将提取出的手机号码加密后输出。
通过本申请实施例所述的手机号码提取方法,通过从包含多条携带有疑似手机号码的URL的目标上网日志数据中提取与疑似手机号码关联的关键字段及对应的HOST,并基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,由于分类模型是基于不同HOST对应的关键字段及关键字段的类别标签训练得到的,因而可以准确识别各关键字段关联的疑似手机号码是否为手机号码,进而基于所述目标上网日志数据中的关键字段及对应的类别可以准确识别所述目标上网日志数据中的手机号码,提高手机号码提取的准确率和效率,且能够适用于不同的手机使用群访问的网站各相同、同一手机在不同的时间点访问的网站不相同以及访问同一个网站页面的参数系列会根据手机的行为动态变化等场景。此外,基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码,将机器学习与大数据技术相集合,可以实现从海量URL中批量提取手机号码。
在本申请实施例中,针对上述步骤S13所述的分类模型,本申请实施例还包括构建该分类模型的方法。值得说明的是,构建该分类模型的方法是基于获取到的样本数据预先进行的,后续在从目标上网日志数据中提取手机号码的过程中,无需每次对分类模型进行构建,或者可以周期性的基于新采集的样本数据对该分类模型进行更新,以不断优化该分类模型,提升该分类模型输出结果的准确率。示例性地,可以基于从所述目标上网日志数据中提取出的关键字段及对应的类别更新所述样本数据,具体地,对于从所述目标上网日志数据中提取出的每一关键字段,可根据该关键字段的类别及对应的HOST将该关键字段加入到该HOST对应该类别的样本关键字段集中。
需要说明的是,本申请实施例提供的手机号提取方法可适用于家庭宽带、WLAN、无线等网络接入场景的手机号码提取。
在一种可选的实时方式中,可采用贝叶斯分类算法构建所述分类模型,具体地,构建所述分类模型的方法如图2所示,包括:
S21、获取样本数据。
其中,所述样本数据包括不同HOST对应的各类别的样本关键字段集。
在一种可选的实施方式中,为了保证获取到的样本关键字段集的丰富性和可靠性,可从历史上网日志数据中筛选出携带疑似手机号码的历史URL作为样本URL,并从各样本URL中提取出HOST及与所携带的疑似手机号码关联的关键字段并对提取出的关键字段进行抓包验证,以确定各关键字段的类别。接着,基于筛选出的样本URL携带的HOST及关键字段的类别对提取出的关键字段进行整合,由此,得到不同HOST对应的各类别的样本关键字段集。
需要说明的是,对关键字段进行抓包验证以确定关键字段的类别为本领域常用的技术,此处不再详细说明。另外,具体实施时,考虑到携带的HOST为IP地址的URL中关键字段中的特征串的差异较小,进而对于类别为IP地址的HOST,无需按照再按照具体的IP地址对HOST进行区分。
示例性地,如图3所示,可从获取到的样本URL中提取出疑似手机号码,并分析该样本URL携带的HOST,判断该HOST是否为域名,若该HOST为域名,则记录域名;若该HOST为IP地址,则记录为IP规则,例如可以0.0.0.0表示。接着,从该样本URL中提取与该疑似手机号码关联的关键字段并进行抓包验证,得到该关键字段的类型。然后,重复上述操作直到对所有的样本URL均完成分析,由此,得到不同HOST对应的各类别的关键字段集合。
S22、基于所对应的HOST从各样本关键字段中提取特征串,得到各HOST对应的特征串。
由于HOST不同的携带有手机号码的URL的关键字段能够反映手机号码的特征不同,比如类型为域名的HOST,其对应的关键字段中通常存在mobile、no等关键字符,因此可根据HOST从各样本关键字段中提取特征串。
示例性地,以上文所述的关键字段“mobileNo=”和“&”为例,其对应的HOST“a1.xxx.com”的类别为域名,则可提取出该HOST对应的特征串包括“mobile”和“No”。又如,以上文所述的关键字段“qd_sc=89db67b6ca046eca15d9d”为例,根据其对应的HOST“xxx.tv”,可提取出该HOST对应的特征串包括“89db67b6ca046eca15d9d”和“qd_sc”。
S23、对于每一HOST,基于该HOST对应的各特征串分别在各类别的样本关键字段集中出现的频率,确定该HOST对应的各特征串对应的条件概率。
其中,所述条件概率用于表征对应的特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码的概率。
示例性地,首先,对于每一HOST,可统计该HOST对应的各特征串分别在该HOST对应的各类别的样本关键字段集合中出现的次数,进而分别针对每一类别的样本关键字段集建立一哈希表,得到hosti_hash_ok和hosti_hash_no,其中,i=1~n,n表示特征串的数量,即哈希表的长度。其中,hosti_hash_ok对应手机号码的关键字段集,其用于存储各特征串与其该类别的关键字段集合中出现的次数的映射;而hosti_hash_no对应非手机号码的关键字段集,其用于存储各特征串与其该类别的关键字段集合中出现的次数的映射。
接着,可确定各特征串分别在hosti_hash_ok和hosti_hash_no中出现的频率,即各特征串在每张哈希表中出现的次数与该哈希表的长度。
进一步地,基于各特征串分别在hosti_hash_ok和hosti_hash_no中出现的频率,确定该HOST对应的各特征串对应的条件概率,即
Figure BDA0002352666860000091
其中,P1(ti)表示特征串ti在hosti_hash_ok中出现的频率,P2(ti)表示特征串ti在hosti_hash_no中出现的频率;X表示事件为特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码。
S24、基于该HOST对应的各特征串及条件概率,建立该HOST对应的概率映射表。
其中,所述分类模型包括不同HOST对应的概率映射表,所述概率映射表用于存储各特征串到条件概率的映射。
示例性地,对于每一HOST,基于上述该HOST对应的各特征串对应的条件概率,可建立该HOST对应的概率映射表hosti_hash_probability。
本申请实施例提供的构建分类模型的方法中,通过将不同HOST对应的各类别的样本关键字段集作为样本数据,通过贝叶斯分类算法对样本数据进行学习,可以得到能够识别关键字段是否为手机号码关联的关键字段,整个构建过程中使用的特征串不固定,而是从样本数据中寻找特征串,且不同的HOST使用不同的特征串,进而使得构建的分类模型可适用于识别不同HOST对应的关键字段的类别,进而基于该分类模型输出的对关键字段的识别结果可以适用于对包含不同HOST的URL的上网日志数据进行特征提取。
基于上述方法构建出的分类模型可根据待识别的关键字段对应的HOST识别该关键字段中的特征串并调取该HOST对应的概率映射表,根据查询该概率映射表确定该关键字段中的各特征串对应的条件概率,进一步基于各特征串对应的条件概率计算并输出该关键字段中同时出现这些特征串时该关键字段关联的疑似手机号码为手机号码的概率。
相应地,上述步骤S13可以包括:将所述目标上网日志数据中的关键字段及对应的HOST输入所述分类模型,得到各关键字段关联的疑似手机号码为手机号码的概率,并基于所述概率确定提取出的各关键字段的类别。
示例性地,若关键字段的所述概率超过预设阈值(如0.8),则可确定该关键字段为手机号码的关键字段,即与该关键字段关联的疑似手机号码为手机号码;若关键字段的所述概率小于所述预设阈值,则可确定该关键字段为非手机号码的关键字段,即与该关键字段关联的疑似手机号码为非手机号码。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
请参见图4,图4是根据一示例性实施例示出的一种手机号码提取装置的框图。如图4所示,该装置400包括:
第一获取单元401,用于获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
第一提取单元402,用于提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
确定单元403,用于基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
第二提取单元404,用于基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
通过本申请实施例提供的手机号码提取装置,通过从包含多条携带有疑似手机号码的URL的目标上网日志数据中提取与疑似手机号码关联的关键字段及对应的HOST,并基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,由于分类模型是基于不同HOST对应的关键字段及关键字段的类别标签训练得到的,因而可以准确识别各关键字段关联的疑似手机号码是否为手机号码,进而基于所述目标上网日志数据中的关键字段及对应的类别可以准确识别所述目标上网日志数据中的手机号码,提高手机号码提取的准确率和效率,且能够适用于不同的手机使用群访问的网站各相同、同一手机在不同的时间点访问的网站不相同以及访问同一个网站页面的参数系列会根据手机的行为动态变化等场景。此外,基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码,将机器学习与大数据技术相集合,可以实现从海量URL中批量提取手机号码。
可选地,如图5所示,所述装置400还包括构建单元405,所述构建单元405用于:
获取样本数据,所述样本数据包括不同HOST对应的各类别的样本关键字段集;
基于所对应的HOST从各样本关键字段中提取特征串,得到各HOST对应的特征串;
对于每一HOST,基于该HOST对应的各特征串分别在各类别的样本关键字段集中出现的频率,确定该HOST对应的各特征串对应的条件概率,以及,
基于该HOST对应的各特征串及条件概率,建立该HOST对应的概率映射表,其中,所述分类模型包括不同HOST对应的概率映射表,所述概率映射表用于存储各特征串到条件概率的映射,所述条件概率用于表征对应的特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码的概率。
可选地,所述构建单元405具体用于:
从历史上网日志数据中筛选出携带疑似手机号码的历史URL作为样本URL,其中,所述历史上网日志数据包含多条历史URL;
从各样本URL中提取出HOST及与所携带的疑似手机号码关联的关键字段并对提取出的关键字段进行抓包验证,以确定各关键字段的类别;
基于筛选出的样本URL携带的HOST及关键字段的类别对提取出的关键字段进行整合,得到不同HOST对应的各类别的样本关键字段集。
可选地,所述确定单元403具体用于:
将所述目标上网日志数据中的关键字段及对应的HOST输入所述分类模型,得到各关键字段关联的疑似手机号码为手机号码的概率;
基于所述概率确定提取出的各关键字段的类别。
可选地,如图5所示,所述装置400还包括:
更新单元406,用于基于所述目标上网日志数据中的关键字段及对应的类别更新所述样本数据。
可选地,所述第一提取单元402具体用于:
从所述目标上网日志数据中提取疑似手机号码的前缀字符串和/或后缀字符串作为与所述疑似手机号码关联的关键字段;以及,
提取所述疑似手机号码所属的URL中携带的HOST作为所述疑似手机号码的关键字段对应的HOST。
关于上述实施例中的装置,其中各个单元执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图6是本申请的一个实施例电子设备的结构示意图。请参考图6,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成手机号码提取装置。处理器,执行存储器所存放的程序,并具体用于执行以下操作:
获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
上述如本申请图1所示实施例揭示的手机号码提取装置执行的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
该电子设备还可执行图1的方法,并实现手机号码提取装置在图1至图3所示实施例的功能,本申请实施例在此不再赘述。
当然,除了软件实现方式之外,本申请的电子设备并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
本申请实施例还提出了一种计算机可读存储介质,该计算机可读存储介质存储一个或多个程序,该一个或多个程序包括指令,该指令当被包括多个应用程序的便携式电子设备执行时,能够使该便携式电子设备执行图1所示实施例的方法,并具体用于执行以下操作:
获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码。
总之,以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

Claims (9)

1.一种手机号码提取方法,其特征在于,包括:
获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码;
其中,所述分类模型基于以下方法进行构建:
获取样本数据,所述样本数据包括不同HOST对应的各类别的样本关键字段集;
基于所对应的HOST从各样本关键字段中提取特征串,得到各HOST对应的特征串;
对于每一HOST,基于该HOST对应的各特征串分别在各类别的样本关键字段集中出现的频率,确定该HOST对应的各特征串对应的条件概率,以及,
基于该HOST对应的各特征串及条件概率,建立该HOST对应的概率映射表,其中,所述分类模型包括不同HOST对应的概率映射表,所述概率映射表用于存储各特征串到条件概率的映射,所述条件概率用于表征对应的特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码的概率。
2.根据权利要求1所述的方法,其特征在于,所述获取样本数据包括:
从历史上网日志数据中筛选出携带疑似手机号码的历史URL作为样本URL,其中,所述历史上网日志数据包含多条历史URL;
从各样本URL中提取出HOST及与所携带的疑似手机号码关联的关键字段并对提取出的关键字段进行抓包验证,以确定各关键字段的类别;
基于筛选出的样本URL携带的HOST及关键字段的类别对提取出的关键字段进行整合,得到不同HOST对应的各类别的样本关键字段集。
3.根据权利要求1所述的方法,其特征在于,所述基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,包括:
将所述目标上网日志数据中的关键字段及对应的HOST输入所述分类模型,得到各关键字段关联的疑似手机号码为手机号码的概率;
基于所述概率确定提取出的各关键字段的类别。
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述目标上网日志数据中的关键字段及对应的类别更新所述样本数据。
5.根据权利要求1所述的方法,其特征在于,所述提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST,包括:
从所述目标上网日志数据中提取疑似手机号码的前缀字符串和/或后缀字符串作为与所述疑似手机号码关联的关键字段;以及,
提取所述疑似手机号码所属的URL中携带的HOST作为所述疑似手机号码的关键字段对应的HOST。
6.一种手机号码提取装置,其特征在于,包括:
第一获取单元,用于获取目标上网日志数据,所述目标上网日志数据包含多条携带有疑似手机号码的统一资源定位符URL;
第一提取单元,用于提取出所述目标上网日志数据中与疑似手机号码关联的关键字段及所述关键字段对应的主机名HOST;
确定单元,用于基于提取出的关键字段及对应的HOST,利用预先构建的分类模型确定各关键字段的类别,其中,所述分类模型基于不同HOST对应的关键字段及关键字段的类别标签训练得到,所述类别标签用于指示与关键字段关联的疑似手机号码是否为手机号码;
第二提取单元,用于基于所述目标上网日志数据中的关键字段及对应的类别从所述目标上网日志数据中提取手机号码;
其中,所述分类模型基于以下方法进行构建:获取样本数据,所述样本数据包括不同HOST对应的各类别的样本关键字段集;基于所对应的HOST从各样本关键字段中提取特征串,得到各HOST对应的特征串;对于每一HOST,基于该HOST对应的各特征串分别在各类别的样本关键字段集中出现的频率,确定该HOST对应的各特征串对应的条件概率,以及基于该HOST对应的各特征串及条件概率,建立该HOST对应的概率映射表,其中,所述分类模型包括不同HOST对应的概率映射表,所述概率映射表用于存储各特征串到条件概率的映射,所述条件概率用于表征对应的特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码的概率。
7.根据权利要求6所述的装置,其特征在于,还包括构建单元,所述构建单元用于:
获取样本数据,所述样本数据包括不同HOST对应的各类别的样本关键字段集;
基于所对应的HOST从各样本关键字段中提取特征串,得到各HOST对应的特征串;
对于每一HOST,基于该HOST对应的各特征串分别在各类别的样本关键字段集中出现的频率,确定该HOST对应的各特征串对应的条件概率,以及,
基于该HOST对应的各特征串及条件概率,建立该HOST对应的概率映射表,其中,所述分类模型包括不同HOST对应的概率映射表,所述概率映射表用于存储各特征串到条件概率的映射,所述条件概率用于表征对应的特征串出现在关键字段中时与该关键字段关联的疑似手机号码为手机号码的概率。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至5中任一项所述的手机号码提取方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备够执行如权利要求1至5中任一项所述的手机号码提取方法。
CN201911425710.8A 2019-12-31 2019-12-31 手机号码提取方法、装置、电子设备及存储介质 Active CN113127767B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911425710.8A CN113127767B (zh) 2019-12-31 2019-12-31 手机号码提取方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911425710.8A CN113127767B (zh) 2019-12-31 2019-12-31 手机号码提取方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113127767A CN113127767A (zh) 2021-07-16
CN113127767B true CN113127767B (zh) 2023-02-10

Family

ID=76771067

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911425710.8A Active CN113127767B (zh) 2019-12-31 2019-12-31 手机号码提取方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113127767B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113783736B (zh) * 2021-09-27 2023-01-24 杭州安恒信息技术股份有限公司 一种提取ioc信息的方法及相关装置

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN102693272A (zh) * 2011-03-15 2012-09-26 微软公司 从统一资源定位符(url)的关键字提取
CN106452859A (zh) * 2016-09-29 2017-02-22 南京邮电大学 一种固网WiFi环境下手机号码特征关键字自动提取方法
CN106656655A (zh) * 2016-10-31 2017-05-10 海纳信成(北京)信息技术有限公司 一种手机号码提取方法和装置
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN108650145A (zh) * 2018-04-03 2018-10-12 南京邮电大学 一种家庭宽带WiFi下手机号码特征自动提取方法
CN109858965A (zh) * 2019-01-25 2019-06-07 上海基分文化传播有限公司 一种用户识别方法和系统
CN109902073A (zh) * 2019-04-03 2019-06-18 北京奇安信科技有限公司 日志处理方法、装置、计算机设备和计算机可读存储介质
CN109981389A (zh) * 2017-12-28 2019-07-05 中国移动通信集团辽宁有限公司 手机号码识别方法、装置、设备及介质
CN110532299A (zh) * 2019-08-29 2019-12-03 南京邮电大学 基于半监督学习的DPI数据中host的自动化挖掘方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3840202B2 (ja) * 2003-05-20 2006-11-01 キヤノン株式会社 通信端末、通信端末の制御方法、および通信端末の制御プログラム
US20110119268A1 (en) * 2009-11-13 2011-05-19 Rajaram Shyam Sundar Method and system for segmenting query urls
WO2014145059A2 (en) * 2013-03-15 2014-09-18 Bell Tyler Apparatus, systems, and methods for analyzing movements of target entities
US10769152B2 (en) * 2016-12-02 2020-09-08 Cisco Technology, Inc. Automated log analysis

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101692639A (zh) * 2009-09-15 2010-04-07 西安交通大学 一种基于url的不良网页识别方法
CN102693272A (zh) * 2011-03-15 2012-09-26 微软公司 从统一资源定位符(url)的关键字提取
CN106452859A (zh) * 2016-09-29 2017-02-22 南京邮电大学 一种固网WiFi环境下手机号码特征关键字自动提取方法
CN106656655A (zh) * 2016-10-31 2017-05-10 海纳信成(北京)信息技术有限公司 一种手机号码提取方法和装置
CN106960040A (zh) * 2017-03-27 2017-07-18 北京神州绿盟信息安全科技股份有限公司 一种url的类别确定方法及装置
CN109981389A (zh) * 2017-12-28 2019-07-05 中国移动通信集团辽宁有限公司 手机号码识别方法、装置、设备及介质
CN108650145A (zh) * 2018-04-03 2018-10-12 南京邮电大学 一种家庭宽带WiFi下手机号码特征自动提取方法
CN109858965A (zh) * 2019-01-25 2019-06-07 上海基分文化传播有限公司 一种用户识别方法和系统
CN109902073A (zh) * 2019-04-03 2019-06-18 北京奇安信科技有限公司 日志处理方法、装置、计算机设备和计算机可读存储介质
CN110532299A (zh) * 2019-08-29 2019-12-03 南京邮电大学 基于半监督学习的DPI数据中host的自动化挖掘方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
TRAWL: Protection against rogue sites for the masses;Antonia Nisioti等;《 2017 11th International Conference on Research Challenges in Information Science (RCIS)》;20170626;1-4 *
基于J2EE的3G计费系统的分析与设计;许万智;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20091115(第11期);I136-515 *
家庭WiFi 下手机号码特征自动提取方法;金石等;《电信快报》;20170410(第4期);31-36 *
监控视频中模糊车牌图像识别关键技术研究;李超群;《中国优秀硕士学位论文全文数据库 (信息科技辑)》;20180215(第2期);I138-2104 *

Also Published As

Publication number Publication date
CN113127767A (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
RU2016116718A (ru) Способ (варианты) и устройство (варианты) обработки информации, терминал и сервер
CN108650260B (zh) 一种恶意网站的识别方法和装置
CN110826006A (zh) 基于隐私数据保护的异常采集行为识别方法和装置
CN108846100A (zh) 快速搜索寄宿应用的方法及设备
EP2756432A1 (en) System and method for automated classification of web pages and domains
CN110516173B (zh) 一种非法网站识别方法、装置、设备及介质
CN105404631B (zh) 图片识别方法和装置
CN114422267A (zh) 流量检测方法、装置、设备及介质
CN111163072A (zh) 机器学习模型中特征值的确定方法、装置及电子设备
CN111367870A (zh) 一种绘本共享方法、装置和系统
CN113127767B (zh) 手机号码提取方法、装置、电子设备及存储介质
CN112347457A (zh) 异常账户检测方法、装置、计算机设备和存储介质
CN113094283A (zh) 一种数据获取方法、装置、设备及存储介质
CN113055420B (zh) Https业务识别方法、装置及计算设备
CN108011936A (zh) 用于推送信息的方法和装置
CN109145307B (zh) 用户画像识别方法、推送方法、装置、设备和存储介质
CN110598115A (zh) 一种基于人工智能多引擎的敏感网页识别方法及系统
CN110020166B (zh) 一种数据分析方法及相关设备
CN111125714A (zh) 一种安全检测方法、装置及电子设备
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
CN108304433B (zh) 一种数据搜索方法及其设备、存储介质、服务器
CN109962907B (zh) 基于大数据的用户身份识别方法及终端设备
CN108847962B (zh) 一种信息审计方法及装置
CN113065058A (zh) 家庭成员识别的方法及装置、电子设备和可读存储介质
CN111881356A (zh) 内容推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant