CN106713579B - 一种电话号码识别方法及装置 - Google Patents

一种电话号码识别方法及装置 Download PDF

Info

Publication number
CN106713579B
CN106713579B CN201610293037.7A CN201610293037A CN106713579B CN 106713579 B CN106713579 B CN 106713579B CN 201610293037 A CN201610293037 A CN 201610293037A CN 106713579 B CN106713579 B CN 106713579B
Authority
CN
China
Prior art keywords
telephone number
keyword
webpage
marking
text information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610293037.7A
Other languages
English (en)
Other versions
CN106713579A (zh
Inventor
卢扬
蔡超维
张华�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201610293037.7A priority Critical patent/CN106713579B/zh
Publication of CN106713579A publication Critical patent/CN106713579A/zh
Application granted granted Critical
Publication of CN106713579B publication Critical patent/CN106713579B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/26Devices for calling a subscriber
    • H04M1/27Devices whereby a plurality of signals may be stored simultaneously
    • H04M1/274Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc
    • H04M1/2745Devices whereby a plurality of signals may be stored simultaneously with provision for storing more than one subscriber number at a time, e.g. using toothed disc using static electronic memories, e.g. chips
    • H04M1/27453Directories allowing storage of additional subscriber data, e.g. metadata
    • H04M1/27457Management thereof, e.g. manual editing of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M1/00Substation equipment, e.g. for use by subscribers
    • H04M1/66Substation equipment, e.g. for use by subscribers with means for preventing unauthorised or fraudulent calling
    • H04M1/663Preventing unauthorised calls to a telephone set
    • H04M1/665Preventing unauthorised calls to a telephone set by checking the validity of a code
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/436Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it
    • H04M3/4365Arrangements for screening incoming calls, i.e. evaluating the characteristics of a call before deciding whether to answer it based on information specified by the calling party, e.g. priority or subject

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Security & Cryptography (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Library & Information Science (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例公开了一种电话号码识别方法及装置,所述方法包括:对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息;对电话号码进行特征提取,得到至少一个第一特征信息;对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;根据第一特征信息和第二特征信息,识别电话号码的号码类型。采用本发明实施例,可提高电话号码识别的精准度。

Description

一种电话号码识别方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种电话号码识别方法及装置。
背景技术
随着通信技术的快速发展,诈骗电话犯罪呈高发态势,对诈骗电话进行识别并提示用户,可在一定程度上减少用户的损失。传统的诈骗电话的识别方法为:当通话结束时提示用户对来电进行标记(例如用户可以将来电标记为诈骗电话或广告推销等),存储电话号码及其对应的标记信息,当将该电话号码标记为诈骗电话的用户量达到预设阈值时,将该电话号码识别为诈骗电话,用户在接听该电话号码时提示用户该电话号码为诈骗电话。传统的诈骗电话的识别方法中用户对来电的标记行为比较主观,以此为依据识别电话号码为诈骗电话的准确率较低。
发明内容
本发明实施例所要解决的技术问题在于,提供一种电话号码识别方法及装置,可提高电话号码识别的精准度。
为了解决上述技术问题,本发明实施例提供了一种电话号码识别方法,包括:
对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,所述网页包括电话号码和文本信息;
对所述电话号码进行特征提取,得到至少一个第一特征信息;
对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;
根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型。
相应地,本发明实施例还提供了一种电话号码识别装置,包括:
内容解析单元,用于对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,所述网页包括电话号码和文本信息;
特征提取单元,用于对所述电话号码进行特征提取,得到至少一个第一特征信息;
所述特征提取单元,还用于对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;
号码类型识别单元,用于根据所述第一特征信息和所述第二特征信息,识别所述电话号码的号码类型。
实施本发明实施例,通过对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,对电话号码进行特征提取,得到至少一个第一特征信息,对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,根据第一特征信息和第二特征信息,识别电话号码的号码类型,相对传统的电话号码识别方法统计将电话号码标记为指定类型的用户量,当用户量大于预设阈值时将该电话号码识别为指定类型,本发明实施例可基于至少两个维度识别电话号码的号码类型,可提高电话号码识别的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1是本发明实施例中提供的一种电话号码识别方法的流程示意图;
图2是本发明实施例中提供的一种电话号码识别系统的框架示意图;
图3是本发明实施例中提供的另一种电话号码识别方法的流程示意图;
图4是本发明实施例中提供的另一种电话号码识别方法的流程示意图;
图5是本发明实施例中提供的一种电话号码识别装置的结构示意图;
图6是本发明实施例中提供的一种终端的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
上述电话号码识别方法可以运行在安全服务器中,例如手机管家服务器、360卫士服务器或者搜狗号码通服务器等。其中,手机管家客户端与手机管家服务器相对应,手机管家客户端可以安装在手机中;360卫士服务器与360卫士客户端相对应,360卫士客户端可以安装在手机、电脑或者个人计算机(Personal Computer,PC)等终端中,搜狗号码通服务器与搜狗号码通客户端相对应,搜狗号码通客户端可以安装在手机、电脑或者个人计算机等终端中。
请参见图1,图1是本发明实施例公开的一种电话号码识别方法的流程示意图。如图1所示,该电话号码识别方法可以包括以下步骤:
S101,对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息。
安全服务器可以对预设网页进行内容解析,得到各个电话号码及其对应的文本信息。其中,网页可以包括电话号码和文本信息,示例性的,预设网页可以为浏览器页面、微博页面或者微信页面等。
在可选实施例中,安全服务器可以根据第一关键字数据库中的第一关键字,搜索与第一关键字匹配的网页,对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。具体实现中,安全服务器可以搜索包含第一关键字的网页,或者搜索与第一关键字关联的网页,安全服务器可以对搜索得到的网页进行内容解析,获取网页中的电话号码和文本信息,安全服务器还可以建立电话号码和文本信息之间的对应关系,并存储电话号码及其对应的文本信息。进一步的,当该网页包含多个电话号码时,安全服务器可以获取该网页中的所有文本信息,建立不同电话号码和该网页中的所有文本信息的对应关系,存储各个电话号码及其对应的文本信息。
研究表明,用户通过互联网可以搜索并获取到各种各样的内容,但是各种虚假、诈骗信息也被广泛传播,例如用户通过搜索引擎输入搜索词“支付宝人工客服电话”,响应该搜索词以显示的网页中可能包含假冒的支付宝人工客服电话,用户拨打假冒的支付宝人工客服电话,将会存在风险,导致被骗取财物或者个人信息等。对此,安全服务器可以预先建立第一关键字数据库,第一关键字数据库可以包括至少一个第一关键字。安全服务器搜索与第一关键字数据库中的第一关键字匹配的网页,并对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。其中第一关键字数据库所包含的第一关键字可以为:客服、热线、电话或者号码等。本发明实施例对与第一关键字匹配的网页进行内容解析,无需对任一网页进行内容解析,可提高资源利用率。
在可选实施例中,当用户通过安全客户端将呼入的电话号码标记为指定类型时,安全客户端可以将该电话号码发送给安全服务器,安全服务器通过互联网获取包含该电话号码的网页,对获取到的网页进行内容解析,得到该电话号码及其对应的文本信息。
S102,对电话号码进行特征提取,得到至少一个第一特征信息。
安全服务器获取到各个电话号码及其对应的文本信息之后,针对任一电话号码,安全服务器可以对该电话号码进行特征提取,得到至少一个第一特征信息。
在可选实施例中,第一特征信息包括以下至少一项:获取电话号码在预设时间段内的通话次数,检测电话号码与号码数据库中的电话号码是否相同,统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例,统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。
具体实现中,安全服务器可以通过安全客户端统计预设时间段内不同终端与该电话号码进行通话的通话次数,将统计得到的不同终端与该电话号码进行通话的通话次数总和作为该电话号码通话在预设时间段内的通话次数。其中,预设时间段为预先设置的时间间隔,例如最近一个月的时间段内等。示例性的,有三个终端安装安全客户端,则安全客户端的用户量为3人,安全客户端统计得到第一终端在最近一个月内与该电话号码进行通话的通话次数为15次,第二终端在最近一个月内与该电话号码进行通话的通话次数为3次,第三终端在最近一个月内与该电话号码进行通话的通话次数为10次,安全客户端将不同终端在最近一个月内与该电话号码进行通话的通话次数发送给安全服务器,则安全服务器可以确定该电话号码在最近一个月内的通话次数为28次。
安全服务器可以预先建立号码数据库,判断该电话号码与号码数据库中的电话号码是否相同。其中,号码数据库中的电话号码可以为政府部门、公检法机关、企业黄页或者知名客服等的电话号码。可选的,安全服务器可以预先建立第一号码数据库和第二号码数据库,分别判断该电话号码与第一号码数据库中的电话号码是否相同,该电话号码与第二号码数据库中的电话号码是否相同。其中,第一号码数据库中的电话号码可以为政府部门、公检法机关、企业黄页或者知名客服等的电话号码,第二号码数据库中的电话号码可以为通过用户举报或者警方报案等途径获取到的黑名单。
安全服务器可以统计安装该安全客户端的终端数量,将该终端数量作为安全客户端的用户量。安装在各个终端上的安全客户端可以检测用户对该电话号码的标记次数,安全客户端将用户对该电话号码的标记次数发送给安全服务器,安全服务器将不同用户对该电话号码的标记次数总和作为对该电话号码进行标记的标记次数,安全服务器可以将对该电话号码进行标记的标记次数除以安全客户端的用户量,得到用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例。例如安全客户端的用户量为20万人,对该电话号码进行标记的标记次数为2000次,则用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例为1:100。
安装在各个终端上的安全客户端可以检测用户对该电话号码的标记次数以及每次进行标记的号码类型,安全客户端将用户对该电话号码的标记次数以及每次进行标记的号码类型发送给安全服务器,安全服务器将不同用户对该电话号码的标记次数总和作为对该电话号码进行标记的标记次数,将不同用户将该电话号码标记为指定号码类型的标记次数总和作为将该电话号码标记为指定号码类型的标记次数,安全服务器可以将将电话号码标记为指定号码类型的标记次数除以对该电话号码进行标记的标记次数,得到将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。例如,对该电话号码进行标记的标记次数为2000次,将该电话号码标记为诈骗电话的标记次数为1200次,将该电话号码标记为骚扰电话的标记次数为600次,将该电话号码标记为广告推销的标记次数为200次,则安全服务器可以得到将电话号码标记为诈骗电话的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为3:5,将电话号码标记为骚扰电话的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为3:10,将电话号码标记为广告推销的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为1:10。
S103,对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。
安全服务器获取到各个电话号码及其对应的文本信息之后,针对任一电话号码,安全服务器可以对该电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。
在可选实施例中,第二特征信息可以包括以下至少一项:检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
具体实现中,安全服务器可以预先建立第二关键字数据库,第二关键字数据库可以包括至少一个第二关键字。安全服务器获取到电话号码对应的文本信息之后,可以将文本信息与第二关键字数据库中的第二关键字进行比较,检测文本信息与第二关键字数据库中的第二关键字是否匹配。其中,第二关键字数据库所包含的第二关键字可以为:诈骗、欺诈、虚假、仿冒、伪装或者恶意等。例如,用户可以通过互联网举报指定电话号码为诈骗电话等,则安全服务器可以检测该电话号码对应的文本信息是否与诈骗类关键字匹配,以此确定该电话号码的号码类型是否为诈骗电话。
安全服务器可以预先建立第二关键字数据库,第二关键字数据库可以包括至少一个第二关键字。安全服务器获取到电话号码对应的文本信息之后,可以将文本信息与第二关键字数据库中的第二关键字进行比较,检测文本信息与第二关键字数据库中的第二关键字是否匹配。其中,第二关键字数据库所包含的第二关键字可以为:免费转账、免费提现或者低息套现等。例如,安全客户端通过统计分析,某些仿冒网页通常显示免费提现或者低息套现等第二关键字,而被仿冒网页通常不会显示上述第二关键字,则安全服务器可以检测该电话号码对应的文本信息是否与免费类关键字匹配,以此确定该电话号码的号码类型是否为诈骗电话。
安全服务器可以通过互联网搜索包含该电话号码的其他网页,对搜索得到的网页进行内容解析得到该网页中的文本信息,将该文本信息与第二关键字数据库中的第二关键字进行比较,检测包含该电话号码的其他文本信息与第二关键字数据库中的第二关键字是否匹配。
安全服务器可以预先建立网页数据库,网页数据库可以包括至少一个网页的网址等信息,安全服务器可以通过互联网搜索包含该电话号码的所有网页的网址,当包含该电话号码的任一网页的网址与网页数据库中的任一网页的网址相同时,安全服务器可以确定包含该电话号码的网页与网页数据库中的网页匹配;当包含该电话号码的任一网页的网址与网页数据库中的所有网页的网址都不相同时,安全服务器可以确定包含该电话号码的网页与网页数据库中的网页不匹配。
S104,根据第一特征信息和第二特征信息,识别电话号码的号码类型。
安全服务器可以根据第一特征信息和第二特征信息,识别电话号码的号码类型。其中,电话号码的号码类型可以包括:诈骗电话、骚扰电话、广告推销、房产中介或者快递送餐等。
例如,安全服务器可以基于两个维度识别电话号码的号码类型,示例性的,当第一特征信息为该电话号码在预设时间段内的通话次数,第二特征信息为检测该电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配时,如果该电话号码在预设时间段内的通话次数大于预设次数阈值,且该电话号码对应的文本信息与第二关键字数据库中的第二关键字匹配,则安全服务器可以识别该电话号码的号码类型为诈骗电话。
又如,安全服务器可以基于三个维度识别电话号码的号码类型,示例性的,当第一特征信息为该电话号码在预设时间段内的通话次数,以及用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例,第二特征信息为检测包含电话号码的任一网页与网页数据库中的网页是否匹配时,如果该电话号码在预设时间段内的通话次数大于预设次数阈值,将电话号码标记为诈骗电话的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为3:5,将电话号码标记为骚扰电话的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为3:10,将电话号码标记为广告推销的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例为1:10,且包含该电话号码的任一网页与网页数据库中的网页匹配,则安全服务器可以识别该电话号码的号码类型为诈骗电话。
需要说明的是,安全服务器可以基于至少两个维度识别电话号码的号码类型,研发人员可结合不同场景进行相应的修改,具体不受本发明实施例的限制。
在可选实施例中,安全服务器识别电话号码的号码类型之后,可以向安全客户端发送风险提示信息,其中风险提示信息包括电话号码的号码类型。例如,安全服务器将风险提示信息发送给安全客户端之后,安全客户端可以本地存储电话号码及其对应的号码类型,用户在呼入或者呼出该电话号码时,安全客户端可以输出风险提示信息。又如,安全服务器识别电话号码的号码类型之后,用户在呼入或者呼出该电话号码时,安全客户端可以向安全服务器发送针对该电话号码的风险提示信息获取请求,安全服务器将风险提示信息发送给安全客户端,进而安全客户端在终端的显示屏幕上显示风险提示信息,以提示用户该电话号码的号码类型。
本发明实施例中,对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,对电话号码进行特征提取,得到至少一个第一特征信息,对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,根据第一特征信息和第二特征信息,识别电话号码的号码类型,可提高电话号码识别的精准度。
请参见图2,图2是本发明实施例公开的一种电话号码识别系统的框架示意图。如图2所示,该电话号码识别系统可以包括爬虫模块、解析模块、特征提取模块以及号码判断模块,爬虫模块与解析模块建立通信连接,解析模块与特征提取模块建立通信连接,特征提取模块与号码判断模块建立通信连接,其中:
爬虫模块,用于搜索与第一关键字匹配的网页。具体实现中,爬虫模块可以预先建立第一关键字数据库,例如,第一关键字数据库所包含的第一关键字可以为:客服、热线、电话或者号码等,第一关键字数据库中的第一关键字可以通过用户举报、人工审核或者人工添加的方式构成。爬虫模块还可以预先建立网页数据库,网页数据库所包含的网页可以通过搜索引擎(例如QQ浏览器或者谷歌浏览器等)、论坛或者微博等互联网获得。则爬虫模块可以在网页数据库中搜索与第一关键字匹配的网页。
解析模块,用于对搜索到的网页进行内容解析,得到该网页中的电话号码和文本信息,并建立电话号码和文本信息的对应关系。可选的,当该网页包含多个电话号码时,解析模块可以获取该网页中的所有文本信息,建立不同电话号码和该网页中的所有文本信息的对应关系,存储各个电话号码及其对应的文本信息。
特征提取模块,用于对该电话号码及其对应的文本信息进行特征提取,得到多个特征信息。具体实现中,特征提取模块可以对电话号码进行特征提取,得到第一特征信息,其中第一特征信息可以包括以下至少一项:获取电话号码在预设时间段内的通话次数,检测电话号码与号码数据库中的电话号码是否相同,统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例,统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。进一步的,特征提取模块还可以对该电话号码对应的文本信息进行特征提取,得到第二特征信息,其中第二特征信息可以包括以下至少一项:检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
号码判断模块,用于根据各个特征信息,识别该电话号码的号码类型。例如,号码判断模块可以通过机器学习方法,对各个特征信息进行统计学习并分类,以判断该电话号码的号码类型是否为诈骗电话。
基于图2所示的电话号码识别系统的架构示意图,图3公开了本发明实施例的另一种电话号码识别方法的流程示意图。如图3所示,该电话号码识别方法可以包括以下步骤:
S301,通过爬虫模块搜索与第一关键字匹配的网页。
具体实现中,安全服务器可以通过爬虫模块搜索包含第一关键字的网页,或者搜索与第一关键字关联的网页。第一关键字可以为:客服、热线、电话或者号码等。例如,第一关键字包含“支付宝人工客服电话”,则爬虫模块搜索到的与该第一关键字匹配的网页可以为:官方或者假冒的支付宝人工客服电话,关于支付宝相关信息的论坛,等等。
S302,通过解析模块对搜索得到的网页进行内容解析,得到电话号码及其对应的文本信息。
具体实现中,安全服务器可以通过解析模块对搜索得到的网页进行内容解析,分离出该网页中的电话号码和文本信息,并建立电话号码和文本信息的对应关系。当该网页包含多个电话号码时,安全服务器可以通过解析模块建立不同电话号码和该网页中的所有文本信息的对应关系。
S303,通过特征提取模块对电话号码及其对应的文本信息进行特征提取,得到多个特征信息。
具体实现中,安全服务器可以通过特征提取模块对电话号码进行特征提取,得到第一特征信息,安全服务器还可以通过特征提取模块对该电话号码对应的文本信息进行特征提取,得到第二特征信息。其中,第一特征信息可以包括以下至少一项:获取电话号码在预设时间段内的通话次数,检测电话号码与号码数据库中的电话号码是否相同,统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例,统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。第二特征信息可以包括以下至少一项:检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
S304,通过号码判断模块对各个特征信息进行识别,得到该电话号码的号码类型。
具体实现中,安全服务器可以通过号码判断模块对各个特征信息进行识别,得到该电话号码的号码类型,其中电话号码的号码类型可以为诈骗电话、骚扰电话、广告推销、房产中介或者快递送餐等。例如,安全服务器可以通过号码判断模块对各个特征信息进行统计学习并分类,以判断该电话号码的号码类型是否为诈骗电话。本发明实施例通过对网页中的电话号码及其对应的文本信息进行识别,得到该电话号码的号码类型,能找到在互联网传播的大量诈骗电话或者广告推销等,扩充安全服务器中的号码类型数据库,以便终端呼入或者呼出电话号码时,通过安全客户端提示该电话号码的号码类型,保护用户的财产安全或者个人信息等。
本发明实施例中,爬虫模块搜索与第一关键字匹配的网页,解析模块对搜索得到的网页进行内容解析,得到电话号码及其对应的文本信息,特征提取模块对电话号码及其对应的文本信息进行特征提取,得到多个特征信息,号码判断模块对各个特征信息进行识别,得到该电话号码的号码类型,可提高电话号码识别的精准度。
请参见图4,图4是本发明实施例中提供的另一种电话号码识别方法的流程示意图,如图4所示,该电话号码识别方法可以包括以下步骤:
S401,搜索与第一关键字匹配的网页。
S402,对搜索到的网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息。
S403,对电话号码进行特征提取,得到至少一个第一特征信息。
具体实现中,针对任一电话号码,安全服务器可以对该电话号码进行特征提取,得到至少一个第一特征信息。其中,第一特征信息包括以下至少一项:获取电话号码在预设时间段内的通话次数,检测电话号码与号码数据库中的电话号码是否相同,统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例,统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。
示例性的,安全服务器提取到的第一特征信息可以如表一所示:
表一
Figure BDA0000982486930000121
S404,对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。
具体实现中,针对任一电话号码,安全服务器可以对该电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。其中,第二特征信息可以包括以下至少一项:检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配,检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
示例性的,安全服务器提取到的第二特征信息可以如表二所示:
表二
Figure BDA0000982486930000131
S405,根据第一特征信息和第二特征信息,识别电话号码的号码类型。
本发明实施例中,搜索与第一关键字匹配的网页,对该网页进行内容解析,得到各个电话号码及其对应的文本信息,对电话号码进行特征提取,得到至少一个第一特征信息,对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,根据第一特征信息和第二特征信息,识别电话号码的号码类型,可提高电话号码识别的精准度。
请参见图5,图5是本发明实施例中提供的一种电话号码识别装置的结构示意图,本发明实施例中的电话号码识别装置可以为安全服务器,安全服务器可以安装在手机、电脑或者个人计算机等中,如图所示本实施例中的电话号码识别装置至少可以包括内容解析单元501、特征提取单元502以及号码类型识别单元503,其中:
内容解析单元501,用于对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息。
特征提取单元502,用于对电话号码进行特征提取,得到至少一个第一特征信息。
所述特征提取单元502,还用于对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。
号码类型识别单元503,用于根据第一特征信息和第二特征信息,识别电话号码的号码类型。
在可选实施例中,特征提取单元502对电话号码进行特征提取,得到至少一个第一特征信息,具体用于:
根据第一特征提取项对电话号码进行特征提取,得到各个第一特征信息,其中,第一特征提取项包括电话号码的号码历史热度、号码字符串特点、号码行为模式、电话号码是否属于黄页、电话号码是否属于黑名单、电话号码在安全客户端的标记情况或者电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种。
在可选实施例中,第一特征信息可以包括以下至少一项:
获取电话号码在预设时间段内的通话次数;
检测电话号码与号码数据库中的电话号码是否相同;
统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例;
统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。
在可选实施例中,特征提取单元502对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,具体用于:
根据第二特征提取项对电话号码对应的文本信息进行特征提取,得到各个第二特征信息,其中,第二特征提取项包括电话号码在搜索引擎的返回页面结果,电话号码在指定网页被用户提到的内容,电话号码是否在指定网址页面出现中的一种或者多种。
在可选实施例中,第二特征信息可以包括以下至少一项:
检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配;
检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配;
检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
在可选实施例中,本发明实施例中的内容解析单元501,具体用于:
根据第一关键字数据库中的第一关键字,搜索与第一关键字匹配的网页。
对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。
在可选实施例中,内容解析单元501根据第一关键字数据库中的第一关键字,搜索与第一关键字匹配的网页,具体用于:
通过爬虫模块爬取与第一关键字匹配的网页。
在可选实施例中,号码类型识别单元503根据第一特征信息和第二特征信息,识别电话号码的号码类型,具体用于:
通过机器学习方法,对第一特征信息和第二特征信息进行统计学习,以判断电话号码的号码类型是否为诈骗电话。
在可选实施例中,本发明实施例中的电话号码识别装置还可以包括:
提示信息发送单元504,用于号码类型识别单元503根据第一特征信息和第二特征信息,识别电话号码的号码类型之后,向安全客户端发送风险提示信息,风险提示信息包括电话号码的号码类型。
本发明实施例中,内容解析单元501对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息,特征提取单元对电话号码进行特征提取,得到至少一个第一特征信息,特征提取单元502对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,号码类型识别单元503根据第一特征信息和第二特征信息,识别电话号码的号码类型,可提高电话号码识别的精准度。
请参见图6,图6为本发明另一实施例提供的一种终端的结构示意图,本发明实施例提供的终端可以用于实施上述图1、图3或者图4所示的本发明实施例实现的方法,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照图1、图3或者图4所示的本发明实施例。
如图6所示,该终端包括:至少一个处理器601,例如CPU,至少一个输入装置603,至少一个输出装置604,存储器605,至少一个通信总线602。其中,通信总线602用于实现这些组件之间的连接通信。其中,输入装置603、输出装置604具体可以为网络接口,用于与安全客户端进行通信。其中,存储器605可能包含高速RAM存储器,也可能还包括非不稳定的存储器,例如至少一个磁盘存储器,具体用于存储电话号码及其对应的文本信息。存储器605可选的可以包含至少一个位于远离前述处理器601的存储装置。处理器601可以结合图5所示的电话号码识别装置。存储器605中存储一组程序代码,且处理器601调用存储器605中存储的程序代码,用于执行以下操作:
对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,网页包括电话号码和文本信息。
对电话号码进行特征提取,得到至少一个第一特征信息。
对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息。
根据第一特征信息和第二特征信息,识别电话号码的号码类型。
在可选实施例中,处理器601对电话号码进行特征提取,得到至少一个第一特征信息,具体可以为:
根据第一特征提取项对电话号码进行特征提取,得到各个第一特征信息,其中,第一特征提取项包括电话号码的号码历史热度、号码字符串特点、号码行为模式、电话号码是否属于黄页、电话号码是否属于黑名单、电话号码在安全客户端的标记情况或者电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种。
在可选实施例中,第一特征信息包括以下至少一项:
获取电话号码在预设时间段内的通话次数。
检测电话号码与号码数据库中的电话号码是否相同。
统计用户通过安全客户端对电话号码进行标记的标记次数与安全客户端的用户量之间的比例。
统计用户通过安全客户端将电话号码标记为指定号码类型的标记次数与用户通过安全客户端对电话号码进行标记的标记次数之间的比例。
在可选实施例中,处理器601对电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息,具体可以为:
根据第二特征提取项对电话号码对应的文本信息进行特征提取,得到各个第二特征信息,其中,第二特征提取项包括电话号码在搜索引擎的返回页面结果,电话号码在指定网页被用户提到的内容,电话号码是否在指定网址页面出现中的一种或者多种。
在可选实施例中,第二特征信息包括以下至少一项:
检测电话号码对应的文本信息与第二关键字数据库中的第二关键字是否匹配。
检测包含电话号码的其他网页中的文本信息与第二关键字数据库中的第二关键字是否匹配。
检测包含电话号码的任一网页与网页数据库中的网页是否匹配。
在可选实施例中,处理器601对预设网页进行内容解析,得到各个电话号码及其对应的文本信息,具体可以为:
处理器601根据第一关键字数据库中的第一关键字,搜索与第一关键字匹配的网页。
处理器601对搜索得到的网页进行内容解析,得到各个电话号码及其对应的文本信息。
在可选实施例中,处理器601根据第一关键字数据库中的第一关键字,搜索与第一关键字匹配的网页,具体可以为:
通过爬虫模块爬取与第一关键字匹配的网页。
在可选实施例中,处理器601根据第一特征信息和第二特征信息,识别电话号码的号码类型,具体可以为:
通过机器学习方法,对第一特征信息和第二特征信息进行统计学习,以判断电话号码的号码类型是否为诈骗电话。
在可选实施例中,处理器601根据第一特征信息和第二特征信息,识别电话号码的号码类型之后,还可以执行以下操作:
输出装置604向安全客户端发送风险提示信息,风险提示信息包括电话号码的号码类型。
具体的,本发明实施例中介绍的终端可以用以实施本发明结合图1、图3或者图4介绍的方法实施例中的部分或全部流程。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (4)

1.一种电话号码识别方法,其特征在于,包括:
根据预先设定的第一关键字数据库中的至少一个第一关键字,搜索包含第一关键字或第一关键字关联的网页,对搜索得到的包括电话号码和文本信息的所述网页进行内容解析,以获取所述网页中的电话号码及其对应的文本信息;
建立所述电话号码和文本信息之间的对应关系,并存储所述电话号码及其对应的文本信息;
根据第一特征提取项对所述电话号码进行特征提取,得到至少一个第一特征信息;所述第一特征提取项包括所述电话号码的号码历史热度、号码字符串特点、号码行为模式、所述电话号码是否属于黄页、所述电话号码是否属于黑名单、所述电话号码在安全客户端的标记情况或者所述电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种;其中,第一特征信息包括以下至少一项:获取所述电话号码在预设时间段内的通话次数;统计用户通过安全客户端对电话号码进行标记的标记次数与所述安全客户端的用户量之间的比例;统计用户通过所述安全客户端将所述电话号码标记为指定号码类型的标记次数与用户通过所述安全客户端对所述电话号码进行标记的标记次数之间的比例;
根据第二特征提取项对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;所述第二特征提取项包括所述电话号码在搜索引擎的返回页面结果,所述电话号码在指定网页被用户提到的内容,所述电话号码是否在指定网址页面出现中的一种或者多种;其中,所述第二特征信息包括以下至少一项:检测所述电话号码对应的文本信息与预先设立的第二关键字数据库中的第二关键字是否匹配;检测包含所述电话号码的其他网页中的文本信息与所述第二关键字数据库中的第二关键字是否匹配;检测包含所述电话号码的任一网页与网页数据库中的网页是否匹配;
通过机器学习,对所述第一特征信息和所述第二特征信息进行统计学习并分类,基于至少两个维度识别所述电话号码的号码类型;
当用户在呼入或者呼出所述电话号码时,向所述安全客户端发送风险提示信息,以使所述安全客户端在其终端的显示屏幕上显示所述风险提示信息,以提示用户所述电话号码的号码类型。
2.根据权利要求1所述方法,其特征在于,所述根据第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页,包括:
通过爬虫模块爬取与所述第一关键字匹配的网页。
3.一种电话号码识别装置,其特征在于,包括:
内容解析单元,用于根据预先设立的第一关键字数据库中的至少一个第一关键字,搜索包含第一关键字或第一关键字关联的网页,对搜索得到的包括电话号码和文本信息的所述网页进行内容解析,以获取所述网页中的电话号码及其对应的文本信息;
建立所述电话号码和文本信息之间的对应关系,并存储所述电话号码及其对应的文本信息;
特征提取单元,用于根据第一特征提取项对所述电话号码进行特征提取,得到至少一个第一特征信息;所述第一特征提取项包括所述电话号码的号码历史热度、号码字符串特点、号码行为模式、所述电话号码是否属于黄页、所述电话号码是否属于黑名单、所述电话号码在安全客户端的标记情况或者所述电话号码在安全客户端被标记为指定号码类型的情况中的一种或者多种;其中,所述第一特征信息包括以下至少一项:获取所述电话号码在预设时间段内的通话次数;统计用户通过安全客户端对所述电话号码进行标记的标记次数与所述安全客户端的用户量之间的比例;统计用户通过所述安全客户端将所述电话号码标记为指定号码类型的标记次数与用户通过所述安全客户端对所述电话号码进行标记的标记次数之间的比例;
所述特征提取单元,还用于根据第二特征提取项对所述电话号码对应的文本信息进行特征提取,得到至少一个第二特征信息;所述第二特征提取项包括所述电话号码在搜索引擎的返回页面结果,所述电话号码在指定网页被用户提到的内容,所述电话号码是否在指定网址页面出现中的一种或者多种;其中,所述第二特征信息包括以下至少一项:检测所述电话号码对应的文本信息与预先设立的第二关键字数据库中的第二关键字是否匹配;检测包含所述电话号码的其他网页中的文本信息与所述第二关键字数据库中的第二关键字是否匹配;检测包含所述电话号码的任一网页与网页数据库中的网页是否匹配;
号码类型识别单元,用于通过机器学习,对所述第一特征信息和所述第二特征信息进行统计学习并分类,基于至少两个维度识别所述电话号码的号码类型;
提示信息发送单元,用于当用户在呼入或者呼出所述电话号码时,向所述安全客户端发送风险提示信息,以使所述安全客户端在其终端的显示屏幕上显示所述风险提示信息,以提示用户所述电话号码的号码类型。
4.根据权利要求3所述装置,其特征在于,所述内容解析单元根据所述第一关键字数据库中的第一关键字,搜索与所述第一关键字匹配的网页,具体用于:
通过爬虫模块爬取与所述第一关键字匹配的网页。
CN201610293037.7A 2016-05-05 2016-05-05 一种电话号码识别方法及装置 Active CN106713579B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610293037.7A CN106713579B (zh) 2016-05-05 2016-05-05 一种电话号码识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610293037.7A CN106713579B (zh) 2016-05-05 2016-05-05 一种电话号码识别方法及装置

Publications (2)

Publication Number Publication Date
CN106713579A CN106713579A (zh) 2017-05-24
CN106713579B true CN106713579B (zh) 2020-04-28

Family

ID=58939687

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610293037.7A Active CN106713579B (zh) 2016-05-05 2016-05-05 一种电话号码识别方法及装置

Country Status (1)

Country Link
CN (1) CN106713579B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107273531B (zh) * 2017-06-28 2021-01-08 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质
CN107563416A (zh) * 2017-08-17 2018-01-09 阿里巴巴集团控股有限公司 一种对象识别方法和装置
CN109698885B (zh) * 2017-10-20 2021-03-16 中国移动通信集团公司 一种呼叫请求的处理方法、装置、网络侧服务器和计算机存储介质
CN109729226A (zh) * 2017-10-31 2019-05-07 北京搜狗科技发展有限公司 一种分析通信信息类型的方法及装置
CN109995707B (zh) * 2017-12-29 2021-11-02 中国移动通信集团陕西有限公司 一种高清语音防骚扰和ddos攻击方法及装置
CN108182180B (zh) * 2018-01-30 2019-10-11 百度在线网络技术(北京)有限公司 用于生成信息的方法和装置
CN109635164B (zh) * 2018-11-12 2020-12-04 同盾控股有限公司 一种号码的检测方法和装置
CN109714254A (zh) * 2019-01-24 2019-05-03 深圳云号科技有限公司 一种号码鉴别方法及装置
CN110336925B (zh) * 2019-06-25 2021-06-25 维沃移动通信有限公司 电话呼入处理方法和终端设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及系统
CN103412940A (zh) * 2013-08-22 2013-11-27 清华大学 检测欺诈电话的方法
CN104715055A (zh) * 2015-03-30 2015-06-17 北京奇虎科技有限公司 一种搜索结果中的电话号码处理方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663106B (zh) * 2012-04-13 2017-11-24 北京搜狗科技发展有限公司 建立号码信息数据库的方法及系统
US8886842B2 (en) * 2012-09-27 2014-11-11 Ncr Corporation System and method of connecting a computer to a peripheral of another computer
CN104010064B (zh) * 2014-05-14 2018-02-02 北京奇虎科技有限公司 联网搜索号码的方法及装置
CN104320525B (zh) * 2014-09-19 2017-08-15 小米科技有限责任公司 电话号码识别方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及系统
CN103412940A (zh) * 2013-08-22 2013-11-27 清华大学 检测欺诈电话的方法
CN104715055A (zh) * 2015-03-30 2015-06-17 北京奇虎科技有限公司 一种搜索结果中的电话号码处理方法和装置

Also Published As

Publication number Publication date
CN106713579A (zh) 2017-05-24

Similar Documents

Publication Publication Date Title
CN106713579B (zh) 一种电话号码识别方法及装置
CN113098870B (zh) 一种网络诈骗检测方法、装置、电子设备及存储介质
CN106384273B (zh) 恶意刷单检测系统及方法
CN105825138B (zh) 一种敏感数据识别的方法和装置
CN104217160B (zh) 一种中文钓鱼网站检测方法及系统
CN107566358A (zh) 一种风险预警提示方法、装置、介质及设备
KR102355973B1 (ko) 스미싱 메시지 판별장치 및 스미싱 메시지 판별방법
CN111104521B (zh) 一种基于图分析的反欺诈检测方法及检测系统
CN104156490A (zh) 基于文字识别检测可疑钓鱼网页的方法及装置
CN110839216B (zh) 识别通讯信息诈骗的方法和装置
CN105792152B (zh) 伪基站短信识别方法和装置
CN109194689B (zh) 异常行为识别方法、装置、服务器及存储介质
CN104598595B (zh) 欺诈网页检测方法及相应装置
CN111783138A (zh) 敏感数据检测方法、装置、计算机设备及存储介质
CN110609908A (zh) 案件串并方法及装置
CN110138758A (zh) 基于域名词汇的误植域名检测方法
CN107896225A (zh) 钓鱼网站判定方法、服务器及存储介质
CN112328936A (zh) 一种网站识别方法、装置、设备及计算机可读存储介质
CN112307464A (zh) 诈骗识别方法、装置及电子设备
US9665574B1 (en) Automatically scraping and adding contact information
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
CN111259216A (zh) 一种信息识别方法、装置及设备
CN112039874B (zh) 一种恶意邮件的识别方法及装置
CN105653941A (zh) 一种启发式检测钓鱼网站的方法及系统
CN104462279A (zh) 分析对象特征信息的获取方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant