CN102663105B - 号码信息数据库的建立方法及系统 - Google Patents

号码信息数据库的建立方法及系统 Download PDF

Info

Publication number
CN102663105B
CN102663105B CN201210110151.3A CN201210110151A CN102663105B CN 102663105 B CN102663105 B CN 102663105B CN 201210110151 A CN201210110151 A CN 201210110151A CN 102663105 B CN102663105 B CN 102663105B
Authority
CN
China
Prior art keywords
webpage
user
information
decimation rule
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210110151.3A
Other languages
English (en)
Other versions
CN102663105A (zh
Inventor
孟二利
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sogou Technology Development Co Ltd
Original Assignee
Beijing Sogou Technology Development Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sogou Technology Development Co Ltd filed Critical Beijing Sogou Technology Development Co Ltd
Priority to CN201210110151.3A priority Critical patent/CN102663105B/zh
Publication of CN102663105A publication Critical patent/CN102663105A/zh
Application granted granted Critical
Publication of CN102663105B publication Critical patent/CN102663105B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了号码信息数据库的建立方法及系统,其中,所述方法包括:对网络中的网页进行抓取;根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息;保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。通过本发明,能够在用户使用移动通信终端的过程中遇到陌生的电话号码时,降低被骚扰或者自身财产安全等被侵害的概率。

Description

号码信息数据库的建立方法及系统
技术领域
本发明涉及计算机技术领域,特别是涉及号码信息数据库的建立方法及系统。
背景技术
移动通信终端(例如手机等)作为常用的通讯工具,可以极大的方便用户和他人取得联系,建立通话。然而,由于个人号码信息会通过很多渠道被他人知晓,甚至被恶意的泄露和获取,使得用户在使用移动电话的过程中,受到很多陌生号码的来电打扰。
移动电话的用户在收到陌生来电显示时,在未通话之前,无法了解此联系人的通话目的。在一些情况下,陌生通话的内容可能涉及保险推销,房屋中介,甚至是恶意诈骗等,用户在接听这些电话时,会使正常的生活受到干扰,甚至会侵害到自身的财产安全。同时,在另一些情况下,陌生通话的内容可能涉及到用户关心的信息,比如需要他签收的邮件已经送到,更换了新号码的朋友主动联系等,在这些情况下,陌生来电的通话内容对用户是有用,甚至是意义重大的。因此,一般情况下,用户只能冒着被干扰等风险来接听陌生来电,但对于骚扰电话或者恶意诈骗电话而言,一旦用户接听了,就使得正常生活被干扰成为既定事实,同时也给来电者留下了可乘之机,使得用户的自身财产安全遭受侵害的可能性大大上升。但如果不接听陌生来电,又会担心错过了一些重要的信息。
现有技术中存在为用户提供号码归属地等信息的应用,例如,一些手机自身或者手机软件产品,采用在预先在手机本地保存的数据库,主动地为用户标记出陌生号码的归属地信息。比如当用户收到158XXXX1078的来电提醒时,会同时获得此号码的归属地信息:XX省XX市,同时,可能还会包含运营商信息:中国移动、中国联通,等。或者,也可以为用户提供查询的网络入口+(例如在网页中提供查询输入框等形式),用户可以在发现未接的陌生电话之后,通过在查询输入框中输入陌生号码,得到号码的归属地或者运营商信息等等。
这种提供号码归属地或运营商信息的方式,虽然能够帮助用户在一定程度上识别陌生来电,但是,只能为用户提供简单的参考,并不能帮助用户准确的识别陌生来电的身份。
发明内容
本发明提供了号码信息数据库的建立方法及系统,能够在用户使用移动通信终端的过程中遇到陌生的电话号码时,降低被骚扰或者自身财产安全等被侵害的概率。
本发明提供了如下方案:
一种号码信息数据库的建立方法,包括:
对网络中的网页进行抓取;
根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,其中,所述预置的抽取规则包括路径抽取规则和URL抽取规则;
保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
其中,所述对网络中的网页进行抓取包括:
对网络中特定站点下的网页进行抓取;
所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。
其中,还包括:
通过机器学习的方式获取所述特定站点对应的抽取规则。
其中,所述通过机器学习的方式获取所述特定站点对应的抽取规则包括:
从一特定站点中提取预置数量的网页作为训练样本;
根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;
如果存在,则根据训练样本网页的HTML代码创建DOM树;
通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;
将所述最小循环单元的父节点确定为用户评论列表节点;
记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则,将所述路径抽取规则确定为该特定站点对应的抽取规则。
其中,所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;
根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
其中,还包括:
使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;
所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;
根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;
根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
一种号码信息数据库的建立系统,包括:
网页抓取单元,用于对网络中的网页进行抓取;
信息抽取单元,用于根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,其中,所述预置的抽取规则包括路径抽取规则和URL抽取规则;
保存单元,用于保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
其中,所述网页抓取单元包括:
特定站点网页抓取子单元,用于对网络中特定站点下的网页进行抓取;
所述信息抽取单元包括:
特定站点网页信息抽取子单元,用于针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。
其中,还包括:
机器学习单元,用于通过机器学习的方式获取所述特定站点对应的抽取规则。
其中,所述机器学习单元包括:
训练样本获取子单元,用于从一特定站点中提取预置数量的网页作为训练样本;
判断子单元,用于根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;
DOM树创建子单元,用于如果存在,则根据训练样本网页的HTML代码创建DOM树;
计算子单元,用于通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;
节点确定子单元,用于将所述最小循环单元的父节点确定为用户评论列表节点;
路径记录子单元,用于记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则,将所述路径抽取规则确定为该特定站点对应的抽取规则。
其中,所述信息抽取单元包括:
第一用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;
第一信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
其中,还包括:
URL抽取规则生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;
所述信息抽取单元包括:
URL匹配子单元,用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;
第二用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;
第二信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
通过本发明,通过从互联网的网页中进行信息提取,可以确定出各个号码分别对应的使用者身份信息,并进行保存,以此建立起号码信息数据库。这样,就可以为帮助用户准确识别陌生来电的身份提供基础。例如,可以对用户使用通信终端过程中的应用场景进行监测,如果发现用户接收到了陌生来电,或者正在拨打陌生人的号码,则可以通过查询该号码信息数据库,将陌生号码对应的使用者身份信息显示给用户,这样,就可以使得用户对陌生号码对应的使用者身份有比较准确地了解,降低被骚扰或者自身财产安全等被侵害的概率。或者,也可以为用户提供可以查询的网络入口,例如,在网页中提供搜索入口,当用户发现某未接的陌生来电时,在决定是否要回电话之前,可以首先通过该搜索入口查询该号码对应的使用者身份信息,在查询到之后,再确定是否回电话,这样,同样可以降低用户财产安全等被侵害的概率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的方法的流程图;
图2是本发明实施例提供的方法中一抽取结果示意图;
图3是本发明实施例提供的方法中抽取结果对应的页面区域示意图;
图4是本发明实施例提供的方法中第一用户界面示意图;
图5是本发明实施例提供的方法中第二用户界面示意图;
图6是本发明实施例提供的系统的示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明实施例提供的号码信息数据库的建立方法包括以下步骤:
S101:对网络中的网页进行抓取;
S102:根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息;
S103:保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
首先需要说明的是,在本发明实施例中,陌生号码对应的使用者身份信息是指,陌生号码的拥有者具有怎样的身份,例如,是否为骗子、房产中介、保险推销、快递等等,总之通过这样的使用者身份信息,用户可以分辨出是否要接听一个陌生来电,或者拨打一个陌生电话时是否安全。
由于互联网中包含各种各样的网页,其中包含的信息也是异常丰富,甚至还有些网页是专门用于收集诈骗电话等信息供用户查询的,因此,可以利用搜索引擎技术抓取网页中的目标号码(也即本发明实施例中涉及的诈骗电话、中介电话、保险销售电话等等,当然,也可以包括其他正常的电话号码)及对应的使用者身份信息,然后进行保存。具体实现时,针对各类身份,可以分别设定一些搜索的范围,然后在具体的搜索范围内,根据目标电话在网页中的特征,从网页中抽取出目标电话及对应的使用者身份信息。
具体实现时,可以通过具体的站点来进行搜索范围的设定。例如,对于诈骗电话,搜索的范围可以覆盖一些主要用于收录诈骗电话信息的站点,这些站点中收录了很多带有网友评论的号码信息,比如指定某个电话为响一声就挂、吸费电话、诈骗电话等等。因此,可以根据信息抽取规则,从这些站点中抽取出目标号码及其对应的使用者身份信息。又如,对应房产中介电话,搜索的范围可以覆盖一些提供房屋买卖、租赁等服务信息的站点,在这些站点中,信息发布者一般会提供自己的联系电话,并且站点会对中介及个人进行分类,在一些中介冒充个人发布信息的情况下,站点允许用户对其发现的房产中介电话进行标记,等等。因此,同样可以根据中介电话在网页中具有的规则,从网页中抽取出目标电话及对应的使用者身份信息。
其中,对于使用的抽取规则,可以是预先由人为等方式设置,但在本发明实施例中,还可以使用机器学习的方法来生成抽取规则。具体实现时,对于各类目标电话,在选定搜索范围内的站点之后,可以首先分别针对各个选中的站点,选出一些网页作为训练样本,由机器学习模块对这些网页进行分析,然后从中总结出抽取规则。也即,针对某一类目标电话,在选中了几个站点之后,分别针对每个站点会学习出抽取规则,然后分别用各自的抽取规则到站点内的网页中抽取出号码及其对应的使用者身份信息。
例如,对于诈骗类的号码,搜索范围内的站点包括搜电话(http://www.soudianhua.com/)、哪个打的(http://www.nagedade.com/)、防骗数据库(http://www.fpsjk.com)、查号吧(http://www.chahaoba.com)、手机号码归属地查询(http://www.096.me/)、无地遁形(http://www.unxing.com/)、我要搜号(http://www.51sh.cc/)等等。由于这些网站的页面中一般会包含用户到手机号的评论信息,从评论信息中就能抽取出号码对应的使用者身份信息。因此,抽取规则可以根据评论信息来设置。在机器学习抽取规则时,相当于是需要通过程序去发现作为训练样本的网页中是否存在用户评论,获取到用户评论的抽取规则。
具体实现时,可以基于DOM树来学习抽取规则。其中,DOM是专门适用于HTML/XHTML的文档对象模型,可以将DOM理解为网页的API。它把所有的数据以父子的节点层次结构装入内存构成一棵树,这些节点的类型可以是元素、文本、属性、注释或其它。它允许开发者读取、创建、删除和编辑HTML数据。因此,通过分析DOM树中的各个节点,就可以从中获取到想要的信息。对于本发明实施例中想要获取的对号码的用户评论而言,用户评论列表本身对应着DOM树中的一个节点,并且同一个站点下的各个网页的结构会比较相似,甚至可能是采用一种或者几种结构,也就是说,从根节点到用户评论列表节点的路径可能是相同的,或者可能分为几种情况,因此,在机器学习的过程中,就可以从作为训练样本的网页中找出从根节点到用户评论列表节点的路径,以此作为提取规则。
在机器学习的过程中,如何从作为训练样本的网页中发现用户评论列表节点是比较关键的问题,下面对此进行介绍。由于同一页面中一般都是针对同一号码的用户评论,并且评论列表中一般可能会有多条,各条评论信息在页面的DOM树中,是同一父节点(该父节点即为评论列表节点)下的各个子节点,并且各个子节点之间的相似度比较高(例如索引、标签名、属性名等都会比较相似)。因此,就可以基于这一特点,来查找到评论列表节点。具体实现时,就可以首先针对一个站点中的指定网页,根据号码的特征(例如,一般一个完整的电话号码的位数可能是固定的,如,手机号码一般是11位,固定电话号码一般是7位或8位,如果加上服务区号,则固定电话也一般为11位,此外还有IP业务号码,但一般也有固定的编码规则,如,一般都是五位固定的数字,后面跟固定位数的电话号码等等),判断页面中是否包含电话号码;如果包含,则根据该页面的HTML代码创建该页面的DOM树,并通过基于编辑距离的方式计算各个节点之间的相似度,找到其中包含的最小重复单元,每一个最小重复单元就相当于对应着一条用户评论,然后就可以将这些最小重复单元对应的共同父节点确定为用户评论节点,记录下从根节点到该用户评论节点的路径,就可以将该路径作为这一类网页的一种规则模板,也即路径抽取规则。当然,如前文所述,同一站点下的各个网页可能会具有几种(一般不会太多)不同的结构,在每种结构下对应的从根节点到用户评论列表节点的路径也不尽相同,因此,针对不同的页面结构,可以分别学习出不同的路径抽取规则,分别进行存储即可。
在通过机器学习的方式获取到上述路径抽取规则之后,就可以在同一站点下的其他网页中,利用上述路径抽取规则抽取出网页中包含的目标号码以及使用者身份信息。具体实现时,可以针对同一站点下的各个网页,分别使用路径抽取规则抽取出用户评论列表节点下的具体信息内容。例如,使用路径抽取规则抽取到的用户评论信息如图2所示,对应的页面中的区域如图3所示。进而,根据抽取出的用户评论信息,可以判断其中是否存在预置的检测特征词(例如诈骗、骚扰等等),如果包含,就可以提取出来,进而就可以根据提取出的特征词,来确定目标号码对应的使用者身份信息。当然,如前文所述,同一站点下可能包括多种路径抽取规则,此时,可以使用个各种路径抽取规则进行轮询,直到成功抽取出所需信息为止。
另外,在其他实施例中,在提取从根节点到用户评论列表节点的路径作为抽取规则的同时,还可以对符合上述特征的网页的URL提取出来,并根据各个URL中存在的共性部分,使用正则表达式对URL进行归一化,得到URL的提取规则。例如,针对形如以下所示的URL:http://www.51sh.cc/index.php?type=code&sky=18647777777&v=vh,归一化之后可以得到:http://www.51sh.cc/index.php\?type=code&sky=\d+&v=vh$。需要说明的是,在进行上述归一化时,需要将相同网页结构的网页的URL进行归一化,也就是说,在提取从根节点到用户评论列表节点的路径时,在同一站点下,有可能提取出多种,此时,同一种下的网页URL可以进行归一化,得到URL抽取规则,并且可以与提取到的路径抽取规则相对应。
在通过机器学习得到上述路径抽取规则以及URL抽取规则之后,就可以使用搜索引擎技术抓取到同一站点下的其他网页,然后,使用这种规则到这些网页中进行匹配抽取。具体的,首先可以利用URL抽取规则抽取到匹配的网页,然后再利用对应的路径抽取规则,从网页中抽取出其中包含的号码,以及用户评论列表下的各条评论信息。然后,通过对抽取到的用户评论信息中包含的关键词,即可获取到号码对应的可能的使用者身份信息。例如,针对某号码131****2751,从网页中抽取出的用户评论信息中包括“骚扰”、“只响一声”、“胡乱骂人”等特征词,则可以根据这些信息最终将该号码对应的使用者身份信息确定为“骚扰”,等等。这种使用路径抽取规则以及URL抽取规则进行抽取的方式,相当于首先利用URL抽取规则对站点下的网页进行过滤,然后再使用路径抽取规则从剩余的网页中抽取需要的信息,因此,可以降低计算量,提高效率。
针对其他目标站点,也可以分别进行上述处理,最终就可以从众多的网页中抽取出大量的号码及其对应的使用者身份信息,保存这些信息即可创建起号码信息数据库,以供查询使用。
当然,除了上述网页中包含有用户对电话号码的评论信息的站点之外,还有一些站点的网页中可能会包含针对某号码非常明显的使用者身份信息。例如,在房产买卖或租赁的网站中,可能会规定用户在发布消息时,提供自己的身份信息,或者需要用户在自己所属的身份类别中进行发布,等等。也就是说,在一个页面中显示发布者的电话号码时,会同时显示出发布者的身份信息。例如,某用户发布出租房屋的消息时,如果是中介公司的职员,则在其信息发布页面中显示该用户的电话号码的同时,会有明显的“中介”字样,甚至还可能提供所属的中介公司,等等。针对这种情况,就可以直接在网页中提取其中包含的电话号码及其对应的使用者身份信息。具体实现时,同样可以预先设置搜索的覆盖范围,例如在抽取中介电话时,可以使得搜索范围覆盖一些常用的提供房屋买卖、租赁服务的站点,例如,搜房网soufun.com、搜狐焦点51f.com、安居客anjuke.com等等。然后使用搜索引擎技术抓取这些站点下的所有网页,然后根据电话号码的特征从网页中提取出电话号码,同时提取出网页中包含的特征词。最终,就可以根据提取出的特征词,来确定目标号码对应的使用者身份信息。
总之,在本发明实施例中,通过从网页中抽取出的信息,可以确定出各个号码分别对应的使用者身份信息,并进行保存,以此建立起号码信息数据库。这样,就可以为帮助用户准确识别陌生来电的身份提供基础。例如,可以对用户使用通信终端过程中的应用场景进行监测,如果发现用户接收到了陌生来电,或者正在拨打陌生人的号码,则可以通过查询该号码信息数据库,将陌生号码对应的使用者身份信息显示给用户,这样,就可以使得用户对陌生号码对应的使用者身份有所了解,降低被骚扰或者自身财产安全等被侵害的概率。例如,可以在手机来电界面展现给用户相关号码的使用者身份信息。具体的,当客户端监测到用户接到一个陌生号码的来电时,则利用系统相关API获取该陌生号码,并利用Wifi网络等,将该号码以字符串等形式封装在url中,使用http get请求提交到服务器端进行查询,服务器端查询服务模块收到该请求后,在号码信息数据库中查询该号码的身份信息,并返回给客户端,客户端调用显示模块在系统来电界面显示信息,就能够有效的提示用户决定是否接听该来电。如图4所示,当用户接收到“146****0876”的来电时,就可以将使用者身份信息“北京市人才市场”显示在用户界面中。又如,可以在手机拨号界面根据用户所拨号码展现相关的使用者身份信息。具体的,当客户端监测到用户在手机拨号界面输入号码时,与监测到陌生来电时类似,向服务器进行查询并获取用户所输号码的使用者身份信息,然后显示给用户。如图5所示:当用户呼叫“010-62793650”时,可以将该号码的使用者身份信息“招商银行北京分行清华园支行”显示在用户界面中。这里需要说明的是,具体在为用户提供陌生号码的使用者身份信息时,并不限于上述文本的形式,例如,还可以是图片、音频、视频等。
或者,也可以为用户提供可以查询的网络入口,例如,在网页中提供搜索入口,当用户发现某未接的陌生来电时,在决定是否要回电话之前,可以首先通过该搜索入口查询该号码对应的使用者身份信息,在查询到之后,再确定是否回电话,这样,同样可以降低用户财产安全等被侵害的概率。另外,对于这种未接的陌生来电的情况,也可以由应用程序在响铃过程中(当然也可以是在响铃结束之后),查询本发明实施例中的数据库,将获取到的使用者身份信息记录下来并保存在用户本地,这样,用户进入通话记录界面时,就可以显示给用户,也就是说,用户可以在通话记录的界面中看到未接来电的陌生号码的使用者身份信息。
与本发明实施例提供的号码信息数据库的建立方法相对应,本发明实施例还提供了一种号码信息数据库的建立系统,参见图6,该系统包括:
网页抓取单元601,用于对网络中的网页进行抓取;
信息抽取单元602,用于根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息;
保存单元603,用于保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
具体实现时,网页抓取单元601可以包括:
特定站点网页抓取子单元,用于对网络中特定站点下的网页进行抓取;
相应的,信息抽取单元602可以包括:
特定站点网页信息抽取子单元,用于针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。
为了提高抽取的效率以及准确度,该系统还可以包括:
机器学习单元,用于通过机器学习的方式获取所述特定站点对应的抽取规则。
具体实现时,所述机器学习单元具体可以包括:
训练样本获取子单元,用于从一特定站点中提取预置数量的网页作为训练样本;
判断子单元,用于根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;
DOM树创建子单元,用于如果存在,则根据训练样本网页的HTML代码创建DOM树;
计算子单元,用于通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;
节点确定子单元,用于将所述最小循环单元的父节点确定为用户评论列表节点;
路径记录子单元,用于记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则,将所述路径抽取规则确定为该特定站点对应的抽取规则。
其中,信息抽取单元602可以包括:
第一用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;
第一信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
或者,为了提高效率,该系统还可以包括:
URL抽取规则生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;
此时,信息抽取单元602可以包括:
URL匹配子单元,用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;
第二用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;
第二信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
总之,在本发明实施例提供的号码信息数据库建立系统中,通过从互联网的网页中进行信息提取,可以确定出各个号码分别对应的使用者身份信息,并进行保存,以此建立起号码信息数据库。这样,就可以为帮助用户准确识别陌生来电的身份提供基础。例如,可以对用户使用通信终端过程中的应用场景进行监测,如果发现用户接收到了陌生来电,或者正在拨打陌生人的号码,则可以通过查询该号码信息数据库,将陌生号码对应的使用者身份信息显示给用户,这样,就可以使得用户对陌生号码对应的使用者身份有所了解,降低被骚扰或者自身财产安全等被侵害的概率。或者,也可以为用户提供可以查询的网络入口,例如,在网页中提供搜索入口,当用户发现某未接的陌生来电时,在决定是否要回电话之前,可以首先通过该搜索入口查询该号码对应的使用者身份信息,在查询到之后,再确定是否回电话,这样,同样可以降低用户财产安全等被侵害的概率。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置或系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的装置及系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上对本发明所提供的号码信息数据库的建立方法及系统,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (12)

1.一种号码信息数据库的建立方法,其特征在于,包括:
对网络中的网页进行抓取;
根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,所述抽取规则的生成方法为:根据训练样本网页的HTML代码创建DOM树;通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;将所述最小循环单元的父节点确定为用户评论列表节点,记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则;
保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
2.根据权利要求1所述的方法,其特征在于,所述对网络中的网页进行抓取包括:
对网络中特定站点下的网页进行抓取;
所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。
3.根据权利要求2所述的方法,其特征在于,还包括:
通过机器学习的方式获取所述特定站点对应的抽取规则。
4.根据权利要求3所述的方法,其特征在于,所述通过机器学习的方式获取所述特定站点对应的抽取规则包括:
从一特定站点中提取预置数量的网页作为训练样本;
根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;
如果存在,则根据训练样本网页的HTML代码创建DOM树;
通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;
将所述最小循环单元的父节点确定为用户评论列表节点;
记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则,将所述路径抽取规则确定为该特定站点对应的抽取规则。
5.根据权利要求4所述的方法,其特征在于,所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;
根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
6.根据权利要求4所述的方法,其特征在于,还包括:
使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;
所述根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息包括:
根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;
根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;
根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
7.一种号码信息数据库的建立系统,其特征在于,包括:
网页抓取单元,用于对网络中的网页进行抓取;
信息抽取单元,用于根据预置的抽取规则从抓取到的网页中抽取出目标号码及其对应的使用者身份信息,所述抽取规则的生成方法为:根据训练样本网页的HTML代码创建DOM树;通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;将所述最小循环单元的父节点确定为用户评论列表节点,记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则;
保存单元,用于保存所述抽取出的目标号码及其对应的使用者身份信息,建立号码信息数据库。
8.根据权利要求7所述的系统,其特征在于,所述网页抓取单元包括:
特定站点网页抓取子单元,用于对网络中特定站点下的网页进行抓取;
所述信息抽取单元包括:
特定站点网页信息抽取子单元,用于针对同一特定站点下的网页,根据预置的该特定站点对应的抽取规则,从该特定站点下的网页中抽取出目标号码及其对应的使用者身份信息。
9.根据权利要求8所述的系统,其特征在于,还包括:
机器学习单元,用于通过机器学习的方式获取所述特定站点对应的抽取规则。
10.根据权利要求9所述的系统,其特征在于,所述机器学习单元包括:
训练样本获取子单元,用于从一特定站点中提取预置数量的网页作为训练样本;
判断子单元,用于根据预置的电话号码特征,判断训练样本网页中是否存在电话号码;
DOM树创建子单元,用于如果存在,则根据训练样本网页的HTML代码创建DOM树;
计算子单元,用于通过计算DOM树中各个节点之间的编辑距离,获取其中的最小循环单元;
节点确定子单元,用于将所述最小循环单元的父节点确定为用户评论列表节点;
路径记录子单元,用于记录DOM树中从根节点到所述用户评论列表节点的路径,生成路径抽取规则,将所述路径抽取规则确定为该特定站点对应的抽取规则。
11.根据权利要求10所述的系统,其特征在于,所述信息抽取单元包括:
第一用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述站点的其他网页中抽取出目标号码,以及用户评论信息;
第一信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
12.根据权利要求10所述的系统,其特征在于,还包括:
URL抽取规则生成单元,用于使用正则表达式,对相同的路径抽取规则对应的网页的统一资源定位符URL进行归一化,生成URL抽取规则;
所述信息抽取单元包括:
URL匹配子单元,用于根据所述URL抽取规则,从所述站点的其他网页中抽取URL特征相匹配的网页;
第二用户评论信息抽取子单元,用于根据所述路径抽取规则,从所述相匹配的网页中抽取出目标号码,以及用户评论信息;
第二信息确定子单元,用于根据所述用户评论信息中包含的特征词,确定所述目标号码对应的使用者身份信息。
CN201210110151.3A 2012-04-13 2012-04-13 号码信息数据库的建立方法及系统 Active CN102663105B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210110151.3A CN102663105B (zh) 2012-04-13 2012-04-13 号码信息数据库的建立方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210110151.3A CN102663105B (zh) 2012-04-13 2012-04-13 号码信息数据库的建立方法及系统

Publications (2)

Publication Number Publication Date
CN102663105A CN102663105A (zh) 2012-09-12
CN102663105B true CN102663105B (zh) 2017-10-17

Family

ID=46772596

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210110151.3A Active CN102663105B (zh) 2012-04-13 2012-04-13 号码信息数据库的建立方法及系统

Country Status (1)

Country Link
CN (1) CN102663105B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104253898B (zh) * 2013-06-28 2017-05-24 腾讯科技(深圳)有限公司 电话号码处理方法、装置及浏览器客户端
US10140265B2 (en) 2013-06-28 2018-11-27 Tencent Technology (Shenzhen) Co., Ltd. Apparatuses and methods for phone number processing
CN103399872B (zh) * 2013-07-10 2016-09-28 北京奇虎科技有限公司 对网页抓取进行优化的方法和装置
CN103399874B (zh) * 2013-07-10 2016-12-28 北京奇虎科技有限公司 对同一域名下网页抓取进行优化的方法和装置
CN104636340A (zh) * 2013-11-06 2015-05-20 腾讯科技(深圳)有限公司 网页url过滤方法、装置及系统
CN104869264A (zh) * 2014-02-20 2015-08-26 联想(北京)有限公司 一种监听诈骗电话并加入电话会议的方法和设备
US11115529B2 (en) 2014-04-07 2021-09-07 Google Llc System and method for providing and managing third party content with call functionality
US20150287099A1 (en) * 2014-04-07 2015-10-08 Google Inc. Method to compute the prominence score to phone numbers on web pages and automatically annotate/attach it to ads
CN104199851B (zh) * 2014-08-11 2018-05-08 北京奇虎科技有限公司 通过黄页信息提取电话号码的方法及云端服务器
CN105550183A (zh) * 2014-10-30 2016-05-04 北京搜狗科技发展有限公司 一种网页中识别信息的标识方法及电子设备
CN105744203A (zh) * 2014-12-09 2016-07-06 阿里巴巴集团控股有限公司 身份识别方法及装置
CN104506731B (zh) * 2014-12-26 2016-04-20 北京奇虎科技有限公司 陌生来电的提示方法和装置
CN104866517A (zh) * 2014-12-30 2015-08-26 智慧城市信息技术有限公司 一种抓取网页内容的方法及装置
CN104731976B (zh) * 2015-04-14 2018-03-30 海量云图(北京)数据技术有限公司 数据表中隐私数据的发现与分类方法
CN106302936B (zh) * 2015-05-18 2019-10-25 腾讯科技(深圳)有限公司 一种用户标识的标记方法、装置和系统
CN106875076A (zh) * 2015-12-10 2017-06-20 中国移动通信集团公司 建立外呼质量模型、外呼模型及外呼评价的方法及系统
CN105472162B (zh) * 2015-12-28 2019-02-05 联想(北京)有限公司 一种信息处理方法及电子设备
CN105763713A (zh) * 2016-01-19 2016-07-13 浙江鹏信信息科技股份有限公司 一种基于互联网技术和通信技术相结合的骚扰电话拦截方法
CN106713579B (zh) * 2016-05-05 2020-04-28 腾讯科技(深圳)有限公司 一种电话号码识别方法及装置
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN106357912B (zh) * 2016-09-28 2020-02-28 北京奇虎科技有限公司 一种来去电处理方法和装置
US10469424B2 (en) 2016-10-07 2019-11-05 Google Llc Network based data traffic latency reduction
CN107222865B (zh) * 2017-04-28 2019-08-13 北京大学 基于可疑行为识别的通讯诈骗实时检测方法和系统
CN108650390A (zh) * 2018-05-10 2018-10-12 联想(北京)有限公司 一种信息处理方法和装置
CN110309421B (zh) * 2019-06-20 2021-10-22 北京奇艺世纪科技有限公司 一种ugc内容质量评估方法、装置及电子设备

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040066920A1 (en) * 2001-08-31 2004-04-08 Vandermeijden Tom R. Method and apparatus for automatically populating a contact database in a mobile communication device
CN101145231A (zh) * 2006-09-15 2008-03-19 北京酷讯科技有限公司 基于搜索引擎的定向广告推送方法
CN101287039A (zh) * 2007-04-13 2008-10-15 北京网方通信技术有限公司 一种来电显示方法、网络设备及通信终端
CN101304575B (zh) * 2008-06-13 2015-04-22 Tcl天一移动通信(深圳)有限公司 一种自动匹配来电号码或来短信号码的方法及通讯终端
CN102402520A (zh) * 2010-09-10 2012-04-04 中华电信股份有限公司 个人化电话簿系统及其应用方法以及电话信息搜集方法

Also Published As

Publication number Publication date
CN102663105A (zh) 2012-09-12

Similar Documents

Publication Publication Date Title
CN102663105B (zh) 号码信息数据库的建立方法及系统
CN106791229A (zh) 号码的标识方法和装置
CN104270521B (zh) 对来电号码进行处理的方法和移动终端
CN104199851B (zh) 通过黄页信息提取电话号码的方法及云端服务器
CN102663106B (zh) 建立号码信息数据库的方法及系统
CN101506769B (zh) 基于数据对象和到标识目的的用户连接之间的确定关系生成搜索结果
CN103218431B (zh) 一种能识别网页信息自动采集的系统
US20090019019A1 (en) Method and system for obtaining information
CN102591867B (zh) 一种基于移动设备位置的搜索服务方法
CN107040863A (zh) 实时业务推荐方法及系统
CN106033579A (zh) 数据处理方法和装置
CN102073960A (zh) 一种网站营销过程中运行效果的评估方法
CN103841123A (zh) 号码信息获取方法和获取系统、云端号码信息系统
CN103605715A (zh) 用于多个数据源的数据整合处理方法和装置
CN105743988A (zh) 网络用户追踪实现方法、装置及系统
US20130179421A1 (en) System and Method for Collecting URL Information Using Retrieval Service of Social Network Service
US9665574B1 (en) Automatically scraping and adding contact information
CN107590265A (zh) 一种基于网络爬虫的网站行政归属识别方法
CN104580638B (zh) 一种电话号码标注的方法及装置
CN106936807A (zh) 一种恶意操作的识别方法和装置
CN110502680A (zh) 一种中标公告相关字段的抽取方法及装置
CN109978114A (zh) 数据处理方法、装置、服务器及存储介质
CN109462582A (zh) 文本识别方法、装置、服务器及存储介质
CN106202297A (zh) 识别用户兴趣的方法及装置
CN110611689B (zh) 一种信息识别方法、设备及计算机可读存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant