CN104199851A - 通过黄页信息提取电话号码的方法及云端服务器 - Google Patents

通过黄页信息提取电话号码的方法及云端服务器 Download PDF

Info

Publication number
CN104199851A
CN104199851A CN201410392539.6A CN201410392539A CN104199851A CN 104199851 A CN104199851 A CN 104199851A CN 201410392539 A CN201410392539 A CN 201410392539A CN 104199851 A CN104199851 A CN 104199851A
Authority
CN
China
Prior art keywords
webpage
yellow page
page information
telephone number
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410392539.6A
Other languages
English (en)
Other versions
CN104199851B (zh
Inventor
周楠
谢冉
李振博
常富洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Qihoo Technology Co Ltd
Original Assignee
Beijing Qihoo Technology Co Ltd
Qizhi Software Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Qihoo Technology Co Ltd, Qizhi Software Beijing Co Ltd filed Critical Beijing Qihoo Technology Co Ltd
Priority to CN201410392539.6A priority Critical patent/CN104199851B/zh
Publication of CN104199851A publication Critical patent/CN104199851A/zh
Application granted granted Critical
Publication of CN104199851B publication Critical patent/CN104199851B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Abstract

本发明提供一种通过黄页信息提取电话号码的方法及云端服务器,所述方法包括:根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。

Description

通过黄页信息提取电话号码的方法及云端服务器
技术领域
本发明涉及通信技术,尤其涉及一种通过黄页信息提取电话号码的方法及云端服务器。
背景技术
随着通信技术的发展,被叫用户并不能够直接根据号码直接判断来电者的身份和其他资料,如此导致无法分出骚扰电话或者具有正当用意的电话,进而无法对陌生号码做出恰当的判断。
现有技术中,在进行来电显示或去电显示时,一般是根据本地通讯录中保存的联系人信息来获取的,或者是一些企业电话的拥有者为自己的电话号码设置的相关联的信息,并进行展现给用户。但是有些来电或者去电对应的电话号码可能是某快餐店的客户电话、某快递公司的客服电话或者一些企业的电话等。对于这些电话而言,用户不会将其作为联系人将相关信息保存在通讯录中,且这些电话的拥有者一般也不会自己的电话号码设置相关联的信息。
鉴于此,如何使用户在拨打陌生号码或者接听陌生号码的过程中获知该号码的黄页信息成为当前需要解决的技术问题。
发明内容
本发明提供了一种通过黄页信息提取电话号码的方法及云端服务器,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
第一方面,本发明提供一种通过黄页信息提取电话号码的方法,包括:
根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;
其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
可选的,所述黄页信息包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
可选的,根据预设的训练号码,建立获取黄页信息的至少一个模型/规则,包括:
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
可选的,所述搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
可选的,所述根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,包括:
在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,
采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,
采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
可选的,所述对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
对每一个训练号码,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息。
可选的,所述方法还包括:
定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
第二方面,本发明还提供一种显示电话号码黄页信息的方法,包括:
对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
可选的,所述目标电话号码的黄页信息包括:
目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
第三方面,本发明还提供一种云端服务器,包括:
模型建立模块,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
黄页信息获取模块,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
数据库生成模块,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库;
其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
可选的,所述黄页信息包括:
电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
可选的,所述模型建立模块,具体用于
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
可选的,所述模型建立模块,具体用于
采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
可选的,所述模型建立模块,具体用于:
在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,
采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,
采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
可选的,所述模型建立模块,具体用于
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
可选的,所述云端服务器还包括:数据更新模块;
所述数据更新模块,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,所述模型建立模块还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
第四方面,本发明还提供一种显示电话号码黄页信息的装置,包括:
目标电话获取模块,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
判断模块,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码;
发送模块,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
接收模块,用于接收所述云端服务器发送的所述目标电话号码的黄页信息;
黄页信息显示模块,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
可选的,所述目标电话信息的黄页信息包括:
目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
由上述技术方案可知,本发明提出了一种通过黄页信息提取电话号码的方法及云端服务器。通过根据预设的训练号码,建立获取黄页信息的模型/规则,当接听/拨打陌生电话时,通过模型/规则从陌生电话的相关网页中提取陌生电话号码的黄页信息,并将信息显示在用户的通信终端上,该方法解决了用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息,进而判断该号码的安全性,并做出恰当的处理。
附图说明
图1A为本发明一实施例提供的通过黄页信息提取电话号码的方法的流程图;
图1B为本发明一实施例中提供的获取电话号码的相关网页的示意图;
图2A为本发明另一实施例提供的通过黄页信息提取电话号码的方法的部分流程图;
图2B为本发明一实施例提供的获取电话号码的相关网页中的关键词/信息的示意图;
图3A为本发明另一实施例提供的显示电话号码黄页信息的方法流程图;
图3B至图3F为本发明另一实施例提供的显示电话号码黄页信息的示意图;
图4为本发明另一实施例提供的云端服务器的结构示意图;
图5为本发明另一实施例提供的显示电话号码黄页信息的装置的结构示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
图1A示出了本发明一实施例提供的通过黄页信息提取电话号码的方法的流程图,如图1A所示,所述方法包括下述步骤:
S101、根据预设的训练号码,建立获取黄页信息的至少一个模型/规则。
举例来说,训练号码可为移动终端中白名单中的号码,或者,云端服务器获取的白名单中的号码,例如,400XX8888、10086、10010、114、12580等等。
可理解的是,本实施例中的训练号码可为预先获知黄页信息的号码,训练号码可为在现有的黄页库中随机抽样的一百万、两百万个电话号码。本实施例是通过这些已知的号码以及黄页信息来建立获取该训练号码的黄页信息的至少一个模型/规则。
一个模型/规则可为获取一类公司主页的公司名称、公司地址、公司电话等黄页信息;另一个模型/规则可为获取58同城、赶集网等主页中的公司名称、公司地址、电话等黄页信息。
S102、接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息。
举例来说,通过采用已建立的模型/规则,定向抓取与电话号码对应的网页中的内容,进而可将与电话号码对应的网页中的与该电话号码相关联的数据抓取,并整理,获得该电话号码的黄页信息。
在具体应用中,还可对至少一个模型/规则从所述电话号码的相关网页中抓取所述电话号码的黄页信息进行筛选,自动筛选符合的数据作为该电话号码的黄页信息。
本实施例中客户端发送的电话号码可为客户端监测该客户端连接的移动终端中的来电/去电事件中的不属于移动终端的通讯录数据库中的电话号码。
客户端发送的电话号码可为前述的训练号码,或者,可为其它电话号码如陌生的移动电话号码、陌生的固定电话号码等等,本实施例不对其进行限定。
电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页和/或高流量网站的网页等等,本实施例的相关网页,可为将电话号码在搜索中搜索,排在前N个的网页可作为相关网页,如图1B所示,10086对应的前4个的网页可作为10086的相关网页。
在具体应用中,还可在接收客户端发送的电话号码之后确定所述电话号码是否属于现有的黄页库中的电话号码,如果是,则从黄页库中获取该电话号码的黄页信息,如果该电话号码不属于黄页库中的电话号码,则可直接执行上述步骤S102。
现有的黄页库中存放有已知的多个电话号码以及多个号码对应的黄页信息。
S103、根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;
黄页数据库中包括训练号码及训练号码的黄页信息,还包括将其它电话号码及通过模型/规则获取其它电话号码的黄页信息。
前述的黄页信息可包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址等。本实施例仅为举例说明黄页信息的内容,不限定黄页信息的内容。
另外,本实施例中提及的客户端发送的电话号码可包括:移动电话号码、固定电话号码和公共服务类的电话号码等等,本实施例不对其进行限制;
前述步骤S101中的训练号码可包括:移动电话号码、固定电话号码和公共服务类的电话号码等,本实施例中的训练号码可为人工获取有训练号码的黄页信息,还可为其他方式自动获取的训练号码的黄页信息等,本实施例不限定获取训练号码的黄页信息的方式。
本实施例中的通过黄页信息提取电话号码的方法,通过把一些企业或者一些服务行业等的电话号码以及与所述电话号码相匹配的相关黄页信息进行关联,生成黄页数据库,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
在具体应用中,前述的方法可在步骤S103之后,还可包括图中未示出的步骤S104:
S104、定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,前述的步骤S101还可具体为下述的图中未示出的步骤S101’:
S101’、根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
上述方法不仅实现了对训练号码的数量以及所述训练号码所对应的黄页信息进行更新,同时还能够更新获取黄页信息的模型/规则,进而提高获取电话号码的黄页信息的准确率。
图2A示出了本发明另一实施例提供的通过黄页信息提取电话号码的方法的部分流程图,如图2A所示,本实施例中的方法可为前述图1A中的步骤S101的具体实现过程:
S1011、针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息。
例如,10086的部分黄页信息可为:中国移动,北京的客户服务热线,对该部分黄页信息进行分词处理之后,得到该训练号码对应的部分特征词/特征信息可为:“中国移动”、“北京”、“客户服务热线”。
S1012、搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
举例来说,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可采用条件随机场模型获取所述分词处理后的文本内容的关键词/关键信息。
或者,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可采用关键词正则方式获取分词处理后的文本内容的关键词/关键信息等。
或者,针对每一个训练号码,对所述网页中的文本内容进行分词处理后,可通过统计方式建立对应训练号码的关键词/关键信息,例如,在图2B中,10086一个相关网页中,出现10086的词/信息可包括“中国移动”、“北京”、“服务与支持”、“客户服务热线”、“营业厅”等等。在10086的多个相关网页中出现“中国移动”、“北京”、“客户服务热线”等次数较多,则可将“中国移动”、“北京”、“客户服务热线”作为10086的关键词/关键信息。
S1013、将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配。
结合上述10086的关键词和特征词,关键词为“中国移动”、“北京”、“客户服务热线”,特征词为“中国移动”、“北京”、“客户服务热线”等。
S1014、如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性。
由于10086的关键词和特征词匹配,则结合上述10086对应的关键词和特征词,则确定在图2B所对应的网页中位置信息,和词性(如动词、名词、形容词等)。
位置信息如图2B中圆圈所表表示的位置,以及还可确定关键词的颜色、上下文关系,是否着重处理等信息。
S1015、根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
结合上述10086的相关中的位置信息、词性等信息,可建立一个模型,该模型对应获取服务支持类公司的网页中的标题、具体说明的第一个关键信息、子标题栏的说明等信息。
所述电话号码的相关网页包括:公司主页、微博/论坛网页(如大众点评网、b2b网站)、服务网站的网页(如中国移动、中国联通)、聚合类网站的网页(如携程网、途牛网)、和高流量网站的网页(如苏宁易购)。
具体来说,所述训练号码都为已知号码,并且与所述号码相关联的黄页信息也已知。上述方法能够提高获取黄页信息的效率,同时提高获取黄页信息的准确率。
上述方法训练的模型/规则,具体为通过定向抓取一些网站/网页进行页面解析,把网页信息中的关键词/关键信息,以及该关键词/关键信息的上下文关系全都找到,进而与特征词/特征信息进行匹配。
在具体应用中,上述步骤S1012还可以包括如下图中未示出的子步骤:
A01、采用网络爬虫获取出现所述训练号码的网页的URL(Uniform/Universal Resource Locator,统一资源定位符),根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
在具体应用中,上述步骤A01可以举例来说,可以通过蜘蛛或者爬虫算法定向抓取一些网站/网页信息进行页面解析,网络爬虫可分为传统爬虫和聚焦爬虫。传统爬虫从一个或若干初始网页的URL开始,获得初始网页的URL;在抓取网页的过程中,不断从当前页面上抽取新的网页的URL放入队列,直到满足设定的停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列;然后,根据一定的搜索策略从队列中选择下一步要抓取的网页的URL,重复上述过程,直到达到某一设定条件时停止。另外,在实际应用中,所有被爬虫抓取的网页将会被系统存储,进行一定的分析和过滤,并建立索引,以便之后的查询和检索。
可理解的是,网络爬虫又名网络蜘蛛(Web spider),是现有技术中的一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成,本发明对此不作详细介绍。
A02、根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
在本实施例中,上述步骤A102中根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容具体可以通过以下例举的三种方式来获取:
第一、在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容,该方式主要是针对没有防抓取策略的站点可以采用这种方法;
第二、采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容,该方式可以应用于由于有些站点使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,需要利用浏览器渲染的方法得到完整的页面结构。爬虫系统配备了几种内核的渲染模块,例如IE内核、Gecko(火狐)内核、Chrome内核等;
第三、采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。该方式主要是为了防止爬虫系统频繁访问某个站点服务器导致被该站点服务器封IP的情况,爬虫系统可以通过代理服务器从站点服务器处下载网页,采用代理服务器下载网页可以确保抓取的及时性和不间断性。
A03、对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
另外,在具体应用中为提高爬虫的性能,还可在使用爬虫的过程中与爬虫对应的任务调度器可将抓取任务通过gearman传递给下游的工作进程处理。例如,使用gearman作为进程间消息队列,通过gearman进行进程通讯来实现平行扩展和高并发的处理。具体地,以时间为调度单位的网页都以有序集合的方式存放在redis中,通过调用redis接口实现精确调度网页监控任务。redis是一个key-value类型的内存数据库,整个数据库统统加载在内存当中进行操作,定期通过异步操作把数据库数据输出(flush)到硬盘上进行保存。因为是纯内存操作,redis的性能非常出色,每秒可以处理超过10万次读写操作,从而提高了爬虫系统的性能。
此外,本实施例所述的云端服务器可以释放出网络爬虫,获取因特网上的网页,云端服务器对获取到的网页进行分词,形成以关键词为索引的索引表;其中,索引表用于根据关键词索引查找网页,可以实现快速高效的网页搜索,索引表中存储有关键词、关键词对应的URL。上述以关键词为索引的索引表的结构如下举例的方式:
本实施例中的通过黄页信息提取电话号码的方法可识别某个快餐店的号码或者是某项服务的号码的黄页信息,通过识别这些不常见的电话号码,使用户在日常生活中有了极大的便捷。
以下为更详细的说明前述步骤S101中建立至少一个模型的内容,以下举例来说:
针对每一个训练号码,并且已知该训练号码的黄页名称,获取该训练号码的搜索结果,对搜索结果中的文本内容进行分词和词性标注,获取分词后的能够组合成黄页信息的某一个词或符号(包含词性信息),或者,获取分词后的能够组合成黄页信息的某几个词或者符合,将该训练号码的能够组合成黄页信息的词或符号形成一个集合。每一个训练号码对应一个能够生成黄页信息的词的集合;
通过大量已知训练号码作为样本进行训练,可以获知所有集合中每个词可以组合成黄页信息或者某几个词/符号能够组合为黄页信息的统计特征和规律,这些统计特征和规律为通过训练号码获取的信息,这些信息可以通过条件随机场模型来体现,进而通过训练号码,建立获取黄页信息的至少一个模型可为条件随机场模型。
在具体应用中,根据大量的训练号码,采用梯度下降法或者拟牛顿法训练得到上述的条件随机场模型。
此外,结合上述对步骤S101的说明,以下可对前述步骤S102中接收客户端发送的一个未知的电话号码后,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息的过程具体说明如下:
对于一个未知的号码,获取该号码的搜索结果,提取搜索结果中的文本内容,对提取的文本内容进行分词和词性标注,进而采用步骤S101中通过训练方式建立的模型计算分词后的词的组合概率。
例如,分词后的文本内容中,某一个词或者多个词组合可构成黄页信息,则可认为是该一个词或多个词的组合为一个有效的黄页信息的组合方式,通过上述方式,找出组合概率最大的词。
由于搜索结果中的每一个词,或者,词与词之间的组合都可能构成该号码的黄页信息,故需要对搜索结果的文本内容进行分词处理,并对词性进行标注。
实际应用中,找出分词后的文本内容中组合概率最大的词组合的过程可理解为分词后的文本内容中的词的匹配过程,在本实施例中可采用维特比算法(Viterbi算法)获取分词后的文本内容中词的匹配信息即获得分词后的文本内容中各词的组合概率。
在本实施例中,Viterbi算法可进行角色自动标注,例如,从所有可能的标注序列中选出组合概率最大的标注序列作为最终标注结果,例如,可结合下述的公式进行具体说明。
假定W是分词后的Token序列(即未登录词识别前的分词结果),T是W某个可能的角色标注序列,其中T#为最终标注结果,即组合概率最大的角色序列。则有:
W=(w1,w2,......,wm),T=(t1,t2,......,tm),m>0,
T # = arg max T P ( T | W )   贝叶斯公式(1)
根据上述贝叶斯公式(1),有如下公式(2):
P(T|W)=P(T)P(W|T)/P(W)  (2)
对于一个特定的Token序列来说,P(W)是一个常数,因此根据公式(1)和(2)可以得到如下公式(3):
T # = arg max T P ( T ) P ( W | T ) - - - ( 3 )
假定wi为观察值,角色ti为状态值,则W是观察值序列,而T为隐藏在W后的状态值序列。下面将引入隐马尔科夫模型来计算P(T)P(W|T),因此,有如下公式(4)和(5):
P ( T ) P ( W | T ) ≈ Π t = 1 m p ( w i | t i ) p ( t i | t i - 1 ) - - - ( 4 )
T # = arg max T Π t = 1 m p ( w i | t i ) p ( t i | t i - 1 ) - - - ( 5 )
由上述公式(4)和(5)可以得到如下公式(6):
T # = arg max T { Σ i = 1 m [ ln p ( w i | t i ) + ln p ( t i | t i - 1 ) ] } - - - ( 6 )
因此,角色自动标注问题就转换为对上述公式(5)获取最小化的计算,利用Viterbi算法可以求解T#
由此,可以采取公式(6)对识别出来的候选机构名根据其组成部分进行最终评分,进而,可理解最终评分高的可为组合概率最大的标注序列即最终标注结果。
图3A示出了本发明一实施例提供的显示电话号码黄页信息的方法流程图,如图3A所示,所述方法包括以下步骤:
S201、对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码。
可理解的是,本实施例中的目标电话号码可为终端中的不属于终端通讯录数据库中的电话号码。
S202、如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息。
举例来说,所述目标电话号码的黄页信息可包括:
目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
另外,应说明的是,如果目标电话号码为终端的通讯录数据库中的号码,本实施例无需获取该目标电话号码的黄页信息。
S203、在所述通信终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
结合图3B所示,在显示电话号码的区域显示黄页信息,本实施例的黄页信息可以和当前的来电秀结合,采用不同的颜色标记。本实施例不对其进行限定,可根据实际需要在显示电话号码的同时显示黄页信息,且在显示界面中根据用户喜好设置黄页信息的显示位置及颜色。
上述显示电话号码黄页信息的方法可以应用在来电秀,以及骚扰电话提醒等手机安全产品中。例如,对于单个用户而言,除了给自己的电话号码上传一些头像、昵称等相关信息之外,还可以允许用户针对其他用户的电话号码进行相关信息的上报操作,这种针对其他用户的电话号码进行相关信息的上报,一般是针对一些用于进行恶意操作的电话号码进行的,例如,有些电话号码是用于进行“只响一声式”骚扰的,一旦用户回拨则可能会蒙受经济损失,还有些电话号码的拥有者可能是一些房产经纪人、保险经纪人等等,一些用户可能不想接收这类人群的电话,因此,可以允许用户针对这些类型的电话号码进行举报性质的操作,如图3C所示。相应的,可以在服务器端对这些通过用户举报获取到的相关信息进行记录,这样,在用户接收到这样的来电时,就可以将这些信息展现给当前用户,当前用户可以据此选择是否接听,如图3D和图3F所示。
对于企业用户而言,其能够保存的与其电话号码相关的信息可以不限于企业的名称、logo等信息,还可以包括一些最近的促销活动等信息,这些信息都可以一并显示给接收到或者正在拨打该电话的用户,使得用户能够获得更丰富的信息,如图3E所示。另外,本发明实施例也可以应用在搜索产品,onebox产品中,用户通过在网页的搜索框或者查询框中可以查询本发明实施例中已经通过黄页信息获取到的号码信息等。
上述步骤通过以下举例来具体说明,当用户终端接收到一个电话号码010-62***时,云端服务器会收到用户终端中的一个装置上传的该电话号码,并将此号码在黄页数据库中查找与此号码相对应的黄页信息,当黄页数据库中没有时,可查询与所述号码相关的一些网页,采用训练的至少一个模型/规则提取网页中与此号码相关联的信息,比如,网页中显示此号码的公司名称,传真,地址等,通过训练的模型/规则就会把与此号码相对应的网页中所含有的黄页信息全部提取出来,作为此号码的黄页信息,进而将该黄页信息下发至用户终端,显示电话号码的同时,显示该电话号码的黄页信息。
需要说明的是,如果需要获取目标电话号码的黄页信息,则在步骤S201中监测来电/去电事件,且来电/去电事件的目标电话号码为陌生号码时,可延迟目标电话号码的界面显示和响铃时间,在步骤S202中获得目标电话号码的黄页信息之后,可在目标电话号码的界面显示,并响铃。
上述步骤S201中对用户使用终端过程中的来电/去电事件进行监测的具体过程如下,此过程仅用于解释本实施例。
上述显示电话号码黄页信息的方法中,由于终端中的操作系统一般会为应用程序开放一些接口,供应用程序从操作系统中获取所需的信息,因此,在本实施例中,为了能够对终端中的来电/去电事件进行监测,就可以利用操作系统的这一特点,在操作系统中对应用程序进行注册,这样,当操作系统广播通知消息时,应用程序就能够收听到这种通知消息,并从中获取所需的信息。
例如,当接收来电时,终端的操作系统就会广播该来电消息,并携带来电号码,这样,应用程序就能够监测到该事件,并从中获取到来电的电话号码,进而,应用程序还可以通过终端的操作系统提供的接口,读取到用户在终端中保存的通讯录中的数据。用户作为主叫拨打电话时,也可以通过类似的方式监控到去电事件,并从本地获取到被叫方的电话号码等信息。
需要说明的是,在本实施例中,所谓的目标电话号码,对于来电而言,就是主叫方的电话号码,对于去电而言,就是被叫方的电话号码。例如,当前用户的用户甲,当用户甲接收到用户乙的来电时,用户乙的电话号码就此次来电事件的目标电话号码,当用户甲给用户丙打电话时,用户丙的电话号码就是此次去电事件的目标电话号码。
采用此方法获取目标电话的相关黄页信息,节省了终端的存储空间,并且还可以展示给用户更多目标电话的相关黄页信息,另外,这种从云端服务器获取电话号码的黄页信息的好处还在于,有些来电或者去电的目标电话号码可能是从本地通讯录中所没有记录的,这样,如果仅依据通讯录中记载的信息来进行信息的获取,会无法获取到黄页信息,但是,从云端服务器进行获取时,只要是这些目标电话号码是活跃的,并且在搜索结果中已被收录,采用本发明实施例的方法就可以很快捷的把与这个电话号码相关联的黄页信息识别出来,并进行标注,当用户接听/拨打此电话号码时,与此电话号码对应的黄页信息就会显示在用户通信终端的显示界面上。
图4示出了本发明另一实施例提供的云端服务器的结构示意图,如图4所示,上述云端服务器包括:
模型建立模块41,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
黄页信息获取模块42,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
举例来说,黄页信息可包括:电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;前述的电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页。
数据库生成模块43,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库;
其中,前述的训练号码为预先获取有黄页信息的号码,前述的训练号码具体包括:移动电话号码、固定电话号码和公共服务类的电话号码;前述的电话号码包括所述训练号码,具体包括移动电话号码、固定电话号码和公共服务类的电话号码。
本实施例中的云端服务器,通过把一些企业或者一些服务行业等的电话号码以及与所述电话号码相匹配的相关黄页信息进行关联,生成黄页数据库,使得用户在拨打/接听陌生号码的过程中,能够及时获知该号码的黄页信息。
在具体应用中,前述的模型建立模块41,具体用于:针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
在另一种可能的实现方式中,前述的模型建立模块41还具体用于:
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
在另一种可能的实现方式中,前述的模型建立模块41还具体用于:
采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息。
上述模型建立模块中根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,通过以下三种方式可以实现:
第一、在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
第二、采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
第三、采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容。
例如,前述的模型建立模块41可用于,针对每一个训练号码,并且已知该训练号码的黄页名称,获取该训练号码的搜索结果,对搜索结果中的文本内容进行分词和词性标注,获取分词后的能够组合成黄页信息的某一个词或符号(包含词性信息),或者,获取分词后的能够组合成黄页信息的某几个词或者符合,将该训练号码的能够组合成黄页信息的词或符号形成一个集合。每一个训练号码对应一个能够生成黄页信息的词的集合;
通过大量已知训练号码作为样本进行训练,可以获知所有集合中每个词可以组合成黄页信息或者某几个词/符号能够组合为黄页信息的统计特征和规律,这些统计特征和规律为通过训练号码获取的信息,这些信息可以通过条件随机场模型来体现,进而通过训练号码,建立获取黄页信息的至少一个模型可为条件随机场模型。
在具体应用中,根据大量的训练号码,采用梯度下降法或者拟牛顿法训练得到上述的条件随机场模型。
在具体应用中,前述的云端服务器还可包括图4中未示出的数据更新模块44,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,所述模型建立模块41还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
本实施例的云端服务器可执行前述图1A所示的方法流程,参见上述的描述,本实施例不再详述。
上述云端服务器不仅实现了对训练号码的数量以及所述训练号码所对应的黄页信息进行更新,同时还能够更新获取黄页信息的模型/规则,进而提高获取电话号码的黄页信息的准确率。
图5示出了本发明另一实施例提供的显示电话号码黄页信息的装置的结构示意图,如图5所示,上述显示电话号码黄页信息的装置包括:
目标电话获取模块51,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
判断模块52,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码;
发送模块53,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
举例来说,目标电话信息的黄页信息可包括:目标电话号码所登记的个人或商店名称、行业分类、所述目标电话号码、和/或网站铭牌地址。
接收模块54,用于接收所述云端服务器发送的所述目标电话号码的黄页信息;
黄页信息显示模块55,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
采用上述装置获取目标电话的相关黄页信息,节省了终端的存储空间,并且还可以展示给用户更多目标电话的相关黄页信息,另外,这种从云端服务器获取电话号码相关信息的好处还在于,有些来电或者去电的目标电话号码可能是从本地通讯录中所没有记录的,这样,如果仅依据通讯录中记载的信息来进行信息的获取,会无法获取到相关信息,但是,从云端服务器进行获取时,只要是这些目标电话号码是活跃的,并且在搜索结果中已被收录,采用本实施例的装置就可以很快捷的把与这个电话号码相关联的黄页信息识别出来,并进行标注,当用户接听/拨打此电话号码时,与此电话号码对应的黄页信息就会显示在用户通信终端的显示界面上。
其中,在本发明的所有实施例中,“/”表示“或者”的关系。
最后应说明的是:以上所述各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种通过黄页信息提取电话号码的方法,其特征在于,包括:
根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
接收多个客户端发送的电话号码,采用所述至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
根据所述电话号码,与所述电话号码对应的黄页信息,生成黄页数据库;
其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
2.根据权利要求1所述的方法,其特征在于,所述黄页信息包括:
电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页;
所述方法还包括:定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
3.根据权利要求1所述的方法,其特征在于,根据预设的训练号码,建立获取黄页信息的至少一个模型/规则,包括:
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
4.根据权利要求3所述的方法,其特征在于,所述搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
其中,所述根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容,包括:
在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,所述对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息,包括:
对每一个训练号码,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息。
5.一种显示电话号码黄页信息的方法,其特征在于,包括:
对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
如果目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则从云端服务器获取所述目标电话号码的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
6.一种云端服务器,其特征在于,包括:
模型建立模块,用于根据预设的训练号码,建立获取黄页信息的至少一个模型/规则;
黄页信息获取模块,用于接收多个客户端发送的电话号码,采用所述模型建立模块建立的至少一个模型/规则从所述电话号码的相关网页中提取所述电话号码的黄页信息;
数据库生成模块,用于根据所述电话号码,与所述黄页信息获取模块获取的该电话号码的黄页信息,生成黄页数据库;
其中,所述训练号码为预先获取有黄页信息的号码,所述电话号码包括所述训练号码。
7.根据权利要求6所述的云端服务器,其特征在于,所述黄页信息包括:
电话号码所登记的个人或商店名称、行业分类、电话信息、和/或网站铭牌地址;
所述电话号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述训练号码包括:移动电话号码、固定电话号码和公共服务类的电话号码;
所述电话号码的相关网页包括:公司主页、微博/论坛网页、服务网站的网页、聚合类网站的网页、和/或高流量网站的网页;
所述云端服务器还包括:数据更新模块;
所述数据更新模块,用于定期更新所述训练号码的数量及所述训练号码所对应的黄页信息;
相应地,所述模型建立模块还用于根据更新的训练号码,更新获取黄页信息的至少一个模型/规则。
8.根据权利要求6所述的云端服务器,其特征在于,所述模型建立模块,具体用于:
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
搜索出现所述训练号码的网页,对所述网页中的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
9.根据权利要求8所述的云端服务器,其特征在于,所述模型建立模块,具体用于:
采用网络爬虫获取出现所述训练号码的网页的统一资源定位符URL,根据预设算法筛选获取的所述训练号码的网页的URL,获取URL队列,所述URL队列中的URL对应的网页为需要抓取网页中文本内容的网页;
根据所述URL队列,抓取所述URL队列中的URL对应网页中的文本内容;
对抓取的文本内容进行分词处理,获取所述文本内容中的关键词/关键信息;
其中,所述模型建立模块,用于在URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用浏览器渲染方式从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;或者,采用代理服务器从URL对应的站点服务器下载所述网页,获取所述网页中的文本内容;
或者,所述模型建立模块,具体用于:
针对每一个训练号码,获取所述训练号码的黄页信息,将所述训练号码的黄页信息进行分词处理,建立对应所述训练号码的特征词/特征信息;
对每一个训练号码,搜索出现所述训练号码的网页,对该训练号码的网页中的文本内容进行分词处理,采用条件随机场算法获取所述分词处理后的文本内容的关键词/关键信息;
将所述关键词与所述特征词进行匹配,或,将所述特征信息与所述关键信息进行匹配;
如果所述关键词与所述特征词匹配,或者,所述特征信息与所述关键信息匹配,则确定匹配的关键词/关键信息在所述网页中的位置信息、词性;
根据所有训练号码所属的网页中的文本内容、和所述关键词/关键信息在所述网页中的位置信息、词性,建立用于从网页中获取电话号码的黄页信息的至少一个模型/规则。
10.一种显示电话号码黄页信息的装置,其特征在于,包括:
目标电话获取模块,用于对用户使用终端过程中的来电/去电事件进行监测,获取来电/去电事件的目标电话号码;
判断模块,用于判断目标电话号码是否为所述终端的通讯录数据库中的号码;
发送模块,用于在所述判断模块确定所述目标电话号码为所述终端的通讯录数据库中不存在的陌生号码,则向云端服务器发送所述目标电话号码,以使所述云端服务器获取与所述目标电话号码对应的黄页信息,所述黄页信息为所述云端服务器从黄页数据库中查找的与所述目标电话号码匹配的黄页信息;在所述黄页数据库中不存在所述目标电话号码匹配的黄页信息时,所述云端服务器采用训练的模型/规则从所述目标电话号码的相关网页中提取的所述目标电话号码的黄页信息;
接收模块,用于接收所述云端服务器发送的所述目标电话号码的黄页信息;
黄页信息显示模块,用于在所述终端中创建显示界面,将所获取的黄页信息显示在所述显示界面中。
CN201410392539.6A 2014-08-11 2014-08-11 通过黄页信息提取电话号码的方法及云端服务器 Active CN104199851B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410392539.6A CN104199851B (zh) 2014-08-11 2014-08-11 通过黄页信息提取电话号码的方法及云端服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410392539.6A CN104199851B (zh) 2014-08-11 2014-08-11 通过黄页信息提取电话号码的方法及云端服务器

Publications (2)

Publication Number Publication Date
CN104199851A true CN104199851A (zh) 2014-12-10
CN104199851B CN104199851B (zh) 2018-05-08

Family

ID=52085144

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410392539.6A Active CN104199851B (zh) 2014-08-11 2014-08-11 通过黄页信息提取电话号码的方法及云端服务器

Country Status (1)

Country Link
CN (1) CN104199851B (zh)

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105049341A (zh) * 2015-09-10 2015-11-11 陈包容 给新增即时通讯号码自动添加备注信息的方法及装置
CN105120046A (zh) * 2015-09-10 2015-12-02 陈包容 一种根据新增号码的备注信息创建通讯录的方法及装置
CN105120045A (zh) * 2015-09-10 2015-12-02 陈包容 根据新增联系人姓名的备注信息创建通讯录的方法及装置
CN105245674A (zh) * 2015-09-10 2016-01-13 陈包容 根据新增电邮账号的备注信息创建通讯录的方法及装置
CN105491127A (zh) * 2015-11-30 2016-04-13 北京奇虎科技有限公司 通话界面信息展示、推送方法和装置及其系统
CN105677319A (zh) * 2015-12-28 2016-06-15 小米科技有限责任公司 一种建立黄页通讯标识库的方法和装置
CN105718501A (zh) * 2014-12-19 2016-06-29 三星电子株式会社 电子装置及其用户简介估计方法
CN105791499A (zh) * 2016-02-17 2016-07-20 北京金山安全软件有限公司 一种处理电话号码的方法、装置及电子设备
CN106020585A (zh) * 2015-03-16 2016-10-12 腾讯科技(深圳)有限公司 一种提供黄页信息的方法和装置
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
US9648153B2 (en) 2015-03-13 2017-05-09 Xiaomi Inc. Method and device for incoming call notification
CN106982284A (zh) * 2017-04-12 2017-07-25 北京奇虎科技有限公司 骚扰电话号码的识别方法及装置
CN107273531A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质
WO2018214795A1 (zh) * 2017-05-26 2018-11-29 阿里巴巴集团控股有限公司 通话提示方法及装置、系统
CN108959646A (zh) * 2018-07-30 2018-12-07 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、系统、设备及存储介质
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
CN109711984A (zh) * 2019-01-23 2019-05-03 北京市天元网络技术股份有限公司 一种基于催收的贷前风险监控方法及装置
CN110348998A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 基于黄页数据的用户欺诈风险预测的方法及装置
CN110516140A (zh) * 2019-08-15 2019-11-29 北京泰迪熊移动科技有限公司 一种信息处理方法、设备及计算机存储介质
CN111178071A (zh) * 2019-12-26 2020-05-19 北京明略软件系统有限公司 履历信息的处理方法、装置及计算机可读存储介质
CN111339390A (zh) * 2020-02-27 2020-06-26 深圳市云智融科技有限公司 一种基于固定电话爬取信息的方法、计算设备及存储介质
CN111353084A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 黄页信息获取方法、装置及电子设备
US11785128B2 (en) 2019-01-22 2023-10-10 Huawei Technologies Co., Ltd. Caller identification display method based on application, and terminal device

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1806243A (zh) * 2003-06-17 2006-07-19 Google公司 用于企业列表搜索的搜索查询类别划分
US20070297395A1 (en) * 2006-06-22 2007-12-27 Tp Lab Inc. Apparatus and method for automatically refreshing a display of a telephone
JP2010128917A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及系统
CN103841123A (zh) * 2012-11-20 2014-06-04 中国电信股份有限公司 号码信息获取方法和获取系统、云端号码信息系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1806243A (zh) * 2003-06-17 2006-07-19 Google公司 用于企业列表搜索的搜索查询类别划分
US20070297395A1 (en) * 2006-06-22 2007-12-27 Tp Lab Inc. Apparatus and method for automatically refreshing a display of a telephone
JP2010128917A (ja) * 2008-11-28 2010-06-10 Nippon Telegr & Teleph Corp <Ntt> 情報伝播ネットワーク抽出方法、情報伝播ネットワーク抽出装置、及び情報伝播ネットワーク抽出プログラム
CN102663105A (zh) * 2012-04-13 2012-09-12 北京搜狗科技发展有限公司 号码信息数据库的建立方法及系统
CN103841123A (zh) * 2012-11-20 2014-06-04 中国电信股份有限公司 号码信息获取方法和获取系统、云端号码信息系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王欢等: "基于文本分类的林业Web 黄页分类系统", 《中国期刊全文数据库 计算机系统应用》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105718501A (zh) * 2014-12-19 2016-06-29 三星电子株式会社 电子装置及其用户简介估计方法
CN105718501B (zh) * 2014-12-19 2020-08-11 三星电子株式会社 电子装置及其用户简介估计方法
US9648153B2 (en) 2015-03-13 2017-05-09 Xiaomi Inc. Method and device for incoming call notification
CN106020585A (zh) * 2015-03-16 2016-10-12 腾讯科技(深圳)有限公司 一种提供黄页信息的方法和装置
CN105245674A (zh) * 2015-09-10 2016-01-13 陈包容 根据新增电邮账号的备注信息创建通讯录的方法及装置
CN105120045A (zh) * 2015-09-10 2015-12-02 陈包容 根据新增联系人姓名的备注信息创建通讯录的方法及装置
CN105049341A (zh) * 2015-09-10 2015-11-11 陈包容 给新增即时通讯号码自动添加备注信息的方法及装置
CN105120046A (zh) * 2015-09-10 2015-12-02 陈包容 一种根据新增号码的备注信息创建通讯录的方法及装置
CN105491127A (zh) * 2015-11-30 2016-04-13 北京奇虎科技有限公司 通话界面信息展示、推送方法和装置及其系统
CN105677319A (zh) * 2015-12-28 2016-06-15 小米科技有限责任公司 一种建立黄页通讯标识库的方法和装置
CN105677319B (zh) * 2015-12-28 2019-02-12 小米科技有限责任公司 一种建立黄页通讯标识库的方法和装置
CN105791499A (zh) * 2016-02-17 2016-07-20 北京金山安全软件有限公司 一种处理电话号码的方法、装置及电子设备
CN106021439A (zh) * 2016-05-16 2016-10-12 腾讯科技(深圳)有限公司 一种对通信号码的处理方法及装置
CN106982284A (zh) * 2017-04-12 2017-07-25 北京奇虎科技有限公司 骚扰电话号码的识别方法及装置
WO2018214795A1 (zh) * 2017-05-26 2018-11-29 阿里巴巴集团控股有限公司 通话提示方法及装置、系统
CN107273531A (zh) * 2017-06-28 2017-10-20 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质
CN107273531B (zh) * 2017-06-28 2021-01-08 百度在线网络技术(北京)有限公司 电话号码分类识别方法、装置、设备及存储介质
CN108959646A (zh) * 2018-07-30 2018-12-07 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、系统、设备及存储介质
CN108959646B (zh) * 2018-07-30 2021-03-12 携程旅游信息技术(上海)有限公司 自动验证通信号码的方法、系统、设备及存储介质
CN111353084A (zh) * 2018-12-24 2020-06-30 北京奇虎科技有限公司 黄页信息获取方法、装置及电子设备
CN109710765A (zh) * 2018-12-28 2019-05-03 厦门笨鸟电子商务有限公司 一种基于自然语言处理的公司行业分类计算方法
US11785128B2 (en) 2019-01-22 2023-10-10 Huawei Technologies Co., Ltd. Caller identification display method based on application, and terminal device
CN109711984A (zh) * 2019-01-23 2019-05-03 北京市天元网络技术股份有限公司 一种基于催收的贷前风险监控方法及装置
CN110348998A (zh) * 2019-06-27 2019-10-18 上海淇馥信息技术有限公司 基于黄页数据的用户欺诈风险预测的方法及装置
CN110516140A (zh) * 2019-08-15 2019-11-29 北京泰迪熊移动科技有限公司 一种信息处理方法、设备及计算机存储介质
CN111178071A (zh) * 2019-12-26 2020-05-19 北京明略软件系统有限公司 履历信息的处理方法、装置及计算机可读存储介质
CN111339390A (zh) * 2020-02-27 2020-06-26 深圳市云智融科技有限公司 一种基于固定电话爬取信息的方法、计算设备及存储介质

Also Published As

Publication number Publication date
CN104199851B (zh) 2018-05-08

Similar Documents

Publication Publication Date Title
CN104199851A (zh) 通过黄页信息提取电话号码的方法及云端服务器
CN107070779B (zh) 一种信息处理方法和装置
EP3316586B1 (en) Method and device for extracting keywords from bullet screen information and pushing related information including a web link
EP2680258B1 (en) Providing audio-activated resource access for user devices based on speaker voiceprint
CN105630876B (zh) 跨应用的信息获取方法和装置
CN104270521B (zh) 对来电号码进行处理的方法和移动终端
CN101847160B (zh) 一种移动终端个性化页面推送方法和装置
CN102663105A (zh) 号码信息数据库的建立方法及系统
CN101996234A (zh) 词云音频导航
CN102474902A (zh) 移动设备可视输入系统和方法
CN104580758A (zh) 来电评论信息获取方法和装置
CN105491127A (zh) 通话界面信息展示、推送方法和装置及其系统
CN105681566A (zh) 一种来电号码处理方法和装置
CN101322408A (zh) 无触发信号的交互式电视
JP6289420B2 (ja) 発信経路情報提供方法およびシステム
CN101976265A (zh) 自动判断电话号码并添加联系人的方法
CN113038153A (zh) 金融直播违规检测方法、装置、设备及可读存储介质
US9330392B2 (en) Collecting interest data from conversations conducted on a mobile device to augment a user profile
WO2016101761A1 (zh) 关联账户的更新方法与系统
CN101354706A (zh) 一种收集网页信息的方法及装置
CN104135569A (zh) 进行求助的方法、处理求助的方法及智能移动设备
CN102447788A (zh) 一种通过手机浏览器阅读彩信的方法及装置
CN104506696B (zh) 一种移动终端通讯录联系人信息输入提示的方法及系统
KR101597248B1 (ko) VoIP 기반 음성 통화 시 음성 인식을 이용한 광고 제공 시스템 및 방법
CN110740212A (zh) 基于智能语音技术的通话接听方法、装置及电子设备

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220708

Address after: Room 801, 8th floor, No. 104, floors 1-19, building 2, yard 6, Jiuxianqiao Road, Chaoyang District, Beijing 100015

Patentee after: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Address before: 100088 room 112, block D, 28 new street, new street, Xicheng District, Beijing (Desheng Park)

Patentee before: BEIJING QIHOO TECHNOLOGY Co.,Ltd.

Patentee before: Qizhi software (Beijing) Co., Ltd

TR01 Transfer of patent right