CN111339390A - 一种基于固定电话爬取信息的方法、计算设备及存储介质 - Google Patents
一种基于固定电话爬取信息的方法、计算设备及存储介质 Download PDFInfo
- Publication number
- CN111339390A CN111339390A CN202010125544.6A CN202010125544A CN111339390A CN 111339390 A CN111339390 A CN 111339390A CN 202010125544 A CN202010125544 A CN 202010125544A CN 111339390 A CN111339390 A CN 111339390A
- Authority
- CN
- China
- Prior art keywords
- processed
- fixed telephone
- crawling
- address information
- information corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/957—Browsing optimisation, e.g. caching or content distillation
- G06F16/9574—Browsing optimisation, e.g. caching or content distillation of access to content, e.g. by caching
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Telephonic Communication Services (AREA)
Abstract
本发明实施例提供一种基于固定电话爬取信息的方法、计算设备及存储介质,包括:获取源数据,源数据包括M个固定电话,M为大于1的整数;将源数据缓存到第一消息队列;从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息;在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。本发明实施例,可以通过计算机来自动爬取固定电话对应的地址信息,克服现有技术中通过人工获取效率低的技术问题。
Description
技术领域
本发明涉及计算机应用领域,具体涉及一种基于固定电话爬取信息的方法、计算设备及存储介质。
背景技术
随着商业的蓬勃发展,很多公司能够处理和存储的固定电话数据越来越多,很多公司为了高效地发现目标用户,需要对固定电话信息数据进行处理以获得固定电话对应的详细地址信息,对目标用户进行精准营销。目前,获得固定电话详细地址信息的方法有通过拨打114查询,登陆网站网页链接进行查询以及去营业厅查询等。但是,这些方法通过人工逐个获取固定电话地址信息,在需要获取大量固定电话对应的详细地址信息时,效率低下。
发明内容
本发明实施例提供了一种基于固定电话爬取信息的方法、计算设备及存储介质,通过计算机来自动爬取固定电话对应的地址信息,克服现有技术中通过人工获取效率低的技术问题。
本发明实施例第一方面提供一种基于固定电话爬取信息的方法,包括:
获取源数据,所述源数据包括M个固定电话,M为大于1的整数;
将所述源数据缓存到第一消息队列;
从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息;
在爬取到所述待处理的固定电话对应的地址信息时,将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入第一数据库。
作为一种可能的实施方式,所述方法还包括:
在未爬取到所述待处理的固定电话对应的地址信息时,存储用于指示所述待处理的固定电话爬取失败的指示信息。
作为一种可能的实施方式,在爬取到所述待处理的固定电话对应的地址信息时,将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入第一数据库之前,所述方法还包括,按照所述第一消息队列中固定电话的缓存次序,将所述待处理的固定电话的爬取结果缓存到第二消息列队,所述爬取结果包括爬取到的所述待处理的固定电话对应的地址信息或用于指示所述待处理的固定电话爬取失败的指示信息;
所述将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入所述第一数据库,包括:将所述第一消息队列中的第i个电话号码和所述第二消息队列中第i个爬取结果存储到所述第一数据库,i为不大于M的整数。
作为一种可能的实施方式,所述爬取结果包括指示标识和内容,所述第i个爬取结果的标识用于指示所述第i个电话号码爬取成功或失败,所述第i个爬取结果的内容包括爬取到的所述第i个电话号码对应的地址信息。
作为一种可能的实施方式,所述将所述源数据缓存到第一消息队列,包括:
将从第二数据库中读取到的固定电话存入第一消息队列;
判断所述第一消息队列的数据量是否大于第一阈值;
若所述第一消息队列中的数据量大于第一阈值,执行所述从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息的操作;
若所述第一消息队列的数据量不大于所述第一阈值,则执行所述将从第二数据库中读取到的固定电话存入第一消息队列。
作为一种可能的实施方式,所述待处理的固定电话包括N个固定电话,N为不小于2的正整数,所述从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息,包括:
将所述N个固定电话分别输入到N个目标网站;
在第一目标网站上爬取输入到所述第一目标网站的固定电话对应的地址信息,其中,所述第一目标网站为所述N个目标网站中的任意一个目标网站。
作为一种可能的实施方式,所述在目标网站上爬取所述待处理的固定电话对应的地址信息,包括:
在目标网站上爬取所述待处理的固定电话对应搜索结果;
从所述搜索结果中提取所述待处理的固定电话对应的地址信息,所述地址信息包括地址、企业的名称、企业简介中的至少一种。
本发明实施例第二方面提供一种基于固定电话爬取信息的计算设备,包括用于执行第一方面或第一方面的任一实施例提供的基于固定电话爬取信息的方法的单元。
本发明实施例第三方面提供一种基于固定电话爬取信息的计算设备,包括处理器、存储器、第一缓存器和第二缓存器,所述处理器、所述存储器所述第一缓存器和所述第二缓存器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器、所述第一缓存器和所述第二缓存器用于调用所述程序指令执行第一方面或第一方面的任一实施例提供的基于固定电话爬取信息的方法。
第四方面提供了一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行第一方面或第一方面的任一实施例提供的基于固定电话爬取信息的方法。
第五方面提供了一种应用程序,该应用程序用于在运行时执行第一方面或第一方面的任一实施例提供的基于固定电话爬取信息的方法。
本发明实施例中,获取源数据后,将源数据缓存到第一消息队列,其中,源数据包括M个固定电话,M为大于1的整数,再从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息,最后,在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。因为消息队列的响应速度比数据库的响应速度快,故在爬取过程中使用消息队列缓存固定电话,可以减少爬虫程序读取数据的时间,提高爬取信息的效率。可见,通过此基于固定电话爬取信息的方法,可以有效获取固定电话对应的地址信息。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于固定电话爬取信息的系统架构示意图;
图2是本发明实施例提供的一种基于固定电话爬取信息的方法的流程示意图;
图3是本发明实施例提供的一种将源数据缓存到第一消息队列的流程示意图;
图4是本发明实施例提供的一种将待处理的固定电话和待处理的固定电话的爬取结果存入第一数据库的示意说明图;
图5A是本发明实施例提供的一种基于固定电话爬取信息的计算设备的结构示意图;
图5B是本发明实施例提供的另一种基于固定电话爬取信息的计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种基于固定电话爬取信息的方法、计算设备及存储介质,用于通过计算机来自动爬取固定电话对应的地址信息,克服现有技术中通过人工获取效率低的技术问题。以下分别进行详细说明。
首先对本申请中涉及的技术术语或概念进行描述。
(1)、爬虫:即网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一个提取网页内容的程序。爬虫的基本流程为向目标网站发送请求,获取目标网站的服务器的响应内容,再从响应内容中提取目标内容。
(2)、消息队列(message queue):在消息的传输过程中保存消息的容器。在使用消息队列之后,用户的请求数据发送给消息队列之后立即返回,再由消息队列的消费者进程从消息队列中获取数据,异步写入数据库。由于消息队列服务器处理速度快于数据库,因此响应速度得到大幅改善。
请参阅图1,图1是本发明实施例提供的一种基于固定电话爬取信息的系统架构示意图,该系统可以包括计算设备11、代理服务器12、网站的服务器13、第一数据库14、第二数据库15等。其中:
第二数据库15可以存储源数据,该源数据包括多个固定电话。
计算设备11可以从第二数据库15中获取源数据,即M个固定电话,M为大于1的整数。进而,计算设备11可以将从第二数据库15中获取到的固定电话存入第一消息队列,再从第一消息队列中在读取待处理的固定电话,通过代理服务器12在网站的服务器13上爬取待处理的固定电话对应的地址信息。当代理服务器12爬取到待处理的固定电话对应的地址信息时,会将待处理的固定电话和待处理的固定电话对应的地址信息传送给计算设备11。最后,计算设备11将待处理的固定电话和待处理的固定电话对应的爬取结果存储到第一数据库14。应理解,第一数据库14和第二数据库15可以是同一数据库或不同数据库,也可以由计算设备11的存储器来存储,还可以由计算设备11的外部存储器来存储。
在另一些实施例中,计算设备11也可以不通过代理服务器12而直接在网站的服务器上爬取待处理的固定电话对应的地址信息。
网站的服务器13可以是具有信息检索能力的服务器,以检索到固定电话对应的地址信息,例如,百度的服务器、谷歌的服务器、114网站的服务器等。计算设备11或代理服务器12可以向网站的服务器13的检索输入框输入待处理的固定电话,网站的服务器13可以对待处理的固定电话进行检索,得到包括该待处理的固定电话的检索结果,检索结果可以包括一条或多条网站链接,计算设备11或代理服务器12可以从检索结果获取到待处理的固定电话对应的地址信息,也可以从检索结果包括的一条或多条网站链接中获取到待处理的固定电话对应的地址信息。
在一些实施例中,计算设备11可以包括主处理模块和多个子处理模块,主处理模块可以读取第一消息队列中的电话号码,将第一消息队列中的电话号码分发给各个子处理模块,进而各个子处理模块可以分别在目标网站上爬取其接收到的固定电话对应的地址信息,以实现并行爬取多个电话号码分别对应的地址信息。
在一些实施例中,上述主处理模块和多个子处理模块可以是计算设备11的通过软件划分的功能单元/模块。
在另一些实施例中,上述主处理模块和多个子处理模块也就可以分别为不同的硬件。
计算设备11可以是服务器、云服务器、服务器、计算机设备、终端设备等,此处不再赘述。
请参阅图2,图2是本发明实施例提供的一种基于固定电话爬取信息的方法的流程示意图。该基于固定电话爬取信息的方法可以由图1中的计算设备执行或实现,该方法可以包括以下部分或全部步骤。
101、获取源数据,源数据包括M个固定电话,M为大于1的整数。
计算设备可以从第二数据库中获取源数据,该源数据包括M个固定电话,M为大于1的整数。源数据可以是公司内部存储的数据,也可以是通过外部业务系统获得的数据,例如,目标客户的固定电话,本实施例不作限定。其中,源数据可以是需要检测的数据中的所有数据,也可以是需要检测的数据中的部分数据。
计算设备获取到源数据之后,可以通过ETL(数据仓库技术)对源数据进行预处理,例如抽取(extract)、转换(transform)以及加载(load)处理等,得到处理好的源数据。其中,本实施例对ETL工具不作限定。具体地,计算设备可以先提取源数据中数据地址长度大于等于10,地址中包含数字的数据,然后将处理好的源数据存入第二数据库中。
102、将源数据缓存到第一消息队列。
为了减少计算设备从第二数据库中读取源数据的耗时,计算设备在获取到源数据之后,将源数据缓存到第一消息队列。可选地,该源数据也可以为第二数据库中的预处理后的源数据。具体地,如图3所示,计算设备将源数据缓存到第一消息队列的具体实现可以包括如下部分或全部步骤:
S1021:计算设备可以将从第二数据库中读取到的固定电话存入第一消息队列;
S1022:判断第一消息队列的数据量是否大于第一阈值。若第一消息队列中的数据量大于第一阈值,计算设备执行步骤S103,否则,重新执行S1021。
可选地,固定电话按照被读取的先后次序依次存储到第一消息队列。第一消息队列可以存储在第一缓存器中,此时第一阈值可以是第一缓存器中存储单元的个数,其中,一个存储单元用于存储一个固定电话。
103、从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息。
计算设备将源数据缓存到第一消息队列后,若第一消息队列中的数据量大于第一阈值,从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息。其中,待处理的固定电话可以是一个固定电话,也可以是多个固定电话。其中,固定电话对应的地址信息包括该固定电话所属主体(如,公司/个人)的地址、所属主体的名称、所属主体简介等中的至少一种。
当待处理的固定电话包括多个固定电话时,计算设备可以依次爬取多个固定电话分别对应的地址信息,也可以同时爬取多个固定电话分别对应的地址信息。
例如,待处理的固定电话包括N个固定电话,N为不小于2的正整数。计算设备可以将N个固定电话分别输入到N个目标网站。其中,N个目标网站可以是相同的网站,例如,N个目标网站均为百度、谷歌或114等;也可以是不同的网站,具体地,固定电话1输入到百度的检索输入框、固定电话2输入到谷歌的检索输入框。进而,谷歌的服务器可以对固定电话1进行检索,百度的服务器可以对固定电话2进行检索,得到该固定电话的检索结果。在一种实现中,检索结果可以包括该固定电话和该固定电话关联的信息,比如,固定电话所属的公司/个人、所属的公司/个人的地址、所属的公司/个人的简介等,计算设备可以从检索结果中提取出固定电话的地址信息。在另一种实现中,检索结果可以包括与该固定电话关联的一条或多条链接、链接的缩略信息等,计算设备可以分别从检索结果获取到该固定电话对应的地址信息;也可以从检索结果包括的一条或多条网站链接中获取到该固定电话对应的地址信息,例如,其中,链接的缩略信息用于概述该链接中的内容,或为该链接中的内容的开始部分,链接中的内容的开始部分可以包括该固定电话关联的信息。
在一些实施例中,计算设备从检索结果中获取固定电话对应的地址信息的一种具体实现可以是:计算设备可以通过关键词从检索结果查找到各个关键词对应的信息,进而,将各个关键词对应的信息作为固定电话对应的地址信息。其中,关键词可以包括“企业名称”、“地址”、“简介”、“法人”等。不限于上述实现方式,计算设备还可以通过其他实现方式从检索结果提取固定电话对应的地址信息,如,通过命名实体识别(Named EntityRecognition,NER)识别检索结果中的实体,如人名、地名、组织机构名等,进而,分别得到固定电话所属的法人、地址、组织机构名称等。
104、在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。
计算设备在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。
在一些实施例中,计算设备将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库的一种具体实现可以是:计算设备在目标网站上爬取到待处理的固定电话对应搜索结果,提取搜索结果中待处理的固定电话对应的地址信息后,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。
在一些实施例中,计算设备将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库的另一种具体实现可以是:计算设备按照第一消息队列中固定电话的缓存次序,先将待处理的固定电话的爬取结果缓存到第二消息列队,再将第一消息队列中的待处理的固定电话和第二消息队列中的待处理的固定电话的爬取结果存入第一数据库,其中,待处理的固定电话的爬取结果包括爬取到的待处理的固定电话对应的地址信息或用于指示待处理的固定电话爬取失败的指示信息。
在图2所描述的基于固定电话爬取信息的方法中,计算设备获取源数据后,将源数据缓存到第一消息队列,其中,源数据包括M个固定电话,M为大于1的整数,再从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息,最后,在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。因为消息队列的响应速度比数据库的响应速度快,故计算设备在爬取过程中使用消息队列缓存固定电话,可以减少爬虫程序读取数据的时间,提高爬取信息的效率。可见,通过此基于固定电话爬取信息的方法,可以有效获取固定电话对应的地址信息。
在一些实施例中,为了将第一消息队列中的待处理的固定电话和第二消息队列中的待处理的固定电话的爬取结果有规律的存入数据库中,具体步骤可以是:
计算设备按照第一消息队列中固定电话的缓存次序,将待处理的固定电话的爬取结果缓存到第二消息列队,其中,在计算设备爬取到固定电话的地址信息时,该固定电话对应的爬取结果为该固定电话的地址信息,在计算设备爬取失败时,该固定电话对应的爬取结果为用于指示该固定电话爬取失败的指示信息。
可选地,爬取结果还可以包括指示标识和内容,第i个爬取结果的标识用于指示第i个电话号码爬取成功或失败,第i个爬取结果的内容包括爬取到的第i个电话号码对应的地址信息。具体地,如图4所示,计算设备可以将爬取到待处理的固定电话对应的地址信息的指示标识设置为1,将爬取失败的指示标识设置为0,再将第一消息队列中的第i个电话号码和第二消息队列中第i个爬取结果存储到第一数据库,i为不大于M的整数。可选地,还可以将爬取到待处理的固定电话对应的地址信息的爬取结果和爬取失败的爬取结果分别存入不同的表中,再存入第一数据库中。
请参阅图5A,图5A是本发明实施例提供的一种基于固定电话爬取信息的计算设备的结构示意图。如图5A所示,该计算设备可以包括主处理模块、主存储器、第一缓存器、第二缓存器和多个子处理模块,上述各个器件可以通过总线进行数据通信。其中,上述主处理模块可以是计算设备的主处理器,多个子处理模块可以是计算设备内的硬件资源,主处理器可以调用各个硬件资源,以加速爬取固定电话对应的地址信息。
主处理模块,用于获取源数据,源数据包括M个固定电话,M为大于1的整数;
第一缓存器,用于将源数据缓存到第一消息队列;
子处理模块,用于从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息;
主存储器,用于在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。
在一个实施例中,主存储器还可以用于:
在未爬取到待处理的固定电话对应的地址信息时,存储用于待处理的固定电话爬取失败的指示信息。
在一个实施例中,在主存储器在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库之前,第二缓存器用于:
按照第一消息队列中固定电话的缓存次序,将得到的待处理的固定电话的爬取结果缓存到第二消息列队,爬取结果包括爬取到的待处理的固定电话对应的地址信息或用于待处理的固定电话爬取失败的指示信息;
主存储器具体用于:
将第一消息队列中的第i个电话号码和第二消息队列中第i个爬取结果存储到第一数据库,i为不大于M的整数。
具体地,子处理模块得到的爬取结果包括指示标识和内容,第i个爬取结果的标识用于指示第i个电话号码爬取成功或失败,第i个爬取结果的内容包括爬取到的第i个电话号码对应的地址信息。
在一个实施例中,第一缓存器将源数据缓存到第一消息队列,包括:
第一缓存器将从第二数据库中读取到的固定电话存入第一消息队列;
主处理模块判断第一消息队列的数据量是否大于第一阈值;
若第一消息队列中的数据量大于第一阈值,执行子处理模块从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息的操作;
若第一消息队列的数据量不大于第一阈值,则执行第一缓存器将从第二数据库中读取到的固定电话存入第一消息队列。
在一个实施例中,待处理的固定电话包括N个固定电话,N为不小于2的正整数,子处理模块从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息,包括:
多个子处理模块将N个固定电话分别输入到N个目标网站;
第一子处理模块在第一目标网站上爬取输入到第一目标网站的固定电话对应的地址信息,其中,第一目标网站为N个目标网站中的任意一个目标网站,第一子处理模块为多个子处理模块中的任意一个子处理模块。
在一个实施例中,子处理模块在目标网站上爬取待处理的固定电话对应的地址信息,包括:
在目标网站上爬取待处理的固定电话对应搜索结果;
从搜索结果中提取待处理的固定电话对应的地址信息,地址信息包括地址、企业的名称、企业简介中的至少一种。
请参阅图5B,图5B是本发明实施例提供的另一种基于固定电话爬取信息的计算设备的结构示意图。如图5B所示,该基于固定电话爬取信息的计算设备可以包括处理器301、存储器302、第一缓存器303和第二缓存器304。处理器301可以是一个通用中央处理器(CPU)或多个CPU,单块或多块图形处理器(GPU),微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本发明方案程序执行的集成电路。存储器302可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(electricallyerasable programmable read-onlymemory,EEPROM)、只读光盘(compact disc read-onlymemory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器302可以是独立存在,也可以和处理器301集成在一起。第一缓存器303和第二缓存器304可以是独立于处理器301之外的缓存器,也可以是处理器301中的高速缓存器。其中:
存储器302中存储有一组程序代码,处理器301、第一缓存器303和第二缓存器304用于调用存储器302中存储的程序代码执行以下操作:
处理器301获取源数据,源数据包括M个固定电话,M为大于1的整数;
第一缓存器303将源数据缓存到第一消息队列;
处理器301从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息;
处理器301在爬取到待处理的固定电话对应的地址信息时,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库。
在一个实施例中,处理器301还用于调用存储器302中存储的程序代码执行以下操作:
在未爬取到待处理的固定电话对应的地址信息时,存储用于待处理的固定电话爬取失败的指示信息。
在一个实施例中,在爬取到待处理的固定电话对应的地址信息,将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库之前,第二缓存器304用于:
按照第一消息队列中固定电话的缓存次序,将待处理的固定电话的爬取结果缓存到第二消息列队,爬取结果包括爬取到的待处理的固定电话对应的地址信息或用于待处理的固定电话爬取失败的指示信息;
处理器301将待处理的固定电话和待处理的固定电话对应的地址信息存入第一数据库,包括:将第一消息队列中的第i个电话号码和第二消息队列中第i个爬取结果存储到第一数据库,i为不大于M的整数。
在一个实施例中,处理器301得到的爬取结果包括:
指示标识和内容,第i个爬取结果的标识用于指示第i个电话号码爬取成功或失败,第i个爬取结果的内容包括爬取到的第i个电话号码对应的地址信息。
在一个实施例中,第一缓存器303将源数据缓存到第一消息队列包括:
将从第二数据库中读取到的固定电话存入第一消息队列;
判断第一消息队列的数据量是否大于第一阈值;
若第一消息队列中的数据量大于第一阈值,执行处理器301从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息的操作;
若第一消息队列的数据量不大于第一阈值,则执行第一缓存器303将从第二数据库中读取到的固定电话存入第一消息队列。
在一个实施例中,待处理的固定电话包括N个固定电话,N为不小于2的正整数,处理器301从第一消息队列中读取待处理的固定电话,在目标网站上爬取待处理的固定电话对应的地址信息包括:
将N个固定电话分别输入到N个目标网站;
在第一目标网站上爬取输入到第一目标网站的固定电话对应的地址信息,其中,第一目标网站为N个目标网站中的任意一个目标网站。
在一个实施例中,处理器301在目标网站上爬取待处理的固定电话对应的地址信息,包括:
在目标网站上爬取待处理的固定电话对应搜索结果;
从搜索结果中提取待处理的固定电话对应的地址信息,地址信息包括地址、企业的名称、企业简介中的至少一种。
上述基于固定电话爬取信息的计算设备还可以用于执行前述方法实施例中执行的各种方法,不再赘述。
在一个实施例中提供了一种可读存储介质,该可读存储介质用于存储应用程序,应用程序用于在运行时执行图2的基于固定电话爬取信息的方法。
在一个实施例中提供了一种应用程序,该应用程序用于在运行时执行图2的基于固定电话爬取信息的方法。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(read-only memory,ROM)、随机存取器(random accessmemory,RAM)、磁盘或光盘等。
以上对本发明实施例进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种基于固定电话爬取信息的方法,其特征在于,包括:
获取源数据,所述源数据包括M个固定电话,M为大于1的整数;
将所述源数据缓存到第一消息队列;
从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息;
在爬取到所述待处理的固定电话对应的地址信息时,将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入第一数据库。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在未爬取到所述待处理的固定电话对应的地址信息时,存储用于指示所述待处理的固定电话爬取失败的指示信息。
3.根据权利要求2所述的方法,其特征在于,所述在爬取到所述待处理的固定电话对应的地址信息时,将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入第一数据库之前,所述方法还包括,按照所述第一消息队列中固定电话的缓存次序,将所述待处理的固定电话的爬取结果缓存到第二消息列队,所述爬取结果包括爬取到的所述待处理的固定电话对应的地址信息或用于指示所述待处理的固定电话爬取失败的指示信息;
所述将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入所述第一数据库,包括:将所述第一消息队列中的第i个电话号码和所述第二消息队列中第i个爬取结果存储到所述第一数据库,i为不大于M的整数。
4.根据权利要求3所述的方法,其特征在于,所述爬取结果包括指示标识和内容,所述第i个爬取结果的标识用于指示所述第i个电话号码爬取成功或失败,所述第i个爬取结果的内容包括爬取到的所述第i个电话号码对应的地址信息。
5.根据权利要求1-2所述的方法,其特征在于,所述将所述源数据缓存到第一消息队列,包括:
将从第二数据库中读取到的固定电话存入第一消息队列;
判断所述第一消息队列的数据量是否大于第一阈值;
若所述第一消息队列中的数据量大于第一阈值,执行所述从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息的操作;
若所述第一消息队列的数据量不大于所述第一阈值,则执行所述将从第二数据库中读取到的固定电话存入第一消息队列。
6.根据权利要求4所述的方法,其特征在于,所述待处理的固定电话包括N个固定电话,N为不小于2的正整数,所述从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息,包括:
将所述N个固定电话分别输入到N个目标网站;
在第一目标网站上爬取输入到所述第一目标网站的固定电话对应的地址信息,其中,所述第一目标网站为所述N个目标网站中的任意一个目标网站。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述在目标网站上爬取所述待处理的固定电话对应的地址信息,包括:
在目标网站上爬取所述待处理的固定电话对应搜索结果;
从所述搜索结果中提取所述待处理的固定电话对应的地址信息,所述地址信息包括地址、企业的名称、企业简介等中的至少一种。
8.一种基于固定电话爬取信息的的计算设备,其特征在于,包括:
主处理模块,用于获取源数据,所述源数据包括M个固定电话,M为大于1的整数;
第一缓存器,用于将所述源数据缓存到第一消息队列;
子处理模块,用于从所述第一消息队列中读取待处理的固定电话,在目标网站上爬取所述待处理的固定电话对应的地址信息;
主存储器,用于在爬取到所述待处理的固定电话对应的地址信息时,将所述待处理的固定电话和所述待处理的固定电话对应的地址信息存入第一数据库。
9.一种基于固定电话爬取信息的计算设备,其特征在于,包括处理器、存储器、第一缓存器和第二缓存器,所述处理器、所述存储器所述第一缓存器和所述第二缓存器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器、所述第一缓存器和所述第二缓存器用于调用所述程序指令执行如权利要求1-7任一项所述的基于固定电话爬取信息的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的基于固定电话爬取信息的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125544.6A CN111339390A (zh) | 2020-02-27 | 2020-02-27 | 一种基于固定电话爬取信息的方法、计算设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010125544.6A CN111339390A (zh) | 2020-02-27 | 2020-02-27 | 一种基于固定电话爬取信息的方法、计算设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111339390A true CN111339390A (zh) | 2020-06-26 |
Family
ID=71183896
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010125544.6A Pending CN111339390A (zh) | 2020-02-27 | 2020-02-27 | 一种基于固定电话爬取信息的方法、计算设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111339390A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117857697A (zh) * | 2024-03-07 | 2024-04-09 | 福州市数字产业互联科技有限责任公司 | 一种基于固定电话线路的智能语音拨号识别方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333976B1 (en) * | 2004-03-31 | 2008-02-19 | Google Inc. | Methods and systems for processing contact information |
CN104199851A (zh) * | 2014-08-11 | 2014-12-10 | 北京奇虎科技有限公司 | 通过黄页信息提取电话号码的方法及云端服务器 |
CN104506731A (zh) * | 2014-12-26 | 2015-04-08 | 北京奇虎科技有限公司 | 陌生来电的提示方法和装置 |
CN105120046A (zh) * | 2015-09-10 | 2015-12-02 | 陈包容 | 一种根据新增号码的备注信息创建通讯录的方法及装置 |
CN106648445A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 用于爬虫的数据存储方法及装置 |
CN107563715A (zh) * | 2017-07-19 | 2018-01-09 | 天津云脉三六五科技有限公司 | 外贸集客营销系统及方法 |
-
2020
- 2020-02-27 CN CN202010125544.6A patent/CN111339390A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7333976B1 (en) * | 2004-03-31 | 2008-02-19 | Google Inc. | Methods and systems for processing contact information |
CN104199851A (zh) * | 2014-08-11 | 2014-12-10 | 北京奇虎科技有限公司 | 通过黄页信息提取电话号码的方法及云端服务器 |
CN104506731A (zh) * | 2014-12-26 | 2015-04-08 | 北京奇虎科技有限公司 | 陌生来电的提示方法和装置 |
CN105120046A (zh) * | 2015-09-10 | 2015-12-02 | 陈包容 | 一种根据新增号码的备注信息创建通讯录的方法及装置 |
CN106648445A (zh) * | 2015-10-30 | 2017-05-10 | 北京国双科技有限公司 | 用于爬虫的数据存储方法及装置 |
CN107563715A (zh) * | 2017-07-19 | 2018-01-09 | 天津云脉三六五科技有限公司 | 外贸集客营销系统及方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117857697A (zh) * | 2024-03-07 | 2024-04-09 | 福州市数字产业互联科技有限责任公司 | 一种基于固定电话线路的智能语音拨号识别方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10452691B2 (en) | Method and apparatus for generating search results using inverted index | |
US9507821B2 (en) | Mail indexing and searching using hierarchical caches | |
CN107391632B (zh) | 数据库存储处理方法、装置、计算设备及计算机存储介质 | |
CN106909595B (zh) | 一种数据迁移方法及装置 | |
CN109284321B (zh) | 数据加载方法、装置、计算设备和计算机可读存储介质 | |
CN109992469B (zh) | 一种合并日志的方法及装置 | |
CN111553652B (zh) | 业务处理方法及装置 | |
CN111506795A (zh) | 一种招标信息获取方法及装置 | |
CN112860412B (zh) | 业务数据处理方法、装置、电子设备及存储介质 | |
US11477158B2 (en) | Method and apparatus for advertisement anti-blocking | |
CN111339390A (zh) | 一种基于固定电话爬取信息的方法、计算设备及存储介质 | |
US10797724B2 (en) | Method and apparatus for processing data | |
CN114637969A (zh) | 目标对象的鉴权方法及装置 | |
CN110955856B (zh) | 一种网页加载方法、装置、服务器及存储介质 | |
CN108846141B (zh) | 一种离线缓存加载方法及装置 | |
CN113419792A (zh) | 一种事件处理方法、装置、终端设备和存储介质 | |
CN115525686B (zh) | 一种映射配置数据的缓存方法及装置 | |
CN113411395B (zh) | 访问请求路由方法、装置、计算机设备和存储介质 | |
CN113806249B (zh) | 一种对象存储有序列举方法、装置、终端及存储介质 | |
CN114996557B (zh) | 服务稳定性确定方法、装置、设备以及存储介质 | |
CN114579573B (zh) | 信息检索方法、装置、电子设备以及存储介质 | |
CN114969596A (zh) | 提高网页加载速度的方法和装置 | |
CN111290803B (zh) | 数据预加载方法、装置、设备及存储介质 | |
CN114296730A (zh) | 页面信息处理方法、装置及电子设备 | |
CN107273419B (zh) | 一种系统读取数据方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |