CN110222253A - 一种数据采集方法、设备及计算机可读存储介质 - Google Patents

一种数据采集方法、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN110222253A
CN110222253A CN201910505169.5A CN201910505169A CN110222253A CN 110222253 A CN110222253 A CN 110222253A CN 201910505169 A CN201910505169 A CN 201910505169A CN 110222253 A CN110222253 A CN 110222253A
Authority
CN
China
Prior art keywords
target data
module
data
acquisition
duplicate removal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910505169.5A
Other languages
English (en)
Inventor
沈建男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Harmony Information Technology Ltd By Share Ltd
Original Assignee
Beijing Harmony Information Technology Ltd By Share Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Harmony Information Technology Ltd By Share Ltd filed Critical Beijing Harmony Information Technology Ltd By Share Ltd
Priority to CN201910505169.5A priority Critical patent/CN110222253A/zh
Publication of CN110222253A publication Critical patent/CN110222253A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据采集方法、设备及计算机可读存储介质,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。应用本发明实施例所提供的数据采集方法,无需手动采集数据,可大规模快速采集目标数据。

Description

一种数据采集方法、设备及计算机可读存储介质
技术领域
本发明涉及数据采集领域,尤其涉及一种数据采集方法、设备及计算机可读存储介质。
背景技术
随着信息时代的推进,很多情况下,人们可能需要在网络上采集数据供公司或者个人使用。对于数据采集而言,通常需要较大的数据量,但是传统数据采集的方式是手动在网络上进行采集,然后是手动对数据进行保存,效率很低,占用了大量的时间,十分耗费人力物力。
发明内容
本发明提供一种数据采集方法、设备及计算机可读存储介质,通过智能的数据采集方法对目标数据进行采集。
本发明一方面提供一种数据采集方法,包括:接收含目标数据地址的采集指令;依据所述采集指令,生成请求对象;向所述目标数据地址发送所述请求对象;获得含目标数据的第一响应对象;解析所述含目标数据的第一响应对象,获得所述目标数据。
在一种可实施方式中,所述向所述目标数据地址发送所述请求对象之后,还包括:获得含错误信息的第二响应对象;存储所述错误信息至异常数据库;通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。
在一种可实施方式中,所述解析所述含目标数据的第一响应对象,获得所述目标数据,包括:提取所述第一响应对象中的目标数据;对所述目标数据进行数据处理,获得去重整理的目标数据;存储所述去重整理的目标数据。
在一种可实施方式中,在所述解析所述含目标数据的第一响应对象,获得所述目标数据之后,所述方法还包括:从获得的所述目标数据中提取所述目标数据中其他目标数据地址;利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
在一种可实施方式中,在所述接收含目标数据地址的采集指令之前,所述方法还包括:获取服务器相关配置;生成相应所述服务器配置的资源配置规则;其中,所述资源配置规则用于所述数据采集方法中的资源配置。
本发明另一方面提供一种数据采集设备,包括:采集模块,用于接收含目标数据地址的采集指令;生成模块,用于依据所述采集指令,生成请求对象;指令模块,用于向所述目标数据地址发送所述请求对象;获得模块,用于获得含目标数据的第一响应对象;解析模块,用于解析所述含目标数据的第一响应对象,获得所述目标数据。
在一种可实施方式中,还包括:所述获得模块,用于获得含错误信息的第二响应对象;存储模块,用于存储所述错误信息至异常数据库;调整模块,用于通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。
在一种可实施方式中,所述解析模块包括:提取子模块,用于提取所述第一响应对象中的目标数据;处理子模块,用于对所述目标数据进行数据处理,获得去重整理的目标数据;存储子模块,用于存储所述去重整理的目标数据。
在一种可实施方式中,还包括:提取模块,用于从获得的所述目标数据中提取所述目标数据中其他目标数据地址;所述生成模块,用于利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;去重模块,用于对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
在一种可实施方式中,还包括:获取模块,用于获取服务器相关配置;所述生成模块,还用于生成相应所述服务器配置的资源配置规则;其中,所述资源配置规则用于所述数据采集方法中的资源配置。
本发明另一方面提供一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,当所述指令被执行时,用于执行上述可实施方式中任一项所述数据采集方法。
本发明提供的一种数据采集方法、设备及计算机可读存储介质,旨在通过智能的数据采集方法对目标数据进行采集,获得需要的目标数据。尤其适用于大规模数据采集的需求,无需手动在网上进行数据采集,提高了效率,节省了时间,同时能够避免由于手动采集导致的数据错误。
附图说明
图1为本发明实施例一种数据采集方法的流程示意图一;
图2为本发明实施例一种数据采集方法的流程示意图二;
图3为本发明实施例一种数据采集方法的流程示意图三;
图4为本发明实施例一种数据采集方法的流程示意图四;
图5为本发明实施例一种数据采集方法的流程示意图五;
图6为本发明实施例一种数据采集方法的具体应用系统框架图;
图7为本发明实施例另一种数据采集方法的具体应用系统框架图;
图8为本发明实施例一种数据采集设备的结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例一种数据采集方法的流程示意图一。
参见图1,本发明实施例一方面提供一种数据采集方法,包括:步骤101,接收含目标数据地址的采集指令;步骤102,依据采集指令,生成请求对象;步骤103,向目标数据地址发送请求对象;步骤104,获得含目标数据的第一响应对象;步骤105,解析含目标数据的第一响应对象,获得目标数据。
本发明实施例旨在通过上述步骤对目标数据进行采集,通过快速、自动化的数据采集过程,获得需要的目标数据。本发明实施例所提供的数据采集方法尤其适用于大规模数据采集的需求,无需手动在网上进行数据采集,提高了效率,节省了时间,同时能够避免由于手动采集导致的数据错误。
具体的,在本发明实施例中,当需要进行数据采集时,需要先接收采集指令,采集指令用于指示机器(执行数据采集方法的设备/平台)进行数据采集,在采集指令中,需要包括目标数据地址,使接收采集指令的单元能够明确需要采集目标数据的目标数据地址。当需要精确采集某类型数据时,采集指令中还可以包括目标数据的类型。采集指令通常由用户触发产生,根据用户的需求生成对应的采集指令。
在一种具体实施方式中,可以在机器的显示界面上设置输入框,输入框用于供用户输入目标数据地址,通过用户输入的目标数据地址,机器获得含目标数据地址的采集指令,并通过解析该指令,获取目标数据地址和采集任务。其中,此处的目标数据可以是网页内容;此处的目标数据地址为可以为目标数据对应的统一资源定位器(Uniform ResourceLocator,URL)地址,即目标网页内容所在网页的URL地址,此处的采集任务可以为单个采集任务或多个采集任务。需要说明的是,此处的机器指代的是实施该数据采集方法的机器/设备/平台等,并不对本发明实施例所指代的数据采集方法在机器上的负载方式进行限定。
在解析完成采集指令后,机器获得采集任务的具体要求,根据采集任务的具体要求,机器将从采集指令中获得的信息打包,通过处理生成请求对象,区别于采集指令,请求对象中包含与采集指令中信息相同和/或对应的内容,请求对象中包括与采集指令中相同的目标数据地址,请求对象用于发送至目标数据地址,向目标数据地址发送请求以获得对应采集任务的目标数据。
目标数据地址响应请求对象后,会形成包括目标数据的响应对象,由机器接收含目标数据的第一响应对象。机器通过解析第一响应对象即可获得目标数据。完成从目标数据地址获取目标数据的目的,无需手动在网上进行数据采集,提高了效率。
图2为本发明实施例一种数据采集方法的流程示意图二。
参见图2,在本发明实施例中,在步骤103,向目标数据地址发送请求对象之后,还包括:步骤201,获得含错误信息的第二响应对象;步骤202,存储错误信息至异常数据库;步骤203,通过分析异常数据库调整请求对象;其中,调整后的请求对象用于发送至目标数据地址。
本发明实施例在目标数据地址发送请求对象之后,在理论情况下,能够实现步骤104,获得含目标数据的第一响应对象;但在实际情况下,会存在有请求对象的错误,目标数据地址响应错误等问题,致使机器无法获得目标数据的第一响应对象,在此情况下,机器会获得含错误信息的第二响应对象。需要说明的是,此处的错误信息指代的是,在对第二响应对象解析或不解析情况下,确定第二响应对象中不包括或不完全包括目标数据。即,第二响应对象中可以包括完全错误信息,如目标数据地址拒绝响应;第二响应对象中也可以包括但不完全包括目标数据,如目标数据为A+B,而第二响应对象中仅包括A或B。
当本发明实施例获得含错误信息的第二响应对象时,通过分析第二响应对象中的错误信息,机器会调整请求对象,通过调整后的请求对象执行步骤103,向目标数据地址发送调整后的请求对象,从而获得目标数据地址的正确响应,获得含目标数据的第一响应对象,进而可通过解析获得目标数据。当通过步骤203获得能够获得目标数据地址中目标信息响应的请求对象时,即可进行步骤104。
具体的,在机器对请求对象进行调整的过程中,需要先从第二响应对象中获取错误信息,将错误信息存储到异常数据库,通过分析异常数据库中的所有错误信息,对请求对象更改响应的调整策略。如,修改用户代理商(User-Agent,UA),更改网络之间互连的协议(Internet Protocol,IP),调整请求时间间隔等策略。举例说明,当机器分析异常数据库中的所有错误信息,存在IP错误时,对请求对象的IP进行调整,以获取请求对象的可用IP。
在一种具体实施场景中,当需要通过数据采集方法对网页上的时间信息进行采集时,首先由用户在输入框内输入需要采集的时间信息的网页的初始URL地址,输入的URL地址形成采集指令,以采集指令的形式使机器接收,机器接收到采集指令后,依据采集指令中的URL地址形成对应URL地址的请求对象,机器发送对应URL地址的请求对象至目标网页,用于向对应该URL地址的目标网页进行时间信息的数据采集请求。此时,目标网页根据请求对象的请求内容发送响应对象至机器时,由于请求对象与目标网页之间的匹配问题,响应对象除了出现如步骤104正常的含目标数据地址发送请求对象之外,当匹配错误时,响应对象还可能为如步骤201的含错误信息的第二响应对象。在得到错误信息的第二响应对象后,机器对第二响应对象中的错误信息进行分析,根据分析结果对请求对象进行调整,根据不同的响应信息,此处的调整可以为UA调整,IP调整,以及调整单个线程中发送请求时间间隔等任意类型机器能够实现的调整。调整后获得的调整后的请求对象用于发送至目标数据地址即目标网页,用于向目标网页再次发送采集时间信息的请求,相较于调整前的响应对象,调整后的响应对象更适合用于目标网页的请求。在调整后的请求对象适用于目标网页的请求时,目标网页会反馈响应信息,如此,机器可以接收到含目标数据的响应对象,通过对该响应对象进行解析,即可获得含时间信息的目标数据。
需要说明的是,此处步骤202和步骤203为重复性步骤,机器对请求对象的调整是至少一次的,当第一次调整后的请求对象仍然无法得到正确信息的响应时,机器会获得含第一次调整后对应第一次调整后请求对象的第二响应对象,此处的第二响应对象会获得新的错误信息,将次错误信息同样进行存储在异常数据库后,基于整体的异常数据库进行分析,从而获得第二次调整后的请求对象用于向目标网页进行请求,如第二次请求对象仍然不能获得正确的目标数据,还会存在有第三次、第四次、第五次的调整后的请求对象,此处不做赘述。进一步的,当调整次数过多时,可以对机器进行阈值的设置,此处的阈值可以是调整时间或调整次数,如设置机器对请求对象调整的阈值为100次,当机器对请求对象的调整超过100次时,机器放弃本次URL请求。
图3为本发明实施例一种数据采集方法的流程示意图三。
参见图3,在本发明实施例中,步骤105,解析含目标数据的第一响应对象,获得目标数据,包括:步骤1051,提取第一响应对象中的目标数据;步骤1052,对目标数据进行数据处理,获得去重整理的目标数据;步骤1053,存储去重整理的目标数据。
本发明实施例中,在解析含目标数据的第一响应对象的内容时,为了避免目标数据存在的重复性,降低目标数据的阅读难度,需要对目标数据进行数据处理达到去重等目的。首先,需先提取第一响应对象中的目标数据,然后对目标数据进行数据处理,具体的目标数据处理方式可以为对目标数据进行超文本标记语言(Hyper Text Markup Language,HTML)清洗,检查数据字段,重复数据去重,数据结构持久化存储中的至少一种方式。在数据结构持久化存储中,实现数据持久化存储的功能的方式可以为,存储为文本(text,txt)文件,JSON(JavaScript Object Notation,JS对象简谱)文件,或者电子表格(excel)文件,或者存储到关系型数据库管理系统如mysql,分布式文件存储的数据库如mongodb或key-value存储系统如redis等数据库。通过对数据进行处理,还可以通过该数据分析过程给数据进行自动化标签的添加,提高数据采集的精准性,实现数据定制需求。
图4为本发明实施例一种数据采集方法的流程示意图四。
参见图4,在本发明实施例中,步骤105,在解析含目标数据的第一响应对象,获得目标数据之后,方法还包括:步骤401,从获得的目标数据中提取目标数据中其他目标数据地址;步骤402,利用其他目标数据地址,生成含其他目标数据地址的其他采集指令;步骤403,对其他采集指令去重处理,获得去重采集指令;其中,去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
本发明实施例为实现数据的大规模采集,在除了由采集指令提供的初始的目标数据地址外,在机器进行目标数据请求过程中,根据响应对象中的信息,还可以提取响应对象中有关其他目标数据地址,此处的其他目标数据地址的种类可以与目标数据地址的种类一致,如其他目标数据的URL地址。并通过提取到的其他目标数据地址生成对应其他目标数据地址的其他采集指令向目标网页进行其他目标数据的采集。在获得其他目标数据后,通过将所有的目标数据进行整合,可获得大规模的目标数据采集合集,同样的,为了避免大规模的目标数据采集合集中的目标数据之间存在重复性,需要对目标数据进行数据处理达到去重等目的。具体的目标数据采集合集的处理方式同样可以为对目标数据采集合集进行html清洗,检查数据字段,重复数据去重,数据结构持久化存储中的至少一种方式。在数据结构持久化存储中,实现数据持久化存储的功能的方式可以为,存储为txt文件,json文件,或者excel文件,或者存储到mysql,mongodb或redis等数据库。
需要说明的是,在该方法下,机器可能会源源不断的从响应对象中获得其他目标数据的URL地址,此处可对机器的采集目标数据的数量和/或采集时间进行阈值的设置,当机器的采集目标数据的数量和/或采集时间达到阈值时,机器停止对目标数据的采集。
图5为本发明实施例一种数据采集方法的流程示意图五。
参见图5,在本发明实施例中,在步骤101,接收含目标数据地址的采集指令之前,方法还包括:步骤501,获取服务器相关配置;步骤502,生成相应服务器配置的资源配置规则;其中,资源配置规则用于数据采集方法中的资源配置。
本发明实施例中,为了使本发明实施例所提供的数据采集方法的运行更流畅,且充分利用运行资源,可以对服务器中该方法所使用的相关资源进行配置,生成相应服务器配置的资源配置规则。例如,利用redis实现分布式数据采集任务队列,前端配置管理页面配置多个数据采集信息单元即可实现分布式多节点数据采集单元进行分布式数据采集。
为理解本发明实施例所提供的数据采集方法,以下提供该数据采集的一种具体应用场景。
图6为本发明实施例一种数据采集方法的具体应用系统框架图。
参见图6,本发明实施例将该数据采集方法应用于一大数据采集系统,且为了有利于系统资源的配置,本发明实施例将该数据采集系统进行模块式划分。该数据采集系统包括引擎中心601、调度模块602、爬虫模块603、下载器模块604、容错处理模块605和数据处理模块606。
其中,引擎中心601与调度模块602、爬虫模块603、下载器模块604、数据处理模块606之间均通过通信连接,用于驱动调度模块602、爬虫模块603、下载器模块604、数据处理模块606。
在请求对象的数量大于1时,引擎中心601将请求对象发送至调度模块602,
调度模块602用于对所有请求对象进行去重和排序,形成任务队列并将任务队列反馈至引擎中心601。
在将请求对象发送至目标网站时,引擎中心601将请求对象发送至爬虫模块603,通过爬虫模块603向目标网站发送请求对象,爬虫模块603将从目标网站获得的对应请求对象的响应对象进行解析,将响应数据和解析结果发送至引擎中心601。当解析获得其他目标数据的URL地址信息时,将其他URL地址信息反馈至引擎中心601用以形成新的请求对象。
在引擎中心601获得目标网站的解析结果后,引擎中心601将响应数据发送至下载器模块604,通过下载器模块604下载响应数据,当响应数据为错误数据时,下载器模块604将错误数据交由容错处理模块605收集错误数据,通过容错处理模块605对错误数据进行存储和分析,将分析结果交由引擎中心601,引擎中心601依据分析结果形成新的请求对象,并将新的请求对象用于进行再次请求。
当为正确数据时,将下载的正确数据发送至引擎中心601,通过引擎中心601发送至数据处理模块606,通过数据处理模块606对正确数据进行解析、去重、整理处理,得到目标数据,并将目标数据进行保存。为了明确模块分工,此处可将数据处理模块606分成数据解析处理子模块6061和数据存储子模块6062。
在应用该系统进行目标数据的采集时,设定目标网站为论坛,设定目标数据为论坛中用户的发言,设定采集次数的阈值为10000次。首先用户获取目标论坛的URL地址,将URL地址进行粘贴,引擎中心601接收用户提供的URL地址,并封装打包成请求对象。引擎中心601将请求对象交由爬虫模块603,爬虫模块603发送请求对象至目标网站。目标网站接收请求对象后,反馈响应对象至爬虫模块603。爬虫模块603接收响应对象后对响应对象进行解析。
当响应对象为正确响应对象时,爬虫模块603在响应对象中解析获得正确数据和其他目标数据的URL地址,其他目标数据的URL地址交由引擎中心601封装成更多请求对象,经由引擎中心601交给调度模块602进行去重,过滤等操作。调度模块602将去重,过滤后的请求对象以队列形式发送至引擎中心601,用于引擎中心601对爬虫模块603进行再次请求。
正确数据由引擎中心601通过下载器模块604进行下载,下载器模块604将正确数据交还给引擎中心601,由引擎中心601将正确数据发送至数据处理模块606进行正确数据的解析和处理,获得目标数据即用户发言并进行存储,并将存储的用户发言记录为1。
当响应对象为错误响应对象时,爬虫模块603在响应对象中解析获得错误数据,错误数据交由引擎中心601发送至下载器模块604进行下载,下载器模块604将错误数据交由容错处理模块605收集错误数据,通过容错处理模块605对错误数据进行存储形成异常数据库,对异常数据库进行分析,将得到的分析结果交由引擎中心601,引擎中心601依据分析结果形成新的请求对象,并将新的请求对象用于进行再次请求。
当数据存储子模块6062存储的用户发言记录至10000条时,完成整个对论坛中用于发言进行采集的目的。
在此基础上,为了减少数据阅读量,通过数据处理模块606,对采集到10000条发言还可进行去重合并。如“顶”之类的用户发言在10000条发言中出现了230次,可以将230条用户发言在数据存储子模块6062中进行合并存储。
为进一步理解本发明实施例所提供的数据采集方法,以下提供该数据采集的另一种具体应用场景。
图7为本发明实施例另一种数据采集方法的具体应用系统框架图。
参见图7,该系统包括爬虫模块701,引擎中心702、请求模块703、调度模块704、数据处理模块705和中间件706。
其中,引擎中心702通过通信连接爬虫模块701、请求模块703、调度模块704、数据处理模块705,用于驱动爬虫模块701、请求模块703、调度模块704、数据处理模块705。
爬虫模块701用于解析和响应,具体用于构建请求对象,交还引擎中心702,如构建超文本传输协议请求(HyperText Transfer Protocol,HTTP),交还引擎中心702;还用于解析响应对象,交还引擎中心702,如解析URL地址,交还引擎中心702;还用于解析目标数据,交还引擎中心702。
请求模块703用于发送网络请求,即发送请求对象至目标网址;还用于接受网站响应,交还引擎中心702,即用于接受响应对象,交还引擎中心702;还用于请求失败自动重试,即用于对错误数据进行存储分析,并调整请求对象,形成调整后的请求对象进行重新发送请求;且请求模块703通过多线程异步发送请求,以提高服务器资源利用率。
调度模块704用于接受引擎中心702调度过来的请求对象;还用于队列存储请求对象,并对请求对象自动去重;还用于将自动去重的请求对象交还引擎中心702。
数据处理模块705用于数据基本清洗和保存;还用于对数据真实性进行校验;还用于数据分析处理,即路网数据切分和路网方向性判断。
中间体用于提供服务器资源以满足爬虫模块701,引擎中心702、请求模块703、调度模块704、数据处理模块705的使用需求,如修改UA、重定向处理、代理设置和cookie设置。
在应用该系统进行目标数据的采集时,设定目标网站为天气网站,设定目标数据为近10个月每天的天气,为满足10个月的天气采集要求,设定采集次数的阈值为400次。
首先通过用户设定采集目标数据为天气,提供目标网站的http。引擎中心702接收目标网站的http后将其发送至爬虫模块701,爬虫模块701构建基于http请求的请求对象,返还引擎中心702。引擎中心702将请求对象发送至请求模块703,通过请求模块703发送至目标网站,并接收目标网站的响应对象,由请求模块703判断响应对象是否为正确响应对象,当判断为正确响应对象时,将响应对象交还至引擎中心702。
引擎中心702发送响应对象至爬虫模块701,通过爬虫模块701对响应对象进行解析,获得解析的其他目标对象的URL地址和目标数据,交还引擎中心702。引擎中心702将其他目标对象的URL地址发送至爬虫模块701构建其他目标对象的请求对象,由爬虫模块701再次发送至引擎中心702,引擎中心702将大于1的请求对象发送至调度模块704,经过调度模块704进行去重处理后,按队列将新的请求对象发送至引擎中心702,引擎中心702发送新的请求对象至请求模块703进行请求。引擎中心702还将由爬虫系统解析的目标数据发送至数据处理模块705,通过数据处理模块705进行数据基本清洗、校验、分析后保存。
当请求模块703判断响应对象为错误响应对象时,请求模块703对响应对象中的错误数据进行解析提取,将错误数据存储构建异常数据库,并通过对异常数据库的分析,将对应错误响应对象的请求对象进行参数上的修改,重新向目标网站发送修改后的请求对象,以获得含目标数据的响应对象。
在以上运行中,通过中间体对服务器资源进行配置。
当数据处理模块705存储的天气数据至400条时,完成整个对网站中10个月的天气进行采集的目的。
图8为本发明实施例一种数据采集设备的结构示意图。
参见图8,本发明另一方面提供一种数据采集设备,包括:采集模块801,用于接收含目标数据地址的采集指令;生成模块802,用于依据采集指令,生成请求对象;指令模块803,用于向目标数据地址发送请求对象;获得模块804,用于获得含目标数据的第一响应对象;解析模块805,用于解析含目标数据的第一响应对象,获得目标数据。
在一种可实施方式中,还包括:获得模块804,还用于获得含错误信息的第二响应对象;存储模块806,用于存储错误信息至异常数据库;调整模块807,用于通过分析异常数据库调整请求对象;其中,调整后的请求对象用于发送至目标数据地址。
在一种可实施方式中,解析模块805包括:提取子模块8051,用于提取第一响应对象中的目标数据;处理子模块8052,用于对目标数据进行数据处理,获得去重整理的目标数据;存储子模块8053,用于存储去重整理的目标数据。
在一种可实施方式中,还包括:提取模块808,用于从获得的目标数据中提取目标数据中其他目标数据地址;生成模块802,还用于利用其他目标数据地址,生成含其他目标数据地址的其他采集指令;去重模块809,用于对其他采集指令去重处理,获得去重采集指令;其中,去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
在一种可实施方式中,还包括:获取模块810,用于获取服务器相关配置;生成模块802,还用于生成相应服务器配置的资源配置规则;其中,资源配置规则用于数据采集方法中的资源配置。
本发明另一方面提供一种计算机可读存储介质,存储介质中存储有计算机可执行指令,当指令被执行时,用于执行上述可实施方式中任一项数据采集方法。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
接收含目标数据地址的采集指令;
依据所述采集指令,生成请求对象;
向所述目标数据地址发送所述请求对象;
获得含目标数据的第一响应对象;
解析所述含目标数据的第一响应对象,获得所述目标数据。
2.根据权利要求1所述的方法,其特征在于,所述向目标数据地址发送所述请求对象之后,还包括:
获得含错误信息的第二响应对象;
存储所述错误信息至异常数据库;
通过分析所述异常数据库调整所述请求对象;
其中,调整后的所述请求对象用于发送至所述目标数据地址。
3.根据权利要求1所述的方法,其特征在于,所述解析含目标数据的第一响应对象,获得所述目标数据,包括:
提取所述第一响应对象中的目标数据;
对所述目标数据进行数据处理,获得去重整理的目标数据;
存储所述去重整理的目标数据。
4.根据权利要求3所述的方法,其特征在于,在所述解析含目标数据的第一响应对象,获得所述目标数据之后,所述方法还包括:
从获得的所述目标数据中提取所述目标数据中其他目标数据地址;
利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;
对所述其他采集指令去重处理,获得去重采集指令;
其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
5.根据权利要求1所述的方法,其特征在于,在所述接收含目标数据地址数据的采集指令之前,所述方法还包括:
获取服务器相关配置;
生成相应所述服务器配置的资源配置规则;
其中,所述资源配置规则用于所述数据采集方法中的资源配置。
6.一种数据采集设备,其特征在于,包括:
采集模块,用于接收含目标数据地址的采集指令;
生成模块,用于依据所述采集指令,生成请求对象;
指令模块,用于向所述目标数据地址发送所述请求对象;
获得模块,用于获得含目标数据的第一响应对象;
解析模块,用于解析所述含目标数据的第一响应对象,获得所述目标数据。
7.根据权利要求6所述的设备,其特征在于,还包括:
所述获得模块,用于获得含错误信息的第二响应对象;
存储模块,用于存储所述错误信息至异常数据库;
调整模块,用于通过分析所述异常数据库调整所述请求对象;其中,调整后的所述请求对象用于发送至所述目标数据地址。
8.根据权利要求6所述的设备,其特征在于,所述解析模块包括:
提取子模块,用于提取所述第一响应对象中的目标数据;
处理子模块,用于对所述目标数据进行数据处理,获得去重整理的目标数据;
存储子模块,用于存储所述去重整理的目标数据。
9.根据权利要求8所述的设备,其特征在于,还包括:
提取模块,用于从获得的所述目标数据中提取所述目标数据中其他目标数据地址;
所述生成模块,用于利用所述其他目标数据地址,生成含所述其他目标数据地址的其他采集指令;
去重模块,用于对所述其他采集指令去重处理,获得去重采集指令;其中,所述去重采集指令用于通过生成去重采集指令获得含其他目标数据的其他响应对象。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,当所述指令被执行时,用于执行权利要求1-5任一项所述数据采集方法。
CN201910505169.5A 2019-06-12 2019-06-12 一种数据采集方法、设备及计算机可读存储介质 Pending CN110222253A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910505169.5A CN110222253A (zh) 2019-06-12 2019-06-12 一种数据采集方法、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910505169.5A CN110222253A (zh) 2019-06-12 2019-06-12 一种数据采集方法、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN110222253A true CN110222253A (zh) 2019-09-10

Family

ID=67816667

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910505169.5A Pending CN110222253A (zh) 2019-06-12 2019-06-12 一种数据采集方法、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN110222253A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111076772A (zh) * 2019-12-13 2020-04-28 红云红河烟草(集团)有限责任公司 一种卷烟制丝过程数据的处理方法
CN114064650A (zh) * 2021-11-17 2022-02-18 安徽布尔自动化工程有限公司 一种数据解析采集方法
CN114201537A (zh) * 2022-02-17 2022-03-18 深圳市聚能优电科技有限公司 储能数据的采集存储方法、系统、设备及存储介质
CN114495363A (zh) * 2022-01-07 2022-05-13 珠海格力电器股份有限公司 一种目标设备锁机方法、装置、电子设备及存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150242529A1 (en) * 2014-02-21 2015-08-27 Pradeep S. Kinger Method for Interlacing Multiple Internet domain names with a Database Driven Website to Obtain Better Webpage Ranking on Major Search Engines by Executing Computer-Executable Instructions Stored On a Non-Transitory Computer-Readable Medium
CN106062731A (zh) * 2013-10-09 2016-10-26 莫柏尔技术有限公司 使用空间和时间分析以将数据源和移动设备关联的系统和方法
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质
CN108647315A (zh) * 2018-05-10 2018-10-12 平安壹钱包电子商务有限公司 数据采集方法及系统
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN108932285A (zh) * 2018-05-22 2018-12-04 北京工业大学 一种基于浏览器扩展的数据抓取方法及系统
CN109684571A (zh) * 2018-12-28 2019-04-26 咪咕文化科技有限公司 一种数据采集方法及装置、存储介质
CN109800259A (zh) * 2018-12-11 2019-05-24 深圳市金证科技股份有限公司 数据采集方法、装置及终端设备

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106062731A (zh) * 2013-10-09 2016-10-26 莫柏尔技术有限公司 使用空间和时间分析以将数据源和移动设备关联的系统和方法
US20150242529A1 (en) * 2014-02-21 2015-08-27 Pradeep S. Kinger Method for Interlacing Multiple Internet domain names with a Database Driven Website to Obtain Better Webpage Ranking on Major Search Engines by Executing Computer-Executable Instructions Stored On a Non-Transitory Computer-Readable Medium
CN108304498A (zh) * 2018-01-12 2018-07-20 深圳壹账通智能科技有限公司 网页数据采集方法、装置、计算机设备和存储介质
CN108647315A (zh) * 2018-05-10 2018-10-12 平安壹钱包电子商务有限公司 数据采集方法及系统
CN108932285A (zh) * 2018-05-22 2018-12-04 北京工业大学 一种基于浏览器扩展的数据抓取方法及系统
CN108920314A (zh) * 2018-06-26 2018-11-30 郑州云海信息技术有限公司 一种故障硬件定位方法、装置、系统及可读存储介质
CN109800259A (zh) * 2018-12-11 2019-05-24 深圳市金证科技股份有限公司 数据采集方法、装置及终端设备
CN109684571A (zh) * 2018-12-28 2019-04-26 咪咕文化科技有限公司 一种数据采集方法及装置、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
蒋凌燕等: "基于WebSocket和node.js的多终端数据采集系统研究", 《电脑知识与技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111076772A (zh) * 2019-12-13 2020-04-28 红云红河烟草(集团)有限责任公司 一种卷烟制丝过程数据的处理方法
CN114064650A (zh) * 2021-11-17 2022-02-18 安徽布尔自动化工程有限公司 一种数据解析采集方法
CN114495363A (zh) * 2022-01-07 2022-05-13 珠海格力电器股份有限公司 一种目标设备锁机方法、装置、电子设备及存储介质
CN114495363B (zh) * 2022-01-07 2023-08-11 珠海格力电器股份有限公司 一种目标设备锁机方法、装置、电子设备及存储介质
CN114201537A (zh) * 2022-02-17 2022-03-18 深圳市聚能优电科技有限公司 储能数据的采集存储方法、系统、设备及存储介质

Similar Documents

Publication Publication Date Title
CN110222253A (zh) 一种数据采集方法、设备及计算机可读存储介质
CN107590188B (zh) 一种自动化垂直细分领域的爬虫爬取方法及其管理系统
CN103761309B (zh) 一种运营数据处理方法及系统
US7599956B2 (en) Reusable online survey engine
CN108156006A (zh) 一种埋点数据上报方法、装置及电子设备
US20130185306A1 (en) Entity Matching Using Machine Learning
CN106888135A (zh) 一种任务状态的查询方法和装置
CN107885777A (zh) 一种基于协作式爬虫的抓取网页数据的控制方法及系统
CN106649496A (zh) 一种政务数据采集共享系统与方法
US20110258192A1 (en) Providing question and answer services
CN112036577B (zh) 基于数据形式的应用机器学习的方法、装置和电子设备
US10044820B2 (en) Method and system for automated transaction analysis
JPH10207838A (ja) 対話型ハイパーテキスト情報参照システムにおける情報参照回数計数装置及び方法並びに情報参照回数計数プログラムを記録した媒体
CN109766242A (zh) 基于移动用户端的监控方法、装置、系统及存储介质
CN107180050A (zh) 一种数据抓取系统及方法
CN107819825A (zh) 一种服务调度方法、装置和电子设备
CN108108445A (zh) 一种智能数据处理方法和系统
CN109840298A (zh) 大规模网络数据的多信息来源采集方法和系统
CN110417873A (zh) 一种实现记录网页交互操作的网络信息提取系统
WO2001082029A2 (en) Method, system, and computer program product for employment market statistics generation and analysis
CN111125518A (zh) 家电信息推荐的系统及方法
US20030105814A1 (en) Survey method
CN110737645B (zh) 一种不同系统间数据迁移方法、数据迁移系统及相关设备
CN109783330A (zh) 日志处理方法、显示方法和相关装置、系统
JP5294885B2 (ja) サービス中継装置、サービス中継方法、この方法を実行するためのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910