CN111274217A - 数据采集的方法、装置、计算机设备以及存储介质 - Google Patents

数据采集的方法、装置、计算机设备以及存储介质 Download PDF

Info

Publication number
CN111274217A
CN111274217A CN202010026613.8A CN202010026613A CN111274217A CN 111274217 A CN111274217 A CN 111274217A CN 202010026613 A CN202010026613 A CN 202010026613A CN 111274217 A CN111274217 A CN 111274217A
Authority
CN
China
Prior art keywords
enterprise
information
acquisition
data acquisition
log table
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010026613.8A
Other languages
English (en)
Other versions
CN111274217B (zh
Inventor
谢滨泽
肖树德
申志彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Original Assignee
Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd filed Critical Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority to CN202010026613.8A priority Critical patent/CN111274217B/zh
Publication of CN111274217A publication Critical patent/CN111274217A/zh
Application granted granted Critical
Publication of CN111274217B publication Critical patent/CN111274217B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/1805Append-only file systems, e.g. using logs or journals to store data
    • G06F16/1815Journaling file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2358Change logging, detection, and notification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明公开了一种数据采集的方法、装置、计算机设备以及存储介质,该方法包括:若接收到对企业进行数据采集的请求,根据该请求获取相应的企业信息;判断该企业信息是否存在于预设的企业信息表中;若该企业信息存在于企业信息表中,根据企业信息表中的首次采集字段和预设的日志表对该企业进行数据采集;其中日志表用于记录企业进行数据采集;若该企业信息不存在于预设的企业信息表中,将该企业信息插入至企业信息表中并对该企业进行数据采集,同时将数据采集的记录保存至日志表中;上述方法通过在企业信息表中的每个企业信息中添加首次采集字段和最后采集字段以及通过日志表进行记录,提高了数据采集的效率,避免在数据采集过程中重复采集。

Description

数据采集的方法、装置、计算机设备以及存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据采集的方法、装置、计算机设备以及存储介质。
背景技术
当需要对某个企业有更多的了解时,可以根据该企业公开的大致信息进行了解,但是当需要对该企业有更加深入的了解时,则需要在不同网站采集数据。通常需要创建一个企业信息表以记录在不同网站上进行数据采集的过程,从而确保每个网站中与该企业相关的信息进行完整的数据采集并且采集的数据不重复,但是随着采集数据越来越多会使得该企业信息表不利于维护,从而导致后续继续对企业进行数据采集时出现效率低下的问题。
发明内容
本发明实施例提供了一种数据采集的方法、装置、计算机设备以及存储介质,旨在解决现有技术方法中所存在的数据采集效率低的问题。
第一方面,本发明实施例提供了一种数据采集的方法,其包括:
若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;
判断所述企业信息是否存在于预设的企业信息表中;
若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;
若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
第二方面,本发明实施例提供了一种数据采集的装置,其包括:
获取单元,用于若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;
第一判断单元,用于判断所述企业信息是否存在于预设的企业信息表中;
第一采集单元,用于若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;
第二采集单元,用于若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的数据采集的方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的数据采集的方法。
本发明实施例提供了一种数据采集的方法、装置、计算机设备以及存储介质,该方法包括:若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;判断所述企业信息是否存在于预设的企业信息表中;若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中;上述方法通过在企业信息表中的每个企业信息中添加首次采集字段和最后采集字段以及通过日志表记录数据采集,极大的提高了数据采集的效率,避免在数据采集过程中出现重复采集。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据采集的方法的流程示意图;
图2为本发明实施例提供的数据采集的方法的子流程示意图;
图3为本发明实施例提供的数据采集的方法的另一子流程示意图;
图4为本发明实施例提供的数据采集的方法的另一流程示意图;
图5为本发明实施例提供的数据采集的装置的示意性框图;
图6为本发明实施例提供的数据采集的装置的子单元示意性框图;
图7为本发明实施例提供的数据采集的装置的另一子单元示意性框图;
图8为本发明实施例提供的数据采集的装置的另一示意性框图;
图9为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
请参阅图1,图1是本发明实施例提供的数据采集的方法的流程示意图。该数据采集的方法应用于用户终端中,该方法通过安装于用户终端中的应用软件进行执行,用户终端即是用于执行数据采集的方法以获取用户所需数据信息的终端设备,例如台式电脑、笔记本电脑、平板电脑或手机等。
如图1所示,该方法包括步骤S110~S150。
S110、若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息。
若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息。具体的,所述请求中包含了该企业的企业信息,在接收到该请求后,通过对该请求进行信息提取以获取到该企业的企业信息,其中,该企业的企业信息主要包括企业名称、企业所在地、法人代表、注册资本、经营范围、经营资质、员工人数、企业网址、联系方式等相关信息。
S120、判断所述企业信息是否存在于预设的企业信息表中。
判断所述企业信息是否存在于预设的企业信息表中。具体的,预设的企业信息表至少包括一家企业的企业信息,在需要对该企业进行数据采集时,首先需要判断该企业的企业信息是否存在于预设的企业信息表中,当该企业信息不存在于企业信息表中时,则在对相关企业进行数据采集后,需要将该企业的企业信息保存至企业信息表中以便于后续对该企业进行持续的数据采集;当该企业的企业信息存在于预设的企业信息表中时,则可在已经采集过该企业数据的基础上对该企业进行数据采集,从而避免了重复采集数据。
S130、若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录对所述企业进行数据采集。
若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集。具体的,所述企业信息表中的每家企业所对应的企业信息中均设置有首次采集字段和最后采集字段。首次采集字段为该企业在网站上首次采集而获得的首行首个字符信息,最后采集字段为该企业在网站上采集完成后最后获得的尾行最后一个字符信息。由于在对企业进行数据采集的过程中并不能完全从网站中采集到该企业的数据,因此所述企业信息存在于所述企业信息表中并不等同于已对与所述企业信息相对应的企业进行过数据采集,根据所述企业信息表中的每个企业信息的首次采集字段和最后采集字段以及预设的日志表中的记录来判定是否对所述企业进行过数据采集。
在一实施例中,如图2所示,步骤S130包括子步骤S131、S132和S133。
S131、判断所述首次采集字段的信息是否为空。
判断所述首次采集字段的信息是否为空。通常未对所述企业信息表中的一个企业进行数据采集时,该企业信息中的首次采集字段的信息设定为空,若已对该企业进行数据采集后,该企业信息中的首次采集字段的信息设定不为空,因此通过对该企业信息中的首次采集字段的信息进行识别以得到该企业是否进行过数据采集。
S132、若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集。
若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集。通过企业信息中的企业名称、企业所在地、法人代表、注册资本、经营范围、经营资质、员工人数、企业网址、联系方式等相关信息在预置的网站上采集与该企业直接相关或间接相关的信息,从而完整对该企业的数据的采集。例如,当在预置的网站上采集到包含该企业名称或者法人代表的内容时,则该内容即为与该企业直接相关的信息;当在预置的网站上采集到与该企业经营范围相同的内容时,则该内容为与该企业间接相关的信息。通过在预置的网站上采集到与该企业间接或直接相关的信息后,对该信息进行分析可获得该企业现阶段的经营状况、发展前景等。
在另一实施例中,步骤S132之后还包括步骤S132a。
S132a、更新所述企业信息表中的最后采集字段和首次采集字段的信息并将所述企业进行数据采集的记录保存至所述日志表中。
更新所述企业信息表中的最后采集字段和首次采集字段的信息并将所述企业进行数据采集的记录保存至所述日志表中。具体的,当对所述企业信息表中的一家企业进行信息采集后,该信息采集的记录会记载到日志表中,并且对该企业信息中的首次采集字段和最后采集字段进行更新以便于下次对该企业进行数据采集。
S133、若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。
若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。具体的,若所述首次采集字段的信息不为空,则证明该企业进行过数据采集,如需要再次对该企业进行数据采集,则只需根据所述日志表和所述企业信息对该企业进行数据采集,其中,日志表中包含了企业在不同网站上进行的数据采集的网站名称、网站版本号、最后采集时间、标识等信息,通过日志表中的信息来确定需要对该企业进行数据采集。
在一实施例中,如图3所示,步骤S133包括子步骤S1331、S1332和S1333。
S1331、判断所述日志表中是否包含所述企业进行数据采集的记录。
判断所述日志表中是否包含所述企业进行数据采集的记录。具体的,由于在对企业进行数据采集的过程中会出现人为操作失误或者程序崩溃等一系列的原因,从而导致在对企业进行数据采集的过程中无法将数据采集的记录更新到日志表中,因此每一次在对企业进行数据采集之前需要判断所述日志表中是否包含该企业进行数据采集的记录以便于后续对该企业进行数据采集。
S1332、若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,当日志表中不包含该企业数据采集的记录,则需要重新对该企业进行数据采集,数据采集的具体网站、采集时间以及采集内容可根据企业信息表中的企业信息来进行数据采集。数据采集完成后,需要更新企业信息中的最后采集字段的信息以及日志表。
S1333、若所述日志表中包含所述企业进行数据采集的记录,根据所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述日志表中包含所述企业进行数据采集的记录,根据所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,当日志表中包含该企业数据采集的记录,则在后续的对该企业进行数据采集时,在该企业信息的基础上根据日志表中包含该企业数据采集的记录对该企业进行数据采集以避免在对该企业进行重复数据的采集,数据采集完成后,需要更新该企业信息中的最后采集字段的信息以及日志表。
在一实施例中,如图4所示,步骤S1333包括子步骤S1333a、S1333b和S1333c。
S1333a、根据预设的识别规则对所述日志表中的标识进行识别以得到所述标识的信息。
根据预设的识别规则对所述日志表中的标识进行识别以得到所述标识的信息。具体的,预设的识别规则用于对日志表中的标识进行识别以得到该标识的信息的规则信息,其中,该标识的信息为企业进行数据采集的状态,通常设定为正在采集或者已经采集,通过对该标识进行识别以获得该企业进行数据采集的状态。
S1333b、若所述标识的信息为已经采集,根据所述日志表中的最后采集时间的信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述标识的信息为已经采集,根据所述日志表中的最后采集时间的信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,该标识信息为该企业在上一时刻已完成了信息采集的信息,此时需要对该企业进行数据采集时,只需在所述日志表中的最后采集时间的基础上对该企业进行数据采集,从而避免了重复采集数据,数据采集完成后需对该企业信息中的首次采集字段以及日志表进行更新。
S1333c、若所述标识的信息为正在采集,更新所述最后采集字段的信息和所述日志表。
若所述标识的信息为正在采集,更新所述最后采集字段的信息和所述日志表。具体的,当该标识的信息为正在采集,则表示正在对该企业进行数据采集,无需再次对该企业进行数据采集,只需当数据采集完成后将采集到的数据发送给用户即可,同时采集完成后需要更新该企业信息中的最后采集字段的信息以及日志表。
S140、若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。具体的,新增的企业信息插入至企业信息表中需根据企业信息表中的相关格式进行插入,企业信息插入完成后,需在该企业信息中设置首次采集字段和最后采集字段且均设置为空,然后对该企业进行数据采集,在完成数据采集后,需要将其采集的记录新增至日志表,同时需对该企业信息中的首次采集字段和最后采集字段进行更新以使得该企业信息中的首次采集字段和最后采集字段的信息不为空。
在本发明实施例所提供的数据采集的方法中,若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;判断所述企业信息是否存在于预设的企业信息表中;若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中;上述方法通过在企业信息表中的每个企业信息中添加首次采集字段和最后采集字段以及通过日志表记录数据采集,极大的提高了数据采集的效率,避免在数据采集过程中重复采集。
本发明实施例还提供一种数据采集的装置,该数据采集的装置用于执行前述数据采集的方法的任一实施例。具体地,请参阅图5,图5是本发明实施例提供的数据采集的装置的示意性框图。该数据采集的装置可以配置于台式电脑、笔记本电脑、平板电脑或手机等用户终端中。
如图5所示,所述的数据采集的装置包括:获取单元110、第一判断单元120、第一采集单元130、插入单元140以及第二采集单元150。
获取单元110,用于若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息。
若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息。具体的,所述请求中包含了该企业的企业信息,在接收到该请求后,通过对该请求进行信息提取以获取到该企业的企业信息,其中,该企业的企业信息主要包括企业名称、企业所在地、法人代表、注册资本、经营范围、经营资质、员工人数、企业网址、联系方式等相关信息。
第一判断单元120,用于判断所述企业信息是否存在于预设的企业信息表中。
判断所述企业信息是否存在于预设的企业信息表中。具体的,预设的企业信息表至少包括一家企业的企业信息,在需要对该企业进行数据采集时,首先需要判断该企业的企业信息是否存在于预设的企业信息表中,当该企业信息不存在于企业信息表中时,则在对相关企业进行数据采集后,需要将该企业的企业信息保存至企业信息表中以便于后续对该企业进行持续的数据采集;当该企业的企业信息存在于预设的企业信息表中时,则可在已经采集过该企业数据的基础上对该企业进行数据采集,从而避免了重复采集数据。。
第一采集单元130,用于若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集。
若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集。具体的,所述企业信息表中的每家企业所对应的企业信息中均设置有首次采集字段和最后采集字段。首次采集字段为该企业在网站上首次采集而获得的首行首个字符信息,最后采集字段为该企业在网站上采集完成后最后获得的尾行最后一个字符信息。
在另一实施例中,如图6所示,所述第一采集单元130包括第二判断单元131、第三采集单元132以及第四采集单元133。
第二判断单元131,用于判断所述首次采集字段的信息是否为空。
判断所述首次采集字段的信息是否为空。通常未对所述企业信息表中的一个企业进行数据采集时,该企业信息中的首次采集字段的信息设定为空,若已对该企业进行数据采集后,该企业信息中的首次采集字段的信息设定不为空,因此通过对该企业信息中的首次采集字段的信息进行识别以得到该企业是否进行过数据采集。
第三采集单元132,用于若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集。
若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集。通过企业信息中的企业名称、企业所在地、法人代表、注册资本、经营范围、经营资质、员工人数、企业网址、联系方式等相关信息在预置的网站上采集与该企业直接相关或间接相关的信息,从而完整对该企业的数据的采集。
在其他发明实施例中,所述第三采集单元132还包括保存单元132a。
保存单元132a,用于更新所述企业信息表中的最后采集字段和首次采集字段的信息并将所述企业进行数据采集的记录保存至所述日志表中。
更新所述企业信息表中的最后采集字段和首次采集字段的信息并将所述企业进行数据采集的记录保存至所述日志表中。具体的,当对所述企业信息表中的一家企业进行信息采集后,该信息采集的记录会记载到日志表中,并且对该企业信息中的首次采集字段和最后采集字段进行更新以便于下次对该企业进行数据采集。
第四采集单元133,用于若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。
若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。具体的,若所述首次采集字段的信息不为空,则证明该企业进行过数据采集,如需要再次对该企业进行数据采集,则只需根据所述日志表和所述企业信息对该企业进行数据采集,其中,日志表中包含了企业在不同网站上进行的数据采集的网站名称、网站版本号、最后采集时间、标识等信息,通过日志表中的信息来确定需要对该企业进行数据采集。
在另一实施例中,如图7所示,所述第四采集单元133包括第三判断单元1331、第五采集单元1332以及第六采集单元1333。
第三判断单元1331,用于判断所述日志表中是否包含所述企业进行数据采集的记录。
判断所述日志表中是否包含所述企业进行数据采集的记录。具体的,由于在对企业进行数据采集的过程中会出现人为操作失误或者程序崩溃等一系列的原因,从而导致在对企业进行数据采集的过程中无法将数据采集的记录更新到日志表中,因此每一次在对企业进行数据采集之前需要判断所述日志表中是否包含该企业进行数据采集的记录以便于后续对该企业进行数据采集。
第五采集单元1332,用于若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,当日志表中不包含该企业数据采集的记录,则需要重新对该企业进行数据采集,数据采集的具体网站、采集时间以及采集内容可根据企业信息表中的企业信息来进行数据采集。数据采集完成后,需要更新企业信息中的最后采集字段的信息以及日志表。
第六采集单元1333,用于若所述日志表中包含所述企业进行数据采集的记录,根据所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述日志表中包含所述企业进行数据采集的记录,根据所述企业信息和所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,当日志表中包含该企业数据采集的记录,则在后续的对该企业进行数据采集时,在该企业信息的基础上根据日志表中包含该企业数据采集的记录对该企业进行数据采集以避免在对该企业进行重复数据的采集,数据采集完成后,需要更新该企业信息中的最后采集字段的信息以及日志表。
在另一实施例中,如图8所示,所述第六采集单元1333包括识别单元1333a、第七采集单元1333b以及更新单元1333c。
识别单元1333a,用于根据预设的识别规则对所述日志表中的标识进行识别以得到所述标识的信息。
根据预设的识别规则对所述日志表中的标识进行识别以得到所述标识的信息。具体的,预设的识别规则用于对日志表中的标识进行识别以得到该标识的信息的规则信息,其中,该标识的信息为企业进行数据采集的状态,通常设定为正在采集或者已经采集,通过对该标识进行识别以获得该企业进行数据采集的状态。
第七采集单元1333b,用于若所述标识的信息为已经采集,根据所述日志表中的最后采集时间的信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
若所述标识的信息为已经采集,根据所述日志表中的最后采集时间的信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。具体的,该标识信息为该企业在上一时刻已完成了信息采集的信息,此时需要对该企业进行数据采集时,只需在所述日志表中的最后采集时间的基础上对该企业进行数据采集,从而避免了重复采集数据,数据采集完成后需对该企业信息中的首次采集字段以及日志表进行更新。
更新单元1333c,用于若所述标识的信息为正在采集,更新所述最后采集字段的信息和所述日志表。
若所述标识的信息为正在采集,更新所述最后采集字段的信息和所述日志表。具体的,当该标识的信息为正在采集,则表示正在对该企业进行数据采集,无需再次对该企业进行数据采集,只需当数据采集完成后将采集到的数据发送给用户即可,同时采集完成后需要更新该企业信息中的最后采集字段的信息以及日志表。
第二采集单元140,用于若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。具体的,新增的企业信息插入至企业信息表中需根据企业信息表中的相关格式进行插入,企业信息插入完成后,需在该企业信息中设置首次采集字段和最后采集字段且均设置为空,然后对该企业进行数据采集,在完成数据采集后,需要将其采集的记录新增至日志表,同时需对该企业信息中的首次采集字段和最后采集字段进行更新以使得该企业信息中的首次采集字段和最后采集字段的信息不为空。
本发明实施例所提供的数据采集的装置用于执行上述数据采集的方法,若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;判断所述企业信息是否存在于预设的企业信息表中;若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中;上述方法通过在企业信息表中的每个企业信息中添加首次采集字段和最后采集字段以及通过日志表记录数据采集,极大的提高了数据采集的效率,避免在数据采集过程中重复采集。
请参阅图9,图9是本发明实施例提供的计算机设备的示意性框图。
参阅图9,该设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括非易失性存储介质503和内存储器504。
该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行数据采集的方法。
该处理器502用于提供计算和控制能力,支撑整个设备500的运行。
该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行数据采集的方法。
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图9中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的设备500的限定,具体的设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下功能:若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;判断所述企业信息是否存在于预设的企业信息表中;若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
本领域技术人员可以理解,图9中示出的设备500的实施例并不构成对设备500具体构成的限定,在其他实施例中,设备500可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,设备500可以仅包括存储器及处理器502,在这样的实施例中,存储器及处理器502的结构及功能与图9示实施例一致,在此不再赘述。
应当理解,在本发明实施例中,处理器502可以是中央处理单元(CentralProcessing Unit,CPU),该处理器502还可以是其他通用处理器502、数字信号处理器502(Digital Signal Processor,DSP)、专用集成电路(Application Specific IntegratedCircuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器502可以是微处理器502或者该处理器502也可以是任何常规的处理器502等。
在本发明的另一实施例中提供计算机存储介质。该存储介质可以为非易失性的计算机可读存储介质。该存储介质存储有计算机程序5032,其中计算机程序5032被处理器502执行时实现以下步骤:若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;判断所述企业信息是否存在于预设的企业信息表中;若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台设备500(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据采集的方法,应用于网站数据采集,其特征在于,包括以下步骤:
若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;
判断所述企业信息是否存在于预设的企业信息表中;
若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;其中所述日志表用于记录所述企业进行数据采集;
若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
2.根据权利要求1所述的数据采集的方法,其特征在于,所述根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集,包括:
判断所述首次采集字段的信息是否为空;
若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集;
若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。
3.根据权利要求2所述的数据采集的方法,其特征在于,所述根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表,包括:
判断所述日志表中是否包含所述企业进行数据采集的记录;
若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表;
若所述日志表中包含所述企业进行数据采集的记录,根据所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
4.根据权利要求3所述的数据采集的方法,其特征在于,所述根据所述企业信息和所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表,包括:
根据预设的识别规则对所述日志表中的标识进行识别以得到所述标识的信息;
若所述标识的信息为已经采集,根据所述日志表中的最后采集时间的信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表;
若所述标识的信息为正在采集,更新所述最后采集字段的信息和所述日志表。
5.根据权利要求2所述的数据采集的方法,其特征在于,所述若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集之后,还包括:
更新所述企业信息表中的最后采集字段和首次采集字段的信息并将所述企业进行数据采集的记录保存至所述日志表中。
6.一种数据采集的装置,其特征在于,包括:
获取单元,用于若接收到对企业进行数据采集的请求,根据所述请求获取相应的企业信息;
第一判断单元,用于判断所述企业信息是否存在于预设的企业信息表中;
第一采集单元,用于若所述企业信息存在于所述企业信息表中,根据所述企业信息表中的首次采集字段和预设的日志表对所述企业进行数据采集;
第二采集单元,用于若所述企业信息不存在于预设的企业信息表中,将所述企业信息插入至所述企业信息表中并对所述企业进行数据采集,同时将数据采集的记录保存至所述日志表中。
7.根据权利要求6所述的数据采集的装置,其特征在于,所述第一采集单元包括:
第二判断单元,用于判断所述首次采集字段的信息是否为空;
第三采集单元,用于若所述首次采集字段的信息为空,根据所述企业信息对所述企业进行数据采集;
第四采集单元,用于若所述首次采集字段的信息不为空,根据所述日志表以及所述企业信息对所述企业进行数据采集并更新所述企业信息表中的最后采集字段的信息和所述日志表。
8.根据权利要求7所述的数据采集的装置,其特征在于,所述第四采集单元包括:
第三判断单元,用于判断所述日志表中是否包含所述企业进行数据采集的记录;
第五采集单元,用于若所述日志表中不包含所述企业进行数据采集的记录,根据所述企业信息对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表;
第六采集单元,用于若所述日志表中包含所述企业进行数据采集的记录,根据所述企业信息和所述日志表中的标识对所述企业进行数据采集并更新所述最后采集字段的信息和所述日志表。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的数据采集的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至5任一项所述的数据采集的方法。
CN202010026613.8A 2020-01-10 2020-01-10 数据采集的方法、装置、计算机设备以及存储介质 Active CN111274217B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010026613.8A CN111274217B (zh) 2020-01-10 2020-01-10 数据采集的方法、装置、计算机设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010026613.8A CN111274217B (zh) 2020-01-10 2020-01-10 数据采集的方法、装置、计算机设备以及存储介质

Publications (2)

Publication Number Publication Date
CN111274217A true CN111274217A (zh) 2020-06-12
CN111274217B CN111274217B (zh) 2023-08-18

Family

ID=71003035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010026613.8A Active CN111274217B (zh) 2020-01-10 2020-01-10 数据采集的方法、装置、计算机设备以及存储介质

Country Status (1)

Country Link
CN (1) CN111274217B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279844A (zh) * 2013-06-14 2013-09-04 江苏瀚远科技股份有限公司 基于esb的法人库数据采集方法及其系统
CN105335516A (zh) * 2015-11-04 2016-02-17 浪潮软件集团有限公司 一种通用采集系统的构建方法
CN106126648A (zh) * 2016-06-23 2016-11-16 华南理工大学 一种基于重做日志的分布式商品信息爬虫方法
CN107577706A (zh) * 2017-07-28 2018-01-12 平安科技(深圳)有限公司 用户行为数据处理方法、装置及计算机可读存储介质
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统
CN108123820A (zh) * 2016-11-29 2018-06-05 北京神州泰岳软件股份有限公司 一种网络设备信息采集方法和装置
CN108304583A (zh) * 2018-03-06 2018-07-20 北京顶象技术有限公司 一种文件采集方法及装置
CN109785043A (zh) * 2018-12-14 2019-05-21 深圳平安综合金融服务有限公司 价格监控方法、装置、计算机设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103279844A (zh) * 2013-06-14 2013-09-04 江苏瀚远科技股份有限公司 基于esb的法人库数据采集方法及其系统
CN105335516A (zh) * 2015-11-04 2016-02-17 浪潮软件集团有限公司 一种通用采集系统的构建方法
CN106126648A (zh) * 2016-06-23 2016-11-16 华南理工大学 一种基于重做日志的分布式商品信息爬虫方法
CN108123820A (zh) * 2016-11-29 2018-06-05 北京神州泰岳软件股份有限公司 一种网络设备信息采集方法和装置
CN107577706A (zh) * 2017-07-28 2018-01-12 平安科技(深圳)有限公司 用户行为数据处理方法、装置及计算机可读存储介质
CN108052632A (zh) * 2017-12-20 2018-05-18 成都律云科技有限公司 一种网络信息获取方法、系统及企业信息搜索系统
CN108304583A (zh) * 2018-03-06 2018-07-20 北京顶象技术有限公司 一种文件采集方法及装置
CN109785043A (zh) * 2018-12-14 2019-05-21 深圳平安综合金融服务有限公司 价格监控方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN111274217B (zh) 2023-08-18

Similar Documents

Publication Publication Date Title
CN110830577B (zh) 服务请求调用追踪方法、装置、计算机设备及存储介质
CN109814524B (zh) 一种车辆诊断方法、装置及系统
CN104216822B (zh) 一种异常信息的处理方法及装置
CN110633977A (zh) 支付异常处理方法、装置及终端设备
CN112115315A (zh) 血缘数据查询方法、装置、计算机设备及存储介质
CN117238433B (zh) 基于LibreOffice进行文档数据自动隔离的方法
CN110995524A (zh) 流量数据监控方法、装置、电子设备和计算机可读介质
CN112671878B (zh) 一种区块链的信息订阅方法、装置、服务器和存储介质
CN107102876B (zh) 一种应用推送的方法及装置
CN112084262A (zh) 数据信息筛选方法、装置、计算机设备及存储介质
CN111274217A (zh) 数据采集的方法、装置、计算机设备以及存储介质
CN109710626B (zh) 数据入库管理方法、装置、电子设备,及存储介质
CN111782264A (zh) 代码分类信息提取方法、装置、计算机设备及存储介质
CN110705420A (zh) 电梯轿厢广告精准推送方法、装置及存储介质
CN114090673A (zh) 一种多数据源的数据处理方法、设备及存储介质
WO2019062087A1 (zh) 考勤数据测试方法、终端、设备以及计算机可读存储介质
CN112147987B (zh) 一种车辆诊断方法、车辆诊断装置及终端设备
CN109040990B (zh) 信息采集方法、装置、计算机设备及存储介质
CN110147379B (zh) 基于数据锁的信息采集方法、装置、计算机设备
CN113065025A (zh) 视频查重方法、装置、设备及存储介质
CN114880713B (zh) 基于数据链路的用户行为分析方法、装置、设备及介质
CN111538666A (zh) 批量收集测试结果的方法、装置、计算机设备及存储介质
CN112907395A (zh) 一种客户类型识别方法、装置及设备
CN111159244A (zh) 数据查询方法及装置
CN110727537A (zh) 统一处理响应报文的方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant