CN111241177A - 数据采集方法、系统及网络设备 - Google Patents

数据采集方法、系统及网络设备 Download PDF

Info

Publication number
CN111241177A
CN111241177A CN201911424097.8A CN201911424097A CN111241177A CN 111241177 A CN111241177 A CN 111241177A CN 201911424097 A CN201911424097 A CN 201911424097A CN 111241177 A CN111241177 A CN 111241177A
Authority
CN
China
Prior art keywords
data
acquisition
information
structured
data source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911424097.8A
Other languages
English (en)
Other versions
CN111241177B (zh
Inventor
张权
谢云龙
吕烨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Original Assignee
China United Network Communications Group Co Ltd
Unicom Big Data Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China United Network Communications Group Co Ltd, Unicom Big Data Co Ltd filed Critical China United Network Communications Group Co Ltd
Priority to CN201911424097.8A priority Critical patent/CN111241177B/zh
Publication of CN111241177A publication Critical patent/CN111241177A/zh
Application granted granted Critical
Publication of CN111241177B publication Critical patent/CN111241177B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供一种数据采集方法、系统及网络设备,该方法包括:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定采集规则中具有过滤规则信息且数据源不支持结构化查询,则根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据;从过滤规则信息中提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至目标库地址对应的目标库中。通过在采集任务信息中配置数据源地址和目标库地址,实现了多源异构数据的数据采集,并通过将配置过滤规则信息同时不支持结构化查询的数据源数据进行结构化转化提取,实现了非结构化数据的采集和筛选。

Description

数据采集方法、系统及网络设备
技术领域
本发明实施例涉及大数据技术领域,尤其涉及一种数据采集方法、系统及网络设备。
背景技术
随着大数据技术的飞速发展,信息化数据种类越来越多、数据体量越来越大,如果能打破各业务系统的信息孤岛,将各类数据资源进行采集汇聚、集中管理、整合挖掘、共享服务,将会产生巨大的数据价值。为了实现数据的统一采集与交换,如何按照业务需求从各类数据中自动提取、筛选特定的数据,是当前大数据采集的主要挑战之一。
现有的数据采集过程中,主要是通过ETL(Extract Transform Load,数据仓库技术)系统,对某个特定的数据源按照预先配置的规则抽取相应的数据,并对得到的数据进行存储。
然而,发明人发现现有技术至少存在以下技术问题:现有的ETL系统只能抽取特定的数据源的数据,且只能抽取满足配置的规则的结构化的数据,适用范围单一,当数据源为多个、或被采集的数据为半结构化、非结构化数据时,无法完成数据采集。
发明内容
本发明实施例提供一种数据采集方法、系统及网络设备,实现了非结构化数据的采集和筛选。
第一方面,本发明实施例提供一种数据采集方法,包括:
接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;
若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;
若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;
从所述过滤规则信息中提取各过滤条件字段;
保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
在一种可能的设计中,所述获取采集任务信息之后,还包括:
若判定所述采集规则中不具有过滤规则信息,则根据所述数据源地址提取对应的数据源的数据,并将所述数据源的数据保存至目标库地址对应的目标库中。
在一种可能的设计中,所述根据所述数据源地址查询对应的数据源是否支持结构化查询之后,还包括:
若所述数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。
在一种可能的设计中,所述在从所述过滤规则信息中提取各过滤条件字段之前,还包括:
将所述结构化数据保存至一个或多个中间库中;
所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中,包括:
根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
在一种可能的设计中,所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中之后,还包括:
通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
第二方面,本发明实施例提供一种数据采集系统,包括:任务调动模块、筛选配置模块和采集代理模块;
其中,所述筛选配置模块,用于接收用户输入的采集规则信息,并发送至所述任务调动模块;
所述任务调动模块,用于根据用户的输入和获取的采集规则信息生成采集任务信息,并将所述采集任务信息发送至所述采集代理模块;
所述采集代理模块,用于:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定所述采集规则中是否具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;根据所述过滤规则信息提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
在一种可能的设计中,所述系统还包括:中间库;
所述中间库,用于将所述结构化数据保存至一个或多个中间库中;根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
在一种可能的设计中,所述筛选配置模块,还用于根据用户输入生成字段映射配置信息;
所述采集代理模块,用于根据所述字段映射配置信息从所述过滤规则信息中提取各过滤条件字段。
第三方面,本发明实施例提供一种网络设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如上第一方面以及第一方面各种可能的涉设计的所述的数据采集方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上第一方面以及第一方面各种可能的设计所述的数据采集方法。
本发明实施例提供的数据采集方法、系统及网络设备,该方法通过在采集任务信息中配置数据源地址和目标库地址,实现了多源异构数据的数据采集,并通过将已配置过滤规则信息同时不支持结构化查询的数据源数据进行结构化转化提取,根据采集任务信息将多源的数据汇集到目标库中,实现了非结构化数据的采集和筛选。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的数据采集方法应用场景示意图;
图2为本发明实施例提供的数据采集方法的流程示意图一;
图3为本发明实施例提供的数据采集方法的流程示意图二;
图4为本发明实施例提供的数据采集装置的结构示意图;
图5为本发明实施例提供的数据采集系统的结构示意图;
图6为本发明实施例提供的网络设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例提供的数据采集方法应用场景示意图,如图1所示:本发明实施例中数据采集方法应用场景主要包括:目标端101,数据采集装置102以及数据源端103。其中,数据采集装置102负责采集数据源端103中的数据,并将采集的数据存储至目标库101端。
数据源端103和目标端101可能为不同种类的数据存储终端,例如大数据云存储端、企业后台大型机或政府机构后台大型机,不同终端的数据库的数据存储结构可能不同。为了更有效的共享和利用数据资源,不同终端的数据库之间可以通过数据采集和存储交换实现数据资源的整合和管理。例如,当数据源端103为大数据云存储端、目标端101为企业后台大型机时,企业后台大型机可以通过数据采集和交换,获得云存储端存储的历史服务数据,企业后台大型机可以根据采集的历史服务数据提升现有业务和解决企业服务问题。但是,现有的数据采集方法,因受限于各数据库驱动程序的能力、内存资源开销、网络带宽等因素,只实现了一对一的数据源端103数据库到目标端101数据库的采集功能,且只能完成固定数据格式的数据进行采集和存储,无法完成异构多源数据的统一采集筛选,也无法处理半结构化或者非结构化的数据,影响了大数据的发展进程。
为了解决上述技术问题,本发明对于基于上述场景的数据采集方法进行了改进,通过配置数据采集条件设定数据采集过程中的数据源端和目标端,并且对非结构化的数据进行数据结构转换,不仅可以根据业务需求灵活配置数据源端和目标端,实现了不同数据存储结构的采集和交换,还解决了非结构化数据无法采集和存储的问题。
图2为本发明实施例提供的数据采集方法的流程示意图一,本实施例的执行主体可以为图1所示实施例中的数据采集装置。如图2所示,该方法包括:
S21:接收采集任务信息,其中采集任务信息包括数据源地址、采集规则和目标库地址。
通过可视化配置界面,接受采集任务信息,包括采集的数据源地址、数据采集规则和存储的目标库地址。通过可视化配置界面,配置数据采集条件,具体包括数据源地址、类型,采集的对象名称、格式、过滤条件等规则,目标库类型、地址、目标对象、字段映射、数据处理脚本等信息。
在数据采集过程中,通过整合多种采集技术,为各种异构数据源提供数据采集结构,可支持多种主流关系数据库高效数据采集;还可支持文本类数据离线导入;支持结构化、半结构化、非结构化的异构数据实时接入;支持全量、批量、实时等多种数据采集策略,实现不同来源、不同类型、不同特征数据的统一采集。
S22:若判定采集规则中具有过滤规则信息,则根据数据源地址查询对应的数据源是否支持结构化查询。
判断采集规则中是否配置数据采集的过滤规则信息,例如采集的条件,包括:采集的分区信息和关键词特征值等。还包括数据采集的字段到目标端数据库的映射关系,还包括配置非结构化数据的接口文件,包括接口文件的结构化信息,包括分隔符、字段类型、描述等。
若采集规则中设定了数据采集过滤规则信息,则根据数据源地址查询采集的数据库的数据是否支持结构化查询。若采集规则中配置了数据采集的过滤规则信息,则需要对采集的数据源数据根据过滤规则进行过滤。数据过滤过程中需要依据数据源数据结构进行过滤,则需要判断数据源地值对应的数据源是否支持结构化查询。
S23:若数据源不支持结构化查询,则根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据。
若判定数据源数据不支持结构化查询,则认为数据源数据无法通过数据结构进行过滤,无法满足采集规则中过滤规则。为了实现过滤规则要求的数据过滤,可根据采集规则中的数据转化文件信息对数据源的数据进行结构化提取,获得结构化数据。其中数据转化信息存储在非结构化数据的接口文件中,具体描述了非结构化数据的结构化信息,包括分隔符、字段类型、描述等。根据数据转化文件信息中的结构化信息,进行数据结构化转换。
S24:从过滤规则信息中提取各过滤条件字段。
根据数据采集规则中配置的过滤规则提取数据过滤条件字段,例如,针对销售数据的过滤条件包括商品类型、售价或者销售数量等,根据数据过滤条件字段进行筛选,提取符合过滤字段要求的数据源数据。
S25:保存各过滤条件字段与对应的结构化数据,至目标库地址对应的目标库中。
根据过滤条件字段,保存各种过滤条件字段对应的结构化数据。例如数据过滤条件字段包括商品类型、售价和销售数量,保存销售数据中商品类型、售价和销售数量对应的结构化数据,并将结构化数据存储至目标库地址对应的目标库中。
从上述实施例可知,通过判断采集规则中是否配置数据采集的过滤规则信息以及判断数据源数据是否支持结构化查询,将配置了过滤规则信息及不支持结构化查询的数据源数据进行结构化转化提取,获得结构化数据,并根据过滤条件字段,将结构化数据至目标库地址对应的目标库中。本发明实施例提供的数据采集方法,通过在采集任务信息中配置数据源地址和目标库地址,实现了多源异构数据的数据采集,并通过将配置过滤规则信息同时不支持结构化查询的数据源数据进行结构化转化提取,根据采集任务信息将多源的数据汇集到目标库中,实现了非结构化数据的采集和筛选。
图3为本发明实施例提供的数据采集方法的流程示意图二,本实施例在图2实施例的基础上,对本实施例的具体实现过程进行了详细说明。如图3所示,该方法包括:
S31:接收采集任务信息。其中,采集任务信息包括数据源地址、采集规则和目标库地址。
S32:判断采集规则中是否具有过滤规则信息。若是,则执行S33,若否,则执行S38。
S33:判断根据数据源地址查询对应的数据源是否支持结构化查询,若否,则执行S34,若是,则执行S36。
S34:根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据。
S35:将结构化数据保存至一个或多个中间库。
采用开源Hive作为中间存储集群,支持将各类数据Load到中间存储空间当中。通过Hive SQL的能力达到结构化查询筛选目的,数据采集完成后自动删除中间存储的数据,以节省磁盘空间。将数据源数据完全Load到中间库进行存储,如果数据量较大可以通过增加并发数及集群资源的方式提高性能。
S36:从过滤规则信息中提取各过滤条件字段。
S37:根据各过滤条件字段从一个或多个中间库中提取对应的结构化数据至目标库中。
根据任务的过滤条件字段提取映射关系,从一个或多个中间库中提取对应的结构化数据至目标库中。
S38:根据数据源地址提取对应的数据源的数据,并将数据源的数据保存至目标库地址对应的目标库中。
当采集规则中没有过滤规则信息时,将根据数据源地址提取对应的数据源的数据,直接保存至目标库地址对应的目标库中。
S39:通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
同时通过MD5等方式作数据一致性检查,保证数据完整性。数据采集交换完成后,通过删除中间库的数据以节省存储空间。
其中,S31至S34与图2实施例中的S21至S23类似以及S36与图2实施例中的S24类似,本实施例此处不做特别限制。
本实施例提供的数据采集方法,当采集规则中没有过滤规则信息时,将根据数据源地址提取对应的数据源的数据,直接保存至目标库地址对应的目标库中;当数据源是支持结构化查询时,根据过滤规则信息中各过滤条件字段从一个或多个中间库中提取对应的结构化数据至目标库中;并通过MD5加密算法对数据进行检验,保证数据的一致性和完整性。
图4为本发明实施例提供的数据采集装置的结构示意图。如图4所示,该数据采集设备40包括:接收模块401、查询模块402、获得模块403、第一提取模块404以及第一保存模块405。
接收模块401,用于接收采集任务信息,其中采集任务信息包括数据源地址、采集规则和目标库地址。
查询模块402,用于若判定采集规则中具有过滤规则信息,则根据数据源地址查询对应的数据源是否支持结构化查询。
获得模块403,用于若数据源不支持结构化查询,则根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据。
第一提取模块404,用于从过滤规则信息中提取各过滤条件字段。
第一保存模块405,用于保存各过滤条件字段与对应的结构化数据,至目标库地址对应的目标库中。
本实施例提供的设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
在本发明的一个实施例中,数据采集装置还包括:
第二保存模块,用于若判定采集规则中不具有过滤规则信息,则根据数据源地址提取对应的数据源的数据,并将数据源的数据保存至目标库地址对应的目标库中。
在本发明的一个实施例中,数据采集装置还包括:
第二提取模块,用于若数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。
在本发明的一个实施例中,数据采集装置还包括:
第三保存模块,用于将结构化数据保存至一个或多个中间库中;则第一保存模块405,具体还用于根据各过滤条件字段从一个或多个中间库中提取对应的结构化数据至目标库中。
在本发明的一个实施例中,数据采集装置还包括:
校验模块,用于通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
图5为本发明实施例提供的数据采集系统的结构示意图。如图5所示,本实施例的数据采集系统50包括:筛选配置模块501、任务调动模块502和采集代理模块503。
筛选配置模块501,用于接收用户输入的采集规则信息,并发送至任务调动模块;
任务调动模块502,用于根据用户的输入和获取的采集规则信息生成采集任务信息,并将采集任务信息发送至采集代理模块;
采集代理模块503,用于接收采集任务信息,其中采集任务信息包括数据源地址、采集规则和目标库地址;若判定采集规则中是否具有过滤规则信息,则根据数据源地址查询对应的数据源是否支持结构化查询;若数据源不支持结构化查询,则根据采集规则中的数据转化文件信息对数据源中的数据进行结构化转化提取,获得结构化数据;根据过滤规则信息提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至目标库地址对应的目标库中。
在本发明的一个实施例中,如图5所示,系统还包括:中间库504,用于将结构化数据保存至一个或多个中间库中;根据各过滤条件字段从一个或多个中间库中提取对应的结构化数据至目标库中。
在本发明的一个实施例中,筛选配置模块,还用于根据用户输入生成字段映射配置信息;采集代理模块,用于根据字段映射配置信息从过滤规则信息中提取各过滤条件字段。
图6为本发明实施例提供的网络设备的硬件结构示意图。如图6所示,本实施例的网络设备60包括:处理器601以及存储器602;其中:
存储器602,用于存储计算机执行指令;
处理器601,用于执行存储器存储的计算机执行指令,以实现上述实施例中数据采集装置所执行的各个步骤。具体可以参见前述方法实施例中的相关描述。
可选地,存储器602既可以是独立的,也可以跟处理器601集成在一起。
当存储器602独立设置时,该网络设备还包括总线603,用于连接所述存储器602和处理器601。
本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如上所述的数据采集方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或模块的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能模块的形式实现的集成的模块,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器执行本申请各个实施例所述方法的部分步骤。
应理解,上述处理器可以是中央处理单元(Central Processing Unit,简称CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
存储器可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。
总线可以是工业标准体系结构(Industry Standard Architecture,简称ISA)总线、外部设备互连(Peripheral Component Interconnect,简称PCI)总线或扩展工业标准体系结构(Extended Industry Standard Architecture,简称EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,本申请附图中的总线并不限定仅有一根总线或一种类型的总线。
上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。
一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits,简称ASIC)中。当然,处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种数据采集方法,其特征在于,包括:
接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;
若判定所述采集规则中具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;
若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;
从所述过滤规则信息中提取各过滤条件字段;
保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
2.根据权利要求1所述的方法,其特征在于,所述获取采集任务信息之后,还包括:
若判定所述采集规则中不具有过滤规则信息,则根据所述数据源地址提取对应的数据源的数据,并将所述数据源的数据保存至目标库地址对应的目标库中。
3.根据权利要求1所述的方法,其特征在于,所述根据所述数据源地址查询对应的数据源是否支持结构化查询之后,还包括:
若所述数据源支持结构化查询,则执行根据滤规则信息提取各过滤条件字段的步骤。
4.根据权利要求1所述的方法,其特征在于,所述在从所述过滤规则信息中提取各过滤条件字段之前,还包括:
将所述结构化数据保存至一个或多个中间库中;
所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中,包括:
根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中之后,还包括:
通过信息摘要MD5加密算法对保存在目标库的数据进行检验。
6.一种数据采集系统,其特征在于,包括:任务调动模块、筛选配置模块和采集代理模块;
其中,所述筛选配置模块,用于接收用户输入的采集规则信息,并发送至所述任务调动模块;
所述任务调动模块,用于根据用户的输入和获取的采集规则信息生成采集任务信息,并将所述采集任务信息发送至所述采集代理模块;
所述采集代理模块,用于:接收采集任务信息,其中所述采集任务信息包括数据源地址、采集规则和目标库地址;若判定所述采集规则中是否具有过滤规则信息,则根据所述数据源地址查询对应的数据源是否支持结构化查询;若所述数据源不支持结构化查询,则根据所述采集规则中的数据转化文件信息对所述数据源中的数据进行结构化转化提取,获得结构化数据;根据所述过滤规则信息提取各过滤条件字段;保存各过滤条件字段与对应的结构化数据,至所述目标库地址对应的目标库中。
7.根据权利要求6所述的系统,其特征在于,所述系统还包括:中间库;
所述中间库,用于将所述结构化数据保存至一个或多个中间库中;根据各过滤条件字段从所述一个或多个中间库中提取对应的结构化数据至所述目标库中。
8.根据权利要求6所述的系统,其特征在于,所述筛选配置模块,还用于根据用户输入生成字段映射配置信息;
所述采集代理模块,用于根据所述字段映射配置信息从所述过滤规则信息中提取各过滤条件字段。
9.一种网络设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至5任一项所述的数据采集方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的数据采集方法。
CN201911424097.8A 2019-12-31 2019-12-31 数据采集方法、系统及网络设备 Active CN111241177B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911424097.8A CN111241177B (zh) 2019-12-31 2019-12-31 数据采集方法、系统及网络设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911424097.8A CN111241177B (zh) 2019-12-31 2019-12-31 数据采集方法、系统及网络设备

Publications (2)

Publication Number Publication Date
CN111241177A true CN111241177A (zh) 2020-06-05
CN111241177B CN111241177B (zh) 2023-07-04

Family

ID=70866107

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911424097.8A Active CN111241177B (zh) 2019-12-31 2019-12-31 数据采集方法、系统及网络设备

Country Status (1)

Country Link
CN (1) CN111241177B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532720A (zh) * 2020-11-27 2021-03-19 北京百度网讯科技有限公司 数据转发的方法、装置、设备以及存储介质
CN112580307A (zh) * 2020-12-14 2021-03-30 用友网络科技股份有限公司 多数据源取数方法、装置、系统和可读存储介质
CN112800755A (zh) * 2021-02-05 2021-05-14 北京明略软件系统有限公司 一种数据治理方法及系统
CN113051329A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 基于接口的数据采集方法、装置、设备及存储介质
CN113468340A (zh) * 2021-06-28 2021-10-01 北京众标智能科技有限公司 一种产业知识图谱的构建系统及构建方法
CN113867912A (zh) * 2021-09-26 2021-12-31 中国联合网络通信集团有限公司 执行任务的方法、装置、电子设备及可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021537A1 (en) * 2003-07-22 2005-01-27 Rainer Brendle Self-describing business objects
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
US20130091266A1 (en) * 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统
US20170098100A1 (en) * 2015-10-06 2017-04-06 Sap Se Consent handling during data harvesting
CN107491499A (zh) * 2017-07-27 2017-12-19 杭州中奥科技有限公司 一种基于非结构化数据的舆情预警方法
CN108491499A (zh) * 2018-03-20 2018-09-04 苏州思必驰信息科技有限公司 数据采集方法、数据采集平台、客户端及业务服务器
CN108595622A (zh) * 2018-04-23 2018-09-28 泰华智慧产业集团股份有限公司 基于大数据分析单车牌串并的方法及系统
US20180374580A1 (en) * 2017-05-01 2018-12-27 Health Solutions Research, Inc. Risk identification and response
CN109783441A (zh) * 2018-12-24 2019-05-21 南京中新赛克科技有限责任公司 基于Bloom Filter的海量数据查询方法
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050021537A1 (en) * 2003-07-22 2005-01-27 Rainer Brendle Self-describing business objects
CN101840432A (zh) * 2010-05-11 2010-09-22 同方知网(北京)技术有限公司 一种基于Deep Web深层动态数据的数据挖掘装置及方法
US20130091266A1 (en) * 2011-10-05 2013-04-11 Ajit Bhave System for organizing and fast searching of massive amounts of data
CN104077402A (zh) * 2014-07-04 2014-10-01 用友软件股份有限公司 数据处理方法和数据处理系统
US20170098100A1 (en) * 2015-10-06 2017-04-06 Sap Se Consent handling during data harvesting
US20180374580A1 (en) * 2017-05-01 2018-12-27 Health Solutions Research, Inc. Risk identification and response
CN107491499A (zh) * 2017-07-27 2017-12-19 杭州中奥科技有限公司 一种基于非结构化数据的舆情预警方法
CN108491499A (zh) * 2018-03-20 2018-09-04 苏州思必驰信息科技有限公司 数据采集方法、数据采集平台、客户端及业务服务器
CN108595622A (zh) * 2018-04-23 2018-09-28 泰华智慧产业集团股份有限公司 基于大数据分析单车牌串并的方法及系统
CN109783441A (zh) * 2018-12-24 2019-05-21 南京中新赛克科技有限责任公司 基于Bloom Filter的海量数据查询方法
CN110442671A (zh) * 2019-08-02 2019-11-12 深圳百胜扬工业电子商务平台发展有限公司 一种非结构化数据处理的方法和系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
段青玲;魏芳芳;张磊;肖晓琰;: "基于Web数据的农业网络信息自动采集与分类系统", 农业工程学报, no. 12 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112532720A (zh) * 2020-11-27 2021-03-19 北京百度网讯科技有限公司 数据转发的方法、装置、设备以及存储介质
CN112580307A (zh) * 2020-12-14 2021-03-30 用友网络科技股份有限公司 多数据源取数方法、装置、系统和可读存储介质
CN112800755A (zh) * 2021-02-05 2021-05-14 北京明略软件系统有限公司 一种数据治理方法及系统
CN113051329A (zh) * 2021-04-12 2021-06-29 平安国际智慧城市科技股份有限公司 基于接口的数据采集方法、装置、设备及存储介质
CN113051329B (zh) * 2021-04-12 2024-03-15 平安国际智慧城市科技股份有限公司 基于接口的数据采集方法、装置、设备及存储介质
CN113468340A (zh) * 2021-06-28 2021-10-01 北京众标智能科技有限公司 一种产业知识图谱的构建系统及构建方法
CN113468340B (zh) * 2021-06-28 2024-05-07 北京众标智能科技有限公司 一种产业知识图谱的构建系统及构建方法
CN113867912A (zh) * 2021-09-26 2021-12-31 中国联合网络通信集团有限公司 执行任务的方法、装置、电子设备及可读存储介质
CN113867912B (zh) * 2021-09-26 2024-05-28 中国联合网络通信集团有限公司 执行任务的方法、装置、电子设备及可读存储介质

Also Published As

Publication number Publication date
CN111241177B (zh) 2023-07-04

Similar Documents

Publication Publication Date Title
CN111241177B (zh) 数据采集方法、系统及网络设备
CN107391744B (zh) 数据存储、读取方法、装置及其设备
CN109344153B (zh) 业务数据的处理方法及终端设备
CN103064933A (zh) 数据查询方法及系统
CN111221791A (zh) 一种多源异构数据导入数据湖的方法
CN111400393B (zh) 基于多应用平台的数据处理方法和装置、存储介质
US9355106B2 (en) Sensor data locating
US8417688B2 (en) Converting two-tier resource mapping to one-tier resource mapping
CN110851474A (zh) 数据查询方法、数据库中间件、数据查询设备及存储介质
CN111611249A (zh) 数据管理方法、装置、设备及存储介质
JP6269140B2 (ja) アクセス制御プログラム、アクセス制御方法、およびアクセス制御装置
AU2020274505A1 (en) Blockchain cache system
CN114741392A (zh) 数据查询方法、装置、电子设备及存储介质
CN112860412B (zh) 业务数据处理方法、装置、电子设备及存储介质
CN110309206B (zh) 订单信息采集方法及系统
CN110598072B (zh) 一种特征数据聚合方法及装置
WO2022001626A1 (zh) 注入时序数据的方法、查询时序数据的方法及数据库系统
CN116628042A (zh) 数据处理方法、装置、设备及介质
CN111209304B (zh) 数据处理方法、装置及系统
CN114020214A (zh) 存储集群的扩容方法、装置、电子设备及可读存储介质
CN109284278B (zh) 基于数据分析技术的计算逻辑迁移方法及终端设备
CN111782588A (zh) 一种文件读取方法、装置、设备和介质
CN113076178B (zh) 报文存储方法、装置及设备
CN114240224A (zh) 业务策略生成方法及装置
CN113625962B (zh) 分布式存储的动态子树优化方法、系统、终端及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant