CN111581269B - 一种数据抽取方法和装置 - Google Patents
一种数据抽取方法和装置 Download PDFInfo
- Publication number
- CN111581269B CN111581269B CN202010333021.0A CN202010333021A CN111581269B CN 111581269 B CN111581269 B CN 111581269B CN 202010333021 A CN202010333021 A CN 202010333021A CN 111581269 B CN111581269 B CN 111581269B
- Authority
- CN
- China
- Prior art keywords
- data
- data extraction
- extraction
- task
- nodes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种数据抽取方法和装置,其方法包括以下步骤,S1,获取数据抽取任务,并所述数据抽取任务划分多个数据抽取子任务;S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;S3,根据所述数据抽取顺序表从数据库中抽取数据。在本发明中,数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。
Description
技术领域
本发明涉及大数据领域,具体涉及一种数据抽取方法和装置。
背景技术
大数据时代,数据的生产达到了空前的速度,数据的来源、种类、组织形式也越来越广泛,这给数据采集系统,提出了更高的要求。数据抽取是数据采集系统的重要步骤,其主要作用是从各种各样的原始的格式化或者非格式化数据,抽取出指定内容并将其组织成一定格式以便其它系统使用。但对于大数据而言,采用现有的数据抽取方法无法满足各大引用对数据抽取速度的要求。
发明内容
本发明所要解决的技术问题是提供一种数据抽取方法和装置,可以快速的从大数据中抽取数据。
本发明解决上述技术问题的技术方案如下:一种数据抽取方法,包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
进一步,在所述S2之前还包括如下步骤,
根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
进一步,各个所述数据节点之间的关系包括继承关系和并列关系。
进一步,在所述S3后还包括如下步骤,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
基于上述一种数据抽取方法,本发明还提供一种数据抽取装置。
一种数据抽取装置,包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
进一步,还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
进一步,各个所述数据节点之间的关系包括继承关系和并列关系。
进一步,所述数据节点布置模块还用于,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
本发明的有益效果是:本发明一种数据抽取的方法和装置通过划分多个数据抽取子任务;根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;根据所述数据抽取顺序表从数据库中抽取数据;数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。
附图说明
图1为本发明一种数据抽取方法的流程图;
图2为本发明一种数据抽取装置的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种数据抽取方法,包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据。
在本具体实施例中,所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
在本具体实施例中,在所述S2之前还包括如下步骤,
根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
在本具体实施例中,各个所述数据节点之间的关系包括继承关系和并列关系。
在本具体实施例中,在所述S3后还包括如下步骤,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
基于上述一种数据抽取方法方法,本发明还提供一种数据抽取装置。
如图2所示,一种数据抽取装置,包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据。
在本具体实施例中,所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
在本具体实施例中,本发明还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
在本具体实施例中,各个所述数据节点之间的关系包括继承关系和并列关系。
在本具体实施例中,所述数据节点布置模块还用于,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
本发明一种数据抽取的方法和装置通过划分多个数据抽取子任务;根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;根据所述数据抽取顺序表从数据库中抽取数据;数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种数据抽取方法,其特征在于:包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据;
在所述S2之前还包括如下步骤,根据数据类型和数据之间的关联关系在数据库中布置多个数据节点;
在所述S3后还包括如下步骤,在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
2.根据权利要求1所述的数据抽取方法,其特征在于:所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
3.根据权利要求1或2所述的数据抽取方法,其特征在于:各个所述数据节点之间的关系包括继承关系和并列关系。
4.一种数据抽取装置,其特征在于:包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据;
还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点;
所述数据节点布置模块还用于,在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
5.根据权利要求4所述的数据抽取装置,其特征在于:所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
6.根据权利要求4或5所述的数据抽取装置,其特征在于:各个所述数据节点之间的关系包括继承关系和并列关系。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333021.0A CN111581269B (zh) | 2020-04-24 | 2020-04-24 | 一种数据抽取方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010333021.0A CN111581269B (zh) | 2020-04-24 | 2020-04-24 | 一种数据抽取方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111581269A CN111581269A (zh) | 2020-08-25 |
CN111581269B true CN111581269B (zh) | 2023-06-20 |
Family
ID=72124487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010333021.0A Active CN111581269B (zh) | 2020-04-24 | 2020-04-24 | 一种数据抽取方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111581269B (zh) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104199912B (zh) * | 2014-08-28 | 2018-10-26 | 无锡天脉聚源传媒科技有限公司 | 一种任务处理的方法及装置 |
CN104615778A (zh) * | 2015-02-27 | 2015-05-13 | 浪潮集团有限公司 | 一种避免数据重抽的方法和装置及系统 |
CN110083651B (zh) * | 2015-11-20 | 2021-06-29 | 杭州数梦工场科技有限公司 | 一种数据加载的方法和装置 |
US10713429B2 (en) * | 2017-02-10 | 2020-07-14 | Microsoft Technology Licensing, Llc | Joining web data with spreadsheet data using examples |
IL264050B (en) * | 2018-01-01 | 2021-12-01 | Rookout Ltd | System and method for controlled extraction of information in computer networks |
CN109725994B (zh) * | 2018-06-15 | 2024-02-06 | 中国平安人寿保险股份有限公司 | 数据抽取任务执行方法、装置、终端及可读存储介质 |
CN109725995B (zh) * | 2018-06-15 | 2024-04-12 | 中国平安人寿保险股份有限公司 | 数据抽取任务执行方法、装置、设备及可读存储介质 |
CN110362562A (zh) * | 2019-07-16 | 2019-10-22 | 中国工商银行股份有限公司 | 大数据抽取样本数据的方法及系统 |
-
2020
- 2020-04-24 CN CN202010333021.0A patent/CN111581269B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885610A (zh) * | 2019-02-13 | 2019-06-14 | 北京百度网讯科技有限公司 | 一种结构化数据的抽取方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111581269A (zh) | 2020-08-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109542889B (zh) | 流式数据列存储方法、装置、设备和存储介质 | |
CN106547918B (zh) | 一种统计数据的整合方法及系统 | |
CN110674154B (zh) | 一种基于Spark的对Hive中数据进行插入、更新和删除的方法 | |
CN109376196B (zh) | 一种redo日志批量同步方法及装置 | |
CN106126601A (zh) | 一种社保大数据分布式预处理方法及系统 | |
CN105279280A (zh) | 快速迁移Oracle数据到MPP数据库的方法及工具 | |
CN110245134B (zh) | 一种应用于搜索服务的增量同步方法 | |
CN110851511A (zh) | 数据同步的方法及装置 | |
CN105447172A (zh) | 一种Hadoop平台下的数据处理方法和系统 | |
CN109669975B (zh) | 一种工业大数据处理系统及方法 | |
CN112269791B (zh) | 一种区块链账本处理方法 | |
CN113177090A (zh) | 数据处理方法及装置 | |
CN104881475A (zh) | 一种用于大数据随机抽样的方法和系统 | |
CN103810197A (zh) | 一种基于Hadoop的数据处理方法及其系统 | |
CN104391891A (zh) | 一种数据库异构复制方法 | |
CN110704442A (zh) | 一种大数据的实时获取方法及装置 | |
CN110019169B (zh) | 一种数据处理的方法及装置 | |
CN111581269B (zh) | 一种数据抽取方法和装置 | |
CN108304527B (zh) | 一种数据提取方法 | |
CN107301203B (zh) | 一种海量数据的比对方法及系统 | |
US11641346B2 (en) | Data anonymity method and data anonymity system | |
CN106599113B (zh) | 用于网管系统海量性能数据的数据库读写方法 | |
CN110704407B (zh) | 一种数据去重的方法和系统 | |
CN107291938A (zh) | 订单查询系统及方法 | |
CN113590651B (zh) | 一种基于hql的跨集群数据处理系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |