CN111581269A - 一种数据抽取方法和装置 - Google Patents

一种数据抽取方法和装置 Download PDF

Info

Publication number
CN111581269A
CN111581269A CN202010333021.0A CN202010333021A CN111581269A CN 111581269 A CN111581269 A CN 111581269A CN 202010333021 A CN202010333021 A CN 202010333021A CN 111581269 A CN111581269 A CN 111581269A
Authority
CN
China
Prior art keywords
data
data extraction
nodes
extraction
task
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010333021.0A
Other languages
English (en)
Other versions
CN111581269B (zh
Inventor
张涛
李卫群
兰海翔
陶心万
潘忠瑞
黄纪萍
杨启帆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guizhou Lichuang Technology Development Co ltd
Original Assignee
Guizhou Lichuang Technology Development Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guizhou Lichuang Technology Development Co ltd filed Critical Guizhou Lichuang Technology Development Co ltd
Priority to CN202010333021.0A priority Critical patent/CN111581269B/zh
Publication of CN111581269A publication Critical patent/CN111581269A/zh
Application granted granted Critical
Publication of CN111581269B publication Critical patent/CN111581269B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种数据抽取方法和装置,其方法包括以下步骤,S1,获取数据抽取任务,并所述数据抽取任务划分多个数据抽取子任务;S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;S3,根据所述数据抽取顺序表从数据库中抽取数据。在本发明中,数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。

Description

一种数据抽取方法和装置
技术领域
本发明涉及大数据领域,具体涉及一种数据抽取方法和装置。
背景技术
大数据时代,数据的生产达到了空前的速度,数据的来源、种类、组织形式也越来越广泛,这给数据采集系统,提出了更高的要求。数据抽取是数据采集系统的重要步骤,其主要作用是从各种各样的原始的格式化或者非格式化数据,抽取出指定内容并将其组织成一定格式以便其它系统使用。但对于大数据而言,采用现有的数据抽取方法无法满足各大引用对数据抽取速度的要求。
发明内容
本发明所要解决的技术问题是提供一种数据抽取方法和装置,可以快速的从大数据中抽取数据。
本发明解决上述技术问题的技术方案如下:一种数据抽取方法,包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
进一步,在所述S2之前还包括如下步骤,
根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
进一步,各个所述数据节点之间的关系包括继承关系和并列关系。
进一步,在所述S3后还包括如下步骤,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
基于上述一种数据抽取方法,本发明还提供一种数据抽取装置。
一种数据抽取装置,包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
进一步,还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
进一步,各个所述数据节点之间的关系包括继承关系和并列关系。
进一步,所述数据节点布置模块还用于,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
本发明的有益效果是:本发明一种数据抽取的方法和装置通过划分多个数据抽取子任务;根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;根据所述数据抽取顺序表从数据库中抽取数据;数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。
附图说明
图1为本发明一种数据抽取方法的流程图;
图2为本发明一种数据抽取装置的结构框图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,一种数据抽取方法,包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据。
在本具体实施例中,所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
在本具体实施例中,在所述S2之前还包括如下步骤,
根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
在本具体实施例中,各个所述数据节点之间的关系包括继承关系和并列关系。
在本具体实施例中,在所述S3后还包括如下步骤,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
基于上述一种数据抽取方法方法,本发明还提供一种数据抽取装置。
如图2所示,一种数据抽取装置,包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据。
在本具体实施例中,所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
在本具体实施例中,本发明还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
在本具体实施例中,各个所述数据节点之间的关系包括继承关系和并列关系。
在本具体实施例中,所述数据节点布置模块还用于,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
本发明一种数据抽取的方法和装置通过划分多个数据抽取子任务;根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;根据所述数据抽取顺序表从数据库中抽取数据;数据节点是根据数据类型和数据之间的关联关系构建的,依据数据节点抽取数据,可以避免对数据重复的搜索,并且数据节点的关系包括继承关系和并列关系,即可以依顺序并列的抽取多个数据,从而可以大大提高数据抽取速度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种数据抽取方法,其特征在于:包括以下步骤,
S1,获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
S2,分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
S3,根据所述数据抽取顺序表从数据库中抽取数据。
2.根据权利要求1所述的数据抽取方法,其特征在于:所述S1具体为,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
3.根据权利要求1或2所述的数据抽取方法,其特征在于:在所述S2之前还包括如下步骤,
根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
4.根据权利要求3所述的数据抽取方法,其特征在于:各个所述数据节点之间的关系包括继承关系和并列关系。
5.根据权利要求3所述的数据抽取方法,其特征在于:在所述S3后还包括如下步骤,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
6.一种数据抽取装置,其特征在于:包括以下模块,
任务划分模块,其用于获取数据抽取任务,并将所述数据抽取任务划分多个数据抽取子任务;
数据抽取顺序确定模块,其用于分别根据各个所述数据抽取子任务选取对应的数据节点,根据所有的所述数据节点制作数据抽取顺序表;
数据抽取模块,其用于根据所述数据抽取顺序表从数据库中抽取数据。
7.根据权利要求6所述的数据抽取装置,其特征在于:所述任务划分模块具体用于,
获取数据抽取任务,从所述数据抽取任务中分类出待抽取数据的数据类型,根据所述数据类型将所述数据抽取任务划分多个数据抽取子任务。
8.根据权利要求6或7所述的数据抽取装置,其特征在于:还包括数据节点布置模块,其用于根据数据类型和数据之间的关联关系在数据库中布置多个数据节点。
9.根据权利要求8所述的数据抽取装置,其特征在于:各个所述数据节点之间的关系包括继承关系和并列关系。
10.根据权利要求8所述的数据抽取装置,其特征在于:所述数据节点布置模块还用于,
在抽取后的数据库中,根据剩余的数据类型和剩余的数据之间的关联关系在重新布置多个数据节点。
CN202010333021.0A 2020-04-24 2020-04-24 一种数据抽取方法和装置 Active CN111581269B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010333021.0A CN111581269B (zh) 2020-04-24 2020-04-24 一种数据抽取方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010333021.0A CN111581269B (zh) 2020-04-24 2020-04-24 一种数据抽取方法和装置

Publications (2)

Publication Number Publication Date
CN111581269A true CN111581269A (zh) 2020-08-25
CN111581269B CN111581269B (zh) 2023-06-20

Family

ID=72124487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010333021.0A Active CN111581269B (zh) 2020-04-24 2020-04-24 一种数据抽取方法和装置

Country Status (1)

Country Link
CN (1) CN111581269B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199912A (zh) * 2014-08-28 2014-12-10 无锡天脉聚源传媒科技有限公司 一种任务处理的方法及装置
CN104615778A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种避免数据重抽的方法和装置及系统
CN105260485A (zh) * 2015-11-20 2016-01-20 杭州数梦工场科技有限公司 一种数据加载的方法和装置
US20180232351A1 (en) * 2017-02-10 2018-08-16 Microsoft Technology Licensing, Llc Joining web data with spreadsheet data using examples
CN109725994A (zh) * 2018-06-15 2019-05-07 中国平安人寿保险股份有限公司 数据抽取任务执行方法、装置、终端及可读存储介质
CN109725995A (zh) * 2018-06-15 2019-05-07 中国平安人寿保险股份有限公司 数据抽取任务执行方法、装置、设备及可读存储介质
CN109885610A (zh) * 2019-02-13 2019-06-14 北京百度网讯科技有限公司 一种结构化数据的抽取方法、装置、电子设备及存储介质
US20190205242A1 (en) * 2018-01-01 2019-07-04 Rookout Ltd. System and method for controlled data extraction in computer networks
CN110362562A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 大数据抽取样本数据的方法及系统

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104199912A (zh) * 2014-08-28 2014-12-10 无锡天脉聚源传媒科技有限公司 一种任务处理的方法及装置
CN104615778A (zh) * 2015-02-27 2015-05-13 浪潮集团有限公司 一种避免数据重抽的方法和装置及系统
CN105260485A (zh) * 2015-11-20 2016-01-20 杭州数梦工场科技有限公司 一种数据加载的方法和装置
US20180232351A1 (en) * 2017-02-10 2018-08-16 Microsoft Technology Licensing, Llc Joining web data with spreadsheet data using examples
US20190205242A1 (en) * 2018-01-01 2019-07-04 Rookout Ltd. System and method for controlled data extraction in computer networks
CN109725994A (zh) * 2018-06-15 2019-05-07 中国平安人寿保险股份有限公司 数据抽取任务执行方法、装置、终端及可读存储介质
CN109725995A (zh) * 2018-06-15 2019-05-07 中国平安人寿保险股份有限公司 数据抽取任务执行方法、装置、设备及可读存储介质
CN109885610A (zh) * 2019-02-13 2019-06-14 北京百度网讯科技有限公司 一种结构化数据的抽取方法、装置、电子设备及存储介质
CN110362562A (zh) * 2019-07-16 2019-10-22 中国工商银行股份有限公司 大数据抽取样本数据的方法及系统

Also Published As

Publication number Publication date
CN111581269B (zh) 2023-06-20

Similar Documents

Publication Publication Date Title
CN109376196B (zh) 一种redo日志批量同步方法及装置
US9619492B2 (en) Data migration
CN106547918B (zh) 一种统计数据的整合方法及系统
US10783163B2 (en) Instance-based distributed data recovery method and apparatus
CN106126601A (zh) 一种社保大数据分布式预处理方法及系统
CN111159428A (zh) 经济领域知识图谱事件关系自动抽取的方法和装置
CN110245134B (zh) 一种应用于搜索服务的增量同步方法
CN105279280A (zh) 快速迁移Oracle数据到MPP数据库的方法及工具
CN110851511A (zh) 数据同步的方法及装置
CN106021301B (zh) 一种不同文件格式的数据比对系统及方法
CN112231417A (zh) 数据分类方法、装置、电子设备及存储介质
US10552394B2 (en) Data storage with improved efficiency
CN105760485A (zh) 财务数据抽取方法及系统
CN106855862A (zh) 一种快速比较方法及装置
CN103475532A (zh) 硬件检测方法和系统
CN103793500A (zh) 基于增量的主数据同步方法
CN113723501A (zh) 一种病原微生物参考知识库的最大多样性聚类构建方法
CN111581269A (zh) 一种数据抽取方法和装置
CN110704407B (zh) 一种数据去重的方法和系统
CN115827777A (zh) 一种多数据源的自适应同步与差异识别方法、装置及设备
CN116303427A (zh) 数据处理方法及装置、电子设备和存储介质
CN111143329B (zh) 一种数据处理方法及装置
CN105512270A (zh) 一种确定相关对象的方法和装置
CN109669965A (zh) 一种支持非结构化数据的采集分析系统和方法
CN108121745B (zh) 一种数据加载方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant