CN104182502A - 一种数据抽取方法及装置 - Google Patents

一种数据抽取方法及装置 Download PDF

Info

Publication number
CN104182502A
CN104182502A CN201410406481.6A CN201410406481A CN104182502A CN 104182502 A CN104182502 A CN 104182502A CN 201410406481 A CN201410406481 A CN 201410406481A CN 104182502 A CN104182502 A CN 104182502A
Authority
CN
China
Prior art keywords
data
partition
data partition
thread
weight
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410406481.6A
Other languages
English (en)
Other versions
CN104182502B (zh
Inventor
曹连超
辛国茂
亓开元
刘伟
李占强
卢军佐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Beijing Electronic Information Industry Co Ltd
Original Assignee
Inspur Beijing Electronic Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Beijing Electronic Information Industry Co Ltd filed Critical Inspur Beijing Electronic Information Industry Co Ltd
Priority to CN201410406481.6A priority Critical patent/CN104182502B/zh
Publication of CN104182502A publication Critical patent/CN104182502A/zh
Application granted granted Critical
Publication of CN104182502B publication Critical patent/CN104182502B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据抽取方法,应用于关系型数据库,所述方法包括:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;根据所述各数据分区的数据行数计算所述各数据分区的权重;根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。本发明通过对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。

Description

一种数据抽取方法及装置
技术领域
本发明涉及数据抽取领域,具体涉及关系型数据库的数据抽取方法及装置。
背景技术
数据集成是把不同来源、格式和特点的数据在逻辑上或物理上有机地集中,从而提供全面的数据共享,是企业商务智能、数据仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的是关系型数据库。
从关系型数据库中抽取数据的方式可以分为直接导出备份数据和通过JDBC等接口读数据等方式。其中通过ODBC或者JDBC等接口读取的方式比较灵活,不仅可以进行数据的全量抽取,又可以进行增量抽取。然而,通过ODBC或者JDBC等接口抽取数据的方式如果不采用多线程并行的话效率会比较低,特别是大数据时代到来的今天,经常需要抽取具有上亿条数据的数据库表。多线程并行抽取数据需要对数据源中的数据进行预分割,如果每个线程分配的数据条目分布不均,多线程的效率会大打折扣;但是如果想要让每个线程分配的数据十分均匀,需要计算数据表中数据的详细分布情况,这样在抽取数据之前需要做大量的数据库操作,影响抽取数据的效率。本专利提出数据预分区的概念,通过简单的数据库预操作获取每个数据分区的数据条目数,并按照数据条目数为每个分区动态分配抽取数据的线程,可以有效解决上述难题。
发明内容
本发明所要解决的技术问题是提供一种关系型数据库的数据抽取方法,以提高数据抽取的效率。
为了解决上述技术问题,本发明提供了一种数据抽取方法,应用于关系型数据库,所述方法包括:
根据所述各数据分区的数据行数计算所述各数据分区的权重;
根据所述各数据分区的权重为所述各数据分区分配线程数;为所述各数据分区分配的线程数的总和等于预设的总线程数N,其中M≤N;
开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。
较佳地,
所述根据所述各数据分区的数据行数计算所述各数据分区的权重包括:
获取所述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1;
所述根据所述各数据分区的权重为所述各数据分区分配线程数包括:
为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - Σ m = 1 m = M n int ( m ) .
较佳地,
根据所述各数据分区的权重为所述各数据分区分配线程数之后,所述开启N个线程前,还包括:
如果数据分区分配的线程数大于等于2,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
较佳地,
根据所述各数据分区的权重为所述各数据分区分配线程数之后,所述开启N个线程前,还包括:
将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
较佳地,
所述按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取包括:
分别按照分配给所述各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取。
本发明还提供一种数据抽取装置,应用于关系型数据库,所述装置包括分区模块、分配模块和抽取模块,其中,
所述分区模块用于根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;
所述分配模块进一步包括权重计算单元和线程分配单元;
所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重;
所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;
所述抽取模块用于开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取
较佳地,
所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重是指:
获取所述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1;
所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数是指:
为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - Σ m = 1 m = M n int ( m ) .
较佳地,
所述装置还包括子分区模块,
所述子分区模块用于当线程分配单元为数据分区分配的线程数大于等于2时,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
较佳地,
所述装置还包括合并模块,
所述合并模块用于将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
较佳地,
所述抽取模块按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取是指:
分别按照分配给所述各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取。
上述方案对将数据表分为若干数据分区,动态分配各数据分区的线程数,解决了各线程分配数据不均匀的问题,提高了关系型数据的数据抽取效率。
附图说明
图1是本发明实施例一中的数据抽取方法的流程图;
图2是本发明实施例一中的数据抽取方法的数据分区示意图;
图3是本发明实施例一中的数据抽取方法的数据分区示意图;
图4是本发明实施例一中的数据抽取装置的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
本发明为效避免多线程抽取数据时线程之间分配数据不均匀引起的效率低下的问题,提出将要抽取数据的数据区间进行分区的概念,计算每个分区的权重然后为每个分区动态分配抽取数据的线程,用户可以根据实际情况设置分区数量和线程的数量,设置数据分区可以将全局问题看作一个一个局部问题去解决,针对数据的分布合理的分配线程资源。下面结合附图,对本发明的实施步骤进行详细说明。
实施例一
如图1所示,本发明中应用于关系型数据库的数据抽取方法包括:
S101:根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区;所述字段的类型为数值型或者所述字段的值能够转换成数值;
用户可以预先设定数据分区的个数M和需要分配的总线程数N。
具体的,和在选定某一字段id后,查询字段id在数据库中的最小值和最大值Min(id)和Max(id),通过ODBC或者JDBC接口在关系型数据库中执行SQL语句:
select max(id),min(id)from[表名]
将字段id的值域[Min(id),Max(id)]平均分割成M个数据分区。如图2所示,按照字段id的最小值Min(id)和最大值Max(id)平均分配M个数据分区的区间,并设1到M为每个分区的编号。
第m个数据分区的区间为RG(m),区间的左右边界分别为Rleft(m)和Rright(m),则第m个数据分区的区间表达式为:
RG ( m ) = [ R left ( m ) , R right ( m ) ) = [ Min ( id ) + T * ( m - 1 ) , Min ( id ) + T * m ) , 1 &le; m < M [ R left ( m ) , R right ( m ) ] = [ Min ( id ) + T * ( m - 1 ) , Max ( id ) ] , m = M
S102:根据所述各数据分区的数据行数计算所述各数据分区的权重;
首先需要获取述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1。
在实际操作是,可以并行的通过ODBC或者JDBC等数据库接口执行SQL查询语句获取M个数据分区的数据行数。对于编号为m的分区(1≤m<M),对应的线程通过ODBC或者JDBC接口在关系型数据库中执行SQL查询语句:
select count(*)from[表名]where id>=Rleft(m)and id<Rright(m)
对于编号为m=M的分区,对应的线程通过ODBC或者JDBC接口在关系型数据库中执行SQL查询语句:
select count(*)from[表名]where id>=Rleft(m)and id<=Max(id)
设获得的第m个分区的行数为Cm。则要抽取的数据表的总行数C的值为:
C=C1+…+Cm+…+CM,1≤m≤M
可以按照下面公式设置第m个数据分区的权值为wm,wm满足如下多项式:
w m = C m C , 1 &le; m &le; M w 1 + . . . + w m + . . . + w M = 1
在本实施例中,根据上述计算公式,数据分区的数据行数越多,其对应的权重越大。
在其它的实施例中也可以按照其它规则设置每个数据分区的权重。
S103:根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;
按照每个数据分区的权重,为每个分区动态分配抽取数据的线程数。
理想状态下,为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - &Sigma; m = 1 m = M n int ( m ) .
由于wmN很可能为小数,设ndec(m)=wmN-INT(wmN),
对集合{ndec(1),…,ndec(m),…,ndec(M)}(1≤m≤M)中的元素进行遍历,从大到小取前No个元素的分区编号m的值组成新的集合K,设kx∈K,将分区编号为kx的数据分区分配的线程数加1,即编号为kx的数据分区抽取数据的线程数为:nint(kx)+1。
至此,所有的N个线程已分配完毕。
S104:开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取
具体的,分别按照分配给各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取
具体操作时,设每个线程对应的抽取数据的数据子区间的左右边界值分别为rleft(x)和rright(x),当1≤x<N的时候,通过ODBC或者JDBC接口在关系数据库中执行如下SQL查询语句:
Select[字段1],[字段2],..,from[表名]where id>=rleft(x)and id<rright(x)
当x=N时,通过ODBC或者JDBC接口在关系数据库中执行如下SQL语句:
Select[字段1],[字段2],..,from[表名]where id>=rleft(x)and id<=rright(x)。
优选地,
在步骤S103后,S104前,还可以包括:
S3011:如果数据分区分配的线程数大于等于2,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
具体操作中,设编号为m的分区分配的线程数为nc(m),设单个分区内部每个线程抽取数据的左右边界值设为rleft(x)和rright(x),其中x为线程编号(1≤x≤nc(m))。
若nc(m)不等于0,编号为m的分区内部第x个线程抽取数据的子区间rgm(x)的表达式为:
r g m ( x ) = [ r left ( x ) , r right ( x ) ) = [ R left ( m ) + t * ( x - 1 ) , R left ( m ) + t * m ) , 1 &le; x < n c ( m ) [ r left ( x ) , r right ( x ) ] = [ R left ( m ) + t * ( x - 1 ) , R right ( m ) ] , x = n c ( m )
优选地,
在步骤S103后,S104前,还可以包括:
S1032:将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
该步骤是将分配线程数为0的数据分区的区间与临近的分配线程数非0的数据分区的相邻子区间合并。若某些数据分区分配了0个抽取数据的线程,但是这些数据分区中可能含有数据,需要将这些数据分区的区间合并到临近的分配线程数大于0的分区的相邻子区间中。默认将分配线程数为0的数据分区合并到右边分区的相邻子区间中;若分配线程数为0的数据分区处在整个数据区间的末尾,将该数据分区合并到左边数据分区的相邻子区间中。
具体在操作时,可以按以下方法操作:
1)若第m个分区分配的线程数为0且右边相邻的分区分配的线程数大于0,即nc(m)等于0且nc(m+1)>0,如图3所示,默认将编号为m的数据分区的区间RG(m)与右边临近的编号为m+1的数据分区内部第1个数据子区间rgm+1(1)合并,即rgm+1(1)=rgm+1(1)∪RG(m)。
2)若第M个分区分配的线程数为0且左边相邻的分区分配的线程数大于0(nc(M)等于0且nc(M-1)>0),默认将编号为M的数据分区的区间RG(M)与左边临近的编号为M-1的分区内部第nc(M-1)个数据子区间rgM-1(nc(M-1))(分区内部最右边的数据子区间)合并,即rgM-1(nc(M-1))=rgM-1(nc(M-1))∪RG(M)。
3)若有连续多个分配线程数为0的数据分区,将这些数据分区合并然后执行1)或者2)。
合并之后的数据子区间作为每个线程抽取数据的边界值。
如图4所示,本实施例一还提供一种数据抽取装置,包括:包括分区模块11、分配模块12和抽取模块13,其中,
所述分区模块11用于根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;
所述分配模块12进一步包括权重计算单元121和线程分配单元122;
所述权重计算单元121用于根据所述各数据分区的数据行数计算所述各数据分区的权重;
所述线程分配单元122用于根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;
所述抽取模块13用于开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。
较佳地,
所述权重计算单元121用于根据所述各数据分区的数据行数计算所述各数据分区的权重是指:
获取所述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1;
所述线程分配单元122用于根据所述各数据分区的权重为所述各数据分区分配线程数是指:
为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - &Sigma; m = 1 m = M n int ( m ) .
较佳地,所述装置还包括子分区模块14,
所述子分区模块14用于当线程分配单元为数据分区分配的线程数大于等于2时,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
较佳地,所述装置还包括合并模块15,
所述合并模块15用于将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
较佳地,
所述抽取模块13按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取是指:
分别按照分配给所述各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取。
本领域普通技术人员可以理解上述方法中的全部或部分步骤可通过程序来指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光盘等。可选地,上述实施例的全部或部分步骤也可以使用一个或多个集成电路来实现,相应地,上述实施例中的各模块/模块可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请不限制于任何特定形式的硬件和软件的结合。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (10)

1.一种数据抽取方法,应用于关系型数据库,其特征在于,所述方法包括:
根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;
根据所述各数据分区的数据行数计算所述各数据分区的权重;
根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;
开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。
2.如权利要求1所述的方法,其特征在于:
所述根据所述各数据分区的数据行数计算所述各数据分区的权重包括:
获取所述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1;
所述根据所述各数据分区的权重为所述各数据分区分配线程数包括:
为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - &Sigma; m = 1 m = M n int ( m ) .
3.如权利要求2所述的方法,其特征在于:
根据所述各数据分区的权重为所述各数据分区分配线程数之后,所述开启N个线程前,还包括:
如果数据分区分配的线程数大于等于2,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
4.如权利要求3所述的方法,其特征在于:
根据所述各数据分区的权重为所述各数据分区分配线程数之后,所述开启N个线程前,还包括:
将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
5.如权利要求4所述的方法,其特征在于:
所述按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取包括:
分别按照分配给所述各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取。
6.一种数据抽取装置,应用于关系型数据库,其特征在于,所述装置包括分区模块、分配模块和抽取模块,其中,
所述分区模块用于根据选取的数据表中某字段的值域分布,将所述数据表分成M个数据分区,所述字段的类型为数值型或者所述字段的值能够转换成数值;
所述分配模块进一步包括权重计算单元和线程分配单元;
所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重;
所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数;所述各数据分区分配的各线程数的总和等于预设的总线程数N,其中M≤N;
所述抽取模块用于开启N个线程,按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取。
7.如权利要求6所述的装置,其特征在于:
所述权重计算单元用于根据所述各数据分区的数据行数计算所述各数据分区的权重是指:
获取所述各数据分区的数据行数Cm,1≤m≤M;
第m个数据分区的权重为wmC=C1+…+Cm+…+CM,各数据分区的权重之和为1;
所述线程分配单元用于根据所述各数据分区的权重为所述各数据分区分配线程数是指:
为第m个数据分区分配线程数INT(wmN),INT为向下取整;
将剩余未分配的线程数No分配到所有数据分区中的No个数据分区中,其中, N o = N - &Sigma; m = 1 m = M n int ( m ) .
8.如权利要求7所述的装置,其特征在于,所述装置还包括子分区模块,
所述子分区模块用于当线程分配单元为数据分区分配的线程数大于等于2时,则将该数据分区均分成数据子分区,该数据分区的数据子分区的个数为该数据分区分配的线程数,该数据分区的每个数据子分区对应一个线程。
9.如权利要求8所述的装置,其特征在于,所述装置还包括合并模块,
所述合并模块用于将第i个数据分区与第j个数据分区合并,其中所述第i个数据分区分配的线程数为0,所述第j个数据分区分配的线程数不为0,1≤i≤M,1≤j≤M,i不等于j。
10.如权利要求9所述的装置,其特征在于:
所述抽取模块按照所分配的线程数,分别对所述各数据分区采用相应数量的线程进行数据抽取是指:
分别按照分配给所述各数据分区的各数据子分区的线程数,采用相应数量的线程对各数据子分区进行数据抽取。
CN201410406481.6A 2014-08-18 2014-08-18 一种数据抽取方法及装置 Active CN104182502B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410406481.6A CN104182502B (zh) 2014-08-18 2014-08-18 一种数据抽取方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410406481.6A CN104182502B (zh) 2014-08-18 2014-08-18 一种数据抽取方法及装置

Publications (2)

Publication Number Publication Date
CN104182502A true CN104182502A (zh) 2014-12-03
CN104182502B CN104182502B (zh) 2017-10-27

Family

ID=51963541

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410406481.6A Active CN104182502B (zh) 2014-08-18 2014-08-18 一种数据抽取方法及装置

Country Status (1)

Country Link
CN (1) CN104182502B (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915414A (zh) * 2015-06-04 2015-09-16 北京京东尚科信息技术有限公司 数据抽取方法及装置
CN105468725A (zh) * 2015-11-20 2016-04-06 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
CN106708620A (zh) * 2015-11-13 2017-05-24 苏宁云商集团股份有限公司 一种处理数据的方法及系统
CN106777933A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据采集方法、装置及系统
CN107045512A (zh) * 2016-02-05 2017-08-15 北京京东尚科信息技术有限公司 一种数据交换方法及系统
CN107688907A (zh) * 2017-09-05 2018-02-13 江苏电力信息技术有限公司 一种基于队列分层处理机制的物资抽检方法
CN108062399A (zh) * 2017-12-21 2018-05-22 新华三大数据技术有限公司 数据处理方法及装置
CN108664567A (zh) * 2018-04-24 2018-10-16 中国银行股份有限公司 一种基于数据表分区的数据采集方法及系统
CN108984738A (zh) * 2018-07-16 2018-12-11 中国银行股份有限公司 一种数据铺底方法及装置
CN109325015A (zh) * 2018-08-31 2019-02-12 阿里巴巴集团控股有限公司 一种领域模型的特征字段的提取方法及装置
CN110032559A (zh) * 2019-04-19 2019-07-19 成都四方伟业软件股份有限公司 一种数据抽取方法及装置
CN110597618A (zh) * 2019-07-26 2019-12-20 苏宁云计算有限公司 一种数据交换系统的任务拆分方法及装置
CN110851266A (zh) * 2018-08-03 2020-02-28 奇异世界有限公司 通过分区和虚拟进程的负载平衡
CN111241171A (zh) * 2019-10-28 2020-06-05 杭州美创科技有限公司 数据库全量数据抽取方法
CN116163754A (zh) * 2022-12-08 2023-05-26 南京坤拓土木工程科技有限公司 基于功率分布分层抽样的掘进参数样本前处理方法
US11816402B2 (en) 2016-08-24 2023-11-14 Improbable Worlds Limited Simulation systems and methods
US11936734B2 (en) 2016-08-24 2024-03-19 Improbable Worlds Ltd Simulation systems and methods using query-based interest

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101329676A (zh) * 2007-06-20 2008-12-24 华为技术有限公司 一种数据并行抽取方法、装置和数据库系统
US20100131506A1 (en) * 2005-10-07 2010-05-27 Takahiko Shintani Association rule extraction method and system
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN102033948A (zh) * 2010-12-22 2011-04-27 中国农业银行股份有限公司 一种数据更新方法和装置
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100131506A1 (en) * 2005-10-07 2010-05-27 Takahiko Shintani Association rule extraction method and system
CN1897025A (zh) * 2006-04-27 2007-01-17 南京联创科技股份有限公司 海量数据处理中多线程工作包并行的etl技术
CN101329676A (zh) * 2007-06-20 2008-12-24 华为技术有限公司 一种数据并行抽取方法、装置和数据库系统
CN101882165A (zh) * 2010-08-02 2010-11-10 山东中创软件工程股份有限公司 基于etl的多线程数据处理方法
CN102033948A (zh) * 2010-12-22 2011-04-27 中国农业银行股份有限公司 一种数据更新方法和装置
CN103955491A (zh) * 2014-04-15 2014-07-30 南威软件股份有限公司 一种定时数据增量同步的方法

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104915414A (zh) * 2015-06-04 2015-09-16 北京京东尚科信息技术有限公司 数据抽取方法及装置
CN106708620A (zh) * 2015-11-13 2017-05-24 苏宁云商集团股份有限公司 一种处理数据的方法及系统
CN105468725B (zh) * 2015-11-20 2019-03-08 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
CN105468725A (zh) * 2015-11-20 2016-04-06 北京京东尚科信息技术有限公司 一种关系型数据库中表分段抽取系统及方法
CN107045512A (zh) * 2016-02-05 2017-08-15 北京京东尚科信息技术有限公司 一种数据交换方法及系统
US11936734B2 (en) 2016-08-24 2024-03-19 Improbable Worlds Ltd Simulation systems and methods using query-based interest
US11816402B2 (en) 2016-08-24 2023-11-14 Improbable Worlds Limited Simulation systems and methods
CN106777933A (zh) * 2016-12-02 2017-05-31 郑州云海信息技术有限公司 一种数据采集方法、装置及系统
CN107688907A (zh) * 2017-09-05 2018-02-13 江苏电力信息技术有限公司 一种基于队列分层处理机制的物资抽检方法
CN107688907B (zh) * 2017-09-05 2022-01-18 江苏电力信息技术有限公司 一种基于队列分层处理机制的物资抽检方法
CN108062399A (zh) * 2017-12-21 2018-05-22 新华三大数据技术有限公司 数据处理方法及装置
CN108664567A (zh) * 2018-04-24 2018-10-16 中国银行股份有限公司 一种基于数据表分区的数据采集方法及系统
CN108664567B (zh) * 2018-04-24 2022-03-04 中国银行股份有限公司 一种基于数据表分区的数据采集方法及系统
CN108984738A (zh) * 2018-07-16 2018-12-11 中国银行股份有限公司 一种数据铺底方法及装置
CN110851266A (zh) * 2018-08-03 2020-02-28 奇异世界有限公司 通过分区和虚拟进程的负载平衡
CN109325015A (zh) * 2018-08-31 2019-02-12 阿里巴巴集团控股有限公司 一种领域模型的特征字段的提取方法及装置
CN109325015B (zh) * 2018-08-31 2021-07-20 创新先进技术有限公司 一种领域模型的特征字段的提取方法及装置
CN110032559A (zh) * 2019-04-19 2019-07-19 成都四方伟业软件股份有限公司 一种数据抽取方法及装置
CN110597618A (zh) * 2019-07-26 2019-12-20 苏宁云计算有限公司 一种数据交换系统的任务拆分方法及装置
CN110597618B (zh) * 2019-07-26 2022-06-07 苏宁云计算有限公司 一种数据交换系统的任务拆分方法及装置
CN111241171A (zh) * 2019-10-28 2020-06-05 杭州美创科技有限公司 数据库全量数据抽取方法
CN116163754A (zh) * 2022-12-08 2023-05-26 南京坤拓土木工程科技有限公司 基于功率分布分层抽样的掘进参数样本前处理方法
CN116163754B (zh) * 2022-12-08 2023-11-21 南京坤拓土木工程科技有限公司 基于功率分布分层抽样的掘进参数样本前处理方法

Also Published As

Publication number Publication date
CN104182502B (zh) 2017-10-27

Similar Documents

Publication Publication Date Title
CN104182502A (zh) 一种数据抽取方法及装置
CN104933173B (zh) 一种用于异构多数据源的数据处理方法、装置和服务器
CN111124476B (zh) 业务规则配置和创建方法及装置
CN101673287A (zh) 一种sql语句生成方法及系统
CN102999506B (zh) 一种获取用户独立访问数的方法与装置
US20180314566A1 (en) Systems for parallel processing of datasets with dynamic skew compensation
CN104111936B (zh) 数据查询方法和系统
CN108171528B (zh) 一种归因方法及归因系统
CN105069109A (zh) 一种分布式数据库扩容的方法和系统
CN102306205A (zh) 一种事务分配方法和装置
CN110008199A (zh) 一种基于访问热度的数据迁移部署方法
CN107977773A (zh) 一种管理多个云平台的多项目资源额度的方法
CN108021449A (zh) 一种协程实现方法、终端设备及存储介质
CN107016039A (zh) 数据库写入的方法和数据库系统
CN107291720A (zh) 一种实现批量数据处理的方法、系统和计算机集群
CN106708620A (zh) 一种处理数据的方法及系统
Elhedhli et al. Service system design with immobile servers, stochastic demand and concave-cost capacity selection
Alijonov DECISIONS (COMPENDIUMS) OF INTERNATIONAL ORGANIZATIONS AS A SOURCE OF INTERNATIONAL INVESTMENT LAW
CN109271247A (zh) 内存优化方法、装置、计算机装置以及存储介质
CN106682978A (zh) 清分结算规则生成方法及清分结算规则生成装置
Maniquet et al. A theorem on aggregating classifications
CN106354552A (zh) 并行计算任务分配方法和装置
CN104700435A (zh) 一种利用oasis图形阵列压缩版图数据的方法
Fujishige et al. The random assignment problem with submodular constraints on goods
CN107169044A (zh) 一种城市人才资源综合管理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant