CN111090640A - 一种etl数据清洗方法及系统 - Google Patents
一种etl数据清洗方法及系统 Download PDFInfo
- Publication number
- CN111090640A CN111090640A CN201911106334.6A CN201911106334A CN111090640A CN 111090640 A CN111090640 A CN 111090640A CN 201911106334 A CN201911106334 A CN 201911106334A CN 111090640 A CN111090640 A CN 111090640A
- Authority
- CN
- China
- Prior art keywords
- data table
- target
- field
- source data
- etl
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004140 cleaning Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000013507 mapping Methods 0.000 claims abstract description 64
- 238000012545 processing Methods 0.000 claims description 20
- 238000003825 pressing Methods 0.000 claims description 4
- 238000005406 washing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- JASONGFGOLHLGB-UHFFFAOYSA-N Atranol Chemical compound CC1=CC(O)=C(C=O)C(O)=C1 JASONGFGOLHLGB-UHFFFAOYSA-N 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 238000006467 substitution reaction Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/2282—Tablespace storage structures; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种ETL数据清洗方法及系统,二者均能够:选择源数据库的类型;选择属于所选类型的源数据表;选择所要匹配的目标数据表;读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;解析上述目标Json文件,得到各目标字段及其对应源数据表中的字段值;根据解析得到的目标字段及字段值,生成对应的SQL语句;采用上述生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。本发明用于提高ETL数据清洗的准确性及便利性。
Description
技术领域
本发明涉及数据库数据转换领域,具体涉及一种ETL数据清洗方法及系统。
背景技术
ETL,是Extract Transform Load的简写,即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。它是构建数据仓库的重要一环。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到目标数据仓库中去。
在现有技术中,各省监狱数据是通过公司寄送的优盘和各自监狱拷贝到司法部,然后人工进行数据转移,这种方式速度比较慢且不方便,且由于监狱统计犯人数据的系统比较多,而且监狱犯人数据量比较大,上述方式容易出错,这就给监狱上报数据造成了极大的麻烦。
为此,本发明提供一种ETL数据清洗方法及系统,用于解决上述问题。
发明内容
针对现有技术的上述不足,本发明提供一种ETL数据清洗方法及系统,用于提高ETL数据清洗的准确性及便利性。
第一方面,本发明提供一种ETL数据清洗方法,包括步骤:
选择源数据库的类型;
选择属于所选类型的源数据表;
选择所要匹配的目标数据表;
读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
解析上述目标Json文件,得到各目标字段及其对应源数据表中的字段值;
根据解析得到的目标字段及字段值,生成对应的SQL语句;
采用上述生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
进一步地,该ETL数据清洗方法还包括步骤:自定义所述源数据表及其对应目标数据表的字段映射关系。
进一步地,该ETL数据清洗方法还包括步骤:自定义用于将所述目标Json文件中的数据写入对应的目标数据表的SQL语句。
进一步地,该ETL数据清洗方法还包括步骤:
自定义ETL数据清洗的开始时间。
进一步地,所述的读取所选择的源数据表,包括:
根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,调用对应数据库的操作服务;
基于所述操作服务,读取所选择的源数据表。
进一步地,该ETL数据清洗方法还包括步骤:通过按键一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配。
第二方面,本发明提供一种ETL数据清洗系统,该ETL数据清洗系统包括:
第一输入模块,用于选择源数据库的类型;
第二输入模块,用于选择属于第一输入模块中所选类型的源数据表;
第三输入模块,用于选择所要匹配的目标数据表;
第一处理模块,用于读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
第二处理模块,用于解析所述的目标Json文件,得到各目标字段及其对应源数据表中的字段值;
第三处理模块,用于根据解析得到的目标字段及字段值,生成对应的SQL语句;
第四处理模块,用于采用第三处理模块生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
进一步地,该ETL数据清洗系统还包括映射关系自定义模块和/或SQL语句自定义模块,其中:
所述的映射关系自定义模块,用于自定义源数据表及其对应目标数据表的字段映射关系;
所述的SQL语句自定义模块,用于自定义将所述目标Json文件中的数据写入对应的目标数据表的SQL语句。
进一步地,该ETL数据清洗系统还包括自动映射按键模块、日志模块、清洗开始时间自定义模块中的至少一种,其中:
所述的自动映射按键模块,用于一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配;
所述的日志模块,用于该ETL数据清洗系统的日志记录;
所述的清洗开始时间自定义模块,用于自定义ETL数据清洗的开始时间。
进一步地,所述的第一处理模块,包括:
第一读取单元,用于读取所述的源数据表;
第二读取单元,用于读取所述的目标数据表;
存储单元,其内存有预先设定的所述源数据表及其对应目标数据表的字段映射关系;
控制单元,用于依据存储单元内所存储的所述源数据表及其对应目标数据表字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;
其中,所述的第一读取单元,包括:
数据库服务接收模块,用于根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,接收对应数据库的操作服务;
源数据读取模块,用于基于所述操作服务,读取所选择的源数据表。
本发明的有益效果在于,
(1)本发明提供的ETL数据清洗方法及系统,均依据设定的所述源数据表及其对应目标数据表的字段映射关系将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件,之后解析目标Json文件生成对应的SQL语句将目标Json文件中的数据写入对应的目标数据表,可见本发明一方面避免了现有技术中各省监狱数据通过公司寄送优盘和各自监狱人工拷贝到司法部的方式的使用,另一方面实现了数据抽取层与ETL业务层解耦,可见能够在一定程度上提高将源数据表中的数据导入目标数据表的便利性及准确性。
(2)本发明提供的ETL数据清洗方法及系统,均能够根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,调用对应数据库的操作服务,读取所选择的源数据表,可见本发明能够在一定程度上实现将不同类型的数据库的数据导入目标数据库,适用范围广。
(3)本发明提供的ETL数据清洗方法,以及本发明提供的ETL数据清洗系统在包括清洗开始时间自定义模块时,均能够自定义ETL数据清洗的开始时间,一定程度上增加了使用的便利性。
此外,本发明设计原理可靠,结构简单,具有非常广泛的应用前景。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例的方法的示意性流程图。
图2是本发明另一个实施例的方法的示意性流程图。
图3是本发明另一个实施例的方法的示意性流程图。
图4是本发明另一个实施例的方法的示意性流程图。
图5是本发明另一个实施例的方法的示意性流程图。
图6是本发明一个实施例的系统的示意性框图。
图7是本发明另一个实施例的系统的示意性框图。
图8是本发明另一个实施例的系统的示意性框图。
图9是本发明另一个实施例的系统的示意性框图。
图10是本发明另一个实施例的系统的示意性框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
下面对本发明中出现的关键术语进行解释。
实施例1:
图1是本发明一个实施例的ETL数据清洗方法的示意性流程图。
如图1所示,该方法100包括:
步骤110,选择源数据库的类型;
步骤120,选择属于所选类型的源数据表;
步骤130,选择所要匹配的目标数据表;
步骤140,读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
步骤150,解析上述目标Json文件,得到各目标字段及其对应源数据表中的字段值;
步骤160,根据解析得到的目标字段及字段值,生成对应的SQL语句;
步骤170,采用上述生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
可选地,作为本发明一个实施例,在步骤140中,所述的读取所选择的源数据表,包括:
根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,调用对应数据库的操作服务;
基于所述操作服务,读取所选择的源数据表。
需要说明的是,本发明中所述源数据库的类型,包括orcal、SqlServer和mysql,但不限于所述的orcal、SqlServer和mysql。
为了便于对本发明的理解,下面以本发明ETL数据清洗方法的原理,结合实施例中对源数据表中数据进行ETL数据清洗的过程,对本发明提供的ETL数据清洗方法做进一步的描述。
具体的,所述ETL数据清洗方法包括:
步骤s1:选择源数据库的类型。
其中,本实施例中所述的源数据库的类型,包括orcal、mysql、SqlServer三种类型,但不限于这几种数据库类型,用户可依据实际情况选择对应的数据库类型,只需确保能够使用其对应的数据库服务即可。
具体实现时,可采用下拉菜单的形式进行源数据库的类型的选择,也可采用列表选择的形式进行源数据库的类型的选择。
步骤s2:选择属于所选类型的源数据表。
记当前所选择的源数据表为源数据表A,源数据表A中存有以下字段:字段A1;字段A2;字段A3;字段A4。
源数据表A中字段A1-A4的字段值分别为字段值M1-字段值M4,具体为:
字段A1:字段值M1;
字段A2:字段值M2;
字段A3:字段值M3;
字段A4:字段值M4。
步骤s3:选择所要匹配的目标数据表。
记当前所选择的目标数据表为目标数据表B。
目标数据表B中存有但不限于以下字段:字段B1;字段B2;字段B3;字段B4和字段B5。
步骤s4:读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件。
所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段。
预先设定的源数据表A和目标数据表B的字段映射关系为:
字段A1与字段B1相映射;
字段A3与字段B2相映射;
字段A2与字段B3相映射。
基于上述源数据表A和目标数据表B的字段映射关系,目标数据表B的字段B1、字段B2和字段B3均为所述的目标字段,字段B4和字段B5均不是所述的目标字段。
其中,后台数据层可以根据所选择的源数据库的类型,采用预先自定义的IDatabaseService接口,接收对应数据库的操作服务,以可以接收orcal、mysql和SqlServer数据库的操作服务为例,参照代码如下所示:
读取上述源数据表A和目标数据表B后,依据如上所述的源数据表A和目标数据表B的字段映射关系,将所涉及的各目标字段及各目标字段对应源数据表A中的字段值以Json的格式存入目标Json文件C。此时,该目标Json文件C中存有字段B1、字段B2和字段B3,以及字段B1、字段B2和字段B3依序映射到的字段值M1、M3和M2。
步骤s5:解析上述目标Json文件,得到各目标字段及其对应源数据表中的字段值。
解析目标Json文件C得到目标字段(即字段B1、字段B2和字段B3)及各目标字段在源数据表A中映射对应的相应字段值(字段B1对应源数据表A中字段A1的字段值M1,字段B2对应源数据表A中字段A3的字段值M3,字段B3对应源数据表A中字段A2的字段值M2)。
步骤s6:根据解析得到的目标字段及字段值,生成对应的SQL语句。
根据步骤s5中解析得到的目标字段及字段值,生成用于将步骤s5中解析得到的字段值对应存入目标数据表B的SQL语句。
步骤s7:采用上述生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
采用上述步骤s6中生成的SQL语句,将目标Json文件中的数据(即字段值M1、M3和M2)写入目标数据表B,从而即依据源数据表A及目标数据表B的字段映射关系完成源数据表A中数据往目标数据表B中的转移。
实施例2:
参见图2,本实施例与实施例1相比,不同之处在于,本实施例中所述的方法100,还包括步骤180:自定义ETL数据清洗的开始时间。
使用时,用户可自定义ETL数据清洗的开始时间;在达到用户设定的开始时间时,步骤140开始执行。
实施例3:
如图3所示,本实施例与实施例2相比,不同之处在于,本实施例中所述的方法100,还包括步骤190:自定义所述源数据表及其对应目标数据表的字段映射关系。
使用时,当用户通过步骤190自定义所述源数据表及其对应目标数据表的字段映射关系后,步骤140中则直接依据用户自定义设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入对应的目标Json文件。
实施例4:
如图4所示,本实施例与实施例3相比,不同之处在于,本实施例中所述的方法100,还包括步骤1100:通过按键一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配。
本实施例中的方法100使用时,用户按下所述的按键,既可一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配,即实现源数据表中字段与目标数据表中对应字段的一对一映射;步骤140在执行时,依据用户通过按下按键所设置的该一对一映射关系进行相关处理。以实施例1中源数据表A和目标数据表B中字段为例,并且在本实施例中,源数据表A和目标数据表B所属的数据库类型相同、源数据表A和目标数据表B的字段个数相同:在按下所述按键后,即可实现源数据表A中第i个字段与目标数据表B中的第i个字段映射,i=1,2,...,n(n为源数据表A或目标数据表B的字段总个数)。
实施例5:
如图5所示,本实施例与实施例4相比,不同之处在于,本实施例中所述的方法100,还包括步骤1200:自定义用于将所述目标Json文件中的数据写入对应的目标数据表的SQL语句。
使用时,在用户自定义用于将所述目标Json文件中的数据写入对应的目标数据表的SQL语句后,步骤160则直接调用用户自定义的SQL语句作为其根据解析得到的目标字段及字段值生成的对应的SQL语句,用于后续步骤170。
实施例6:
本实施例中的系统与实施例1中的方法100相对应。
如图6示,该系统200包括:
第一输入模块201,用于选择源数据库的类型;
第二输入模块202,用于选择属于第一输入模块201中所选类型的源数据表;
第三输入模块203,用于选择所要匹配的目标数据表;
第一处理模块204,用于读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
第二处理模块205,用于解析所述的目标Json文件,得到各目标字段及其对应源数据表中的字段值;
第三处理模块206,用于根据解析得到的目标字段及字段值,生成对应的SQL语句;
第四处理模块207,用于采用第三处理模块206生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
可选地,作为本发明一个实施例,所述的第一处理模块204,包括:
第一读取单元,用于读取所述的源数据表;
第二读取单元,用于读取所述的目标数据表;
存储单元,用于存储预先设定的所述源数据表及其对应目标数据表的字段映射关系;
控制单元,用于依据存储单元内所存储的所述源数据表及其对应目标数据表字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件。
其中,所述的第一读取单元,包括:
数据库服务接收模块,用于根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,接收对应数据库的操作服务;
源数据读取模块,用于基于所述操作服务,读取所选择的源数据表。
实施例7:
如图7所示,本实施例与实施例6相比,不同之处在于,本实施例中所述的系统200,还包括清洗开始时间自定义模块208,该清洗开始时间自定义模块208用于自定义ETL数据清洗的开始时间。
使用时,用户通过清洗开始时间自定义模块208自定义本系统200进行ETL数据清洗的开始时间;在达到用户通过清洗开始时间自定义模块208设定的开始时间时,第一处理模块204开始工作。
实施例8:
如图8所示,本实施例与实施例7相比,不同之处在于,本实施例中所述的系统200,还包括映射关系自定义模块209,该映射关系自定义模块209用于自定义源数据表及其对应目标数据表的字段映射关系。
使用时,用户可通过映射关系自定义模块209自定义源数据表及其对应目标数据表的字段映射关系。
实施例9:
如图9所示,本实施例与实施例8相比,不同之处在于,本实施例中所述的系统200,还包括自动映射按键模块210,该自动映射按键模块210用于一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配。
使用时,用户按下自动映射按键模块210,可一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配。
实施例10:
如图10所示,本实施例与实施例9相比,不同之处在于,本实施例中所述的系统200,还包括:
SQL语句自定义模块211,用于自定义将所述目标Json文件中的数据写入对应的目标数据表的SQL语句;
日志模块212,用于该ETL数据清洗系统的日志记录。
使用时,通过SQL语句自定义模块211自定义将所述目标Json文件中的数据写入对应的目标数据表的SQL语句;通过日志模块212对该ETL数据清洗系统进行操作日志记录。
其中,本实施例中的日志模块212可采用Log4.Net进行实现,便于记录失败日志,方便快速定位系统错误来源,错误日志查询便利。
本说明书中各个实施例之间相同相似的部分互相参见即可。
需要说明的是,基于本发明,本发明中所涉及的目标数据表与源数据表对应数据库的类型可以相同、也可以不相同;通过各相应的字段映射关系,便可实现源数据表中字段与目标数据表中字段的映射,继而可实现源数据表与目标数据表的字段匹配。
另外需要说明的是,基于本发明,还可实现目标数据表与多个源数据表对应,也可实现每个源数据表与多个目标数据表对应,拓展性极高。
尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种ETL数据清洗方法,其特征在于,包括步骤:
选择源数据库的类型;
选择属于所选类型的源数据表;
选择所要匹配的目标数据表;
读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
解析上述目标Json文件,得到各目标字段及其对应源数据表中的字段值;
根据解析得到的目标字段及字段值,生成对应的SQL语句;
采用上述生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
2.根据权利要求1所述的ETL数据清洗方法,其特征在于,该ETL数据清洗方法还包括步骤:
自定义所述源数据表及其对应目标数据表的字段映射关系。
3.根据权利要求1所述的ETL数据清洗方法,其特征在于,该ETL数据清洗方法还包括步骤:
自定义用于将所述目标Json文件中的数据写入对应的目标数据表的SQL语句。
4.根据权利要求1所述的ETL数据清洗方法,其特征在于,该ETL数据清洗方法还包括步骤:
自定义ETL数据清洗的开始时间。
5.根据权利要求1所述的ETL数据清洗方法,其特征在于,所述的读取所选择的源数据表,包括:
根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,调用对应数据库的操作服务;
基于所述操作服务,读取所选择的源数据表。
6.根据权利要求1-5任一项权利要求所述的ETL数据清洗方法,其特征在于,该ETL数据清洗方法还包括步骤:
通过按键一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配。
7.一种ETL数据清洗系统,其特征在于,该ETL数据清洗系统包括:
第一输入模块,用于选择源数据库的类型;
第二输入模块,用于选择属于第一输入模块中所选类型的源数据表;
第三输入模块,用于选择所要匹配的目标数据表;
第一处理模块,用于读取所选择的源数据表和目标数据表,依据设定的所述源数据表及其对应目标数据表的字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;所述的目标字段,是所述字段映射关系中所涉及的目标数据表的字段;
第二处理模块,用于解析所述的目标Json文件,得到各目标字段及其对应源数据表中的字段值;
第三处理模块,用于根据解析得到的目标字段及字段值,生成对应的SQL语句;
第四处理模块,用于采用第三处理模块生成的SQL语句,将所述目标Json文件中的数据写入对应的目标数据表。
8.根据权利要求7所述的ETL数据清洗系统,其特征在于,该ETL数据清洗系统还包括映射关系自定义模块和/或SQL语句自定义模块,其中:
所述的映射关系自定义模块,用于自定义源数据表及其对应目标数据表的字段映射关系;
所述的SQL语句自定义模块,用于自定义将所述目标Json文件中的数据写入对应的目标数据表的SQL语句。
9.根据权利要求7所述的ETL数据清洗系统,其特征在于,该ETL数据清洗系统还包括自动映射按键模块、日志模块、清洗开始时间自定义模块中的至少一种,其中:
所述的自动映射按键模块,用于一键实现所述源数据表及所述目标数据表的对应字段的自动映射匹配;
所述的日志模块,用于该ETL数据清洗系统的日志记录;
所述的清洗开始时间自定义模块,用于自定义ETL数据清洗的开始时间。
10.根据权利要求7-9中任意一项权利要求所述的ETL数据清洗系统,其特征在于,所述的第一处理模块,包括:
第一读取单元,用于读取所述的源数据表;
第二读取单元,用于读取所述的目标数据表;
存储单元,其内存有预先设定的所述源数据表及其对应目标数据表的字段映射关系;
控制单元,用于依据存储单元内所存储的所述源数据表及其对应目标数据表字段映射关系,将目标字段及其对应源数据表中的字段值以Json的格式存入目标Json文件;
其中,所述的第一读取单元,包括:
数据库服务接收模块,用于根据所选择的源数据库的类型,采用预先定义的IDatabaseService接口,接收对应数据库的操作服务;
源数据读取模块,用于基于所述操作服务,读取所选择的源数据表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911106334.6A CN111090640A (zh) | 2019-11-13 | 2019-11-13 | 一种etl数据清洗方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911106334.6A CN111090640A (zh) | 2019-11-13 | 2019-11-13 | 一种etl数据清洗方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111090640A true CN111090640A (zh) | 2020-05-01 |
Family
ID=70393682
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911106334.6A Pending CN111090640A (zh) | 2019-11-13 | 2019-11-13 | 一种etl数据清洗方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111090640A (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522842A (zh) * | 2020-07-04 | 2020-08-11 | 杭州城市大数据运营有限公司 | 一种etl数据处理方法、装置、计算机设备和存储介质 |
CN111930819A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | Etl脚本生成方法和装置 |
CN112131291A (zh) * | 2020-09-11 | 2020-12-25 | 重庆誉存大数据科技有限公司 | 基于json数据的结构化解析方法、装置、设备及存储介质 |
CN112800150A (zh) * | 2021-02-25 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种异构数据库自动映射建表方法 |
CN113505119A (zh) * | 2021-07-29 | 2021-10-15 | 青岛以萨数据技术有限公司 | 一种基于多数据源的etl方法及装置 |
CN113961569A (zh) * | 2021-12-22 | 2022-01-21 | 上海柯林布瑞信息技术有限公司 | 一种医疗数据etl任务同步方法和装置 |
CN115048912A (zh) * | 2022-08-12 | 2022-09-13 | 成都锐菲网络科技有限公司 | 高速公路行车数据共享方法及应用 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205117A (zh) * | 2015-09-09 | 2015-12-30 | 郑州悉知信息科技股份有限公司 | 一种数据表迁移方法和装置 |
CN107391739A (zh) * | 2017-08-07 | 2017-11-24 | 北京奇艺世纪科技有限公司 | 一种查询语句生成方法、装置及电子设备 |
CN107992620A (zh) * | 2017-12-22 | 2018-05-04 | 武汉楚鼎信息技术有限公司 | 一种json数据快速同步及记录的方法及系统装置 |
CN108121757A (zh) * | 2017-11-10 | 2018-06-05 | 广州优视网络科技有限公司 | 一种数据同步方法、装置、系统、计算设备及存储介质 |
CN110147413A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 数据存储方法、数据查询方法、装置、设备及存储介质 |
-
2019
- 2019-11-13 CN CN201911106334.6A patent/CN111090640A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105205117A (zh) * | 2015-09-09 | 2015-12-30 | 郑州悉知信息科技股份有限公司 | 一种数据表迁移方法和装置 |
CN107391739A (zh) * | 2017-08-07 | 2017-11-24 | 北京奇艺世纪科技有限公司 | 一种查询语句生成方法、装置及电子设备 |
CN108121757A (zh) * | 2017-11-10 | 2018-06-05 | 广州优视网络科技有限公司 | 一种数据同步方法、装置、系统、计算设备及存储介质 |
CN107992620A (zh) * | 2017-12-22 | 2018-05-04 | 武汉楚鼎信息技术有限公司 | 一种json数据快速同步及记录的方法及系统装置 |
CN110147413A (zh) * | 2019-04-26 | 2019-08-20 | 平安科技(深圳)有限公司 | 数据存储方法、数据查询方法、装置、设备及存储介质 |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111522842A (zh) * | 2020-07-04 | 2020-08-11 | 杭州城市大数据运营有限公司 | 一种etl数据处理方法、装置、计算机设备和存储介质 |
CN111930819A (zh) * | 2020-08-14 | 2020-11-13 | 工银科技有限公司 | Etl脚本生成方法和装置 |
CN111930819B (zh) * | 2020-08-14 | 2024-03-15 | 中国工商银行股份有限公司 | Etl脚本生成方法和装置 |
CN112131291A (zh) * | 2020-09-11 | 2020-12-25 | 重庆誉存大数据科技有限公司 | 基于json数据的结构化解析方法、装置、设备及存储介质 |
CN112131291B (zh) * | 2020-09-11 | 2023-12-15 | 重庆誉存大数据科技有限公司 | 基于json数据的结构化解析方法、装置、设备及存储介质 |
CN112800150A (zh) * | 2021-02-25 | 2021-05-14 | 浪潮云信息技术股份公司 | 一种异构数据库自动映射建表方法 |
CN113505119A (zh) * | 2021-07-29 | 2021-10-15 | 青岛以萨数据技术有限公司 | 一种基于多数据源的etl方法及装置 |
CN113505119B (zh) * | 2021-07-29 | 2023-08-29 | 青岛以萨数据技术有限公司 | 一种基于多数据源的etl方法及装置 |
CN113961569A (zh) * | 2021-12-22 | 2022-01-21 | 上海柯林布瑞信息技术有限公司 | 一种医疗数据etl任务同步方法和装置 |
CN115048912A (zh) * | 2022-08-12 | 2022-09-13 | 成都锐菲网络科技有限公司 | 高速公路行车数据共享方法及应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111090640A (zh) | 一种etl数据清洗方法及系统 | |
US10198423B2 (en) | Suggesting a set of operations applicable to a selected range of data in a spreadsheet | |
CN110704398B (zh) | 从MySQL到Oracle的数据库迁移方法、装置及计算机设备 | |
CN111046630B (zh) | 一种json数据的语法树提取方法 | |
CN110633292A (zh) | 一种异构数据库的查询方法、装置、介质、设备及系统 | |
WO2020253399A1 (zh) | 日志分类规则的生成方法、装置、设备及可读存储介质 | |
CN109491989B (zh) | 数据处理方法及装置、电子设备、存储介质 | |
US20170242832A1 (en) | Character editing method and device for screen display device | |
CN110728123B (zh) | 一种报表生成方法、系统及相关设备 | |
CN115061721A (zh) | 一种报表生成方法、装置、计算机设备及存储介质 | |
WO2020037921A1 (zh) | 表情图片提示方法、装置、计算机设备及存储介质 | |
WO2018059430A1 (zh) | 数据库搜索 | |
CN114661721A (zh) | 数据库表的处理方法和系统 | |
US20150178367A1 (en) | System and method for implementing online analytical processing (olap) solution using mapreduce | |
Hasan et al. | An approach for data transformation in homogeneous and heterogeneous information systems | |
CN114968348A (zh) | 数据分析方法及装置、电子设备、存储介质 | |
CN115295109A (zh) | 医疗数据溯源方法及装置、存储介质、终端设备 | |
CN112685572B (zh) | 一种异构数据融合方法及装置 | |
CN114996369A (zh) | 一种数据仓库指标库的构建方法和装置 | |
CN111401009B (zh) | 一种数字表情符识别转换方法、装置、服务器及存储介质 | |
CN108153834B (zh) | 一种商业智能应用查询数据的方法、装置及电子设备 | |
CN109241122B (zh) | 信息获取方法及装置 | |
CN112650754A (zh) | 一种关系型数据库的数据全量导入Hive的方法 | |
CN111538746A (zh) | 一种信息处理方法、装置、存储介质和设备 | |
US20120173584A1 (en) | Storage and usage of report positions for navigation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200501 |