CN116775737A - 一种自动生成etl配置的方法以及系统 - Google Patents

一种自动生成etl配置的方法以及系统 Download PDF

Info

Publication number
CN116775737A
CN116775737A CN202310747048.8A CN202310747048A CN116775737A CN 116775737 A CN116775737 A CN 116775737A CN 202310747048 A CN202310747048 A CN 202310747048A CN 116775737 A CN116775737 A CN 116775737A
Authority
CN
China
Prior art keywords
data source
configuration information
source configuration
information
analyzing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310747048.8A
Other languages
English (en)
Other versions
CN116775737B (zh
Inventor
乔永志
王公杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Tend Information And Technologies Co ltd
Original Assignee
Shanghai Tend Information And Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Tend Information And Technologies Co ltd filed Critical Shanghai Tend Information And Technologies Co ltd
Priority to CN202310747048.8A priority Critical patent/CN116775737B/zh
Publication of CN116775737A publication Critical patent/CN116775737A/zh
Application granted granted Critical
Publication of CN116775737B publication Critical patent/CN116775737B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/445Program loading or initiating
    • G06F9/44505Configuring for program initiating, e.g. using registry, configuration files

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种自动生成ETL配置的方法以及系统,涉及数据集成和处理技术领域,解决了手动编写ETL配置文件耗时耗力且容易出错的问题,其方法包括:获取数据源信息以及数据源元数据信息;根据数据源信息与数据源配置信息的对应关系,分析确定相应数据源信息的数据源配置信息;展示所分析确定的数据源配置信息;获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息;根据调整后的数据源配置信息、数据源配置信息与ETL配置文件的对应关系,分析确定ETL配置文件,并生成相应ETL配置文件。本申请具有如下效果:提高了编写ETL配置的效率并减少出错情况。

Description

一种自动生成ETL配置的方法以及系统
技术领域
本发明涉及数据集成和处理技术领域,尤其是涉及一种自动生成ETL配置的方法以及系统。
背景技术
在大数据平台和数据仓库项目中,对源系统数据进行抽取、转换和加载的工作需要通过脚本或程序来实现,同时在大数据平台内部按照主题模型进行数据加工也要通过脚本来实现,ETL几乎贯穿了大数据平台的所有环节。ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析依据, ETL是BI(商业智能)项目重要的一个环节。
大数据处理场景会涉及相当多的ETL配置文件编写工作,传统ETL配置文件主要依赖人工手动方式开发编写。
针对上述中的相关技术,发明人发现存在有如下缺陷:手动编写ETL配置文件耗时耗力且容易出错。
发明内容
为了提高编写ETL配置的效率并减少出错情况,本申请提供一种自动生成ETL配置的方法以及系统。
第一方面,本申请提供一种自动生成ETL配置的方法,采用如下的技术方案:
一种自动生成ETL配置的方法,其特征在于,包括:
获取数据源信息以及数据源元数据信息;
根据数据源信息与数据源配置信息的对应关系,分析确定相应数据源信息的数据源配置信息;
展示所分析确定的数据源配置信息;
获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息;
根据调整后的数据源配置信息、数据源配置信息与ETL配置文件的对应关系,分析确定ETL配置文件,并生成相应ETL配置文件。
通过采用上述技术方案,系统可以根据用户所提供的数据源信息,自动匹配适合的数据源配置信息,方便用户可以接收到适合的数据源配置信息,减少自己的调整幅度,从而使ETL配置文件的生成能够更加准确效率。
可选的,相应数据源信息的数据源配置信息的分析确定如下:
根据数据源信息与数据源配置信息的对应关系,查找与所获取数据源信息对应的数据源配置信息;
若查找到,则以所查找到的数据源配置信息,作为本次推荐的数据源配置信息;
反之,则根据所解析的数据源信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息。
通过采用上述技术方案,进一步考虑到无法通过数据源信息匹配到数据源配置信息的时候,此时通过数据源字段与元数据库字段的匹配情况以及元数据库的配置情况,可以准确有效建立数据源配置信息。
可选的,还包括位于根据所解析的数据源元数据信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息之后的步骤,具体如下:
分析是否获取与数据源元数据库中字段对应的数据源配置信息;
若为否,则解析提取数据源信息中的特定关键词标识设置格式;
根据格式与数据源配置信息的对应关系,分析获取数据源配置信息。
通过采用上述技术方案,进一步考虑无法通过数据源字段与元数据库字段的匹配情况以及元数据库的配置情况,准确有效建立数据源配置信息的时候,此时通过字段名的识别分析获取特定关键词,并根据特定关键词来匹配形成数据源配置信息。
可选的,还包括位于根据格式与数据源配置信息的对应关系,分析获取数据源配置信息之后的步骤,具体如下:
根据格式与数据源配置信息的对应关系,查询获取数据源配置信息;
若未查询到,则解析识别数据源信息的字段名;
根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息;
若查询到,则以所查询到的数据源配置信息,作为本次应用的数据源配置信息。
通过采用上述技术方案,尤其考虑到了无法通过特定关键词标识形成数据源配置信息的时候,此时通过字段名与数据源配置信息的对应情况,来分析确定本次应用的数据源配置信息。
可选的,还包括位于根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息之后的步骤,具体如下:
分析根据字段名分析确定的数据源配置信息的个数是否为多个;
若为是, 则选取出现频次最高的数据源配置信息,作为本次应用的数据源配置信息。
通过采用上述技术方案,进一步考虑到了字段名所分析确定的数据源配置信息存在多个的情况,在这个情况时会统计数据源配置信息的使用频次并作数据源配置信息的二次排序,从而使所选择的数据源配置信息更换准确合适。
可选的,还包括位于获取字段名出现的频次,选取频次最高的字段名所对应的数据源配置信息,作为本次应用的数据源配置信息之后的步骤,具体如下:
分析是否获取本次应用的数据源配置信息;
若为否,则将字段设置为文本格式;
根据文本格式、格式与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息。
通过采用上述技术方案,在无法根据字段名确定数据源配置信息的时候,此时通过将字段设置为文本格式,通过格式与数据源配置信息的对应关系,来确定本次应用的数据源配置信息。
可选的,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
获取用户身份信息;
根据历史用户针对不同数据源配置信息的修改类别以及所展示所分析确定的数据源配置信息,分析获取用户针对本次数据源配置信息的修改类别;
展示用户针对本次数据源配置信息的修改类别。
通过采用上述技术方案,能够根据用户历史针对不同数据源配置信息的修改类别,分析获取用户针对本次数据源配置信息的修改类别,方便用户在修改的时候能够不疏忽。
可选的,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
获取设置本次应用的数据源配置信息的根源信息类别,根源信息类别包括根据数据源信息、数据源信息中的字段、数据源信息中的特定关键词标识、数据源信息中的字段名;
根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况;
按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
通过采用上述技术方案,能够分析确定数据源配置信息的根源信息,有效确定可能修改类别的分布概率,从而分析获取用户针对本次数据源配置信息的修改类别,方便用户在修改的时候能够不疏忽。
可选的,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
分析是否获取用户身份信息。
若为是,则根据历史用户针对不同数据源配置信息的修改类别概率分布情况,分析获取用户针对本次数据源配置信息的第一修改类别概率分布情况;
同时获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的第二修改类别概率分布情况;
根据第一修改类别概率分布情况、第二修改类别概率分布情况以及预设的概率分布情况所对应的权重系数,分析确定本次应用的修改类别概率分布情况;
若为否,则获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况;
按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
通过采用上述技术方案,综合考虑用户身份识别情况采用不同的分析确定数据源配置信息的方式,尤其是针对用户身份识别的情况,此时会结合数据源配置信息的根源信息以及用户针对不同数据源配置信息的修改类别概率分布情况,综合分析确定可能修改类别的分布概率,从而分析获取用户针对本次数据源配置信息的修改类别,方便用户在修改的时候能够不疏忽。
第二方面,本申请提供一种自动生成ETL配置的系统,采用如下的技术方案:
一种自动生成ETL配置的系统,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如第一方面所述的自动生成ETL配置的方法。
通过采用上述技术方案,通过自动生成ETL配置的程序调用,系统可以根据用户所提供的数据源信息,自动匹配适合的数据源配置信息,方便用户可以接收到适合的数据源配置信息,减少自己的调整幅度,从而使ETL配置文件的生成能够更加准确效率。
综上所述,本申请的有益技术效果为:
1.实现自动化的ETL配置生成,减少手动操作,提高处理的效率;
2.自动生成的推荐配置信息,为用户提供参考,减少用户手动操作工作;
3.通过对历史配置信息的学习,推荐的配置信息准确度大大提升。
附图说明
图1是本申请实施例一种自动生成ETL配置的方法的整体流程示意图。
图2是本申请另一实施例相应数据源信息的数据源配置信息的分析确定的流程示意图。
图3是本申请另一实施例位于根据所解析的数据源元数据信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息之后的步骤的流程示意图。
图4是本申请另一实施例位于根据特定关键词标识与数据源配置信息的对应关系,分析获取数据源配置信息之后的步骤的流程示意图。
图5是本申请另一实施例位于根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息之后的步骤的流程示意图。
图6是本申请另一实施例位于获取字段名出现的频次,选取频次最高的字段名所对应的数据源配置信息,作为本次应用的数据源配置信息之后的步骤的流程示意图。
图7是本申请另一实施例位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤的流程示意图。
图8是本申请另一实施例位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤的流程示意图。
图9是位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤的流程示意图。
具体实施方式
以下结合附图对本申请作进一步详细说明。
参照图1,为本申请公开的一种自动生成ETL配置的方法,包括:
步骤S100,获取数据源信息。
其中,数据源可以是通过用户在系统界面上手动输入,也可以通过Excel 文件、CSV、TXT系统等系统数据库表中导入,数据源信息包括源数据库名称、表、列名等,同时用户可以选择输出目标的数据库和表。
步骤S200,根据数据源信息与数据源配置信息的对应关系,分析确定相应数据源信息的数据源配置信息。
其中,相应数据源信息的数据源配置信息的分析确定如下:识别录入的数据源信息,并根据所识别录入的数据源信息,从预设的存储有数据源信息与数据源配置信息的对应关系的数据库中查询获取。
步骤S300,展示所分析确定的数据源配置信息。
其中,所分析确定的数据源配置信息的展示可以是通过显示器等显示装置作显示展示,也可以是通过推送相关信息至用户所持终端的方式。
步骤S400,获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息。
其中,用户对数据源配置信息的修改信息的获取如下:用户可以在操作界面上手动修改系统自动生成的配置信息。例如,用户可以手动添加、修改或删除列、调整数据类型或索引信息等。
步骤S500,根据调整后的数据源配置信息、数据源配置信息与ETL配置文件的对应关系,分析确定ETL配置文件,并生成相应ETL配置文件。
其中,ETL即数据的抽取、转换、装载三个过程,数据抽取:抽取是获得数据源的过程,即将数据从各种原始的业务系统中读取出来,这是所有工作的前提;数据转换:数据转换主要包括数据清洗和数据比对两部分;数据转载:主要是将经过数据转换处理后的数据导入到目标库中。
在图1的步骤S200中,进一步考虑到数据源配置无法直接通过数据源信息与数据源配置信息来查询获取的时候,如何有效分析确定数据源配置,此时需要作进一步分析,具体参照图2所示实施例作详细说明。
参照图2,相应数据源信息的数据源配置信息的分析确定如下:
步骤S210,根据数据源信息与数据源配置信息的对应关系,查找与所获取数据源信息对应的数据源配置信息。
其中,本步骤参照步骤S200所示实施方式,此处不作赘述。
步骤S220,若查找到,则以所查找到的数据源配置信息,作为本次推荐的数据源配置信息。
步骤S230,反之,则根据所解析的数据源信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息。
其中,与数据源元数据库中字段对应的数据源配置信息的分析获取如下:将所解析的数据源信息中的字段作为查询对象,从预设的存储有字段与数据源配置信息对应关系的数据源元数据库中查找获取与数据源信息中的字段相匹配的字段,并参照元数据库的配置生成数据源配置信息。
在图2的步骤S230之后,进一步考虑到无法通过元数据库的配置生成数据源配置信息的时候,此时需要作进一步分析,具体参照图3所示实施例作详细说明。
参照图3,一种自动生成ETL配置的方法还包括位于根据所解析的数据源元数据信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息之后的步骤,具体如下:
步骤S240,分析是否获取与数据源元数据库中字段对应的数据源配置信息。
步骤S250,若为否,则解析提取数据源信息中的特定关键词标识设置格式。
其中,特定关键词标识举例来说如下:字段英文以date结尾,则解析为日期类型;英文以number或count结尾解析为数字类型;字段英文以weight结尾,则解析为重量单位(kg)。
步骤S260,根据格式与数据源配置信息的对应关系,分析获取数据源配置信息。
其中,数据源配置信息的分析获取如下:以格式作为查询对象,从预设的存储有格式与数据源配置信息的对应关系的数据库中查找获取数据源配置信息。
在图3的步骤S260中,进一步考虑到根据特定关键词标识来分析确定数据源配置信息,此时需要作进一步分析,具体参照图4所示实施例作详细说明。
参照图4,一种自动生成ETL配置的方法还包括位于根据特定关键词标识与数据源配置信息的对应关系,分析获取数据源配置信息之后的步骤,具体如下:
步骤S270,根据格式与数据源配置信息的对应关系,查询获取数据源配置信息。若未查询到,则执行步骤S280;若查询到,则执行步骤S290。
步骤S280,解析识别数据源信息的字段名,根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息。
其中,数据源配置信息的分析获取如下:以字段名作为查询对象,从预设的存储有字段名与数据源配置信息的对应关系的数据库中查询获取数据源配置信息。
步骤S290,以所查询到的数据源配置信息,作为本次应用的数据源配置信息。
在图4的步骤S290之后,进一步考虑到存在字段所对应的数据源配置信息为多个的情况,在这个情况下,需要作进一步分析,具体参照图5所示实施例作详细说明。
参照图5,一种自动生成ETL配置的方法还包括位于根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息之后的步骤,包括:
步骤SA00,分析根据字段名分析确定的数据源配置信息的个数是否为多个。
步骤SB00,若为是,则选取出现频次最高的数据源配置信息,作为本次应用的数据源配置信息。
在图5的步骤SB00之后,进一步考虑到无法根据字段名来确定数据源配置信息的时候,此时需要作进一步分析,具体参照图6所示实施例作详细说明。
参照图6,自动生成ETL配置的方法还包括位于获取字段名出现的频次,选取频次最高的字段名所对应的数据源配置信息,作为本次应用的数据源配置信息之后的步骤,具体如下:
步骤SC00,分析是否获取本次应用的数据源配置信息。
步骤SD00,若为否,则将字段设置为文本格式。
步骤SE00,根据文本格式、格式与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息。
其中,数据源配置信息的分析获取如下:以文本格式作为查询对象,从预设的存储有格式与数据源配置信息的对应关系的数据库中查询获取数据源配置信息。
在图1的步骤S300以及步骤S400之间,进一步考虑到用户对修改内容也会自身在意的地方,因此在展示所分析确定的数据源配置信息的同时,还应该将用户自身比较在意的修改类别这块作展示,有利于用户在修改过程中更加顺利,此处需要作进一步分析,具体参照图7所示实施例作详细说明。
参照图7,自动生成ETL配置的方法,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
步骤S3a0,获取用户身份信息。
其中,用户身份信息的分析获取可以通过登录自动生成ETL配置系统的用户名来确定,也可以单独设置身份信息识别装置来进行身份信息识别。
步骤S3b0,根据历史用户针对不同数据源配置信息的修改类别概率分布情况,分析获取用户针对本次数据源配置信息的修改类别概率分布情况。
修改类别可以是手动添加、修改或删除列、调整数据类型或索引信息等。
其中,用户针对本次数据源配置信息的修改类别概率分布情况的分析获取如下:以本次所获取的数据源配置信息作为查询对象,从预设的存储有历史用户针对不同数据源配置信息的修改类别概率分布情况的数据库中查询获取历史用户针对本次数据源配置信息的修改类别概率分布情况。
步骤S3c0,按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
在图1的步骤S300以及步骤S400之间,进一步考虑到用户对针对不同情况所形成的数据源配置信息所修改的类别有所不同,此处需要作进一步分析,具体参照图8所示实施例作详细说明。
参照图8,自动生成ETL配置的方法,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
步骤S3A0,获取设置本次应用的数据源配置信息的根源信息类别。
根源信息类别包括根据数据源信息、数据源信息中的字段、数据源信息中的特定关键词标识、数据源信息中的字段名。
步骤S3B0,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况。
其中,针对本次数据源配置信息的修改类别概率分布情况的分析获取如下:以形成数据源配置信息的根源信息类别作为查询对象,从预设的存储有不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况的数据库中查询获取本次数据源配置信息的修改类别概率分布情况。
步骤S3C0,按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
在图1的步骤S300以及步骤S400之间,进一步考虑到用户对针对不同情况所形成的数据源配置信息所修改的类别有所不同以及数据源配置信息的根源信息类别不同所导致的修改的类别有所不同,真实提供用户的修改类别概率分布情况也需要有所不同,此处需要作进一步分析,具体参照图9所示实施例作详细说明。
参照图9,自动生成ETL配置的方法还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
步骤S310,分析是否获取用户身份信息。若为是,则执行步骤S320;若为否,则执行步骤S350。
步骤S320,根据历史用户针对不同数据源配置信息的修改类别概率分布情况,分析获取用户针对本次数据源配置信息的第一修改类别概率分布情况。
其中,步骤S320的设置类似于图7所示实施例,此处不作赘述。
步骤S330,同时获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的第二修改类别概率分布情况。
其中,步骤S320的设置类似于图8所示实施例,此处不作赘述。
步骤S340,根据第一修改类别概率分布情况、第二修改类别概率分布情况以及预设的概率分布情况所对应的权重系数,分析确定本次应用的修改类别概率分布情况。
举例来说,第一修改类别概率分布情况为A:B:C=30%:40%:30%,第二修改类别概率分布情况为A:B:C=60%:20%:20%,权重系数为第一修改类别概率分布:第二修改类别概率分布情况=40%:60%,那么本次应用的修改类别概率分布情况为A:B:C==48%:28%:24%。
其中,预设的概率分布情况所对应的权重系数的分析确定如下:
获取预设时间范围内用户对第一修改类别概率分布情况的第一采用率以及用户对第二修改类别概率分布情况的第二采用率;
根据第一采用率与第二采用率的比值,分析确定权重系数。
例如第一采用率为80%,第二采用率为40%,那么两者的比值为2:1,第一修改类别概率分布情况的权重系数为2/3,第二修改类别概率分布情况的权重系数为1/3。
步骤S350,获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况。
其中,本步骤参照图8所示实施例,此处不作赘述。
步骤S360,按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
基于同一发明构思,本发明实施例提供一种自动生成ETL配置的系统,包括存储器、处理器,存储器上存储有可在所述处理器上运行实现如图1至图9任一种方法的程序。
本具体实施方式的实施例均为本申请的较佳实施例,并非依此限制本申请的保护范围,故:凡依本申请的结构、形状、原理所做的等效变化,均应涵盖于本申请的保护范围之内。

Claims (10)

1.一种自动生成ETL配置的方法,其特征在于,包括:
获取数据源信息;
根据数据源信息与数据源配置信息的对应关系,分析确定相应数据源信息的数据源配置信息;
展示所分析确定的数据源配置信息;
获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息;
根据调整后的数据源配置信息、数据源配置信息与ETL配置文件的对应关系,分析确定ETL配置文件,并生成相应ETL配置文件。
2.根据权利要求1所述的一种自动生成ETL配置的方法,其特征在于,相应数据源信息的数据源配置信息的分析确定如下:
根据数据源信息与数据源配置信息的对应关系,查找与所获取数据源信息对应的数据源配置信息;
若查找到,则以所查找到的数据源配置信息,作为本次推荐的数据源配置信息;
反之,则根据所解析的数据源信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息。
3.根据权利要求2所述的一种自动生成ETL配置的方法,其特征在于,还包括位于根据所解析的数据源元数据信息中的字段、预先配置的存储有字段与数据源配置信息对应关系的数据源元数据库,分析获取与数据源元数据库中字段对应的数据源配置信息之后的步骤,具体如下:
分析是否获取与数据源元数据库中字段对应的数据源配置信息;
若为否,则解析提取数据源信息中的特定关键词标识设置格式;
根据格式与数据源配置信息的对应关系,分析获取数据源配置信息。
4.根据权利要求3所述的一种自动生成ETL配置的方法,其特征在于,还包括位于根据格式与数据源配置信息的对应关系,分析获取数据源配置信息之后的步骤,具体如下:
根据格式与数据源配置信息的对应关系,查询获取数据源配置信息;
若未查询到,则解析识别数据源信息的字段名;
根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息;
若查询到,则以所查询到的数据源配置信息,作为本次应用的数据源配置信息。
5.根据权利要求4所述的一种自动生成ETL配置的方法,其特征在于,还包括位于根据字段名与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息之后的步骤,具体如下:
分析根据字段名分析确定的数据源配置信息的个数是否为多个;
若为是, 则选取出现频次最高的数据源配置信息,作为本次应用的数据源配置信息。
6.根据权利要求5所述的自动生成ETL配置的方法,其特征在于,还包括位于获取字段名出现的频次,选取频次最高的字段名所对应的数据源配置信息,作为本次应用的数据源配置信息之后的步骤,具体如下:
分析是否获取本次应用的数据源配置信息;
若为否,则将字段设置为文本格式;
根据文本格式、格式与数据源配置信息的对应关系,分析获取数据源配置信息,作为本次应用的数据源配置信息。
7.根据权利要求1至6所述的自动生成ETL配置的方法,其特征在于,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
获取用户身份信息;
根据历史用户针对不同数据源配置信息的修改类别概率分布情况,分析获取用户针对本次数据源配置信息的修改类别概率分布情况;
按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
8.根据权利要求1至6任意一项所述的自动生成ETL配置的方法,其特征在于,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
获取设置本次应用的数据源配置信息的根源信息类别,根源信息类别包括根据数据源信息、数据源信息中的字段、数据源信息中的特定关键词标识、数据源信息中的字段名;
根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况;
按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
9.根据权利要求1至6任意一项所述的自动生成ETL配置的方法,其特征在于,还包括位于展示所分析确定的数据源配置信息之后,且在获取用户对数据源配置信息的修改信息,并形成调整后的数据源配置信息之前的步骤,具体如下:
分析是否获取用户身份信息;
若为是,则根据历史用户针对不同数据源配置信息的修改类别概率分布情况,分析获取用户针对本次数据源配置信息的第一修改类别概率分布情况;
同时获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的第二修改类别概率分布情况;
根据第一修改类别概率分布情况、第二修改类别概率分布情况以及预设的概率分布情况所对应的权重系数,分析确定本次应用的修改类别概率分布情况;
若为否,则获取设置本次应用的数据源配置信息的根源信息类别,根据不同根源信息类别所形成的数据源配置信息的修改类别概率分布情况,分析获取针对本次数据源配置信息的修改类别概率分布情况;
按照由高至低的修改类别概率分布对用户针对本次数据源配置信息的修改类别作由上至下的展示。
10.一种自动生成ETL配置的系统,其特征在于,包括:包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的程序,该程序能够被处理器加载执行时实现如权利要求1至9中任一项所述的一种自动生成ETL配置的方法。
CN202310747048.8A 2023-06-21 2023-06-21 一种自动生成etl配置的方法以及系统 Active CN116775737B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310747048.8A CN116775737B (zh) 2023-06-21 2023-06-21 一种自动生成etl配置的方法以及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310747048.8A CN116775737B (zh) 2023-06-21 2023-06-21 一种自动生成etl配置的方法以及系统

Publications (2)

Publication Number Publication Date
CN116775737A true CN116775737A (zh) 2023-09-19
CN116775737B CN116775737B (zh) 2024-04-30

Family

ID=87990896

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310747048.8A Active CN116775737B (zh) 2023-06-21 2023-06-21 一种自动生成etl配置的方法以及系统

Country Status (1)

Country Link
CN (1) CN116775737B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393517A (zh) * 2007-09-20 2009-03-25 上海宝信软件股份有限公司 基于xml和控件实现配置的方法及装置
CN107168866A (zh) * 2016-03-08 2017-09-15 阿里巴巴集团控股有限公司 一种配置文件的参数解析方法及装置
CN108710684A (zh) * 2018-05-21 2018-10-26 平安科技(深圳)有限公司 Etl任务数据源切换方法、系统、计算机设备和存储介质
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
CN110263081A (zh) * 2019-06-18 2019-09-20 普元信息技术股份有限公司 云计算平台下实现异构数据处理功能的etl系统及其处理方法
CN110471968A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 Etl任务的发布方法、装置、设备及存储介质
CN111813806A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种基于策略服务实现etl系统及其方法
US11294926B1 (en) * 2019-05-31 2022-04-05 Facteus, Inc. Master extract, transform, and load (ETL) application for accommodating multiple data source types having disparate data formats

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101393517A (zh) * 2007-09-20 2009-03-25 上海宝信软件股份有限公司 基于xml和控件实现配置的方法及装置
CN107168866A (zh) * 2016-03-08 2017-09-15 阿里巴巴集团控股有限公司 一种配置文件的参数解析方法及装置
CN108710684A (zh) * 2018-05-21 2018-10-26 平安科技(深圳)有限公司 Etl任务数据源切换方法、系统、计算机设备和存储介质
CN108846076A (zh) * 2018-06-08 2018-11-20 山大地纬软件股份有限公司 支持接口适配的海量多源异构数据etl方法及系统
US11294926B1 (en) * 2019-05-31 2022-04-05 Facteus, Inc. Master extract, transform, and load (ETL) application for accommodating multiple data source types having disparate data formats
CN110263081A (zh) * 2019-06-18 2019-09-20 普元信息技术股份有限公司 云计算平台下实现异构数据处理功能的etl系统及其处理方法
CN110471968A (zh) * 2019-07-11 2019-11-19 新华三大数据技术有限公司 Etl任务的发布方法、装置、设备及存储介质
CN111813806A (zh) * 2020-06-01 2020-10-23 北京百卓网络技术有限公司 一种基于策略服务实现etl系统及其方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
PAPA SENGHANE DIOUF等: "Variety of data in the ETL processes in the cloud: State of the art", 《2018 IEEE INTERNATIONAL CONFERENCE ON INNOVATIVE RESEARCH AND DEVELOPMENT (ICIRD)》, 11 June 2018 (2018-06-11) *
梁美红;张男楠;李建;伍东;胡永泉;杨静;: "一种钻井数据仓库ETL系统的设计", 计算机技术与发展, no. 03, pages 250 - 253 *

Also Published As

Publication number Publication date
CN116775737B (zh) 2024-04-30

Similar Documents

Publication Publication Date Title
CN110543517B (zh) 一种基于Elasticsearch实现海量数据复杂查询方法、装置及介质
CN109992601B (zh) 待办事项信息的推送方法、装置和计算机设备
US11651014B2 (en) Source code retrieval
CN112035599B (zh) 基于垂直搜索的查询方法、装置、计算机设备及存储介质
CN110019551B (zh) 一种数据仓库构建方法及装置
US9858330B2 (en) Content categorization system
CN111913954B (zh) 智能数据标准目录生成方法和装置
CN112286934A (zh) 数据库表导入方法、装置、设备及介质
US11010393B2 (en) Library search apparatus, library search system, and library search method
CN115455103A (zh) 基于动态化接口引擎的动态查询系统及方法
CN114756570A (zh) 采购场景的垂直搜索方法、装置和系统
CN112732743B (zh) 一种基于中文自然语言的数据分析方法及装置
CN117807091A (zh) 数据的关联方法及装置
CN116775737B (zh) 一种自动生成etl配置的方法以及系统
CN108345699B (zh) 获取多媒体数据的方法、装置及存储介质
CN115840760A (zh) 一种基于自然语言的数据查询方法及装置
US8626766B1 (en) Systems and methods for ranking and importing business listings
CN112214494B (zh) 检索方法及装置
CN106294433B (zh) 设备信息处理方法及装置
CN113010651A (zh) 一种针对用户提问的答复方法、装置及设备
CN112633894A (zh) 偿付能力的压力测试方法、装置、设备和计算机存储介质
CN111552856A (zh) 一种微博舆情传播路径分析方法
CN118331992B (zh) 数据查询方法、装置、电子设备及存储介质
CN113568662B (zh) 一种基于调用关系的代码变更影响范围分析方法及系统
CN115934759B (zh) 一种面向海量多源异构卫星数据查询的加速计算方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant