CN117421328A - 基于人工智能的数据治理方法、系统、设备及可读介质 - Google Patents
基于人工智能的数据治理方法、系统、设备及可读介质 Download PDFInfo
- Publication number
- CN117421328A CN117421328A CN202311449123.9A CN202311449123A CN117421328A CN 117421328 A CN117421328 A CN 117421328A CN 202311449123 A CN202311449123 A CN 202311449123A CN 117421328 A CN117421328 A CN 117421328A
- Authority
- CN
- China
- Prior art keywords
- data
- etl
- service requirements
- artificial intelligence
- flow
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 83
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 47
- 238000013523 data management Methods 0.000 title abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 62
- 238000012360 testing method Methods 0.000 claims abstract description 41
- 238000005070 sampling Methods 0.000 claims abstract description 40
- 238000007689 inspection Methods 0.000 claims abstract description 10
- 238000012795 verification Methods 0.000 claims description 44
- 230000008569 process Effects 0.000 claims description 31
- 238000011068 loading method Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 11
- 230000001172 regenerating effect Effects 0.000 claims description 9
- 238000013075 data extraction Methods 0.000 claims description 8
- 238000007405 data analysis Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 6
- 238000004140 cleaning Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 5
- 238000011160 research Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 239000008186 active pharmaceutical agent Substances 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000013501 data transformation Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001502 supplementing effect Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2453—Query optimisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种基于人工智能的数据治理方法、系统、设备及介质,方法包括获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;对所述SQL指令进行自动化脚本检查;对所述ETL流程进行人工智能语义检查;根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
Description
技术领域
本申请涉及数据治理技术领域,尤其涉及一种基于人工智能的数据治理方法、系统、设备及可读介质。
背景技术
随着信息技术的高速发展,数据的有效管理对企业来说变得日益重要。传统的数据治理一般都需要一个大数据团队来支持,需要设计各种数据库表的结构,理清各表之间的关系,然后结合业务来写ETL流程和sql代码进行运算治理。
然而现有数据治理方法在生成ETL(Extract,Transform,Load)流程和SQL代码方面存在一些局限,具体表现为:ETL流程和SQL代码的设计常常需要耗费大量时间和精力,需要执行人员拥有丰富的技术水平和业务相关知识,一般需要一整个大数据团队来支持,所以这限制了小型企业或者科研任务的发展;同时现有技术中的自动化工具存在局限性,需要预先配置繁琐的规则,比如Kettle这种常用ETL工具,需要通过拖拉拽的方式进行交互,里面的Sql指令也需要业务人员自己来写,这让普通的业务人员或者科研人员无法快速地利用数据来实现自己的业务和科研想法。
发明内容
本申请的一个目的是提供一种基于人工智能的数据治理方法、系统、设备及可读介质,至少用以使得该方法可以解决数据治理复杂的技术问题。
为实现上述目的,本申请的一些实施例提供了一种基于人工智能的数据治理方法,所述方法包括:获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;对所述SQL指令进行自动化脚本检查;对所述ETL流程进行人工智能语义检查;根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
进一步地所述数据特征包括数据类型、数据结构和数据关系;所述业务需求包括数据分析需求、数据报表需求和数据整合需求。
进一步地,所述自动化脚本检查包括:根据所述数据特征,进行数据表和列字段的存在性验证、字段类型的正确性验证、关联关系的一致性验证、主键和外键约束的检查和索引的存在性验证。
进一步地,所述所述ETL流程包括数据提取、数据转换和数据加载。
进一步地,所述人工智能语义检查包括:根据所述业务需求,进行ETL流程的逻辑验证、数据转换的正确性检查和数据加载的符合性检查。
进一步地,所述方法还包括:对所述测试采样数据进行数据质量验证,当所述当所述测试采样数据满足所述数据特征和所述业务需求时,进行全量数据处理;当所述当所述测试采样数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令;对所述运行处理数据进行数据质量验证,当所述运行处理数据满足所述数据特征和所述业务需求时,输出数据表;当所述运行处理数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令。
本申请的一些实施例还提供了一种基于人工智能的数据治理系统,所述系统包括:ETL生成模块,所述ETL生成模块用于获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;辅助检查模块,所述辅助检查模块用于对所述SQL指令进行自动化脚本检查和对所述ETL流程进行人工智能语义检查;验证测试模块,根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
进一步地,所述系统还包括:人工检测模块,所述人工检测模块用于当所述测试采样数据和所述运行处理数据进行数据质量验证不通过时,获取人工检测数据,调整所述数据特征和业务需求。
本申请的一些实施例还提供了一种基于人工智能的数据治理设备,所述设备包括:一个或多个处理器;以及存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行如上所述的方法。
本申请的一些实施例还提供了一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现所述的基于人工智能的数据治理方法。
相较于现有技术,本申请实施例提供的方案中,基于人工智能的数据治理方法利用人工智能技术,能够智能分析数据特征和业务需求,从而自动生成适用于不同数据的ETL流程和相应的SQL代码,这减轻了数据专业人员的负担,无需手动设计复杂的ETL流程和SQL代码,从而提高了数据治理的效率。本方法不仅仅依靠生成的代码,还引入了少批量数据采样和快速测试,全面验证人工智能生成的ETL过程的可执行性和符合性。在数据治理过程中,引入了人工智能辅助检查机制,用于生成的SQL代码检查、用户需求补充和最终数据报表的质量检查。这确保了数据治理结果的准确性和一致性。
附图说明
图1为本申请实施例提供的一种基于人工智能的数据治理方法的流程示意图;
图2为本申请实施例提供的又一种基于人工智能的数据治理方法的流程示意图;
图3为本申请实施例提供的一种基于人工智能的数据治理系统的结构示意图;
图4为本申请实施例提供的一种基于人工智能的数据治理系统的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着信息技术的高速发展,数据在企业和科研领域的重要性日益凸显,传统的数据治理方法通常需要耗费大量时间和精力,依赖于专业的数据团队来设计ETL流程和SQL代码。然而,这对于小型企业或独立研究者来说可能是一项复杂且繁琐的项目。
针对上述技术问题,本申请实施例提供了一种基于人工智能的数据治理方法,本申请实施例的核心在于:获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;对所述SQL指令进行自动化脚本检查;对所述ETL流程进行人工智能语义检查;根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
在本申请一些实施例中,所述数据特征包括数据类型、数据结构和数据关系;所述业务需求包括数据分析需求、数据报表需求和数据整合需求。
数据治理中的数据特征是指数据集本身的性质、特点和属性。数据特征通常包括以下方面:
数据类型包括:结构化数据,以表格、行和列的形式存储,例如数据库中的数据;半结构化数据,具有部分结构的数据,通常以XML、JSON等格式存储;非结构化数据:没有明确定义结构的数据,例如文本、图像、音频和视频。数据结构包括:表格数据,数据以表格形式组织,包括列和行;层次结构数据,数据按照层次结构组织,例如XML文档;图形数据,数据以图形或网络结构组织,例如社交网络关系。数据规模包括:数据集的大小,通常用以下指标衡量:记录数,数据集中的记录或行数;文件大小,数据文件的大小,通常以字节、千字节、兆字节等计量单位表示。数据质量包括以下方面:准确性,数据是否准确无误;完整性,数据是否完整,是否存在缺失值;一致性,数据是否在不同地方保持一致,例如不同数据库表之间的数据一致性;可靠性,数据是否可靠,是否容易受到错误或损坏的影响。数据关系包括:表之间的关系,不同数据库表之间的关联和外键关系。数据引用:一个数据元素是否引用另一个数据元素。数据分布:数据在不同维度上的分布情况,用于数据分析和统计,例如数据的时间分布、地理分布等。
数据的特征有助于制定合适的数据治理策略和处理流程,确保数据能够满足组织的需求并保持高质量,不同数据特征可能需要不同的数据治理方法和工具。
业务需求在数据治理中可以包括各种不同的方面,具体取决于组织或个人的实际目标和需求。以下是在业务需求中的常见要素:
数据分析需求:包括对数据进行分析、挖掘、建模和预测的需求。例如,一家零售公司可能需要分析销售数据以了解销售趋势,或者一个医疗研究机构可能需要对患者数据进行统计分析以研究疾病模式。
数据报表需求:许多组织需要生成各种类型的数据报表和可视化,以便更好地理解数据和传达关键信息。这包括仪表板、汇总报告、趋势图等。
数据整合需求:在大型组织中,可能存在多个数据源和系统,需要将这些数据整合到一个统一的数据仓库或数据库中,以支持跨数据源的分析和查询。
数据质量需求:确保数据的准确性、完整性、一致性和可靠性对许多业务至关重要。这包括数据清洗、去重、纠错等需求。
在本申请一些实施例中,所述自动化脚本检查包括:根据所述数据特征,进行数据表和列字段的存在性验证、字段类型的正确性验证、关联关系的一致性验证、主键和外键约束的检查和索引的存在性验证。
数据表和列字段的存在性验证:检查生成的SQL代码中引用的数据表是否真实存在于所选的数据库中,以及所引用的列字段是否存在,这有助于避免引用不存在的表或字段,从而减少运行时错误。
字段类型的正确性验证:验证生成的SQL代码中使用的字段类型是否正确,这确保了数据的正确类型转换和处理,以满足业务需求。
关联关系的一致性验证:检查生成的SQL代码中的关联关系是否与数据特征和业务需求一致,这有助于确保数据的关联和连接在逻辑上是正确的。
主键和外键约束的检查:验证生成的SQL代码中是否包含适当的主键和外键约束,这有助于维护数据的完整性和一致性。
索引的存在性验证:检查生成的SQL代码中是否包含必要的索引,以提高数据检索性能,确保索引存在有助于优化数据查询速度。
通过自动化脚本检查,本方法能够在生成SQL代码时发现和纠正潜在的问题,从而提高了生成的数据治理过程的质量和可靠性。这些检查有助于降低数据治理过程中的错误和风险,确保数据的正确性和一致性。
在本申请一些实施例中,所述所述ETL流程包括数据提取、数据转换和数据加载。
数据提取包括根据数据特征和业务需求选择适当的数据源,如数据库、文件、API等;定义数据提取时需要应用的规则,如筛选、排序等;从选定的数据源中提取数据,可以是全量数据提取或增量数据提取;建立到数据源的连接,以便安全地提取数据。
数据转换包括数据清洗,清理和处理原始数据,包括去除重复数据、填充缺失值、处理异常值等;数据整合,将来自不同数据源的数据整合成一个一致的格式,以便后续处理;定义数据转换的规则,例如数据格式转换、计算派生字段、数据标准化等;执行数据质量检查,确保数据符合质量标准。
数据加载包括目标数据存储选择,确定将数据加载到哪个目标数据存储中,例如数据仓库、数据库等;定义数据加载的规则,包括数据分区、索引创建、数据加载模式等;将经过提取和转换的数据加载到目标位置;目标数据表/文件创建:如果目标位置不存在相应的数据表或文件,需要创建它们。
这些步骤组成了完整的ETL流程,其目标是将原始数据转化为高质量、可用于分析和决策的数据。本申请的实施例中,借助人工智能技术,自动生成适用于不同数据和业务需求的ETL流程,大幅提高了数据治理的效率和质量。
在本申请一些实施例中,所述人工智能语义检查包括:根据所述业务需求,进行ETL流程的逻辑验证、数据转换的正确性检查和数据加载的符合性检查。
ETL流程的逻辑验证包括根据所述业务需求,人工智能模型对生成的ETL流程进行逻辑验证。检查ETL流程的步骤和顺序是否与业务需求一致,以及是否存在潜在的逻辑错误或不一致性。例如,验证数据提取、转换和加载步骤是否按正确的顺序执行,以确保数据的完整性和准确性。
数据转换的正确性检查包括数据转换步骤的检查,以确保数据转换规则和操作的正确性。验证计算、派生字段、数据格式转换等是否按照业务需求进行,以确保生成的数据在转换过程中不会失真或错误。
数据加载的符合性检查包括对数据加载步骤的验证,以确保数据加载到目标位置的过程符合业务需求和数据质量标准。验证加载规则、数据分区和索引等是否符合要求,以确保加载的数据可以满足后续的数据分析和查询需求。
通过这些人工智能语义检查,本方法可以在生成ETL流程之后,进一步确保生成的数据治理过程具有正确的逻辑,数据转换的准确性,以及数据加载的符合性。这有助于提高数据治理结果的质量,降低了潜在的错误和风险,并确保生成的数据可以满足用户最初的需求。
在本申请一些实施例中,所述方法还包括:对所述测试采样数据进行数据质量验证,当所述当所述测试采样数据满足所述数据特征和所述业务需求时,进行全量数据处理;当所述当所述测试采样数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令;对所述运行处理数据进行数据质量验证,当所述运行处理数据满足所述数据特征和所述业务需求时,输出数据表;当所述运行处理数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令。
采用测试采样数据来验证生成的ETL流程和SQL指令的可行性和质量。如果测试采样数据满足所述数据特征和业务需求,进入下一步的全量数据处理;如果测试采样数据不满足要求,则触发重新生成ETL流程和SQL指令的过程。当测试采样数据通过验证,将执行全量数据处理,将完整的数据集提取、转换和加载到目标位置,此过程的关键是确保全量数据处理也符合所述数据特征和业务需求。
对运行处理数据进行数据质量验证,针对全量数据处理后的运行处理数据,再次进行数据质量验证,如果运行处理数据满足所述数据特征和业务需求,将输出数据表;如果运行处理数据不满足要求,触发重新生成ETL流程和SQL指令的过程。当测试采样数据或运行处理数据不满足数据特征和业务需求时,系统会自动触发重新生成ETL流程和SQL指令的过程。这个过程会基于当前的数据质量验证结果和反馈,调整ETL流程和SQL指令,以满足要求。
通过这个自动化的数据质量验证和修正机制,本方法确保了生成的数据治理过程不仅在测试阶段通过验证,而且在全量数据处理阶段也能够满足数据特征和业务需求。如果发现问题,系统可以自动重新生成适应性更好的ETL流程和SQL指令,以提高数据质量和准确性,从而确保最终输出的数据表符合用户需求。这个机制有助于减少错误的积累,提高数据治理过程的稳定性和可靠性。
下面结合一具体应用实例对本申请实施例的基于人工智能的数据治理方法的实现细节进行具体的说明,以下内容仅为方便理解提供的实现细节,并非实施本方案的必须。
如图2所示,引导式输入需求描述,根据需求人工智能模型(如chatgpt、文心大模型等)会自动分析数据特性、处理目标和业务要求,若是用户提供的信息不全,会引导用户补全所需要的相关信息,并基于这些分析,系统将智能地选取相应的数据库和数据表。在选好数据库和数据表之后,系统将生成适用于特定任务和特定数据的ETL流程,并在每个流程节点内生成相应的SQL代码。这一自动生成过程大大减轻了数据专业人员的工作量,提高了数据治理的效率。
随后,根据生成的ETL流程,将从目标数据库中拉取数据,并依次执行完整的ETL过程,完成数据的转换、清洗和加载。为了快速验证人工智能生成的ETL过程的可执行性和符合性,数据执行过程会对少批量数据进行采样,从而进行快速测试。如果验证过程确认生成的ETL过程可执行且满足用户需求,将进入正式的全量数据清洗过程,确保数据质量和准确性。
在ETL流程和节点sql的生成过程中,引入了相应的检查机制,包括sql的自动化脚本检查和人工智能语义检查,其中脚本检查主要用来检查引用的表和表中的列字段是否真实存在以及使用的字段类型是否正确等等,人工智能语义检查主要检查生成的ETL流程是否能满足用户的需求;另外得到最终的数据清洗结果之后,还有一个数据质量验证模块,主要会统计结果表的各项数据分布以及抽样出部分数据行给人工智能进行验证,看看是否满足用户最初的需求。当未通过sql脚本检查和人工智能语义检查、抽样小批量数据进行可执行性测试、测试运行的数据质量检验和正式运行的质量验证时,重新进行人工智能生成ETL流程和节点sql。
通过人工智能生成ETL流程和SQL代码,本申请大幅度减少了数据专业人员手动设计流程和代码的工作量,从而大大提升了数据治理的效率。与传统方法相比,数据处理时间大幅缩短,所依赖的专业人员大幅减少,有效节约了资源和成本;不仅自动化生成流程和代码,还引入了人工智能辅助检查机制,确保生成的ETL流程和数据报表准确无误。与以往手动操作相比错误率大幅降低,大大提高了数据质量;本申请引入了少批量数据采样和快速测试步骤,有效地验证人工智能生成的ETL过程的可行性,这使得问题能够更早地被发现和解决,节约了时间和资源。
本申请的一些实施例还提供了一种基于人工智能的数据治理系统,如图3所示,所述系统包括:
ETL生成模块,所述ETL生成模块用于获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;
辅助检查模块,所述辅助检查模块用于对所述SQL指令进行自动化脚本检查和对所述ETL流程进行人工智能语义检查;
验证测试模块,根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
在本申请一些实施例中,所述系统还包括:人工检测模块,所述人工检测模块用于当所述测试采样数据和所述运行处理数据进行数据质量验证不通过时,获取人工检测数据,调整所述数据特征和业务需求。
当系统在测试采样数据或运行处理数据进行数据质量验证时出现不符合预期的结果,人工检测模块将被自动触发,这个触发机制确保在自动流程无法满足要求时,能够及时进行手工干预,避免错误的数据流入后续处理环节;数据展示与问题标注,一旦模块被触发,相关的数据、ETL流程和SQL代码将在人工检测模块的用户界面中展示,数据专家或业务分析师可以查看问题数据,并对其中的异常或错误进行标注;在系统界面中,用户可以手动调整数据特性、处理目标和业务要求,这些调整涉及到数据的格式、单位、处理规则等内容;调整完成后,系统将基于新的数据特性和业务需求重新生成ETL流程和SQL代码,人工检测模块会监控这一重新处理的流程,确保数据处理得到预期的结果;完成人工干预后的数据处理,数据专家或业务分析师可以对处理结果进行评价,这些评价信息将被反馈到系统,有助于未来自动流程的优化。为了跟踪手工干预的历史和效果,人工检测模块会生成详细的操作日志,这些日志记录了每一次人工检测的时间、触发原因、涉及的数据、处理结果等关键信息,有助于后续的问题分析和系统优化。
不难发现,本申请实施例是与方法实施例相对应的系统实施例,本申请实施例的实现细节已在方法实施例中阐述,为避免重复,此处不再赘述。
此外,本申请实施例还提供了一种基于人工智能的数据治理设备,该设备的结构如图4所示,所述设备包括用于存储计算机可读指令的存储器90和用于执行计算机可读指令的处理器100,其中,当该计算机可读指令被该处理器执行时,触发所述处理器执行所述基于人工智能的数据治理方法。
本申请实施例中的方法和/或实施例可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被处理单元执行时,执行本申请的方法中限定的上述功能。
需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图或框图示出了按照本申请各种实施例的设备、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的针对硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
作为另一方面,本申请实施例还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中。上述计算机可读介质承载有一个或者多个计算机可读指令,所述计算机可读指令可被处理器执行以实现前述本申请的多个实施例的方法和/或技术方案的步骤。
在本申请一个典型的配置中,终端、服务网络的设备均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体,可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
此外,本申请实施例还提供了一种计算机程序,所述计算机程序存储于计算机设备,使得计算机设备执行所述控制代码执行的方法。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一些实施例中,本申请的软件程序可以通过处理器执行以实现上文步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (10)
1.一种基于人工智能的数据治理方法,其特征在于,所述方法包括:
获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;
对所述SQL指令进行自动化脚本检查;对所述ETL流程进行人工智能语义检查;根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;
当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
2.根据权利要求1所述方法,其特征在于,所述数据特征包括数据类型、数据结构和数据关系;所述业务需求包括数据分析需求、数据报表需求和数据整合需求。
3.根据权利要求2所述方法,其特征在于,所述自动化脚本检查包括:
根据所述数据特征,进行数据表和列字段的存在性验证、字段类型的正确性验证、关联关系的一致性验证、主键和外键约束的检查和索引的存在性验证。
4.根据权利要求2所述方法,其特征在于,所述所述ETL流程包括数据提取、数据转换和数据加载。
5.根据权利要求4所述方法,其特征在于,所述人工智能语义检查包括:
根据所述业务需求,进行ETL流程的逻辑验证、数据转换的正确性检查和数据加载的符合性检查。
6.根据权利要求1-5任意一项所述方法,其特征在于,所述方法还包括:
对所述测试采样数据进行数据质量验证,当所述当所述测试采样数据满足所述数据特征和所述业务需求时,进行全量数据处理;当所述当所述测试采样数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令;
对所述运行处理数据进行数据质量验证,当所述运行处理数据满足所述数据特征和所述业务需求时,输出数据表;当所述运行处理数据不满足所述数据特征和所述业务需求时,重新生成ETL流程和SQL指令。
7.一种基于人工智能的数据治理系统,其特征在于,所述系统包括:
ETL生成模块,所述ETL生成模块用于获取数据特征和业务需求,根据所述数据特征和业务需求选择数据库,生成相应的ETL流程,包括在所述ETL流程的每个流程节点内生成相应的SQL指令;
辅助检查模块,所述辅助检查模块用于对所述SQL指令进行自动化脚本检查和对所述ETL流程进行人工智能语义检查;
验证测试模块,根据通过检查的所述ETL流程和所述SQL指令进行少批量数据采样处理,得到测试采样数据;当所述测试采样数据满足所述数据特征和所述业务需求时,根据所述所述ETL流程和所述SQL指令进行全量数据处理,得到运行处理数据。
8.根据权利要求7所述系统,其特征在于,还包括:
人工检测模块,所述人工检测模块用于当所述测试采样数据和所述运行处理数据进行数据质量验证不通过时,获取人工检测数据,调整所述数据特征和业务需求。
9.一种基于人工智能的数据治理设备,其特征在于,所述设备包括:
一个或多个处理器;以及
存储有计算机程序指令的存储器,所述计算机程序指令在被执行时使所述处理器执行如权利要求1-6任意一项所述的方法。
10.一种计算机可读介质,其上存储有计算机程序指令,所述计算机程序指令可被处理器执行以实现如权利要求1-6任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311449123.9A CN117421328A (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据治理方法、系统、设备及可读介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311449123.9A CN117421328A (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据治理方法、系统、设备及可读介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117421328A true CN117421328A (zh) | 2024-01-19 |
Family
ID=89532363
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311449123.9A Pending CN117421328A (zh) | 2023-11-23 | 2023-11-23 | 基于人工智能的数据治理方法、系统、设备及可读介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117421328A (zh) |
-
2023
- 2023-11-23 CN CN202311449123.9A patent/CN117421328A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11847574B2 (en) | Systems and methods for enriching modeling tools and infrastructure with semantics | |
JP6691548B2 (ja) | データベースクエリ実行トレース及び実行に関する問題を診断するためのデータ生成 | |
US9898280B2 (en) | Automatic code review and code reviewer recommendation | |
US10013439B2 (en) | Automatic generation of instantiation rules to determine quality of data migration | |
US9720971B2 (en) | Discovering transformations applied to a source table to generate a target table | |
US20140279934A1 (en) | Self-analyzing data processing job to determine data quality issues | |
US20110307502A1 (en) | Extensible event-driven log analysis framework | |
CN111611458A (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
US9928288B2 (en) | Automatic modeling of column and pivot table layout tabular data | |
CN107766353B (zh) | 一种数据库统计信息迁移的方法和设备 | |
US20200210401A1 (en) | Proactive automated data validation | |
US10423416B2 (en) | Automatic creation of macro-services | |
CN113326247B (zh) | 云端数据的迁移方法、装置及电子设备 | |
US9195730B2 (en) | Verifying correctness of a database system via extended access paths | |
CN112783786B (zh) | 测试案例的生成方法、装置、设备、介质和程序产品 | |
Barbour et al. | An investigation of the fault-proneness of clone evolutionary patterns | |
US9348850B1 (en) | Method for large-scale data schema analysis and quality assurance | |
Dreves et al. | Validating Data and Models in Continuous ML Pipelines. | |
CN117421328A (zh) | 基于人工智能的数据治理方法、系统、设备及可读介质 | |
CN114297074A (zh) | 一种基于动态配置实现功能、接口、性能自动测试方法 | |
US7844627B2 (en) | Program analysis method and apparatus | |
CN112416727A (zh) | 批处理作业的检核方法、装置、设备及介质 | |
US20200210389A1 (en) | Profile-driven data validation | |
CN112699011A (zh) | 统计增量代码覆盖率的方法、装置及电子设备、存储介质 | |
CN117076515B (zh) | 医疗管理系统中元数据的溯源方法、装置、服务器及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |