CN117909392A - 一种智能化数据资产盘点的方法和系统 - Google Patents
一种智能化数据资产盘点的方法和系统 Download PDFInfo
- Publication number
- CN117909392A CN117909392A CN202311744642.8A CN202311744642A CN117909392A CN 117909392 A CN117909392 A CN 117909392A CN 202311744642 A CN202311744642 A CN 202311744642A CN 117909392 A CN117909392 A CN 117909392A
- Authority
- CN
- China
- Prior art keywords
- data
- inventory
- asset
- assets
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 102
- 230000008859 change Effects 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 48
- 238000004422 calculation algorithm Methods 0.000 claims description 36
- 238000012545 processing Methods 0.000 claims description 27
- 238000012544 monitoring process Methods 0.000 claims description 19
- 238000004458 analytical method Methods 0.000 claims description 17
- 238000004590 computer program Methods 0.000 claims description 17
- 238000003860 storage Methods 0.000 claims description 16
- 239000008186 active pharmaceutical agent Substances 0.000 claims description 12
- 238000013499 data model Methods 0.000 claims description 9
- 238000007405 data analysis Methods 0.000 claims description 7
- 238000013500 data storage Methods 0.000 claims description 6
- 239000000758 substrate Substances 0.000 claims 1
- 238000007792 addition Methods 0.000 abstract description 2
- 238000012217 deletion Methods 0.000 abstract description 2
- 230000037430 deletion Effects 0.000 abstract description 2
- 230000004048 modification Effects 0.000 abstract description 2
- 238000012986 modification Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 11
- 238000004364 calculation method Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 9
- 238000004891 communication Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000013480 data collection Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000005065 mining Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000012550 audit Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000013075 data extraction Methods 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000007670 refining Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Abstract
本发明实施例提供一种智能化数据资产盘点方法和系统,该方法通过引入工具,实现对数据资产的自动化盘点。这些技术可以帮助快速识别和分类数据资产,减少人工操作的工作量,并提高盘点的准确性和效率。传统的盘点方法往往只能对特定类型或特定部分的数据进行盘点,而本发明实施例的自动化盘点则可以对整个数据资产进行全面的盘点。它可以识别和盘点所有类型的数据,包括结构化数据、非结构化数据、文本、图像、音频等多种形式的数据。本发明实施例的自动化盘点可以实时监控数据资产的变动,并及时更新盘点结果。它可以持续跟踪数据的新增、修改和删除,并自动更新盘点清单,保证盘点结果的及时性和准确性。
Description
技术领域
本发明涉及软件技术领域,具体涉及一种智能化数据资产盘点的方法和系统。
背景技术
目前同类型产品在对外提供数据资产盘点服务时,需要通过人工的方式对公司或组织的数据资产进行盘点和整理,需要较长周期人工投入才能确定哪些数据符合需求。这个过程需要对所有的数据进行逐一检查和记录,包括数据的来源、存储位置、分类、业务释义、数据权限等。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:大量的数据资产需要进行合规性审计与数据风险管理,面对大规模和复杂的数据资产,常规的手工盘点是一种比较耗时和费力的方法,容易出现人为错误和遗漏。
发明内容
有鉴于此,本发明实施例的目的在于提供一种智能化数据资产盘点的方法和系统,本发明通过借助自动化工具和技术以确保金融机构的数据资产能够被准确识别、分类和管理。
第一方面,本发明实施例提供了一种智能化数据资产盘点方法,其包括如下步骤:
S1:根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;所述盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
S2:根据所述盘点时间表、所述盘点频率和所述盘点规则,触发启动执行盘点任务,所述盘点任务包括多个子盘点任务;
S3:当所述盘点任务开始执行时启动盘点流程,所述盘点流程包括:建立与数据源的连接并进行认证,采集数据源的元数据信息,分析所述元数据信息以生成初步的盘点结果,实时监控数据资产的变动并在检测到变动时更新所述初步的盘点结果;
S4:在盘点流程的执行过程中,扫描所述数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
S5:根据采集到的每个数据资产的元数据信息执行子盘点任务,其包括:对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产,针对分类后的数据资产,应用预设的相似度算法以找到所述数据源下的目标数据资产;对已找到的目标数据资产执行相应的盘点规则;
S6:当成功执行子盘点任务对应的盘点规则时,生成所述子盘点任务执行成功的指示;
S7:当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对所述初步的盘点结果进行处理得到最终的盘点结果,并且发布所述最终的盘点结果。
在一些可能的实施方式中,在步骤S1之前,所述方法还包括:新增数据资产的盘点规则;
在步骤S7之后,所述方法还包括:如果盘点任务执行失败,根据任务日志分析失败原因或者重新设置盘点任务重新执行。
在一些可能的实施方式中,所述元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;所述最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成;所述数据资产包括数据库表、文件和应用程序编程接口API;所述预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性。
在一些可能的实施方式中,在步骤S3中,所述的采集数据源的元数据信息,具体包括:
根据数据资产类型,创建相应的采集模板,所述数据资产类型包括指标、报表、数据模型、标签或者服务;
在所述采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;
根据数据资产类型配置采集适配器,所述采集适配器用于连接到相应数据资产类型的数据资产并收集数据;
联合使用所述采集模板和所述采集适配器自动化地从多个数据源中收集数据资产信息,所述数据源包括数据库和/或本地文件;
从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
在一些可能的实施方式中,所述的根据数据资产类型配置采集适配器,具体包括:
确定需要采集的数据资产类型;
根据所述数据资产类型,选择相应的采集适配器;
在选择好采集适配器后,对所述采集适配器进行配置,配置内容包括:数据源地址、采集频率、和数据存储位置。
在一些可能的实施方式中,步骤S5对采集到的元数据信息进行分析,以识别和分类不同类型的数据资产,具体包括:
使用文本分析算法对文档中的数据进行处理,以提取关键信息,所述关键信息包括关键词和主题,基于所述关键信息识别文本数据资产;或者,
使用图像识别算法对图像文件的内容进行处理,以提取关键图像内容,基于所述关键图像内容识别图像数据资产;或者,
基于数据资产的数据类型、数据格式或者数据结构对数据资产进行分类;所述数据类型包括文本、数值和图像,所述数据格式包括CSV、JSON和图像文件,所述数据结构包括表格、层次结构和图形结构;或者,
使用基于规则和关联性的分类方法识别特定模式或关联性,并将数据资产分为不同的类别。
第二方面,提供一种智能化数据资产盘点系统,其包括:
盘点任务创建模块,用于根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;所述盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
包含任务调度模块的自动化工作流,用于根据所述盘点时间表、所述盘点频率和所述盘点规则,触发启动执行盘点任务,所述盘点任务包括多个子盘点任务;
盘点流程执行模块,用于当所述盘点任务开始执行时启动盘点流程,所述盘点流程执行模块包括:数据源接入子模块,用于建立与数据源的连接并进行认证;数据采集子模块,用于采集数据源的元数据信息;数据分析子模块,用于分析所述元数据信息以生成初步的盘点结果;监控子模块,用于实时监控数据资产的变动并在检测到变动时更新所述初步的盘点结果;
扫描模块,用于在盘点流程的执行过程中,扫描所述数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
子盘点任务执行模块,用于根据采集到的每个数据资产的元数据信息执行子盘点任务,所述子盘点任务执行模块包括:识别子模块,用于对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产;相似匹配子模块,用于针对分类后的数据资产,应用预设的相似度算法以找到所述数据源下的目标数据资产;盘点规则执行子模块,用于对已找到的目标数据资产执行相应的盘点规则;
指示模块,用于当成功执行子盘点任务对应的盘点规则时,生成所述子盘点任务执行成功的指示;
盘点结果发布模块,用于当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对所述初步的盘点结果进行处理得到最终的盘点结果,并且发布所述最终的盘点结果。
在一些可能的实施方式中,所述元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;所述最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成;所述数据资产包括数据库表、文件和应用程序编程接口API;所述预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性;
所述数据采集子模块,具体用于:根据数据资产类型,创建相应的采集模板,所述数据资产类型包括指标、报表、数据模型、标签或者服务;在所述采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;根据数据资产类型配置采集适配器,所述采集适配器用于连接到相应数据资产类型的数据资产并收集数据;联合使用所述采集模板和所述采集适配器自动化地从多个数据源中收集数据资产信息,所述数据源包括数据库和/或本地文件;从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的智能化数据资产盘点方法。
第四方面,提供一种计算机设备,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如第一方面所述的智能化数据资产盘点方法。
上述技术方案具有如下有益效果:
本发明通过借助自动化工具和技术以确保金融机构的数据资产能够被准确识别、分类和管理。传统的数据资产盘点往往只能对特定类型或特定部分的数据进行盘点,且需要人工对每条数据资产分析和分类;本发明实施例采用数据采集和分析工具,通过抓取和分析数据源的元数据,对整个数据资产进行全面的标记、描述和分类。本发明实施例的优点在于,可以帮助企业或组织有效地收集和分析大量的数据,并从中获取有价值的信息和见解,大大提高工作效率和决策能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例的一种智能化数据资产盘点系统的功能框图;
图2是本发明实施例的一种智能化数据资产自动盘点方法的流程图;
图3是本发明实施例的一种计算机设备的功能框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例属于软件技术领域,应用于需要进行合规性审计或数据风险管理的行业,在企业级应用中可以有较广泛的用途。本发明实施例通过自动盘点可以快速准确地识别和发布数据资产,并且可以实时监控数据资产的变动,并及时更新盘点结果,效率高、准确性高,可以节省大量人力资源和时间。本发明实施例还可以分析数据之间的关系和依赖,帮助企业更好地理解数据资产的价值和用途。
金融机构都是数据驱动型企业,随着数字化转型的推进,对数据资产的需求呈现敏捷化的特点,需要快速定位数据和使用数据。并且大量的数据资产需要进行合规性审计与数据风险管理,面对大规模和复杂的数据资产,常规的手工盘点是一种比较耗时和费力的方法,容易出现人为错误和遗漏。本发明实施例通过借助自动化工具和技术以确保金融机构的数据资产能够被准确识别、分类和管理。
图1是本发明实施例的一种智能化数据资产盘点系统的功能框图,如图1所示,该系统包括:
盘点任务创建模块210,用于根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;该盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
包含任务调度模块的自动化工作流220,用于根据盘点时间表、盘点频率和盘点规则,触发启动执行盘点任务,盘点任务包括多个子盘点任务;任务调度模块是自动化工作流的一部分,通过调度模块实现自动化工作流;
盘点流程执行模块230,用于当盘点任务开始执行时启动盘点流程,盘点流程执行模块230包括:数据源接入子模块231,用于建立与数据源的连接并进行认证;数据采集子模块232,用于采集数据源的元数据信息;数据分析子模块233,用于分析元数据信息以生成初步盘点报告和/或初步的盘点结果;监控子模块234,用于实时监控数据资产的变动并在检测到变动时更新初步的盘点结果;
扫描模块240,用于在盘点流程的执行过程中,扫描数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
子盘点任务执行模块250,用于根据采集到的每个数据资产的元数据信息执行子盘点任务,子盘点任务执行模块250包括:识别子模块251,用于对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产;相似匹配子模块252,用于针对分类后的数据资产,应用预设的相似度算法以找到数据源下例如符合盘点规则的目标数据资产;盘点规则执行子模块253,用于对已找到的目标数据资产执行相应的盘点规则;
指示模块260,用于当成功执行子盘点任务对应的盘点规则时,生成子盘点任务执行成功的指示;
盘点结果发布模块270,用于当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对初步的盘点结果进行处理得到最终的盘点结果,并且发布最终的盘点结果。
以下对上述应用预设的相似度算法以找到数据源下的目标数据资产,对已找到的目标数据资产执行相应的盘点规则,进行更加详细的举例说明:
例1:假设有一个数据源包含多个数据库表,其中一些表存储了客户信息,如姓名、地址、联系方式等。根据预设的盘点规则,系统会应用相似度算法找到这些目标表,并将它们归类为客户信息表。
例2:假设有一个数据源包含多个文件,其中一些文件存储了销售数据,如销售额、销售日期、销售地区等。根据预设的盘点规则,系统会应用相似度算法找到这些目标文件,并将它们归类为销售数据文件。
例3:假设有一个数据源包含多个API,其中一些API用于查询客户信息,如查询客户姓名、查询客户地址等。系统会应用相似度算法找到这些目标API,并将它们归类为客户信息查询API。
例如,对于找到的目标数据资产,如果其属性信息不完整,系统会执行盘点规则中完善数据资产属性信息的规则自动或手动完善这些信息。
例如,假设采集到一个数据资产,其元数据描述为一个存储客户信息的数据库表格。按照盘点规则中的完善数据资产属性信息的规则,系统自动完善这个数据资产的属性信息,如数据的来源、数据的更新频率、数据的存储格式等。
有些数据资源可能暂时不需要或不适合被纳入数据目录中。例如,一个仍在测试阶段的数据模型或一个即将被废弃的数据源,按照盘点规则中的暂不登记数据资产的规则,这些数据资源会被标记并暂时不被登记。或者如果数据资源包含敏感信息或仍在测试阶段,系统会根据规则将其标记并暂时不登记为数据资产。
例如,如果盘点规则中有一条是“对于新发现的高质量数据资源,自动发布为数据资产”,那么盘点系统根据盘点规则中的自动发布数据资产的规则,将找到的高质量数据资源自动批量发布为数据资产。
在一些实施例中,完善数据资产属性信息规则是指在盘点规则设置中,选择需要完善的数据资产类型和需要完善资产的属性信息。例如设置规则:前缀名称为“客户”的指标批量挂载在总行的业务目录下。该数据资产自动信息完善规则用于自动完善资产的属性信息,例如资产打标签,资产定安全等级,挂载资产目录等属性。通过自动资产打标签,数据资产可以更容易地被搜索、分类和理解,从而提高其可用性和可发现性。根据数据资产的敏感性和重要性,自动为其设定相应的安全等级。例如:包含用户个人身份信息(如姓名、地址、电话号码、身份证)的数据集会被自动设定为“高度敏感”或“机密”等级;包含公司产品销售统计数据的数据集会被自动设定为“中等敏感”或“内部使用”等级。根据数据的来源、类型或业务域等信息,系统可以确定数据资产的归属部门,并将其自动挂载到相应的目录下。另外可以根据数据资产的类型、来源或业务域,自动将其挂载到相应的资产目录下。
在一些实施例中,自动发布数据资产的规则是指属性信息完善的数据资源可以批量自动发布为数据资产。例如设置规则:前缀名称为“客户”的指标批量自动发布为数据资产。
在一些实施例中,暂不登记数据资产的规则是指没有价值的数据资源需要批量做暂不登记。例如数据库表名后缀为“ecc”的数据资源批量列为暂不登记。
在一些实施例中,盘点规则还包括:选择资源类型规则,比如指标名称的前缀匹配为“客户”的指标。
在一些实施例中,子盘点任务是根据不同资产类型设置不同的盘点规则去执行的,盘点规则包括数据资产属性完善规则、自动发布数据资产规则和暂不登记数据资产规则。因此,不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成。
在一些实施例中,上述初步盘点报告主要包含以下内容:数据资产总量:报告期内数据资产的总数量;数据资产类别分布:各类数据资产在总数量中的占比,有助于了解数据资产的结构;数据资产存储情况:数据资产存储的位置、大小、格式等详细信息;初步盘点报告的主要作用是为企业提供数据资产的宏观了解,以便进一步进行资产管理和优化。
在一些实施例中,初步的盘点结果主要包含以下内容:数据资产详细信息:包括资产名称、资产类别、创建时间、存储位置等;数据资产拥有者信息:资产拥有者的姓名、部门、联系方式等。初步的盘点结果为后续的数据资产管理和运营提供详细的数据支持。
在保护范围方面,初步盘点报告和初步的盘点结果都涵盖了对数据资产的识别、分类。
在一些实施例中,在多个子任务生成了多个初步的盘点结果后,需要对这些初步盘点结果进行整合和处理,以得到最终的盘点结果。其可以包括如下处理过程:
步骤1:将所有子任务生成的初步的盘点结果进行汇总,以便对所有数据资产进行全面分析。
步骤2:在汇总的过程中,可能会出现重复或无效的数据资产,需要对这些数据进行筛选和去除,以确保最终的盘点结果准确无误。
步骤3:根据数据资产的性质和用途,将数据资产进行分类和归档,这有助于更好地管理和控制数据资产。
步骤4:对数据资产之间的关系进行分析,以便了解数据资产之间的相互依赖和影响。
步骤5:将上述处理结果整合为一个最终的盘点结果:将步骤2-4的结果整合在一起,形成一个完整的数据资产盘点报告。
步骤6:将整合后的数据资产盘点报告发布给相关人员,以便他们能够了解企业数据资产的实际情况,并采取相应的措施来优化数据资产管理。
通过以上步骤,可以从多个初步盘点结果得到一个最终的盘点结果。
在一些实施例中,元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成。数据资产包括数据库表、文件和应用程序编程接口API;预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性;
数据采集子模块,具体用于:根据数据资产类型,创建相应的采集模板,数据资产类型包括指标、报表、数据模型、标签或者服务;在采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;根据数据资产类型配置采集适配器,采集适配器用于连接到相应数据资产类型的数据资产并收集数据;联合使用采集模板和采集适配器自动化地从多个数据源中收集数据资产信息,数据源包括数据库和/或本地文件;从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
在进一步的实施例中,进一步地,该系统还可以包括:数据关系分析模块,用于分析数据资产之间的关联性和/或依赖关系,并以图谱的形式呈现;和/或,自动信息完善规则模块,用于自动填充和完善数据资产属性。
本发明实施例综合使用了多种技术手段和方案实现数据资产自动盘点,具体如下:
1.数据采集工具
数据资源自动采集实现数据资产的探源分析,使用数据采集工具从各种数据源中收集数据资产信息。按照不同的数据资产类型(例如指标、报表、数据模型、标签、服务等)形成不同的采集模板与采集适配器,实现自动化的数据资源识别与采集,提高了探源识别与采集效率。具体地,针对不同类型的数据资产,需要设计不同的采集模板来进行数据采集工作。例如,对于指标类的数据资产,需要设计特定的采集模板来定义指标的属性、数据类型等信息;对于报表类的数据资产,需要另外的采集模板来定义报表的结构、字段等信息。这样做可以更好地适配不同类型的数据资产,提高数据采集的效率和准确性。
采集模板是在元模型配置中根据所需数据资产类型自定义配置的;采集适配器根据不同的数据资产类型而不同,以实现与特定资产类型的兼容性;提取的元数据、结构和关系在内的信息用于实现数据资产的探源分析。采集适配器可连接数据库、本地文件等数据存储系统,并提取有关数据资产的元数据、结构和关系等信息。
上述不同资产类型的采集模板是指在元模型配置中可以按照所需资产类型,自定义配置资产的采集模板。例如,采集指标,在配置指标的采集模板中配置指标的属性名称、属性代码、数据类型、长度、是否内置等模板信息。具体地,对于文本类型的数据,长度表示该数据字段所能容纳的最大字符数;对于数字类型的数据,长度表示该数据字段所能容纳的最大位数。在配置采集模板时,定义数据字段的长度,以便在数据采集过程中准确地提取和存储数据。
根据创建的采集模板,配置采集适配器来与特定数据资产类型进行通信。采集适配器是一种软件程序,用于连接到数据资产并收集数据。根据不同的资产类型,需要使用不同的采集适配器。在数据采集过程中,不同类型的数据资产可能存储在不同的数据源中,且其数据结构和接口可能各不相同。为了能够有效地从这些不同类型的数据资产中采集数据,需要针对每种数据资产类型配置相应的采集适配器。这些采集适配器可以根据特定的数据资产类型,使用相应的通信协议、接口或者数据提取方法,从而实现与特定资产类型的数据源进行通信和数据采集的功能。
在一些实施例中,根据数据资产类型配置采集适配器,具体包括:
(1)确定数据资产类型:首先,明确需要采集的数据资产类型,例如文本数据、图像数据、音频数据等。不同类型的数据资产对应的采集适配器有所不同。
(2)选择合适的采集适配器:根据数据资产类型,选择相应的采集适配器。例如,对于文本数据,可以选择文本采集适配器;对于图像数据,可以选择图像采集适配器。在我国,有许多知名厂商提供各种类型的采集适配器,如华为、阿里云等。
(3)配置采集适配器:在选择好采集适配器后,根据实际需求对其进行配置。配置内容包括但不限于:数据源地址、采集频率、数据存储位置等。确保采集适配器与数据源的兼容性,以保证数据的顺利采集。
(4)集成采集适配器:将采集适配器与现有系统进行集成,使其能够与其他组件(如数据存储、数据处理等)协同工作。在此过程中,可能需要进行一些接口开发和调试工作。
(5)测试与优化:在集成完成后,对采集适配器进行测试,确保其能够正常工作。并根据测试结果对采集参数进行优化,以提高数据采集的效率和质量。
数据源是指存储数据的地方,可以是数据库、本地文件、网络服务、API接口等。数据源是数据的来源,它可以包含各种类型的数据,如结构化数据、非结构化数据、实时数据等。在数据采集过程中,需要从不同的数据源中提取数据资产信息。
数据资产是指具有价值和意义的数据,它可以是从数据源中提取的、经过加工处理后的数据。数据资产可以是各种类型的数据,如指标、报表、数据模型、标签、服务等。在数据采集过程中,需要根据数据资产类型配置相应的采集适配器,以连接到相应数据资产类型的数据源并收集数据。
采集模板的作用是为采集适配器提供了数据资产的结构化定义,使得采集适配器能够准确地从数据源中提取和处理数据。采集适配器根据采集模板中定义的属性和结构,实现了与特定数据资产类型进行通信和数据采集的功能。采集适配器负责实际的数据提取和采集工作,根据采集模板的定义,从数据源中提取符合定义的数据资产信息。这样的联合使用能够提高数据采集的效率和准确性,确保从各种数据源中准确地提取和处理数据。
2.数据分析和识别算法
本发明实施例使用数据分析和识别算法对采集到的数据进行处理和分析,识别和分类不同类型的数据资产。例如,使用文本分析算法可以从文档中提取关键词和主题,使用图像识别算法可以识别图像文件的内容。
具体地,本发明实施例识别和分类不同类型的数据资产,可以使用以下方法:
根据数据的结构和属性进行分类,其是指根据数据的数据类型、数据格式和数据结构来识别分类不同类型的数据资产。例如,可以根据数据的数据类型(文本、数值、图像等)、数据格式(CSV、JSON、图像文件等)和数据结构(表格、层次结构、图形结构等)进行分类。
所述数据结构包括表格、层次结构和图形结构,图形结构是一种数据组织形式,其中数据以节点和边的形式表示,用于表示复杂的关系和依赖关系,例如网络图、流程图等,这种结构可以更好地理解和分析数据资产之间的关系。
基于规则和关联性进行分类,其是指可根据预定义的规则和关联性来分类数据。例如,可以使用规则引擎或关联规则挖掘算法来识别特定模式或关联性,从而将数据分为不同的类别。
具体地,基于规则和关联性进行分类是指利用预定义的规则和关联性来对数据进行分类。这种分类方法可以通过事先设定的规则或者挖掘出的关联性来识别数据中的特定模式,然后将数据分为不同的类别。以下是对这一概念的具体解释:
规则引擎是一种软件系统,用于管理和执行预定义的规则。在数据分类中,规则引擎可以根据事先设定的规则条件,对数据进行分类。例如,可以设置一系列规则,如“如果数据字段A大于某个阈值,并且数据字段B满足某种条件,那么将数据分类为类别X”。规则引擎能够根据这些规则条件,自动对数据进行分类。
关联规则挖掘算法是一种数据挖掘技术,用于发现数据中的关联性和模式。在数据分类中,可以利用关联规则挖掘算法来识别数据中的关联模式,然后根据这些关联模式对数据进行分类。例如,通过挖掘数据中的频繁项集和关联规则,可以发现不同数据项之间的关联性,从而将数据分为不同的类别。
3.自动化工作流和任务调度工具
为了实现自动化的数据资产盘点,本发明实施例使用了工作流和任务调度工具来设置和管理数据采集、分析和记录流程。根据预定的计划自动触发和执行任务,减少人工干预、提高效率。预定的计划是指调度配置,可以配置任务的执行周期,例如每天的几点、每周的几点自动执行任务。
通过自动化工作流和任务调度工具,可以确保定时执行盘点任务,从而实现对数据资产的自动监控。在每次盘点时,将当前数据源中的数据与前一次盘点的结果进行比对。自动化工作流和任务调度工具可以确保在每次盘点任务执行时,自动进行数据比对操作。
4.相似度计算
本实施例中涉及两个相似度计算:第一个相似度算法,用于盘点任务中找符合盘点规则的数据;第一相似度计算包括比较数据资产的元数据信息,例如数据类型、数据结构、数据范围等,以确定数据资产之间的相似性;第二个相似度算法,是根据不同数据源下的数据库表名称进行资产相似度计算,以实现数据资产推荐功能。
本发明实施例通过数据资源相似度计算与推荐,快速复用盘点成果。随着数据仓库的建设和数据资产盘点工作的推进,已经形成数据资产标准化的成果。通过对资产相似度的计算,识别与已经标准化的数据资产相似度高的数据资产,进而一键复制的方式,将待盘点的资产进行信息标准化,大量降低了人工的参与度。
其中,第二个相似度算法中的资产相似度的计算是指:不同数据源下的数据库表名称很多类似,通过扫描数据库表英文名称或中文名称、类型、长度,可计算80%(按需设定)相似度的,可作为相似度较高的数据资产推荐。上述一键复制的方式是指:相似度较高的资产可被识别展示出来,可一键复制该资产中英文名称到资产盘点页面,直接进行盘点。
5.自动完善规则
本发明实施例通过使用自动信息完善规则,将数据资产属性进行填充规则或者信息完善规则的梳理,通过执行信息完善规则,实现数据盘点工作的自动化填充,大量节省了人工的参与度,也提升盘点工作的准确性。
其中,自动信息完善规则用于完善资产的属性信息,比如资产打标签,资产定安全等级,挂载资产目录等属性。填充规则是指为完善资产的属性信息建立的规则。每个资产待完善的属性信息不同,所以要建立不同的信息完善规则,然后执行不同的信息完善规则。
6.数据库和存储管理系统
为了存储和管理采集到的数据资产信息,本发明实施例使用数据库和存储管理系统。这些系统可以帮助检索数据资产的元数据,提供快速的查询和访问功能。
7.实时监控和更新
本发明实施例利用触发器和订阅器来检测数据资产的变动,并将变动的信息记录下来。这些变动可以包括新增数据、修改数据或删除数据等。一旦发现数据资产的变动,监控工具会将变动的信息与盘点结果进行比对,更新已有盘点结果。这样可以确保盘点结果的实时性和准确性。
实时监控和更新模块中的触发器和订阅器是该模块的重要组成部分,用于检测数据资产的变动并自动触发盘点任务和更新盘点结果。触发器是一种用于检测数据资产变动的机制。它可以被设置为在数据资产发生特定事件或满足特定条件时触发。当触发器检测到数据资产发生变动时,它会自动触发盘点任务,启动相关的数据采集、分析和记录流程。订阅器是一种用于接收和响应触发器触发的通知的机制。它订阅了数据资产,并在触发器被触发时接收到相关的通知。一旦收到通知,订阅器会执行预定的操作,例如启动盘点任务、更新盘点结果等。触发器和订阅器在实时监控和更新模块中协同工作,共同实现数据资产变动的检测和响应。触发器负责检测数据资产的变动,当变动发生时,它触发相关的通知。订阅器则负责接收这些通知,并执行相应的操作来响应数据资产的变动。因此,触发器和订阅器共同参与了数据变动的检测和处理过程。
根据数据比对的结果,更新盘点系统中的盘点结果。自动化工作流和任务调度工具可以实现在数据发动变动时,自动触发盘点任务并且更新盘点结果。
通过自动化工作流和任务调度工具,可以实时监控数据资产的变动。当有新的数据源接入或数据发生变动时,自动化工作流和任务调度工具会自动触发盘点任务,确保实时更新盘点结果。
实时监控和更新的具体步骤说明如下:
数据源接入步骤:将需要进行盘点的数据源接入到盘点系统中。可以通过连接数据库、文件系统、API等方式将数据源与盘点系统进行集成。
设定盘点规则步骤:在盘点系统中设定盘点规则,包括盘点的频率、盘点的范围、盘点的字段和条件等。例如,设定每天自动盘点所有数据源中的所有表,并检查数据源中的关键字段是否发生变化。
数据比对步骤:在每次盘点时,将当前数据源中的数据与前一次盘点的结果进行比对。使用各种比对算法,例如哈希算法、差异比对算法等,来判断数据是否发生变动。
更新盘点结果步骤:根据数据比对的结果,更新盘点系统中的盘点结果。如果数据发生变动,将变动的数据进行标记或记录,并及时更新盘点结果。
实时监控步骤:通过设置定时任务,使盘点过程中能够实时监控数据资产的变动。当有新的数据源接入或数据发生变动时,盘点触发器会自动触发盘点任务并更新盘点结果。
8.数据关系分析
本发明实施例收集所有相关的数据资产,对每个收集到的数据资产,可根据数据类型、数据所有者等来进行标识和分类。通过分析数据表结构、数据字段发现资产之间的关联性,建立数据关系。通过查看接口文档来分析数据资产之间的依赖关系,将数据关系和依赖关系通过使用图数据库或和可视化工具来实现以图谱的形式呈现。数据关系分析通常在数据源接入后,在数据比对之前执行。
本发明实施例的工作原理在于,数据资产自动化盘点利用技术手段对组织的数据资产进行自动化的盘点和管理,通过使用这些技术,组织可以快速、准确地识别和登记所有的数据资产,并对其进行分类、标识和分析。
上述技术方案的有益技术效果在于:
传统的数据资产盘点往往只能对特定类型或特定部分的数据进行盘点,且需要人工对每条数据资产分析和分类;本发明实施例采用数据采集和分析工具,通过抓取和分析数据源的元数据,对整个数据资产进行全面的标记、描述和分类。本发明实施例的优点在于,可以帮助企业或组织有效地收集和分析大量的数据,并从中获取有价值的信息和见解,大大提高工作效率和决策能力。
标记是指采用关键词、标签或者标识符等方式给数据资产打上特定的标记,以便后续的检索和归类。可以根据数据的类型、内容、用途等特征进行标记,例如将客户数据标记为"客户信息",将销售数据标记为"销售记录"等。
描述是指对数据资产进行详细的描述和注释,包括数据的来源、格式、结构、含义等信息。描述可以以文本形式记录在数据目录或元数据管理系统中,并关联到相应的数据资产上。描述的目的是帮助用户快速了解数据的特点和用途。
分类是指将数据资产按照一定的分类标准进行分类,基于不同的维度,例如数据的业务、部门、系统、安全等级、访问权限等。
图2是本发明实施例的一种智能化数据资产自动盘点方法的流程图,如图2所示,其包括如下步骤:
S1:新增自动盘点任务:根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;该盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
S2:触发自动启动执行盘点任务:根据盘点时间表、盘点频率和盘点规则,触发自动启动执行盘点任务,盘点任务包括多个子盘点任务;系统会按照指定的规则和要求,从指定的数据源中采集和分析数据的元数据信息,如果盘点任务执行失败,通过获取任务日志分析错误原因或者重新设置任务重新执行;
S3:启动盘点流程:当盘点任务开始执行时启动盘点流程,盘点流程包括:建立与数据源的连接并进行认证,利用数据采集工具采集数据源的元数据信息,分析元数据信息以生成初步盘点报告和/或初步盘点结果,实时监控数据资产的变动并在检测到变动时更新初步盘点结果;
本步骤对数据源下的所有数据资产进行扫描,目的是全面了解并收集数据资产的信息。在完成这个步骤后,将继续执行后续的盘点流程,例如元数据信息的采集和分析、生成盘点报告和/或盘点结果等。
实时监控和更新可以在步骤S3中执行,在执行盘点任务的过程中,系统会连接和认证数据源,采集和分析元数据信息,生成盘点报告和盘点结果。通过实时监控数据资产的变动,并在发现变动时立即更新盘点结果,可以确保数据资产盘点的准确性和实时性。
S4:扫描数据源下所有数据资产:在盘点流程的执行过程中,扫描数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
具体地,在盘点过程中,系统将扫描指定的数据源下的所有数据资产。这些数据资产包括数据库表、文件、API等。系统采集相关的元数据信息,例如表结构、字段类型、数据大小等。利用数据采集工具从各种数据源收集数据,可自动化数据收集过程,减少了手动输入和处理的工作量。并且清洗和处理数据,去除无效或冗余的信息,并确保数据的准确性和一致性。
S5:根据采集到的每个数据资产的元数据信息执行子盘点任务,其包括:对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产,针对分类后的数据资产,应用预设的相似度算法以找到数据源下的目标数据资产;对已找到的目标数据资产执行相应的盘点规则;所述盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
具体地,本步骤执行盘点规则:利用数据分析工具对收集到的数据进行分析,找到该数据源下例如符合盘点规则的目标数据并执行该盘点规则。在扫描数据资产时,系统会应用预定义的盘点规则来匹配和识别数据资产。这些盘点规则可以包括完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则等。
盘点规则也可以是完善资产的属性,也可以完善资产的挂载部门。
在步骤S5中,涉及相似度计算。在此步骤中,通过分析采集到的数据,找到符合预设盘点规则的数据资产,这一过程涉及对数据资产的相似度计算。相似度计算包括比较数据资产的元数据信息,如数据类型、数据结构、数据范围等,以确定数据资产之间的相似性。
S6:盘点规则执行成功指示:当成功执行子盘点任务对应的盘点规则时,生成子盘点任务执行成功的指示;
具体地,当成功执行某个具体的盘点任务(例如数据资产匹配、资产属性完善、暂不登记等)时,生成执行成功的指示,系统会发出的反馈。
S7:执行成功后自动发布盘点结果:当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对初步的盘点结果进行处理得到最终的盘点结果,并且发布最终的盘点结果。
执行成功后自动发布是指:一旦盘点任务执行成功,系统会根据预定义的设置对初步的盘点结果进行处理得到最终的盘点结果,并且自动发布最终的盘点结果。最终的盘点结果包括对资产属性信息的完善,自动将资源发布为资产,或者把资源变成暂不登记资源。这个处理过程后的盘点结果才会被发布。采集的元数据未经盘点、未经属性完善的属于数据资源,资源一旦发布,就变成资产。资源和资产是以“发布”为临界定义。
盘点任务是指在数据资产盘点过程中,按照预设的规则和时间表,对数据源进行连接、认证、元数据信息采集和分析,以及生成盘点报告和/或盘点结果的一系列操作。盘点任务是一个统称,用于描述整个数据资产盘点过程中的各个步骤。
在一些实施例中,在步骤S1之前,该方法还包括:新增数据资产的盘点规则;在步骤S7之后,方法还包括:如果盘点任务执行失败,根据任务日志分析失败原因或者重新设置盘点任务重新执行。
在一些实施例中,元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成;数据资产包括数据库表、文件和应用程序编程接口API;预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性。
在一些实施例中,在步骤S3中,采集数据源的元数据信息,具体包括:根据数据资产类型,创建相应的采集模板,数据资产类型包括指标、报表、数据模型、标签或者服务;在采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;根据数据资产类型配置采集适配器,采集适配器用于连接到相应数据资产类型的数据资产并收集数据;联合使用采集模板和采集适配器自动化地从多个数据源中收集数据资产信息,数据源包括数据库和本地文件;从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
在一些实施例中,根据数据资产类型配置采集适配器,具体包括:确定需要采集的数据资产类型;根据数据资产类型,选择相应的采集适配器;在选择好采集适配器后,对采集适配器进行配置,配置内容包括:数据源地址、采集频率、和数据存储位置。
在一些实施例中,步骤S5对采集到的元数据信息进行分析,以识别和分类不同类型的数据资产,具体包括:使用文本分析算法对文档中的数据进行处理,以提取关键信息,关键信息包括关键词和主题,基于关键信息识别文本数据资产;或者,使用图像识别算法对图像文件的内容进行处理,以提取关键图像内容,基于关键图像内容识别图像数据资产;或者,基于数据资产的数据类型、数据格式或者数据结构对数据资产进行分类;数据类型包括文本、数值和图像,数据格式包括CSV、JSON和图像文件,数据结构包括表格、层次结构和图形结构;或者,使用基于规则和关联性的分类方法识别特定模式或关联性,并将数据资产分为不同的类别。所述数据结构包括表格、层次结构和图形结构,图形结构是一种数据组织形式,其中数据以节点和边的形式表示,用于表示复杂的关系和依赖关系,例如网络图、流程图等,这种结构可以更好地理解和分析数据资产之间的关系。
在步骤S1之前,所述方法还包括步骤S0:新增数据资产的盘点规则,所述盘点规则用于定义数据资产盘点的范围和要求。
本步骤在盘点系统中设定盘点规则,包括盘点的频率、盘点的范围、盘点的字段和条件等。从而指定要盘点的数据源,定义要采集和分析的元数据信息。
在S3中,采集的是数据源的元数据信息,这主要是关于数据源本身的一些描述性信息,如数据源的类型、位置、所有者等。而在S4中,采集的是每个数据资产的元数据信息,这主要是关于单个数据资产的信息,如数据的大小、类型、创建日期等。采集两次元数据信息并不是重复采集,而是因为在不同的阶段需要采集不同类型的信息。在S3阶段,需要了解数据源的整体情况,以便生成初步盘点报告和结果。而在S4阶段,需要深入了解每个数据资产的情况,以便更准确地评估数据资产的状态和价值。
子盘点任务是针对整个盘点过程的一个子任务,它可以被看作是一个更小的、更具体的盘点任务。
本发明实施例的上述技术方案的优点在于:
自动化技术应用:通过引入工具(引入的工具包括数据采集工具、数据分析工具和数据识别算法工具、自动化工作流和任务调度工具、相似度计算工具、监控资产变动的触发器、图数据库和可视化工具、盘点的工作流引擎等),实现对数据资产的自动化盘点。这些技术可以帮助快速识别和分类数据资产,减少人工操作的工作量,并提高盘点的准确性和效率。
数据资产全面性:传统的盘点方法往往只能对特定类型或特定部分的数据进行盘点,而本发明实施例的自动化盘点则可以对整个数据资产进行全面的盘点。它可以识别和盘点所有类型的数据,包括结构化数据、非结构化数据、文本、图像、音频等多种形式的数据。
实时监控和更新:本发明实施例的自动化盘点可以实时监控数据资产的变动,并及时更新盘点结果。它可以持续跟踪数据的新增、修改和删除,并自动更新盘点清单,保证盘点结果的及时性和准确性。
数据关系分析:本发明实施例的自动化盘点可以分析数据之间的关系和依赖,帮助企业更好地理解数据资产的价值和用途。通过对数据关系的分析,可以发现数据的重复性、冗余性和不一致性,提高数据的整体质量和价值。数据资产之间的关联性通过如下方式实现:在数据资产采集后通过解析生成数据血缘地图,可以呈现数据的来源、目标表、传输路径。在采集数据资产时,通过采集的接口文件识别出不同资产之间的关联关系。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质内存储有计算机程序,计算机程序被处理器执行时实现上述智能化数据资产盘点方法的各步骤。
所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。当然,还有其他方式的可读存储介质,例如量子存储器、石墨烯存储器等等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本发明实施例还提供了一种电子设备,如图3所示,包括一个或多个处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现上述智能化数据资产盘点方法的各步骤。
处理器301可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
存储器303可以包括用于数据或指令的大容量存储器。举例来说而非限制,存储器303可包括硬盘驱动器(Hard Disk Drive,HDD)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(Universal Serial Bus,USB)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器303可包括可移除或不可移除(或固定)的介质。在特定实施例中,存储器303是非易失性固态存储器。在特定实施例中,存储器303包括只读存储器(ROM)。在合适的情况下,该ROM可以是掩模编程的ROM、可编程ROM(PROM)、可擦除PROM(EPROM)、电可擦除PROM(EEPROM)、电可改写ROM(EAROM)或闪存或者两个或更多个以上这些的组合。
通信总线304包括硬件、软件或两者,用于将上述部件彼此耦接在一起。举例来说,总线可包括加速图形端口(AGP)或其他图形总线、增强工业标准架构(EISA)总线、前端总线(FSB)、超传输(HT)互连、工业标准架构(ISA)总线、无限带宽互连、低引脚数(LPC)总线、存储器总线、微信道架构(MCA)总线、外围组件互连(PCI)总线、PCI-Express(PCI-X)总线、串行高级技术附件(SATA)总线、视频电子标准协会局部(VLB)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下,总线可包括一个或多个总线。尽管本发明实施例描述和示出了特定的总线,但本发明考虑任何合适的总线或互连。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
虽然本申请提供了如实施例或流程图的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种智能化数据资产盘点方法,其特征在于,包括如下步骤:
S1:根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;所述盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
S2:根据所述盘点时间表、所述盘点频率和所述盘点规则,触发启动执行盘点任务,所述盘点任务包括多个子盘点任务;
S3:当所述盘点任务开始执行时启动盘点流程,所述盘点流程包括:建立与数据源的连接并进行认证,采集数据源的元数据信息,分析所述元数据信息以生成初步的盘点结果,实时监控数据资产的变动并在检测到变动时更新所述初步的盘点结果;
S4:在盘点流程的执行过程中,扫描所述数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
S5:根据采集到的每个数据资产的元数据信息执行子盘点任务,其包括:对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产,针对分类后的数据资产,应用预设的相似度算法以找到所述数据源下的目标数据资产;对已找到的目标数据资产执行相应的盘点规则;
S6:当成功执行子盘点任务对应的盘点规则时,生成所述子盘点任务执行成功的指示;
S7:当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对所述初步的盘点结果进行处理得到最终的盘点结果,并且发布所述最终的盘点结果。
2.根据权利要求1所述的方法,其特征在于,
在步骤S1之前,所述方法还包括:新增数据资产的盘点规则;所述盘点规则还包括:选择资源类型的规则,其用于选择指标名称的前缀匹配为预设名称的指标。
在步骤S7之后,所述方法还包括:如果盘点任务执行失败,根据任务日志分析失败原因或者重新设置盘点任务重新执行。
3.根据权利要求1所述的方法,其特征在于,所述元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;所述最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成;所述数据资产包括数据库表、文件和应用程序编程接口API;所述预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性。
4.根据权利要求1所述的方法,其特征在于,在步骤S3中,所述的采集数据源的元数据信息,具体包括:
根据数据资产类型,创建相应的采集模板,所述数据资产类型包括指标、报表、数据模型、标签或者服务;
在所述采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;
根据数据资产类型配置采集适配器,所述采集适配器用于连接到相应数据资产类型的数据资产并收集数据;
联合使用所述采集模板和所述采集适配器自动化地从多个数据源中收集数据资产信息,所述数据源包括数据库和/或本地文件;
从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
5.根据权利要求4所述的方法,其特征在于,所述的根据数据资产类型配置采集适配器,具体包括:
确定需要采集的数据资产类型;
根据所述数据资产类型,选择相应的采集适配器;
在选择好采集适配器后,对所述采集适配器进行配置,配置内容包括:数据源地址、采集频率和数据存储位置。
6.根据权利要求1所述的方法,其特征在于,步骤S5对采集到的元数据信息进行分析,以识别和分类不同类型的数据资产,具体包括:
使用文本分析算法对文档中的数据进行处理,以提取关键信息,所述关键信息包括关键词和主题,基于所述关键信息识别文本数据资产;或者,
使用图像识别算法对图像文件的内容进行处理,以提取关键图像内容,基于所述关键图像内容识别图像数据资产;或者,
基于数据资产的数据类型、数据格式或者数据结构对数据资产进行分类;所述数据类型包括文本、数值和图像,所述数据格式包括CSV、JSON和图像文件,所述数据结构包括表格、层次结构和图形结构;或者,
使用基于规则和关联性的分类方法识别特定模式或关联性,并将数据资产分为不同的类别。
7.一种智能化数据资产盘点系统,其特征在于,包括:
盘点任务创建模块,用于根据预设盘点规则新增数据资产盘点任务,在新增的盘点任务中,设置盘点时间表和盘点频率;所述盘点规则包括:完善数据资产属性信息的规则、自动发布数据资产的规则和暂不登记数据资产的规则;
包含任务调度模块的自动化工作流,用于根据所述盘点时间表、所述盘点频率和所述盘点规则,触发启动执行盘点任务,所述盘点任务包括多个子盘点任务;
盘点流程执行模块,用于当所述盘点任务开始执行时启动盘点流程,所述盘点流程执行模块包括:数据源接入子模块,用于建立与数据源的连接并进行认证;数据采集子模块,用于采集数据源的元数据信息;数据分析子模块,用于分析所述元数据信息以生成初步的盘点结果;监控子模块,用于实时监控数据资产的变动并在检测到变动时更新所述初步的盘点结果;
扫描模块,用于在盘点流程的执行过程中,扫描所述数据源下的所有数据资产,在扫描过程中采集每个数据资产的元数据信息;
子盘点任务执行模块,用于根据采集到的每个数据资产的元数据信息执行子盘点任务,所述子盘点任务执行模块包括:识别子模块,用于对采集到的数据资产的元数据数据信息进行分析,以识别和分类不同类型的数据资产;相似匹配子模块,用于针对分类后的数据资产,应用预设的相似度算法以找到所述数据源下的目标数据资产;盘点规则执行子模块,用于对已找到的目标数据资产执行相应的盘点规则;
指示模块,用于当成功执行子盘点任务对应的盘点规则时,生成所述子盘点任务执行成功的指示;
盘点结果发布模块,用于当盘点任务中包含的全部子盘点任务执行成功时,根据预定义的设置对所述初步的盘点结果进行处理得到最终的盘点结果,并且发布所述最终的盘点结果。
8.根据权利要求7所述的系统,其特征在于,所述元数据信息包括表结构、字段类型、数据大小中的任意一个或多个;所述最终的盘点结果包括:对资产属性信息的完善,将资源发布为资产,或者把资源变成暂不登记资源;不同的子盘点任务是根据不同资产类型设置不同的盘点规则形成;所述数据资产包括数据库表、文件和应用程序编程接口API;所述预设的相似度算法根据数据资产的元数据信息的比较结果确定数据资产之间的相似性;
所述数据采集子模块,具体用于:根据数据资产类型,创建相应的采集模板,所述数据资产类型包括指标、报表、数据模型、标签或者服务;在所述采集模板中配置所需数据资产的属性名称、属性代码、数据类型、数字字段长度以及是否内置的模板信息;根据数据资产类型配置采集适配器,所述采集适配器用于连接到相应数据资产类型的数据资产并收集数据;联合使用所述采集模板和所述采集适配器自动化地从多个数据源中收集数据资产信息,所述数据源包括数据库和/或本地文件;从收集到的数据资产信息中提取有关数据资产的包括元数据信息、结构和关系在内的信息。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任意一项所述的智能化数据资产盘点方法。
10.一种计算机设备,其特征在于,其包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的智能化数据资产盘点方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744642.8A CN117909392A (zh) | 2023-12-18 | 2023-12-18 | 一种智能化数据资产盘点的方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311744642.8A CN117909392A (zh) | 2023-12-18 | 2023-12-18 | 一种智能化数据资产盘点的方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117909392A true CN117909392A (zh) | 2024-04-19 |
Family
ID=90684375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311744642.8A Pending CN117909392A (zh) | 2023-12-18 | 2023-12-18 | 一种智能化数据资产盘点的方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117909392A (zh) |
-
2023
- 2023-12-18 CN CN202311744642.8A patent/CN117909392A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lenarduzzi et al. | The technical debt dataset | |
CN107622014B (zh) | 测试报告生成方法、装置、可读存储介质和计算机设备 | |
Da Costa et al. | A framework for evaluating the results of the szz approach for identifying bug-introducing changes | |
KR102033971B1 (ko) | 데이터 품질 분석 | |
US20130041900A1 (en) | Script Reuse and Duplicate Detection | |
CN111611458A (zh) | 大数据治理中基于元数据和数据分析技术实现系统数据架构梳理的方法 | |
CN113326247B (zh) | 云端数据的迁移方法、装置及电子设备 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN111858236B (zh) | 知识图谱监控方法、装置、计算机设备及存储介质 | |
CN109947797B (zh) | 一种数据检查装置及方法 | |
CN116823464B (zh) | 数据资产管理平台、电子设备及计算机可读存储介质 | |
CN112631889A (zh) | 针对应用系统的画像方法、装置、设备及可读存储介质 | |
Schulz et al. | Read Code quality assurance: from simple syntax to semantic stability | |
CN110471912B (zh) | 一种员工属性信息校验方法、装置及终端设备 | |
CN111061733A (zh) | 数据处理方法、装置、电子设备和计算机可读存储介质 | |
CN115525575A (zh) | 一种基于Dataworks平台的数据自动化测试方法及系统 | |
CN117909392A (zh) | 一种智能化数据资产盘点的方法和系统 | |
CN111737148A (zh) | 自动回归测试方法、装置、计算机设备及存储介质 | |
US9330115B2 (en) | Automatically reviewing information mappings across different information models | |
US11816112B1 (en) | Systems and methods for automated process discovery | |
CN111352824A (zh) | 测试方法、装置及计算机设备 | |
CN115952160B (zh) | 一种数据盘点方法 | |
CN112925856B (zh) | 实体关系分析方法、装置、分析设备及计算机存储介质 | |
Oliveira et al. | Data Quality Mining |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination |