CN111913954B

CN111913954B - 智能数据标准目录生成方法和装置

Info

Publication number: CN111913954B
Application number: CN202010569250.2A
Authority: CN
Inventors: 乔吴岭; 吴林强; 林健; 刘飞燕; 孟庆丰; 黄亮
Original assignee: Hangzhou Zhongyun Data Technology Co ltd; Huzhou Big Data Operation Co ltd; Hangzhou City Big Data Operation Co ltd
Current assignee: Hangzhou Zhongyun Data Technology Co ltd; Huzhou Big Data Operation Co ltd; Hangzhou City Big Data Operation Co ltd
Priority date: 2020-06-20
Filing date: 2020-06-20
Publication date: 2023-08-04
Anticipated expiration: 2040-06-20
Also published as: CN111913954A

Abstract

本发明提供了一种智能数据标准目录生成方法和装置，通过扫描待分类数据集获取元数据，将元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将表名以SQL形式存储于数据库中；根据每个目标数据的数据特征生成每个目标数据对应的表名注释；根据每个目标数据的调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个目标数据进行综合评估，计算出每个目标数据的综合评分等级；以表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成多个目标数据的数据目录。实现数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

Description

智能数据标准目录生成方法和装置

技术领域

本发明属于计算机技术领域，尤其涉及一种智能数据标准目录生成方法、装置、电子设备及可存储介质。

背景技术

大多数组织、企业普遍存在数据分散、数据来源多，整合后数据不一致，不同数据源的接口众多，同一类数据采用的标准、规则都不一致，无法确认数据的可信度、时效性、重要性等问题。人们花费了太多的时间去寻找有意义的、可信赖的数据，尽管数据专业人员花费大部分时间来获得洞察力，花在执行分析上的时间是搜索和准备数据所花费时间的一小部分。

因此，需要将数据进行分类，形成便于使用和查找的数据目录。

发明内容

本发明实施例的第一目的在于提供一种智能数据标准目录生成方法，可实现将海量数据集进行智能自动分类，形成便于使用和查找的数据目录。

本发明实施例是这样实现的，一种智能数据标准目录生成方法，包括：

扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中；

根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；

统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级；

以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

在一个实施例中，在所述扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名之后，还包括：获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

在一个实施例中，所述根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释包括：通过语义分析和通用术语识别，推荐字段名称、字段长度和字段注释，根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。

在一个实施例中，所述扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名包括：基于AI人工智能技术，扫描全域数据集获取元数据，通过机器学习智能感知所述元数据，聚类分析所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名。

在一个实施例中，所述统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级包括：基于所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的预设阈值、预设周期和预设权重分值，计算出所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值计算出每个所述目标数据的评估分值，根据所述评估分值基于预设评估规则得出所述综合评分等级，所述综合评分等级包括优、良、中、低和差。

本发明实施例的另一目的在于提供一种智能数据标准目录生成装置，包括：

元数据获取模块，用于扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中；

表名注释生成模块，用于根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；

数据评估模块，用于统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级；

数据目录生成模块，用于以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

在一个实施例中，所述元数据获取模块还用于获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

在一个实施例中，所述表名注释生成模块还用于通过语义分析和通用术语识别，推荐字段名称、字段长度和字段注释，根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。

本发明实施例的又一目的在于提供一种电子设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述智能数据标准目录生成方法的步骤。

本发明实施例的再一目的在于一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行所述智能数据标准目录生成方法的步骤。

本发明的有益效果是：本发明实施例提供的一种智能数据标准目录生成方法，包括：扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中；根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级；以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。通过对待分类数据集进行扫描以获得元数据，将所述元数据进行智能感知分析将同类数据进行整理得到目标数据并生成目标数据的表名，且将表名通过SQL形式存储，可以便于数据的管理和用户的查找使用；以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录可以使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

本发明实施例提供的智能数据标准目录生成装置、电子设备及可存储介质具有与本发明实施例的数据质量管理方法相同的有益效果。

附图说明

图1为本发明实施例提供的一种智能数据标准目录生成方法的实现流程；

图2为本发明实施例提供的一种智能数据标准目录生成装置的主要模块示意图；

图3是本发明实施例提供的一种智能数据标准目录生成方法生成的数据目录的效果呈现图；

图4是本发明实施例提供的一种智能数据标准目录生成方法的字段名称、字段长度和字段注释生成的效果图；

图5为本发明实施例提供的可以应用于其中的示例性系统架构图；

图6为适于用来实现本发明实施例的终端设备或服务器的计算机系统的结构示意图；

图7为本发明实施例提供的一种智能数据标准目录生成方法生成的数据目录的属性的内容的效果呈现图；

图8为本发明实施例提供的一种智能数据标准目录生成方法生成的数据目录的属性的内容的效果呈现图(接图7)；

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本发明实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本发明实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。

需要指出的是，在不冲突的情况下，本发明中的实施例以及实施例中的特征可以互相组合。

为了进一步阐述本发明为实现预定发明目的所采取的技术手段及功效，以下结合附图及较佳实施例，对依据本发明的具体实施方式、结构、特征及其功效，详细说明如下。

图1示出了本发明实施例提供的一种智能数据标准目录生成方法的实现流程，为了便于说明，仅示出与本发明实施例相关的部分，详述如下：

一种智能数据标准目录生成方法，包括：

S101：扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中；

S102：根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；

S103：统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级；

S104：以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

在步骤S101中，通过扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中。待分类数据集是系统有权限访问的所在域的数据集，智能感知可以利用AI人工智能技术进行智能感知和获取数据集中的元数据，将元数据中的相似数据进行聚类得到多个目标数据，每个目标数据为一个类或簇，聚类时可以采用任何聚类算法，比如k-means聚类算法。将相似数据聚类为多个目标数据后，可以基于每个目标数据的数据内容特征通过语义分析或通用术语等总结出每个目标数据的表名，且将表名以SQL(结构化查询语句)存储，以便于根据表名对目标数据进行查找，用户可以通过搜索表名查找到表名所对应的目标数据进行查看和使用。

在步骤S102中，根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；通过所述表名注释，可以得知该表名对应的目标数据的内容概要，由此可以便于用户不用打开表即可得知表的大致内容，以判断是否是所需要的数据内容。

在步骤S103中，统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级。由此可以使得生成的数据目录更有参考性，用户可以直接查看表名对应的目标数据的重要程度、数据时效性、数据波动性和信息完整度以及表名对应的目标数据的综合评分等级，进而更加直观的判断出该表名对应的目标数据的参考价值，是否使用。

在步骤S104中，以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。由此可以使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

由此，本发明实施例提供的一种智能数据标准目录生成方法，包括：扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中；根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级；以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。通过对待分类数据集进行扫描以获得元数据，将所述元数据进行智能感知分析将同类数据进行整理得到目标数据并生成目标数据的表名，且将表名通过SQL形式存储，可以便于数据的管理和用户的查找使用；以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录可以使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

在一个实施例中，在所述扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名之后，还包括：获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。由此可以使得用户对表名对应的目标数据的表的行数、表的创建时间、表的更新时间更加直观的观察，使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

在一个实施例中，所述根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释包括：通过语义分析和通用术语识别，推荐字段名称、字段长度和字段注释，根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。如图4所示，示出了本发明实施例提供的一种智能数据标准目录生成方法的字段名称、字段长度和字段注释生成的效果图，系统通过语义分析和通用术语识别，生成推荐字段名称、推荐字段长度和推荐字段注释发送至客户端供用户选择确认，用户选择好后，客户端将选择结果返回至系统服务器，系统根据用户选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。在数据目录中，用户可以通过表名和字段名进行查询目标数据。

在一个实施例中，在推荐字段名称、字段长度和字段注释时，可以首先对列的值进行特征识别，两两对比，得出列值特征相似度；再对列名的注释两两识别，若其中一列名无注释，另一列名有注释，则按照有注释列值的相似度高低排序推荐；若两列均有注释，则按照列名相似度高低排序推荐。

在一个实施例中，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录，为数据目录的内容，数据目录的内容显示为库所含的所有表的数据目录，数据目录还包括属性，属性的内容可以体现出表所在库的介绍和库中表的评估维度标准及阈值设置，表所在库的介绍包括该数据库的名称、类型、数据源描述、库总大小、文件大小、库表数量、库创建日期，表的评估维度标准和阈值设置包括各指标的定义、计算方法、计算周期、权重和举例，用户可以对阈值、权重和周期进行设置和修改，效果图呈现如图7和图8所示。

如图3所示，示出了本发明实施例提供的一种智能数据标准目录生成方法生成的数据目录的效果呈现图。用户可以在数据目录上通过搜索表名或字段名进行查询目标数据，目标数据结果可以直观显示表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级。

在一个实施例中，调用热度指表或列在M个单位时间内的被查询次数将该表或列映射到一个数据访问模型，然后根据该数据访问模型的热度阈值，确定该表或列的数据热度。阈值、周期和权重可以由用户自行设置。比如可以将阈值设置为10次、周期设置为30天、权重设置为20分。

1、数据访问模型是根据数据的现状情况，人为选择。包括随机访问模型、递增访问模型、递减访问模型和周期访问模型，模型的横坐标表示时间，纵坐标表示被查询次数；

2、阈值包括相对阈值与绝对阈值；

3、热数据，指频繁被使用的数据，相应的，冷数据指几乎不被使用的数据；

4、表冷热的判断：统计预设时间内被查询的表的被查询次数以及所有表的被查询次数，计算该被查询的表的被查询次数与所有表的被查询次数的比值，判断该比值是否小于该相对阈值，若是，则确定该被查询的表为冷数据，否则，确定该被查询的表为热数据。举例(绝对阈值)：假设以天为单位时间，周期访问模型规定的N为7，绝对阈值为10次(人为设定)。图5中所示数据的周期为9天，在最近一个周期内每天的被查询次数分别是10次、12次、11次、8次、6次、4次、6次、8次、11次，计算可知该数据在最近一个周期内的平均被查询次数是70/9≈7.78次，由于计算得到的7.78次小于周期访问模型规定的10次，故该数据为冷数据；

5、列@表冷热判断：统计预设时间内被查询的列的被查询次数以及该列所属的表中的所有列的被查询次数，计算该被查询的列的被查询次数与该列所属的表中的所有列的被查询次数的比值，判断该比值是否小于该相对阈值，若是，确定该被查询的列为冷数据，否则，确定该被查询的列为热数据；举例(相对阈值)：假设以天为单位时间，周期访问模型规定的相对阈值为10％(人为设定)，整体数据在最近一个周期内(即9天内)的总被查询次数为1000次。计算可知该数据在最近一个周期内的总被查询次数占整体数据的70/1000＝7％，由于计算得到的7％小于周期访问模型规定的10％，故该数据为冷数据。

用户可以基于得到的表和列的数据热度统计结果，进行数据生命周期管理等。可以根据表的数据热度，将属于热数据的表存在性能较佳的存储设备上，将属于冷数据的表删除或是存在性能较差的存储设备上。可以根据列的数据热度，将同一张表包括的属于热数据的列和属于冷数据的列分别存储到不同的文件中。

在一些实施例中，数据重要程度是指在M单位时间内表与不同表产生关联的次数。其计算方式可以为：在M单位内表与不同的张表产生关联的次数达到n(阈值)以上为满分，依次递减。举例：近30日a关联b,c,d,e,f,g分别2,3,1,5,3,1,b关联r,w,q,t分别3，2，1，1，则a表近30日关联6张不同的表，b关联5张不同的表，c关联1张表，a分值为6，b分值为5，c分值为1，其他表依次类推.在30日内表与不同的10张表产生过关联为满分，依次递减。阈值、周期和权重可以由用户自行设置。比如可以将阈值设置为10张、周期设置为30天、权重设置为10分。

在一个实施例中，数据时效性是指表数据的时效性值，取值范围为[0,1]，G_的值越大，表数据的时效性越强。可以利用公式进行计算，其中，Tf:数据记录的最终时间；Ts:数据记录的起始时间；Tn:当前时间。举例：a,b,c表，近30日a表每天G值分别为n1,n2,n3,n4,n5,n6,...,则a表Ang值为(n1+n2+n3+n4+n5+n6+...)/30Ang值*15。周期和权重可以由用户自行设置。比如可以将周期设置为30天、权重设置为15分。

在一个实施例中，数据波动性是指在单位时间内表数据(行数)波动值,Ang值越大,数据波动频率强，举例：a,b,c表，近30日a表每天增量数据分别为10，20，10，20，20，0,...；b表每天增量数据分别为40，50，60，80，10，0，...；则a表Ang值为(10+20+10+20+20+0+...)/30，b表Ang值为(40+50+60+80+10+0+...)/30。表数据(行数)达到5位数为满分，依次递减；或在单位时间内表数据波动天数Ang值越大,数据波动越强，举例：a,b,c表，近30日表数据变化天数分别为10，20，15，则a,b,cAng值10/30,20/30,15/30，Ang值*10；或在单位时间内表被使用的天数，Ang值越大,数据波动越强，举例：a,b,c表，近30日表被使用天数分别为10，20，15，则a,b,cAng值10/30,20/30,15/30，Ang值*20。阈值、周期和权重可以由用户自行设置。比如可以将阈值设置为3次、周期设置为30天、权重设置为15分。

在一个实施例中，表注释完整度是指表内字段注释覆盖率(已注释字段数/全部字段数)，计算可以为已注释字段数/全部字段数*5.0。权重可以由用户自行设置。比如可以将权重设置为40分。

通过设置的阈值、周期和权重计算表综合评估得分，根据预设规则将评分等级分为优、良、中、低和差，可以通过下表确定。

评分等级与评估得分对应表

图2示出了本发明实施例提供的一种智能数据标准目录生成装置的主要模块示意图，为了便于说明，仅示出与本发明实施例相关的部分，详述如下：

一种智能数据标准目录生成装置200，包括：

通过扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名，且将所述表名以SQL形式存储于数据库中。待分类数据集是系统有权限访问的所在域的数据集，智能感知可以利用AI人工智能技术进行智能感知和获取数据集中的元数据，将元数据中的相似数据进行聚类得到多个目标数据，每个目标数据为一个类或簇，聚类时可以采用任何聚类算法，比如k-means聚类算法。将相似数据聚类为多个目标数据后，可以基于每个目标数据的数据内容特征通过语义分析或通用术语等总结出每个目标数据的表名，且将表名以SQL(结构化查询语句)存储，以便于根据表名对目标数据进行查找，用户可以通过搜索表名查找到表名所对应的目标数据进行查看和使用。

根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释；通过所述表名注释，可以得知该表名对应的目标数据的内容概要，由此可以便于用户不用打开表即可得知表的大致内容，以判断是否是所需要的数据内容。

统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级。由此可以使得生成的数据目录更有参考性，用户可以直接查看表名对应的目标数据的重要程度、数据时效性、数据波动性和信息完整度以及表名对应的目标数据的综合评分等级，进而更加直观的判断出该表名对应的目标数据的参考价值，是否使用。

以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。由此可以使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

通过对待分类数据集进行扫描以获得元数据，将所述元数据进行智能感知分析将同类数据进行整理得到目标数据并生成目标数据的表名，且将表名通过SQL形式存储，可以便于数据的管理和用户的查找使用；以所述表名、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录可以使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

在一个实施例中，所述元数据获取模块还用于获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。由此可以使得用户对表名对应的目标数据的表的行数、表的创建时间、表的更新时间更加直观的观察，使用户直观的从多角度查看数据的可用性，花费最少的时间去寻找有意义的、可信赖的数据，整体实现数据安全的精准控制和数据资产的流通与管理，帮助数据开发人员全面化、自动化和智能化地开发与管理，便于数据使用者使用数据。

图5示出了可以应用本发明实施例的智能数据标准目录生成方法或智能数据标准目录生成装置的示例性系统架构500。

如图5所示，系统架构500可以包括终端设备501、502、503，网络504和服务器505。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备501、502、503通过网络504与服务器505交互，以接收或发送消息等。终端设备501、502、503上可以安装有各种通讯客户端应用，例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等，服务器505可以通过终端设备501、502、503获取数据集。

终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

服务器505可以是提供各种服务的服务器，例如对用户利用终端设备501、502、503所发送的往来消息提供支持的后台管理服务器。后台管理服务器可以在接收到终端设备请求后进行分析等处理，并将处理结果反馈给终端设备。

需要说明的是，本发明实施例所提供的智能数据标准目录生成方法一般由服务器505执行，相应地，智能数据标准目录生成装置一般设置于服务器505中，服务器505将数据目录生成后可以发送给终端设备展示给用户，供用户查询和查看，用户可以在终端设备上设置一些参数供服务器处理数据时使用。

应该理解，图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

下面参考图6，其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的计算机系统仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，计算机系统600包括中央处理单元(CPU)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有系统600操作所需的各种程序和数据。CPU 601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

以下部件连接至I/O接口605：包括键盘、鼠标等的输入部分606；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607；包括硬盘等的存储部分608；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器610上，以便于从其上读出的计算机程序根据需要被安装入存储部分608。

特别地，根据本发明公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本发明公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分609从网络上被下载和安装，和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元(CPU)601执行时，执行本发明的系统中限定的上述功能。

需要说明的是，本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图或流程图中的每个方框、以及框图或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的模块可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中，例如，可以描述为：一种处理器包括确定模块、提取模块、训练模块和筛选模块。其中，这些模块的名称在某种情况下并不构成对该模块本身的限定，例如，确定模块还可以被描述为“确定候选用户集的模块”。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种智能数据标准目录的生成方法，其特征在于，包括：

2.根据权利要求1所述的智能数据标准目录生成方法，其特征在于，在所述扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名之后，还包括：获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

3.根据权利要求1所述的智能数据标准目录生成方法，其特征在于，所述根据每个所述目标数据的数据特征生成每个所述目标数据对应的表名注释包括：通过语义分析和通用术语识别，推荐字段名称、字段长度和字段注释，根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。

4.根据权利要求1所述的智能数据标准目录生成方法，其特征在于，所述扫描待分类数据集获取元数据，智能感知所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名包括：基于AI人工智能技术，扫描全域数据集获取元数据，通过机器学习智能感知所述元数据，聚类分析所述元数据，将所述元数据中的相似数据进行聚类得到多个目标数据，生成每个目标数据的表名。

5.根据权利要求1所述的智能数据标准目录生成方法，其特征在于，所述统计每个所述目标数据的调用热度，检测每个所述目标数据的重要程度、数据时效性、数据波动性和信息完整度，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度对每个所述目标数据进行综合评估，计算出每个所述目标数据的综合评分等级包括：基于所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的预设阈值、预设周期和预设权重分值，计算出所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值，根据所述调用热度、重要程度、数据时效性、数据波动性和信息完整度的分值计算出每个所述目标数据的评估分值，根据所述评估分值基于预设评估规则得出所述综合评分等级，所述综合评分等级包括优、良、中、低和差。

6.一种智能数据标准目录生成装置，其特征在于，包括：

7.根据权利要求6所述的智能数据标准目录生成装置，其特征在于，所述元数据获取模块还用于获取每个所述表名所对应的目标数据的表的行数、表的创建时间，表的更新时间，以序号为表头，所述表名、表的行数、表的创建时间，表的更新时间、表名注释、调用热度、重要程度、数据时效性、数据波动性、信息完整度和综合评分等级依次为列生成所述多个目标数据的数据目录。

8.根据权利要求6所述的智能数据标准目录生成装置，其特征在于，所述表名注释生成模块还用于通过语义分析和通用术语识别，推荐字段名称、字段长度和字段注释，根据选定的所述字段名称、字段长度和字段注释生成每个所述目标数据对应的表名注释。

9.一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述的智能数据标准目录生成方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行权利要求1至5中任一项权利要求所述的智能数据标准目录生成方法的步骤。