CN112507170A

CN112507170A - 基于智能决策的数据资产目录构建方法、及其相关设备

Info

Publication number: CN112507170A
Application number: CN202011388367.7A
Authority: CN
Inventors: 姚小丰; 南文梦
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2020-12-01
Filing date: 2020-12-01
Publication date: 2021-03-16

Abstract

本申请实施例属于人工智能领域，涉及一种基于智能决策的数据资产目录构建方法、装置、计算机设备及存储介质，方法包括获取表示数据资产分类体系的分类体系树和训练数据表，其中，训练数据表带有分类标签；对分类体系树中的各父节点分别建立初始主题分类模型，其中，初始主题分类模型由若干初始初级分类器集合生成；根据训练数据表训练各初始主题分类模型，得到与分类体系树所对应的数据资产分类模型；获取预设的分类映射字典以及数据表关联字典；根据数据资产分类模型、分类映射字典以及数据表关联字典对资产数据进行分类，得到数据资产目录。此外，本申请还涉及区块链技术，分类体系树可存储于区块链中。本申请提高了数据资产目录的创建效率。

Description

基于智能决策的数据资产目录构建方法、及其相关设备

技术领域

本申请涉及人工智能技术领域，尤其涉及一种基于智能决策的数据资产目录构建方法、装置、计算机设备及存储介质。

背景技术

数据资产是指由企业或机构拥有或者控制的、能够产生价值的数据资源，例如客户名单、交易记录、医疗信息等。数据资产可以来源于大数据，具有数据量大、类型繁多、价值密度低、时效高、时刻在线的特征，人们往往需要花费较大的成本才能从数据资产中找到所需的数据。为了便于对数据资产进行管理、查找和使用，可以建立数据资产目录，对数据资产进行梳理、编目。

传统的数据资产目录构建技术，通常是依赖专门的业务人员，依靠业务知识对存入系统的数据表进行判断、分门别类。然而，这种依靠人工创建数据资产目录的方法需要预先对业务人员进行系统培训，成本高、效率低；而且数据资产数据量大、类型繁多、更新快，人工创建和维护资产目录的效率更显得捉襟见肘。

发明内容

本申请实施例的目的在于提出一种基于智能决策的数据资产目录构建方法、装置、计算机设备及存储介质，以解决数据资产目录创建效率低的问题。

为了解决上述技术问题，本申请实施例提供一种基于智能决策的数据资产目录构建方法，采用了如下所述的技术方案：

获取表示数据资产分类体系的分类体系树和训练数据表，其中，所述训练数据表带有分类标签；

对所述分类体系树中的各父节点分别建立初始主题分类模型，其中，所述初始主题分类模型由若干初始初级分类器集合生成；

根据所述训练数据表训练各初始主题分类模型，得到与所述分类体系树所对应的数据资产分类模型；

获取预设的分类映射字典以及数据表关联字典；

根据所述数据资产分类模型、所述分类映射字典以及所述数据表关联字典对资产数据进行分类，得到数据资产目录。

为了解决上述技术问题，本申请实施例还提供一种基于智能决策的数据资产目录构建装置，采用了如下所述的技术方案：

获取模块，用于获取表示数据资产分类体系的分类体系树和训练数据表，其中，所述训练数据表带有分类标签；

模型建立模块，用于对所述分类体系树中的各父节点分别建立初始主题分类模型，其中，所述初始主题分类模型由若干初始初级分类器集合生成；

模型训练模块，用于根据所述训练数据表训练各初始主题分类模型，得到与所述分类体系树所对应的数据资产分类模型；

字典获取模块，用于获取预设的分类映射字典以及数据表关联字典；

数据分类模块，用于根据所述数据资产分类模型、所述分类映射字典以及所述数据表关联字典对资产数据进行分类，得到数据资产目录。

为了解决上述技术问题，本申请实施例还提供一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器执行所述计算机程序时实现上述所述的基于智能决策的数据资产目录构建方法的步骤。

为了解决上述技术问题，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述所述的基于智能决策的数据资产目录构建方法的步骤。

与现有技术相比，本申请实施例主要有以下有益效果：获取表示数据资产分类体系的分类体系树，对分类体系树中的各父节点单独建立初始主题分类模型，以在每个父节点都实现准确分类；根据带有分类标签的训练数据集训练初始主题分类模型，得到与分类体系树相对应的数据资产分类模型，以实现数据表的自动分类；初始主题分类模型由若干个初级分类器集合而成，进一步保证了数据表分类的准确性；在应用时，对于存在默认分类的数据表，可通过分类映射字典以及数据表关联字典直接确定分类结果；根据分类结果和分类体系树可以自动生成数据资产目录，从而自动实现数据资产分类和数据资产目录生成，提高了数据资产目录的构建效率。

附图说明

为了更清楚地说明本申请中的方案，下面将对本申请实施例描述中所需要使用的附图作一个简单介绍，显而易见地，下面描述中的附图是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的基于智能决策的数据资产目录构建方法的一个实施例的流程图；

图3是一个实施例中分类体系树的示意图；

图4是一个实施例中分类体系树与初始主题分类模型的对应图；

图5是图2中步骤S203的一种具体实施方式的流程图；

图6是一个实施例中训练初始初级分类器的示意图；

图7是一个实施例中主题分类模型的分类示意图；

图8是根据本申请的基于智能决策的数据资产目录构建装置的一个实施例的结构示意图；

图9是根据本申请的计算机设备的一个实施例的结构示意图。

具体实施方式

除非另有定义，本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同；本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本申请；本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

为了使本技术领域的人员更好地理解本申请方案，下面将结合附图，对本申请实施例中的技术方案进行清楚、完整地描述。

如图1所示，系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving PictureExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务器105可以是提供各种服务的服务器，例如对终端设备101、102、103上显示的页面提供支持的后台服务器。

需要说明的是，本申请实施例所提供的基于智能决策的数据资产目录构建方法一般由服务器执行，相应地，基于智能决策的数据资产目录构建装置一般设置于服务器中。

应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，示出了根据本申请的基于智能决策的数据资产目录构建方法的一个实施例的流程图。所述的基于智能决策的数据资产目录构建方法，包括以下步骤：

步骤S201，获取表示数据资产分类体系的分类体系树和训练数据表，其中，训练数据表带有分类标签。

在本实施例中，基于智能决策的数据资产目录构建方法运行于其上的电子设备(例如图1所示的服务器)可以通过有线连接方式或者无线连接方式与终端进行通信。需要指出的是，上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。

具体地，服务器通过模型训练得到数据资产分类模型，以便通过数据资产分类模型对资产数据进行分类。在训练之前，需要先获取分类体系树以及带有分类标签的训练数据表。

分类体系树以树的形式体现数据资产分类体系。数据资产分类体系由多个级别的主题分类构成，图3为一个实施例中分类体系树的示意图，具体地，参照图3，在一级主题分类中，可以有分类1和分类2两种分类；在二级主题分类中，分类2可以包括分类2.1和分类2.2两种分类；在三级主题分类中，分类2.1可以包括分类2.1.1和分类2.1.2两种分类。分类体系树可以预先由业务人员建立，依据资产数据的实际情况进行设置。

训练数据表用于训练初始主题分类模型，训练数据表包含分类标签，分类标签记录了训练数据表在图3中的分类位置，训练数据表可以根据表中字段选取不同的粒度，例如，可以选取某省某地市在某一天产生的数据构建训练数据表。

需要强调的是，为进一步保证上述分类体系树的私密和安全性，上述分类体系树还可以存储于一区块链的节点中。

本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

步骤S202，对分类体系树中的各父节点分别建立初始主题分类模型，其中，初始主题分类模型由若干初始初级分类器集合生成。

具体地，针对分类体系树中的每一个父节点(包含根节点)，都建立一个初始主题分类模型。每一个初始主题分类模型的底层是若干个初始初级分类器，初始初级分类器集成得到初始主题分类模型。图4为一个实施例中分类体系树与初始主题分类模型的对应图。

步骤S203，根据训练数据表训练各初始主题分类模型，得到与分类体系树所对应的数据资产分类模型。

具体地，训练时由初始初级分类器开始训练，将训练数据表输入初始初级分类器。训练数据表包含特征信息，例如表的名称、注释、字段列表、字段注释以及各字段的内容等，服务器可以根据特征信息和分类标签对初始初级分类器进行训练，得到若干个初级分类器。

服务器将训练数据集输入各初级分类器得到初级分类结果，初级分类结果可以包括分类类别及其概率。服务器对初级分类结果进行整合，例如通过集成学习中的平均方式或投票方式进行整合，得到初级分类结果。

基于各初级分类器以及对初级分类器的整合可以得到父节点处的主题分类模型。各父节点处均得到主题分类模型后，即可得到与分类体系树对应的数据资产分类模型。

在一个实施例中，还可以在初始主题分类模型中构建初始次级分类器，得到初级分类器的初级分类结果后，将分类标签以及初级分类结果输入初始次级分类器进行训练，得到次级分类器。初级分类器和次级分类器共同构成父节点处的主题分类模型。各父节点处均得到主题分类模型后，即可得到与分类体系树对应的数据资产分类模型。

步骤S204，获取预设的分类映射字典以及数据表关联字典。

其中，分类映射字典可以记录数据表的分类信息；数据表关联字典可以记录数据表之间的关联信息。

具体地，部分数据表具有默认分类。产生数据的系统若依据标准(例如相关领域的国标或省标)建立，则该系统产生的数据表具有标准的定义以及特定的主题分类，而这些记录在分类映射字典中。另外，数据表之间具有关联性，关联关系记录在数据表关联字典中。分类映射字典和数据表关联字典可以由业务人员进行维护。在实际应用时，还可以获取存储的分类映射字典和数据表关联字典。

步骤S205，根据数据资产分类模型、分类映射字典以及数据表关联字典对资产数据进行分类，得到数据资产目录。

具体地，服务器获取资产数据，资产数据中有若干待分类数据表。可以优先通过分类映射字典和数据表关联字典对待分类数据表进行分类，若无法通过分类映射字典和数据表关联字典实现分类，再通过数据资产分类模型进行分类。根据分类结果将待分类数据表添加到分类体系树中，即可得到数据资产目录。

在一个实施例中，服务器将待分类数据表输入数据资产分类模型，得到模型分类结果，并在分类映射字典和/或数据表关联字典，得到映射字典分类结果和关联字典分类结果。服务器比较模型分类结果、映射字典分类结果和关联字典分类结果，若三者完全一致，则可以确定待分类数据表的分类结果；若存在不一致，可以向预设终端发送错误报告，由业务人员再对待分类数据表进行分类，并通过预设终端将分类结果发送至服务器，得到待分类数据表的分类结果。

本实施例中，获取表示数据资产分类体系的分类体系树，对分类体系树中的各父节点单独建立初始主题分类模型，以在每个父节点都实现准确分类；根据带有分类标签的训练数据集训练初始主题分类模型，得到与分类体系树相对应的数据资产分类模型，以实现数据表的自动分类；初始主题分类模型由若干个初级分类器集合而成，进一步保证了数据表分类的准确性；在应用时，对于存在默认分类的数据表，可通过分类映射字典以及数据表关联字典直接确定分类结果；根据分类结果和分类体系树可以自动生成数据资产目录，从而自动实现数据资产分类和数据资产目录生成，提高了数据资产目录的构建效率。

进一步的，如图5所示，上述步骤S203可以包括：

S2031，对于每个初始主题分类模型，根据训练数据表训练初始主题分类模型中的各初始初级分类器，得到若干初级分类器。

具体地，服务器依次训练各初始主题分类模型。服务器将训练数据表输入初始主题分类模型中的各初始初级分类器，将训练数据表的分类标签作为初始初级分类器的期望输出，训练初始初级分类器，调整初始初级分类器的内部参数，得到若干初级分类器。

S2032，获取若干初级分类器根据训练数据表输出的初级分类结果。

具体地，服务器将训练数据表输入训练完毕的初级分类器，得到各初级分类器输出的初级分类结果。服务器可以预先将训练数据表进行划分，一部分训练数据表用于训练初始初级分类器，另一部分训练数据表用于输入训练完毕的初级分类器，根据初级分类器的初级分类结果训练初始次级分类器。

S2033，将分类标签和初级分类结果输入初始主题分类模型中的各初始次级分类器，并通过OvR算法进行训练，得到若干次级分类器。

具体地，服务器将分类标签和初级分类结果输入与各初级分类器级联的初始次级分类器。初始次级分类器可以基于逻辑回归(logistic regressive，LR)算法构建，即初始次级分类器为二分类的LR模型。为了实现多分类，对初始次级分类器采用OvR(One VsRest，使用二分类算法来解决多分类问题的一种方法)算法的思想进行训练。

OvR的核心思想就是“一”对“剩余”。“一”对“剩余”的意思是当要对n种类别的样本进行分类时，分别取一种样本作为一类，将剩余的所有类型的样本看做另一类，这样就形成了n个二分类问题。

在训练时，给初始次级分类器指定一个分类标签，输入初始次级分类器的初级分类结果中，与指定分类标签类别相同的将作为正样本，与指定分类标签类别不同的将作为负样本。训练中初始次级分类器调整内部参数，使得初始次级分类器针对性识别一种类别。

虽然得到每个次级分类器只能有效地识别出一种类别，但每一种分类标签都有对应的初始初级分类器，因此全部的次级分类器可以识别出全部的类别。次级分类器中的LR模型权重也反应了LR模型对不同类别的预测能力。

S2034，根据得到的初级分类器和次级分类器生成主题分类模型，并根据各主题分类模型生成与分类体系树所对应的数据资产分类模型。

具体地，得到初级分类器和次级分类器后，即可得到由初级分类器和次级分类器组成的主题分类模型。每个父节点均得到主题分类模型后，所有主题分类模型将组成与分类体系树对应的数据资产分类模型。

本实施例中，先对初始初级分类器进行训练得到初始次级分类器，再将初级分类器的初级分类结果和分类标签，输入初始次级分类器进行训练得到次级分类器，依靠两级的分类判断，提高了主题分类模型分类的准确性，保证了最终得到的数据资产分类模型的分类准确性。

进一步的，上述步骤S2031可以包括：

步骤S20311，当初始初级分类器基于逻辑回归算法构建时，对于每个初始主题分类模型，将训练数据表输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对各初始初级分类器进行训练。

具体地，初始初级分类器也可以基于逻辑回归算法构建，可以采用OvR算法的思想训练各初始初级分类器。

根据分类标签的种类，对初始初级分类器进行平均且随机的分组，每一组初始初级分类器对应于一种分类标签，将分类标签确定为该组初始初级分类器的初级分类器标签。服务器将带有分类标签的训练数据表输入各初始初级分类器。如果训练数据表的分类标签与初始初级分类器的初级分类器标签相同，训练数据表将作为正样本；如果分类标签与初级分类器标签的不相同，训练数据表将作为负样本。通过调整初始初级分类器的参数，使得初始初级分类器可以识别与自身初级分类器标签相匹配的训练数据集，从而得到若干初级分类器。

图6为一个实施例中训练初始初级分类器的示意图，具体地，参照图6，训练数据表中的表A、表B、表C、和表D的分类标签依次为分类1、分类2、分类3和分类1。初始初级分类器1的分类器标签为分类1，初始初级分类器2的分类器标签为分类2，初始初级分类器3的分类器标签为分类3。对于初始初级分类器1，表A和表D均属于分类1，将作为正样本，表B和表C虽然分别属于分类2和分类3，但因其分类标签与初始初级分类器1的分类器标签不匹配，都将作为负样本。初始初级分类器1训练完毕后，可以有效识别属于分类1的训练数据表，初始初级分类器2训练完毕后，可以有效识别属于分类2的训练数据表，初始初级分类器3训练完毕后，可以有效识别属于分类3的训练数据表。

步骤S20312，对于每个初始初级分类器，获取初始初级分类器在预设轮次训练中的预测分类结果。

具体地，服务器对初始初级分类器进行多轮训练，并在每一轮训练中调整分类器参数。对于每个初始初级分类器，服务器获取初始初级分类器在预设轮次训练中输出的预测分类结果。例如，对初始初级分类器进行20轮训练，服务器获取初始初级分类器在每一轮中的预测分类结果，或者获取初始初级分类器在第16-20轮中的预测分类结果。

步骤S20313，根据预测分类结果和分类标签计算初始初级分类器在各轮次训练中的分类器评估值。

其中，分类器评估值是分类器性能的量化评估值。

具体地，服务器根据预测分类结果和分类标签，计算初始初级分类器在预设的各轮训练中的分类器评估值，例如，可以将预测分类结果和分类标签代入损失函数，将损失函数的结果作为分类器评估值。

步骤S20314，根据分类器评估值确定分类器参数，并根据确定的分类器参数得到初级分类器。

具体地，服务器比较预设轮次训练中的分类器评估值，选取最优的分类器评估值，选取分类器评估值可以依据预设的规则进行选取，也可以将分类器评估值发送至预设终端，由业务人员进行选择，或者服务器选择分类器评估值后，再由业务人员进行确定。

每轮训练均有一个分类器评估值，选取出分类器评估值后，将分类器评估值所对应训练轮次中得到的分类器参数，作为初级分类器的分类器参数，从而得到初级分类器。

本实施例中，根据分类标签初始初级分类器在各预设轮次中的预测分类结果计算多个分类器评估值，根据最优的分类器评估值确定分类器参数，保证了得到的初级分类器分类的准确性。

进一步的，上述步骤S20311可以包括：

S203111，读取训练数据表的特征信息。

具体地，训练数据表包含特征信息，例如表的名称、注释、字段列表、字段注释以及各字段的内容、数据表所在数据库的数据库名、数据表所属系统、数据表上游任务等。服务器读取训练数据表的这些特征信息。

S203112，根据特征信息，确定训练数据表的字符分布信息以及N-Gram分布信息。

具体地，服务器对特征信息进行字符划分，统计得到字符分布信息，字符分布信息包括数据表特征信息中各类字符(空格、数字、汉字、特殊字符等)的出现次数和比例。

服务器还可以对特征信息进行N-Gram划分得到词组，统计各类词组的出现次数和比例，得到N-Gram分布信息；N-Gram划分中，n常取2或者3，则N-Gram分布信息可以包括二元N-Gram分布信息和三元N-Gram分布信息。

S203113，对于每个初始主题分类模型，将字符分布信息和N-Gram分布信息输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对各初始初级分类器进行训练。

具体地，服务器将字符分布信息和N-Gram分布信息输入初始主题分类模型中的各初始初级分类器，其中，初始初级分类器基于逻辑回归算法构建，并通过OvR算法对各初始初级分类器进行训练。其中，一个初始初级分类器只输入一种分布信息即可，二元N-Gram分布信息和三元N-Gram分布信息将作为两种分布信息。

本实施例中，从训练数据表的特征信息中提取字符分布信息和N-Gram分布信息，以便将字符分布信息和N-Gram分布信息作为输入训练初始初级分类器。

进一步的，上述步骤S20313可以包括：根据预测分类结果和分类标签构建初始初级分类器在各轮次训练中的混淆矩阵；基于构建的混淆矩阵计算分类器评估值，分类器评估值包括AUC、准确率、召回率和F1-score中的至少一种。

具体地，由于初始初级分类器基于逻辑回归算法构建，训练数据集的分类标签和预测分类结果都是二分类，因此可以构建初始初级分类器在各轮次训练中的混淆矩阵。

得到混淆矩阵后，可以依据混淆矩阵计算AUC、准确率、召回率和F1-score等信息，将AUC、准确率、召回率、F1-score作为分类器评估值。在根据混淆矩阵进行计算时，还可以结合宏平均、微平均、加权平均等方法。实际应用中，可以选取AUC、准确率、召回率和F1-score中的一个作为主评估值。

本实施例中，根据预测分类结果和分类标签构建混淆矩阵，基于混淆矩阵计算AUC、准确率、召回率和F1-score作为分类器评估值，保证了可以准确地评估初始初级分类器。

进一步的，上述步骤S2031还可以包括：

步骤S20314，当初始初级分类器基于临近算法构建时，对于每个初始主题分类模型，将训练数据表输入初始主题分类模型中的各初始初级分类器。

其中，临近算法即K最近邻(KNN，K-NearestNeighbor)算法，所谓K最近邻，就是K个最近的邻居的意思，即每个样本都可以用它最接近的K个邻近值来代表。

具体地，初始初级分类器还可以基于临近算法构建，将训练数据表输入初始初级分类器，由初始初级分类器根据临近算法确定训练数据表的类别。

步骤S20315，对于每个初始初级分类器，设置初始初级分类器在各轮训练中的K值，并在各轮训练中基于初始初级分类器的K值确定训练数据表的预测分类结果。

具体地，临近算法中具有K值的概念，初始初级分类器在对一个训练数据表进行处理时，根据临近算法计算该训练数据表与其他训练数据表的相似度，根据相似度确定K个最相似的训练数据表作为邻居数据表。从邻居数据表中，选取频数最高的一类邻居数据表，将其分类标签作为该训练数据表的预测分类结果。

基于临近算法构建的初始初级分类器也可以进行多轮训练，在每轮训练中取不同的K值。

基于临近算法构建的初始初级分类器可以利用字符分布信息和N-Gram分布信息计算相似度；也可以不利用字符分布信息和N-Gram分布信息计算相似度。

初始主题分类模型中的初始初级分类器既可以基于逻辑回归算法构建，也可以基于临近算法构建，两种算法构建的初始初级分类器可以同时出现。可以理解，初始初级分类器还可以由其他算法构建得到，本申请中的逻辑回归算法和临近算法示例初始初级分类器可以由多种算法构建得到，并不意味初始初级分类器仅可基于逻辑回归算法和临近算法构建得到。

步骤S20316，根据预测分类结果和分类标签计算初始初级分类器在各K值下的分类器评估值。

具体地，基于临近算法构建的初始初级分类器也可以构建混淆矩阵，基于混淆矩阵计算AUC、准确率、召回率和F1-score等指标作为分类器评估值。由于各轮训练中选取不同的K值，需计算在不同K值下的分类器评估值。在根据混淆矩阵进行计算时，还可以结合宏平均、微平均、加权平均等方法。实际应用中，可以选取AUC、准确率、召回率和F1-score中的一个作为主评估值。

步骤S20317，根据分类器评估值选取K值，并根据选取的K值得到初级分类器。

具体地，服务器比较不同K值下的分类器评估值，选取最优的分类器评估值，选取分类器评估值可以依据预设的规则进行选取，也可以将分类器评估值发送至预设终端，由业务人员进行选择，或者服务器选择分类器评估值后，再由业务人员进行确定。

选取出分类器评估值后，将分类器评估值所对应的K值，设置为初级分类器的K值，从而得到初级分类器。

本实施例中，对基于临近算法构建的初始初级分类器，训练完毕后计算分类器评估值，根据分类器评估值确定初级分类器的K值，保证了得到的初级分类器可以准确地进行数据表分类。

进一步的，上述步骤S205可以包括：

步骤S2051，提取资产数据中待分类数据表的数据表标识。

具体地，资产数据中的待分类数据表具有数据表标识，例如数据表的表名、编号等。服务器提取待分类数据表的数据表标识。

步骤S2052，根据提取到的数据表标识，在分类映射字典和数据表关联字典中查询与待分类数据表对应的预设分类结果。

具体地，可以优先根据分类映射字典和数据表关联字典对待分类数据表进行分类。服务器在分类映射字典和数据表关联字典中检索待分类数据表的数据表标识，以查询分类映射字典和数据表关联字典中是否存在待分类数据表的预设分类结果。

步骤S2053，当查询到与待分类数据表对应的预设分类结果时，将查询到的预设分类结果确定为待分类数据表的分类结果。

具体地，当根据数据表标识，在分类映射字典和数据表关联字典中查询到预设分类结果时，直接将该预设分类结果作为待分类数据表的分类结果，不再通过数据资产分类模型进行分类。

步骤S2054，当未查询到与待分类数据表对应的预设分类结果时，将待分类数据表输入数据资产分类模型，得到分类结果。

具体地，当未在分类映射字典和数据表关联字典中查询到待分类数据表的预设分类结果时，将待分类数据表输入数据资产分类模型，由数据资产分类模型进行分类，得到分类结果。

步骤S2055，根据得到的分类结果生成资产数据的数据资产目录。

得到各待分类数据表的分类结果后，根据分类结果可以确定各待分类数据表在分类体系树中的位置，从而得到资产数据的数据资产目录。

本实施例中，优先通过分类映射字典和数据表关联字典对待分类数据表进行分类，无法通过字典分类时再通过数据资产分类模型进行分类，提高了数据资产的分类效率，从而提高了资产数据目录的构建效率。

图7为一个实施例中一个父节点处主题分类模型的分类示意图，具体地，参照图7，待分类数据表具有表名、表的注释、字段列表、字段内容、数据表所在数据库的数据库名、数据表所属系统、数据表上游任务等多种特征信息，特征信息可以作为分类依据。初级分类器可以基于逻辑回归(LR)算法和临近算法(KNN)构建，可以从特征信息中提取字符分布信息、二元nGram分布信息和三元nGram分布信息输入基于逻辑回归算法构建的初级分类器，各初级分类器输出初级分类结果(图中示例有3类初级分类结果)，将初级分类结果输入基于逻辑回归算法构建的次级分类器，每个次级分类器通过OvR算法训练得到，均针对一类分类结果。每个次级分类器根据初级分类结果输出待分类数据表属于某类别的概率，选取最大概率的类别，作为待分类数据表的分类结果。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等非易失性存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

进一步参考图8，作为对上述图2所示方法的实现，本申请提供了一种基于智能决策的数据资产目录构建装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例所述的基于智能决策的数据资产目录构建装置300包括：获取模块301、模型建立模块302、模型训练模块303、字典获取模块304以及数据分类模块305，其中：

获取模块301，用于获取表示数据资产分类体系的分类体系树和训练数据表，其中，训练数据表带有分类标签。

模型建立模块302，用于对分类体系树中的各父节点分别建立初始主题分类模型，其中，初始主题分类模型由若干初始初级分类器集合生成。

模型训练模块303，用于根据训练数据表训练各初始主题分类模型，得到与分类体系树所对应的数据资产分类模型。

字典获取模块304，用于获取预设的分类映射字典以及数据表关联字典。

数据分类模块305，用于根据数据资产分类模型、分类映射字典以及数据表关联字典对资产数据进行分类，得到数据资产目录。

在本实施例的一些可选的实现方式中，模型训练模块303包括：初级训练子模块、初级获取子模块、次级训练子模块以及模型生成子模块，其中：

初级训练子模块，用于对于每个初始主题分类模型，根据训练数据表训练初始主题分类模型中的各初始初级分类器，得到若干初级分类器。

初级获取子模块，用于获取若干初级分类器根据训练数据表输出的初级分类结果。

次级训练子模块，用于将分类标签和初级分类结果输入初始主题分类模型中的各初始次级分类器，并通过OvR算法进行训练，得到若干次级分类器。

模型生成子模块，用于根据得到的初级分类器和次级分类器生成主题分类模型，并根据各主题分类模型生成与分类体系树所对应的数据资产分类模型。

在本实施例的一些可选的实现方式中，初级训练子模块包括：初级训练单元、结果获取单元、评估计算单元以及参数确定单元，其中：

初级训练单元，用于当初始初级分类器基于逻辑回归算法构建时，对于每个初始主题分类模型，将训练数据表输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对各初始初级分类器进行训练。

结果获取单元，用于对于每个初始初级分类器，获取初始初级分类器在预设轮次训练中的预测分类结果。

评估计算单元，用于根据预测分类结果和分类标签计算初始初级分类器在各轮次训练中的分类器评估值。

参数确定单元，用于根据分类器评估值确定分类器参数，并根据确定的分类器参数得到初级分类器。

在本实施例的一些可选的实现方式中，初级训练单元包括：信息读取子单元、信息获取子单元以及初级训练子单元，其中：

信息读取子单元，用于读取训练数据表的特征信息。

信息获取子单元，用于根据特征信息，确定训练数据表的字符分布信息以及N-Gram分布信息。

初级训练子单元，用于对于每个初始主题分类模型，将字符分布信息和N-Gram分布信息输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对各初始初级分类器进行训练。

在本实施例的一些可选的实现方式中，评估计算单元包括：矩阵构建子单元以及评估计算子单元，其中：

矩阵构建子单元，用于根据预测分类结果和分类标签构建初始初级分类器在各轮次训练中的混淆矩阵。

评估计算子单元，用于基于构建的混淆矩阵计算分类器评估值，分类器评估值包括AUC、准确率、召回率和F1-score中的至少一种。

在本实施例的一些可选的实现方式中，模型训练模块303包括还包括：临近训练单元、结果确定单元、计算单元以及选取单元，其中：

临近训练单元，用于当初始初级分类器基于临近算法构建时，对于每个初始主题分类模型，将训练数据表输入初始主题分类模型中的各初始初级分类器。

结果确定单元，用于对于每个初始初级分类器，设置初始初级分类器在各轮训练中的K值，并在各轮训练中基于初始初级分类器的K值确定训练数据表的预测分类结果。

计算单元，用于根据预测分类结果和分类标签计算初始初级分类器在各K值下的分类器评估值。

选取单元，用于根据分类器评估值选取K值，并根据选取的K值得到初级分类器。

在本实施例的一些可选的实现方式中，数据分类模块305包括：标识提取子模块、字典查询子模块、查询确定子模块、模型输入子模块以及目录生成子模块，其中：

标识提取子模块，用于提取资产数据中待分类数据表的数据表标识。

字典查询子模块，用于根据提取到的数据表标识，在分类映射字典和数据表关联字典中查询与待分类数据表对应的预设分类结果。

查询确定子模块，用于当查询到与待分类数据表对应的预设分类结果时，将查询到的预设分类结果确定为待分类数据表的分类结果。

模型输入子模块，用于当未查询到与待分类数据表对应的预设分类结果时，将待分类数据表输入数据资产分类模型，得到分类结果。

目录生成子模块，用于根据得到的分类结果生成资产数据的数据资产目录。

为解决上述技术问题，本申请实施例还提供计算机设备。具体请参阅图9，图9为本实施例计算机设备基本结构框图。

所述计算机设备4包括通过系统总线相互通信连接存储器41、处理器42、网络接口43。需要指出的是，图中仅示出了具有组件41-43的计算机设备4，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。其中，本技术领域技术人员可以理解，这里的计算机设备是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路(ApplicationSpecific Integrated Circuit，ASIC)、可编程门阵列(Field－Programmable GateArray，FPGA)、数字处理器(Digital Signal Processor，DSP)、嵌入式设备等。

所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。

所述存储器41至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中，所述存储器41可以是所述计算机设备4的内部存储单元，例如该计算机设备4的硬盘或内存。在另一些实施例中，所述存储器41也可以是所述计算机设备4的外部存储设备，例如该计算机设备4上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(FlashCard)等。当然，所述存储器41还可以既包括所述计算机设备4的内部存储单元也包括其外部存储设备。本实施例中，所述存储器41通常用于存储安装于所述计算机设备4的操作系统和各类应用软件，例如基于智能决策的数据资产目录构建方法的计算机可读指令等。此外，所述存储器41还可以用于暂时地存储已经输出或者将要输出的各类数据。

所述处理器42在一些实施例中可以是中央处理器(Central Processing Unit，CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器42通常用于控制所述计算机设备4的总体操作。本实施例中，所述处理器42用于运行所述存储器41中存储的计算机可读指令或者处理数据，例如运行所述基于智能决策的数据资产目录构建方法的计算机可读指令。

所述网络接口43可包括无线网络接口或有线网络接口，该网络接口43通常用于在所述计算机设备4与其他电子设备之间建立通信连接。

本实施例中提供的计算机设备可以执行上述基于智能决策的数据资产目录构建方法的步骤。此处基于智能决策的数据资产目录构建方法的步骤可以是上述各个实施例的基于智能决策的数据资产目录构建方法中的步骤。

本申请还提供了另一种实施方式，即提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可读指令，所述计算机可读指令可被至少一个处理器执行，以使所述至少一个处理器执行如上述的基于智能决策的数据资产目录构建方法的步骤。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

显然，以上所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例，附图中给出了本申请的较佳实施例，但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现，相反地，提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明，对于本领域的技术人员来而言，其依然可以对前述各具体实施方式所记载的技术方案进行修改，或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构，直接或间接运用在其他相关的技术领域，均同理在本申请专利保护范围之内。

Claims

1.一种基于智能决策的数据资产目录构建方法，其特征在于，包括下述步骤：

获取预设的分类映射字典以及数据表关联字典；

2.根据权利要求1所述的基于智能决策的数据资产目录构建方法，其特征在于，所述根据所述训练数据表训练各初始主题分类模型，得到与所述分类体系树所对应的数据资产分类模型的步骤包括：

对于每个初始主题分类模型，根据所述训练数据表训练初始主题分类模型中的各初始初级分类器，得到若干初级分类器；

获取所述若干初级分类器根据所述训练数据表输出的初级分类结果；

将所述分类标签和所述初级分类结果输入所述初始主题分类模型中的各初始次级分类器，并通过OvR算法进行训练，得到若干次级分类器；

根据得到的初级分类器和次级分类器生成主题分类模型，并根据各主题分类模型生成与所述分类体系树所对应的数据资产分类模型。

3.根据权利要求2所述的基于智能决策的数据资产目录构建方法，其特征在于，所述对于每个初始主题分类模型，根据所述训练数据表训练初始主题分类模型中的各初始初级分类器，得到若干初级分类器的步骤包括：

当初始初级分类器基于逻辑回归算法构建时，对于每个初始主题分类模型，将所述训练数据表输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对所述各初始初级分类器进行训练；

对于每个初始初级分类器，获取初始初级分类器在预设轮次训练中的预测分类结果；

根据所述预测分类结果和所述分类标签计算所述初始初级分类器在各轮次训练中的分类器评估值；

根据所述分类器评估值确定分类器参数，并根据确定的分类器参数得到初级分类器。

4.根据权利要求3所述的基于智能决策的数据资产目录构建方法，其特征在于，所述当初始初级分类器基于逻辑回归算法构建时，对于每个初始主题分类模型，将所述训练数据表输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对所述各初始初级分类器进行训练的步骤包括：

读取所述训练数据表的特征信息；

根据所述特征信息，确定所述训练数据表的字符分布信息以及N-Gram分布信息；

对于每个初始主题分类模型，将所述字符分布信息和所述N-Gram分布信息输入初始主题分类模型中的各初始初级分类器，并通过OvR算法对所述各初始初级分类器进行训练。

5.根据权利要求3所述的基于智能决策的数据资产目录构建方法，其特征在于，所述根据所述预测分类结果和所述分类标签计算所述初始初级分类器在各轮次训练中的分类器评估值的步骤包括：

根据所述预测分类结果和所述分类标签构建所述初始初级分类器在各轮次训练中的混淆矩阵；

基于构建的混淆矩阵计算分类器评估值，所述分类器评估值包括AUC、准确率、召回率和F1-score中的至少一种。

6.根据权利要求2所述的基于智能决策的数据资产目录构建方法，其特征在于，所述对于每个初始主题分类模型，根据所述训练数据表训练初始主题分类模型中的各初始初级分类器，得到若干初级分类器的步骤包括：

当初始初级分类器基于临近算法构建时，对于每个初始主题分类模型，将所述训练数据表输入初始主题分类模型中的各初始初级分类器；

对于每个初始初级分类器，设置初始初级分类器在各轮训练中的K值，并在各轮训练中基于所述初始初级分类器的K值确定所述训练数据表的预测分类结果；

根据所述预测分类结果和所述分类标签计算所述初始初级分类器在各K值下的分类器评估值；

根据所述分类器评估值选取K值，并根据选取的K值得到初级分类器。

7.根据权利要求1所述的基于智能决策的数据资产目录构建方法，其特征在于，所述根据所述数据资产分类模型、所述分类映射字典以及所述数据表关联字典对资产数据进行分类，得到数据资产目录的步骤包括：

提取资产数据中待分类数据表的数据表标识；

根据提取到的数据表标识，在所述分类映射字典和所述数据表关联字典中查询与所述待分类数据表对应的预设分类结果；

当查询到与所述待分类数据表对应的预设分类结果时，将查询到的预设分类结果确定为所述待分类数据表的分类结果；

当未查询到与所述待分类数据表对应的预设分类结果时，将所述待分类数据表输入所述数据资产分类模型，得到分类结果；

根据得到的分类结果生成资产数据的数据资产目录。

8.一种基于智能决策的数据资产目录构建装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器中存储有计算机可读指令，所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的基于智能决策的数据资产目录构建方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的基于智能决策的数据资产目录构建方法的步骤。