CN114297205A

CN114297205A - 一种数据库表分级方法、装置、可读存储介质及电子设备

Info

Publication number: CN114297205A
Application number: CN202111679407.8A
Authority: CN
Inventors: 邱星煜; 吴杰
Original assignee: Chengdu Westone Information Industry Inc
Current assignee: Chengdu Westone Information Industry Inc
Priority date: 2021-12-31
Filing date: 2021-12-31
Publication date: 2022-04-08

Abstract

本公开涉及一种数据库表分级方法、装置、可读存储介质及电子设备，本公开采用多层复合结构的神经网络模型实现了数据库表的智能分级，对于来自不同行业、不同部门的任意数据库表，均可经过神经网络模型直接输出对应的保密级别，无需任何额外的规则判定，无需针对不同分级标准训练不同的模型，实现了模型的泛化应用；而且，本公开通过模型本身对数据库表的信息进行语义理解，不需要专家先验知识和人为理解语义，使得模型更具普遍适用性，提高了库表分级效率。

Description

一种数据库表分级方法、装置、可读存储介质及电子设备

技术领域

本公开涉及数据库表管理领域，具体地，涉及一种数据库表分级方法、装置、可读存储介质及电子设备。

背景技术

目前，数据库表分级是依据数据库表来源部门、所在行业以及所包含数据的敏感程度来确定数据库表的保密级别，从而为不同保密级别的数据库表的开放和共享施加不同程度的管控，实现对数据的高效管理。

现有的数据库表分级的主流技术为基于规则的分级方法，基于规则的分级方法使用一组“if...then...”的规则来进行数据库表的分级：从第一个“if...then...”规则开始，用当前规则去匹配数据库表的内容，若当前规则与数据库表的内容相匹配，则将当前规则下对应的分级结果作为数据库表的保密级别；若当前规则与数据库表的内容不匹配，则用下一条规则去匹配，直至找到能匹配的规则或者规则用完，结束数据库表的分级过程。可以理解的是，这种基于规则的分级方法对不同地区、不同领域的数据库表有着一一对应的规则标准，依赖于所属领域的专家先验知识，在实际规则设置过程中，研发人员需要对数据本身和领域知识有所涉猎，通过人为理解规则之后将其中蕴含的抽象规律具体化为可实现的功能。

基于规则的数据库表分级方法虽然在一定程度上实现了分级的智能化，但其实现原理仍然缺乏真正意义上的智能性，其问题主要体现在以下两方面：一是该分级方法只能适用于同一规则或标准下的分级任务，不具备可复现性，缺乏泛化能力；二是该分级方法依赖于专家先验知识和人为理解语义，比较费时费力，从而影响库表分级效率。

因此，如何提供一种解决上述技术问题的方案是本领域的技术人员目前需要解决的问题。

发明内容

本公开的目的是提供一种数据库表分级方法、装置、可读存储介质及电子设备，采用多层复合结构的神经网络模型实现了数据库表的智能分级，对于来自不同行业、不同部门的任意数据库表，均可经过神经网络模型直接输出对应的保密级别，无需任何额外的规则判定，无需针对不同分级标准训练不同的模型，实现了模型的泛化应用；而且，本公开通过模型本身对数据库表的信息进行语义理解，不需要专家先验知识和人为理解语义，使得模型更具普遍适用性，提高了库表分级效率。

为了实现上述目的，本公开提供了一种数据库表分级方法，包括：

获取不同行业、不同部门的数据库表信息，并基于所述数据库表信息构建训练数据集；

构建多层复合结构的神经网络模型；其中，所述神经网络模型用于根据数据库表的信息确定所述数据库表的保密级别；

利用所述训练数据集对所述神经网络模型进行训练，得到训练完成的数据库表分级模型；

获取待分级数据库表，并将所述待分级数据库表输入至所述数据库表分级模型，得到所述待分级数据库表的保密级别。

可选地，所述数据库表信息包括不同数据库表各自的部门名称、库表表名、表内信息项名称及所述不同数据库表各自对应的分级标签和行业标签。

可选地，基于所述数据库表信息构建训练数据集，包括：

对每个所述数据库表的部门名称、库表表名及表内信息项名称均进行去重和去除不合法信息的处理；

随机增加或剔除每个所述数据库表所包含的信息项中对分级结果无影响的信息项；

为每个所述数据库表所包含的信息项构造新特征；其中，所述新特征为与表内信息项相关联且对分级结果有影响的特征变量；

将每个所述数据库表对应构造的新特征与每个所述数据库表最终处理后的部门名称、库表表名和表内信息项名称，以及每个所述数据库表对应的分级标签和行业标签组合起来，构成所述训练数据集。

可选地，构建多层复合结构的神经网络模型，包括：

构建第一神经网络结构；所述第一神经网络结构用于基于所述数据库表的部门名称、库表表名及表内信息项名称一一对应生成预设维度的语义特征向量，并将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量，且将所述语义特征聚合向量进行映射，得到维度不变的第一特征向量；

构建第二神经网络结构；所述第二神经网络结构用于将所述同一数据库表对应构造的新特征进行组合，得到组合特征，并基于所述组合特征生成与所述语义特征向量维度相同的第二特征向量；

构建第三神经网络结构；所述第三神经网络结构用于基于所述数据库表的部门名称对应的语义特征向量对所述数据库表进行行业分类；

构造第四神经网络结构；所述第四神经网络结构用于为所述同一数据库表的部门名称和库表表名对应的语义特征向量以及所述同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量，并基于所述第三特征向量对所述同一数据库表进行粗粒度分级及细粒度分级；其中，细粒度分级对应的分级种类多于粗粒度分级对应的分级种类；

将所述第一神经网络结构、所述第二神经网络结构、所述第三神经网络结构及所述第四神经网络结构组合起来，得到所述多层复合结构的神经网络模型。

可选地，构建第一神经网络结构，包括：

构建embedding层；所述embedding层用于将基于所述数据库表的部门名称、库表表名及表内信息项名称中每个字符均映射成中文字向量；

构建双层双向的循环神经网络；所述循环神经网络用于将每个所述中文字向量均转换为预设维度的语义特征向量；

构建向量相加层；所述向量相加层用于将所述同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量；

构建第一全连接层；所述第一全连接层用于将所述语义特征聚合向量进行映射，得到维度不变的语义特征映射向量；

构建第一dropout层；所述第一dropout层用于将所述语义特征映射向量进行映射，得到维度不变的第一特征向量。

可选地，构建第二神经网络结构，包括：

构建第二全连接层；所述第二全连接层用于将所述同一数据库表对应构造的新特征进行组合，得到组合特征，并基于所述组合特征生成与所述语义特征向量维度相同的新特征向量；

构建批度归一化层；所述批度归一化层用于将所述新特征向量进行数值归一化处理，得到新特征数值归一化向量；

构建激活函数层；所述激活函数层用于将所述新特征数值归一化向量进行非线性处理，得到非线性处理后的新特征数值归一化向量；

构建第二dropout层；所述第二dropout层用于将非线性处理后的所述新特征数值归一化向量进行映射，得到维度不变的第二特征向量。

可选地，构建第三神经网络结构，包括：

构建第三全连接层；所述第三全连接层用于对所述数据库表的部门名称对应的语义特征向量进行映射，得到维度不变的部门特征映射向量；

构建第一分类层；所述第一分类层用于基于所述部门特征映射向量对所述数据库表进行行业分类。

可选地，构建第四神经网络结构，包括：

构建向量权重相加层；所述向量权重相加层用于为所述同一数据库表的部门名称和库表表名对应的语义特征向量以及所述同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量；

构建第四全连接层；所述第四全连接层用于对所述第三特征向量进行映射，得到维度不变的第一映射向量；

构建第二分类层；所述第二分类层用于基于所述第一映射向量对所述同一数据库表进行粗粒度分级；

构建第五全连接层；所述第五全连接层用于对所述第三特征向量进行映射，得到维度不变的第二映射向量；

构建第三分类层；所述第三分类层用于基于所述第二映射向量对所述同一数据库表进行细粒度分级。

可选地，利用所述训练数据集对所述神经网络模型进行训练，得到训练完成的数据库表分级模型，包括：

将所述训练数据集内不同数据库表的信息依次输入至所述神经网络模型，得到所述不同数据库表各自对应的行业分类结果、粗粒度分级结果及细粒度分级结果；

将目标数据库表对应的行业分类结果与所述目标数据库表对应的行业标签代入预设损失函数进行损失计算，得到第一损失；其中，所述目标数据库表为所述训练数据集内任一数据库表；

将所述目标数据库表对应的粗粒度分级结果与所述目标数据库表对应的粗粒度分级标签代入预设损失函数进行损失计算，得到第二损失；

将所述目标数据库表对应的细粒度分级结果与所述目标数据库表对应的细粒度分级标签代入预设损失函数进行损失计算，得到第三损失；

为所述第一损失、所述第二损失及所述第三损失赋予预设损失权重值并相加，得到总损失；

以将所述总损失降低至0为优化目标，利用预设神经网络模型优化算法对所述神经网络模型的参数进行优化调整，直至所述训练数据集全部在所述神经网络模型上训练完成，得到训练完成的数据库表分级模型。

为了实现上述目的，本公开还提供了一种数据库表分级装置，包括：

数据构建单元，用于获取不同行业、不同部门的数据库表信息，并基于所述数据库表信息构建训练数据集；

模型构建单元，用于构建多层复合结构的神经网络模型；其中，所述神经网络模型用于根据数据库表的信息确定所述数据库表的保密级别；

模型训练单元，用于利用所述训练数据集对所述神经网络模型进行训练，得到训练完成的数据库表分级模型；

库表分级单元，用于获取待分级数据库表，并将所述待分级数据库表输入至所述数据库表分级模型，得到所述待分级数据库表的保密级别。

为了实现上述目的，本公开还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一种数据库表分级方法的步骤。

为了实现上述目的，本公开还提供了一种电子设备，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现上述任一种数据库表分级方法的步骤。

通过上述技术方案，本公开采用多层复合结构的神经网络模型实现了数据库表的智能分级，对于来自不同行业、不同部门的任意数据库表，均可经过神经网络模型直接输出对应的保密级别，无需任何额外的规则判定，无需针对不同分级标准训练不同的模型，实现了模型的泛化应用；而且，本公开通过模型本身对数据库表的信息进行语义理解，不需要专家先验知识和人为理解语义，使得模型更具普遍适用性，提高了库表分级效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对现有技术和实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本公开实施例提供的一种数据库表分级方法的流程图；

图2为本公开实施例提供的一种多层复合结构的神经网络模型的分类原理图；

图3为本公开实施例提供的一种数据库表分级装置的结构示意图；

图4为本公开实施例提供的一种电子设备的结构示意图；

图5为本公开实施例提供的另一种电子设备的结构示意图。

具体实施方式

本公开的核心是提供一种数据库表分级方法、装置、可读存储介质及电子设备，采用多层复合结构的神经网络模型实现了数据库表的智能分级，对于来自不同行业、不同部门的任意数据库表，均可经过神经网络模型直接输出对应的保密级别，无需任何额外的规则判定，无需针对不同分级标准训练不同的模型，实现了模型的泛化应用；而且，本公开通过模型本身对数据库表的信息进行语义理解，不需要专家先验知识和人为理解语义，使得模型更具普遍适用性，提高了库表分级效率。

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

请参照图1，图1为本公开实施例提供的一种数据库表分级方法的流程图。

该数据库表分级方法包括：

步骤101：获取不同行业、不同部门的数据库表信息，并基于数据库表信息构建训练数据集。

具体地，考虑到数据库表分级是依据数据库表来源部门、所在行业以及所包含数据的敏感程度来确定数据库表的保密级别，所以本公开获取不同行业、不同部门的数据库表信息，以基于数据库表信息构建训练数据集(训练用于数据库表分级的神经网络模型使用)。

步骤102：构建多层复合结构的神经网络模型；其中，神经网络模型用于根据数据库表的信息确定数据库表的保密级别。

具体地，本公开构建多层复合结构的神经网络模型，神经网络模型的构建目的是应用于数据库表分级，即将一数据库表的信息输入至神经网络模型，神经网络模型可输出此数据库表的保密级别。

步骤103：利用训练数据集对神经网络模型进行训练，得到训练完成的数据库表分级模型。

具体地，本公开利用训练数据集对神经网络模型进行训练，目的是通过训练神经网络模型来提高模型分级的精准度，最终得到精准度较高的数据库表分级模型。

步骤104：获取待分级数据库表，并将待分级数据库表输入至数据库表分级模型，得到待分级数据库表的保密级别。

具体地，在得到精准度较高的数据库表分级模型之后，本公开可获取待分级数据库表，然后将待分级数据库表输入至数据库表分级模型，可得到待分级数据库表的保密级别。

可见，本公开采用多层复合结构的神经网络模型实现了数据库表的智能分级，对于来自不同行业、不同部门的任意数据库表，均可经过神经网络模型直接输出对应的保密级别，无需任何额外的规则判定，无需针对不同分级标准训练不同的模型，实现了模型的泛化应用；而且，本公开通过模型本身对数据库表的信息进行语义理解，不需要专家先验知识和人为理解语义，使得模型更具普遍适用性，提高了库表分级效率。

在上述实施例的基础上：

作为一种可选的实施例，数据库表信息包括不同数据库表各自的部门名称、库表表名、表内信息项名称及不同数据库表各自对应的分级标签和行业标签。

具体地，对于不同行业、不同部门的数据库表信息，每个数据库表的信息均可包括该数据库表的部门名称、库表表名、表内信息项名称(信息项名称指数据库表中各类数据的名称，如某数据库表包含姓名、单位、病史等数据，那么“姓名”、“单位”、“病史”等就是该数据库表的信息项名称)，每个数据库表的信息还可包括该数据库表对应的分级标签(表示该数据库表实际对应的保密级别)和行业标签(表示该数据库表实际所在的行业)。

作为一种可选的实施例，基于数据库表信息构建训练数据集，包括：

对每个数据库表的部门名称、库表表名及表内信息项名称均进行去重和去除不合法信息的处理；

随机增加或剔除每个数据库表所包含的信息项中对分级结果无影响的信息项；

为每个数据库表所包含的信息项构造新特征；其中，新特征为与表内信息项相关联且对分级结果有影响的特征变量；

将每个数据库表对应构造的新特征与每个数据库表最终处理后的部门名称、库表表名和表内信息项名称，以及每个数据库表对应的分级标签和行业标签组合起来，构成训练数据集。

具体地，基于不同行业、不同部门的数据库表信息构建训练数据集的过程包括：1)对每个数据库表的部门名称、库表表名及表内信息项名称均进行预处理，包括去重(去除重复的部门名称、库表表名及表内信息项名称，如数据库表的信息项名称包含两个“姓名”信息项，则去重就是去除重复的一个“姓名”信息项)和去除不合法信息(如英文信息)等处理。2)对每个数据库表所包含的信息项进行数据增强处理，即随机增加或剔除每个数据库表所包含的信息项中对分级结果无影响的信息项，其效果体现在：在训练数据集的数据有限的情况下，通过对现有数据进行数据增强处理，降低了模型的过拟合风险，提高了模型的鲁棒性和准确度。3)为每个数据库表所包含的信息项构造新特征，新特征为与表内信息项相关联且对分级结果有影响的特征变量，可构造多个布尔型特征变量作为新特征，比如，为一数据库表所包含的信息项构造的其中一个新特征表示的是该数据库表所包含的信息项中是否包含身份证号，如包含身份证号，则该新特征被赋值为1，如不包含身份证号，则该新特征被赋值为0，以此类推，根据实际需求构造出多个新特征并完成赋值。可以理解的是，这些构造出来的新特征进一步挖掘了除数据库表所包含的信息项文本信息之外的对分级结果有影响的信息，提高了模型效果。4)将每个数据库表对应构造的新特征与每个数据库表最终处理(经去重、去除不合法信息及数据增强一系列处理)后的部门名称、库表表名和表内信息项名称，以及每个数据库表对应的分级标签和行业标签组合起来，构成训练数据集。

作为一种可选的实施例，构建多层复合结构的神经网络模型，包括：

构建第一神经网络结构；第一神经网络结构用于基于数据库表的部门名称、库表表名及表内信息项名称一一对应生成预设维度的语义特征向量，并将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量，且将语义特征聚合向量进行映射，得到维度不变的第一特征向量；

构建第二神经网络结构；第二神经网络结构用于将同一数据库表对应构造的新特征进行组合，得到组合特征，并基于组合特征生成与语义特征向量维度相同的第二特征向量；

构建第三神经网络结构；第三神经网络结构用于基于数据库表的部门名称对应的语义特征向量对数据库表进行行业分类；

构造第四神经网络结构；第四神经网络结构用于为同一数据库表的部门名称和库表表名对应的语义特征向量以及同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量，并基于第三特征向量对同一数据库表进行粗粒度分级及细粒度分级；其中，细粒度分级对应的分级种类多于粗粒度分级对应的分级种类；

将第一神经网络结构、第二神经网络结构、第三神经网络结构及第四神经网络结构组合起来，得到多层复合结构的神经网络模型。

具体地，构建用于数据库表分级的多层复合结构的神经网络模型的过程包括：1)构建第一神经网络结构；第一神经网络结构的构建目的是：基于数据库表的部门名称、库表表名及表内信息项名称一一对应生成预设维度(如256维)的语义特征向量，由于单个数据库表所包含的所有信息项名称之间不存在序列的前后关系，则将同一数据库表内的信息项名称对应的语义特征向量相加，以实现信息项的无序聚合，最终得到单个语义特征聚合向量，然后将语义特征聚合向量进行映射，得到维度不变的第一特征向量，即第一特征向量与语义特征聚合向量的维度相同，映射的目的是增加模型复杂性，提高拟合度。2)构建第二神经网络结构；第二神经网络结构的构建目的是：将同一数据库表对应构造的新特征进行组合，得到组合特征，然后基于组合特征生成与语义特征向量维度相同的第二特征向量。3)构建第三神经网络结构；第三神经网络结构的构建目的是：基于数据库表的部门名称对应的语义特征向量，对数据库表进行行业分类。4)构造第四神经网络结构；第四神经网络结构的构建目的是：为任一数据库表的部门名称和库表表名对应的语义特征向量以及该数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值，并将该数据库表对应的赋予预设向量权重值的语义特征向量、第一特征向量及第二特征向量相加，得到第三特征向量，然后基于第三特征向量对该数据库表进行粗粒度分级及细粒度分级；需要说明的是，细粒度分级对应的分级种类多于粗粒度分级对应的分级种类，比如，在细粒度分级下，数据库表分为1、2、3、4四个等级；在粗粒度分级下，数据库表分为高和低两个等级(1、2等级属于高等级，3、4等级属于低等级)。5)将第一神经网络结构、第二神经网络结构、第三神经网络结构及第四神经网络结构组合起来，便可得到多层复合结构的神经网络模型，用于实现数据库表分级。

请参照图2，图2为本公开实施例提供的一种多层复合结构的神经网络模型的分类原理图。

作为一种可选的实施例，构建第一神经网络结构，包括：

构建embedding层；embedding层用于将基于数据库表的部门名称、库表表名及表内信息项名称中每个字符均映射成中文字向量；

构建双层双向的循环神经网络；循环神经网络用于将每个中文字向量均转换为预设维度的语义特征向量；

构建向量相加层；向量相加层用于将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量；

构建第一全连接层；第一全连接层用于将语义特征聚合向量进行映射，得到维度不变的语义特征映射向量；

构建第一dropout层；第一dropout层用于将语义特征映射向量进行映射，得到维度不变的第一特征向量。

具体地，构建第一神经网络结构的过程包括：1)构建embedding层(embedding字面理解是“嵌入”，实质是一种映射，从语义空间到向量空间的映射，同时尽可能在向量空间保持原样本字符在语义空间的关系，如语义接近的两个字符在向量空间中的位置也比较接近)；embedding层的构建目的是：将基于数据库表的部门名称、库表表名及表内信息项名称中每个字符均映射成中文字向量(如300维的中文字向量)，以得到文本字面信息；其中，embedding层可采用word2vec模型实现映射。2)构建双层双向的循环神经网络；循环神经网络的构建目的是：将每个中文字向量均转换为预设维度的语义特征向量(如256维的语义特征向量)，即将双层双向的循环神经网络作为基础神经元来提取文本语义特征。需要说明的是，循环神经网络被广泛运用于自然语言处理领域，本公开出于对实际运用中运算效率的考量，双层双向的循环神经网络采用双层双向GRU(Gate Recurrent Unit，门控循环单元)结构，目的是在获取文本字面信息的基础上，用更深层的网络结构获取文本的语义信息。3)构建向量相加层；向量相加层的构建目的是：将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量。4)构建第一全连接层；第一全连接层的构建目的是：将语义特征聚合向量进行映射，得到维度不变的语义特征映射向量，即语义特征映射向量与语义特征聚合向量的维度相同。5)构建第一dropout(拿掉部分神经元)层；第一dropout层的构建目的是：将语义特征映射向量进行映射，得到维度不变的第一特征向量，即第一特征向量与语义特征映射向量的维度相同，第一全连接层的作用是将向量映射到另一空间，增加模型复杂性，提高拟合度，第一dropout层的作用是防止模型过拟合。

则第一神经网络就是embedding层、双层双向的循环神经网络、向量相加层及第一全连接层、第一dropout层的组合。

作为一种可选的实施例，构建第二神经网络结构，包括：

构建第二全连接层；第二全连接层用于将同一数据库表对应构造的新特征进行组合，得到组合特征，并基于组合特征生成与语义特征向量维度相同的新特征向量；

构建批度归一化层；批度归一化层用于将新特征向量进行数值归一化处理，得到新特征数值归一化向量；

构建激活函数层；激活函数层用于将新特征数值归一化向量进行非线性处理，得到非线性处理后的新特征数值归一化向量；

构建第二dropout层；第二dropout层用于将非线性处理后的新特征数值归一化向量进行映射，得到维度不变的第二特征向量。

具体地，构建第二神经网络结构的过程包括：1)构建第二全连接层；第二全连接层的构建目的是：将同一数据库表对应构造的新特征进行组合，得到组合特征，然后基于组合特征生成与语义特征向量维度相同的新特征向量。2)构建BN(batch normalization，批度归一化)层；批度归一化层的构建目的是：将新特征向量进行数值归一化处理，即将新特征向量内的数值都映射到[0,1]范围内，得到新特征数值归一化向量，便于后续处理。3)构建激活函数层；激活函数层的构建目的是：将新特征数值归一化向量进行非线性处理，得到非线性处理后的新特征数值归一化向量；其中，激活函数层可采用ReLU(Rectified LinearUnit，修正线性单元)函数实现。4)构建第二dropout层；第二dropout层的构建目的是：将非线性处理后的新特征数值归一化向量进行映射，得到维度不变的第二特征向量，即第二特征向量与新特征等级归一化向量的维度相同，第二全连接层的作用是将向量映射到另一空间，增加模型复杂性，提高拟合度，第二dropout层的作用是防止模型过拟合。

另外，激活函数层在得到非线性处理后的新特征数值归一化向量后，还可将非线性处理后的新特征数值归一化向量的各数值转变为同一数值量级的数值，然后再输入至第二dropout层，比如，非线性处理后的新特征数值归一化向量的数值可能有0.05(数值量级为0.01)，也可能有0.9(数值量级为0.1)，可将非线性处理后的新特征数值归一化向量的各数值均转变为0.01数值量级的数值，更便于后续处理。

则第二神经网络就是第二全连接层、批度归一化层、激活函数层及第二dropout层的组合。

作为一种可选的实施例，构建第三神经网络结构，包括：

构建第三全连接层；第三全连接层用于对数据库表的部门名称对应的语义特征向量进行映射，得到维度不变的部门特征映射向量；

构建第一分类层；第一分类层用于基于部门特征映射向量对数据库表进行行业分类。

具体地，构建第三神经网络结构的过程包括：1)构建第三全连接层；第三全连接层的构建目的是：对数据库表的部门名称对应的语义特征向量进行映射，得到维度不变的部门特征映射向量，即部门特征映射向量与语义特征向量的维度相同。2)构建第一分类层(借助softmax函数实现)；第一分类层的构建目的是：基于一数据库表对应的部门特征映射向量，对此数据库表进行行业分类，以供模型应用时计算损失使用。

则第三神经网络就是第三全连接层及第一分类层的组合。

作为一种可选的实施例，构建第四神经网络结构，包括：

构建向量权重相加层；向量权重相加层用于为同一数据库表的部门名称和库表表名对应的语义特征向量以及同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量；

构建第四全连接层；第四全连接层用于对第三特征向量进行映射，得到维度不变的第一映射向量；

构建第二分类层；第二分类层用于基于第一映射向量对同一数据库表进行粗粒度分级；

构建第五全连接层；第五全连接层用于对第三特征向量进行映射，得到维度不变的第二映射向量；

构建第三分类层；第三分类层用于基于第二映射向量对同一数据库表进行细粒度分级。

具体地，构建第四神经网络结构的过程包括：1)构建向量权重相加层；向量权重相加层的构建目的是：为任一数据库表的部门名称和库表表名对应的语义特征向量以及该数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值，并将该数据库表对应的赋予预设向量权重值的语义特征向量、第一特征向量及第二特征向量相加，得到第三特征向量。2)构建第四全连接层；第四全连接层的构建目的是：对第三特征向量进行映射，得到维度不变的第一映射向量，即第一映射向量与第三特征向量的维度相同。3)构建第二分类层(借助softmax函数实现)；第二分类层的构建目的是：基于一数据库表对应的第一映射向量，对该数据库表进行粗粒度分级。4)构建第五全连接层；第五全连接层的构建目的是：对第三特征向量进行映射，得到维度不变的第二映射向量，即第二映射向量与第三特征向量的维度相同。5)构建第三分类层(借助softmax函数实现)；第三分类层的构建目的是：基于一数据库表对应的第二映射向量，对该数据库表进行细粒度分级。

则第四神经网络就是向量权重相加层、第四全连接层、第二分类层、第五全连接层及第三分类层的组合。

作为一种可选的实施例，利用训练数据集对神经网络模型进行训练，得到训练完成的数据库表分级模型，包括：

将训练数据集内不同数据库表的信息依次输入至神经网络模型，得到不同数据库表各自对应的行业分类结果、粗粒度分级结果及细粒度分级结果；

将目标数据库表对应的行业分类结果与目标数据库表对应的行业标签代入预设损失函数进行损失计算，得到第一损失；其中，目标数据库表为训练数据集内任一数据库表；

将目标数据库表对应的粗粒度分级结果与目标数据库表对应的粗粒度分级标签代入预设损失函数进行损失计算，得到第二损失；

将目标数据库表对应的细粒度分级结果与目标数据库表对应的细粒度分级标签代入预设损失函数进行损失计算，得到第三损失；

为第一损失、第二损失及第三损失赋予预设损失权重值并相加，得到总损失；

以将总损失降低至0为优化目标，利用预设神经网络模型优化算法对神经网络模型的参数进行优化调整，直至训练数据集全部在神经网络模型上训练完成，得到训练完成的数据库表分级模型。

具体地，神经网络模型的训练过程包括：1)将训练数据集内不同数据库表的信息依次输入至神经网络模型(上述构建神经网络模型的实施例已对模型原理进行详细说明，本公开在此不再赘述)，可得到不同数据库表各自对应的行业分类结果、粗粒度分级结果及细粒度分级结果。2)以目标数据库表进行说明，目标数据库表对应的行业分类结果为神经网络模型预测的目标数据库表所在的行业，目标数据库表对应的行业标签为目标数据库表实际所在的行业，可将目标数据库表对应的行业分类结果与目标数据库表对应的行业标签代入预设损失函数(如交叉熵损失函数)进行损失计算，得到第一损失Loss1；目标数据库表对应的分级标签包括粗粒度分级标签和细粒度分级标签；目标数据库表对应的粗粒度分级结果为神经网络模型预测的目标数据库表对应的粗粒度保密级别，目标数据库表对应的粗粒度分级标签为目标数据库表实际所对应的粗粒度保密级别，可将目标数据库表对应的粗粒度分级结果与目标数据库表对应的粗粒度分级标签代入预设损失函数(如交叉熵损失函数)进行损失计算，得到第二损失Loss2；目标数据库表对应的细粒度分级结果为神经网络模型预测的目标数据库表对应的细粒度保密级别，目标数据库表对应的细粒度分级标签为目标数据库表实际所对应的细粒度保密级别，可将目标数据库表对应的细粒度分级结果与目标数据库表对应的细粒度分级标签代入预设损失函数(如交叉熵损失函数)进行损失计算，得到第三损失Loss3。3)为第一损失Loss1赋予损失权重值λ₁、为第二损失Loss2及赋予损失权重值λ₂、为第三损失Loss3赋予损失权重值λ₃，并将赋予损失权重值的第一损失、第二损失及第三损失相加，得到总损失Loss＝λ₁*Loss1+λ₂*Loss2+λ₃*Loss3。4)以将总损失Loss降低至0为优化目标(即以神经网络模型的预测结果与数据库表的实际情况尽可能一致为优化目标)，利用预设神经网络模型优化算法对神经网络模型的参数进行优化调整，直至训练数据集全部在神经网络模型上训练完成，得到训练完成的数据库表分级模型，神经网络模型训练结束。其中，神经网络模型优化算法可采用Adam(Adaptive moment estimation，自适应矩估计)算法，对于Adam算法，其参数可设置为：学习率设置为0.001，三种损失的权重大小比例设置为λ₁:λ₂:λ₃＝1:4:80，权重衰减设置为0.00005，批度设置为64(也可以设置为其它值，根据实际情况设定)。

可见，在深度学习框架下，经过同一个模型的前向传播，实现多任务输出，同时输出数据库表对应的粗粒度分级结果、细粒度分级结果以及所在行业分类结果，无需针对不同输出任务，训练多个模型。

综上，在本公开的智能分级过程中，实现对数据库表本身的信息项文本数据，以及数据库表对应的部门名称和表名文本数据的语义理解，并根据不同文本数据的重要性调整参数，优化网络结构，以提高智能分级结果的精准度，其效果体现在：输入每个数据库表的部门名称、库表表名及所包含的所有信息项名称，实现神经网络对文字语义的分析理解，学习其中蕴含的分级规则，通过神经网络的层层传导，最终完成精准度高的智能分级任务。

请参照图3，图3为本公开实施例提供的一种数据库表分级装置的结构示意图。

该数据库表分级装置100包括：

数据构建单元101，用于获取不同行业、不同部门的数据库表信息，并基于数据库表信息构建训练数据集；

模型构建单元102，用于构建多层复合结构的神经网络模型；其中，神经网络模型用于根据数据库表的信息确定数据库表的保密级别；

模型训练单元103，用于利用训练数据集对神经网络模型进行训练，得到训练完成的数据库表分级模型；

库表分级单元104，用于获取待分级数据库表，并将待分级数据库表输入至数据库表分级模型，得到待分级数据库表的保密级别。

作为一种可选的实施例，数据构建单元101包括：

预处理模块，用于对每个数据库表的部门名称、库表表名及表内信息项名称均进行去重和去除不合法信息的处理；

数据增强模块，用于随机增加或剔除每个数据库表所包含的信息项中对分级结果无影响的信息项；

特征构造模块，用于为每个数据库表所包含的信息项构造新特征；其中，新特征为与表内信息项相关联且对分级结果有影响的特征变量；

信息组合模块，用于将每个数据库表对应构造的新特征与每个数据库表最终处理后的部门名称、库表表名和表内信息项名称，以及每个数据库表对应的分级标签和行业标签组合起来，构成训练数据集。

作为一种可选的实施例，模型构建单元102包括：

第一构建模块，用于构建第一神经网络结构；第一神经网络结构用于基于数据库表的部门名称、库表表名及表内信息项名称一一对应生成预设维度的语义特征向量，并将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量，且将语义特征聚合向量进行映射，得到维度不变的第一特征向量；

第二构建模块，用于构建第二神经网络结构；第二神经网络结构用于将同一数据库表对应构造的新特征进行组合，得到组合特征，并基于组合特征生成与语义特征向量维度相同的第二特征向量；

第三构建模块，用于构建第三神经网络结构；第三神经网络结构用于基于数据库表的部门名称对应的语义特征向量对数据库表进行行业分类；

第四构建模块，用于构造第四神经网络结构；第四神经网络结构用于为同一数据库表的部门名称和库表表名对应的语义特征向量以及同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量，并基于第三特征向量对同一数据库表进行粗粒度分级及细粒度分级；其中，细粒度分级对应的分级种类多于粗粒度分级对应的分级种类；

结构组合模块，用于将第一神经网络结构、第二神经网络结构、第三神经网络结构及第四神经网络结构组合起来，得到多层复合结构的神经网络模型。

作为一种可选的实施例，第一构建模块包括：

第一构建子模块，用于构建embedding层；embedding层用于将基于数据库表的部门名称、库表表名及表内信息项名称中每个字符均映射成中文字向量；

第二构建子模块，用于构建双层双向的循环神经网络；循环神经网络用于将每个中文字向量均转换为预设维度的语义特征向量；

第三构建子模块，用于构建向量相加层；向量相加层用于将同一数据库表内的信息项名称对应的语义特征向量相加，得到语义特征聚合向量；

第四构建子模块，用于构建第一全连接层；第一全连接层用于将语义特征聚合向量进行映射，得到维度不变的语义特征映射向量；

第五构建子模块，用于构建第一dropout层；第一dropout层用于将语义特征映射向量进行映射，得到维度不变的第一特征向量。

作为一种可选的实施例，第二构建模块包括：

第六构建子模块，用于构建第二全连接层；第二全连接层用于将同一数据库表对应构造的新特征进行组合，得到组合特征，并基于组合特征生成与语义特征向量维度相同的新特征向量；

第七构建子模块，用于构建批度归一化层；批度归一化层用于将新特征向量进行数值归一化处理，得到新特征数值归一化向量；

第八构建子模块，用于构建激活函数层；激活函数层用于将新特征数值归一化向量进行非线性处理，得到非线性处理后的新特征数值归一化向量；

第九构建子模块，用于构建第二dropout层；第二dropout层用于将非线性处理后的新特征数值归一化向量进行映射，得到维度不变的第二特征向量。

作为一种可选的实施例，第三构建模块包括：

第十构建子模块，用于构建第三全连接层；第三全连接层用于对数据库表的部门名称对应的语义特征向量进行映射，得到维度不变的部门特征映射向量；

第十一构建子模块，用于构建第一分类层；第一分类层用于基于部门特征映射向量对数据库表进行行业分类。

作为一种可选的实施例，第四构建模块包括：

第十二构建子模块，用于构建向量权重相加层；向量权重相加层用于为同一数据库表的部门名称和库表表名对应的语义特征向量以及同一数据库表对应的第一特征向量和第二特征向量赋予预设向量权重值并相加，得到第三特征向量；

第十三构建子模块，用于构建第四全连接层；第四全连接层用于对第三特征向量进行映射，得到维度不变的第一映射向量；

第十四构建子模块，用于构建第二分类层；第二分类层用于基于第一映射向量对同一数据库表进行粗粒度分级；

第十五构建子模块，用于构建第五全连接层；第五全连接层用于对第三特征向量进行映射，得到维度不变的第二映射向量；

第十六构建子模块，用于构建第三分类层；第三分类层用于基于第二映射向量对同一数据库表进行细粒度分级。

作为一种可选的实施例，模型训练单元103包括：

数据输入模块，用于将训练数据集内不同数据库表的信息依次输入至神经网络模型，得到不同数据库表各自对应的行业分类结果、粗粒度分级结果及细粒度分级结果；

第一损失计算模块，用于将目标数据库表对应的行业分类结果与目标数据库表对应的行业标签代入预设损失函数进行损失计算，得到第一损失；其中，目标数据库表为训练数据集内任一数据库表；

第二损失计算模块，用于将目标数据库表对应的粗粒度分级结果与目标数据库表对应的粗粒度分级标签代入预设损失函数进行损失计算，得到第二损失；

第三损失计算模块，用于将目标数据库表对应的细粒度分级结果与目标数据库表对应的细粒度分级标签代入预设损失函数进行损失计算，得到第三损失；

损失求和模块，用于为第一损失、第二损失及第三损失赋予预设损失权重值并相加，得到总损失；

模型优化模块，用于以将总损失降低至0为优化目标，利用预设神经网络模型优化算法对神经网络模型的参数进行优化调整，直至训练数据集全部在神经网络模型上训练完成，得到训练完成的数据库表分级模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图4是根据一示例性实施例示出的一种电子设备200的框图。如图4所示，该电子设备200可以包括：处理器201，存储器202。该电子设备200还可以包括多媒体组件203，输入/输出(I/O)接口204，以及通信组件205中的一者或多者。

其中，处理器201用于控制该电子设备200的整体操作，以完成上述的数据库表分级方法中的全部或部分步骤。存储器202用于存储各种类型的数据以支持在该电子设备200的操作，这些数据例如可以包括用于在该电子设备200上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器202可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read-Only Memory，简称EPROM)，可编程只读存储器(Programmable Read-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。多媒体组件203可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器202或通过通信组件205发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口204为处理器201和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件205用于该电子设备200与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信(Near FieldCommunication，简称NFC)，2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件205可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，电子设备200可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit，简称ASIC)、数字信号处理器(DigitalSignal Processor，简称DSP)、数字信号处理设备(Digital Signal Processing Device，简称DSPD)、可编程逻辑器件(Programmable Logic Device，简称PLD)、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的数据库表分级方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的数据库表分级方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器202，上述程序指令可由电子设备200的处理器201执行以完成上述的数据库表分级方法。

图5是根据一示例性实施例示出的另一种电子设备300的框图。例如，电子设备300可以被提供为一服务器。参照图5，电子设备300包括处理器301，其数量可以为一个或多个，以及存储器303，用于存储可由处理器301执行的计算机程序。存储器303中存储的计算机程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理器301可以被配置为执行该计算机程序，以执行上述的数据库表分级方法。

另外，电子设备300还可以包括电源组件302和通信组件304，该电源组件302可以被配置为执行电子设备300的电源管理，该通信组件304可以被配置为实现电子设备300的通信，例如，有线或无线通信。此外，该电子设备300还可以包括输入/输出(I/O)接口305。电子设备300可以操作基于存储在存储器303的操作系统，例如Windows ServerTM，Mac OSXTM，UnixTM,LinuxTM等等。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的数据库表分级方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器303，上述程序指令可由电子设备300的处理器301执行以完成上述的数据库表分级方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。且在本公开中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

1.一种数据库表分级方法，其特征在于，包括：

2.如权利要求1所述的数据库表分级方法，其特征在于，所述数据库表信息包括不同数据库表各自的部门名称、库表表名、表内信息项名称及所述不同数据库表各自对应的分级标签和行业标签。

3.如权利要求2所述的数据库表分级方法，其特征在于，基于所述数据库表信息构建训练数据集，包括：

4.如权利要求3所述的数据库表分级方法，其特征在于，构建多层复合结构的神经网络模型，包括：

5.如权利要求4所述的数据库表分级方法，其特征在于，构建第一神经网络结构，包括：

6.如权利要求4所述的数据库表分级方法，其特征在于，构建第二神经网络结构，包括：

7.如权利要求4所述的数据库表分级方法，其特征在于，构建第三神经网络结构，包括：

8.如权利要求4所述的数据库表分级方法，其特征在于，构建第四神经网络结构，包括：

9.如权利要求4-8任一项所述的数据库表分级方法，其特征在于，利用所述训练数据集对所述神经网络模型进行训练，得到训练完成的数据库表分级模型，包括：

10.一种数据库表分级装置，其特征在于，包括：

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-9中任一项所述的数据库表分级方法的步骤。

12.一种电子设备，其特征在于，包括：

存储器，其上存储有计算机程序；

处理器，用于执行所述存储器中的所述计算机程序，以实现权利要求1-9中任一项所述的数据库表分级方法的步骤。