CN116776237A

CN116776237A - 一种元数据分类分级方法、装置、设备及介质

Info

Publication number: CN116776237A
Application number: CN202311063495.8A
Authority: CN
Inventors: 黄杰; 刘强; 韦扬; 朱冰洁; 张开
Original assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Current assignee: Shenzhen Qianhai Huanrong Lianyi Information Technology Service Co Ltd
Priority date: 2023-08-23
Filing date: 2023-08-23
Publication date: 2023-09-19

Abstract

本发明涉及数据处理领域，尤其涉及一种元数据分类分级方法、装置、设备及介质。对获取的原始元数据集进行数据预处理，得到预处理后的元数据集，对其进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型，并对分类分级模型进行模型训练，使用Hyperopt库进行模型调参，得到训练好的分类分级模型，将待测元数据集输入至分类分级模型中进行分级预测和分类计算，得到分类分级结果，并对其进行分析，优化分类分级模型。本申请根据选择到的特征构建分类分级模型，对元数据进行分级预测和分类计算，降低了人工干预，提高了处理效率，并且根据优化后的分类分级模型，可以进行安全授权，极大地保证了数据的安全性和保密性，以适应特定的分类分级需求。

Description

一种元数据分类分级方法、装置、设备及介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种元数据分类分级方法、装置、设备及介质。

背景技术

随着信息技术的不断发展和数据的爆发式增长，组织和个人面临着处理和管理大量数据的挑战。在这样的背景下，数据分类分级的目的是为了更好地组织、管理和利用数据资源，并确保数据的安全性和合规性。同时，数据分类分级也是一种数据资产化的呈现方式，是数据治理的一种解决方案。

现有的一些方案是先将数据库中的数据导出到适当的格式，然后使用相应的数据处理工具或脚本对导出的数据进行分类分级操作，通过给数据打上特定的标记或标签，将其分类为不同的等级或类别，或者利用现有的分类分级工具或平台，将导出的数据导入其中进行分类分级。而这些方案需要主观判断或人工干预，导致分类结果的主观性和不一致性，效率低，并且涉敏感数据时，由于导出的数据在不同平台之间传输或存储，就会增加了数据安全风险。因此，如何通过降低人工干预，提高处理效率，已成为本领域技术人员亟待解决的技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种元数据分类分级方法、装置、设备及介质，以解决现有技术无法降低人工干预，导致数据处理效率较低的问题。

本申请实施例的第一方面提供了一种元数据分类分级方法，所述元数据分类分级方法包括：

对获取的原始元数据集进行数据预处理，得到预处理后的元数据集；

对所述预处理后的元数据集进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型；

利用所述预处理后的元数据集对所述分类分级模型进行模型训练，并在所述分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型；

将待测元数据集输入至所述训练好的分类分级模型中，由所述训练好的分类分级模型对所述待测元数据集进行分级预测和分类计算从而得到对应的分类分级结果；

对所述分类分级结果进行分析，根据分析后的反馈信息，通过参数指标来优化所述分类分级模型。

本申请实施例的第二方面提供了一种元数据分类分级装置，所述元数据分类分级装置包括：

处理模块，用于对获取的原始元数据集进行数据预处理，得到预处理后的元数据集；

构建模块，用于对所述预处理后的元数据集进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型；

训练模块，用于利用所述预处理后的元数据集对所述分类分级模型进行模型训练，并在所述分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型；

分类分级模块，用于将待测元数据集输入至所述训练好的分类分级模型中，由所述训练好的分类分级模型对所述待测元数据集进行分级预测和分类计算从而得到对应的分类分级结果；

优化模块，用于对所述分类分级结果进行分析，根据分析后的反馈信息，通过参数指标来优化所述分类分级模型。

第三方面，本发明实施例提供了一种计算机设备，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的元数据分类分级方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的元数据分类分级方法。

综上所述，本发明提供了一种元数据分类分级方法、装置、设备及介质，通过对获取的原始元数据集进行数据预处理，得到预处理后的元数据集，对预处理后的元数据集进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型，利用预处理后的元数据集对分类分级模型进行模型训练，并在分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型，将待测元数据集输入至训练好的分类分级模型中，由训练好的分类分级模型对待测元数据集进行分级预测和分类计算从而得到对应的分类分级结果，对分类分级结果进行分析，根据分析后的反馈信息，通过参数指标来优化分类分级模型。本申请根据选择到的特征，通过SVM算法构建分类分级模型，进而对元数据进行分级预测和分类计算从而得到对应的分类分级结果，减少元数据分类分级的复杂度，降低了人工干预，提高了处理效率，并且还能根据分类分级结果，通过参数指标来优化分类分级模型，极大地保证了后续数据处理的安全性和保密性，以适应特定的分类分级需求。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的一种元数据分类分级方法的一应用环境示意图；

图2是本发明一实施例提供的一种元数据分类分级方法的流程示意图；

图3是本发明一实施例提供的一种元数据分类分级装置的结构示意图；

图4是本发明一实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本发明说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本发明说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本发明说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本发明说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本发明的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本发明一实施例提供的一种元数据分类分级方法，可应用在如图1的应用环境中，其中，客户端与服务端进行通信。其中，客户端包括但不限于掌上电脑、桌上型计算机、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本、个人数字助理（personal digital assistant，PDA）等计算机设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

参见图2，是本发明一实施例提供的元数据分类分级方法的流程示意图，上述元数据分类分级方法可以应用于图1中的服务端，上述服务端连接相应的客户端，如图2所示，该元数据分类分级方法可以包括以下步骤。

S201：对获取的原始元数据集进行数据预处理，得到预处理后的元数据集。

在步骤S201中，从数据平台中采集组织内部的大量数据，并获取相关的原始元数据集，包括数据表、字段、数据类型、数据来源等，其中，数据平台具体包括但不限于国家统计局、软件分析数据信息平台等，然后对获取的原始元数据集通过数据处理软件进行数据预处理，进而得到预处理后的元数据集，其中数据处理软件具体包括但不限Python、MATLAB等。

在一些实施例中，得到预处理后的元数据集，包括：

预先将网卡置于混杂模式，基于所述混杂模式的网卡接收所有原始元数据集；

对所述原始数据集进行清洗处理，得到清洗后的元数据集；

对所述清洗后的元数据集进行数据格式转换处理，得到转换后的元数据集；

从所述转换后的元数据集中提取关键的元数据信息，得到预处理后的元数据集。

在本申请实施例中，预先将发送端网卡设置为混杂模式，配合预置协议的使用，能够避免了TCP、UDP等协议的额外数据开销，增加了数据吞吐量，进而基于混杂模式的网卡接收所有原始元数据集。并且为了从原始元数据集中获取对业务过程进行评估时更有价值的信息，可以从业务价值维度，对元数据进行必要的的清洗、预处理分析以及元数据提取，从而得到预处理后的元数据集。例如，当网卡处于混杂模式时，就会监听与接收经过它所在的网络链路上传送的所有原始元数据集，以便后续原始元数据集分析与测试使用，在获取到原始元数据集后，对原始数据集进行清洗和预处理，包括去除重复数据、处理缺失值、异常值或这清洗掉与具体使用的场景完全不相符的数据或者一些口语化的无关紧要的语气词等，即“啊”、“吗”、“唉”、“啦”等，以保证数据的准确性和完整性，得到清洗后的元数据集，由于不同数据源中可能存在的字段命名和数据格式的不一致性，需要将清洗后的元数据集转换为统一格式，即“HTML”、“XML”、“JSON ”等，以适应数据仓库的管理与查询要求，当将日期字段转换为统一的日期格式时，得到转换后的元数据集后，再从转换后的元数据集中提取出关键的元数据信息，如数据特征、统计指标、数据模式等，以得到预处理后的元数据集。

本申请实施例中，为了克服现有技术中原始元数据集的准确度较低的问题，本发明实施例通过对原始元数据集进行清洗、预处理、格式转换以及元数据提取，进而得到预处理后的元数据集，使后续对预处理后的元数据集能够快速的处理，提高了元数据集分类分级的准确性。

S202：对所述预处理后的元数据集进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型。

在步骤S202中，本申请根据实际需求和分类分级目标，对预处理后的元数据集进行特征选择，选择适当的特征用于分类分级，即选择对数据分类分级有显著影响的特征作为模型的输入，进而利用适当的机器学习或深度学习算法构建分类分级模型。

在一些实施例中，对预处理后的元数据集进行特征选择，包括：

利用集成学习算法计算每个样本特征在分类过程中的权重；

根据样本特征的权重，通过皮尔森相关系数计算公式，确定不同样本特征与目标变量之间的相关关系；

利用散点图来可视化不同样本特征与目标变量之间的相关关系，并观察不同样本特征的分布情况和趋势；

根据不同样本特征的分布情况和趋势的结果，最终选定目标特征。

在本申请实施例中，集成学习算法包括Bagging算法、随机森林算法、Boosting算法、GBDT算法以及XGBoost算法等，以随机森林算法为例，选择的预处理后的元数据集的每一条元数据样本共有5个特征，依次分别为A、B、C、D、E，使用随机森林算法可以计算每个样本特征在分类过程中的权重。首先，计算随机森林中每一颗决策树的袋外数据的误差，袋外数据是指没用于训练决策树的剩余数据。之后随机改变样本特征X处的值，再次计算袋外数据的误差/>。并且五个特征的权重都大于0.15，故不存在无关特征。假设森林中有N棵树，则特征X的权重可以通过如下公式计算得到：/>；

其中，W为特征X的权重，为改变后袋外数据的误差，/>为初始袋外数据的误差，进而根据样本特征的权重，通过皮尔森相关系数Pearson计算公式，确定确定不同样本特征与目标变量之间的相关关系，其中，皮尔森相关系数Pearson是一种线性相关系数，记为r，用于反映两个变量a和b的线性相关程度，r值介于-1到1之间，皮尔森相关系数Pearson越接近-1表示两个变量之间负线性关系越强，越接近1表示两个变量之间正线性关系越强，越接近0表示两个变量之间无线性相关关系，即相关系数的取值范围为 -1到1，其中，-1 表示负相关，0表示无相关，1表示正相关。判断相关性的强度：一般认为绝对值大于 0.7 的相关性较强，绝对值在 0.3 到 0.7 之间的相关性为中等，绝对值小于 0.3 的相关性较弱。其中，假设特征为 X，目标变量为 Y，则相关关系的计算公司为：

；

其中，r为不同样本特征与目标变量之间的相关关系，表示特征的每个样本值，表示特征的均值，/>表示目标变量的每个样本值，/>表示目标变量的均值。在通过皮尔森相关系数Pearson计算不同样本特征与目标变量之间的相关关系后，再利用散点图来可视化不同样本特征与目标变量之间的相关关系，以观察不同样本特征的分布情况和趋势，然后根据不同样本特征的分布情况和趋势的结果，最终选定目标特征，其中，散点图是指在回归分析中，数据点在直角坐标系平面上的分布图，散点图表示因变量随自变量而变化的大致趋势，据此可以选择合适的函数对数据点进行拟合，常用于比较跨类别的聚合数据。

在一些实施例中，最终选定目标特征之后，包括：

对所述选定目标特征利用独热编码技术进行处理，得到处理后的目标特征。

本申请实施例中，在选定目标特征后，通过对选定目标特征进行主成分分析，通过分析后，利用独热编码技术进行提取和转换处理，进而得到处理后的目标特征，其中，主成分分析主要是计算相关系数矩阵、计算特征值与特征向量、计算主成分贡献率及累计贡献率、计算主成分负载以及确定主成分分析的权重等，在利用主成分分析的方法确定权重的同时，设置数据变量的权重阈值，当数据的权重低于权重阈值时，则认为该数据与整体数据分析关联度低，则删除此特征数据，当数据的权重高于权重阈值时，则认为该数据与整体数据分析关联度高，则保留此特征数据。独热编码技术即 One-Hot 编码，又称一位有效编码，其方法是使用N位状态寄存器来对N个状态进行编码，每个状态都有它独立的寄存器位，并且在任意时候，其中只有一位有效。对于具有有限取值的离散特征，将每个取值编码成一个二进制的向量，只有一个位置为1，其他位置为0。例如：先确定需要进行独热编码的特征，将特征的每个取值创建一个新的二进制特征，将每个样本的特征取值映射到相应的二进制特征。需要说明的是，权重阈值可以是0.5，也可以是0.8，可根据具体需要而设置，本申请实例不做任何限定。

在一些实施例中，根据选择到的特征，通过SVM算法构建分类分级模型，包括：

根据选择到的目标特征，构建一个模型训练数据集，确定模型训练数据集中的特征数据和样本标签；

利用支持向量机寻找最优超平面对模型训练数据集中的样本数据进行分类，以构建分类分级模型。

本申请实施例中，根据选择到的目标特征，选择适当的机器学习或深度学习算法构建分类分级模型。常用的算法包括决策树、支持向量机（SVM）、神经网络等。本方案采用的是SVM模型，因为SVM的目标是找到一个最优的超平面（或非线性边界），将不同类别的样本尽可能分隔开来，并最大化类别间的间隔，其中，支持向量机(SVM)是一个发展的较为成熟的监督学习技术，在机器学习的实际应用中被广泛用于解决分类问题。支持向量机算法通过在解空间中求解出一个最优超平面，使得解空间的样本能够被此超平面正确分开，也就是最大化正负样本之间的超平面间隔，并不是所有的训练样本都可以在原始样本空间中找到最优超平面，支持向量机往往将数据样本通过核函数从特征空间映射到核函数空间，支持向量机可以在核空间中寻找最优超平面，从而使得样本在映射后的特征空间里线性可分。因此，需要构建一个模型训练数据集，然后确定模型训练数据集中的特征数据和样本标签，再根据模型训练数据集中的特征数据和样本标签，进而通过支持向量机寻找最优超平面对模型训练数据集中的样本数据进行分类，以构建分类分级模型。

本申请实施例中，通过对预处理后的元数据集进行特征选择，利用集成学习算法、皮尔森相关系数、散点图以及独热编码技术进行特征选择，改善繁琐的特征选择过程，并且能够根据选择到的特征，通过SVM算法构建分类分级模型，进一步提升分类分级模型的可视化效果，更加直观的观察样本的分类情况。

S203：利用所述预处理后的元数据集对所述分类分级模型进行模型训练，并在所述分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型。

在步骤S203中，在建立分类分级模型后，利用预处理后的元数据集对分类分级模型进行模型训练，并在模型训练过程中使用python的Hyperopt库的自动调参框架对分类分级模型的模型参数进行自动搜索，在限定时间内输出搜索过程中的最佳参数，实现模型自动调参，进而得到训练好的分类分级模型。其中，模型参数包括数的层次、步长和迭代次数等。

在一些实施例中，得到训练好的分类分级模型，包括：

通过分层抽样将所述预处理后的元数据集分成训练集和验证集；

利用所述训练集对所述分类分级模型进行训练，迭代优化模型参数，得到训练后的分类分级模型；

利用所述验证集对所述训练后的分类分级模型进行评估，确定评估结果；

判断所述评估结果是否达到预设的指标阈值，若满足条件则使用Hyperopt库进行模型调参，得到训练好的分类分级模型。

在本实施例中，利用分层抽样将预处理后的元数据集分成训练集和验证集，用于分类分级模型的训练和评估，首先服务端通过训练集对分类分级模型进行训练，迭代优化模型参数，得到训练后的分类分级模型，然后服务端使用验证集对训练后的分类分级模型进行验证，并根据验证结果计算模型评估指标AUC(area under the curve)，若AUC的值达到预设的指标阈值，则确认该训练后的分类分级模型即为训练好的分类模型，若AUC的值未达到预设的指标阈值，则服务端按照预设分割比例重新随机分割训练集和验证集，并继续采用本步骤对训练后的分类分级模型进行训练和验证，直到ACU的值达到预设的指标阈值为止。其中，预设的指标阈值可以是80%，也可以是90%，可根据具体需要而设置，本申请实例不做任何限定。

其中，分类分级模型是根据目标特征经过模型训练得到的，根据分类模型可以输出目标用户的分类，例如，分类分级模型根据目标用户输入的数据，得到该目标用户所在分类，该分类可以是针对该疾病的高危人群、中危人群和低危人群等等。

值得注意的是，在本发明的其他实施例中，可针对分类分级模型验正方式可选用其他的方式，例如基于算法模型的验证等，本发明并不以此为限。

本实施例中，通过利用预处理后的元数据集对分类分级模型进行模型训练，并在分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型，保证了后续元数据分类分级的效率和准确性，还提高了分类分级模型的泛化能力和性能。

S204：将待测元数据集输入至所述训练好的分类分级模型中，由所述训练好的分类分级模型对所述待测元数据集进行分级预测和分类计算从而得到对应的分类分级结果。

在步骤S204中，在得到训练好的分类分级模型后，将待测元数据集输入至训练好的分类分级模型中，采用改进的神经网络算法对数据库中不同类型的待测元数据进行分级预测和分类计算，进而得到分类分级结果。

本实施例中，待测元数据可以为结构化数据也可以为非结构化数据，即可以利用数据库中预先存储的数据作为待测元数据，也可以获取其他来源的非结构化数据作为待测元数据。其中，分类计算是把相同属性或特征的数据归集在一起，形成不同的类别，方便人们通过类别来对数据进行的查询、识别、管理、保护和使用。不论是对数据资产进行编目、标准化，还是数据的确权、管理，或是提供数据资产服务，有效的数据分类都是首要任务。数据分类更多是从业务角度或数据管理的角度出发的，例如：行业维度、业务领域维度、数据来源维度、共享维度、数据开放维度等，根据这些维度，将具有相同属性或特征的数据按照一定的原则和方法进行归类。分级预测是根据数据的敏感程度和数据遭到篡改、破坏、泄露或非法利用后对受害者的影响程度，按照一定的原则和方法进行预测。分级预测更多是从安全合规性要求、数据保护要求的角度出发的，称其为数据敏感度分级似乎更为贴切。本质上就是数据敏感维度的数据分类。这样一来，对待测元数据集进行分级预测和分类计算得到相应的更准确和精细的数据分类分级结果，并且为后续基于所述分类分级结果优化分类分级模型奠定基础。

本实施例中，通过将待测元数据集输入至训练好的分类分级模型中，由训练好的分类分级模型对待测元数据集进行分级预测和分类计算，进而将待测元数据分为不同的类别和级别，从而得到对应的分类分级结果，自动对数据进行分类分级，减少了人工干预的需求，提高了处理效率和元数据分类分级的准确性，更好地满足组织的需求和合规要求。

S205：对所述分类分级结果进行分析，根据分析后的反馈信息，通过参数指标来优化所述分类分级模型。

在步骤S205中，在获取分类分级结果后，对分类分级结果进行解释和分析，提取有价值的信息。根据实际应用的反馈信息，不仅可以进行数据查询、数据共享、安全权限管理等操作，还可以通过参数指标来优化分类分级模型。

本申请实施例中，由于分类分级结果表征了元数据集中所包含的各种元数据所属的不同预设级别，可以基于重要性分级结果，提炼出对业务过程重要性较高的元数据，作为业务过程中的数据资产进行保存，并基于数据资产，获知业务数据的各项指标的变化趋势，整体价值指标的排名情况等，从而实现对业务过程进行数据分析，并实现数据资产的有效运营与沉淀。

本申请实施例中，通过对分类分级结果进行评估分析，计算参数指标值，其中，参数指标包括精确率、召回率以及F1分数等参数指标。即计算模型的精确率【精确率=真阳性/（真阳性+假阳性）】、召回率【精确率=真阳性/（真阳性+假阳性）】、F1分数【F1=2×精确率×召回率/（精确率+召回率）】指标，了解模型在不同分类分级下的表现，并分析计算得到的精确率、召回率、F1分数指标，如果模型的精确率较低，可以尝试调整模型，增加特征、调整模型复杂度等方式提高精确率，如果模型召回率不理想，可以尝试降低模型阈值，使模型更倾向于预测为正类，以提高召回率，根据多项指标，进行多次迭代，不断调整模型指标与阈值，进而优化数据分类分级模型，更好地捕获正类，满足业务需求，以优化分类分级模型，其中，精确率、召回率、F1F1分数参数指标的取值均大于0，其取值越大越好。因此，根据优化后的分类分级模型对实际元数据进行分类分级，进而根据需求进行灵活调整和定制，以适应不断变化的数据环境和特定的分类分级需求。

可以理解的是，本申请实施例中通过对分类分级结果进行分析，进而对业务过程产生的元数据集进行评估，提高了评估速度，进而提高了元数据评估的效率，并且，使用分类分级模型可以基于多种元数据特征的评估指标对元数据集进行综合性、体系化的评估，从而提高了业务数据评估的准确性，并且避免通过人工分析结果导致精度低稳定性差等问题，减少了大量人力和时间成本。

在一些实施例中，优化类分级模型之后，包括：

基于优化后的分类分级模型，利用强制访问控制管理方式对不同级别的数据客体进行安全授权。

本实施例中，基于优化后的分类分级模型，进而可以对元数据的分类分级进行管控，首先对不同级别的元数据客体附加不同的安全或敏感度标签，如绝密、秘密、机密、内部使用、公开等，然后依据“知必所需”的原则，对访问不同元数据客体的用户主体赋予不同的安全许可，最后通过使用强制访问控制（MAC）管理方式来比较两者，以此来决定访问控制能力，实现了对不同级别的数据客体进行安全授权。即将访问权限分配给合适的用户或用户组，只有经过授权的用户才能访问相应级别的数据。即当接收到主体发送的针对客体的访问请求，则提取主体上预先嵌入的安全标记以及提取客体上预先嵌入的安全标记，然后利用主体的安全标记和客体的安全标记，判断访问请求是否满足预设机密性控制规则和预设完整性控制规则，如果是，则对访问请求进行授权，如果否，则拒绝访问请求。本申请通过优化后的分类分级模型对元数据的分类分级进行访问控制，可有效地提升元数据访问安全性。

请参阅图3，图3是本发明实施例提供的元数据分类分级装置的结构示意图。本实施例中该终端包括的各单元用于执行图2对应的实施例中的各步骤。具体请参阅图2以及图2所对应的实施例中的相关描述。为了便于说明，仅示出了与本实施例相关的部分。参见图3，元数据分类分级装置30包括：处理模块31，构建模块32，训练模块33，分类分级模块34，优化模块35。

处理模块31，用于对获取的原始元数据集进行数据预处理，得到预处理后的元数据集；

构建模块32，用于对所述预处理后的元数据集进行特征选择，根据选择到的特征，通过SVM算法构建分类分级模型；

训练模块33，用于利用所述预处理后的元数据集对所述分类分级模型进行模型训练，并在所述分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型；

分类分级模块34，用于将待测元数据集输入至所述训练好的分类分级模型中，由所述训练好的分类分级模型对所述待测元数据集进行分级预测和分类计算从而得到对应的分类分级结果；

优化模块35，用于对所述分类分级结果进行分析，根据分析后的反馈信息，通过参数指标来优化所述分类分级模型。

可选地，上述处理模块31具体用于：

对所述原始数据集进行清洗处理，得到清洗后的元数据集；

可选地，上述构建模块32具体用于：

利用集成学习算法计算每个样本特征在分类过程中的权重；

可选地，上述构建模块32还用于：

对所述选定目标特征利用独热编码技术进行处理，得到处理后的目标特征。可选地，上述构建模块32还用于：

可选地，上述训练模块33具体用于：

可选地，上述优化模块35之后具体用于：

需要说明的是，上述单元之间的信息交互、执行过程等内容，由于与本发明方法实施例基于同一构思，其具体功能及带来的技术效果，具体可参见方法实施例部分，此处不再赘述。

图4是本发明实施例提供的一种计算机设备的结构示意图。如图4所示，该实施例的该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行计算机程序时实现上述任意各个元数据分类分级实施例中的步骤。

该计算机设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，图4仅仅是计算机设备的举例，并不构成对计算机设备的限定，计算机设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如还可以包括网络接口、显示屏和输入装置等。在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

在一实施例中，提供了一种计算机可读存储介质，当计算机可读存储介质中的指令由计算机设备中的处理器执行时，使得计算机设备能够执行如本发明公开的元数据分类分级的任一实施例的各个步骤，在此不重复赘述。所述计算机可读存储介质可以是非易失性，也可以是易失性。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

所称处理器可以是CPU，该处理器还可以是其他通用处理器、数字信号处理器（Digital Signal Processor，DSP）、专用集成电路（Application Specific IntegratedCircuit，ASIC）、现成可编程门阵列（Field-Programmable Gate Array，FPGA）或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。上述装置中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种元数据分类分级方法，其特征在于，包括：

2.如权利要求1所述的元数据分类分级方法，其特征在于，所述对获取的原始元数据集进行数据预处理，得到预处理后的元数据集，包括：

对所述所有原始数据集进行清洗处理，得到清洗后的元数据集；

3.如权利要求1所述的元数据分类分级方法，其特征在于，所述对所述预处理后的元数据集进行特征选择，包括：

利用集成学习算法计算每个样本特征在分类过程中的权重；

4.如权利要求3所述的元数据分类分级方法，其特征在于，所述最终选定目标特征之后，包括：

5.如权利要求1所述的元数据分类分级方法，其特征在于，所述根据选择到的特征，通过SVM算法构建分类分级模型，包括：

6.如权利要求1所述的元数据分类分级方法，其特征在于，所述利用所述预处理后的元数据集对所述分类分级模型进行模型训练，并在所述分类分级模型中使用Hyperopt库进行模型调参，得到训练好的分类分级模型，包括：

7.如权利要求1所述的元数据分类分级方法，其特征在于，所述优化所述分类分级模型之后，包括：

8.一种元数据分类分级装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的元数据分类分级方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的元数据分类分级方法。