CN114676253A

CN114676253A - 一种基于机器学习算法的元数据分级分类方法

Info

Publication number: CN114676253A
Application number: CN202210300625.4A
Authority: CN
Inventors: 吴明光; 郭慧茹; 刘琼; 周官皓
Original assignee: Shanghai Maritime University; Shanghai University of Electric Power
Current assignee: Shanghai Maritime University; Shanghai University of Electric Power
Priority date: 2022-03-25
Filing date: 2022-03-25
Publication date: 2022-06-28

Abstract

本发明提供一种基于机器学习算法的元数据分级分类方法，包括以下步骤：首先根据原始元数据集创建了频繁项词库；然后创新的基于频繁项词库将原始元数据集中复杂且无统一规则的类文本字段的特征转化为数值型特征，从而解决现有文本分类方法无法针对无统一命名规则的元数据字段进行准确分类的问题；其次，构建了两阶段分类模型，并对该模型进行了训练和优化，通过该模型的二分类器对待测元数据先进行敏感级别分类，最后由多分类器进一步对敏感类元数据进行细分类，输出更为准确的分级分类结果。该方法解决了目前金融领域敏感数据依靠人力进行分类分级耗费巨大的问题,实现了精准分类，有效保护了数据隐私，满足了业务需求，提高了分类工作效率。

Description

一种基于机器学习算法的元数据分级分类方法

技术领域

本发明属于元数据分级分类技术领域，具体涉及一种基于机器学习算法的元数据分级分类方法。

背景技术

数据分类分级管理不仅是加强数据交换共享、提升数据资源价值的前提条件，也是数据安全保护场景下的必要条件。同时，数据分类分级也是一种数据资产化的呈现方式，是数据治理的一种解决方案。数据分类更多是从业务角度出发，明确知道元数据属于哪个业务范畴，助力业务清晰地掌握数据动态，提高使用数据、利用数据的能力。

公司众多业务数据存储在结构化的数据库中，可根据某些表中的相关字段进行分类，常见的类别有：密码，客户号，证件号码，地址等。在分类后可以根据相关规定对这些数据进行重要性敏感性划分，为数据安全提供保障。而用来描述数据内容的类文本元数据的字段名一般是由业务人员命名，命名本身是很困难的一件事，规则不统一，存在着极大的主观性，如：命名规则中同时包含英文单词、英文单词缩写、数字、汉语拼音首字母缩写。而现有的文本数据分类方法通常不能够针对无统一命名规则的元数据字段进行准确分类。

发明内容

为解决上述问题，提供一种对类文本元数据进行精准分类且能保护数据隐私的分级分类方法，本发明采用了如下技术方案：

本发明提供了一种基于机器学习算法的元数据分级分类方法，其特征在于，包括以下步骤：步骤S1，构建原始元数据集，并采用分层抽样将原始元数据集分为训练集和测试集；步骤S2，基于训练集创建频繁项词库；步骤S3，基于频繁项词库中的频繁项将原始元数据的类文本特征以数值型特征进行表示；步骤S4，构建两阶段分类模型，采用以数值型特征表示的训练集对两阶段分类模型进行训练得到分级分类模型；步骤S5，将待测元数据输入至分级分类模型中，由分级分类模型对待测元数据进行分级预测和分类计算从而得到对应的分级分类结果，两阶段分类模型包括阶段一的二分类器和阶段二的多分类器，二分类器用于对待测元数据进行大类分级预测，多分类器对分级预测的结果进行多分类从而得到对应的子类结果。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，原始元数据集的构建过程为：基于结构化的数据库采集金融元数据，金融元数据为类文本字段，将不同标签的金融元数据分类为敏感元数据大类和非敏感元数据大类，从而构建原始元数据集，并采用分层抽样将原始元数据集分为训练集和测试集。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，属于敏感元数据大类的金融元数据的标签至少包括账户、银行账号、证件号、密码、姓名、地址、电话和邮箱。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，频繁项词库的创建过程为：根据金融元数据的组成字段所出现的频次,从训练集中提取类文本字段中的二元频繁项、三元频繁项以及单词频繁项，通过合并这三个频繁项得到与该类文本字段对应的频繁项词库。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，数值型特征的表示为：针对每一个频繁项，判断训练集的每一个类文本字段是否包含该频繁项从而创建对应于该类文本字段的(0-1)数值型特征，数值0表示该类文本字段不包含该频繁项，数值1表示该类文本字段包含该频繁项。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，二分类器采用基于预定算法进行加权平均的Bagging模型集成方法构建，并基于敏感元数据大类中的频繁项词库创建的数值型特征进行训练，多分类器基于多隐层神经网络分类器加以dropout参数和L2正则化构建得到，并采用特征压缩与交叉来发掘特征之间的交互，通过softmax激活函数从而实现多分类。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，预定算法包括LR算法、基于DeepFM的多阶交叉算法和XGBoost算法，DeepFM算法中，Deep部分使用dropout参数和L2正则化，该DeepFM算法的隐藏层激活函数为relu，分类层激活函数采用sigmoid，损失函数采用交叉熵损失函数，并采用F1_score作为早停评价指标，采用Adam优化器对该算法进行优化直至达到早停评价标准，采用SGD优化器寻找最优点。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，加权平均为根据各算法效果分配不同的权重系数，权重系数由for循环函数遍历寻优确定一组使得Bagging模型的F1_score达到最大值的权重系数。

在本发明提供的基于机器学习算法的元数据分级分类方法中，还可以具有这样的技术特征，其中，两阶段分类模型在训练时的权重系数为：

式中，n_class为类别数，N_i为各类别中的金融元数据个数。

发明作用与效果

根据本发明的基于机器学习算法的元数据分级分类方法，首先根据原始元数据集创建了频繁项词库，而无需预先设置频繁项词库，减少了工作量。然后，创新的基于频繁项词库将原始元数据集中复杂且无统一规则的类文本字段的特征转化为数值型特征，从而解决现有文本分类方法无法针对无统一命名规则的元数据字段进行准确分类的问题。其次，构建了具有二分类器和多分类器的两阶段分类模型，并利用分类极不平衡的训练数据对该模型进行训练和优化，通过二分类器对待测元数据先进行敏感级别分类，最后由多分类器进一步对敏感类元数据进行细分类，输出更为准确的分级分类结果。

通过本发明的基于机器学习算法的元数据分级分类方法，针对复杂且具有隐私安全的类文本元数据，能够利用高速和高质量的分级分类模型进行准确合理的分级分类，实现精准分类，有效保护数据隐私，满足业务需求，提高分类工作效率。

附图说明

图1是本发明实施例中基于机器学习算法的元数据分级分类方法的流程示意图；

图2是本发明实施例中阶段一的二分类器的结构示意图；

图3是本发明实施例中阶段二的多分类器的结构示意图；

图4是本发明实施例中阶段一的Bagging集成模型与其他单个分类算法的二分类效果对比示意图；

图5是本发明实施例中两阶段分类中阶段二的多分类器的分类效果示意图；以及

图6是本发明实施例中不分阶段的分类模型和两阶段分类模型的分类效果对比图。

具体实施方式

本发明提出一种基于机器学习算法的元数据分级分类方法，针对类文本特征的元数据创建敏感频繁项词库，并在将其以数值型特征表示的基础上，融合两阶段机器学习算法对元数据进行精准分级分类。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，以下结合实施例及附图对本发明的一种基于机器学习算法的元数据分级分类方法作具体阐述。

<实施例>

图1是本发明实施例中基于机器学习算法的元数据分级分类方法的流程示意图。

如图1所示，基于机器学习算法的元数据分级分类方法包括以下步骤：

步骤S1，构建原始元数据集，并采用分层抽样将原始元数据集分为训练集和测试集。

本实施例中，从结构化的数据库中采集金融元数据，将数据库中的表名字段和列名字段分别作为2列文本特征，即Table_code和Column_code，样例如下表1所示。

Table_code	Column_code	Label
			TY_CREDIT_STOCK	HOLDER_ACC_NO	账户
OPT_MONEY_OUT_APPLY	CUST_NO	客户号
			T_ZBMX_SMCPNRJBYLBDJE	KHH	客户号
EXOUSER_TB	PASSWORD	密码
			T_ZBMX_SMCPNRJBYLBDJE	RYXM	姓名

表1

将各数据对应的标签进行数字编码组成280458条原始数据样本，并对这些原始数据样本根据标签性质分类为敏感元数据大类和非敏感元数据大类存储为原始元数据集。

其中，标签为证件号、账户、银行账号、客户号、密码、姓名、地址、电话、邮箱等敏感数据样本属于敏感元数据大类，本实施例中共有22437条样本，其余258021条样本属于非敏感元数据大类。各标签类样本数量详细如下表2所示。

表2

本实施例中，采用分层抽样将总样本数的75％作为训练集，约包含210343条样本，将总样本数的15％作为测试集，约包含42068条样本。

步骤S2，基于训练集创建频繁项词库。

本实施例中，根据组成字段出现的频次，分别从训练集的Table_code和Column_code的原始类文本字段中提取出频次大于20次的二元频繁项、频次大于20次的三元频繁项、频次大于20次或者在某一种类敏感数据大类中频次大于5次的单词频繁项，并分别合并成Table_code频繁项词库与Column_code频繁项词库。

其中，二元频繁项为两个字母表示的语块，如：ID、IN、DU等；三元频繁项为三个字母表示的语块，如：ACC、KHH、DDR等；单词频繁项为下划线分割得到的单词，如：HOLDER、PASSWORD、CUST等。

步骤S3，基于频繁项词库中的三个频繁项将原始元数据的类文本特征以数值型特征进行表示。

以Column_code字段为例，在基于Column_code频繁项词库的基础上，针对频繁项词库中的每一个频繁项均创建一列数值型特征，根据Column_code字段是否包含该频繁项而创建该样本对应的(0-1)数值型特征，即将原始元数据集中的类文本型字段特征转化为(0-1)数值型特征。

其中，数值0表示Column_code字段中未包含该频繁项，数值1表示Column_code字段中包含该频繁项。Table_code字段创建数值特征同理，在此不再做赘述，具体创建实例如下表3所示。

Table_code

Column-code

col_is_ID

col_is_TEL

col_is_ACC

…

tab_is_CREDIT

CREDIT_STOCK

ACCOUNT_ID

1

0

1

…

1

表3

步骤S4，基于极不平衡的原始元数据样本，构建两阶段分类模型，该模型包括阶段一的二分类器和阶段二的多分类器，并采用以数值型特征表示的训练集对两阶段分类模型进行训练从而得到分级分类模型。

图2是本发明实施例中阶段一的二分类器的结构示意图以及图3是本发明实施例中阶段二的多分类器的结构示意图。

本实施例中，阶段一的二分类器采用基于LR(LogisticRegression)算法、基于DeepFM的多阶交叉算法和XGBoost算法进行加权平均的Bagging模型集成方法构建，并使用敏感元数据大类中的频繁项词库创建的数值型特征进行训练。如图2所示，该二分类器用于计算待测元数据的分类概率，基于概率值进行大类分级预测。

阶段二的多分类器基于多隐层神经网络分类器加以概率取0.3的dropout、系数取0.001的L2正则化以防止过拟合，并采用特征压缩与交叉来发掘特征之间的交互，通过softmax激活函数从而实现多分类。如图3所示，该多分类器用于对由二分类器预测为敏感数据大类的结果进行多分类从而得到对应的子类结果。

其中，DeepFM算法的Deep部分使用dropout，概率取0.3，以及l2正则化，系数取0.001，隐藏层激活函数使用relu、分类层激活函数使用sigmoid，损失函数使用交叉熵损失函数，并采用F1_score作为早停评价指标，采用学习率为0.001的Adam优化器进行优化，直至达到早停评价指标之后再使用学习率为0.001的SGD优化器寻找最优点。

XGBoost算法的超参数如下表4所示：

表4

图4是本发明实施例中阶段一的Bagging集成模型与其他单个分类算法的二分类效果对比示意图。

Bagging集成模型的加权平均为根据各算法的效果分配不同的权重。因此本实施例中对LR算法(图4中logistic回归)、DeepFM算法、XGBoost算法以及Bagging集成模型进行了分类效果的对比测试。如图4所示，除了Bagging集成模型，其中XGBoost算法的效果最好，分配更大的权重，LR算法效果最差，分配更小的权重，具体权重系数由for循环函数遍历寻优确定一组权重系数使得Bagging模型的F1_score最大。

本实施例中，两阶段分类模型的训练为：将训练集中给定的元数据输入至两阶段分类模型中预测该元数据的类标号。具体地：

阶段一的二分类器中，将最多数量的非敏感元数据作为一类，将剩余的敏感元数据分为一类，两类数据比为23：2。由于数据不均衡，所以两阶段的模型都在数据加上权重的基础上进行训练，根据计算的概率结果进行分级：若二分类器计算出的概率结果大于等于0.5，则分类为敏感元数据大类；若计算出的概率结果小于0.5，则分类为非敏感元数据大类。

阶段二的多分类器对第一阶段中预测为敏感数据的样本细分为银行账号、证件号、账号、客户号、密码、姓名、地址、电话、邮箱等九类。

本实施例中，两阶段分类模型在训练时，各类权重系数为：

式中，n_class为类别数，N_i为各类别中的训练集的金融元数据个数。

为验证训练得到的分级分类模型的预测效果，使用包含42068条样本的测试集进行验证，该分级分类模型对测试集敏感数据的分类效果如下表5所示。由表5可知，9类敏感类数据均有较高的F1-score，误判率较小。

	precision	recall	fl-score	support
					地址	0.98	0.98	0.98	457
姓名	0.98	0.97	0.98	569
					客户号	0.96	0.95	0.95	705
密码	1	1	1	62
					电话	0.97	0.95	0.96	376
证件号码	0.91	0.94	0.92	102
					账户	0.87	0.9	0.88	306
邮箱	1	0.98	0.99	128
					银行账号	0.77	0.88	0.82	52

表5

步骤S5，将待测元数据输入至训练得到的分级分类模型中，由该模型进行分级预测和分类计算从而得到该待测元数据的分级分类结果。

图5是本发明实施例中两阶段分类中阶段二的多分类器的分类效果示意图，以及图6是本发明实施例中不分阶段的分类模型和两阶段分类模型的分类效果对比图。

为进一步验证该分级分类模型的有效性，采用阶段二的多分类器对9类敏感数据进行分类，分类效果如图5所示。作为对比，同时采用不分阶段的分类模型直接对10类样本进行多分类，分类效果如图6和下表6所示。

表6

综上可知，相较于不分阶段的分类模型的分类准确率，本实施例采用分级分类模型对9类敏感数据进行两阶段分类的准确率得到了有效提升。其中地址类提升了4％，姓名类提升了26％，客户号类提升了15％，密码类提升了14％，电话类提升了24％，证件号码类提升了38％，账户类提升了23％，邮箱类提升了5％，银行账号类提升了33％。

实施例作用与效果

根据本实施例提供的一种基于机器学习算法的元数据分级分类方法，该方法针对复杂且无统一规则的类文本元数据，能够在创建频繁项词库的基础上将该类文本元数据转换为数值型特征的数据，然后融合两阶段的机器学习算法对待测元数据进行敏感级分级和敏感类细分类，从而实现了元数据的精准分类，解决了目前金融领域敏感数据依靠人力进行分类分级导致的耗费巨大的问题。同时，还有效保护了数据隐私，满足了业务需求，提高了分类工作效率。

实施例中，由于根据原始元数据集创建了频繁项词库，无需预先设置频繁项词库，因此极大减少了分类分级的工作量。同时，基于该频繁项词库还将原始元数据集中复杂且无统一规则的类文本字段的特征转化为了数值型特征，从而解决了现有文本分类方法无法针对无统一命名规则的元数据字段进行准确分类的问题。

实施例中，基于机器学习算法构建了两阶段分类模型，并利用数值型特征的文本数据对模型进行了高效地训练和测试，通过二分类器对待测元数据先进行敏感级别分类，然后由多分类器进一步对敏感类元数据进行细分类，从而提高分级分类的准确率。

上述实施例仅用于举例说明本发明的具体实施方式，而本发明不限于上述实施例的描述范围。

Claims

1.一种基于机器学习算法的元数据分级分类方法，其特征在于，包括以下步骤：

步骤S1，构建原始元数据集，并采用分层抽样将所述原始元数据集分为训练集和测试集；

步骤S2，基于所述训练集创建频繁项词库；

步骤S3，基于所述频繁项词库中的频繁项将原始元数据的类文本特征以数值型特征进行表示；

步骤S4，构建两阶段分类模型，采用以数值型特征表示的训练集对所述两阶段分类模型进行训练得到分级分类模型；

步骤S5，将待测元数据输入至所述分级分类模型中，由所述分级分类模型对所述待测元数据进行分级预测和分类计算从而得到对应的分级分类结果，

所述两阶段分类模型包括阶段一的二分类器和阶段二的多分类器，

所述二分类器用于对所述待测元数据进行大类分级预测，

所述多分类器对所述分级预测的结果进行多分类从而得到对应的子类结果。

2.根据权利要求1所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述原始元数据集的构建过程为：

基于结构化的数据库采集金融元数据，所述金融元数据为类文本字段，

将不同标签的所述金融元数据分类为敏感元数据大类和非敏感元数据大类，从而构建所述原始元数据集，并采用分层抽样将所述原始元数据集分为训练集和测试集。

3.根据权利要求2所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，属于所述敏感元数据大类的金融元数据的标签至少包括账户、银行账号、证件号、密码、姓名、地址、电话和邮箱。

4.根据权利要求2所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述频繁项词库的创建过程为：

根据所述金融元数据的组成字段所出现的频次,从所述训练集中提取所述类文本字段中的二元频繁项、三元频繁项以及单词频繁项，通过合并这三个频繁项得到与该类文本字段对应的频繁项词库。

5.根据权利要求4所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述数值型特征的表示为：

针对每一个频繁项，判断所述训练集的每一个类文本字段是否包含该频繁项从而创建对应于该类文本字段的(0-1)数值型特征，

数值0表示该类文本字段不包含该频繁项，数值1表示该类文本字段包含该频繁项。

6.根据权利要求5所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述二分类器采用基于预定算法进行加权平均的Bagging模型集成方法构建，并基于所述敏感元数据大类中的频繁项词库创建的数值型特征进行训练，

所述多分类器基于多隐层神经网络分类器加以dropout参数和L2正则化构建得到，并采用特征压缩与交叉来发掘特征之间的交互，通过softmax激活函数从而实现所述多分类。

7.根据权利要求6所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述预定算法包括LR算法、基于DeepFM的多阶交叉算法和XGBoost算法，

所述DeepFM算法的Deep部分使用dropout参数和L2正则化，该DeepFM算法的隐藏层激活函数为relu，分类层激活函数采用sigmoid，损失函数采用交叉熵损失函数，并采用F1_score作为早停评价指标，采用Adam优化器对该算法进行优化直至达到所述早停评价标准，采用SGD优化器寻找最优点。

8.根据权利要求7所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述加权平均为根据各算法效果分配不同的权重系数，

所述权重系数由for循环函数遍历寻优确定一组使得所述Bagging模型的F1_score达到最大值的权重系数。

9.根据权利要求8所述的基于机器学习算法的元数据分级分类方法，其特征在于：

其中，所述两阶段分类模型在训练时的所述权重系数为：

式中，n_class为类别数，N_i为各类别中的金融元数据个数。