CN112966100B

CN112966100B - 一种数据分类分级模型的训练方法、装置及电子设备

Info

Publication number: CN112966100B
Application number: CN202011631556.2A
Authority: CN
Inventors: 孙亚东; 王志海; 王闻馨; 喻波; 魏力
Original assignee: Beijing Wondersoft Technology Co Ltd
Current assignee: Beijing Wondersoft Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-05-31
Anticipated expiration: 2040-12-30
Also published as: CN112966100A

Abstract

本发明提供了一种数据分类分级模型的训练方法、装置、及电子设备。所述方法包括：从预设语料库中挑选m份语料作为训练样本；根据预设的数据分类分级标准对m份语料进行预处理，将每份语料转换为对应的数据模型，并确定m份语料各自对应的数据类别和数据级别；对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵；将m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别；确定数据分类分级模型对应的混淆矩阵；重复执行上述步骤，直至所述混淆矩阵满足预设条件，得到训练完成的分类分级模型。本发明能够根据预设的数据分类分级标准进行模型训练，提高了数据分类分级模型的准确度。

Description

一种数据分类分级模型的训练方法、装置及电子设备

技术领域

本发明涉及数据安全领域，具体地涉及一种数据分类分级模型的训练方法、装置及电子设备。

背景技术

随着大数据技术的发展，企业将各种数据资源形成统一的数据资源池，并授权给不同用户使用，这在满足各个用户的数据使用需求的同时，也增加了敏感数据泄漏的风险。传统基于堵漏方式的边界数据防护已经无法满足企业数据安全管控需求。

为了解决这一问题，现有技术通常采用数据防泄漏系统进行数据安全管控，以防止企业敏感数据泄漏。数据防泄漏系统采用定义敏感数据关键字的方式，识别待发送数据中是否包括已定义的敏感数据，如定义身份证号、人员姓名为敏感数据，当检测到待发送数据中存在敏感数据时，对敏感数据进行脱敏处理之后再进行数据发送。但是如果待发送数据中包括财务数据、工艺标准、质量控制等较为复杂的信息，那么依靠关键字定义的数据防泄漏系统即无法准确识别出哪些是敏感数据，哪些是非敏感数据，从而导致数据泄漏。

发明内容

本发明提供一种数据分类分级模型的训练方法、装置、电子设备及存储介质，以解决现有技术中数据防泄漏系统的识别数据的准确度差的问题。

根据本发明的第一方面，提供了一种数据分类分级模型的训练方法，所述方法包括：

从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征；

根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别；

根据每份语料中包含的数据实体和所述数据实体包含的属性特征，对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵；

将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别；

根据所述m份语料各自对应的数据类别和数据级别，以及所述m份语料各自对应的预测类别和预测级别，确定所述数据分类分级模型对应的混淆矩阵；

重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的数据分类分级模型。

根据本发明的第二方面，提供了一种数据分类分级模型的训练装置，所述装置包括：

训练样本挑选模块，用于从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征；

语料预处理模块，用于根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别；

数据编码模块，用于根据每份语料中包含的数据实体和所述数据实体包含的属性特征，对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵；

数据输入模块，用于将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别；

混淆矩阵确定模块，用于根据所述m份语料各自对应的数据类别和数据级别，以及所述m份语料各自对应的预测类别和预测级别，确定所述数据分类分级模型对应的混淆矩阵；

训练控制模块，用于重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的数据分类分级模型。

根据本发明的第三方面，提供了一种电子设备，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述的方法。

根据本发明的第四方面，提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的方法。

本发明提供了一种数据分类分级模型的训练方法、装置、电子设备及存储介质。所述方法包括：从预设语料库中挑选m份语料作为训练样本；根据预设的数据分类分级标准对m份语料进行预处理，将每份语料转换为对应的数据模型，并确定m份语料各自对应的数据类别和数据级别；对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵；将m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别；确定数据分类分级模型对应的混淆矩阵；重复执行上述步骤，直至所述混淆矩阵满足预设条件，得到训练完成的分类分级模型。本发明能够根据预设的数据分类分级标准进行模型训练，提高了数据分类分级模型的准确度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种数据分类分级模型的训练方法的具体步骤流程图；

图2是本发明实施例二提供的一种数据分类分级模型的训练装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一

参照图1，其示出了本发明实施例一提供的一种数据分类分级模型的训练方法的具体步骤流程图。

步骤101，从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征。

在训练模型之前，首先确定训练样本，在本发明实施例中，可以从预先设置的预设语料库中挑选m份语料作为训练样本。

可选的，所述语料包括文档、表格、图片、音频、视频中的至少一种类型的语料。

在本发明实施例中，每一份语料都包含至少一个数据实体，每一个数据数据实体都有对应的属性特征。例如，对于语料员工工资，包括数据实体工资单，数据实体工资单对应有属性特征：姓名、银行账号、应发工资等属性特征。

步骤102，根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别。

预设语料库中的语料都是文档、表格、图片、视频、音频等非结构化数据，且包含大量与数据分类分级无关的冗余数据，在通过数据分类分级模型进行数据分类分级处理时，会造成信息识别困难，因此，在本发明实施例中，确定训练样本之后，先对挑选的m份语料进行预处理，根据预设的数据分类分级标准将每份语料转换为数据模型，其中，该数据模型为结构化语言，包含语料对应的数据实体和数据实体的属性特征，便于识别语料中的有效信息。

除了将每份语料转换为对应的数据模型之外，本发明实施例还需要基于预设的数据分类分级标准确定每份语料对应的数据类别和数据级别，也就是预先确定每份语料的实际数据类别和实际数据级别。在数据分类分级模型的训练过程中，再将基于数据分类分级模型得到的每份语料的预测类别和预测级别与预先确定的每份语料的实际数据类别和实际数据级别进行比对，根据比对结果就可以评估数据分类分级模型的准确度。

步骤103，根据每份语料中包含的数据实体和所述数据实体包含的属性特征，对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵。

本发明实施例的数据分类分级模型是基于卷积神经网络构建的，需要计算机等电子设备执行数据分类分级，而用于进行数据分类分级的电子设备识别的是编码语言，例如二进制语言，因此，在本发明实施例中，得到包含语料的数据实体和数据实体对应的属性特征的数据模型之后，需要对数据模型进行编码处理，将数据模型转换为编码语言。

例如，对于语料“员工信息”，包含数据实体“员工基本信息”，对应有属性姓名、联系电话，联系地址、出生日期、性别等属性特征，该数据实体对应的数据模型的数据信息列表如表1所示：

表1

可以将属性特征信息为“无”的属性特征用“0”编码，将存在属性特征信息的属性特征用“1”编码，假设从左到右，对应的属性特征依次为Key、姓名、联系电话、联系地址、出生日期、性别，则可以得到上述数据模型对应的特征向量(1，1，1，1，0，0)。一份语料可能包含多个数据实体，将每个数据实体作为一个维度，将各个数据实体对应的特征向量进行组合，将可以得到该语料对应的特征矩阵。

如果语料的各个数据实体的特征向量的长度不一致，则按照得到的特征向量的最大长度，对各个数据实体的特征向量进行对齐处理，例如，对各个特征向量进行前补零或后补零。

步骤104，将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别。

对训练样本进行编码处理之后，将m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，就可以得到m份语料各自对应的预测类别和预测级别。

在本发明实施例中，可以基于Softmax逻辑回归模型构建数据分类分级模型，当然，也可以基于其他神经网络模型构建数据分类分级模型，对此，本发明实施例不做具体限定。

步骤105，根据所述m份语料各自对应的数据类别和数据级别，以及所述m份语料各自对应的预测类别和预测级别，确定所述数据分类分级模型对应的混淆矩阵。

在数据分类分级模型的训练过程中，需要对模型的处理结果进行评估，判断模型的准确度，从而确定训练的模型是否满足预设要求。在本发明实施例中，根据m份语料对应的数据类别和数据级别，以及基于数据分类分级模型得到的m份语料的预测类别和预测级别，得到数据分类分级模型对应的混淆矩阵。具体的，可以根据m份语料的数据类别和预测类别得到类别混淆矩阵，根据m份语料的数据级别和预测级别得到级别混淆矩阵，分别对得到的类别混淆矩阵和级别混淆矩阵进行分析。

以混淆矩阵为例，例如，m份语料对应的数据类别包含类1、类2、类3，假设取150份语料作为训练样本，得到的类别混淆矩阵对应的数据列表如表 2所示：

表2

在混淆矩阵中，每一列代表预测类别，每一列之和表示训练样本中被预测为该类别的样本数量；每一行代表了训练样本的真实类别，在本发明实施例中，也就是根据数据分类分级标准确定的语料的数据类别，每一行之后表示训练样本中属于该类别的真实样本数量。例如，在上述列举的类别混淆矩阵中，属于类1的预测样本数量为43+5+2＝50，属于类别1的真实样本数量为43+2＝45。

对得到的混淆矩阵每一列和每一行的数据进行分析，就可以得到训练的数据分类分级模型的准确度。

步骤106，重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的数据分类分级模型。

在数据分类分级模型的训练过程中，重复执行上述步骤，若数据分类分级模型对应的混淆矩阵满足预设条件，例如，基于混淆矩阵计算得到的数据分类分级模型的准确度大于预设阈值，则确定数据分类分级模型满足预设要求，结束步骤101至步骤106的训练过程，得到训练完成的数据分类分级模型。

可选的，步骤101所述从预设语料库中挑选m份语料作为训练样本之前，所述方法还包括：

步骤S11，根据预设的数据分类分级标准确定待处理数据对应的数据实体清单，以及所述数据实体清单对应的实体关系清单；所述数据实体清单包含所述待处理数据包含的各个数据实体，所述实体关系清单包含所述各个数据实体之间的实体关系。

步骤S12，根据所述数据实体清单和所述实体关系清单对所述待处理数据进行筛选，得到用于训练数据分类分级模型的语料。

步骤S13，对所述语料中各个数据实体的实体类别以及所述数据实体之间的实体关系的关系类别进行标注。

步骤S14，根据标注后的语料生成所述待处理数据对应的预设语料库，所述预设语料库包括所述数据实体清单、所述实体关系清单，每一个数据实体对应至少一种实体类别，每一种实体关系对应一个关系类别。

在本发明实施例中，待处理数据，也就是分类分级对象，是已经存在或准备投入使用的具体文档、数据表、视频、音频等，以企业数据资产为例，待处理数据是企业具体业务对应的数据，例如，企业的IT(Internet Technology，互联网技术)域数据和OT(Operation Technology，操作技术) 域数据。其中，工业IT域数据主要是ERP(EnterpriseResource Planning，企业资源计划管理系统)、PDM(Product Data Management，产品数据管理系统)、HCM(Human Capital Management，人力资源管理系统)、MES (ManufacturingExecution System，制造执行系统)、EAM(Enterprise Asset Management，企业资产管理系统)、WMS(Warehouse Management System，仓库管理系统)、SCM(Supply ChainManagement，供应链管理系统)等产生的经营管理、生产制造、仓储物流、工艺质量等数据，以及通过企业外网获取的行业监管数据等。OT域的数据主要来自于工业现场的生产制造装备，如堆垛机、AGV、感应立柱、扭力扳手、深度尺、UWB室内定位系统、智能工作台、温湿度传感器等产生的数据，主要由时序数据和非时序数据两大类组成，时序数据包括描述设备运行过程的温度、压力、振动、流量等运行监测数据以及描述产品所处阶段的声、光、电数据；非时序数据，主要来源于工业系统生成的日志数据以及工业生产过程积累的经验知识等。

参照线分类法及各行业在当前数据分类方面积累的经验，将要分类的对象按其所选择的若干个属性或特征，以最稳定本质属性逐次地分成相应的若干层类目，并排列成一个逐级展开的分类体系。将得到的分类体系作为预设的数据分类标准，根据预设的数据分类标准确定待处理数据包含的所有的数据实体，得到数据实体清单，并确定各个数据实体之间的对应关系，形成实体关系清单。

例如，以轨道交通装置制造业为例，首先按照轨道交通装备制造业的业务线条划分业务域，然后再确定各个业务域对应的数据实体，以及各个数据实体包含的属性特征、各个数据实体之间的实体关系。业务域分为两级，一级业务域包括：生产制造、工艺质量、仓储配送、设备互联、列车运维监控、人力资源、物资管理、供应商管理、财务管理等。二级业务域是对一级业务域的细化。一级业务域生产制造下的二级业务域包括：制造执行数据、生产异常数据。工艺质量的二级业务域包括：工艺设计、质量管理。以此构成业务域树，业务域树的根节点是《国民经济行业分类与代码(GB/T4754-2017)》中的小类。在二级业务域下定义数据实体，一项数据实体由子数据实体与子数据实体的属性特征构成。例如，对于数据实体设备保养，包括设备基本信息、设备保养标准、设备保养记录等子数据实体，其中，子数据实体设备基础信息由设备编号、设备名称、生产厂商等属性特征构成。

本发明实施例提供的数据分类分级模型的训练方法中，是以数据实体为基础对象进行数据分类分级处理的，而待处理数据中，除了包含数据实体对应的信息数据之外，还包含大量的对数据分类分级没有贡献的冗余数据，因此，为了减少数据处理量，提高模型训练效率，本发明实施例根据确定的数据实体清单和实体关系清单对待处理数据进行筛选，将与数据实体无关的数据过滤掉，得到用于训练数据分类分级模型的语料。

在通过计算机等电子设备对数据分类分级模型进行训练过程中，为了提高电子设备识别数据的准确度，从而提高训练效率，本发明实施例对语料中数据实体的实体类别和实体关系的关系类别进行了标注。具体的，可以基于 BERT系统进行语料标注。其中，所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个；所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个。

根据标注后的语料生成待处理数据对应的预设语料库，将该预设语料库作为训练数据分类分级模型的数据基础。

可选的，步骤102所述根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，包括：

步骤S21，根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系，以及所述数据实体对应的实体类别和所述实体关系对应的关系类别。

步骤S22，根据每份语料包含的数据实体和实体类别，提取每份语料对应的数据实体和所述数据实体对应的属性特征，得到每份语料对应的结构化数据。

步骤S23，根据所述数据实体之间的实体关系和所述实体关系对应的关系类别，对所述每份语料对应的结构化数据进行排列组合，得到每份语料对应的数据模型。

在本发明实施例中，当确定了预设语料库后，在对训练样本中的m份语料进行预处理时，就可以根据预设语料库中的数据实体清单和实体关系清单，确定m份语料包含的数据实体和实体关系，并根据标注的实体类别和关系类别，确定m份语料包含的各个数据实体对应的实体类别和实体关系类别。

本发明实施例中的语料是文档、表格、图片、视频、音频等非结构化语言，在数据分类分级模型的训练过程中，需要将非结构化的语料转换为结构化语言，便于用于数据分类分级模型训练的电子设备进行信息识别。具体的，基于每份语料包含的数据实体和实体关系，提取每份语料对应的数据实体和各个数据实体对应的属性特征。可以使用复杂环境下的N元中文语言模型提取每份语料对应的数据实体和各个数据实体对应的属性特征，当然，也可以采用其他的特征提取方法，对此，本发明实施例不做具体限定。

得到每份语料对应的结构化数据后，根据数据实体之间的实体关系和实体关系对应的关系类别，对每份语料对应的结构化数据进行排列组合，就可以得到每份语料对应的数据模型。例如，语料“员工信息”中包含数据实体 “员工基本信息”，该数据实体对应的属性特征有姓名、出生日期、性别、联系电话、联系地址等，每个属性特征实际上也是一个数据实体，也就是说，数据实体包含的属性特征，是与该数据实体存在一般隶属关系的数据实体。为了区别，记数据实体“员工基本信息”为一级数据实体，记数据实体“员工基本信息”包含的属性特征姓名、出生日期、性别、联系电话、联系地址等为二级数据实体。其中，二级数据实体姓名、出生日期、性别、联系电话、联系地址之间一一对应。按照上述一级数据实体和二级数据实体之间的实体关系和关系类别，对上述数据实体对应的信息进行排列组合，得到语料 “员工信息”对应的数据模型。

可选的，步骤102所述根据预设的数据分类分级标准对所述m份语料进行预处理，确定m份语料各自对应的数据类别和数据级别，包括：

步骤S31，根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别。

步骤S32，根据所述各个数据实体对应的数据类别和数据级别，确定每份语料对应的数据类别和数据级别。

在本发明实施例中，一份语料可能包含一个数据实体，也可能包含多个数据实体，在确定语料的数据类别和数据级别之前，可以先确定各个数据实体的数据类别和数据级别，再根据各个数据实体的数据类别和数据级别确定语料的数据类别和数据级别。具体的，将语料中各个数据实体对应的数据类别的全集作为该语料的数据类别，将语料中各个数据实体对应的数据级别中的最高级别作为该语料的数据级别。

可选的，步骤S31所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别，包括：

A11、确定企业的业务架构和业务域。

A12、根据预设分类粒度、所述业务架构和所述业务域，以及各个业务域对应的数据特征，确定所述待处理数据对应的数据类别和各个数据类别对应的数据实体。

A13、将所述每份语料包含的各个数据实体与所述各个数据类别对应的数据实体进行匹配，确定所述每份语料包含的各个数据实体对应的数据类别。

对于不同的企业数据，由于企业业务不同，对应的数据类别也不相同。因此，在本发明实施例中，在确定语料对应的数据分类之前，首先分析企业的业务架构和业务域，根据业务架构和业务域，以及预设分类粒度确定该企业的待处理数据，也就是企业数据资产对应的数据类别。其中，预设分类粒度用于确定数据类别的层次，粒度越小，最终得到的数据类别的层次越多，数据分类越细致。

在实际应用中，可以根据业务架构与业务域形成一级数据类别，如生产类数据、设备类数据、物料类数据、工艺质量类数据、成品类数据、在制品类数据等，然后再根据业务域与一级数据类别的数据特征，进一步拆分一级数据类别，得到二级数据类别，如一级数据类别生产类数据的二级数据类别包括生产计划类数据、产量类数据、下行指令类数据等。确定二级数据类别之后，再对二级数据类别进行进一步细化，得到每个二级数据类别对应的数据实体。根据各级数据类别之间的对应关系，以及数据类别和数据实体之间的对应关系。如表3所示，示出了本发明实施例中的一种数据分类表：

表3

确定待处理数据对应的数据类别和各个数据类别对应的数据实体之后，根据训练样本中每份语料包含的各个数据实体的数据特征，将数据实体与二级数据类别对应的数据实体进行比对，从而确定每份语料包含的数据实体对应的数据类别。

可选的，步骤S31所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据级别，包括：

A21、根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征，所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项。

A22、根据每个数据实体对应的级别特征确定所述数据实体对应的数据级别。

在确定数据实体的数据级别时，需要依据以下原则：

1)依从性原则：数据级别的划分应遵从相关国家法律、法规与行业及部门监管要求。

2)客观性原则：数据级别要具备客观性，依据数据对象定义，基于数据的安全属性和规则判定数据分级，并可复合检查。

3)可行性原则：数据级别的粒度需要把握，不能将数据集中到个别级别中，导致数据不能针对性的施加防护，也不能级别分的过细，导致管理成本加剧。

4)从高性原则：数据级别依数据主体要求和对客体的影响进行定义，当出现多个指标匹配时，从高定级。

5)时效性原则：数据级别具备一定的有效期。数据级别可能会基于时间周期的变化级别会降低，基于安全保密要求依据历史数据时间阶段动态调级。

6)独立性原则：对数据泄露或损坏基于数据完全被泄露或损坏考虑，与安全防护手段或措施无关。

其中，数据的安全属性包括完整性、保密性、可用性中的至少一项。数据安全属性是信息安全风险评估中的重要参考属性。在本发明实施例中，主要针对数据对象的主体要求和以数据安全属性遭到破坏后可能造成的客体影响作为数据级别的重要判断依据。其中，主体要求包括管理要求和公开范围，客体影响包括影响业务和影响对象。

管理要求包括：1)国家法律标准要求；2)行业监管法规要求；3)企业内部管理要求；4)其它要求。

公开范围包括：1)特定人员公开；2)指定范围公开；3)企业内部公开；外部公开。

影响业务包括：1)企业生存业务；2)核心业务；3)经营管理及衍生业务；4)普通业务。

影响对象包括：1)国家；2)政府机构和企业客户3)本机构；4)个人。

在本发明实施例中，确定数据实体对应的数据级别时，先根据数据实体对应的数据类别确定数据实体的级别特征，并确定数据实体在管理要求、公开范围、影响业务和影响对象这四个维度上的级别，根据数据实体在这四个维度上的级别，依据从高性原则，确定该数据实体对应的数据级别。

假设数据实体在管理要求、公开范围、影响业务和影响对象这四个维度上的级别如表4所示：

表4

依据数据类别和数据实体在管理要求、公开范围、影响业务和影响对象这四个维度上的级别，就可以确定数据实体对应的数据级别。，如表5所示，示出了本发明实施例的一种数据实体的级别列表：

表5

可选的，步骤104所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别之前，所述方法还包括：

步骤S41，对预先建立的数据分类分级模型中各个参数的权重值和偏置值进行正则化处理，得到正则化的数据分类分级模型。

步骤S42，确定所述正则化的数据分类分级模型对应的损失函数。

步骤S43，对所述损失函数进行梯度下降处理，得到稀疏化的数据分类分级模型。

步骤104所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别，包括：

步骤S44，将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别。

在本发明实施例中，为了进一步降低运算复杂度，提高模型训练效率，可以进一步对构建的数据分类分级模型中的各个参数的权重值和偏置值进行正则化处理，包括对数据分类分级模型的卷积次数的权重、每个数据实体的权重、每个实体关系的权重、每个数据类别的权重、每个数据级别的权重进行正则化处理。

进一步的，还可以确定正则化处理之后的数据分类分级模型对应的损失函数，并对损失函数进行梯度下降处理，降低损失函数的复杂度。在本发明实施例中，可以将正则损失函数和交叉熵损失函数作为数据分类分级模型的损失函数。

将训练样本中m份语料对应的特征矩阵输入到经过步骤S41至步骤S43 处理后得到的稀疏化的数据分类分级模型中，就可以得到每份语料对应的预测类别和预测级别。

可选的，所述方法还包括：

步骤S51，基于训练完成的数据分类分级模型确定目标数据的数据类别和数据级别。

步骤S52，根据所述数据类别和数据级别确定所述目标数据的应用范围、授权对象、以及所述授权对象的操作权限。

步骤S53，根据所述目标数据的应用范围、授权对象，以及所述授权对象的操作权限确定所述目标数据对应的管控策略。

在本发明实施例中，完成对数据分类分级模型的训练之后，可以基于训练完成的数据分类分级模型对目标数据进行分类分级处理，得到目标数据的数据类别和数据级别，并进一步根据数据类别和数据级别确定目标数据对应的应用范围、授权对象一级授权对象对应的操作权限，进而确定该目标数据的管控策略。例如对于目标数据生产计划，基于训练完成的数据分类分级模型得到目标数据的数据类别是生产计划类数据，数据级别是3级，那么，其数据类别和数据级别对应的数据特征，确定该目标数据的应用范围为：ERP 系统、MES系统、SCADA系统，授权对象为工艺配方管理，授权权限包括新增、修改、删除、查看。

此外，在本发明实施例的模型训练过程中，为了区分每个数据实体，可以根据数据实体的属性特征，为数据实体设置唯一的数据标签，例如，对于生产计划，可以将计划日期和产量作为数据标签。

综上所述，本发明实施例通过从预设语料库中挑选m份语料作为训练样本；根据预设的数据分类分级标准对m份语料进行预处理，将每份语料转换为对应的数据模型，并确定m份语料各自对应的数据类别和数据级别；对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵；将m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别；确定数据分类分级模型对应的混淆矩阵；重复执行上述步骤，直至所述混淆矩阵满足预设条件，得到训练完成的分类分级模型，能够根据预设的数据分类分级标准进行模型训练，提高了数据分类分级模型的准确度。

实施例二

参照图2，示出了本发明实施例提供的一种数据分类分级模型的训练装置的结构图，具体如下：

训练样本挑选模块201，用于从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征。

语料预处理模块202，用于根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别。

数据编码模块203，用于根据每份语料中包含的数据实体和所述数据实体包含的属性特征，对每份语料对应的数据模型进行编码，得到每份语料对应的特征矩阵。

数据输入模块204，用于将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别。

混淆矩阵确定模块205，用于根据所述m份语料各自对应的数据类别和数据级别，以及所述m份语料各自对应的预测类别和预测级别，确定所述数据分类分级模型对应的混淆矩阵。

训练控制模块206，用于重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的分类分级模型。

可选的，所述装置还包括：

数据清单确定模块，用于根据预设的数据分类分级标准确定待处理数据对应的数据实体清单，以及所述数据实体清单对应的实体关系清单；所述数据实体清单包含所述待处理数据包含的各个数据实体，所述实体关系清单包含所述各个数据实体之间的实体关系；

数据筛选模块，用于根据所述数据实体清单和所述实体关系清单对所述待处理数据进行筛选，得到用于训练数据分类分级模型的语料；

语料标注模块，用于对所述语料中各个数据实体的实体类别以及所述数据实体之间的实体关系的关系类别进行标注；

预设语料库生成模块，用于根据标注后的语料生成所述待处理数据对应的预设语料库，所述预设语料库包括所述数据实体清单、所述实体关系清单，每一个数据实体对应至少一种实体类别，每一种实体关系对应一个关系类别。

可选的，所述语料预处理模块202，包括：

语料分析子模块2021，用于根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系，以及所述数据实体对应的实体类别和所述实体关系对应的关系类别；

数据提取子模块2022，用于根据每份语料包含的数据实体和实体类别，提取每份语料对应的数据实体和所述数据实体对应的属性特征，得到每份语料对应的结构化数据；

数据模型生成子模块2023，用于根据所述数据实体之间的实体关系和所述实体关系对应的关系类别，对所述每份语料对应的结构化数据进行排列组合，得到每份语料对应的数据模型。

可选的，所述语料预处理模块202，包括：

实体分类分级子模块2024，用于根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别；

语料分类分级子模块2025，用于根据所述各个数据实体对应的数据类别和数据级别，确定每份语料对应的数据类别和数据级别。

可选的，所述实体分类分级子模块2024，包括：

业务分析单元，用于确定企业的业务架构和业务域；

数据类别确定单元，用于根据预设分类粒度、所述业务架构和所述业务域，以及各个业务域对应的数据特征，确定所述待处理数据对应的数据类别和各个数据类别对应的数据实体；

实体类别确定单元，用于将所述每份语料包含的各个数据实体与所述各个数据类别对应的数据实体进行匹配，确定所述每份语料包含的各个数据实体对应的数据类别。

可选的，所述实体分类分级子模块2024，包括：

级别特征确定单元，用于根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征，所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项；

实体级别确定单元，用于根据每个数据实体对应的级别特征确定所述数据实体对应的数据级别。

可选的，所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个；所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个。

可选的，所述装置还包括：

正则化处理模块，用于对预先建立的数据分类分级模型中各个参数的权重值和偏置值进行正则化处理，得到正则化的数据分类分级模型；

损失函数确定模块，用于确定所述正则化的数据分类分级模型对应的损失函数；

梯度下降模块，用于对所述损失函数进行梯度下降处理，得到稀疏化的数据分类分级模型；

所述数据输入模块204，包括：

数据输入子模块，用于将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别。

可选的，所述装置还包括：

分类分级模块，用于基于训练完成的数据分类分级模型确定目标数据的数据类别和数据级别；

数据分析模块，用于根据所述数据类别和数据级别确定所述目标数据的应用范围、授权对象、以及所述授权对象的操作权限；

管控策略确定模块，用于根据所述目标数据的应用范围、授权对象，以及所述授权对象的操作权限确定所述目标数据对应的管控策略。

实施例二为方法实施例一对应的装置实施例，详细信息可以参照实施例一的详细说明，在此不再赘述。

本发明实施例还提供了一种电子设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序时实现前述的方法。

本发明实施例还提供了一种可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行前述的方法。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种数据分类分级模型的训练方法，其特征在于，所述方法包括：

从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征；所述预设语料库包括数据实体清单、实体关系清单，每一个数据实体对应至少一种实体类别，每一种实体关系对应一个关系类别，所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个；所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个；

根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别；所述确定m份语料各自对应的数据类别和数据级别包括：根据所述预设的数据分类分级标准确定m份语料各自对应的所述数据类别，根据所述数据类别确定级别特征，并根据所述级别特征确定每份语料各自对应的所述数据级别；所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项；

重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的数据分类分级模型；

基于训练完成的数据分类分级模型确定目标数据的数据类别和数据级别；

根据所述数据类别和数据级别确定所述目标数据的应用范围、授权对象、以及所述授权对象的操作权限；

根据所述目标数据的应用范围、授权对象，以及所述授权对象的操作权限确定所述目标数据对应的管控策略。

2.根据权利要求1所述的方法，其特征在于，所述从预设语料库中挑选m份语料作为训练样本之前，所述方法还包括：

根据预设的数据分类分级标准确定待处理数据对应的数据实体清单，以及所述数据实体清单对应的实体关系清单；所述数据实体清单包含所述待处理数据包含的各个数据实体，所述实体关系清单包含所述各个数据实体之间的实体关系；

根据所述数据实体清单和所述实体关系清单对所述待处理数据进行筛选，得到用于训练数据分类分级模型的语料；

对所述语料中各个数据实体的实体类别以及所述数据实体之间的实体关系的关系类别进行标注；

根据标注后的语料生成所述待处理数据对应的预设语料库。

3.根据权利要求2所述的方法，其特征在于，所述根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，包括：

根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系，以及所述数据实体对应的实体类别和所述实体关系对应的关系类别；

根据每份语料包含的数据实体和实体类别，提取每份语料对应的数据实体和所述数据实体对应的属性特征，得到每份语料对应的结构化数据；

根据所述数据实体之间的实体关系和所述实体关系对应的关系类别，对所述每份语料对应的结构化数据进行排列组合，得到每份语料对应的数据模型。

4.根据权利要求1所述的方法，其特征在于，所述根据预设的数据分类分级标准对所述m份语料进行预处理，确定m份语料各自对应的数据类别和数据级别，包括：

根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别；

根据所述各个数据实体对应的数据类别和数据级别，确定每份语料对应的数据类别和数据级别。

5.根据权利要求4所述的方法，其特征在于，所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别，包括：

确定企业的业务架构和业务域；

根据预设分类粒度、所述业务架构和所述业务域，以及各个业务域对应的数据特征，确定分类分级对象对应的数据类别和各个数据类别对应的数据实体；

将所述每份语料包含的各个数据实体与所述各个数据类别对应的数据实体进行匹配，确定所述每份语料包含的各个数据实体对应的数据类别。

6.根据权利要求4所述的方法，其特征在于，所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据级别，包括：

根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征；

根据每个数据实体对应的级别特征确定所述数据实体对应的数据级别。

7.根据权利要求1所述的方法，其特征在于，所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别之前，所述方法还包括：

对预先建立的数据分类分级模型中各个参数的权重值和偏置值进行正则化处理，得到正则化的数据分类分级模型；

确定所述正则化的数据分类分级模型对应的损失函数；

对所述损失函数进行梯度下降处理，得到稀疏化的数据分类分级模型；

所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别，包括：

将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分类分级模型中，得到m份语料各自对应的预测类别和预测级别。

8.根据权利要求1至7任一项所述的方法，其特征在于，所述语料包括文档、表格、图片、音频、视频中的至少一种类型的语料。

9.一种数据分类分级模型的训练装置，其特征在于，所述装置包括：

训练样本挑选模块，用于从预设语料库中挑选m份语料作为训练样本，每份语料包括至少一个数据实体，每个数据实体包括至少一个属性特征；所述预设语料库包括数据实体清单、实体关系清单，每一个数据实体对应至少一种实体类别，每一种实体关系对应一个关系类别，所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个；所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个；

语料预处理模块，用于根据预设的数据分类分级标准对所述m份语料进行预处理，将每份语料转换为对应的数据模型，以及确定m份语料各自对应的数据类别和数据级别；所述确定m份语料各自对应的数据类别和数据级别包括：根据所述预设的数据分类分级标准确定m份语料各自对应的所述数据类别，根据所述数据类别确定级别特征，并根据所述级别特征确定每份语料各自对应的所述数据级别；所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项；

训练控制模块，用于重复执行上述步骤，直至所述数据分类分级模型对应的混淆矩阵满足预设条件，得到训练完成的数据分类分级模型；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：

预设语料库生成模块，用于根据标注后的语料生成所述待处理数据对应的预设语料库。

11.根据权利要求10所述的装置，其特征在于，所述语料预处理模块，包括：

语料分析子模块，用于根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系，以及所述数据实体对应的实体类别和所述实体关系对应的关系类别；

数据提取子模块，用于根据每份语料包含的数据实体和实体类别，提取每份语料对应的数据实体和所述数据实体对应的属性特征，得到每份语料对应的结构化数据；

数据模型生成子模块，用于根据所述数据实体之间的实体关系和所述实体关系对应的关系类别，对所述每份语料对应的结构化数据进行排列组合，得到每份语料对应的数据模型。

12.根据权利要求9所述的装置，其特征在于，所述语料预处理模块，包括：

实体分类分级子模块，用于根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别；

语料分类分级子模块，用于根据所述各个数据实体对应的数据类别和数据级别，确定每份语料对应的数据类别和数据级别。

13.根据权利要求12所述的装置，其特征在于，所述实体分类分级子模块，包括：

业务分析单元，用于确定企业的业务架构和业务域；

数据类别确定单元，用于根据预设分类粒度、所述业务架构和所述业务域，以及各个业务域对应的数据特征，确定分类分级对象对应的数据类别和各个数据类别对应的数据实体；

14.根据权利要求12所述的装置，其特征在于，所述实体分类分级子模块，包括：

级别特征确定单元，用于根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征；

15.根据权利要求9所述的装置，其特征在于，所述装置还包括：

所述数据输入模块，包括：

16.根据权利要求9至15任一项所述的装置，其特征在于，所述语料包括文档、表格、图片、音频、视频中的至少一种类型的语料。

17.一种电子设备，其特征在于，包括：

处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8中任一项所述的方法。

18.一种可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至8中任一项所述的方法。