CN112966100B - 一种数据分类分级模型的训练方法、装置及电子设备 - Google Patents

一种数据分类分级模型的训练方法、装置及电子设备 Download PDF

Info

Publication number
CN112966100B
CN112966100B CN202011631556.2A CN202011631556A CN112966100B CN 112966100 B CN112966100 B CN 112966100B CN 202011631556 A CN202011631556 A CN 202011631556A CN 112966100 B CN112966100 B CN 112966100B
Authority
CN
China
Prior art keywords
data
entity
classification
corpus
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011631556.2A
Other languages
English (en)
Other versions
CN112966100A (zh
Inventor
孙亚东
王志海
王闻馨
喻波
魏力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wondersoft Technology Co Ltd
Original Assignee
Beijing Wondersoft Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wondersoft Technology Co Ltd filed Critical Beijing Wondersoft Technology Co Ltd
Priority to CN202011631556.2A priority Critical patent/CN112966100B/zh
Publication of CN112966100A publication Critical patent/CN112966100A/zh
Application granted granted Critical
Publication of CN112966100B publication Critical patent/CN112966100B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/288Entity relationship models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据分类分级模型的训练方法、装置、及电子设备。所述方法包括:从预设语料库中挑选m份语料作为训练样本;根据预设的数据分类分级标准对m份语料进行预处理,将每份语料转换为对应的数据模型,并确定m份语料各自对应的数据类别和数据级别;对每份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;将m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别;确定数据分类分级模型对应的混淆矩阵;重复执行上述步骤,直至所述混淆矩阵满足预设条件,得到训练完成的分类分级模型。本发明能够根据预设的数据分类分级标准进行模型训练,提高了数据分类分级模型的准确度。

Description

一种数据分类分级模型的训练方法、装置及电子设备
技术领域
本发明涉及数据安全领域,具体地涉及一种数据分类分级模型的训练方 法、装置及电子设备。
背景技术
随着大数据技术的发展,企业将各种数据资源形成统一的数据资源池, 并授权给不同用户使用,这在满足各个用户的数据使用需求的同时,也增加 了敏感数据泄漏的风险。传统基于堵漏方式的边界数据防护已经无法满足企 业数据安全管控需求。
为了解决这一问题,现有技术通常采用数据防泄漏系统进行数据安全管 控,以防止企业敏感数据泄漏。数据防泄漏系统采用定义敏感数据关键字的 方式,识别待发送数据中是否包括已定义的敏感数据,如定义身份证号、人 员姓名为敏感数据,当检测到待发送数据中存在敏感数据时,对敏感数据进 行脱敏处理之后再进行数据发送。但是如果待发送数据中包括财务数据、工 艺标准、质量控制等较为复杂的信息,那么依靠关键字定义的数据防泄漏系 统即无法准确识别出哪些是敏感数据,哪些是非敏感数据,从而导致数据泄漏。
发明内容
本发明提供一种数据分类分级模型的训练方法、装置、电子设备及存储 介质,以解决现有技术中数据防泄漏系统的识别数据的准确度差的问题。
根据本发明的第一方面,提供了一种数据分类分级模型的训练方法,所 述方法包括:
从预设语料库中挑选m份语料作为训练样本,每份语料包括至少一个数 据实体,每个数据实体包括至少一个属性特征;
根据预设的数据分类分级标准对所述m份语料进行预处理,将每份语料 转换为对应的数据模型,以及确定m份语料各自对应的数据类别和数据级 别;
根据每份语料中包含的数据实体和所述数据实体包含的属性特征,对每 份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;
将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型 中,得到m份语料各自对应的预测类别和预测级别;
根据所述m份语料各自对应的数据类别和数据级别,以及所述m份语 料各自对应的预测类别和预测级别,确定所述数据分类分级模型对应的混淆 矩阵;
重复执行上述步骤,直至所述数据分类分级模型对应的混淆矩阵满足预 设条件,得到训练完成的数据分类分级模型。
根据本发明的第二方面,提供了一种数据分类分级模型的训练装置,所 述装置包括:
训练样本挑选模块,用于从预设语料库中挑选m份语料作为训练样本, 每份语料包括至少一个数据实体,每个数据实体包括至少一个属性特征;
语料预处理模块,用于根据预设的数据分类分级标准对所述m份语料进 行预处理,将每份语料转换为对应的数据模型,以及确定m份语料各自对应 的数据类别和数据级别;
数据编码模块,用于根据每份语料中包含的数据实体和所述数据实体包 含的属性特征,对每份语料对应的数据模型进行编码,得到每份语料对应的 特征矩阵;
数据输入模块,用于将所述m份语料对应的特征矩阵输入到预先建立的 数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别;
混淆矩阵确定模块,用于根据所述m份语料各自对应的数据类别和数据 级别,以及所述m份语料各自对应的预测类别和预测级别,确定所述数据分 类分级模型对应的混淆矩阵;
训练控制模块,用于重复执行上述步骤,直至所述数据分类分级模型对 应的混淆矩阵满足预设条件,得到训练完成的数据分类分级模型。
根据本发明的第三方面,提供了一种电子设备,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计 算机程序,所述处理器执行所述程序时实现前述的方法。
根据本发明的第四方面,提供了一种可读存储介质,当所述存储介质中 的指令由电子设备的处理器执行时,使得电子设备能够执行前述的方法。
本发明提供了一种数据分类分级模型的训练方法、装置、电子设备及存 储介质。所述方法包括:从预设语料库中挑选m份语料作为训练样本;根据 预设的数据分类分级标准对m份语料进行预处理,将每份语料转换为对应的 数据模型,并确定m份语料各自对应的数据类别和数据级别;对每份语料对 应的数据模型进行编码,得到每份语料对应的特征矩阵;将m份语料对应的 特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的 预测类别和预测级别;确定数据分类分级模型对应的混淆矩阵;重复执行上 述步骤,直至所述混淆矩阵满足预设条件,得到训练完成的分类分级模型。 本发明能够根据预设的数据分类分级标准进行模型训练,提高了数据分类分 级模型的准确度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技 术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它 目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的 描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅 仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性 劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一提供的一种数据分类分级模型的训练方法的具体 步骤流程图;
图2是本发明实施例二提供的一种数据分类分级模型的训练装置的结构 图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创 造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参照图1,其示出了本发明实施例一提供的一种数据分类分级模型的训 练方法的具体步骤流程图。
步骤101,从预设语料库中挑选m份语料作为训练样本,每份语料包括 至少一个数据实体,每个数据实体包括至少一个属性特征。
在训练模型之前,首先确定训练样本,在本发明实施例中,可以从预先 设置的预设语料库中挑选m份语料作为训练样本。
可选的,所述语料包括文档、表格、图片、音频、视频中的至少一种类 型的语料。
在本发明实施例中,每一份语料都包含至少一个数据实体,每一个数据 数据实体都有对应的属性特征。例如,对于语料员工工资,包括数据实体工 资单,数据实体工资单对应有属性特征:姓名、银行账号、应发工资等属性 特征。
步骤102,根据预设的数据分类分级标准对所述m份语料进行预处理, 将每份语料转换为对应的数据模型,以及确定m份语料各自对应的数据类别 和数据级别。
预设语料库中的语料都是文档、表格、图片、视频、音频等非结构化数 据,且包含大量与数据分类分级无关的冗余数据,在通过数据分类分级模型 进行数据分类分级处理时,会造成信息识别困难,因此,在本发明实施例中, 确定训练样本之后,先对挑选的m份语料进行预处理,根据预设的数据分类 分级标准将每份语料转换为数据模型,其中,该数据模型为结构化语言,包 含语料对应的数据实体和数据实体的属性特征,便于识别语料中的有效信 息。
除了将每份语料转换为对应的数据模型之外,本发明实施例还需要基于 预设的数据分类分级标准确定每份语料对应的数据类别和数据级别,也就是 预先确定每份语料的实际数据类别和实际数据级别。在数据分类分级模型的 训练过程中,再将基于数据分类分级模型得到的每份语料的预测类别和预测 级别与预先确定的每份语料的实际数据类别和实际数据级别进行比对,根据 比对结果就可以评估数据分类分级模型的准确度。
步骤103,根据每份语料中包含的数据实体和所述数据实体包含的属性 特征,对每份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵。
本发明实施例的数据分类分级模型是基于卷积神经网络构建的,需要计 算机等电子设备执行数据分类分级,而用于进行数据分类分级的电子设备识 别的是编码语言,例如二进制语言,因此,在本发明实施例中,得到包含语 料的数据实体和数据实体对应的属性特征的数据模型之后,需要对数据模型 进行编码处理,将数据模型转换为编码语言。
例如,对于语料“员工信息”,包含数据实体“员工基本信息”,对应有 属性姓名、联系电话,联系地址、出生日期、性别等属性特征,该数据实体 对应的数据模型的数据信息列表如表1所示:
表1
Figure RE-GDA0003059708690000051
可以将属性特征信息为“无”的属性特征用“0”编码,将存在属性特 征信息的属性特征用“1”编码,假设从左到右,对应的属性特征依次为Key、 姓名、联系电话、联系地址、出生日期、性别,则可以得到上述数据模型对 应的特征向量(1,1,1,1,0,0)。一份语料可能包含多个数据实体,将 每个数据实体作为一个维度,将各个数据实体对应的特征向量进行组合,将 可以得到该语料对应的特征矩阵。
如果语料的各个数据实体的特征向量的长度不一致,则按照得到的特征 向量的最大长度,对各个数据实体的特征向量进行对齐处理,例如,对各个 特征向量进行前补零或后补零。
步骤104,将所述m份语料对应的特征矩阵输入到预先建立的数据分类 分级模型中,得到m份语料各自对应的预测类别和预测级别。
对训练样本进行编码处理之后,将m份语料对应的特征矩阵输入到预先 建立的数据分类分级模型中,就可以得到m份语料各自对应的预测类别和预 测级别。
在本发明实施例中,可以基于Softmax逻辑回归模型构建数据分类分级 模型,当然,也可以基于其他神经网络模型构建数据分类分级模型,对此, 本发明实施例不做具体限定。
步骤105,根据所述m份语料各自对应的数据类别和数据级别,以及所 述m份语料各自对应的预测类别和预测级别,确定所述数据分类分级模型对 应的混淆矩阵。
在数据分类分级模型的训练过程中,需要对模型的处理结果进行评估, 判断模型的准确度,从而确定训练的模型是否满足预设要求。在本发明实施 例中,根据m份语料对应的数据类别和数据级别,以及基于数据分类分级模 型得到的m份语料的预测类别和预测级别,得到数据分类分级模型对应的混 淆矩阵。具体的,可以根据m份语料的数据类别和预测类别得到类别混淆矩 阵,根据m份语料的数据级别和预测级别得到级别混淆矩阵,分别对得到的 类别混淆矩阵和级别混淆矩阵进行分析。
以混淆矩阵为例,例如,m份语料对应的数据类别包含类1、类2、类3, 假设取150份语料作为训练样本,得到的类别混淆矩阵对应的数据列表如表 2所示:
表2
Figure BDA0002876721950000061
在混淆矩阵中,每一列代表预测类别,每一列之和表示训练样本中被预 测为该类别的样本数量;每一行代表了训练样本的真实类别,在本发明实施 例中,也就是根据数据分类分级标准确定的语料的数据类别,每一行之后表 示训练样本中属于该类别的真实样本数量。例如,在上述列举的类别混淆矩 阵中,属于类1的预测样本数量为43+5+2=50,属于类别1的真实样本数量 为43+2=45。
对得到的混淆矩阵每一列和每一行的数据进行分析,就可以得到训练的 数据分类分级模型的准确度。
步骤106,重复执行上述步骤,直至所述数据分类分级模型对应的混淆 矩阵满足预设条件,得到训练完成的数据分类分级模型。
在数据分类分级模型的训练过程中,重复执行上述步骤,若数据分类分 级模型对应的混淆矩阵满足预设条件,例如,基于混淆矩阵计算得到的数据 分类分级模型的准确度大于预设阈值,则确定数据分类分级模型满足预设要 求,结束步骤101至步骤106的训练过程,得到训练完成的数据分类分级模 型。
可选的,步骤101所述从预设语料库中挑选m份语料作为训练样本之前, 所述方法还包括:
步骤S11,根据预设的数据分类分级标准确定待处理数据对应的数据实 体清单,以及所述数据实体清单对应的实体关系清单;所述数据实体清单包 含所述待处理数据包含的各个数据实体,所述实体关系清单包含所述各个数 据实体之间的实体关系。
步骤S12,根据所述数据实体清单和所述实体关系清单对所述待处理数 据进行筛选,得到用于训练数据分类分级模型的语料。
步骤S13,对所述语料中各个数据实体的实体类别以及所述数据实体之 间的实体关系的关系类别进行标注。
步骤S14,根据标注后的语料生成所述待处理数据对应的预设语料库, 所述预设语料库包括所述数据实体清单、所述实体关系清单,每一个数据实 体对应至少一种实体类别,每一种实体关系对应一个关系类别。
在本发明实施例中,待处理数据,也就是分类分级对象,是已经存在或 准备投入使用的具体文档、数据表、视频、音频等,以企业数据资产为例, 待处理数据是企业具体业务对应的数据,例如,企业的IT(Internet Technology,互联网技术)域数据和OT(Operation Technology,操作技术) 域数据。其中,工业IT域数据主要是ERP(EnterpriseResource Planning, 企业资源计划管理系统)、PDM(Product Data Management,产品数据管理 系统)、HCM(Human Capital Management,人力资源管理系统)、MES (ManufacturingExecution System,制造执行系统)、EAM(Enterprise Asset Management,企业资产管理系统)、WMS(Warehouse Management System, 仓库管理系统)、SCM(Supply ChainManagement,供应链管理系统)等产 生的经营管理、生产制造、仓储物流、工艺质量等数据,以及通过企业外网 获取的行业监管数据等。OT域的数据主要来自于工业现场的生产制造装备, 如堆垛机、AGV、感应立柱、扭力扳手、深度尺、UWB室内定位系统、智 能工作台、温湿度传感器等产生的数据,主要由时序数据和非时序数据两大 类组成,时序数据包括描述设备运行过程的温度、压力、振动、流量等运行 监测数据以及描述产品所处阶段的声、光、电数据;非时序数据,主要来源 于工业系统生成的日志数据以及工业生产过程积累的经验知识等。
参照线分类法及各行业在当前数据分类方面积累的经验,将要分类的对 象按其所选择的若干个属性或特征,以最稳定本质属性逐次地分成相应的若 干层类目,并排列成一个逐级展开的分类体系。将得到的分类体系作为预设 的数据分类标准,根据预设的数据分类标准确定待处理数据包含的所有的数 据实体,得到数据实体清单,并确定各个数据实体之间的对应关系,形成实 体关系清单。
例如,以轨道交通装置制造业为例,首先按照轨道交通装备制造业的业 务线条划分业务域,然后再确定各个业务域对应的数据实体,以及各个数据 实体包含的属性特征、各个数据实体之间的实体关系。业务域分为两级,一 级业务域包括:生产制造、工艺质量、仓储配送、设备互联、列车运维监控、 人力资源、物资管理、供应商管理、财务管理等。二级业务域是对一级业务 域的细化。一级业务域生产制造下的二级业务域包括:制造执行数据、生产 异常数据。工艺质量的二级业务域包括:工艺设计、质量管理。以此构成业 务域树,业务域树的根节点是《国民经济行业分类与代码(GB/T4754-2017)》 中的小类。在二级业务域下定义数据实体,一项数据实体由子数据实体与子 数据实体的属性特征构成。例如,对于数据实体设备保养,包括设备基本信 息、设备保养标准、设备保养记录等子数据实体,其中,子数据实体设备基 础信息由设备编号、设备名称、生产厂商等属性特征构成。
本发明实施例提供的数据分类分级模型的训练方法中,是以数据实体为 基础对象进行数据分类分级处理的,而待处理数据中,除了包含数据实体对 应的信息数据之外,还包含大量的对数据分类分级没有贡献的冗余数据,因 此,为了减少数据处理量,提高模型训练效率,本发明实施例根据确定的数 据实体清单和实体关系清单对待处理数据进行筛选,将与数据实体无关的数 据过滤掉,得到用于训练数据分类分级模型的语料。
在通过计算机等电子设备对数据分类分级模型进行训练过程中,为了提 高电子设备识别数据的准确度,从而提高训练效率,本发明实施例对语料中 数据实体的实体类别和实体关系的关系类别进行了标注。具体的,可以基于 BERT系统进行语料标注。其中,所述实体类别包括人名、地址名称、组织 机构名称、时间、数字中的至少一个;所述关系类别包括任务社会关系、物 理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关 系中的至少一个。
根据标注后的语料生成待处理数据对应的预设语料库,将该预设语料库 作为训练数据分类分级模型的数据基础。
可选的,步骤102所述根据预设的数据分类分级标准对所述m份语料进 行预处理,将每份语料转换为对应的数据模型,包括:
步骤S21,根据所述预设语料库确定所述m份语料各自包含的数据实体 和所述数据实体之间的实体关系,以及所述数据实体对应的实体类别和所述 实体关系对应的关系类别。
步骤S22,根据每份语料包含的数据实体和实体类别,提取每份语料对 应的数据实体和所述数据实体对应的属性特征,得到每份语料对应的结构化 数据。
步骤S23,根据所述数据实体之间的实体关系和所述实体关系对应的关 系类别,对所述每份语料对应的结构化数据进行排列组合,得到每份语料对 应的数据模型。
在本发明实施例中,当确定了预设语料库后,在对训练样本中的m份语 料进行预处理时,就可以根据预设语料库中的数据实体清单和实体关系清 单,确定m份语料包含的数据实体和实体关系,并根据标注的实体类别和关 系类别,确定m份语料包含的各个数据实体对应的实体类别和实体关系类 别。
本发明实施例中的语料是文档、表格、图片、视频、音频等非结构化语 言,在数据分类分级模型的训练过程中,需要将非结构化的语料转换为结构 化语言,便于用于数据分类分级模型训练的电子设备进行信息识别。具体的, 基于每份语料包含的数据实体和实体关系,提取每份语料对应的数据实体和 各个数据实体对应的属性特征。可以使用复杂环境下的N元中文语言模型提 取每份语料对应的数据实体和各个数据实体对应的属性特征,当然,也可以 采用其他的特征提取方法,对此,本发明实施例不做具体限定。
得到每份语料对应的结构化数据后,根据数据实体之间的实体关系和实 体关系对应的关系类别,对每份语料对应的结构化数据进行排列组合,就可 以得到每份语料对应的数据模型。例如,语料“员工信息”中包含数据实体 “员工基本信息”,该数据实体对应的属性特征有姓名、出生日期、性别、 联系电话、联系地址等,每个属性特征实际上也是一个数据实体,也就是说, 数据实体包含的属性特征,是与该数据实体存在一般隶属关系的数据实体。 为了区别,记数据实体“员工基本信息”为一级数据实体,记数据实体“员 工基本信息”包含的属性特征姓名、出生日期、性别、联系电话、联系地址 等为二级数据实体。其中,二级数据实体姓名、出生日期、性别、联系电 话、联系地址之间一一对应。按照上述一级数据实体和二级数据实体之间的 实体关系和关系类别,对上述数据实体对应的信息进行排列组合,得到语料 “员工信息”对应的数据模型。
可选的,步骤102所述根据预设的数据分类分级标准对所述m份语料进 行预处理,确定m份语料各自对应的数据类别和数据级别,包括:
步骤S31,根据预设的数据分类分级标准确定每份语料包含的各个数据 实体对应的数据类别和数据级别。
步骤S32,根据所述各个数据实体对应的数据类别和数据级别,确定每 份语料对应的数据类别和数据级别。
在本发明实施例中,一份语料可能包含一个数据实体,也可能包含多个 数据实体,在确定语料的数据类别和数据级别之前,可以先确定各个数据实 体的数据类别和数据级别,再根据各个数据实体的数据类别和数据级别确定 语料的数据类别和数据级别。具体的,将语料中各个数据实体对应的数据类 别的全集作为该语料的数据类别,将语料中各个数据实体对应的数据级别中 的最高级别作为该语料的数据级别。
可选的,步骤S31所述根据预设的数据分类分级标准确定每份语料包含 的各个数据实体对应的数据类别,包括:
A11、确定企业的业务架构和业务域。
A12、根据预设分类粒度、所述业务架构和所述业务域,以及各个业务 域对应的数据特征,确定所述待处理数据对应的数据类别和各个数据类别对 应的数据实体。
A13、将所述每份语料包含的各个数据实体与所述各个数据类别对应的 数据实体进行匹配,确定所述每份语料包含的各个数据实体对应的数据类 别。
对于不同的企业数据,由于企业业务不同,对应的数据类别也不相同。 因此,在本发明实施例中,在确定语料对应的数据分类之前,首先分析企业 的业务架构和业务域,根据业务架构和业务域,以及预设分类粒度确定该企 业的待处理数据,也就是企业数据资产对应的数据类别。其中,预设分类粒 度用于确定数据类别的层次,粒度越小,最终得到的数据类别的层次越多, 数据分类越细致。
在实际应用中,可以根据业务架构与业务域形成一级数据类别,如生产 类数据、设备类数据、物料类数据、工艺质量类数据、成品类数据、在制品 类数据等,然后再根据业务域与一级数据类别的数据特征,进一步拆分一级 数据类别,得到二级数据类别,如一级数据类别生产类数据的二级数据类别 包括生产计划类数据、产量类数据、下行指令类数据等。确定二级数据类别 之后,再对二级数据类别进行进一步细化,得到每个二级数据类别对应的数 据实体。根据各级数据类别之间的对应关系,以及数据类别和数据实体之间 的对应关系。如表3所示,示出了本发明实施例中的一种数据分类表:
表3
Figure BDA0002876721950000121
Figure BDA0002876721950000131
确定待处理数据对应的数据类别和各个数据类别对应的数据实体之后, 根据训练样本中每份语料包含的各个数据实体的数据特征,将数据实体与二 级数据类别对应的数据实体进行比对,从而确定每份语料包含的数据实体对 应的数据类别。
可选的,步骤S31所述根据预设的数据分类分级标准确定每份语料包含 的各个数据实体对应的数据级别,包括:
A21、根据每个数据实体对应的数据类别确定所述数据实体对应的级别 特征,所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至 少一项。
A22、根据每个数据实体对应的级别特征确定所述数据实体对应的数据 级别。
在确定数据实体的数据级别时,需要依据以下原则:
1)依从性原则:数据级别的划分应遵从相关国家法律、法规与行业及 部门监管要求。
2)客观性原则:数据级别要具备客观性,依据数据对象定义,基于数 据的安全属性和规则判定数据分级,并可复合检查。
3)可行性原则:数据级别的粒度需要把握,不能将数据集中到个别级 别中,导致数据不能针对性的施加防护,也不能级别分的过细,导致管理成 本加剧。
4)从高性原则:数据级别依数据主体要求和对客体的影响进行定义, 当出现多个指标匹配时,从高定级。
5)时效性原则:数据级别具备一定的有效期。数据级别可能会基于时 间周期的变化级别会降低,基于安全保密要求依据历史数据时间阶段动态调 级。
6)独立性原则:对数据泄露或损坏基于数据完全被泄露或损坏考虑, 与安全防护手段或措施无关。
其中,数据的安全属性包括完整性、保密性、可用性中的至少一项。数 据安全属性是信息安全风险评估中的重要参考属性。在本发明实施例中,主 要针对数据对象的主体要求和以数据安全属性遭到破坏后可能造成的客体 影响作为数据级别的重要判断依据。其中,主体要求包括管理要求和公开范 围,客体影响包括影响业务和影响对象。
管理要求包括:1)国家法律标准要求;2)行业监管法规要求;3)企 业内部管理要求;4)其它要求。
公开范围包括:1)特定人员公开;2)指定范围公开;3)企业内部公 开;外部公开。
影响业务包括:1)企业生存业务;2)核心业务;3)经营管理及衍生 业务;4)普通业务。
影响对象包括:1)国家;2)政府机构和企业客户3)本机构;4)个人。
在本发明实施例中,确定数据实体对应的数据级别时,先根据数据实体 对应的数据类别确定数据实体的级别特征,并确定数据实体在管理要求、公 开范围、影响业务和影响对象这四个维度上的级别,根据数据实体在这四个 维度上的级别,依据从高性原则,确定该数据实体对应的数据级别。
假设数据实体在管理要求、公开范围、影响业务和影响对象这四个维度 上的级别如表4所示:
表4
Figure BDA0002876721950000141
依据数据类别和数据实体在管理要求、公开范围、影响业务和影响对象 这四个维度上的级别,就可以确定数据实体对应的数据级别。,如表5所示, 示出了本发明实施例的一种数据实体的级别列表:
表5
Figure BDA0002876721950000151
可选的,步骤104所述将所述m份语料对应的特征矩阵输入到预先建立 的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别之 前,所述方法还包括:
步骤S41,对预先建立的数据分类分级模型中各个参数的权重值和偏置 值进行正则化处理,得到正则化的数据分类分级模型。
步骤S42,确定所述正则化的数据分类分级模型对应的损失函数。
步骤S43,对所述损失函数进行梯度下降处理,得到稀疏化的数据分类 分级模型。
步骤104所述将所述m份语料对应的特征矩阵输入到预先建立的数据分 类分级模型中,得到m份语料各自对应的预测类别和预测级别,包括:
步骤S44,将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分 类分级模型中,得到m份语料各自对应的预测类别和预测级别。
在本发明实施例中,为了进一步降低运算复杂度,提高模型训练效率, 可以进一步对构建的数据分类分级模型中的各个参数的权重值和偏置值进 行正则化处理,包括对数据分类分级模型的卷积次数的权重、每个数据实体 的权重、每个实体关系的权重、每个数据类别的权重、每个数据级别的权重 进行正则化处理。
进一步的,还可以确定正则化处理之后的数据分类分级模型对应的损失 函数,并对损失函数进行梯度下降处理,降低损失函数的复杂度。在本发明 实施例中,可以将正则损失函数和交叉熵损失函数作为数据分类分级模型的 损失函数。
将训练样本中m份语料对应的特征矩阵输入到经过步骤S41至步骤S43 处理后得到的稀疏化的数据分类分级模型中,就可以得到每份语料对应的预 测类别和预测级别。
可选的,所述方法还包括:
步骤S51,基于训练完成的数据分类分级模型确定目标数据的数据类别 和数据级别。
步骤S52,根据所述数据类别和数据级别确定所述目标数据的应用范围、 授权对象、以及所述授权对象的操作权限。
步骤S53,根据所述目标数据的应用范围、授权对象,以及所述授权对 象的操作权限确定所述目标数据对应的管控策略。
在本发明实施例中,完成对数据分类分级模型的训练之后,可以基于训 练完成的数据分类分级模型对目标数据进行分类分级处理,得到目标数据的 数据类别和数据级别,并进一步根据数据类别和数据级别确定目标数据对应 的应用范围、授权对象一级授权对象对应的操作权限,进而确定该目标数据 的管控策略。例如对于目标数据生产计划,基于训练完成的数据分类分级模 型得到目标数据的数据类别是生产计划类数据,数据级别是3级,那么,其 数据类别和数据级别对应的数据特征,确定该目标数据的应用范围为:ERP 系统、MES系统、SCADA系统,授权对象为工艺配方管理,授权权限包括 新增、修改、删除、查看。
此外,在本发明实施例的模型训练过程中,为了区分每个数据实体,可 以根据数据实体的属性特征,为数据实体设置唯一的数据标签,例如,对于 生产计划,可以将计划日期和产量作为数据标签。
综上所述,本发明实施例通过从预设语料库中挑选m份语料作为训练样 本;根据预设的数据分类分级标准对m份语料进行预处理,将每份语料转换 为对应的数据模型,并确定m份语料各自对应的数据类别和数据级别;对每 份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;将m份语 料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各 自对应的预测类别和预测级别;确定数据分类分级模型对应的混淆矩阵;重 复执行上述步骤,直至所述混淆矩阵满足预设条件,得到训练完成的分类分 级模型,能够根据预设的数据分类分级标准进行模型训练,提高了数据分类 分级模型的准确度。
实施例二
参照图2,示出了本发明实施例提供的一种数据分类分级模型的训练装 置的结构图,具体如下:
训练样本挑选模块201,用于从预设语料库中挑选m份语料作为训练样 本,每份语料包括至少一个数据实体,每个数据实体包括至少一个属性特征。
语料预处理模块202,用于根据预设的数据分类分级标准对所述m份语 料进行预处理,将每份语料转换为对应的数据模型,以及确定m份语料各自 对应的数据类别和数据级别。
数据编码模块203,用于根据每份语料中包含的数据实体和所述数据实 体包含的属性特征,对每份语料对应的数据模型进行编码,得到每份语料对 应的特征矩阵。
数据输入模块204,用于将所述m份语料对应的特征矩阵输入到预先建 立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别。
混淆矩阵确定模块205,用于根据所述m份语料各自对应的数据类别和 数据级别,以及所述m份语料各自对应的预测类别和预测级别,确定所述数 据分类分级模型对应的混淆矩阵。
训练控制模块206,用于重复执行上述步骤,直至所述数据分类分级模 型对应的混淆矩阵满足预设条件,得到训练完成的分类分级模型。
可选的,所述装置还包括:
数据清单确定模块,用于根据预设的数据分类分级标准确定待处理数据 对应的数据实体清单,以及所述数据实体清单对应的实体关系清单;所述数 据实体清单包含所述待处理数据包含的各个数据实体,所述实体关系清单包 含所述各个数据实体之间的实体关系;
数据筛选模块,用于根据所述数据实体清单和所述实体关系清单对所述 待处理数据进行筛选,得到用于训练数据分类分级模型的语料;
语料标注模块,用于对所述语料中各个数据实体的实体类别以及所述数 据实体之间的实体关系的关系类别进行标注;
预设语料库生成模块,用于根据标注后的语料生成所述待处理数据对应 的预设语料库,所述预设语料库包括所述数据实体清单、所述实体关系清单, 每一个数据实体对应至少一种实体类别,每一种实体关系对应一个关系类 别。
可选的,所述语料预处理模块202,包括:
语料分析子模块2021,用于根据所述预设语料库确定所述m份语料各 自包含的数据实体和所述数据实体之间的实体关系,以及所述数据实体对应 的实体类别和所述实体关系对应的关系类别;
数据提取子模块2022,用于根据每份语料包含的数据实体和实体类别, 提取每份语料对应的数据实体和所述数据实体对应的属性特征,得到每份语 料对应的结构化数据;
数据模型生成子模块2023,用于根据所述数据实体之间的实体关系和所 述实体关系对应的关系类别,对所述每份语料对应的结构化数据进行排列组 合,得到每份语料对应的数据模型。
可选的,所述语料预处理模块202,包括:
实体分类分级子模块2024,用于根据预设的数据分类分级标准确定每份 语料包含的各个数据实体对应的数据类别和数据级别;
语料分类分级子模块2025,用于根据所述各个数据实体对应的数据类别 和数据级别,确定每份语料对应的数据类别和数据级别。
可选的,所述实体分类分级子模块2024,包括:
业务分析单元,用于确定企业的业务架构和业务域;
数据类别确定单元,用于根据预设分类粒度、所述业务架构和所述业务 域,以及各个业务域对应的数据特征,确定所述待处理数据对应的数据类别 和各个数据类别对应的数据实体;
实体类别确定单元,用于将所述每份语料包含的各个数据实体与所述各 个数据类别对应的数据实体进行匹配,确定所述每份语料包含的各个数据实 体对应的数据类别。
可选的,所述实体分类分级子模块2024,包括:
级别特征确定单元,用于根据每个数据实体对应的数据类别确定所述数 据实体对应的级别特征,所述级别特征包括管理要求、公开范围、影响业务 和影响对象中的至少一项;
实体级别确定单元,用于根据每个数据实体对应的级别特征确定所述数 据实体对应的数据级别。
可选的,所述实体类别包括人名、地址名称、组织机构名称、时间、数 字中的至少一个;所述关系类别包括任务社会关系、物理方位关系、一般隶 属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个。
可选的,所述装置还包括:
正则化处理模块,用于对预先建立的数据分类分级模型中各个参数的权 重值和偏置值进行正则化处理,得到正则化的数据分类分级模型;
损失函数确定模块,用于确定所述正则化的数据分类分级模型对应的损 失函数;
梯度下降模块,用于对所述损失函数进行梯度下降处理,得到稀疏化的 数据分类分级模型;
所述数据输入模块204,包括:
数据输入子模块,用于将所述m份语料对应的特征矩阵输入到所述稀疏 化的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别。
可选的,所述装置还包括:
分类分级模块,用于基于训练完成的数据分类分级模型确定目标数据的 数据类别和数据级别;
数据分析模块,用于根据所述数据类别和数据级别确定所述目标数据的 应用范围、授权对象、以及所述授权对象的操作权限;
管控策略确定模块,用于根据所述目标数据的应用范围、授权对象,以 及所述授权对象的操作权限确定所述目标数据对应的管控策略。
可选的,所述语料包括文档、表格、图片、音频、视频中的至少一种类 型的语料。
综上所述,本发明实施例通过从预设语料库中挑选m份语料作为训练样 本;根据预设的数据分类分级标准对m份语料进行预处理,将每份语料转换 为对应的数据模型,并确定m份语料各自对应的数据类别和数据级别;对每 份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;将m份语 料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各 自对应的预测类别和预测级别;确定数据分类分级模型对应的混淆矩阵;重 复执行上述步骤,直至所述混淆矩阵满足预设条件,得到训练完成的分类分 级模型,能够根据预设的数据分类分级标准进行模型训练,提高了数据分类 分级模型的准确度。
实施例二为方法实施例一对应的装置实施例,详细信息可以参照实施例 一的详细说明,在此不再赘述。
本发明实施例还提供了一种电子设备,包括:处理器、存储器以及存储 在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所 述程序时实现前述的方法。
本发明实施例还提供了一种可读存储介质,当所述存储介质中的指令由 电子设备的处理器执行时,使得电子设备能够执行前述的方法。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较 简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体 意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或 者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还 包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情 况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、 方法、物品或者装置中还存在另外的相同要素。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上 述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的, 本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求 所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (18)

1.一种数据分类分级模型的训练方法,其特征在于,所述方法包括:
从预设语料库中挑选m份语料作为训练样本,每份语料包括至少一个数据实体,每个数据实体包括至少一个属性特征;所述预设语料库包括数据实体清单、实体关系清单,每一个数据实体对应至少一种实体类别,每一种实体关系对应一个关系类别,所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个;所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个;
根据预设的数据分类分级标准对所述m份语料进行预处理,将每份语料转换为对应的数据模型,以及确定m份语料各自对应的数据类别和数据级别;所述确定m份语料各自对应的数据类别和数据级别包括:根据所述预设的数据分类分级标准确定m份语料各自对应的所述数据类别,根据所述数据类别确定级别特征,并根据所述级别特征确定每份语料各自对应的所述数据级别;所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项;
根据每份语料中包含的数据实体和所述数据实体包含的属性特征,对每份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;
将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别;
根据所述m份语料各自对应的数据类别和数据级别,以及所述m份语料各自对应的预测类别和预测级别,确定所述数据分类分级模型对应的混淆矩阵;
重复执行上述步骤,直至所述数据分类分级模型对应的混淆矩阵满足预设条件,得到训练完成的数据分类分级模型;
基于训练完成的数据分类分级模型确定目标数据的数据类别和数据级别;
根据所述数据类别和数据级别确定所述目标数据的应用范围、授权对象、以及所述授权对象的操作权限;
根据所述目标数据的应用范围、授权对象,以及所述授权对象的操作权限确定所述目标数据对应的管控策略。
2.根据权利要求1所述的方法,其特征在于,所述从预设语料库中挑选m份语料作为训练样本之前,所述方法还包括:
根据预设的数据分类分级标准确定待处理数据对应的数据实体清单,以及所述数据实体清单对应的实体关系清单;所述数据实体清单包含所述待处理数据包含的各个数据实体,所述实体关系清单包含所述各个数据实体之间的实体关系;
根据所述数据实体清单和所述实体关系清单对所述待处理数据进行筛选,得到用于训练数据分类分级模型的语料;
对所述语料中各个数据实体的实体类别以及所述数据实体之间的实体关系的关系类别进行标注;
根据标注后的语料生成所述待处理数据对应的预设语料库。
3.根据权利要求2所述的方法,其特征在于,所述根据预设的数据分类分级标准对所述m份语料进行预处理,将每份语料转换为对应的数据模型,包括:
根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系,以及所述数据实体对应的实体类别和所述实体关系对应的关系类别;
根据每份语料包含的数据实体和实体类别,提取每份语料对应的数据实体和所述数据实体对应的属性特征,得到每份语料对应的结构化数据;
根据所述数据实体之间的实体关系和所述实体关系对应的关系类别,对所述每份语料对应的结构化数据进行排列组合,得到每份语料对应的数据模型。
4.根据权利要求1所述的方法,其特征在于,所述根据预设的数据分类分级标准对所述m份语料进行预处理,确定m份语料各自对应的数据类别和数据级别,包括:
根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别;
根据所述各个数据实体对应的数据类别和数据级别,确定每份语料对应的数据类别和数据级别。
5.根据权利要求4所述的方法,其特征在于,所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别,包括:
确定企业的业务架构和业务域;
根据预设分类粒度、所述业务架构和所述业务域,以及各个业务域对应的数据特征,确定分类分级对象对应的数据类别和各个数据类别对应的数据实体;
将所述每份语料包含的各个数据实体与所述各个数据类别对应的数据实体进行匹配,确定所述每份语料包含的各个数据实体对应的数据类别。
6.根据权利要求4所述的方法,其特征在于,所述根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据级别,包括:
根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征;
根据每个数据实体对应的级别特征确定所述数据实体对应的数据级别。
7.根据权利要求1所述的方法,其特征在于,所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别之前,所述方法还包括:
对预先建立的数据分类分级模型中各个参数的权重值和偏置值进行正则化处理,得到正则化的数据分类分级模型;
确定所述正则化的数据分类分级模型对应的损失函数;
对所述损失函数进行梯度下降处理,得到稀疏化的数据分类分级模型;
所述将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别,包括:
将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述语料包括文档、表格、图片、音频、视频中的至少一种类型的语料。
9.一种数据分类分级模型的训练装置,其特征在于,所述装置包括:
训练样本挑选模块,用于从预设语料库中挑选m份语料作为训练样本,每份语料包括至少一个数据实体,每个数据实体包括至少一个属性特征;所述预设语料库包括数据实体清单、实体关系清单,每一个数据实体对应至少一种实体类别,每一种实体关系对应一个关系类别,所述实体类别包括人名、地址名称、组织机构名称、时间、数字中的至少一个;所述关系类别包括任务社会关系、物理方位关系、一般隶属关系、整体与部分关系、组织隶属关系、所有物品关系中的至少一个;
语料预处理模块,用于根据预设的数据分类分级标准对所述m份语料进行预处理,将每份语料转换为对应的数据模型,以及确定m份语料各自对应的数据类别和数据级别;所述确定m份语料各自对应的数据类别和数据级别包括:根据所述预设的数据分类分级标准确定m份语料各自对应的所述数据类别,根据所述数据类别确定级别特征,并根据所述级别特征确定每份语料各自对应的所述数据级别;所述级别特征包括管理要求、公开范围、影响业务和影响对象中的至少一项;
数据编码模块,用于根据每份语料中包含的数据实体和所述数据实体包含的属性特征,对每份语料对应的数据模型进行编码,得到每份语料对应的特征矩阵;
数据输入模块,用于将所述m份语料对应的特征矩阵输入到预先建立的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别;
混淆矩阵确定模块,用于根据所述m份语料各自对应的数据类别和数据级别,以及所述m份语料各自对应的预测类别和预测级别,确定所述数据分类分级模型对应的混淆矩阵;
训练控制模块,用于重复执行上述步骤,直至所述数据分类分级模型对应的混淆矩阵满足预设条件,得到训练完成的数据分类分级模型;
基于训练完成的数据分类分级模型确定目标数据的数据类别和数据级别;
根据所述数据类别和数据级别确定所述目标数据的应用范围、授权对象、以及所述授权对象的操作权限;
根据所述目标数据的应用范围、授权对象,以及所述授权对象的操作权限确定所述目标数据对应的管控策略。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
数据清单确定模块,用于根据预设的数据分类分级标准确定待处理数据对应的数据实体清单,以及所述数据实体清单对应的实体关系清单;所述数据实体清单包含所述待处理数据包含的各个数据实体,所述实体关系清单包含所述各个数据实体之间的实体关系;
数据筛选模块,用于根据所述数据实体清单和所述实体关系清单对所述待处理数据进行筛选,得到用于训练数据分类分级模型的语料;
语料标注模块,用于对所述语料中各个数据实体的实体类别以及所述数据实体之间的实体关系的关系类别进行标注;
预设语料库生成模块,用于根据标注后的语料生成所述待处理数据对应的预设语料库。
11.根据权利要求10所述的装置,其特征在于,所述语料预处理模块,包括:
语料分析子模块,用于根据所述预设语料库确定所述m份语料各自包含的数据实体和所述数据实体之间的实体关系,以及所述数据实体对应的实体类别和所述实体关系对应的关系类别;
数据提取子模块,用于根据每份语料包含的数据实体和实体类别,提取每份语料对应的数据实体和所述数据实体对应的属性特征,得到每份语料对应的结构化数据;
数据模型生成子模块,用于根据所述数据实体之间的实体关系和所述实体关系对应的关系类别,对所述每份语料对应的结构化数据进行排列组合,得到每份语料对应的数据模型。
12.根据权利要求9所述的装置,其特征在于,所述语料预处理模块,包括:
实体分类分级子模块,用于根据预设的数据分类分级标准确定每份语料包含的各个数据实体对应的数据类别和数据级别;
语料分类分级子模块,用于根据所述各个数据实体对应的数据类别和数据级别,确定每份语料对应的数据类别和数据级别。
13.根据权利要求12所述的装置,其特征在于,所述实体分类分级子模块,包括:
业务分析单元,用于确定企业的业务架构和业务域;
数据类别确定单元,用于根据预设分类粒度、所述业务架构和所述业务域,以及各个业务域对应的数据特征,确定分类分级对象对应的数据类别和各个数据类别对应的数据实体;
实体类别确定单元,用于将所述每份语料包含的各个数据实体与所述各个数据类别对应的数据实体进行匹配,确定所述每份语料包含的各个数据实体对应的数据类别。
14.根据权利要求12所述的装置,其特征在于,所述实体分类分级子模块,包括:
级别特征确定单元,用于根据每个数据实体对应的数据类别确定所述数据实体对应的级别特征;
实体级别确定单元,用于根据每个数据实体对应的级别特征确定所述数据实体对应的数据级别。
15.根据权利要求9所述的装置,其特征在于,所述装置还包括:
正则化处理模块,用于对预先建立的数据分类分级模型中各个参数的权重值和偏置值进行正则化处理,得到正则化的数据分类分级模型;
损失函数确定模块,用于确定所述正则化的数据分类分级模型对应的损失函数;
梯度下降模块,用于对所述损失函数进行梯度下降处理,得到稀疏化的数据分类分级模型;
所述数据输入模块,包括:
数据输入子模块,用于将所述m份语料对应的特征矩阵输入到所述稀疏化的数据分类分级模型中,得到m份语料各自对应的预测类别和预测级别。
16.根据权利要求9至15任一项所述的装置,其特征在于,所述语料包括文档、表格、图片、音频、视频中的至少一种类型的语料。
17.一种电子设备,其特征在于,包括:
处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至8中任一项所述的方法。
18.一种可读存储介质,其特征在于,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至8中任一项所述的方法。
CN202011631556.2A 2020-12-30 2020-12-30 一种数据分类分级模型的训练方法、装置及电子设备 Active CN112966100B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011631556.2A CN112966100B (zh) 2020-12-30 2020-12-30 一种数据分类分级模型的训练方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011631556.2A CN112966100B (zh) 2020-12-30 2020-12-30 一种数据分类分级模型的训练方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112966100A CN112966100A (zh) 2021-06-15
CN112966100B true CN112966100B (zh) 2022-05-31

Family

ID=76271210

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011631556.2A Active CN112966100B (zh) 2020-12-30 2020-12-30 一种数据分类分级模型的训练方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112966100B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114356911B (zh) * 2022-03-18 2022-05-20 四川省医学科学院·四川省人民医院 基于集合划分信息量最大化的数据缺失处理方法及系统
CN116738343B (zh) * 2023-08-08 2023-10-20 云筑信息科技(成都)有限公司 建筑行业物料数据识别方法、装置及电子设备
CN117610507A (zh) * 2023-11-24 2024-02-27 中国人民解放军军事科学院系统工程研究院 一种基于标准的数据处理方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323901B1 (en) * 2007-09-28 2016-04-26 Emc Corporation Data classification for digital rights management
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9785795B2 (en) * 2014-05-10 2017-10-10 Informatica, LLC Identifying and securing sensitive data at its source
US10679143B2 (en) * 2016-07-01 2020-06-09 International Business Machines Corporation Multi-layer information fusing for prediction
WO2018077401A1 (en) * 2016-10-26 2018-05-03 Swiss Reinsurance Company Ltd. Data extraction engine for structured, semi-structured and unstructured data with automated labeling and classification of data patterns or data elements therein, and corresponding method thereof
CN110263803A (zh) * 2019-04-22 2019-09-20 阿里巴巴集团控股有限公司 样本数据的处理方法、装置、服务器和存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9323901B1 (en) * 2007-09-28 2016-04-26 Emc Corporation Data classification for digital rights management
WO2020133039A1 (zh) * 2018-12-27 2020-07-02 深圳市优必选科技有限公司 对话语料中实体的识别方法、装置和计算机设备

Also Published As

Publication number Publication date
CN112966100A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN112966100B (zh) 一种数据分类分级模型的训练方法、装置及电子设备
CN108876600B (zh) 预警信息推送方法、装置、计算机设备和介质
US20200250139A1 (en) Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction
US20200279105A1 (en) Deep learning engine and methods for content and context aware data classification
CN112434024B (zh) 面向关系型数据库的数据字典生成方法、装置、设备及介质
Jallan et al. Text mining of the securities and exchange commission financial filings of publicly traded construction firms using deep learning to identify and assess risk
US20210201270A1 (en) Machine learning-based change control systems
CN117236647B (zh) 一种基于人工智能的岗位招聘分析方法及系统
KR20210033294A (ko) 자동보고서생성장치 및 그 동작 방법
CN115374354A (zh) 基于机器学习的科技服务推荐方法、装置、设备及介质
CN116402630B (zh) 一种基于表征学习的财务风险预测方法及系统
CN115982429B (zh) 一种基于流程控制的知识管理方法及系统
CN115936932A (zh) 司法文书的处理方法、装置、电子设备和存储介质
CN115618297A (zh) 识别异常企业的方法及其装置
Bello et al. Supply chain management: Risk assessment in automotive industry using Fuzzy-AHP model
CN113657443B (zh) 一种基于soinn网络的在线物联网设备识别方法
Wei et al. Using machine learning to detect PII from attributes and supporting activities of information assets
CN115329169A (zh) 一种基于深度神经模型的档案归档计算方法
CN106326472B (zh) 一种侦查信息完整性验证方法
Roelands et al. Classifying businesses by economic activity using web-based text mining
Visalli et al. ESG Data Collection with Adaptive AI.
CN113408263A (zh) 刑期预测方法、装置、存储介质及电子设备
CN111754195A (zh) 信息处理的方法及装置、电子设备及计算机可读存储介质
CN116881687B (zh) 一种基于特征提取的电网敏感数据识别方法及装置
Kim et al. Analyzing the Effects of Topics Underlying Companies' Financial Disclosures about Risk Factors on Prediction of ESG Risk Ratings: Emphasis on BERTopic

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant