CN116257877A

CN116257877A - 一种面向隐私计算的数据分类分级方法

Info

Publication number: CN116257877A
Application number: CN202211684838.8A
Authority: CN
Inventors: 刘旭东; 李博; 薛晨; 刘永生
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-12-27
Filing date: 2022-12-27
Publication date: 2023-06-13

Abstract

本发明通过网络安全领域的方法，实现了一种面向隐私计算的数据分类分级方法。通过构建一个面向隐私计算的数据分类分级方法系统为基础，并在其中数据资产分级分类功能模块中嵌入：政府数据多维度安全属性方法，首先通过基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术扩展数据类型分析脚本技术来对政务数据的业务数据类型进行判定，之后通过基于关键字与脚本与自定义规则结合的逻辑算法进行分级分类，自动挖掘出更细粒度的数据分类分级安全属性。最终实现针对政务数据范围广，内容多，类型复杂的特点，在现有数据分级分类两个维度基础上，进一步增加更多维度的安全属性的效果。

Description

一种面向隐私计算的数据分类分级方法

技术领域

本发明涉及信息安全技术领域，尤其涉及一种面向隐私计算的数据分类分级方法。

背景技术

政务数据是市政工作的核心数据，政务数据涉及的范围广，内容复杂、多样，合理有效的识别数据和管理数据是政务数据安全使用的关键。目前这些政务数据存储在基于区块链技术的长安链基础设施上，其是一个高性能、高可信的新型数字基础设施，可一定程度上支撑政务数据的安全使用。为了进一步挖掘数据价值，实现数据安全共享，现微芯院已启动了基于区块链技术的隐私计算平台建设项目，目的是让数据更加安全进行分享。但并不是所有数据都需要高水平的安全防护，虽然隐私计算平台支持不同安全级别的计算，但还缺少数据分类分级信息作为使用不同算法的指引。本发现就是在隐私计算前期环节，通过自动化技术手段，实现数据快速分类分级，为后续的数据计算处理提供必要的分类分级信息，满足政务数据在隐私计算平台上的安全使用需求。

目前在数据分类分级方面，现有技术大多是基于机器学习算法的分类分级；还有的是通过自然语言分析来进行分类分级。虽然这些技术看起来更具智能性，但由于训练使用的数据往往不全，导致准确率不高，实用性不强。本发明首先通过系统内置数据类型识别算法知识库+自定义可扩展数据类型分析脚本来识别政务数据类型，然后基于关键字+脚本+自定义规则结合的逻辑算法，实现对政务数据的分类分级挖掘。经验证，本方法在政务实际环境上，灵活性更强，准确率更高，满足政务数据在隐私计算过中分级保护的需求。

目前，基于机器学习、自然语言分析的元数据分类分级方法依赖大量的业务数据进行训练和学习，而政务数据由于高度敏感不能对外共享，导致训练模型识别准确率不高，最终很难再政务实际场景中使用。

本发明不依赖于大量的业务数据进行训练，通过内置的知识库+自定义脚本分析业务数据，标记元数据的数据业务类型，结合基于关键字+脚本+自定义规则结合的算法，实现对政务数据更精准的分类分级。

发明内容

为此，本发明首先提出一种面向隐私计算的数据分类分级方法，通过构建一个面向隐私计算的数据分类分级方法系统为基础，系统中设置功能模块为：数据资产注册、数据资产采集、数据资产分级分类、政务分级分类标准管理、隐私计算分级分类接口，并在所述数据资产分级分类功能模块中嵌入：政府数据多维度安全属性方法，首先通过基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术扩展数据类型分析脚本技术来对政务数据的业务数据类型进行判定，之后通过基于关键字与脚本与自定义规则结合的逻辑算法进行分级分类，自动挖掘出更细粒度的数据分类分级安全属性。

所述政府数据多维度安全属性方法通过在所述数据分级分类中设置安全属性实现，所述安全属性包括重要程度、敏感属性、政务数据属性、开放程度、影响程度、影响范围、可控程度。

所述基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术首先对采集的业务数据进行遍历，对于每一条业务数据，遍历内置识别算法数据库识别业务类型数据，如果没有识别出业务类型数据则遍历自定义脚本识别业务类型数据，如果识别，则标记数据类型而后保存，进而处理下一条业务数据，直到遍历业务数据结束。

所述识别业务数据类型的内部算法流程为：对于一条业务数据，首先遍历识别算法，如果找到匹配的数据类型，则获取下一条业务数据，当遍历结束后，计算匹配率，当匹配率大驭规定值则返回识别后的数据类型，否则认为自定义脚本识别。

所述基于关键字与脚本与自定义规则结合的逻辑算法的具体流程为：采用基于关键字+脚本+自定义规则结合的方式来识别数据分类分级，输入元素包括：关键字、逻辑命令、数据库元数据内容、数据类型、以及自定义脚本、优先级等，首先以数据资产元数据属性作为参数建立识别项，并指定逻辑运算规则，一条规则可以有多个识别项，各个识别项是“与或”的关系，联合在一起形成一条识别规则，在识别规则定义后，融合到逻辑算法脚本中，首先选择资产元数据属性，之后选择逻辑判断类型、定义关键字内容，之后判断是否需要增加下一个识别项，如果是则建立新的识别项，否则启动生成数据分类识别规则，并存储识别规则作为政务数据分类分级规则，进而得到元数据分类分级结果，具体流程是：首先对规则排序，按规则的优先级进行排序，优先级高的先运算。然后遍历数据资产内容，同时遍历规则，将规则中自定义脚本作为逻辑判断单元，编译成逻辑运算代码，通过逻辑运算引擎进行运算。如果数据资产匹配某条规则，则以当前规则中的分类分级，作为此元数据的分类分级。

本发明所要实现的技术效果在于：

(1)政府数据多维度安全属性：针对政务数据范围广，内容多，类型复杂的特点，在现有数据分级分类两个维度基础上，进一步增加更多维度的安全属性。包括7种分类属性：重要数据、敏感属性、政务数据属性、开放程度、影响程度、影响范围、可控程度。通过基本的分类分级与更多维度安全属性联合定义政务数据安全属性和级别，有助于政务数据的更细颗粒度的数据安全属性标记，从而让隐私计算平台在处理政务数据过程中更精准选择对应的隐私计算算法。

(2)基于内置数据类型识别算法知识库+自定义可扩展数据类型分析脚本：内嵌解析基础业务数据类型知识库和针对特有业务属性的自定义脚本相结合方式进行分析挖掘政务数据的数据类型，并作为分析政务数据分类分级的必要条件。

(3)基于关键字+脚本+自定义规则结合的逻辑算法：结合关键字、脚本、自定义规则三种方法，让数据资产分类分级识别更加精确，输出政府数据多维度安全属性识别结果。照比人工智能识别算法更加实用更精确，同时照比传统的关键字算法，更加丰富，可以通过脚本与自定义规则进行扩展，兼容灵活扩充识别逻辑算法的能力。

附图说明

图1基于内置数据类型识别算法知识库+自定义可扩展分析脚本数据类型识别整体流程；

图2识别业务数据类型内部算法流程；

图3建立数据分类识别规则的流程；

图4元数据的分类分级具体流程；

图5系统架构。

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种面向隐私计算的数据分类分级方法。

方法通过构建一个面向隐私计算的数据分类分级方法系统为基础，构建系统的各功能模块如下：数据资产注册、数据资产采集、数据资产分级分类、政务分级分类标准管理、隐私计算分级分类接口，其中数据资产注册后输入数据资产采集模块，采集后结合政务分级分类标准管理进行数据资产分级分类，最终通过隐私计算分级分类接口输出隐私计算结果，具体架构如图5所示，并在所述数据资产分级分类功能模块中嵌入：政府数据多维度安全属性方法，首先通过基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术扩展数据类型分析脚本技术来对政务数据的业务数据类型进行判定，之后通过基于关键字与脚本与自定义规则结合的逻辑算法进行分级分类，自动挖掘出更细粒度的数据分类分级安全属性。

其中：1)数据资产注册：负责对政务数据资产进行注册，支持数据资产的展示、修改、删除等操作。数据资产信息包括：资产IP地址，端口，登录用户，登录密码等信息；2)数据资产采集：通过程序连接数据资产,扫描数据库内的表与字段信息，采集数据库元数据和业务数据，并存储到本系统中；3)数据资产分级分类：读取采集后的元数据与业务数据，采用内置数据类型识别算法知识库+自定义可扩展数据类型分析脚本来识别出政务数据的数据类型；然后基于关键字+脚本+自定义规则结合的逻辑算法，实现对政务数据的分级分类。最后将挖掘出来的结果存储到系统中；4)政务分级分类标准管理：制定针对政务数据的分级分类标准，用户可修改与自定义；6)隐私计算分级分类接口：提供分级分类信息给隐私计算平台，让其根据不同级别的数据采用对应强度的隐私计算算法，实现差异化的数据防护。

政府数据多维度安全属性方法：

针对政务数据范围广，内容多，类型复杂的特点，标准中的数据分级分类定义已经不能满足隐私计算的需求，本文提出在数据分级分类中进一步增加更多维度的安全属性。提出的政务数据新的安全属性如下：

上面的政务数据多维度安全属性，在系统中是按照下面的数据结构体现。

{

dataCategory:{

dataCategoryName：string，//数据分类名称

dataCategoryCode:string，//数据分类编码

dataLevel：int，//数据级别

dataImport：string，//数据重要程度

dataSensitive:string,//数据敏感属性

dataGovernment：string，//政务数据属性

dataOpen：string，//开放程度

dataInfluenceLeve：string，//影响程度

dataInfluenceRange：string，//影响范围

dataControllableRange：string//可控程度

}

通过增加更多维度数据分类安全属性，可为挖掘出来的敏感数据标记更加丰富的安全属性，从而让隐私计算平台具有更准确的隐私计算算法选择。最终实现数据快速的安全分享与数据价值挖掘。

基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本：

本发明提出的数据分类分级分成2个步骤，第一个步骤就是基于内置数据类型识别算法知识库+自定义可扩展数据类型分析脚本技术来对政务数据的业务数据类型进行判定。本系统内嵌了基础的业务数据类型识别算法知识库，其可覆盖通用的数据类型。然后结合可扩展的自定义脚本进一步对业务数据类型进行挖掘。内置的数据类型识别算法知识库：

/>

上述的内置数据类型识别算法知识库会用在下面数据类型识别流程中。首先通过数据采集功能，将业务数据存在到系统数据库中。然后上述识别算法进行依次数据类型挖掘，在遍历之后会标记业务数据所属的数据类型，对于未识别出来的数据，可经过增加自定义脚本算法分析识别，补充内置算法的不足。最终被识别出来的数据类型信息保存到元数据表中。图1描述了实现过程。

图1中的识别业务数据类型的流程如图2所示

基于关键字+脚本+自定义规则结合的逻辑算法：

在数据类型识别之后，开始对数据资产进行分类，其过程是采用基于关键字+脚本+自定义规则结合的方式来识别数据分类分级，此算法包括输入元素：关键字、逻辑命令、数据库元数据内容、数据类型、以及自定义脚本、优先级等。具体过程方式：以数据资产元数据属性作为参数建立识别项，并指定逻辑运算规则，如：正则匹配、等于、大于等于、包含、不包含等逻辑规则进行与、或、非、异或等多种逻辑运算相结。一条规则可以有多个识别项，各个识别项是“与或”的关系，联合在一起形成一条识别规则。在识别规则定义后，融合到逻辑算法脚本中，作为政务数据分类分级规则。举例：为数据分类为“驾驶证编号(A1-1-3)”建立的分类规则的逻辑运算部分：

(dataTypeTags equal driverLicense)||(columnName equalIgnorecasedriver_license_number)||(columnName equalIgnorecase driver_code)||

(columnName equalIgnorecase driver_no)

其建立数据分类识别规则的流程如图3所示。

在分类规则建立后，开始分析采集到的数据资产，得出元数据分类分级结果。具体流程是：首先对规则排序，按规则的优先级进行排序，优先级高的先运算。然后遍历数据资产内容，同时遍历规则，将规则中自定义脚本作为逻辑判断单元，编译成逻辑运算代码，通过逻辑运算引擎进行运算。如果数据资产匹配某条规则，则以当前规则中的分类分级，作为此元数据的分类分级。具体流程如图4所示。

数据分类识别流程：

首先创建分类识别规则，再对已经采集的资产数据进行逻辑运算分析分析并将分类结果进行存储。具体流程：1)创建分类识别规则：定义分类识别规则，利用数据资产元数据属性，建立逻辑运算规则，定义规则优先级，并将规则进行存储；2)开始分析：用已经采集的资产数据做为输入，运算分类识别规则，识别业务数据内容确定数据分类；3)遍历资产元数据：遍历已经采集的资产数据，并将数据内容作为输入参数，按顺序对分类识别规则进行逻辑运算；4)生成逻辑运算脚本：根据分类识别规则内容，生成可以动态运行的逻辑运算脚本；5)运算逻辑脚本：通过脚本引擎对生成的逻辑运算脚本进行运算，得出运算结果，如果运算结果为true，说明当前业务资产数据符合定义的分类规则，并将规则中指定的分类内容设置到资产数据中。重复流程“3)”直至遍历完成所有业务资产数据。

Claims

1.一种面向隐私计算的数据分类分级方法，其特征在于：通过构建一个面向隐私计算的数据分类分级方法系统为基础，系统中设置功能模块为：数据资产注册、数据资产采集、数据资产分级分类、政务分级分类标准管理、隐私计算分级分类接口，并在所述数据资产分级分类功能模块中嵌入：政府数据多维度安全属性方法，首先通过基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术扩展数据类型分析脚本技术来对政务数据的业务数据类型进行判定，之后通过基于关键字与脚本与自定义规则结合的逻辑算法进行分级分类，自动挖掘出更细粒度的数据分类分级安全属性。

2.如权利要求1所述的一种面向隐私计算的数据分类分级方法，其特征在于：所述政府数据多维度安全属性方法通过在所述数据分级分类中设置安全属性实现，所述安全属性包括重要程度、敏感属性、政务数据属性、开放程度、影响程度、影响范围、可控程度。

3.如权利要求2所述的一种面向隐私计算的数据分类分级方法，其特征在于：所述基于内置数据类型识别算法知识库和自定义可扩展数据类型分析脚本技术首先对采集的业务数据进行遍历，对于每一条业务数据，遍历内置识别算法数据库识别业务类型数据，如果没有识别出业务类型数据则遍历自定义脚本识别业务类型数据，如果识别，则标记数据类型而后保存，进而处理下一条业务数据，直到遍历业务数据结束。

4.如权利要求3所述的一种面向隐私计算的数据分类分级方法，其特征在于：所述识别业务数据类型的内部算法流程为：对于一条业务数据，首先遍历识别算法，如果找到匹配的数据类型，则获取下一条业务数据，当遍历结束后，计算匹配率，当匹配率大驭规定值则返回识别后的数据类型，否则认为自定义脚本识别。

5.如权利要求4所述的一种面向隐私计算的数据分类分级方法，其特征在于：所述基于关键字与脚本与自定义规则结合的逻辑算法的具体流程为：采用基于关键字+脚本+自定义规则结合的方式来识别数据分类分级，输入元素包括：关键字、逻辑命令、数据库元数据内容、数据类型、以及自定义脚本、优先级等，首先以数据资产元数据属性作为参数建立识别项，并指定逻辑运算规则，一条规则可以有多个识别项，各个识别项是“与或”的关系，联合在一起形成一条识别规则，在识别规则定义后，融合到逻辑算法脚本中，首先选择资产元数据属性，之后选择逻辑判断类型、定义关键字内容，之后判断是否需要增加下一个识别项，如果是则建立新的识别项，否则启动生成数据分类识别规则，并存储识别规则作为政务数据分类分级规则，进而得到元数据分类分级结果，具体流程是：首先对规则排序，按规则的优先级进行排序，优先级高的先运算。然后遍历数据资产内容，同时遍历规则，将规则中自定义脚本作为逻辑判断单元，编译成逻辑运算代码，通过逻辑运算引擎进行运算。如果数据资产匹配某条规则，则以当前规则中的分类分级，作为此元数据的分类分级。