CN116383693A

CN116383693A - 基于数据安全自动分类分级结果的数据外发方法

Info

Publication number: CN116383693A
Application number: CN202211706039.6A
Authority: CN
Inventors: 蔡亮; 邹贞贞; 刘志超; 杨潇健; 杜海蛟; 陈佩佩; 肖雪雪
Original assignee: Beijing Huoyin Technology Co ltd
Current assignee: Beijing Huoyin Technology Co ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-07-04

Abstract

本申请涉及一种基于数据安全自动分类分级结果的数据外发方法，通过对输入的客户数据进行安全扫描，利用模型对敏感信息进行关键信息提取和标记，结合敏感等级规则，利用数据安全自动分类分级系统对数据进行安全等级判别，相比于人工筛选分类出机密文件，这种自动分类分级系统利用基于人工智能的方法，可高效自动地发现敏感信息、根据不同场景做相应的敏感等级判定，为下一步的敏感数据外发做基础，提高外发效率和外发策略配置的准确度，使敏感数据既能在一定程度上流动不被泄露。本方法可以根据分类分级结果，配置敏感数据外发策略，从而实现数据安全自动外发，可选择的使用甚至无需繁琐的审核步骤，节约人力成本，提高数据外发效率。

Description

基于数据安全自动分类分级结果的数据外发方法

技术领域

本公开涉及数据安全技术领域，尤其涉及一种基于数据安全自动分类分级结果的数据外发方法、装置和控制系统。

背景技术

高速发展的互联网为人们生活带来便利的同时，也为人们带来个人隐私信息泄露的困扰；企业在高速信息化的同时，会产生如员工资料、客户资料、生产营销数据、研发技术方案等关乎企业生死存亡的机密数据。如何保护这些关键信息，日益成为信息安全领域专注的重点。

目前市面上的数据防泄漏手段主要是人工筛选分类出机密文件，后对敏感文件进行脱敏加密处理，需要的人力成本高，且每个人对机密文件的定义不尽相同，致使有些敏感信息被过度保护，数据无法正常流动，反之则有些敏感信息被忽略，可能造成关键信息泄露；在实际需要数据外发时，进行人工审批，审批步骤繁琐，每一次数据外发，数据外发系统需要人工配置不同的外发策略并进行审批，数据外发效率低下、人力资源浪费。

发明内容

为了解决上述问题，本申请提出一种基于数据安全自动分类分级结果的数据外发方法、装置和控制系统。

本申请一方面，提出一种基于数据安全自动分类分级结果的数据外发方法，包括如下步骤：

获取客户数据，并进行预处理，得到预处理数据；

基于人工智能算法，训练得到数据敏感信息提取模型；

将所述预处理数据送入所述数据敏感信息提取模型中，进行关键信息提取，得到关键信息；

根据预设的敏感等级规则，对所述关键信息赋予相应的敏感等级，进行安全等级判别，得到各个数据的安全分类分级结果；

根据数据外发策略，结合所述安全分类分级结果，外发数据。

作为本申请的一可选实施方案，可选地，获取客户数据，并进行预处理，得到预处理数据，包括：

将所述客户数据输入分布式大数据平台；

在所述分布式大数据平台上进行ETL转换，完成所述客户数据的预处理，得到所述预处理数据；

输出并保存所述预处理数据。

作为本申请的一可选实施方案，可选地，基于人工智能算法，训练得到数据敏感信息提取模型，包括：

预设训练集；

基于人工智能算法，利用所述训练集进行模型训练，并根据不同数据类型和任务目的，训练并得到不同类型的数据敏感信息提取模型；

分别保存各个类型的数据敏感信息提取模型。

作为本申请的一可选实施方案，可选地，根据预设的敏感等级规则，对所述关键信息赋予相应的敏感等级，进行安全等级判别，得到各个数据的安全分类分级结果，包括：

对各个预处理数据进行安全扫描，得到各个预处理数据的关键信息；

根据预设的敏感等级规则，对各个预处理数据的所述关键信息赋予相应的敏感等级，得到对应的各个具有数据敏感标签所识别的敏感信息；

根据敏感等级，对各个所述敏感信息进行安全分类分级，得到对应的各个安全分类分级结果，并形成为元数据；

其中，所述元数据为待进行数据外发策略配置的外发数据。

作为本申请的一可选实施方案，可选地，数据外发策略为如下安全策略方式中的至少一种：

数据过滤、数据加密、数据脱敏或水印。

作为本申请的一可选实施方案，可选地，根据数据外发策略，结合所述安全分类分级结果，外发数据，包括：

获取待外发的所述元数据的敏感等级；

根据所述敏感等级，为待外发的所述元数据配置对应的所述数据外发策略；

将已配置所述数据外发策略的所述元数据，上传至数据中转区，准备发布。

作为本申请的一可选实施方案，可选地，根据数据外发策略，结合所述安全分类分级结果，外发数据，还包括：

在所述数据中转区创建任务；

选择数据类型，根据所述数据类型获取与所述数据类型相对应的所述元数据；

调用对应的所述数据外发策略，对所述元数据进行安全处理，处理后进行外发。

本申请另一方面，提出一种实现所述基于数据安全自动分类分级结果的数据外发方法的装置，包括：

安全扫描模块，用于对预处理数据进行安全扫描，并利用数据敏感信息提取模型提取得到各个预处理数据的关键信息；根据预设的敏感等级规则，对各个预处理数据的所述关键信息赋予相应的敏感等级，得到对应的各个具有数据敏感标签所识别的敏感信息；根据敏感等级，对各个所述敏感信息进行安全分类分级，得到对应的各个安全分类分级结果，并形成为元数据；

策略配置模块，用于根据各个敏感信息的敏感等级，为各个所述元数据配置相对应的数据外发策略；

数据中转模块，用于创建数据外发任务，并调用与所述元数据配置相对应的数据外发策略进行安全处理，处理后进行外发。

本申请另一方面，还提出一种控制系统，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现所述的基于数据安全自动分类分级结果的数据外发方法。

本发明的技术效果：

本申请通过对输入的客户数据进行安全扫描，利用模型对敏感信息进行关键信息提取和标记，结合敏感等级规则，利用数据安全自动分类分级系统对数据进行安全等级判别，相比于人工筛选分类出机密文件，这种自动分类分级系统利用基于人工智能的方法，高效自动地发现敏感信息，而且可根据不同的应用场景，做相应的敏感等级判定，为下一步的敏感数据外发做基础，提高外发效率和外发策略配置的准确度，使敏感数据既能在一定程度上流动也保证敏感信息不被泄露。本方法可以根据分类分级结果，配置敏感数据外发策略，从而实现数据安全自动外发，可选择的使用甚至无需繁琐的审核步骤，节约人力成本，提高数据外发效率。

根据下面参考附图对示例性实施例的详细说明，本公开的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本公开的示例性实施例、特征和方面，并且用于解释本公开的原理。

图1示出为本发明的应用系统示意图；

图2示出为本发明基于数据安全自动分类分级结果的数据外发方法的实施流程示意图。

具体实施方式

以下将参考附图详细说明本公开的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

在这里专用的词“示例性”意为“用作例子、实施例或说明性”。这里作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

另外，为了更好的说明本公开，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本公开同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本公开的主旨。

实施例1

本发明的目的在于提供一种敏感数据外发自动控制方法，利用数据安全自动分类分级系统对数据进行安全等级判别，相比于人工筛选分类出机密文件，这种自动分类分级系统利用基于人工智能的方法，高效自动地发现敏感信息，而且可根据不同的应用场景，做相应的敏感等级判定，为下一步的敏感数据外发做基础，提高外发效率和外发策略配置的准确度，使敏感数据既能在一定程度上流动也保证敏感信息不被泄露。

根据分类分级结果，配置敏感数据外发策略，从而实现数据安全自动外发，可选择的使用甚至无需繁琐的审核步骤，节约人力成本，提高数据外发效率。

如图1所示，本方法的实施硬件基础主要包括：安全扫描模块，策略配置模块和数据中转模块。

1、安全扫描模块(数据安全自动分类分级系统)，对输入的客户数据(结构化数据/非结构化数据)进行数据分类分级。

将结构化数据/非结构化数据送入上述的数据安全自动分类分级系统进行安全扫描，将安全扫描的分类分级的结果数据形成元数据。具体的元数据是数据敏感标签和所送入敏感内容(带敏感等级的关键信息)的集合。

具体执行时，需要对待扫描的数据进行预处理，并利用提前训练得到的数据敏感信息提取模型，对预处理数据进行敏感信息提取，得到各个预处理数据的关键信息；根据预设的敏感等级规则，对各个预处理数据的所述关键信息赋予相应的敏感等级，得到对应的各个具有数据敏感标签所识别的敏感信息；根据敏感等级，对各个所述敏感信息进行安全分类分级，得到对应的各个安全分类分级结果，并形成为元数据。

2、策略配置模块，主要用于创建并部署不同的安全策略，用于根据各个敏感信息的敏感等级，为各个所述元数据配置相对应的数据外发策略；外发策略主要保证数据外发时的数据安全，基于数据敏感标签、敏感等级对数据进行外发安全策略配置。对于不同敏感等级的数据，可以应用不同的脱敏、加密等方法，具体主要包含数据过滤、数据加密、数据脱敏、数据水印等安全策略方式。

具体实现方式，系统为每种脱敏方式提供脱敏算法接口，以此来制定脱敏策略模板池，用户根据步骤一安全扫描后生成的数据目录再自己实际业务需要，选择所需要的脱敏策略模板。

3、数据中转模块，主要是在数据中转区，根据所创建的数据外发任务，对当前数据类型的元数据调用一条对应的数据外发策略，对当前的元数据进行安全处理，比如调用数据脱敏策略对元数据进行脱敏处理，将脱敏处理后的元数据通过如API网关接口外发出去。

数据中转区的任务配置流程，主要目的是将数据即需要外发的数据进行预处理。在创建数据中转区创建任务时，需要选择数据类型、已经配置好数据外发策略，任务执行完成后，可以预览基于外发策略的结果数据，例如手机号加密、身份证号加密等，同时可以将结果数据转为API接口。

数据中转区具体实现包括，提供要处理数据类型选择的交互界面，系统根据选择的数据类型，调用相应的安全扫描模型。根据安全扫描模型返回的数据目录，用户在第二步的脱敏策略模板池中，选择合适的脱敏策略。系统收到脱敏命令后，执行脱敏步骤，返回脱敏后数据。比如，在外发数据前，用户可以预览基于其所选外发策略的结果数据，将第三步的结果数据转为API(Application Programming Interface,应用程序编程接口)接口。

对API的请求地址、名称进行管理，同时对于已发布的API，提供API测试功能。

选定API的请求地址、名称后，即可自动进行外发。

下面将描述本方法的具体实施方式。

如图2所示，本申请一方面，提出一种基于数据安全自动分类分级结果的数据外发方法，包括如下步骤：

S1、获取客户数据，并进行预处理，得到预处理数据；

将所述客户数据输入分布式大数据平台；

输出并保存所述预处理数据。

预处理如下：

对要处理的大规模数据进行预处理，利用分布式大数据平台进行数据的ETL转换功能(系统自带的预处理功能模块)进行。

ETL(Extract-Transform-Load，提取-转换-加载)能力应用于此，完成非结构化数据必要的预处理，包括搜索、转换、清洗、挖掘等基本处理。具体如下：

从不同的数据库系统、文件系统中连接并抽取数据；

将抽取的数据根据规则进行拆分、合并、格式转换、判断值的合理性、去重、清零、删除错误数据等；

将已预处理后的数据加载到目标数据库中，供下一步使用。

S2、基于人工智能算法，训练得到数据敏感信息提取模型；

预设训练集；

分别保存各个类型的数据敏感信息提取模型。

训练人工智能模型如下：

(1)基于人工智能算法，训练数据敏感信息提取模型

对于不同类型的数据和任务目的，分别训练不同的模型提取不同类型的信息。利用自然语言处理模型来提取文本中的关键信息；利用计算机视觉模型来提取图片和视频信息；利用语音处理模型提取出语音片段中的关键信息。

(2)模型推理/应用

将预处理后的数据，送入训练好的模型中，提取出关键信息。

S3、将所述预处理数据送入所述数据敏感信息提取模型中，进行关键信息提取，得到关键信息；

S4、根据预设的敏感等级规则，对所述关键信息赋予相应的敏感等级，进行安全等级判别，得到各个数据的安全分类分级结果；

根据预设计的敏感等级规则，给第三步中提取出的关键信息赋予相应的敏感等级。

敏感等级规则，由用户自行设定，本实施例不限定。

S5、根据数据外发策略，结合所述安全分类分级结果，外发数据。

其中，所述元数据为待进行数据外发策略配置的外发数据。

元数据的形成，以及安全扫描，具体参见上述功能模块的原理描述。

数据过滤、数据加密、数据脱敏或水印。

本实施例，优选数据脱敏作为优选的数据外发策略，进行安全等级判定。

获取待外发的所述元数据的敏感等级；

所述元数据，根据自身的脱敏等级或者数据敏感标签，为其自动配置一条数据外发策略，可以由数据中转区自动调用该条元数据的数据外发策略，实现自动化的判定。

在所述数据中转区创建任务；

数据中转区创建任务以及调用策略对元数据进行判定的方法，以及外发的方法，具体参见上述应用系统处的描述，本处不作赘述。

因此，本申请通过利用数据安全自动分类分级系统对数据进行安全等级判别，根据分类分级结果，配置敏感数据外发策略，从而实现数据安全自动外发，可选择的使用甚至无需繁琐的审核步骤，节约人力成本，提高数据外发效率。

需要说明的是，尽管以数据过滤、数据加密、数据脱敏、数据水印等安全策略方式作为示例介绍了如上安全判定，但本领域技术人员能够理解，本公开应不限于此。事实上，用户完全可根据实际应用场景灵活设定数据加密/脱敏方式，只要可以按照上述技术方法实现本申请的技术功能即可。

显然，本领域的技术人员应该明白，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制方法的实施例的流程。

本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成的，程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各控制方法的实施例的流程。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-OnlyMemory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(FlashMemory)、硬盘(HardDiskDrive，缩写：HDD)或固态硬盘(Solid-StateDrive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

实施例2

基于实施例1的实施原理，本申请另一方面，提出一种实现所述基于数据安全自动分类分级结果的数据外发方法的装置，包括：

上述各个模块，参见实施例1的描述，本实施例不作赘述。

上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

实施例3

更进一步地，本申请另一方面，还提出一种控制系统，包括：

处理器；

用于存储处理器可执行指令的存储器；

本公开实施例来控制系统包括处理器以及用于存储处理器可执行指令的存储器。其中，处理器被配置为执行可执行指令时实现前面任一所述的一种基于数据安全自动分类分级结果的数据外发方法。

此处，应当指出的是，处理器的个数可以为一个或多个。同时，在本公开实施例的控制系统中，还可以包括输入装置和输出装置。其中，处理器、存储器、输入装置和输出装置之间可以通过总线连接，也可以通过其他方式连接，此处不进行具体限定。

存储器作为一计算机可读存储介质，可用于存储软件程序、计算机可执行程序和各种模块，如：本公开实施例的一种基于数据安全自动分类分级结果的数据外发方法所对应的程序或模块。处理器通过运行存储在存储器中的软件程序或模块，从而执行控制系统的各种功能应用及数据处理。

输入装置可用于接收输入的数字或信号。其中，信号可以为产生与设备/终端/服务器的用户设置以及功能控制有关的键信号。输出装置可以包括显示屏等显示设备。

以上已经描述了本公开的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.基于数据安全自动分类分级结果的数据外发方法，其特征在于，包括如下步骤：

获取客户数据，并进行预处理，得到预处理数据；

基于人工智能算法，训练得到数据敏感信息提取模型；

2.根据权利要求1所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，获取客户数据，并进行预处理，得到预处理数据，包括：

将所述客户数据输入分布式大数据平台；

输出并保存所述预处理数据。

3.根据权利要求1所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，基于人工智能算法，训练得到数据敏感信息提取模型，包括：

预设训练集；

分别保存各个类型的数据敏感信息提取模型。

4.根据权利要求1所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，根据预设的敏感等级规则，对所述关键信息赋予相应的敏感等级，进行安全等级判别，得到各个数据的安全分类分级结果，包括：

其中，所述元数据为待进行数据外发策略配置的外发数据。

5.根据权利要求4所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，数据外发策略为如下安全策略方式中的至少一种：

数据过滤、数据加密、数据脱敏或水印。

6.根据权利要求4所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，根据数据外发策略，结合所述安全分类分级结果，外发数据，包括：

获取待外发的所述元数据的敏感等级；

7.根据权利要求6所述的基于数据安全自动分类分级结果的数据外发方法，其特征在于，根据数据外发策略，结合所述安全分类分级结果，外发数据，还包括：

在所述数据中转区创建任务；

8.实现利要求1-7中任一项所述基于数据安全自动分类分级结果的数据外发方法的装置，其特征在于，包括：

9.控制系统，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述可执行指令时实现权利要求1-7中任一项所述的基于数据安全自动分类分级结果的数据外发方法。