CN113627535A

CN113627535A - 基于数据安全和隐私保护的数据分级分类系统与方法

Info

Publication number: CN113627535A
Application number: CN202110923721.XA
Authority: CN
Inventors: 金华松; 何颖; 赖孝友; 翁武焰; 谢飞
Original assignee: Fujian Zhongxin Wang 'an Information Technology Co ltd
Current assignee: Fujian Zhongxin Wang 'an Information Technology Co ltd
Priority date: 2021-08-12
Filing date: 2021-08-12
Publication date: 2021-11-09

Abstract

本发明提出基于数据安全和隐私保护的数据分级分类系统与方法。系统包括数据接收子系统、数据识别子系统、数据筛选子系统、数据分类子系统以及数据分级子系统；数据接收子系统通过APR接口端接收待处理数据；数据识别子系统识别所述待处理数据的行业属性；数据筛选子系统从待识别数据中筛选出行业待处理数据；数据分类子系统用于对所述行业待处理数据进行分类；数据分级子系统基于所述分类结果，对行业待处理数据进行数据分级。所述方法包括数据接收步骤、数据识别步骤、数据筛选步骤、数据分类步骤以及数据分级步骤。本发明能够在保护数据隐私的情况下实现数据价值评估和数据分级分类，并且识别后的数据能够行业细化。

Description

基于数据安全和隐私保护的数据分级分类系统与方法

技术领域

本发明属于数据分级分类技术领域，尤其涉及一种基于数据安全和隐私保护的数据分级分类系统与方法、以及实现所述方法的计算机程序指令介质和电子装置。

背景技术

高价值的数据显然需要更严格的保护机制。如果没有实时的数据分类和管控，组织可能低估或高估数据集的价值，导致不准确的风险评估。错误管理将带来安全隐患，甚至发生关键数据泄露事件。而对所有数据都施以最高级别的保护，毫无疑问会造成巨大浪费，高额成本难以承受。数据分类分级能指导安全团队恰当有效地保护重要数据资产，这一切的前提都是正确的数据分级分类的实现。

数据分类，可理解为从业务或者行业角度出发，明确知道哪些数据（其实应该是元数据，更贴切一些应该是字段）属于哪个业务范畴，也就是类别。数据分级，不同于数据分类，对于大多数企业来说，更多是从满足监管要求的角度出发。数据分级属于数据安全领域，或许称呼它为敏感等级更为贴切。企业中的数据有的密级程度高、有的低、有的可公开、有的不可公开，敏感等级不同的数据对内使用时受到的保护策略不同，对外共享开放的程度也不同。

数据分级分类方面，可以通过应用机器学习、模式聚类、自然语言处理、语义分析、图像识别等技术，提取数据文件核心信息，对数据按照内容进行梳理，生成标注样本，经过反复的样本训练与模型修正，可以实现对数据自动、精准的分级分类。

中国发明专利CN110110081B提出一种用于移动互联网海量监测数据的分级分类处理方法，包括以下步骤：接收并解析监测日志数据，获取监测日志数据的协议类型；根据监测日志数据的协议类型，确定监测日志数据的存储级别；根据监测日志数据的存储级别，对监测日志数据进行存储本发明提供的将移动互联网海量数据按需分级分类监测的方法，可以根据业务需求动态配置数据分级分类存储的策略，并在海量日志数据向后端存储系统发送时加入分级存储的标签；通过对日志的分级、分类存储在能够满足业务需求的情况下减少对存储空间的使用，提升系统存储效率。

然而，发明人发现，现有的数据分级分类在安全性和隐私保护方面均存在欠缺；同时，现有的数据分级分类方法并不区分实时数据和存量数据，将导致额外的数据识别成本；此外，现有技术都是基于通用模型执行数据分级或者分类，而无法根据用户的主动要求执行个性化的分类，不能满足用户的特定分类要求，分类不能进一步细化，无法最大程度的挖掘数据价值。

发明内容

为解决上述技术问题，本发明提出一种基于数据安全和隐私保护的数据分级分类系统与方法、以及实现所述方法的计算机程序指令介质和电子装置。

具体而言，本发明的第一个方面，提供一种基于数据安全和隐私保护的数据分级分类系统，所述系统包括数据接收子系统、数据识别子系统、数据筛选子系统、数据分类子系统以及数据分级子系统。

更具体的，各个子系统具体功能实现如下：

所述数据接收子系统提供多个APR接口端，通过所述APR接口端，所述数据接收子系统从多个数据源接收待处理数据，所述多个数据源包括数据库和数据终端；

所述数据识别子系统连接所述数据接收子系统，识别所述待处理数据的行业属性；

所述数据筛选子系统，接收输入的行业筛选标准，基于所述行业筛选标准，从所述待处理数据中筛选出行业待处理数据；

所述数据分类子系统，用于对所述行业待处理数据进行分类，所述分类包括确定所述行业待处理数据包含的金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度；

所述数据分级子系统基于所述分类结果，对所述行业待处理数据进行数据分级和价值评估。

作为进一步的改进，所述数据分级分类系统包括实时数据分级分类模式和存量数据分级分类模式。

在所述实时数据分级分类模式下，关闭所述数据识别子系统，所述数据筛选子系统直接从所述数据接收子系统接收来自数据终端的第一待识别数据；

在所述存量数据分级分类模式下，所述数据筛选子系统从所述数据接收子系统接收来自数据库的第二待识别数据。

所述数据库包含多个行业分类子数据库；每个行业分类子数据对应一种行业属性；

所述数据接收子系统从所述数据终端接收第一待处理数据后，将第一待处理数据发送至所述数据识别子系统；

所述数据识别子系统识别出所述第一待处理数据的行业属性，并将所述第一待处理数据存贮至所述行业属性对应的第一行业分类子数据库。

作为进一步的优选，为保护数据隐私，所述APR接口端包含接口库，所述接口库包含字符串操作函数；通过所述字符串操作函数，对从所述多个数据源接收的待处理数据进行匿名化操作。

在本发明的第二个方面，提供一种基于数据安全和隐私保护的数据分级分类方法，所述方法可以基于前述第一个方面的所述的系统实现，所述方法包括多个步骤S100-S500，每个步骤可以通过单独的线程或者进程实现，当采用进程实现每个步骤时，存在步骤关系的两个进程之间通过数据管道（data pipeline）通信，必要时，采用单向数据管道通信。

具体来说，各个步骤实现如下：

S100数据接收步骤：用于接收待识别数据，所述待识别数据来自于数据库，和/或，数据终端，所述数据库为多个行业分类子数据库中的一个或者多个；所述数据终端包括移动终端和桌面终端；

S200数据识别步骤：用于识别来自数据终端的待识别数据的行业属性，并识别出行业属性的待识别数据存储至对应的行业分类子数据库；

S300数据筛选步骤：用于行业筛选标准，从所述待识别数据中筛选出行业待处理数据；

S400数据分类步骤：用于对所述行业待处理数据进行分类；

S500数据分级步骤：基于所述数据分类步骤的分类结果，对所述行业待处理数据进行数据分级和价值评估。

作为进一步的优选，在所述数据筛选步骤S300之前，所述方法还包括用户参数输入步骤；当所述用户参数输入步骤激活时，在执行所述方法时，跳过所述数据识别步骤S200。

在本发明的第三个方面，还公开一种电子装置，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行前述第二个方面所述的方法中的步骤的指令。

作为进一步的实现，所述电子装置可以是包含处理器和存储器的终端设备，尤其是图像处理终端设备，包括移动终端、桌面终端、服务器以及服务器集群等，其包含存储介质，通过程序指令自动化的执行程序指令，用于实现所述方法的全部步骤指令。

本发明通过数据接收步骤、数据识别步骤、数据筛选步骤、数据分类步骤以及数据分级步骤，能够在保护数据隐私的情况下实现数据价值评估和数据分级分类，并且识别后的数据能够行业细化；并且，本发明的技术方案能够同时实现存量数据与实时数据的分级分类不会导致额外的数据识别成本；最后，本发明可根据用户的主动要求执行个性化的分类，满足用户的特定分类要求，分类可进一步细化，最大程度的挖掘数据价值。

本发明的进一步优点将结合说明书附图在具体实施例部分进一步详细体现。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的一种基于数据安全和隐私保护的数据分级分类系统的子系统组成示意图

图2是图1所述一种基于数据安全和隐私保护的数据分级分类系统中数据接收与识别子系统以及APR接口的融合处理示意图

图3是图1所述一种基于数据安全和隐私保护的数据分级分类系统的部分工作原理示意图

图4是基于图1系统实现的基于数据安全和隐私保护的数据分级分类方法的主体流程图

图5是图4所述方法的进一步优选实施例

图6是实现图4或图5所述方法流程的计算机可读存储介质与终端设备的示意图

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述。

参照图1，是本发明一个实施例的一种基于数据安全和隐私保护的数据分级分类系统的子系统组成示意图。

在图1中，所述系统包括数据接收子系统、数据识别子系统、数据筛选子系统、数据分类子系统、数据分级子系统以及用户参数输入子系统。

并且，所述数据识别子系统采用了不同的圆点矩形框表示，以显示其工作状态与其他子系统的不同，这属于本发明的技术方案的改进构思之一，将在后续重点描述。

图2是图1所述一种基于数据安全和隐私保护的数据分级分类系统中数据接收与识别子系统以及APR接口的融合处理示意图。

结合图1-图2，详细介绍本发明的一个具体实施例如下：

在一个实施例中，所述数据接收子系统提供多个APR接口端，通过所述APR接口端，所述数据接收子系统从多个数据源接收待处理数据，所述多个数据源包括数据库和数据终端。

这里的数据终端，包括桌面终端和移动终端；这里的数据库，包含多个行业分类子数据库；每个行业分类子数据对应一种行业属性。

具体到本实施例中，数据终端用于产生实时的数据，所述数据库用于存储存量数据，以及将识别后的实时数据储存至对应的行业分类子数据库（从而成为存量数据）。

具体的，所述数据识别子系统连接所述数据接收子系统，识别所述待处理数据的行业属性。

接下来重点介绍本发明为保护数据隐私使用的APR接口端。

总体来说，所述APR接口端包含（连接）接口库，所述接口库包含字符串操作函数；

本发明创造型的在数据分级分类中使用了APR。

从本质上来说，ARP是一个程序接口。

APR(Apache portable Run-time libraries，Apache可移植运行库)的目的如其名称一样，主要为上层的应用程序提供一个可以跨越多操作系统平台使用的底层支持接口库。

APR使得平台细节的处理进行下移。对于应用程序而言，它们根本就不需要考虑具体的平台，不管是Unix、Linux还是Window，应用程序执行的接口基本都是统一一致的。因此对于APR而言，可移植性和统一的上层接口是其考虑的一个重点。

在本实施例使用的APR端口中，支持如下基本类型及其对应功能：

atomic/srclib/apr/atomic 原子操作

dso/srclib/apr/dso 动态加载共享库

fileio/srclib/apr/file_io 文件IO处理

mmap/srclib/apr/mmap 内存映射文件

locks/srclib/apr/locks 进程和线程互斥锁

memory/srclib/apr/memory 内存池操作

network_io/srclib/apr/network_io 网络IO处理

poll/srclib/apr/poll 轮询IO

table/srclib/apr/tables Apache数组(堆栈)和表格以及哈希表

process /srclib/apr/threadproc 进程和线程操作

user /srclib/apr/user 用户和用户组操作

time /srclib/apr/time 时间操作

string/srclib/apr/strings 字符串操作

password /srclib/apr/passwd 终端密码处理

misc /srclib/apr/misc 大杂烩，不属于其余类的任何apr类型都可以放在里面

shmem /srclib/apr/shmem 共享内存

random /srclib/apr/random 随机数生成库

因此，在本实施例中，通过所述字符串操作命令，对从所述多个数据源接收的待处理数据进行匿名化操作。

需要注意的是，在图2中，明确显示，所述数据接收子系统与数据终端之间、数据数据接收子系统与数据库（行业分类子数据库）之间，均采用APR端口，这就确保了，无论是存量数据的分级分类，还是实时数据的分级分类，都是在相应的匿名化状态下处理，有效的确保了数据隐私安全。

在图1-图2中，所述数据筛选子系统，接收输入的行业筛选标准，基于所述行业筛选标准，从所述待识别数据中筛选出行业待处理数据；

所述数据分类子系统，用于对所述行业待处理数据进行分类；

接下来参见图3。

所述数据筛选子系统基于所述行业筛选标准，从所述待识别数据中筛选出行业待处理数据，具体包括：

当所述用户参数输入子系统监测到用户参数输入时，关闭所述数据识别子系统，所述数据筛选子系统直接从所述数据接收子系统接收来自数据终端的第一待识别数据；

基于所述用户参数，确定行业筛选标准；

基于所述行业筛选标准，确定第二行业分类子数据库；

从所述第一待识别数据中确定符合所述行业筛选标准的目标数据块；

将所述第二行业分类子数据库和所述目标数据库组合，作为所述行业待处理数据。

上述过程体现了本发明所述数据分级分类系统包括实时数据分级分类模式和存量数据分级分类模式。

在上述实施例中，所述数据分类子系统，用于对所述行业待处理数据进行分类，所述分类包括确定所述行业待处理数据包含的金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度；

所述数据分级子系统输出多个数据分级级别，所述数据分级级别和价值程度与所述金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度正相关。

作为简单的示意性的例子而非限制，可以根据如下几个方面确定数据分级级别和价值：

①资金/金融的数量判断，数量大，价值高，分级级别高；

②数据量大，价值高，分级级别高；

③数据分类细的，价值高，分级级别高；

④数据复杂程度大，价值高，分级级别高；

⑤数据关联关系大、亲密度高，价值高，分级级别高。

基于图1-图3所述的硬件结构和原理，图4给出基于数据安全和隐私保护的数据分级分类方法的主体流程图。

在图4中，所述方法包括数据接收步骤、数据识别步骤、数据筛选步骤、数据分类步骤以及数据分级步骤。

其中，所述数据识别步骤采用了不同的圆点矩形框表示，以显示其工作状态与其他步骤的不同，和前述数据识别子系统的状态相对应，其改进与特点已在前述阐述，后续将简单说明。

图4所述各个步骤的具体实现如下：

数据接收步骤：用于接收待识别数据，所述待识别数据来自于数据库，和/或，数据终端，所述数据库为多个行业分类子数据库中的一个或者多个；所述数据终端包括移动终端和桌面终端；

数据识别步骤：用于识别来自数据终端的待识别数据的行业属性，并识别出行业属性的待识别数据存储至对应的行业分类子数据库；

每个所述行业分类子数据对应一种行业属性。

数据筛选步骤：用于行业筛选标准，从所述待识别数据中筛选出行业待处理数据；

数据分类步骤：用于对所述行业待处理数据进行分类；

数据分级步骤：基于所述数据分类步骤的分类结果，对所述行业待处理数据进行数据分级；

其中，所述行业待处理数据具备多种分级属性，所述分级属性包括所述行业待处理数据包含的金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度；

所述数据分级步骤输出多个数据分级级别，所述数据分级级别和价值程度与所述金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度正相关。

在所述数据接收步骤中，通过APR端口连接所述数据终端和所述数据库；

所述APR端口连接接口库，所述接口库包含字符串操作函数（命令）；

通过所述字符串操作函数，对接收的待识别数据进行匿名化操作。

上述每个步骤可以通过单独的线程或者进程实现，当采用进程实现每个步骤时，存在步骤关系的两个进程之间通过数据管道（data pipeline）通信，必要时，采用单向数据管道通信。

例如，数据筛选步骤、数据分类步骤以及数据分级步骤依次采用单向数据管道通信，进一步确保数据传输安全，不受其他进程影响。

需要注意的是，图4所述数据识别步骤是可选的。

当所述方法用于实时数据的分级分类时，跳过所述数据识别步骤。

作为进一步的优选，参见图5，在所述数据筛选步骤之前，所述方法还包括用户参数输入步骤；当所述用户参数输入步骤激活时进入实时数据分级分类模式，此时执行所述方法时，跳过所述数据识别步骤。

图5和图4所述方法可以通过包含处理器和存储器的终端设备，尤其是图像处理终端设备，包括移动终端、桌面终端、服务器以及服务器集群等，通过程序指令自动化的执行。

因此，参见图6，本实施例还提供一种计算机可读存储介质，其上存储有计算机程序指令；通过包含处理器和存储器的图像终端处理设备，执行所述程序指令，用于实现所述方法的全部或者部分步骤。所述处理器和存储器通过总线连接，构成终端设备的内部通信。

本发明能够在保护数据隐私的情况下实现数据价值评估和数据分级分类，并且识别后的数据能够行业细化，具体体现在：

（1）本发明的技术方案能够同时实现存量数据与实时数据的分级分类；

（2）本发明的分级分类方法还能够确保数据传输的安全性；

（3）本发明的技术方案能够同时实现存量数据与实时数据的分级分类不会导致额外的数据识别成本；

（4）本发明可根据用户的主动要求执行个性化的分类，满足用户的特定分类要求，分类可进一步细化，最大程度的挖掘数据价值；

（5）通过数据库/终端-apr接口、识别、筛选、-分类、-分级，可进一步实现内容识别与行业方向识别，做到识别后的数据能够细化。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于数据安全和隐私保护的数据分级分类系统，所述系统包括数据接收子系统、数据识别子系统、数据筛选子系统、数据分类子系统以及数据分级子系统；

其特征在于：

2.如权利要求1所述的一种基于数据安全和隐私保护的数据分级分类系统，其特征在于：

3.如权利要求1所述的一种基于数据安全和隐私保护的数据分级分类系统，其特征在于：

所述APR接口端包含接口库，所述接口库包含字符串操作函数；

通过所述字符串操作函数，对从所述多个数据源接收的待处理数据进行匿名化操作。

4.如权利要求2所述的一种基于数据安全和隐私保护的数据分级分类系统，其特征在于：

所述系统还包括用户参数输入子系统；

所述数据筛选子系统基于所述行业筛选标准，从所述待处理数据中筛选出行业待处理数据，具体包括：

基于所述用户参数，确定行业筛选标准；

基于所述行业筛选标准，确定第二行业分类子数据库；

5.如权利要求1-4任一项所述的一种基于数据安全和隐私保护的数据分级分类系统，其特征在于：

所述数据分级子系统输出多个数据分级级别，所述数据分级级别与所述金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度正相关。

6.一种基于数据安全和隐私保护的数据分级分类方法，所述方法包括数据接收步骤、数据识别步骤、数据筛选步骤、数据分类步骤以及数据分级步骤，

其特征在于，上述各个步骤具体实现如下：

数据分类步骤：用于对所述行业待处理数据进行分类；

数据分级步骤：基于所述数据分类步骤的分类结果，对所述行业待处理数据进行数据分级和价值评估；

所述数据分级步骤输出多个数据分级级别，所述数据分级级别与所述金融数量、资金数量、数据块的时序跨度、数据块的空间跨度和数据块之间的关联度正相关。

7.如权利要求6所述的一种基于数据安全和隐私保护的数据分级分类方法，其特征在于：

所述数据接收步骤通过APR端口连接所述数据终端和所述数据库；

所述APR端口连接接口库，所述接口库包含字符串操作函数；

8.如权利要求6或7所述的一种基于数据安全和隐私保护的数据分级分类方法，其特征在于：

每个所述行业分类子数据对应一种行业属性。

9.如权利要求6或7所述的一种基于数据安全和隐私保护的数据分级分类方法，其特征在于：

在所述数据筛选步骤之前，所述方法还包括用户参数输入步骤；

当所述用户参数输入步骤激活时，跳过所述数据识别步骤。

10.一种电子装置，包括处理器、存储器、通信接口，以及一个或多个程序，所述一个或多个程序被存储在所述存储器中，并且被配置由所述处理器执行，所述程序包括用于执行权利要求6-9任一项所述方法的步骤的指令。