CN109344258B

CN109344258B - 一种智能化自适应敏感数据识别系统及方法

Info

Publication number: CN109344258B
Application number: CN201811469970.0A
Authority: CN
Inventors: 陈天莹; 李霄
Original assignee: China Electronic Technology Cyber Security Co Ltd
Current assignee: China Electronic Technology Cyber Security Co Ltd
Priority date: 2018-11-28
Filing date: 2018-11-28
Publication date: 2021-11-12
Anticipated expiration: 2038-11-28
Also published as: CN109344258A

Abstract

本发明提供的自适应的敏感数据识别方式，解决了大数据环境下敏感数据识别存在的问题；本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题，有效提升了敏感数据识别的工作效率；本发明通过挖掘敏感数据的语义特征，提升了敏感数据识别的准确率；本发明结合基于文本内容、元数据与知识库三种敏感数据识别方式，优化敏感数据识别流程，提升敏感数据识别的准确率与效率。本发明提出了敏感类型自适应管理，解决了新的敏感类型增加困难的问题，提升了敏感类型对实际需求的灵活适应程度。

Description

一种智能化自适应敏感数据识别系统及方法

技术领域

本发明涉及计算机技术与信息安全的交叉技术领域，具体是一种基于大数据的智能化敏感数据识别系统及方法。

背景技术

在大数据时代，数据规模庞大、增长迅速、类型繁多、结构各异，且描述不规范，且这些数据中包含大量敏感数据，且85％为非结构化数据，这对敏感数据识别的高效性和准确性都提出了巨大的挑战。

传统的敏感数据发现方式主要采用基于人工定义及正则表达式两种方式。

1、基于人工定义的方式是通过定义关键词或者元数据信息，之后匹配关键词与元数据信息发现业务系统中的敏感数据；

2、基于正则表达式的方式是通过研究敏感数据的特征，按照敏感数据的结构组成规律，定义正则表达式，之后依据正则表达式匹配业务系统中的敏感数据。

但是随着数据量暴增并且类型越趋复杂，传统的敏感数据发现方式的弊端越来越明显，主要问题如下：

1、人工定义敏感关键词及元数据工作越来越繁重，且效率低下；

2、部分敏感数据具有结构特征，如身份证号、银行卡号等敏感类型，可以采用正则表达式进行匹配，但是对于没有结构特征的敏感数据，如地址、人名等敏感类型，无法采用正则表达式进行敏感数据发现；

3、正则表达式方式需要研究每类敏感数据的特征才能进行敏感数据发现，随着敏感类型增加，正则表达式会越来越多，直接影响到敏感数据发现的效率，且规则库维护困难，浪费资源；

4、基于正则表达式和人工定义敏感关键词和元数据仅能识别符合规则及匹配成功的敏感数据，具有敏感语义的敏感数据会遗漏，降低敏感数据识别的准确率，无法防止敏感数据的泄露；

5、当敏感需求出现变动时，需要耗费大量时间和精力对新的敏感类型进行修改。

因此，在大数据背景下，亟需新的方式来提升敏感数据发现的准确率与效率。

发明内容

为了达到上述目的，本发明提出一种智能化自适应敏感数据识别系统及方法。

本发明的一种智能化自适应敏感数据识别系统，包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块；所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块；所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块；所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块；所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块；所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。

其中，所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。

本发明的一种智能化自适应敏感数据识别方法，包括如下步骤：

s1、获取需要进行敏感数据识别的文本；

s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据；

s3、判断步骤s2是否识别出敏感类型，若是，转到步骤s4，若否，转到步骤s7；

s4、判断识别出的敏感类型是否需要校验，若是，转到步骤s5，若否，转到步骤s9；

s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型；

s6、判断步骤s5是否识别出敏感类型，若是，转到步骤s9，若否，转到步骤s12；

s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据；

s8、判断步骤s8是否识别出敏感类型，若是，转到步骤s9，若否，转到步骤s；

s9、返回文本包含的敏感数据类型；

s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据；

s11、判断步骤s10中是否识别出敏感类型，若是，转到步骤s9；若否，转到步骤s12；

s12、敏感数据识别结束。

采用基于文本语义的敏感数据识别方式识别敏感数据包括如下步骤：

w1、获取需要进行敏感数据识别的文本；

w2、对文本内容特征进行分析，分析文本特征得到分析结果，根据分析结果选择敏感数据识别方式，当文本内容特征明显，且偏向结构化数据时，进入步骤w6；当文本内容比较长，且语义特征明显、结构特征相对较弱时，进入步骤w3；

w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别；

w4、判断步骤w3中是否识别出敏感类型，若是，转到步骤w5，若否，转到步骤w；

w5、返回文本所包含的敏感数据类型；

w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别；

w7、判断步骤w7中是否识别出敏感类型，若是，转到步骤w5，若否，转到不走w8；

w8、结束基于文本语义的敏感数据识别。

采用基于元数据自学习的敏感数据识别方式识别敏感数据包括如下步骤：

y1、获取需要进行敏感数据识别的文本；

y2、获取步骤y1中文本的元数据信息；同时进行元数据信息自学习；

y3、依据元数据信息判断敏感数据的敏感类型；

y4、判断步骤y3中是否识别出敏感类型，若是，转到不止y5，若否，转到步骤y8；

y5、判断步骤y4中识别出的敏感类型是否需要校验，若是，转到步骤y6，若否，转到步骤y9；

y6、对步骤y5中需要校验的敏感类型采用基于文本语义的敏感数据识别方式进行敏感数据识别；

y7、判断不住y6是否识别出敏感类型，若是，转到步骤y(返回)；若否，转到步骤y(结束)；

y8、采用基于文本语义的敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别，并判断是否识别出敏感类型，若是，则识别出敏感类型，转到步骤y9；若否，则继续采用基于知识库的只能敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别，若是识别出敏感类型，转到步骤y(返回)，若没有识别出敏感类型，转到步骤y10；

y9、返回文本所包含的敏感类型；

y10、结束对文本的敏感数据识别。

采用基于知识库的智能敏感数据识别方式识别敏感数据包括如下步骤：

z1、获取需要进行敏感数据识别的文本；

z2、研究不同敏感类型的特征，依据不同敏感类型特征构建敏感类型知识库；

z3、根据敏感类型知识库的信息判断步骤z1中的文本包含的敏感数据类型；

z4、判断步骤z3是否识别出敏感类型，若是，则返回文本所包含的敏感类型；若否，则敏感数据识别结束。

敏感数据识别过程中，对敏感类型进行自适应管理，包括敏感类型自添加、敏感类型映射、敏感类型过滤。

敏感类型自添加包括如下步骤：

m11、当有心的敏感类型需求或者敏感类型脱敏算法需求时，采用JAR包的形式，将新增的敏感类型及脱敏算法存放至指定位置；

m12、利用智能化自适应敏感数据识别系统自动检测JAR所在的位置是否存在更新，若是，转到步骤m13，若否，自动结束流程；

m13、将业务动态加载到系统，同时识别新的敏感数据类型；

m14、自动将JAR加载到系统中，添加新的敏感数据类型及其所对应的脱敏算法。

敏感类型映射包括如下步骤：

m21、获取识别到的敏感类型结果集及敏感类型关系映射表；

m22、将敏感类型结果集根据敏感类型关系映射表进行转换；

m23、返回转换后的敏感类型结果集。

敏感类型过滤包括如下步骤：

m31、获取文本；

m32、对步骤m31中的文本进行敏感数据识别；

m33、判断是否识别出敏感类型，若是，转到步骤m35，若否，转到步骤m34；

m34、无敏感类型，结束流程；

m35、判断敏感类型是否大于1个，若是，转到步骤m37，若否，转到步骤m36；

m36、返回识别到的一个敏感类型；

m37、对敏感类型进行筛选；

m38、获取特殊类型列表，判断m37中的敏感类型是否均在特殊类型列表中，若是，转到步骤m39，若否，转到步骤m311；

m39、统计不同敏感类型出现的频率，选出频率最高的敏感类型；

m310、返回出现频率最高的敏感类型；

m311、判断敏感类型为复合型，返回所有敏感类型。

附图说明

图1是本发明的智能化自适应敏感数据识别系统框架结构示意图；

图2是本发明的智能化自适应敏感数据识别方式主要流程示意图；

图3是本发明的智能化自适应敏感数据识别方式中基于文本语义的敏感数据识别流程示意图；

图4是本发明的智能化自适应敏感数据识别方式中基于元数据自学习的敏感数据识别流程示意图；

图5是本发明的智能化自适应敏感数据识别方式中基于知识库的敏感数据识别流程示意图；

图6是本发明的智能化自适应敏感数据识别方式中敏感类型自添加流程示意图；

图7是本发明的智能化自适应敏感数据识别方式中敏感类型映射流程示意图；

图8是本发明的智能化自适应敏感数据识别方式中敏感类型过滤流程示意图。

具体实施方式

为了更好的理解本发明，下面结合附图详细说明本发明。

如图1所示，本发明的一种智能化自适应敏感数据识别系统，包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块；所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块；所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块；所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块；所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块；所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。

如图2所示，本发明的一种智能化自适应敏感数据识别方法，包括如下步骤：

s1、获取需要进行敏感数据识别的文本；

s9、返回文本包含的敏感数据类型；

s12、敏感数据识别结束。

在智能化自适应敏感数据识别系统框架的基础上，敏感数据识别的流程是敏感数据识别准确率提升的关键，其具体流程如下：

当文本需要进行敏感数据脱敏时，首先对文本采用基于元数据自学习的敏感数据识别方式进行敏感数据识别，依据识别结果系统自动选择后续识别流程。

当基于元数据自学习的敏感数据识别方式识别到敏感数据后，自动进入敏感数据校验环节，依据校验策略，当敏感数据不需要进行验证时，直接返回敏感数据识别结果；当敏感数据需要验证时，将文本输入基于文本语义的敏感数据识别模块进行进一步的敏感数据识别，依据识别结果，操作后续流程。基于文本语义的敏感数据识别得到敏感数据类型，则返回敏感数据类型；基于文本语义的敏感数据识别未识别到敏感数据类型，则敏感数据识别结束。

当基于元数据自学习的敏感数据识别方式未识别到敏感数据时，进入基于文本语义的敏感数据识别阶段，如果识别到敏感类型，就返回识别结果；如果没有识别到敏感类型，进入基于知识库的智能敏感数据识别环节。

当基于知识库的智能敏感数据识别方式识别到敏感类型时，直接返回敏感数据识别结果；当基于知识库的智能敏感数据识别方式未识别到敏感类型时，敏感数据识别流程结束。

采用基于文本语义的敏感数据识别方式识别敏感数据，是结合了规则、语义分析、机器学习等多种方式进行敏感数据识别的方式，包括如下步骤：

w1、获取需要进行敏感数据识别的文本；

w5、返回文本所包含的敏感数据类型；

w8、结束基于文本语义的敏感数据识别。

采用基于元数据自学习的敏感数据识别方式识别敏感数据，主要针对数据库中的结构化数据，主要是结合用户对敏感数据的描述来进行敏感数据的识别，包括如下步骤：

y1、获取需要进行敏感数据识别的文本；

y3、依据元数据信息判断敏感数据的敏感类型；

y9、返回文本所包含的敏感类型；

y10、结束对文本的敏感数据识别。

采用基于知识库的智能敏感数据识别方式识别敏感数据，是通过分析敏感数据的特征，获取敏感数据的语义信息，构建知识库，依据知识库进行敏感数据识别，包括如下步骤：

z1、获取需要进行敏感数据识别的文本；

其中，敏感类型知识库与元数据是敏感数据识别的基础，因此该部分提供了动态配置功能，以便不断完善知识库与元数据信息，提升敏感数据识别的准确率。智能化自适应敏感数据系统实时监控知识库与元数据的变化；当检测到变化时，重新加载知识库与元数据信息。

不同的行业对敏感类型的定义不尽相同，为了适应不同行业敏感类型变化，本发明提供敏感类型自添加方式，应对敏感类型的多样化需求，敏感类型自添加包括如下步骤：

m13、将业务动态加载到系统，同时识别新的敏感数据类型；

在实际使用场景中，用户对敏感类型的粗细粒度也不尽相同，比如：身份证件包括身份证、港澳通行证、军官证等，有些情况下，需要将身份证、港澳通行证、军官证全部归类至身份证下，有些情况下，需要对不同证件类型识别，为了将敏感数据识别过程更加智能化，本发明采用敏感类型映射的方式使敏感类型识别更加智能化，敏感类型映射包括如下步骤：

m21、获取识别到的敏感类型结果集及敏感类型关系映射表；

m22、将敏感类型结果集根据敏感类型关系映射表进行转换；

m23、返回转换后的敏感类型结果集。

敏感数据识别对象为数据库中的结构化数据时，一个表的一个字段中可能只存在一种敏感类型，但是由于数据库数据的不规范性，可能导致敏感数据识别错误，因此，本发明提供了敏感类型过滤方式，对数据库中的敏感数据识别结果进行处理，以提升敏感数据识别的准确率，敏感类型过滤包括如下步骤：

m31、获取文本；

m32、对步骤m31中的文本进行敏感数据识别；

m34、无敏感类型，结束流程；

m36、返回识别到的一个敏感类型；

m37、对敏感类型进行筛选；

m310、返回出现频率最高的敏感类型；

m311、判断敏感类型为复合型，返回所有敏感类型。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

Claims

1.一种智能化自适应敏感数据识别系统，其特征在于，所述智能化自适应敏感数据识别系统包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块；

所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块；

所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块；

所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块；

所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块；

所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。

2.根据权利要求1所述的一种智能化自适应敏感数据识别系统，其特征在于，所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。

3.一种智能化自适应敏感数据识别方法，其特征在于，包括如下步骤：

s1、获取需要进行敏感数据识别的文本；

s8、判断步骤s7是否识别出敏感类型，若是，转到步骤s9，若否，转到步骤s12；

s9、返回文本包含的敏感数据类型；

s12、敏感数据识别结束。