CN109344258A - 一种智能化自适应敏感数据识别系统及方法 - Google Patents
一种智能化自适应敏感数据识别系统及方法 Download PDFInfo
- Publication number
- CN109344258A CN109344258A CN201811469970.0A CN201811469970A CN109344258A CN 109344258 A CN109344258 A CN 109344258A CN 201811469970 A CN201811469970 A CN 201811469970A CN 109344258 A CN109344258 A CN 109344258A
- Authority
- CN
- China
- Prior art keywords
- sensitive
- sensitive data
- text
- identification
- data identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提供的自适应的敏感数据识别方式,解决了大数据环境下敏感数据识别存在的问题;本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题,有效提升了敏感数据识别的工作效率;本发明通过挖掘敏感数据的语义特征,提升了敏感数据识别的准确率;本发明结合基于文本内容、元数据与知识库三种敏感数据识别方式,优化敏感数据识别流程,提升敏感数据识别的准确率与效率。本发明提出了敏感类型自适应管理,解决了新的敏感类型增加困难的问题,提升了敏感类型对实际需求的灵活适应程度。
Description
技术领域
本发明涉及计算机技术与信息安全的交叉技术领域,具体是一种基于大数据的智能化敏感数据识别系统及方法。
背景技术
在大数据时代,数据规模庞大、增长迅速、类型繁多、结构各异,且描述不规范,且这些数据中包含大量敏感数据,且85%为非结构化数据,这对敏感数据识别的高效性和准确性都提出了巨大的挑战。
传统的敏感数据发现方式主要采用基于人工定义及正则表达式两种方式。
1、基于人工定义的方式是通过定义关键词或者元数据信息,之后匹配关键词与元数据信息发现业务系统中的敏感数据;
2、基于正则表达式的方式是通过研究敏感数据的特征,按照敏感数据的结构组成规律,定义正则表达式,之后依据正则表达式匹配业务系统中的敏感数据。
但是随着数据量暴增并且类型越趋复杂,传统的敏感数据发现方式的弊端越来越明显,主要问题如下:
1、人工定义敏感关键词及元数据工作越来越繁重,且效率低下;
2、部分敏感数据具有结构特征,如身份证号、银行卡号等敏感类型,可以采用正则表达式进行匹配,但是对于没有结构特征的敏感数据,如地址、人名等敏感类型,无法采用正则表达式进行敏感数据发现;
3、正则表达式方式需要研究每类敏感数据的特征才能进行敏感数据发现,随着敏感类型增加,正则表达式会越来越多,直接影响到敏感数据发现的效率,且规则库维护困难,浪费资源;
4、基于正则表达式和人工定义敏感关键词和元数据仅能识别符合规则及匹配成功的敏感数据,具有敏感语义的敏感数据会遗漏,降低敏感数据识别的准确率,无法防止敏感数据的泄露;
5、当敏感需求出现变动时,需要耗费大量时间和精力对新的敏感类型进行修改。
因此,在大数据背景下,亟需新的方式来提升敏感数据发现的准确率与效率。
发明内容
为了达到上述目的,本发明提出一种智能化自适应敏感数据识别系统及方法。
本发明的一种智能化自适应敏感数据识别系统,包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。
其中,所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。
本发明的一种智能化自适应敏感数据识别方法,包括如下步骤:
s1、获取需要进行敏感数据识别的文本;
s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据;
s3、判断步骤s2是否识别出敏感类型,若是,转到步骤s4,若否,转到步骤s7;
s4、判断识别出的敏感类型是否需要校验,若是,转到步骤s5,若否,转到步骤s9;
s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型;
s6、判断步骤s5是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s12;
s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据;
s8、判断步骤s8是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s;
s9、返回文本包含的敏感数据类型;
s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据;
s11、判断步骤s10中是否识别出敏感类型,若是,转到步骤s9;若否,转到步骤s12;
s12、敏感数据识别结束。
采用基于文本语义的敏感数据识别方式识别敏感数据包括如下步骤:
w1、获取需要进行敏感数据识别的文本;
w2、对文本内容特征进行分析,分析文本特征得到分析结果,根据分析结果选择敏感数据识别方式,当文本内容特征明显,且偏向结构化数据时,进入步骤w6;当文本内容比较长,且语义特征明显、结构特征相对较弱时,进入步骤w3;
w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w4、判断步骤w3中是否识别出敏感类型,若是,转到步骤w5,若否,转到步骤w;
w5、返回文本所包含的敏感数据类型;
w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w7、判断步骤w7中是否识别出敏感类型,若是,转到步骤w5,若否,转到不走w8;
w8、结束基于文本语义的敏感数据识别。
采用基于元数据自学习的敏感数据识别方式识别敏感数据包括如下步骤:
y1、获取需要进行敏感数据识别的文本;
y2、获取步骤y1中文本的元数据信息;同时进行元数据信息自学习;
y3、依据元数据信息判断敏感数据的敏感类型;
y4、判断步骤y3中是否识别出敏感类型,若是,转到不止y5,若否,转到步骤y8;
y5、判断步骤y4中识别出的敏感类型是否需要校验,若是,转到步骤y6,若否,转到步骤y9;
y6、对步骤y5中需要校验的敏感类型采用基于文本语义的敏感数据识别方式进行敏感数据识别;
y7、判断不住y6是否识别出敏感类型,若是,转到步骤y(返回);若否,转到步骤y(结束);
y8、采用基于文本语义的敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,并判断是否识别出敏感类型,若是,则识别出敏感类型,转到步骤y9;若否,则继续采用基于知识库的只能敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,若是识别出敏感类型,转到步骤y(返回),若没有识别出敏感类型,转到步骤y10;
y9、返回文本所包含的敏感类型;
y10、结束对文本的敏感数据识别。
采用基于知识库的智能敏感数据识别方式识别敏感数据包括如下步骤:
z1、获取需要进行敏感数据识别的文本;
z2、研究不同敏感类型的特征,依据不同敏感类型特征构建敏感类型知识库;
z3、根据敏感类型知识库的信息判断步骤z1中的文本包含的敏感数据类型;
z4、判断步骤z3是否识别出敏感类型,若是,则返回文本所包含的敏感类型;若否,则敏感数据识别结束。
敏感数据识别过程中,对敏感类型进行自适应管理,包括敏感类型自添加、敏感类型映射、敏感类型过滤。
敏感类型自添加包括如下步骤:
m11、当有心的敏感类型需求或者敏感类型脱敏算法需求时,采用JAR包的形式,将新增的敏感类型及脱敏算法存放至指定位置;
m12、利用智能化自适应敏感数据识别系统自动检测JAR所在的位置是否存在更新,若是,转到步骤m13,若否,自动结束流程;
m13、将业务动态加载到系统,同时识别新的敏感数据类型;
m14、自动将JAR加载到系统中,添加新的敏感数据类型及其所对应的脱敏算法。
敏感类型映射包括如下步骤:
m21、获取识别到的敏感类型结果集及敏感类型关系映射表;
m22、将敏感类型结果集根据敏感类型关系映射表进行转换;
m23、返回转换后的敏感类型结果集。
敏感类型过滤包括如下步骤:
m31、获取文本;
m32、对步骤m31中的文本进行敏感数据识别;
m33、判断是否识别出敏感类型,若是,转到步骤m35,若否,转到步骤m34;
m34、无敏感类型,结束流程;
m35、判断敏感类型是否大于1个,若是,转到步骤m37,若否,转到步骤m36;
m36、返回识别到的一个敏感类型;
m37、对敏感类型进行筛选;
m38、获取特殊类型列表,判断m37中的敏感类型是否均在特殊类型列表中,若是,转到步骤m39,若否,转到步骤m311;
m39、统计不同敏感类型出现的频率,选出频率最高的敏感类型;
m310、返回出现频率最高的敏感类型;
m311、判断敏感类型为复合型,返回所有敏感类型。
本发明提供的自适应的敏感数据识别方式,解决了大数据环境下敏感数据识别存在的问题;本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题,有效提升了敏感数据识别的工作效率;本发明通过挖掘敏感数据的语义特征,提升了敏感数据识别的准确率;本发明结合基于文本内容、元数据与知识库三种敏感数据识别方式,优化敏感数据识别流程,提升敏感数据识别的准确率与效率。本发明提出了敏感类型自适应管理,解决了新的敏感类型增加困难的问题,提升了敏感类型对实际需求的灵活适应程度。
附图说明
图1是本发明的智能化自适应敏感数据识别系统框架结构示意图;
图2是本发明的智能化自适应敏感数据识别方式主要流程示意图;
图3是本发明的智能化自适应敏感数据识别方式中基于文本语义的敏感数据识别流程示意图;
图4是本发明的智能化自适应敏感数据识别方式中基于元数据自学习的敏感数据识别流程示意图;
图5是本发明的智能化自适应敏感数据识别方式中基于知识库的敏感数据识别流程示意图;
图6是本发明的智能化自适应敏感数据识别方式中敏感类型自添加流程示意图;
图7是本发明的智能化自适应敏感数据识别方式中敏感类型映射流程示意图;
图8是本发明的智能化自适应敏感数据识别方式中敏感类型过滤流程示意图。
具体实施方式
为了更好的理解本发明,下面结合附图详细说明本发明。
如图1所示,本发明的一种智能化自适应敏感数据识别系统,包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。
其中,所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。
如图2所示,本发明的一种智能化自适应敏感数据识别方法,包括如下步骤:
s1、获取需要进行敏感数据识别的文本;
s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据;
s3、判断步骤s2是否识别出敏感类型,若是,转到步骤s4,若否,转到步骤s7;
s4、判断识别出的敏感类型是否需要校验,若是,转到步骤s5,若否,转到步骤s9;
s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型;
s6、判断步骤s5是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s12;
s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据;
s8、判断步骤s8是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s;
s9、返回文本包含的敏感数据类型;
s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据;
s11、判断步骤s10中是否识别出敏感类型,若是,转到步骤s9;若否,转到步骤s12;
s12、敏感数据识别结束。
在智能化自适应敏感数据识别系统框架的基础上,敏感数据识别的流程是敏感数据识别准确率提升的关键,其具体流程如下:
当文本需要进行敏感数据脱敏时,首先对文本采用基于元数据自学习的敏感数据识别方式进行敏感数据识别,依据识别结果系统自动选择后续识别流程。
当基于元数据自学习的敏感数据识别方式识别到敏感数据后,自动进入敏感数据校验环节,依据校验策略,当敏感数据不需要进行验证时,直接返回敏感数据识别结果;当敏感数据需要验证时,将文本输入基于文本语义的敏感数据识别模块进行进一步的敏感数据识别,依据识别结果,操作后续流程。基于文本语义的敏感数据识别得到敏感数据类型,则返回敏感数据类型;基于文本语义的敏感数据识别未识别到敏感数据类型,则敏感数据识别结束。
当基于元数据自学习的敏感数据识别方式未识别到敏感数据时,进入基于文本语义的敏感数据识别阶段,如果识别到敏感类型,就返回识别结果;如果没有识别到敏感类型,进入基于知识库的智能敏感数据识别环节。
当基于知识库的智能敏感数据识别方式识别到敏感类型时,直接返回敏感数据识别结果;当基于知识库的智能敏感数据识别方式未识别到敏感类型时,敏感数据识别流程结束。
采用基于文本语义的敏感数据识别方式识别敏感数据,是结合了规则、语义分析、机器学习等多种方式进行敏感数据识别的方式,包括如下步骤:
w1、获取需要进行敏感数据识别的文本;
w2、对文本内容特征进行分析,分析文本特征得到分析结果,根据分析结果选择敏感数据识别方式,当文本内容特征明显,且偏向结构化数据时,进入步骤w6;当文本内容比较长,且语义特征明显、结构特征相对较弱时,进入步骤w3;
w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w4、判断步骤w3中是否识别出敏感类型,若是,转到步骤w5,若否,转到步骤w;
w5、返回文本所包含的敏感数据类型;
w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w7、判断步骤w7中是否识别出敏感类型,若是,转到步骤w5,若否,转到不走w8;
w8、结束基于文本语义的敏感数据识别。
采用基于元数据自学习的敏感数据识别方式识别敏感数据,主要针对数据库中的结构化数据,主要是结合用户对敏感数据的描述来进行敏感数据的识别,包括如下步骤:
y1、获取需要进行敏感数据识别的文本;
y2、获取步骤y1中文本的元数据信息;同时进行元数据信息自学习;
y3、依据元数据信息判断敏感数据的敏感类型;
y4、判断步骤y3中是否识别出敏感类型,若是,转到不止y5,若否,转到步骤y8;
y5、判断步骤y4中识别出的敏感类型是否需要校验,若是,转到步骤y6,若否,转到步骤y9;
y6、对步骤y5中需要校验的敏感类型采用基于文本语义的敏感数据识别方式进行敏感数据识别;
y7、判断不住y6是否识别出敏感类型,若是,转到步骤y(返回);若否,转到步骤y(结束);
y8、采用基于文本语义的敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,并判断是否识别出敏感类型,若是,则识别出敏感类型,转到步骤y9;若否,则继续采用基于知识库的只能敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,若是识别出敏感类型,转到步骤y(返回),若没有识别出敏感类型,转到步骤y10;
y9、返回文本所包含的敏感类型;
y10、结束对文本的敏感数据识别。
采用基于知识库的智能敏感数据识别方式识别敏感数据,是通过分析敏感数据的特征,获取敏感数据的语义信息,构建知识库,依据知识库进行敏感数据识别,包括如下步骤:
z1、获取需要进行敏感数据识别的文本;
z2、研究不同敏感类型的特征,依据不同敏感类型特征构建敏感类型知识库;
z3、根据敏感类型知识库的信息判断步骤z1中的文本包含的敏感数据类型;
z4、判断步骤z3是否识别出敏感类型,若是,则返回文本所包含的敏感类型;若否,则敏感数据识别结束。
其中,敏感类型知识库与元数据是敏感数据识别的基础,因此该部分提供了动态配置功能,以便不断完善知识库与元数据信息,提升敏感数据识别的准确率。智能化自适应敏感数据系统实时监控知识库与元数据的变化;当检测到变化时,重新加载知识库与元数据信息。
敏感数据识别过程中,对敏感类型进行自适应管理,包括敏感类型自添加、敏感类型映射、敏感类型过滤。
不同的行业对敏感类型的定义不尽相同,为了适应不同行业敏感类型变化,本发明提供敏感类型自添加方式,应对敏感类型的多样化需求,敏感类型自添加包括如下步骤:
m11、当有心的敏感类型需求或者敏感类型脱敏算法需求时,采用JAR包的形式,将新增的敏感类型及脱敏算法存放至指定位置;
m12、利用智能化自适应敏感数据识别系统自动检测JAR所在的位置是否存在更新,若是,转到步骤m13,若否,自动结束流程;
m13、将业务动态加载到系统,同时识别新的敏感数据类型;
m14、自动将JAR加载到系统中,添加新的敏感数据类型及其所对应的脱敏算法。
在实际使用场景中,用户对敏感类型的粗细粒度也不尽相同,比如:身份证件包括身份证、港澳通行证、军官证等,有些情况下,需要将身份证、港澳通行证、军官证全部归类至身份证下,有些情况下,需要对不同证件类型识别,为了将敏感数据识别过程更加智能化,本发明采用敏感类型映射的方式使敏感类型识别更加智能化,敏感类型映射包括如下步骤:
m21、获取识别到的敏感类型结果集及敏感类型关系映射表;
m22、将敏感类型结果集根据敏感类型关系映射表进行转换;
m23、返回转换后的敏感类型结果集。
敏感数据识别对象为数据库中的结构化数据时,一个表的一个字段中可能只存在一种敏感类型,但是由于数据库数据的不规范性,可能导致敏感数据识别错误,因此,本发明提供了敏感类型过滤方式,对数据库中的敏感数据识别结果进行处理,以提升敏感数据识别的准确率,敏感类型过滤包括如下步骤:
m31、获取文本;
m32、对步骤m31中的文本进行敏感数据识别;
m33、判断是否识别出敏感类型,若是,转到步骤m35,若否,转到步骤m34;
m34、无敏感类型,结束流程;
m35、判断敏感类型是否大于1个,若是,转到步骤m37,若否,转到步骤m36;
m36、返回识别到的一个敏感类型;
m37、对敏感类型进行筛选;
m38、获取特殊类型列表,判断m37中的敏感类型是否均在特殊类型列表中,若是,转到步骤m39,若否,转到步骤m311;
m39、统计不同敏感类型出现的频率,选出频率最高的敏感类型;
m310、返回出现频率最高的敏感类型;
m311、判断敏感类型为复合型,返回所有敏感类型。
本发明提供的自适应的敏感数据识别方式,解决了大数据环境下敏感数据识别存在的问题;本解决了人工定义敏感数据和元数据工作繁重且效率低下的问题,有效提升了敏感数据识别的工作效率;本发明通过挖掘敏感数据的语义特征,提升了敏感数据识别的准确率;本发明结合基于文本内容、元数据与知识库三种敏感数据识别方式,优化敏感数据识别流程,提升敏感数据识别的准确率与效率。本发明提出了敏感类型自适应管理,解决了新的敏感类型增加困难的问题,提升了敏感类型对实际需求的灵活适应程度。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
Claims (11)
1.一种智能化自适应敏感数据识别系统,其特征在于,所述智能化自适应敏感数据识别系统包括敏感类型自适应管理模块、基于文本语义的敏感数据识别模块、基于元数据自学习的敏感数据识别模块、基于知识库的智能敏感数据识别模块、敏感知识库与元数据动态配置模块;
所述敏感类型自适应管理模块是根据实际场景中对敏感类型的需求自动添加与更新自定义敏感类型和脱敏算法、支持多敏感类型映射为一个敏感类型、支持敏感类型过滤的管理模块;
所述基于文本语义的敏感数据识别模块是将敏感数据作为文本内容进行识别、采用基于规则和基于自然语言处理以及语义分析结合的方式自动识别文本中敏感数据的敏感数据识别模块;
所述基于元数据自学习的敏感数据识别模块是采用元数据自学习的方式、不断完善敏感数据的元数据信息并依据敏感数据的元数据信息进行敏感数据自动识别的敏感数据识别模块;
所述基于知识库的智能敏感数据识别模块是分析敏感数据的特征、构建敏感数据知识库并通过实际应用不断完善、依据知识库信息自动识别敏感数据的敏感实际识别模块;
所述敏感知识库与元数据动态配置模块是将敏感知识库与元数据动态配置实现敏感知识库与元数据自动更新的配置模块。
2.根据权利要求1所述的一种智能化自适应敏感数据识别系统,其特征在于,所述敏感类型自适应管理模块包括根据实际应用场景中对敏感类型不同定义需求自添加新的敏感数据类型及其对应的脱敏算法的敏感类型自添加模块、将敏感类型进行智能化映射并能根据敏感类型映射关系转换敏感类型的敏感类型映射模块、对敏感数据识别结果进行敏感类型过滤处理提高敏感数据识别准确率的敏感类型过滤模块。
3.一种智能化自适应敏感数据识别方法,其特征在于,包括如下步骤:
s1、获取需要进行敏感数据识别的文本;
s2、采用基于元数据自学习的敏感数据识别方式识别文本中的敏感数据;
s3、判断步骤s2是否识别出敏感类型,若是,转到步骤s4,若否,转到步骤s7;
s4、判断识别出的敏感类型是否需要校验,若是,转到步骤s5,若否,转到步骤s9;
s5、采用基于文本语义的敏感数据识别方式识别步骤s2中识别出的敏感类型;
s6、判断步骤s5是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s12;
s7、采用基于文本语义的敏感数据识别方式识别步骤s1中文本的敏感数据;
s8、判断步骤s8是否识别出敏感类型,若是,转到步骤s9,若否,转到步骤s;
s9、返回文本包含的敏感数据类型;
s10、采用基于知识库的智能敏感数据识别方式识别步骤s1中文本的敏感数据;
s11、判断步骤s10中是否识别出敏感类型,若是,转到步骤s9;若否,转到步骤s12;
s12、敏感数据识别结束。
4.根据权利要求3所述的一种智能化自适应敏感数据识别方法,其特征在于,
采用基于文本语义的敏感数据识别方式识别敏感数据包括如下步骤:
w1、获取需要进行敏感数据识别的文本;
w2、对文本内容特征进行分析,分析文本特征得到分析结果,根据分析结果选择敏感数据识别方式,当文本内容特征明显,且偏向结构化数据时,进入步骤w6;当文本内容比较长,且语义特征明显、结构特征相对较弱时,进入步骤w3;
w3、选择基于语义分析与机器学习的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w4、判断步骤w3中是否识别出敏感类型,若是,转到步骤w5,若否,转到步骤w;
w5、返回文本所包含的敏感数据类型;
w6、选择基于规则的敏感数据识别方式对步骤w2中的文本特征分析结果进行敏感数据识别;
w7、判断步骤w7中是否识别出敏感类型,若是,转到步骤w5,若否,转到不走w8;
w8、结束基于文本语义的敏感数据识别。
5.根据权利要求4所述的一种智能化自适应敏感数据识别方法,其特征在于,
采用基于元数据自学习的敏感数据识别方式识别敏感数据包括如下步骤:
y1、获取需要进行敏感数据识别的文本;
y2、获取步骤y1中文本的元数据信息;同时进行元数据信息自学习;
y3、依据元数据信息判断敏感数据的敏感类型;
y4、判断步骤y3中是否识别出敏感类型,若是,转到不止y5,若否,转到步骤y8;
y5、判断步骤y4中识别出的敏感类型是否需要校验,若是,转到步骤y6,若否,转到步骤y9;
y6、对步骤y5中需要校验的敏感类型采用基于文本语义的敏感数据识别方式进行敏感数据识别;
y7、判断不住y6是否识别出敏感类型,若是,转到步骤y(返回);若否,转到步骤y(结束);
y8、采用基于文本语义的敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,并判断是否识别出敏感类型,若是,则识别出敏感类型,转到步骤y9;若否,则继续采用基于知识库的只能敏感数据识别方式对需要进行敏感数据识别的文本进行敏感数据识别,若是识别出敏感类型,转到步骤y(返回),若没有识别出敏感类型,转到步骤y10;
y9、返回文本所包含的敏感类型;
y10、结束对文本的敏感数据识别。
6.根据权利要求5所述的一种智能化自适应敏感数据识别方法,其特征在于,
采用基于知识库的智能敏感数据识别方式识别敏感数据包括如下步骤:
z1、获取需要进行敏感数据识别的文本;
z2、研究不同敏感类型的特征,依据不同敏感类型特征构建敏感类型知识库;
z3、根据敏感类型知识库的信息判断步骤z1中的文本包含的敏感数据类型;
z4、判断步骤z3是否识别出敏感类型,若是,则返回文本所包含的敏感类型;若否,则敏感数据识别结束。
7.根据权利要求6所述的一种智能化自适应敏感数据识别方法,其特征在于,
通过智能化自适应敏感数据识别系统实时监控知识库与元数据的变化,当检测到变化时,重新加载知识库与元数据信息。
8.根据权利要求6所述的一种智能化自适应敏感数据识别方法,其特征在于,
敏感数据识别过程中,对敏感类型进行自适应管理,包括敏感类型自添加、敏感类型映射、敏感类型过滤。
9.根据权利要求8所述的一种智能化自适应敏感数据识别方法,其特征在于,
敏感类型自添加包括如下步骤:
m11、当有心的敏感类型需求或者敏感类型脱敏算法需求时,采用JAR包的形式,将新增的敏感类型及脱敏算法存放至指定位置;
m12、利用智能化自适应敏感数据识别系统自动检测JAR所在的位置是否存在更新,若是,转到步骤m13,若否,自动结束流程;
m13、将业务动态加载到系统,同时识别新的敏感数据类型;
m14、自动将JAR加载到系统中,添加新的敏感数据类型及其所对应的脱敏算法。
10.根据权利要求8所述的一种智能化自适应敏感数据识别方法,其特征在于,
敏感类型映射包括如下步骤:
m21、获取识别到的敏感类型结果集及敏感类型关系映射表;
m22、将敏感类型结果集根据敏感类型关系映射表进行转换;
m23、返回转换后的敏感类型结果集。
11.根据权利要求8所述的一种智能化自适应敏感数据识别方法,其特征在于,
敏感类型过滤包括如下步骤:
m31、获取文本;
m32、对步骤m31中的文本进行敏感数据识别;
m33、判断是否识别出敏感类型,若是,转到步骤m35,若否,转到步骤m34;
m34、无敏感类型,结束流程;
m35、判断敏感类型是否大于1个,若是,转到步骤m37,若否,转到步骤m36;
m36、返回识别到的一个敏感类型;
m37、对敏感类型进行筛选;
m38、获取特殊类型列表,判断m37中的敏感类型是否均在特殊类型列表中,若是,转到步骤m39,若否,转到步骤m311;
m39、统计不同敏感类型出现的频率,选出频率最高的敏感类型;
m310、返回出现频率最高的敏感类型;
m311、判断敏感类型为复合型,返回所有敏感类型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811469970.0A CN109344258B (zh) | 2018-11-28 | 2018-11-28 | 一种智能化自适应敏感数据识别系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811469970.0A CN109344258B (zh) | 2018-11-28 | 2018-11-28 | 一种智能化自适应敏感数据识别系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109344258A true CN109344258A (zh) | 2019-02-15 |
CN109344258B CN109344258B (zh) | 2021-11-12 |
Family
ID=65319565
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811469970.0A Active CN109344258B (zh) | 2018-11-28 | 2018-11-28 | 一种智能化自适应敏感数据识别系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109344258B (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472036A (zh) * | 2019-08-21 | 2019-11-19 | 恩亿科(北京)数据科技有限公司 | 一种基于大数据的敏感数据确定方法及装置 |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN112016127A (zh) * | 2020-09-30 | 2020-12-01 | 深圳潮数软件科技有限公司 | 一种备份系统敏感数据识别与分离方法和装置 |
CN112329055A (zh) * | 2020-11-02 | 2021-02-05 | 微医云(杭州)控股有限公司 | 用户数据脱敏的方法及装置、电子设备、存储介质 |
CN112507376A (zh) * | 2020-12-01 | 2021-03-16 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN113051600A (zh) * | 2019-12-27 | 2021-06-29 | 无锡祥生医疗科技股份有限公司 | 医疗影像安全多阶段脱敏方法及系统 |
CN113392111A (zh) * | 2021-06-17 | 2021-09-14 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
WO2023016192A1 (zh) * | 2021-08-11 | 2023-02-16 | 南京莱斯网信技术研究院有限公司 | 一种防止泄露敏感信息的数据共享开放方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996180A (zh) * | 2009-08-12 | 2011-03-30 | 升东网络科技发展(上海)有限公司 | 图片审核过滤系统及方法 |
US20140283096A1 (en) * | 2013-03-15 | 2014-09-18 | Microsoft Corporation | Validating normalized code representations |
US20160224837A1 (en) * | 2013-10-25 | 2016-08-04 | Hyperlayer, Inc. | Method And System For Facial And Object Recognition Using Metadata Heuristic Search |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106599713A (zh) * | 2016-11-11 | 2017-04-26 | 中国电子科技网络信息安全有限公司 | 一种基于大数据的数据库脱敏系统及方法 |
CN106874253A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 识别敏感信息的方法及装置 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
CN107193796A (zh) * | 2016-03-14 | 2017-09-22 | 北大方正集团有限公司 | 一种舆情事件检测方法及装置 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN108537056A (zh) * | 2018-03-07 | 2018-09-14 | 新博卓畅技术(北京)有限公司 | 一种双层过滤式的数据脱敏方法和系统 |
-
2018
- 2018-11-28 CN CN201811469970.0A patent/CN109344258B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101996180A (zh) * | 2009-08-12 | 2011-03-30 | 升东网络科技发展(上海)有限公司 | 图片审核过滤系统及方法 |
US20140283096A1 (en) * | 2013-03-15 | 2014-09-18 | Microsoft Corporation | Validating normalized code representations |
US20160224837A1 (en) * | 2013-10-25 | 2016-08-04 | Hyperlayer, Inc. | Method And System For Facial And Object Recognition Using Metadata Heuristic Search |
CN106874253A (zh) * | 2015-12-11 | 2017-06-20 | 腾讯科技(深圳)有限公司 | 识别敏感信息的方法及装置 |
CN107193796A (zh) * | 2016-03-14 | 2017-09-22 | 北大方正集团有限公司 | 一种舆情事件检测方法及装置 |
CN106446232A (zh) * | 2016-10-08 | 2017-02-22 | 深圳市彬讯科技有限公司 | 一种基于规则的敏感文本过滤方法 |
CN106599713A (zh) * | 2016-11-11 | 2017-04-26 | 中国电子科技网络信息安全有限公司 | 一种基于大数据的数据库脱敏系统及方法 |
CN106897459A (zh) * | 2016-12-14 | 2017-06-27 | 中国电子科技集团公司第三十研究所 | 一种基于半监督学习的文本敏感信息识别方法 |
CN107480549A (zh) * | 2017-06-28 | 2017-12-15 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
CN108537056A (zh) * | 2018-03-07 | 2018-09-14 | 新博卓畅技术(北京)有限公司 | 一种双层过滤式的数据脱敏方法和系统 |
Non-Patent Citations (4)
Title |
---|
JACKY AKOKA ET AL.: "A Semantic Approach for Semi-Automatic Detection of Sensitve Data", 《INFORMATION RESOURCES MANAGEMENT JOURNAL》 * |
WELL NAPTALI ET AL.: "Language Model Based on Word Order Sensitive Matrix", 《2009 WRI WORLD CONGRESS ON COMPUTER SCIENCE AND INFORMATION ENGINEERING》 * |
刘丽芳: "基于规则和统计的网络不良信息识别研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
厉力文武: "敏感信息识别方法探究", 《HTTPS://DEVELOPER.ALIYUN.COM/ARTICLE/622450》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110472036A (zh) * | 2019-08-21 | 2019-11-19 | 恩亿科(北京)数据科技有限公司 | 一种基于大数据的敏感数据确定方法及装置 |
CN110580416A (zh) * | 2019-09-11 | 2019-12-17 | 国网浙江省电力有限公司信息通信分公司 | 一种基于人工智能的敏感数据自动识别方法 |
CN110750981A (zh) * | 2019-10-16 | 2020-02-04 | 杭州安恒信息技术股份有限公司 | 一种基于机器学习的高准确度网站敏感词检测方法 |
CN113051600A (zh) * | 2019-12-27 | 2021-06-29 | 无锡祥生医疗科技股份有限公司 | 医疗影像安全多阶段脱敏方法及系统 |
CN113051600B (zh) * | 2019-12-27 | 2024-02-13 | 无锡祥生医疗科技股份有限公司 | 医疗影像安全多阶段脱敏方法及系统 |
CN112016127A (zh) * | 2020-09-30 | 2020-12-01 | 深圳潮数软件科技有限公司 | 一种备份系统敏感数据识别与分离方法和装置 |
CN112329055A (zh) * | 2020-11-02 | 2021-02-05 | 微医云(杭州)控股有限公司 | 用户数据脱敏的方法及装置、电子设备、存储介质 |
CN112507376A (zh) * | 2020-12-01 | 2021-03-16 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN112507376B (zh) * | 2020-12-01 | 2024-01-05 | 浙商银行股份有限公司 | 一种基于机器学习的敏感数据检测方法及装置 |
CN113392111A (zh) * | 2021-06-17 | 2021-09-14 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
CN113392111B (zh) * | 2021-06-17 | 2022-04-29 | 国网福建省电力有限公司信息通信分公司 | 一种基于敏感数据库的自学习管理系统 |
WO2023016192A1 (zh) * | 2021-08-11 | 2023-02-16 | 南京莱斯网信技术研究院有限公司 | 一种防止泄露敏感信息的数据共享开放方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN109344258B (zh) | 2021-11-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109344258A (zh) | 一种智能化自适应敏感数据识别系统及方法 | |
CN110188635B (zh) | 一种基于注意力机制和多层次卷积特征的植物病虫害识别方法 | |
CN109697162B (zh) | 一种基于开源代码库的软件缺陷自动检测方法 | |
CN109299741B (zh) | 一种基于多层检测的网络攻击类型识别方法 | |
CN108038544B (zh) | 基于大数据和深度学习的神经网络深度学习方法和系统 | |
CN112418360B (zh) | 卷积神经网络的训练方法、行人属性识别方法及相关设备 | |
CN109871686A (zh) | 基于图标表示和软件行为一致性分析的恶意程序识别方法及装置 | |
CN110909224A (zh) | 一种基于人工智能的敏感数据自动分类识别方法及系统 | |
CN112487033A (zh) | 一种面向数据流及构建网络拓扑的业务可视化方法及系统 | |
CN113409555B (zh) | 一种基于物联网的实时报警联动方法及系统 | |
CN109886021A (zh) | 一种基于api全局词向量和分层循环神经网络的恶意代码检测方法 | |
CN110245693B (zh) | 结合混合随机森林的关键信息基础设施资产识别方法 | |
CN114553591B (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
CN109886554A (zh) | 违规行为判别方法、装置、计算机设备和存储介质 | |
CN111970400B (zh) | 骚扰电话识别方法及装置 | |
CN109829478A (zh) | 一种基于变分自编码器的问题分类方法和装置 | |
CN110119353B (zh) | 测试数据生成方法、装置以及控制器和介质 | |
CN114553475A (zh) | 一种基于网络流量属性有向拓扑的网络攻击检测方法 | |
CN106485328A (zh) | 信息处理系统及方法 | |
CN111159987A (zh) | 数据图表绘制方法、装置、设备和计算机可读存储介质 | |
CN113221109A (zh) | 一种基于生成对抗网络的恶意文件智能分析方法 | |
CN114151293B (zh) | 风机变桨系统的故障预警方法、系统、设备及存储介质 | |
WO2011109195A1 (en) | System and associated method for determining and applying sociocultural characteristics | |
CN103929499B (zh) | 一种物联网异构标识识别方法和系统 | |
CN111967003A (zh) | 基于黑盒模型与决策树的风控规则自动生成系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |