CN110580416A

CN110580416A - 一种基于人工智能的敏感数据自动识别方法

Info

Publication number: CN110580416A
Application number: CN201910859914.6A
Authority: CN
Inventors: 黄红兵; 吴惠芬; 龚小刚; 章毅; 叶卫; 周升; 沈志豪; 张景明; 裴旭斌; 谢若承; 方舟; 郭亚琼; 陈超; 许敏; 陈逍潇
Original assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Current assignee: Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date: 2019-09-11
Filing date: 2019-09-11
Publication date: 2019-12-17

Abstract

本发明的一种基于人工智能的敏感数据自动识别方法，涉及计算机技术与信息安全领域，包括如下步骤：S1、提取需要进行敏感数据识别的文本；S2、将文本与人工定义敏感关键词进行匹配，若符合，转入步骤S5；若不符合，转入步骤S3；S3、将文本与正则表达式进行匹配，若符合，转入步骤S5；若不符合，转入步骤S4；S4、采用基于条件随机场的敏感数据识别方式对文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6；S5、返回文本包含的敏感数据类型；S6、敏感数据识别结束。本发明能够快速识别常规的敏感数据，同时能够准确的识别地址和人名等数据，具有较高敏感数据识别的准确度和效率的综合性能。

Description

一种基于人工智能的敏感数据自动识别方法

技术领域

本发明涉及计算机技术与信息安全领域，并且更具体地，涉及一种基于人工智能的敏感数据自动识别方法。

背景技术

随着数据时代的到来，数据中蕴藏的巨大价值得以挖掘，同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时，保护敏感信息不被泄露，已成为数据安全智能开发的关键环节。要实现对敏感信息的保护，首先要求能够准确识别出数据中的敏感数据。传统的敏感数据发现方式一般都是通过人工配置和正则表达式匹配来实现的，但是很多数据是用户自己填写的，由于信息录入的不规范性和汉语语言特点,如对于地址和人名等数据，传统的识别方式效果往往不理想。

发明内容

本发明目的就是为了弥补现有技术存在的缺陷，提供一种基于人工智能的敏感数据自动识别方法，提高敏感数据识别的准确度和效率。

本发明技术方案如下：一种基于人工智能的敏感数据自动识别方法，其特征在于，包括如下步骤：

S1、提取需要进行敏感数据识别的文本；

S2、将所述文本与人工定义敏感关键词进行匹配，若符合，转入步骤S5；若不符合，转入步骤S3；

S3、将所述文本与正则表达式进行匹配，若符合，转入步骤S5；若不符合，转入步骤S4；

S4、采用基于条件随机场的敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6；

S5、返回文本包含的敏感数据类型；

S6、敏感数据识别结束。

进一步，在步骤S3与S4之间，还包括步骤S31：采用基于元数据自学习的敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。

进一步，采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤：

S311、获取所述文本的元数据信息，同时进行元数据信息自学习；

S312、依据元数据信息识别所述文本。

进一步，在步骤S4与S5之间，还包括步骤S41：采用基于知识库的智能敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。

进一步，采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤：

S411、分析不同敏感类型的特征，根据不同敏感类型特征构建敏感类型知识库；

S412、根据敏感类型知识库的信息识别所述文本。

进一步，实时监控敏感类型知识库与元数据的变化，当检测到变化时，重新加载敏感类型知识库与元数据信息。

本发明的有益效果在于：

1、对识别数据采用依次递进的与人工定义敏感关键词进行匹配进行识别、与正则表达式进行匹配进行识别和采用基于条件随机场的敏感数据识别方式进行识别，通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式可以识别常规的敏感数据，如：身份证号、手机号、银行卡号，识别效率高；对于如地址和人名等数据，由于信息录入的不规范性和汉语语言特点，通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式难以准确识别，采用基于条件随机场这种机器学习的敏感数据识别方式，能够准确的识别；因此具有较高敏感数据识别的准确度和效率的综合性能。

2、结合基于文本内容、元数据与知识库三种敏感数据识别方式，优化敏感数据识别流程，提升敏感数据识别的准确率与效率。

具体实施方式

下面将对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

一种基于人工智能的敏感数据自动识别方法，包括如下步骤：

S1、提取需要进行敏感数据识别的文本；

S5、返回文本包含的敏感数据类型；

S6、敏感数据识别结束。

本发明的上述方法对识别数据采用依次递进的与人工定义敏感关键词进行匹配进行识别、与正则表达式进行匹配进行识别和采用基于条件随机场的敏感数据识别方式进行识别，通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式可以识别常规的敏感数据，如：身份证号、手机号、银行卡号，识别效率高；对于如地址和人名等数据，由于信息录入的不规范性和汉语语言特点，通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式难以准确识别，采用基于条件随机场这种机器学习的敏感数据识别方式，能够准确的识别；因此具有较高敏感数据识别的准确度和效率的综合性能。

可选地，在步骤S3与S4之间，还包括步骤S31：采用基于元数据自学习的敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。其中，采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤：

S312、依据元数据信息识别所述文本。

可选地，在步骤S4与S5之间，还包括步骤S41：采用基于知识库的智能敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。其中，采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤：

S412、根据敏感类型知识库的信息识别所述文本。

可选地，实时监控敏感类型知识库与元数据的变化，当检测到变化时，重新加载敏感类型知识库与元数据信息。

本发明上述可选的实施方式结合了基于文本内容、元数据与知识库等三种敏感数据识别方式，从而进一步优化了敏感数据识别流程，能够进一步提升敏感数据识别的准确率与效率。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种基于人工智能的敏感数据自动识别方法，其特征在于，包括如下步骤：

S1、提取需要进行敏感数据识别的文本；

S5、返回文本包含的敏感数据类型；

S6、敏感数据识别结束。

2.根据权利要求1所述的方法，其特征在于，在步骤S3与S4之间，还包括步骤S31：采用基于元数据自学习的敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。

3.根据权利要求2所述的方法，其特征在于，采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤：

S312、依据元数据信息识别所述文本。

4.根据权利要求3所述的方法，其特征在于，在步骤S4与S5之间，还包括步骤S41：采用基于知识库的智能敏感数据识别方式对所述文本进行识别，若识别为敏感数据，转入步骤S5；若识别为非敏感数据，转入步骤S6。

5.根据权利要求4所述的方法，其特征在于，采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤：

S412、根据敏感类型知识库的信息识别所述文本。

6.根据权利要求5所述的方法，其特征在于，实时监控敏感类型知识库与元数据的变化，当检测到变化时，重新加载敏感类型知识库与元数据信息。