CN110580416A - 一种基于人工智能的敏感数据自动识别方法 - Google Patents

一种基于人工智能的敏感数据自动识别方法 Download PDF

Info

Publication number
CN110580416A
CN110580416A CN201910859914.6A CN201910859914A CN110580416A CN 110580416 A CN110580416 A CN 110580416A CN 201910859914 A CN201910859914 A CN 201910859914A CN 110580416 A CN110580416 A CN 110580416A
Authority
CN
China
Prior art keywords
text
sensitive data
sensitive
turning
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910859914.6A
Other languages
English (en)
Inventor
黄红兵
吴惠芬
龚小刚
章毅
叶卫
周升
沈志豪
张景明
裴旭斌
谢若承
方舟
郭亚琼
陈超
许敏
陈逍潇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority to CN201910859914.6A priority Critical patent/CN110580416A/zh
Publication of CN110580416A publication Critical patent/CN110580416A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6209Protecting access to data via a platform, e.g. using keys or access control rules to a single file or object, e.g. in a secure envelope, encrypted and accessed using a key, or with access control rules appended to the object itself
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

本发明的一种基于人工智能的敏感数据自动识别方法,涉及计算机技术与信息安全领域,包括如下步骤:S1、提取需要进行敏感数据识别的文本;S2、将文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;S3、将文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;S4、采用基于条件随机场的敏感数据识别方式对文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;S5、返回文本包含的敏感数据类型;S6、敏感数据识别结束。本发明能够快速识别常规的敏感数据,同时能够准确的识别地址和人名等数据,具有较高敏感数据识别的准确度和效率的综合性能。

Description

一种基于人工智能的敏感数据自动识别方法
技术领域
本发明涉及计算机技术与信息安全领域,并且更具体地,涉及一种基于人工智能的敏感数据自动识别方法。
背景技术
随着数据时代的到来,数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息与关键性敏感数据保护方面的困难。如何在实现数据高效共享的同时,保护敏感信息不被泄露,已成为数据安全智能开发的关键环节。要实现对敏感信息的保护,首先要求能够准确识别出数据中的敏感数据。传统的敏感数据发现方式一般都是通过人工配置和正则表达式匹配来实现的,但是很多数据是用户自己填写的,由于信息录入的不规范性和汉语语言特点,如对于地址和人名等数据,传统的识别方式效果往往不理想。
发明内容
本发明目的就是为了弥补现有技术存在的缺陷,提供一种基于人工智能的敏感数据自动识别方法,提高敏感数据识别的准确度和效率。
本发明技术方案如下:一种基于人工智能的敏感数据自动识别方法,其特征在于,包括如下步骤:
S1、提取需要进行敏感数据识别的文本;
S2、将所述文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;
S3、将所述文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;
S4、采用基于条件随机场的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;
S5、返回文本包含的敏感数据类型;
S6、敏感数据识别结束。
进一步,在步骤S3与S4之间,还包括步骤S31:采用基于元数据自学习的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
进一步,采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤:
S311、获取所述文本的元数据信息,同时进行元数据信息自学习;
S312、依据元数据信息识别所述文本。
进一步,在步骤S4与S5之间,还包括步骤S41:采用基于知识库的智能敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
进一步,采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤:
S411、分析不同敏感类型的特征,根据不同敏感类型特征构建敏感类型知识库;
S412、根据敏感类型知识库的信息识别所述文本。
进一步,实时监控敏感类型知识库与元数据的变化,当检测到变化时,重新加载敏感类型知识库与元数据信息。
本发明的有益效果在于:
1、对识别数据采用依次递进的与人工定义敏感关键词进行匹配进行识别、与正则表达式进行匹配进行识别和采用基于条件随机场的敏感数据识别方式进行识别,通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式可以识别常规的敏感数据,如:身份证号、手机号、银行卡号,识别效率高;对于如地址和人名等数据,由于信息录入的不规范性和汉语语言特点,通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式难以准确识别,采用基于条件随机场这种机器学习的敏感数据识别方式,能够准确的识别;因此具有较高敏感数据识别的准确度和效率的综合性能。
2、结合基于文本内容、元数据与知识库三种敏感数据识别方式,优化敏感数据识别流程,提升敏感数据识别的准确率与效率。
具体实施方式
下面将对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都应属于本发明保护的范围。
一种基于人工智能的敏感数据自动识别方法,包括如下步骤:
S1、提取需要进行敏感数据识别的文本;
S2、将所述文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;
S3、将所述文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;
S4、采用基于条件随机场的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;
S5、返回文本包含的敏感数据类型;
S6、敏感数据识别结束。
本发明的上述方法对识别数据采用依次递进的与人工定义敏感关键词进行匹配进行识别、与正则表达式进行匹配进行识别和采用基于条件随机场的敏感数据识别方式进行识别,通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式可以识别常规的敏感数据,如:身份证号、手机号、银行卡号,识别效率高;对于如地址和人名等数据,由于信息录入的不规范性和汉语语言特点,通过与人工定义敏感关键词进行匹配进行识别或与正则表达式进行匹配进行识别的方式难以准确识别,采用基于条件随机场这种机器学习的敏感数据识别方式,能够准确的识别;因此具有较高敏感数据识别的准确度和效率的综合性能。
可选地,在步骤S3与S4之间,还包括步骤S31:采用基于元数据自学习的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。其中,采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤:
S311、获取所述文本的元数据信息,同时进行元数据信息自学习;
S312、依据元数据信息识别所述文本。
可选地,在步骤S4与S5之间,还包括步骤S41:采用基于知识库的智能敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。其中,采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤:
S411、分析不同敏感类型的特征,根据不同敏感类型特征构建敏感类型知识库;
S412、根据敏感类型知识库的信息识别所述文本。
可选地,实时监控敏感类型知识库与元数据的变化,当检测到变化时,重新加载敏感类型知识库与元数据信息。
本发明上述可选的实施方式结合了基于文本内容、元数据与知识库等三种敏感数据识别方式,从而进一步优化了敏感数据识别流程,能够进一步提升敏感数据识别的准确率与效率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (6)

1.一种基于人工智能的敏感数据自动识别方法,其特征在于,包括如下步骤:
S1、提取需要进行敏感数据识别的文本;
S2、将所述文本与人工定义敏感关键词进行匹配,若符合,转入步骤S5;若不符合,转入步骤S3;
S3、将所述文本与正则表达式进行匹配,若符合,转入步骤S5;若不符合,转入步骤S4;
S4、采用基于条件随机场的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6;
S5、返回文本包含的敏感数据类型;
S6、敏感数据识别结束。
2.根据权利要求1所述的方法,其特征在于,在步骤S3与S4之间,还包括步骤S31:采用基于元数据自学习的敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
3.根据权利要求2所述的方法,其特征在于,采用基于元数据自学习的敏感数据识别方式对所述文本进行识别包括如下步骤:
S311、获取所述文本的元数据信息,同时进行元数据信息自学习;
S312、依据元数据信息识别所述文本。
4.根据权利要求3所述的方法,其特征在于,在步骤S4与S5之间,还包括步骤S41:采用基于知识库的智能敏感数据识别方式对所述文本进行识别,若识别为敏感数据,转入步骤S5;若识别为非敏感数据,转入步骤S6。
5.根据权利要求4所述的方法,其特征在于,采用基于知识库的智能敏感数据识别方式对所述文本进行识别包括如下步骤:
S411、分析不同敏感类型的特征,根据不同敏感类型特征构建敏感类型知识库;
S412、根据敏感类型知识库的信息识别所述文本。
6.根据权利要求5所述的方法,其特征在于,实时监控敏感类型知识库与元数据的变化,当检测到变化时,重新加载敏感类型知识库与元数据信息。
CN201910859914.6A 2019-09-11 2019-09-11 一种基于人工智能的敏感数据自动识别方法 Pending CN110580416A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910859914.6A CN110580416A (zh) 2019-09-11 2019-09-11 一种基于人工智能的敏感数据自动识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910859914.6A CN110580416A (zh) 2019-09-11 2019-09-11 一种基于人工智能的敏感数据自动识别方法

Publications (1)

Publication Number Publication Date
CN110580416A true CN110580416A (zh) 2019-12-17

Family

ID=68812962

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910859914.6A Pending CN110580416A (zh) 2019-09-11 2019-09-11 一种基于人工智能的敏感数据自动识别方法

Country Status (1)

Country Link
CN (1) CN110580416A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113392111A (zh) * 2021-06-17 2021-09-14 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
CN114021556A (zh) * 2021-11-09 2022-02-08 上海浦东发展银行股份有限公司 基于自然语言处理技术的日志敏感数据检测方法及系统
WO2022262447A1 (en) * 2021-06-17 2022-12-22 Huawei Technologies Co.,Ltd. Method and system for detecting sensitive data
WO2023125336A1 (en) * 2021-12-30 2023-07-06 Huawei Technologies Co., Ltd. Methods and devices for generating sensitive text detectors

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107729456A (zh) * 2017-09-30 2018-02-23 武汉汉思信息技术有限责任公司 敏感信息检索方法、服务器及存储介质
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109446288A (zh) * 2018-10-18 2019-03-08 重庆邮电大学 一种基于Spark互联网涉密地图检测算法
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107515877A (zh) * 2016-06-16 2017-12-26 百度在线网络技术(北京)有限公司 敏感主题词集的生成方法和装置
CN107729456A (zh) * 2017-09-30 2018-02-23 武汉汉思信息技术有限责任公司 敏感信息检索方法、服务器及存储介质
CN110019795A (zh) * 2017-11-09 2019-07-16 普天信息技术有限公司 敏感词检测模型的训练方法和系统
CN109446288A (zh) * 2018-10-18 2019-03-08 重庆邮电大学 一种基于Spark互联网涉密地图检测算法
CN109344258A (zh) * 2018-11-28 2019-02-15 中国电子科技网络信息安全有限公司 一种智能化自适应敏感数据识别系统及方法
CN109977222A (zh) * 2019-03-05 2019-07-05 广州海晟科技有限公司 数据敏感行为的识别方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111143884A (zh) * 2019-12-31 2020-05-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111143884B (zh) * 2019-12-31 2022-07-12 北京懿医云科技有限公司 数据脱敏方法与装置、电子设备及存储介质
CN111339768A (zh) * 2020-02-27 2020-06-26 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN111339768B (zh) * 2020-02-27 2024-03-05 携程旅游网络技术(上海)有限公司 敏感文本检测方法、系统、电子设备及介质
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN112507376B (zh) * 2020-12-01 2024-01-05 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113392111A (zh) * 2021-06-17 2021-09-14 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
CN113392111B (zh) * 2021-06-17 2022-04-29 国网福建省电力有限公司信息通信分公司 一种基于敏感数据库的自学习管理系统
WO2022262447A1 (en) * 2021-06-17 2022-12-22 Huawei Technologies Co.,Ltd. Method and system for detecting sensitive data
US11687534B2 (en) 2021-06-17 2023-06-27 Huawei Technologies Co., Ltd. Method and system for detecting sensitive data
CN114021556A (zh) * 2021-11-09 2022-02-08 上海浦东发展银行股份有限公司 基于自然语言处理技术的日志敏感数据检测方法及系统
WO2023125336A1 (en) * 2021-12-30 2023-07-06 Huawei Technologies Co., Ltd. Methods and devices for generating sensitive text detectors

Similar Documents

Publication Publication Date Title
CN110580416A (zh) 一种基于人工智能的敏感数据自动识别方法
WO2020232879A1 (zh) 风险传导关联图谱优化方法、装置、计算机设备和存储介质
CN112465008B (zh) 一种基于自监督课程学习的语音和视觉关联性增强方法
CN102549603B (zh) 基于相关性的图像选择
CN109905385B (zh) 一种webshell检测方法、装置及系统
CN112468659B (zh) 应用于电话客服的质量评价方法、装置、设备及存储介质
CN110674396B (zh) 文本信息处理方法、装置、电子设备及可读存储介质
CN112149111A (zh) 基于深度学习的弱口令检测方法、装置和电子装置
CN110321437B (zh) 一种语料数据处理方法、装置、电子设备及介质
CN109002784B (zh) 街景识别方法和系统
CN111723870B (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN113055386A (zh) 一种攻击组织的识别分析方法和装置
CN104750791A (zh) 一种图像检索方法及装置
CN111881688B (zh) 基于屏蔽泛化机制的事件因果关系识别方法、系统、装置
CN113592103A (zh) 一种基于集成学习和动态分析的软件恶意行为识别方法
CN115687980A (zh) 数据表的脱敏分类方法、分类模型训练方法及装置
CN112052686A (zh) 一种用户交互式教育的语音学习资源推送方法
CN111783786A (zh) 图片的识别方法、系统、电子设备及存储介质
CN114925759B (zh) 一种区块链钓鱼行为账户的特征分析方法
CN114298182A (zh) 资源召回方法、装置、设备及存储介质
CN114003881A (zh) 一种身份验证方法、装置、电子设备及存储介质
CN116450781A (zh) 问答的处理方法及装置
CN114676428A (zh) 基于动态特征的应用程序恶意行为检测方法及设备
CN115618873A (zh) 数据处理方法、装置、计算机设备及存储介质
CN114662099A (zh) 基于ai模型的应用程序恶意行为检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191217

RJ01 Rejection of invention patent application after publication