CN110866108A - 一种敏感数据检测系统及其检测方法 - Google Patents

一种敏感数据检测系统及其检测方法 Download PDF

Info

Publication number
CN110866108A
CN110866108A CN201911142326.7A CN201911142326A CN110866108A CN 110866108 A CN110866108 A CN 110866108A CN 201911142326 A CN201911142326 A CN 201911142326A CN 110866108 A CN110866108 A CN 110866108A
Authority
CN
China
Prior art keywords
data
sensitive
module
file
identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911142326.7A
Other languages
English (en)
Inventor
赵宏
时柳
吕明智
徐进
杨海博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Manjiang Shanghai Software Technology Co Ltd
Original Assignee
Manjiang Shanghai Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Manjiang Shanghai Software Technology Co Ltd filed Critical Manjiang Shanghai Software Technology Co Ltd
Priority to CN201911142326.7A priority Critical patent/CN110866108A/zh
Publication of CN110866108A publication Critical patent/CN110866108A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Storage Device Security (AREA)

Abstract

本发明公开了一种敏感数据检测系统,连接待检测系统,包括:连接模块、策略模块、识别模块、数据处理模块和显示模块,其中,所述连接模块连接所述识别模块和所述待检测系统,将所述待检测系统的数据传递给所述识别模块;所述策略模块输入敏感数据规则;所述识别模块根据敏感数据规则,从接收的数据中初步筛选出敏感数据;所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给所述显示模块进行显示。本发明具有准确率高、快速方便的特点。

Description

一种敏感数据检测系统及其检测方法
技术领域
本发明涉及计算机应用技术领域,尤其涉及敏感数据识别技术。
背景技术
敏感数据又称隐私数据,常见的有姓名、身份证号码、住址、电话、银行账号、邮箱、密码、医疗信息、教育背景等。这些与个人生活、工作密切相关的信息受到不同行业和政府数据隐私法规的管制。如果负责存储和发布这些信息的企业或政府无法保证数据隐私,他们就会面临严重的财务、法律或问责风险,同时在用户信任方面蒙受巨大损失。因此,有效可靠的敏感数据检测技术,相当重要。
发明内容
本发明的目的在于提供一种敏感数据检测系统和检测方法,具有准确率高、快速方便的特点。
实现上述目的的技术方案是:
一种敏感数据检测系统,连接待检测系统,包括:连接模块、策略模块、识别模块、数据处理模块和显示模块,其中,
所述连接模块连接所述识别模块和所述待检测系统,将所述待检测系统的数据传递给所述识别模块;
所述策略模块输入敏感数据规则;
所述识别模块根据敏感数据规则,从接收的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给所述显示模块进行显示。
优选的,所述待检测系统为数据库,所述连接模块包括虚拟网络单元和程序接口单元,
所述虚拟网络单元加载数据库通信协议,并通过所述程序接口单元连接所述识别模块。
优选的,所述待检测系统的数据包括结构化数据、半结构化数据、非结构化文本文件数据以及图片数据。
优选的,所述识别模块包括敏感数据规则数据库、数据类型识别单元和敏感数据辨别单元,其中,
所述敏感数据规则数据库获取并保存来自所述策略模块的敏感数据规则;
所述数据类型识别单元识别来自所述待检测系统的数据的文件类型和文件属性,并分类;
所述敏感数据辨别单元根据敏感数据规则对分类后的数据中进行敏感辨别,初步筛选出包含敏感信息的文件数据。
优选的,所述数据处理模块包括:敏感文件名识别单元、文件解析单元和敏感文件内容识别单元,其中,
所述敏感文件名识别单元根据敏感数据规则,对包含敏感信息的文件数据的文件名进行敏感识别,对该文件数据的敏感文件名部分进行标记;
所述文件解析单元对包含敏感信息的文件数据进行文本解析;
所述敏感文件内容识别单元对解析后的文件数据的文本进行敏感识别,对该文件数据的敏感文本内容部分进行标记;
所述显示模块将文件数据及其敏感文件名部分、敏感文本内容部分进行显示。
优选的,所述敏感数据规则指:设置对应各类敏感内容的字段名、字段内容,匹配这些字段名、字段内容的文件部分判断为敏感数据。
优选的,敏感内容指:姓名、身份证件号码、通讯号码、地址、邮箱、性别、喜好、银行账号、密码、医疗信息、教育背景、隐私图片和社交关系。
优选的,对应各类敏感内容的字段名、字段内容设置低相似度阈值和高相似度阈值;
所述敏感数据辨别单元筛选出符合低相似度阈值的文件数据;
所述敏感文件名识别单元和敏感文件内容识别单元根据高相似度阈值对文件数据进行敏感识别。
优选的,还包括:连接所述策略模块,用于输入数据类型识别规则的规则模块;
所述数据类型识别单元通过所述策略模块从所述规则模块提取数据类型识别规则,根据数据类型识别规则识别数据的文件类型和文件属性,并分类。
一种基于上述敏感数据检测系统的检测方法,包括:
所述识别模块根据敏感数据规则,从所述待检测系统的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给所述显示模块进行显示。
本发明的有益效果是:本发明通过有效的敏感数据预检和深度识别,能快速准确地识别出敏感数据及其位置,对敏感数据的保护具有重大的意义。而且涉及的数据类型广泛,双层识别筛选,有效提高速度和准确率,具有较大的应用价值。
附图说明
图1是本发明的敏感数据检测系统的结构图;
图2是本发明中识别模块和数据处理模块的结构图。
具体实施方式
下面将结合附图对本发明作进一步说明。
请参阅图1和图2,本发明的敏感数据检测系统,连接待检测系统100,包括:连接模块1、策略模块2、识别模块3、数据处理模块4和显示模块5。
连接模块1连接识别模块3和待检测系统100,将待检测系统100的数据传递给识别模块3。待检测系统100一般为数据库。连接模块1包括虚拟网络单元11和程序接口单元12,虚拟网络单元11加载数据库通信协议,并通过程序接口单元12连接识别模块3。虚拟网络单元11采用PPTP/L2TP/IPSec/OpenVPN等。数据库通信协议为Oracle、MySQL,PostgreSQL,MSSQL等。待检测系统100的数据包括结构化数据(如数据库表格、csv,xlsx等)、半结构化数据(如json,xml)、非结构化文本文件数据(如一个txt文本文件,HTML、docx文件等)以及图片数据(如名片,经过OCR识别后,转为非结构化文本文件)。
用户通过策略模块2输入敏感数据规则。敏感数据规则指:设置对应各类敏感内容的字段名、字段内容,匹配这些字段名、字段内容的文件部分判断为敏感数据。敏感内容指:姓名、身份证件号码、通讯号码、地址、邮箱、性别、喜好、银行账号、密码、医疗信息、教育背景、隐私图片和社交关系。
识别模块3根据敏感数据规则,从接收的数据中初步筛选出敏感数据。识别模块3包括敏感数据规则数据库31、数据类型识别单元32和敏感数据辨别单元33。
规则模块6连接略模块2,用于输入数据类型识别规则。敏感数据规则数据库31获取并保存来自策略模块2的敏感数据规则。数据类型识别单元32通过策略模块2从规则模块6提取数据类型识别规则,根据数据类型识别规则识别来自待检测系统100的数据的文件类型和文件属性,并分类。敏感数据辨别单元33根据敏感数据规则对分类后的数据中进行敏感辨别,初步筛选出包含敏感信息的文件数据。
数据处理模块4对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给显示模块5进行显示。数据处理模块4包括:敏感文件名识别单元41、文件解析单元42和敏感文件内容识别单元43。
敏感文件名识别单元41根据敏感数据规则,对包含敏感信息的文件数据的文件名进行敏感识别,对该文件数据的敏感文件名部分进行标记。文件解析单元42对包含敏感信息的文件数据进行文本解析。敏感文件内容识别单元43对解析后的文件数据的文本进行敏感识别,对该文件数据的敏感文本内容部分进行标记。其中,可以进一步设置:对应各类敏感内容的字段名、字段内容设置低相似度阈值和高相似度阈值。敏感数据辨别单元33筛选出符合低相似度阈值的文件数据。敏感文件名识别单元41和敏感文件内容识别单元43根据高相似度阈值对文件数据进行敏感识别。显示模块5将文件数据及其敏感文件名部分、敏感文本内容部分进行显示。
本发明的基于上述敏感数据检测系统的检测方法,包括下列步骤:
1)识别模块3根据敏感数据规则,从待检测系统100的数据中初步筛选出敏感数据。
2)数据处理模块4对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给显示模块5进行显示。
以上实施例仅供说明本发明之用,而非对本发明的限制,有关技术领域的技术人员,在不脱离本发明的精神和范围的情况下,还可以作出各种变换或变型,因此所有等同的技术方案也应该属于本发明的范畴,应由各权利要求所限定。

Claims (10)

1.一种敏感数据检测系统,连接待检测系统,其特征在于,包括:连接模块、策略模块、识别模块、数据处理模块和显示模块,其中,
所述连接模块连接所述识别模块和所述待检测系统,将所述待检测系统的数据传递给所述识别模块;
所述策略模块输入敏感数据规则;
所述识别模块根据敏感数据规则,从接收的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给所述显示模块进行显示。
2.根据权利要求1所述的敏感数据检测系统,其特征在于,所述待检测系统为数据库,所述连接模块包括虚拟网络单元和程序接口单元,
所述虚拟网络单元加载数据库通信协议,并通过所述程序接口单元连接所述识别模块。
3.根据权利要求1所述的敏感数据检测系统,其特征在于,所述待检测系统的数据包括结构化数据、半结构化数据、非结构化文本文件数据以及图片数据。
4.根据权利要求1所述的敏感数据检测系统,其特征在于,所述识别模块包括敏感数据规则数据库、数据类型识别单元和敏感数据辨别单元,其中,
所述敏感数据规则数据库获取并保存来自所述策略模块的敏感数据规则;
所述数据类型识别单元识别来自所述待检测系统的数据的文件类型和文件属性,并分类;
所述敏感数据辨别单元根据敏感数据规则对分类后的数据中进行敏感辨别,初步筛选出包含敏感信息的文件数据。
5.根据权利要求4所述的敏感数据检测系统,其特征在于,所述数据处理模块包括:敏感文件名识别单元、文件解析单元和敏感文件内容识别单元,其中,
所述敏感文件名识别单元根据敏感数据规则,对包含敏感信息的文件数据的文件名进行敏感识别,对该文件数据的敏感文件名部分进行标记;
所述文件解析单元对包含敏感信息的文件数据进行文本解析;
所述敏感文件内容识别单元对解析后的文件数据的文本进行敏感识别,对该文件数据的敏感文本内容部分进行标记;
所述显示模块将文件数据及其敏感文件名部分、敏感文本内容部分进行显示。
6.根据权利要求5所述的敏感数据检测系统,其特征在于,所述敏感数据规则指:设置对应各类敏感内容的字段名、字段内容,匹配这些字段名、字段内容的文件部分判断为敏感数据。
7.根据权利要求6所述的敏感数据检测系统,其特征在于,敏感内容指:姓名、身份证件号码、通讯号码、地址、邮箱、性别、喜好、银行账号、密码、医疗信息、教育背景、隐私图片和社交关系。
8.根据权利要求6所述的敏感数据检测系统,其特征在于,对应各类敏感内容的字段名、字段内容设置低相似度阈值和高相似度阈值;
所述敏感数据辨别单元筛选出符合低相似度阈值的文件数据;
所述敏感文件名识别单元和敏感文件内容识别单元根据高相似度阈值对文件数据进行敏感识别。
9.根据权利要求4所述的敏感数据检测系统,其特征在于,还包括:连接所述策略模块,用于输入数据类型识别规则的规则模块;
所述数据类型识别单元通过所述策略模块从所述规则模块提取数据类型识别规则,根据数据类型识别规则识别数据的文件类型和文件属性,并分类。
10.一种基于根据权利要求1所述敏感数据检测系统的检测方法,其特征在于,包括:
所述识别模块根据敏感数据规则,从所述待检测系统的数据中初步筛选出敏感数据;
所述数据处理模块对筛选出的敏感数据进行解析以及敏感识别,把敏感数据发送给所述显示模块进行显示。
CN201911142326.7A 2019-11-20 2019-11-20 一种敏感数据检测系统及其检测方法 Pending CN110866108A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911142326.7A CN110866108A (zh) 2019-11-20 2019-11-20 一种敏感数据检测系统及其检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911142326.7A CN110866108A (zh) 2019-11-20 2019-11-20 一种敏感数据检测系统及其检测方法

Publications (1)

Publication Number Publication Date
CN110866108A true CN110866108A (zh) 2020-03-06

Family

ID=69655849

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911142326.7A Pending CN110866108A (zh) 2019-11-20 2019-11-20 一种敏感数据检测系统及其检测方法

Country Status (1)

Country Link
CN (1) CN110866108A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN112416943A (zh) * 2020-12-03 2021-02-26 广东新禾道信息科技有限公司 一种基于敏感数据识别的测绘数据安全检查方法
CN113496035A (zh) * 2020-04-08 2021-10-12 阿里巴巴集团控股有限公司 信息、笔记信息、代码检测方法、设备及存储介质
CN116432208A (zh) * 2023-06-08 2023-07-14 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统
WO2024109619A1 (zh) * 2022-11-22 2024-05-30 中国银联股份有限公司 敏感数据识别方法、装置、设备及计算机存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034068A1 (zh) * 2014-09-03 2016-03-10 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN106776842A (zh) * 2016-11-28 2017-05-31 腾讯科技(上海)有限公司 多媒体数据检测方法及装置
CN108681676A (zh) * 2018-04-03 2018-10-19 北京市商汤科技开发有限公司 数据管理方法和装置、系统、电子设备、程序和存储介质
CN109766485A (zh) * 2018-12-07 2019-05-17 中国电力科学研究院有限公司 一种敏感信息检查方法及系统
CN209072532U (zh) * 2018-11-06 2019-07-05 中国电力科学研究院有限公司 敏感信息检查系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016034068A1 (zh) * 2014-09-03 2016-03-10 阿里巴巴集团控股有限公司 一种敏感信息处理方法、装置、服务器及安全判定系统
CN105825138A (zh) * 2015-01-04 2016-08-03 北京神州泰岳软件股份有限公司 一种敏感数据识别的方法和装置
CN106776842A (zh) * 2016-11-28 2017-05-31 腾讯科技(上海)有限公司 多媒体数据检测方法及装置
CN108681676A (zh) * 2018-04-03 2018-10-19 北京市商汤科技开发有限公司 数据管理方法和装置、系统、电子设备、程序和存储介质
CN209072532U (zh) * 2018-11-06 2019-07-05 中国电力科学研究院有限公司 敏感信息检查系统
CN109766485A (zh) * 2018-12-07 2019-05-17 中国电力科学研究院有限公司 一种敏感信息检查方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496035A (zh) * 2020-04-08 2021-10-12 阿里巴巴集团控股有限公司 信息、笔记信息、代码检测方法、设备及存储介质
CN111522951A (zh) * 2020-04-26 2020-08-11 成都思维世纪科技有限责任公司 一种基于图像识别的敏感数据识别与分类的技术方法
CN112416943A (zh) * 2020-12-03 2021-02-26 广东新禾道信息科技有限公司 一种基于敏感数据识别的测绘数据安全检查方法
WO2024109619A1 (zh) * 2022-11-22 2024-05-30 中国银联股份有限公司 敏感数据识别方法、装置、设备及计算机存储介质
CN116432208A (zh) * 2023-06-08 2023-07-14 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统
CN116432208B (zh) * 2023-06-08 2023-09-05 长扬科技(北京)股份有限公司 工业互联网数据的安全管理方法、装置、服务器及系统

Similar Documents

Publication Publication Date Title
CN110866108A (zh) 一种敏感数据检测系统及其检测方法
US11468225B2 (en) Determining functional and descriptive elements of application images for intelligent screen automation
CN109582861B (zh) 一种数据隐私信息检测系统
US10482280B2 (en) Structured text and pattern matching for data loss prevention in object-specific image domain
CN110866281A (zh) 一种用于敏感数据的安全合规处理系统及方法
US20090043860A1 (en) Apparatus and method for detecting characteristics of electronic mail message
US11184313B1 (en) Message content cleansing
CN105792152B (zh) 伪基站短信识别方法和装置
US20150170036A1 (en) Determining document classification probabilistically through classification rule analysis
US11393141B1 (en) Graphical data display
CN111586005A (zh) 扫描器扫描行为识别方法及装置
CN113535813A (zh) 一种数据挖掘方法、装置、电子设备以及存储介质
CA3164550A1 (en) Image information processing method for use in q&a system, device and electronic equipment
WO2018145637A1 (zh) 上网行为记录方法、装置及用户终端
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
CN111429110B (zh) 门店标准化审核方法、装置、设备及存储介质
CN111259207A (zh) 短信的识别方法、装置及设备
CN114092948A (zh) 一种票据识别方法、装置、设备以及存储介质
CN108683583A (zh) 一种垃圾邮件处理方法、装置及存储介质
CN109636578B (zh) 信贷信息的风险检测方法、装置、设备及可读存储介质
CN115934928A (zh) 一种信息抽取方法、装置、设备及存储介质
CN113112323B (zh) 基于数据分析的异常订单识别方法、装置、设备及介质
US9106423B1 (en) Using positional analysis to identify login credentials on a web page
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN114610844A (zh) 一种敏感信息检测方法、装置、存储介质及终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination