CN112347079A - 一种数据库内容保密检查系统及检查方法 - Google Patents

一种数据库内容保密检查系统及检查方法 Download PDF

Info

Publication number
CN112347079A
CN112347079A CN202011232205.4A CN202011232205A CN112347079A CN 112347079 A CN112347079 A CN 112347079A CN 202011232205 A CN202011232205 A CN 202011232205A CN 112347079 A CN112347079 A CN 112347079A
Authority
CN
China
Prior art keywords
data
inspection
document
module
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011232205.4A
Other languages
English (en)
Inventor
王世晞
张亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Shiping Information & Technology Co ltd
Original Assignee
Hangzhou Shiping Information & Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Shiping Information & Technology Co ltd filed Critical Hangzhou Shiping Information & Technology Co ltd
Priority to CN202011232205.4A priority Critical patent/CN112347079A/zh
Publication of CN112347079A publication Critical patent/CN112347079A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services

Abstract

一种数据库内容保密检查系统及检查方法,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。

Description

一种数据库内容保密检查系统及检查方法
技术领域
本发明属于保密检查技术领域,特别涉及一种数据库内容保密检查系统及检查方法。
背景技术
随着信息化的高速发展,信息技术与业务高度融合,为政府部门、企事业单位等带来工作便利的同时,也为保密工作带来了严峻挑战。在此背景下,国家局逐步要求各级保密局进行保密检查全覆盖,进一步督促各级单位自主完成保密检查工作。随着大数据时代的到来,集约化平台、大数据平台的上线,使的终端存储数据所占比重越来越小。但是传统的终端保密检查系统主要是针对终端计算机存储的涉密信息检查,对于集约化平台以及大数据平台数据的检查却无能为力。近年来,市面上也出现了一些针对大数据平台的保密检查系统,但是普遍存在数据采集效率不高以及对采集的数据类型检查的覆盖面不全,多数仅能实现对结构化数据的保密检查,对非结构化数据束手无策,并且存在保密检查准确率不高的问题。
发明内容
本发明的目的在于提供一种数据库内容保密检查系统及检查方法,以解决上述问题。
为实现上述目的,本发明采用以下技术方案:
一种数据库内容保密检查系统,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;
数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;
涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;
检查结果输出模块用于展示检查结果。
进一步的,数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQL Server服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。
进一步的,结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。
进一步的,通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。
进一步的,一种数据库内容保密检查系统的检查方法,包括以下步骤:
步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;
步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;
步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。
进一步的,结构化文档处理包括:
1)编码检测
系统会根据数据库创建时的编码和类型进行tika解析;
2)编码转换
数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。
进一步的,非结构化文档处理包括:
1)文档类型识别
对文档的类型进行tika解析,识别文档所属的类型;
2)文档内容提取
对文档中的内容进行提取,即对文档内容进行深度解析;
3)文档元数据提取
从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。
进一步的,检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。
进一步的,深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。
与现有技术相比,本发明有以下技术效果:
在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。最后通过机器学习引入正例、反例对涉密模型进行构建与训练,一定程度上降低了保密检查误报率,提高准确率,同时减轻了检查人员的工作量。2)本系统作为保密检查工具,能够协助保密检查单位更好的完成保密检查工作,为监管单位提供保密检查技术支撑,另一方面还可以作为政府部门、企事业单位的自查工具,及时发现与避免涉密信息外泄,从而达到保护秘密的安全。
附图说明
图1为数据库保密检查流程图;
图2为数据采集模块访问接口分布图;
图3为文档类型识别和解析流程;
图4为训练模型实现过程图。
具体实施方式
以下结合附图对本发明进一步说明:
请参阅图1至图4,一种数据库内容保密检查系统,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;
数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;
涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;
检查结果输出模块用于展示检查结果。在数据采集模块中,采用了各类数据库的直接访问接口,并且设计统一数据访问接口,实现了对大数据、云平台中各类数据库中数据的快速访问,并且通过数据库性能远程监控,利用数据库服务的剩余资源,进一步加快了对数据库中数据的采集与处理。
在涉密检查模块中对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖。最后通过机器学习引入正例、反例对涉密模型进行构建与训练,一定程度上降低了保密检查误报率,提高准确率,同时减轻了检查人员的工作量。
数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQLServer服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。数据采集模块,主要用于对待检查数据的采集,该模块采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;例如采用OCI接口实现对Oracle数据库的访问接口,提供了一组可对Oracle数据库进行存取的接口子例程,通过在第三代程序设计语言中进行调用可达到存取数据库的目的;采用DB—Library直接访问SQL Server服务器的底层函数,它与Net—Library及网络协议直接交互,访问速度更快,效率更高;MongoDB C Driver是MongoDB支持的一种跨平台快速访问接口,实现对MongoDB的全部操作。包括增删改查和执行命令的各种接口;hiRedis实现对Redis完整的命令集、管线以及事件驱动编程;HBaseJava API通过Java语言访问HBase数据的高效接口,实现了对数据库配置、HTable操作、列族操作、列修饰符操作等接口等等。在该模块中,本系统针对不同的数据库,分别开发相应的数据库性能远程监控组件,并与扫描引擎集成,实时监控数据库运行状态,在不影响数据库使用的前提下,充分利用数据库服务的剩余资源,实现对数据库数据快速采集和处理。
结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。
通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。
一种数据库内容保密检查系统的检查方法,包括以下步骤:
步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;
步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;
步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。
结构化文档处理包括:
1)编码检测
系统会根据数据库创建时的编码和类型进行tika解析;
2)编码转换
数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。
非结构化文档处理包括:
1)文档类型识别
对文档的类型进行tika解析,识别文档所属的类型;
2)文档内容提取
对文档中的内容进行提取,即对文档内容进行深度解析;
3)文档元数据提取
从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。系统能够解析的文档类型有OFFICE办公文档(doc/x,xls/x,ppt/x…)、PDF、纯文件、标记文本、源代码、图片内容等300类以上。
检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。
深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。
数据库内容保密检查系统通过旁路部署在核心交换机上,检查系统与待检查系统需保证网络可达,检查系统需拥有数据的可读权限,可实现对待检查系统的涉密检查。能够对内部公开服务器或云平台中的数据进行涉密检查,检查出违规存储、违规传输的涉密数据,并上报检查结果。

Claims (9)

1.一种数据库内容保密检查系统,其特征在于,包括数据采集模块、涉密检查模块和检查结果输出模块;数据采集模块、涉密检查模块和检查结果输出模块依次连接;
数据采集模块通过用了各类数据库的直接访问接口,统一数据访问接口采集待检查数据;
涉密检查模块对待检查的各种数据类型包括结构化数据、非结构化数据进行数据内容解析,实现对数据类型检查全覆盖;通过机器学习引入正例、反例对涉密模型进行构建与训练;
检查结果输出模块用于展示检查结果。
2.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,数据采集模块中所采用的接口包括访问Oracle数据库的OCI接口,访问SQL Server服务器底层函数的DB—Library,MongoDB C Driver跨平台快速访问接口,以及C语言接口和直接访问接口。
3.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,结构化数据为具有编码和类型的数据,非结构化文档为文档类型混乱的文档,针对非结构化文档使用类型解析器进行解析分类。
4.根据权利要求1所述的一种数据库内容保密检查系统,其特征在于,通过机器学习进行涉密模型构建与训练,将通过检查人员确认的涉密数据作为正例,误报数据作为反例,进行训练模型的建立,对于新的待检查文档,通过训练模型判断其是否涉密,如果是涉密文档,则将其作为正例,反之则作为反例,实现对训练模型的更新,在下次保密检查过程中将应用最新的训练模型进行检测。
5.一种数据库内容保密检查系统的检查方法,其特征在于,基于权利要求1至4任意一项所述的一种数据库内容保密检查系统,包括以下步骤:
步骤1,采用各数据库类型的直接数据访问接口实现对数据的快速访问,并且通过统一数据访问接口的设计,向涉密检查模块提供统一的数据结构;
步骤2,对待检查的结构化数据以及非结构化数据的内容解析提取;
步骤3,采用深度内容识别技术,对内容进行匹配,实现待检查数据的保密检查。
6.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,结构化文档处理包括:
1)编码检测
系统会根据数据库创建时的编码和类型进行tika解析;
2)编码转换
数据库编码格式不是系统支持的格式,需要转换成系统支持的格式来进行检测。
7.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,非结构化文档处理包括:
1)文档类型识别
对文档的类型进行tika解析,识别文档所属的类型;
2)文档内容提取
对文档中的内容进行提取,即对文档内容进行深度解析;
3)文档元数据提取
从各种各样的文档格式的数据中,把元数据提取出来,为后面的涉密内容匹配。
8.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,检查结果输出模块,与涉密检查模块相连,用于显示涉密检查结果,包含匹配内容的上下文、涉密概率、原文路径信息,用于人工审核。
9.根据权利要求5所述的一种数据库内容保密检查系统的检查方法,其特征在于,深度内容识别技术包括关键字、关键字组、正则表达式、数据识别脚本、文本元数据和文档指纹技术。
CN202011232205.4A 2020-11-06 2020-11-06 一种数据库内容保密检查系统及检查方法 Pending CN112347079A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011232205.4A CN112347079A (zh) 2020-11-06 2020-11-06 一种数据库内容保密检查系统及检查方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011232205.4A CN112347079A (zh) 2020-11-06 2020-11-06 一种数据库内容保密检查系统及检查方法

Publications (1)

Publication Number Publication Date
CN112347079A true CN112347079A (zh) 2021-02-09

Family

ID=74429255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011232205.4A Pending CN112347079A (zh) 2020-11-06 2020-11-06 一种数据库内容保密检查系统及检查方法

Country Status (1)

Country Link
CN (1) CN112347079A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032811A (zh) * 2021-04-13 2021-06-25 北京国联易安信息技术有限公司 数据库敏感信息检查方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645074A (zh) * 2009-09-07 2010-02-10 浪潮集团山东通用软件有限公司 一种访问不同类型关系型数据库的方法
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN108133148A (zh) * 2017-12-22 2018-06-08 北京明朝万达科技股份有限公司 数据安全检查方法及系统
CN109766485A (zh) * 2018-12-07 2019-05-17 中国电力科学研究院有限公司 一种敏感信息检查方法及系统
US20200250139A1 (en) * 2018-12-31 2020-08-06 Dathena Science Pte Ltd Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101645074A (zh) * 2009-09-07 2010-02-10 浪潮集团山东通用软件有限公司 一种访问不同类型关系型数据库的方法
CN107992764A (zh) * 2017-11-28 2018-05-04 国网河南省电力公司电力科学研究院 一种敏感网页识别与检测方法及装置
CN108133148A (zh) * 2017-12-22 2018-06-08 北京明朝万达科技股份有限公司 数据安全检查方法及系统
CN109766485A (zh) * 2018-12-07 2019-05-17 中国电力科学研究院有限公司 一种敏感信息检查方法及系统
US20200250139A1 (en) * 2018-12-31 2020-08-06 Dathena Science Pte Ltd Methods, personal data analysis system for sensitive personal information detection, linking and purposes of personal data usage prediction

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113032811A (zh) * 2021-04-13 2021-06-25 北京国联易安信息技术有限公司 数据库敏感信息检查方法

Similar Documents

Publication Publication Date Title
CN101267357B (zh) 一种sql注入攻击检测方法及系统
US9679045B2 (en) Establishing and querying methods of knowledge library engine based on emergency management
CN109582861B (zh) 一种数据隐私信息检测系统
US11716349B2 (en) Machine learning detection of database injection attacks
US10423649B2 (en) Natural question generation from query data using natural language processing system
CN111967761A (zh) 一种基于知识图谱的监控预警方法、装置及电子设备
US11601453B2 (en) Methods and systems for establishing semantic equivalence in access sequences using sentence embeddings
CN111866004B (zh) 安全评估方法、装置、计算机系统和介质
US20230016403A1 (en) Method of processing triple data, method of training triple data processing model, device, and medium
CN111586695B (zh) 短信识别方法及相关设备
CN115982012A (zh) 一种接口管理能力成熟度的评估模型及方法
CN109657462B (zh) 数据检测方法、系统、电子设备和存储介质
CN112347079A (zh) 一种数据库内容保密检查系统及检查方法
CN113962597A (zh) 一种数据分析方法、装置、电子设备及存储介质
CN113015171A (zh) 一种具有网络舆情监控及分析功能的系统
CN116881971A (zh) 一种敏感信息泄露检测方法、设备及存储介质
CN109918638B (zh) 一种网络数据监测方法
CN111209750A (zh) 车联网威胁情报建模方法、装置及可读存储介质
CN116881395A (zh) 一种舆情信息检测方法和装置
CN109710730B (zh) 一种基于自然语言分析处理的巡视信息系统及分析方法
CN111383660A (zh) 一种网站不良信息监测系统及其监测方法
CN111126373A (zh) 基于跨模态识别技术的互联网短视频判违装置及方法
CN115618085A (zh) 一种基于动态标签的接口数据暴露探测方法
CN115344563A (zh) 数据去重方法及装置、存储介质、电子设备
CN114265759A (zh) 一种数据信息泄露后的溯源方法、系统及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210209