CN103164515B - 计算机系统涉密文件知识库搜索方法 - Google Patents

计算机系统涉密文件知识库搜索方法 Download PDF

Info

Publication number
CN103164515B
CN103164515B CN201310066976.4A CN201310066976A CN103164515B CN 103164515 B CN103164515 B CN 103164515B CN 201310066976 A CN201310066976 A CN 201310066976A CN 103164515 B CN103164515 B CN 103164515B
Authority
CN
China
Prior art keywords
information
document
confidential
knowledge base
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310066976.4A
Other languages
English (en)
Other versions
CN103164515A (zh
Inventor
傅如毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Yuanwang Information Co Ltd
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201310066976.4A priority Critical patent/CN103164515B/zh
Publication of CN103164515A publication Critical patent/CN103164515A/zh
Application granted granted Critical
Publication of CN103164515B publication Critical patent/CN103164515B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Storage Device Security (AREA)

Abstract

本发明公开了一种计算机系统涉密文件知识库搜索方法,依次包括a)敏感信息文件整理、b)“学习”涉密文件、c)文件系统恢复、d)解析扫描对象、e)搜索匹配步骤和f)展现等步骤。本发明通过对已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。

Description

计算机系统涉密文件知识库搜索方法
【技术领域】
本发明涉及对计算机系统中存放的已知涉密文件进行搜索的方法。
【背景技术】
信息技术的快速发展大力推动了计算机网络与信息系统在政府及企事业单位的广泛应用,为办公及生产建设的电子化、自动化、信息化提供了坚实保障,同时,各种涉密信息也大量以电子文件的形式存储于计算机系统中。这种涉密文件在非涉密算机上的存在,给信息安全带来了严重隐患,尤其在政府内网(公安、检察院、法院、政府、财税、电力等等领域)环境中,防止涉密文件的非法存储可以说已成为国家安全保密工作的重中之重。虽然国家对涉密文件有明确的文件格式和标识规定,但是在实际应用当中有许多单位和部门为了便于自己内部管理和使用,都会有自己的一套涉密信息文件格式和标识规定,有的甚至没有明确的格式和标识,甚至还有一些管理人员为了逃避涉密检查故意破坏涉密信息文件格式,打乱涉密信息文件内容。那么面对这些问题如何准确的发现这些涉密信息文件,对这些文件进行保护和管理已近成为当前解决涉密信息泄露的关键问题。
目前的涉密文件搜索程序主要采用关键字检查和涉密文件格式检查方法,这样的检查方式存在一定的漏洞和缺陷。
1、搜索结果准确性不高。许多非涉密文件中会存在同样的关键字,导致关键字检查准确度不高。
2、搜索结果完整性不强。许多部门和单位对涉密文件格式要求不严格,导致采用涉密文件格式检查方式会遗漏很多涉密文档。
3、搜索方式抗干扰性弱。如果人为的破坏一些涉密文档的格式,比如删除涉密文件文件头内容、打乱涉密文件段落次序,那么原本能通过涉密文件格式特征搜索方式能发现的涉密文档可能就会发现不了。
4、对已知涉密文件缺乏有效管理。对发布的涉密信息文件缺乏原始记录追踪,比如发布部门、发布时间、发布人等。导致无法对涉密文档整个生命周期进行有效的管理。一但发生泄密,无法取证,无法追查其泄密源头。
【发明内容】
本发明的目的就是解决现有技术中的问题,提出一种计算机系统涉密文件知识库搜索方法,能够更加完整且准确地发现计算机系统中存放的涉密文件并且加以有效的管理,以便于消除信息安全保密工作的隐患。
为实现上述目的,本发明提出了一种计算机系统涉密文件知识库搜索方法,依次包括以下步骤:
a)敏感信息文件整理:由各部门涉密信息管理员把涉密文件通过录入模块导入到系统内,并通过录入模块录入文件来源管理信息;
b)“学习”涉密文件:由学习模块提取涉密文件的多个内容特征信息,并将学习到的内容特征信息与a)步骤中录入的文件来源管理信息相对应保存到知识库中;学习到的多个内容特征信息分成基础特征信息和附加特征信息两类;
d)解析扫描对象:对计算机进行检查时,依照不同计算机文件类型、版本,解析出文档的内容信息;
e)搜索匹配步骤:将解析出的文档的内容信息与知识库中的内容特征信息通过“设定策略组合”进行匹配扫描,生成该扫描文档是否被判断为涉密文件的结果;
f)展现步骤:在页面上展现被判断为涉密文件的文件名、文件存放路径、文件来源管理信息;
所述e)搜索匹配步骤中“设定策略组合”是指根据匹配文档的内容大小、段落数量和内容特征信息,设定匹配规律,根据匹配算法来计算出匹配文档的匹配相似度。
作为优选,所述a)敏感信息文件整理步骤中文件来源管理信息包括文件名、发布部门、发布人和发布时间;f)展现步骤中展现的文件来源管理信息也包括文件名、发布部门、发布人和发布时间。
作为优选,所述b)“学习”涉密文件步骤中提取内容特征信息时,内容特征信息的提取位置和提取大小按照“设定提取策略”来进行提取。
作为优选,所述“设定提取策略”是提取位置至少有3处,提取大小少于50个字节。
作为优选,在d)解析扫描对象步骤之前还设有c)文件系统恢复步骤:通过文件系统恢复,将删除的文件进行复原,然后再进入d)解析扫描对象步骤。
作为优选,所述d)解析扫描对象步骤中采用二进制码解析方法、字符解析方法、文字解析方法相结合。
作为优选,所述e)搜索匹配步骤中匹配相似度采用基础特征信息与附加特征信息相结合的方式来判断,基础特征信息用来初次过滤明显不符合的匹配文档对象,附加特征信息用来提高搜索精度,相似度分数越高说明匹配程度越高。
作为优选,所述f)展现步骤中按相似度排序展现,根据相似度分数分成相似、可疑和准确三类进行直观显示,展现的文件来源管理信息包括发布部门、发布人和发布时间。
本发明的有益效果:本发明通过对已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。
本发明的特征及优点将通过实施例结合附图进行详细说明。
【附图说明】
图1是本发明计算机系统涉密文件知识库搜索方法的流程框图。
图2是本发明计算机系统涉密文件知识库搜索方法的具体流程图。
【具体实施方式】
参阅图1、2,计算机系统涉密文件知识库搜索方法,依次包括以下步骤:
1)、进行文件信息整理,判断是否是涉密信息文档,如果是涉密信息文档,则进入学习涉密文件步骤;如果不是涉密信息文档,则结束程序。
2)、将涉密文件导入系统内,并录入文件来源管理信息,同时,提取涉密文件的内容特征信息,将内容特征信息与文件来源管理信息相对应关联后保存到知识库中。
3)由用户设定搜索范围,选择精确搜索或全面搜索及是否进行文件系统恢复搜索。
4)、若设定为进行文件系统恢复搜索,则对搜索范围内的删除文件进行恢复,每一个恢复文件均做标记。
5)、开始遍历搜索范围内的每一个文件,若文件为压缩文件,则先进行解压缩。
6)、解析文档内容及格式信息,根据不同的文件类型,使用相应的方法进行解析。如TXT文档,直接读取文本内容及相应格式信息;如WORD文档,按照其结构化存储格式进行结构解析,提取其中文本、图片及相应格式信息,或特定地针对WORD2007及以上版本,在解压缩之后解析其包含的XML标签,取得文本、图片及相应格式信息;对PDF等其他文件类型,采用相关方法解析出文本、图片及相应格式信息。
7)、判断是否符合涉密文件知识库特征,如果符合的,则进行界面显示及记录,如果不符合的,则进入是否符合涉密文件格式特征的判断。
8)对文档内容及能展现在打印稿中的格式特征按照涉密文件样式进行联合查找匹配,判断该文件是否符合涉密文件特征。
9)、若判断符合涉密文件特征,则进入到第9步判断是否为涉密文件教学例文,若不符合涉密文件特征,则判断是否搜索完成。
10)、判断是否为涉密文件教学例文,若不是涉密文件教学例文,则为搜索到涉密文件,进行界面显示并记录;若是涉密文件教学例文,则判断是否搜索完成。
11)、对搜索到的涉密文件进行界面显示。
12)、若设定备份,则将涉密文件及文件存放路径备份到U盘隐藏扇区中,同时将原文件粉碎。并转到判断是否搜索完成。
13)、判断是否搜索完成,若未搜索完成,则选择下一文件,并转到第5步进行判断,若搜索完成,则结束流程。
本实施例通过已知涉密信息文档的内容特征学习,解决了特定行业和特定部门自定义一些涉密文件格式,和一些人为的破坏涉密文件格式内容而导致通过传统的关键字检查和涉密文件格式检查发现不了的难题,同时引入了涉密文件的生命周期信息管理方式,能够准确定位涉密信息文档泄密源头,使风险可靠。本方法搜索的针对性强、准确性大大提高,对于减少涉密信息泄露风险,提高涉密文件管理能力,加强信息安全保护具有重要作用。
本发明可应用于政府内网(公安、检察院、法院、政府、财税、电力、等等领域)、企事业单位的计算机安全保密检查工作,对(非涉密)计算机上存储涉密文件进行检查。本发明提出的计算机系统涉密文件搜索方法可做成单机版和网络版两种形式,更多的应用于网络版的内网安全管理系统软件中,实现网络化、高效率、实时性监测、检查,为信息安全工作提供强有力技术手段。
虽然本发明已通过参考优选的实施例进行了图示和描述,但是,本专业普通技术人员应当了解,在权利要求书的范围内,可作形式和细节上的各种各样变化。

Claims (8)

1.计算机系统涉密文件知识库搜索方法,其特征在于:依次包括以下步骤:
a)敏感信息文件整理:由各部门涉密信息管理员把涉密文件通过录入模块导入到计算机系统内,并通过录入模块录入文件来源管理信息;
b)“学习”涉密文件:由学习模块提取涉密文件的多个内容特征信息,并将学习到的内容特征信息与a)步骤中录入的文件来源管理信息相对应保存到知识库中;学习到的多个内容特征信息分成基础特征信息和附加特征信息两类;
d)解析扫描对象:对计算机进行检查时,依照不同计算机文件类型、版本,解析出文档的内容信息;
e)搜索匹配步骤:将解析出的文档的内容信息与知识库中的内容特征信息通过“设定策略组合”进行匹配扫描,生成该扫描文档是否被判断为涉密文件的结果;
f)展现步骤:在页面上展现被判断为涉密文件的文件名、文件存放路径、文件来源管理信息;
所述e)搜索匹配步骤中“设定策略组合”是指根据匹配文档的内容大小、段落数量和内容特征信息,设定匹配规律,根据匹配算法来计算出匹配文档的匹配相似度。
2.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述a)敏感信息文件整理步骤中文件来源管理信息包括文件名、发布部门、发布人和发布时间;f)展现步骤中展现的文件来源管理信息也包括文件名、发布部门、发布人和发布时间。
3.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述b)“学习”涉密文件步骤中提取内容特征信息时,内容特征信息的提取位置和提取大小按照“设定提取策略”来进行提取。
4.如权利要求3所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述“设定提取策略”是提取位置至少有3处,提取大小少于50个字节。
5.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:在d)解析扫描对象步骤之前还设有c)文件系统恢复步骤:通过文件系统恢复,将删除的文件进行复原,然后再进入d)解析扫描对象步骤。
6.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述d)解析扫描对象步骤中采用二进制码解析方法、字符解析方法、文字解析方法相结合。
7.如权利要求1所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述e)搜索匹配步骤中匹配相似度采用基础特征信息与附加特征信息相结合的方式来判断,基础特征信息用来初次过滤明显不符合的匹配文档对象,附加特征信息用来提高搜索精度,相似度分数越高说明匹配程度越高。
8.如权利要求7所述的计算机系统涉密文件知识库搜索方法,其特征在于:所述f)展现步骤中按相似度排序展现,根据相似度分数分成相似、可疑和准确三类进行直观显示,展现的文件来源管理信息包括发布部门、发布人和发布时间。
CN201310066976.4A 2013-03-01 2013-03-01 计算机系统涉密文件知识库搜索方法 Active CN103164515B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310066976.4A CN103164515B (zh) 2013-03-01 2013-03-01 计算机系统涉密文件知识库搜索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310066976.4A CN103164515B (zh) 2013-03-01 2013-03-01 计算机系统涉密文件知识库搜索方法

Publications (2)

Publication Number Publication Date
CN103164515A CN103164515A (zh) 2013-06-19
CN103164515B true CN103164515B (zh) 2015-03-25

Family

ID=48587603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310066976.4A Active CN103164515B (zh) 2013-03-01 2013-03-01 计算机系统涉密文件知识库搜索方法

Country Status (1)

Country Link
CN (1) CN103164515B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105824812B (zh) * 2015-01-04 2019-07-30 北京神州泰岳信息安全技术有限公司 文件类型敏感数据的自动识别方法及装置
CN105117462A (zh) * 2015-08-24 2015-12-02 北京锐安科技有限公司 一种敏感词检查方法和装置
CN105488100A (zh) * 2015-11-18 2016-04-13 国信司南(北京)地理信息技术有限公司 一种非涉密环境下涉密地理数据的高效检测发现系统
CN105912946A (zh) * 2016-04-05 2016-08-31 上海上讯信息技术股份有限公司 一种文件检测的方法与设备
CN106485144A (zh) * 2016-09-30 2017-03-08 北京奇虎科技有限公司 涉密信息的分析方法及装置
CN106355089A (zh) * 2016-09-30 2017-01-25 北京奇虎科技有限公司 涉密信息的分析方法及装置
CN106650432B (zh) * 2016-09-30 2020-11-10 北京奇虎科技有限公司 涉密信息的分析方法及装置
CN108399164B (zh) * 2018-03-27 2022-04-29 国网黑龙江省电力有限公司电力科学研究院 基于模板的电子公文分类分级系统
CN111090835B (zh) * 2019-12-06 2022-04-19 支付宝(杭州)信息技术有限公司 一种文件衍生图的构建方法及装置
CN112417501A (zh) * 2020-11-18 2021-02-26 中国电子科技集团公司第三十研究所 基于区块链的外网涉密文件检测方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN102063359A (zh) * 2010-11-02 2011-05-18 北京安天电子设备有限公司 对usb移动存储设备进行数据监控的方法和装置
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101763394A (zh) * 2009-12-31 2010-06-30 傅如毅 计算机系统涉密文件搜索方法
CN102063359A (zh) * 2010-11-02 2011-05-18 北京安天电子设备有限公司 对usb移动存储设备进行数据监控的方法和装置
CN102819604A (zh) * 2012-08-20 2012-12-12 徐亮 基于内容相关性的文件涉密内容检索、密级判定及标注方法

Also Published As

Publication number Publication date
CN103164515A (zh) 2013-06-19

Similar Documents

Publication Publication Date Title
CN103164515B (zh) 计算机系统涉密文件知识库搜索方法
CN101763394B (zh) 计算机系统涉密文件搜索方法
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
CN110532811B (zh) 一种pdf签章方法及pdf签章系统
CN107066262A (zh) 源代码文件克隆邻接表合并检测方法
CN102236693A (zh) 确定文档之间的相似度的方法和设备
CN108805787A (zh) 一种纸质文档篡改鉴真的方法和装置
CN102087800A (zh) 一种数字化网上阅卷系统
CN112926299B (zh) 一种文本比对方法、合同审阅方法、审核系统
CN111881300A (zh) 面向第三方库依赖的知识图谱构建方法及系统
CN109146625B (zh) 一种基于内容的多版本App更新评价方法及系统
CN113298497A (zh) 基于建筑信息模型的图纸审查方法及系统
Bjelland et al. Practical use of Approximate Hash Based Matching in digital investigations
CN115658080A (zh) 一种软件开源代码成分的识别方法及系统
CN104899822A (zh) 一种能定位pdf电子发票篡改的水印嵌入与认证方法
CN116484420A (zh) 文本脱敏处理方法及装置
CN108446235A (zh) 结合路径标签数据变异的模糊测试关键数据定位方法
CN104615728A (zh) 一种网页正文提取方法及装置
CN111783786A (zh) 图片的识别方法、系统、电子设备及存储介质
CN104850781A (zh) 一种动态多级恶意代码行为分析方法及系统
Didriksen Forensic analysis of OOXML documents
CN110012013A (zh) 一种基于knn的虚拟平台威胁行为分析方法及系统
CN108632263A (zh) 一种sql注入点的检测方法
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
CN113282952B (zh) 一种工程系统设计文件篡改检测定位方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: ZHEJIANG YUANWANG INFORMATION CO., LTD.

Free format text: FORMER OWNER: FU RUYI

Effective date: 20150525

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 311800 SHAOXING, ZHEJIANG PROVINCE TO: 310000 HANGZHOU, ZHEJIANG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20150525

Address after: Hangzhou City, Zhejiang province 310000 Binjiang District Dangfeng Road No. 788 building 15 layer sea

Patentee after: ZHEJIANG YUANWANG INFORMATION CO., LTD.

Address before: 301, room 2, unit 14, Jinshan Village, Jiyang street, Zhuji, Zhejiang, Shaoxing 311800, China

Patentee before: Fu Ruyi