CN106250777A - 数据防泄露系统中一种文档指纹提取及匹配方法 - Google Patents
数据防泄露系统中一种文档指纹提取及匹配方法 Download PDFInfo
- Publication number
- CN106250777A CN106250777A CN201610594684.1A CN201610594684A CN106250777A CN 106250777 A CN106250777 A CN 106250777A CN 201610594684 A CN201610594684 A CN 201610594684A CN 106250777 A CN106250777 A CN 106250777A
- Authority
- CN
- China
- Prior art keywords
- fingerprint
- document
- data
- leakage
- matching process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2221/00—Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/21—Indexing scheme relating to G06F21/00 and subgroups addressing additional information or applications relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F2221/2107—File encryption
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Storage Device Security (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提出了数据防泄露系统中一种文档指纹提取及匹配方法,包括以下步骤:S1)文档指纹提取:根据文件头信息识别出相应类型的文档文件,解析并保存为文本文件,并对文本文件进行规格化预处理;S2)利用特定哈希算法进行指纹计算;S3)进行指纹匹配,判断是否敏感文件。该方法计算复杂度不高,提高指纹提取效率;生成的指纹数据小,便于保存和传输;数据匹配是指纹与指纹之间的比对,不需要源文档,防止二次泄密;指纹的哈希值是不可逆的,即使拿到了指纹数据也不能破解出源文档,保证了源文件的机密性;指纹匹配方法简洁有效,无需进行大量的比对计算。
Description
技术领域
本发明涉及数据防泄漏领域,特别是指数据防泄露系统中一种文档指纹提取及匹配方法。
背景技术
电子文档、数字化产品在办公、教学等工作中给人们方便的同时,也存在着巨大的安全风险。现有的数字版权保护技术主要基于现代密码学理论,如加密系统、数字签名系统等。它主要解决的是数字产品在存储和传输过程中安全问题。但是一旦这些数字产品内容被解密后,就可以被复制、传播和泄露,必须使用基于内容识别的数据防泄露(DLP)技术进行防护。
传统的数据防泄露技术主要依赖于关键词匹配和正则表达式匹配,这些方法有很大的局限性。比如对待识别的数据进行简单地增删改后,这些传统的匹配方法就会失效,导致无法正常对敏感数据进行有效的防护了。
“文档指纹”匹配可确保准确检测以文档形式存储的非结构化数据,文件格式包括Microsoft Word文件、PowerPoint文件、PDF文档等等。受保护的文档包括财务、并购文档,以及其他敏感或专有信息。DLP系统会利用指纹算法为文档创建指纹特征,以匹配原始文档的已检索部分、草稿或不同版本的受保护文档。
发明内容
本发明提出数据防泄露系统中一种文档指纹提取及匹配方法,其特殊之处是使用两次滑动窗口的方式计算哈希值,该哈希值作为文档指纹构成部分,指纹匹配计算方法简洁高效。
本发明的技术方案是这样实现的:
数据防泄露系统中一种文档指纹提取及匹配方法,包括以下步骤:
S1)文档指纹提取:根据文件头信息识别出相应类型的文档文件,解析并保存为文本文件,并对文本文件进行规格化预处理;
S2)指纹计算:
S21)对步骤S1)预处理过后的文本串s,长度为n,选取一个长度窗口为k(O<k<n)在文本串s上滑动,每次滑动一个固定的步长;
S22)通过滑动得到一个子字符串序列,对每个子字符串,利用特定的哈希算法,分别计算哈希值,形成一个哈希值序列;
S23)选取长度为w的另一个窗口,用来按步长分割步骤S22)所得到的哈希值序列,总共分割成n-k-w+2个哈希值子序列;
S24)分别对步骤S23)得到的每个子序列,通过一种算法提取出一个最能代表这个子序列的哈希值,作为这个子序列的局部指纹;
S3)设步骤S2)得到的指纹为FP2,源文档的指纹为FP1,计算FP2和FP1的交集进行指纹匹配,目标文档的匹配源文件的比例为:
r=((FP1∩FP2)/FP1)*100%;
如果r大于实现设定的阈值(如75%),则认为该目标文档是一个敏感文件。
上述技术方案中,步骤S1)中,根据文件头信息识别出的相应类型的文档文件包括但不限于.doc(x)、.ppt(x)、.txt或者.pdf类型的文档文件。
上述技术方案中,步骤S1)中,所述对文本文件进行规格化预处理,具体包括去除页眉页脚信息、去除页码信息,去掉空行、多余的空格、标点符号信息,还包括编码统一化。
其数据预处理根据不同的文件类型会有所不同,比如Word文档会去除页眉页脚、页码等信息。但是比较通用的方法是去掉空行、多余的空格、标点符号等信息。预处理还有一项工作就是编码统一化,比如统一使用UTF-8编码,具体编码不做要求只要在匹配的时候使用的统一编码格式就可以了。
上述技术方案中,步骤S24)中,取模法、取最大值法或者取最小值法,取平均数法,优选采用取最小值法。
这些局部指纹联合起来组成一个集合,这个集合就是整个文档的指纹特征信息。由于这个局部指纹信息可以看做是这个子序列的摘要,具有随机性,另外加上集合的无序性,保证了指纹到源数据的不可逆性。
现有公开的指纹计算方法,只是简单的计算每个数据段的哈希值,这就导致指纹数据特别大,不利于保存和传输,并且还保持原文以及对应原文哈希值序列顺序,导致有被破解的可能。同时在匹配的时候也会花费大量的时间,效率较低。本发明的文档指纹提取及匹配方法有以下优点:
(1)计算复杂度不高,提高指纹提取效率;
(2)生成的指纹数据小(源数据和指纹文件大小比平均为40∶1),便于保存和传输;
(3)数据匹配是指纹与指纹之间的比对,不需要源文档,防止二次泄密;
(4)指纹的哈希值是不可逆的,即使拿到了指纹数据也不能破解出源文档,保证了源文件的机密性;
(5)指纹匹配方法简洁有效,无需进行大量的比对计算。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的文档指纹提取及匹配方法指纹计算中第一次滑动窗口并计算哈希值的流程示意图。
图2是本发明的文档指纹提取及匹配方法指纹计算中第二次滑动窗口计算哈希值并得到局部指纹的流程示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,本发明的数据防泄露系统中一种文档指纹提取及匹配方法,包括以下步骤:
S1)文档指纹提取:根据文件头信息识别出相应类型的文档文件,解析并保存为文本文件,并对文本文件进行规格化预处理;
S2)指纹计算:
S21)对步骤S1)预处理过后的文本串s,长度为n,选取一个长度窗口为k(0<k<n)在文本串s上滑动,每次滑动一个固定的步长;
S22)通过滑动得到一个子字符串序列,对每个子字符串,利用特定的哈希算法,分别计算哈希值,形成一个哈希值序列;
S23)选取长度为w的另一个窗口,用来按步长分割步骤S22)所得到的哈希值序列,总共分割成n-k-w+2个哈希值子序列;
S24)分别对步骤S23)得到的每个子序列,通过一种算法提取出一个最能代表这个子序列的哈希值,作为这个子序列的局部指纹;
S3)设步骤S2)得到的指纹为FP2,源文档的指纹为FP1,计算FP2和FP1的交集进行指纹匹配,目标文档的匹配源文件的比例为:
r=((FP1∩FP2)/FP1)*100%;
如果r大于实现设定的阈值(如75%),则认为该目标文档是一个敏感文件。
上述技术方案中,步骤S1)中,根据文件头信息识别出的相应类型的文档文件包括但不限于.doc(x)、.ppt(x)、.txt或者.pdf类型的文档文件。
上述技术方案中,步骤S1)中,所述对文本文件进行规格化预处理,具体包括去除页眉页脚信息、去除页码信息,去掉空行、多余的空格、标点符号信息,还包括编码统一化。
其数据预处理根据不同的文件类型会有所不同,比如Word文档会去除页眉页脚、页码等信息。但是比较通用的方法是去掉空行、多余的空格、标点符号等信息。预处理还有一项工作就是编码统一化,比如统一使用UTF-8编码,具体编码不做要求只要在匹配的时候使用的统一编码格式就可以了。
上述技术方案中,步骤S24)中,取模法、取最大值法或者取最小值法,取平均数法,优选采用取最小值法。
这些局部指纹联合起来组成一个集合,这个集合就是整个文档的指纹特征信息。由于这个局部指纹信息可以看做是这个子序列的摘要,具有随机性,另外加上集合的无序性,保证了指纹到源数据的不可逆性。
现有公开的指纹计算方法,只是简单的计算每个数据段的哈希值,这就导致指纹数据特别大,不利于保存和传输,并且还保持原文以及对应原文哈希值序列顺序,导致有被破解的可能。同时在匹配的时候也会花费大量的时间,效率较低。本发明的文档指纹提取及匹配方法有以下优点:
(1)计算复杂度不高,提高指纹提取效率;
(2)生成的指纹数据小(源数据和指纹文件大小比平均为40∶1),便于保存和传输;
(3)数据匹配是指纹与指纹之间的比对,不需要源文档,防止二次泄密;
(4)指纹的哈希值是不可逆的,即使拿到了指纹数据也不能破解出源文档,保证了源文件的机密性;
(5)指纹匹配方法简洁有效,无需进行大量的比对计算。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于,包括以下步骤:
S1)文档指纹提取:根据文件头信息识别出相应类型的文档文件,解析并保存为文本文件,并对文本文件进行规格化预处理;
S2)指纹计算:
S21)对步骤S1)预处理过后的文本串s,长度为n,选取一个长度窗口为k(0<k<n)在文本串s上滑动,每次滑动一个固定的步长;
S22)通过滑动得到一个子字符串序列,对每个子字符串,利用特定的哈希算法,分别计算哈希值,形成一个哈希值序列;
S23)选取长度为w的另一个窗口,用来按步长分割步骤S22)所得到的哈希值序列,总共分割成n-k-w+2个哈希值子序列;
S24)分别对步骤S23)得到的每个子序列,通过一种算法提取出一个最能代表这个子序列的哈希值,作为这个子序列的局部指纹;
S3)设步骤S2)得到的指纹为FP2,源文档的指纹为FP1,计算FP2和FP1的交集进行指纹匹配,目标文档的匹配源文件的比例为:
r=((FP1∩FP2)/FP1)*100%;
如果r大于实现设定的阈值,则认为该目标文档是一个敏感文件。
2.根据权利要求1所述的数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于:
步骤S1)中,根据文件头信息识别出的相应类型的文档文件包括.doc(x)、.ppt(x)、.txt或者.pdf类型的文档文件。
3.根据权利要求1所述的数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于:
步骤S1)中,所述对文本文件进行规格化预处理,具体包括:
除页眉页脚信息、去除页码信息,去掉空行、多余的空格、标点符号信息,还包括编码统一化。
4.根据权利要求3所述的数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于:
所述编码统一化采用UTF-8编码。
5.根据权利要求1所述的数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于:
步骤S24)中,局部指纹提取的方法包括:取模法、取最大值法或者取最小值法,取平均数法。
6.根据权利要求1所述的数据防泄露系统中一种文档指纹提取及匹配方法,其特征在于:
步骤S24)中,局部指纹提取的方法采用取最小值法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610594684.1A CN106250777A (zh) | 2016-07-26 | 2016-07-26 | 数据防泄露系统中一种文档指纹提取及匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610594684.1A CN106250777A (zh) | 2016-07-26 | 2016-07-26 | 数据防泄露系统中一种文档指纹提取及匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106250777A true CN106250777A (zh) | 2016-12-21 |
Family
ID=57603640
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610594684.1A Pending CN106250777A (zh) | 2016-07-26 | 2016-07-26 | 数据防泄露系统中一种文档指纹提取及匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106250777A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133603A (zh) * | 2017-05-24 | 2017-09-05 | 努比亚技术有限公司 | 防止指纹泄漏的方法、移动终端及计算机可读存储介质 |
CN107729576A (zh) * | 2017-11-28 | 2018-02-23 | 北京筑业志远软件开发有限公司 | 档案的管理方法和系统 |
CN110929110A (zh) * | 2019-11-13 | 2020-03-27 | 北京北信源软件股份有限公司 | 一种电子文档检测方法、装置、设备及存储介质 |
CN111581955A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 文本指纹提取和校验方法、装置 |
CN112567363A (zh) * | 2018-07-10 | 2021-03-26 | 北京嘀嘀无限科技发展有限公司 | 文件指纹生成 |
CN112733523A (zh) * | 2020-12-30 | 2021-04-30 | 深信服科技股份有限公司 | 文档发送方法、装置、设备及存储介质 |
CN113065154A (zh) * | 2021-03-19 | 2021-07-02 | 深信服科技股份有限公司 | 一种文档检测方法、装置、设备和存储介质 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
CN114896467A (zh) * | 2022-04-24 | 2022-08-12 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN116432240A (zh) * | 2023-06-08 | 2023-07-14 | 长扬科技(北京)股份有限公司 | 内网终端敏感数据的检测方法、装置、服务器及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598007A (zh) * | 2009-05-26 | 2012-07-18 | 韦伯森斯公司 | 有效检测采指纹数据和信息的系统和方法 |
CN103164698A (zh) * | 2013-03-29 | 2013-06-19 | 华为技术有限公司 | 指纹库生成方法及装置、待测文本指纹匹配方法及装置 |
CN103971061A (zh) * | 2014-05-26 | 2014-08-06 | 中电长城网际系统应用有限公司 | 文本文件指纹获取方法及其装置、数据管理方法 |
CN105653984A (zh) * | 2015-12-25 | 2016-06-08 | 北京奇虎科技有限公司 | 文件指纹校验方法及装置 |
-
2016
- 2016-07-26 CN CN201610594684.1A patent/CN106250777A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102598007A (zh) * | 2009-05-26 | 2012-07-18 | 韦伯森斯公司 | 有效检测采指纹数据和信息的系统和方法 |
CN103164698A (zh) * | 2013-03-29 | 2013-06-19 | 华为技术有限公司 | 指纹库生成方法及装置、待测文本指纹匹配方法及装置 |
CN103971061A (zh) * | 2014-05-26 | 2014-08-06 | 中电长城网际系统应用有限公司 | 文本文件指纹获取方法及其装置、数据管理方法 |
CN105653984A (zh) * | 2015-12-25 | 2016-06-08 | 北京奇虎科技有限公司 | 文件指纹校验方法及装置 |
Non-Patent Citations (1)
Title |
---|
李香云,葛华: "基于JSP的《C语言》作业在线提交批改系统设计与实现", 《安徽科技学院学报》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107133603A (zh) * | 2017-05-24 | 2017-09-05 | 努比亚技术有限公司 | 防止指纹泄漏的方法、移动终端及计算机可读存储介质 |
CN107729576A (zh) * | 2017-11-28 | 2018-02-23 | 北京筑业志远软件开发有限公司 | 档案的管理方法和系统 |
CN112567363A (zh) * | 2018-07-10 | 2021-03-26 | 北京嘀嘀无限科技发展有限公司 | 文件指纹生成 |
CN111581955A (zh) * | 2019-02-15 | 2020-08-25 | 阿里巴巴集团控股有限公司 | 文本指纹提取和校验方法、装置 |
CN110929110A (zh) * | 2019-11-13 | 2020-03-27 | 北京北信源软件股份有限公司 | 一种电子文档检测方法、装置、设备及存储介质 |
CN112733523A (zh) * | 2020-12-30 | 2021-04-30 | 深信服科技股份有限公司 | 文档发送方法、装置、设备及存储介质 |
CN113065154A (zh) * | 2021-03-19 | 2021-07-02 | 深信服科技股份有限公司 | 一种文档检测方法、装置、设备和存储介质 |
CN113065154B (zh) * | 2021-03-19 | 2023-12-29 | 深信服科技股份有限公司 | 一种文档检测方法、装置、设备和存储介质 |
CN113935329A (zh) * | 2021-10-13 | 2022-01-14 | 昆明理工大学 | 基于自适应特征识别与去噪的非对称文本匹配方法 |
CN114896467A (zh) * | 2022-04-24 | 2022-08-12 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN114896467B (zh) * | 2022-04-24 | 2024-02-09 | 北京月新时代科技股份有限公司 | 基于神经网络的字段匹配方法和数据智能录入方法 |
CN116432240A (zh) * | 2023-06-08 | 2023-07-14 | 长扬科技(北京)股份有限公司 | 内网终端敏感数据的检测方法、装置、服务器及系统 |
CN116432240B (zh) * | 2023-06-08 | 2023-08-22 | 长扬科技(北京)股份有限公司 | 内网终端敏感数据的检测方法、装置、服务器及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106250777A (zh) | 数据防泄露系统中一种文档指纹提取及匹配方法 | |
CN105447113B (zh) | 一种基于大数据的信息分析方法 | |
CN103971061B (zh) | 文本文件指纹获取方法及其装置、数据管理方法 | |
EP3497613B1 (en) | Protected indexing and querying of large sets of textual data | |
GB2475151A (en) | Indexing data for use by multiple applications by extracting tokens from data objects | |
US10657267B2 (en) | Symbol string matching mechanism | |
CN105975575A (zh) | 一种数据类型自动化识别方法 | |
Al-Wesabi | A smart English text zero-watermarking approach based on third-level order and word mechanism of Markov model | |
Zhang et al. | Coverless text information hiding method based on the word rank map | |
Ho et al. | Application of sim-hash algorithm and big data analysis in spam email detection system | |
Madhusudhan et al. | A secure and enhanced elliptic curve cryptography‐based dynamic authentication scheme using smart card | |
CN116055067B (zh) | 一种弱口令检测的方法、装置、电子设备及介质 | |
Zhang et al. | Effective and Fast Near Duplicate Detection via Signature‐Based Compression Metrics | |
Taşdelen et al. | Analysing and Carving MS Word and PDF Files from RAM Images on Windows | |
Miyahara et al. | Extraction of tag tree patterns with contractible variables from irregular semistructured data | |
Bonnecaze et al. | Threshold signature for distributed time stamping scheme | |
Nyawo | Mobile point of sale adoption by small medium enterprise merchants in South Africa | |
Raghad et al. | Anomaly Intrusion Detection System Using Neural Network | |
Keshavamurthy et al. | Privacy preserving naive bayes classification using trusted third party computation over distributed progressive databases | |
Malkin et al. | Comparison of texts streams in the presence of mild adversaries | |
Zaynalov et al. | Analyses of Steganography Methods | |
FS et al. | Framework on Enhancing Biometric Template Protection Transformation Scheme Using Residue Number System.. | |
CN114239544A (zh) | 一种基于文档指纹的文本检测方法及系统 | |
JP2016148722A (ja) | 秘匿パターンマッチング装置、端末装置、その方法、プログラム、およびデータ構造 | |
Gu et al. | Research on security protection mechanisms of digital content |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161221 |