CN112364875A

CN112364875A - 一种基于直方图二值化的纸质敏感文件溯源方法

Info

Publication number: CN112364875A
Application number: CN202011300912.2A
Authority: CN
Inventors: 张黎; 杨大志; 吴洋; 李蓓蓓
Original assignee: Hefei Shenjie Information Technology Co ltd
Current assignee: Hefei Shenjie Information Technology Co ltd
Priority date: 2020-11-19
Filing date: 2020-11-19
Publication date: 2021-02-12

Abstract

本发明提供一种基于直方图二值化的纸质敏感文件溯源方法，涉及信息识别技术领域，包括以下步骤：S1：获取敏感文档图片；S2：对获取的文档图片预处理，去除干扰区域；S3：对敏感区域进行灰度直方图增强；S4：对图像二值化；S5：解码二值化图像隐写信息；S6：隐写信息通过校验，则溯源出隐写信息；反之则未检测到隐写信息。本发明不易被泄密者发现，且无需对每种字体设计字形字库，使用的直方图二值化算法，能有效提高文档打印涉密的管控力度，集成到DLP系统中，能增强DLP系统对非确切文档的溯源、追踪能力，确保及时、有效的溯源机密文档外泄途径，降低企业和政府部门损失，且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。

Description

一种基于直方图二值化的纸质敏感文件溯源方法

技术领域

本发明涉及信息识别技术领域，尤其是，本发明涉及一种基于直方图二值化的纸质敏感文件溯源方法。

背景技术

数据是信息系统中最为核心的资产，随着信息技术的飞速发展，人类生产生活中产生的各类数据呈指数级增长，这些数据具有重要价值。因此数据安全领域已成为企业和国家的重点关注领域。目前许多企业和政府部门采用电子文档办公，并通过打印、拍照、复印等途径将文档内容呈现在纸介质上，以方便日常阅读和办公。对于敏感信息，如企业合同和政府部门涉密文件，由于纸介质难以追溯的特性，许多机密信息会通过纸质文档泄露出去，给企业和国家造成重大损失。

传统数据防泄漏（Data Leakage Prevention，DLP）领域大多对电子文档等确切数据进行有效的安全防护，无法对非确切数据（如打印、复印、拍照）进行有效的监控、拦截和追溯。因此需要对文档传播路径进行额外管控，防止机密信息通过文档外泄。

已有的纸质文档溯源方法分为两类：在纸介质上嵌入纹路、点阵、二维码等可见信息（明水印）；将溯源信息隐藏到自定义的字形字库中（字形字库水印），例如中国专利发明专利CN107239713A涉及一种敏感内容数据信息防护方法和系统。该方法包括：1)设计基因字库文件，包括字符和字符的安全编码，每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系；2)将基因字库文件设置为禁止嵌入模式，并进行整体加密后保存在服务器上，不直接在客户端的操作系统中安装；3)将标准字库中的标准编码转换为基因字库中相应字符的安全编码，并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储；4)在客户端部署打印监控服务程序，实时截获打印文档的内容数据，并过滤受保护的敏感内容数据。该发明解决了现有技术中通过安全字库加密技术防止数据泄密方面存在的安全性相对较低的问题。

但是上述两类溯源方法具有以下缺点：明水印虽简单方便，但易被泄密者抹去溯源信息，从而无法定位、追溯泄密源。字形字库水印虽不易被泄密者察觉，但需要为计算机系统中每种字体设计字形字库，工作量大；并且文字一旦被人为污损，也无法正常提取。

因此为了解决上述问题，设计一种合理的基于直方图二值化的纸质敏感文件溯源方法对我们来说是很有必要的。

发明内容

本发明的目的在于提供一种不易被泄密者发现，且无需对每种字体设计字形字库，使用的直方图二值化算法，具有执行简单、识别准确、符合现实运用等特点，能有效提高文档打印涉密的管控力度，集成到DLP系统中，能增强DLP系统对非确切文档的溯源、追踪能力，确保及时、有效的溯源机密文档外泄途径，降低企业和政府部门损失，且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力的基于直方图二值化的纸质敏感文件溯源方法。

为达到上述目的，本发明采用如下技术方案得以实现的：

一种基于直方图二值化的纸质敏感文件溯源方法，包括以下步骤：

S1：获取敏感文档图片；

S2：对获取的文档图片预处理，去除干扰区域；

S3：定位文档敏感区域，对敏感区域进行灰度直方图增强；

S4：计算增强后的区域图像二值化阈值，对图像二值化；

S5：解码二值化图像隐写信息；

S6：判断隐写信息是否可以通过校验；若可以则溯源出隐写信息；反之则未检测到隐写信息。

作为本发明的优选，执行步骤S1之前，需要在敏感文档中隐藏溯源信息。

作为本发明的优选，在敏感文档中隐藏溯源信息具体包括：敏感文档打印时，系统实时hook打印请求，获取打印页大小，然后根据页面大小，自适应的将溯源信息隐藏到打印文件中。

作为本发明的优选，执行步骤S2时，敏感文档图片包括打印件、复印件、扫描件和照片。

作为本发明的优选，步骤S2具体包括：

S21：利用透视变换将图片校正；

S22：利用高斯滤波消除打印、复印、扫描、拍照时产生的随机噪点；

S23：利用图片腐蚀去除图片污染区域。

作为本发明的优选，执行步骤S3时，将图片转成灰度图，对敏感区域进行图像增强，突出敏感文档中的隐藏内容。

作为本发明的优选，执行步骤S4时，判断直方图是否为双峰图像；若是，则使用谷底最小值算法计算出最佳阈值；反之则采用模糊集阈值算法计算最佳阈值；若上述两种方法均无法获取阈值，则取直方图像素平均值作为最佳阈值；最后通过阈值，将图像二值化。

作为本发明的优选，执行步骤S5时，根据阈值化后的图像，初步计算出溯源信息。

作为本发明的优选，执行步骤S6时，对初步计算出的溯源信息进行BCH和CRC校验，若均能通过校验则溯源出隐写信息；任意一项校验没通过则直接反馈未检测到隐写信息。

本发明一种基于直方图二值化的纸质敏感文件溯源方法有益效果在于：不易被泄密者发现，且无需对每种字体设计字形字库，使用的直方图二值化算法，具有执行简单、识别准确、符合现实运用等特点，能有效提高文档打印涉密的管控力度，集成到DLP系统中，能增强DLP系统对非确切文档的溯源、追踪能力，确保及时、有效的溯源机密文档外泄途径，降低企业和政府部门损失，且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。

附图说明

图1为本发明一种基于直方图二值化的纸质敏感文件溯源方法的流程示意图。

具体实施方式

以下是本发明的具体实施例，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的模块和结构的相对布置不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论，但在适当情况下，技术、方法及系统应当被视为授权说明书的一部分。

实施例：如图1所示，仅仅为本发明的其中一个的实施例，一种基于直方图二值化的纸质敏感文件溯源方法，包括以下步骤：

S1：获取敏感文档图片；

需要注意的是，为了对敏感文件进行本发明的方法的溯源，需要保证也是采用相应方式进行隐写，才能进行溯源，也就是需要在敏感文档中隐藏溯源信息，隐藏和溯源方式都是直接集成到数据防泄漏（Data Leakage Prevention，DLP）系统中。

在敏感文档中隐藏溯源信息具体包括：敏感文档打印时，DLP系统实时hook电脑的打印请求，获取打印页大小，然后根据页面大小，自适应的按照页面大小将溯源信息编码、打散，并依次隐藏到打印文件中。例如隐藏的溯源信息为“MAC：00-C1-40-82-0A-1A；IPV4：168.10.10.155；USER：Tong”，那么将溯源信息编码、打散，并按照一定的顺序将编码隐藏在打印页上与打印内容一同进行打印。这样不易被泄密者发现，且无需对每种字体设计字形字库。

这一步实际上是加密（Encode）环节，与步骤S2至S6的解密（Decode）环节相对。

执行步骤S1时，敏感文档图片包括打印件、复印件、扫描件和照片。

也对应着，打印的敏感文档通过扫描、拍照或复印外泄传播。防止其他方式传播，本实施例以拍照外泄作为传播渠道，进行实时监控，当然也可以识别其它外泄介质（如图片、彩印、喷绘等等）敏感信息。

S2：对获取的文档图片预处理，去除干扰区域；

DLP系统实时监控到文档照片传播，尝试对传播的照片进行溯源。真实场景中，外泄文档可能受到污损，文档拍摄环境随机，并且外泄图片可能通过三方软件外发出去，因此图片往往是非正对拍照，图片本身有阴影，并且被压缩。所以DLP系统获取文档一般为污损文档，需要对污损文档进行溯源。本实施例从实际场景出发，对真实环境外泄文档进行实时溯源。

预处理去除干扰区域的步骤具体包括：

S21：利用透视变换将图片校正；

S23：利用图片腐蚀去除图片污染区域。

这样的好处是可以针对污损文件进行溯源，鲁棒性高，具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。

S3：定位文档敏感区域，对敏感区域进行灰度直方图增强；

在这里，将图片转成灰度图，对敏感区域进行图像增强，突出敏感文档中的敏感内容。

S4：计算增强后的区域图像二值化阈值，对图像二值化；

对图像二值化的具体步骤为；

S41：获取区域直方图，并将直方图拉伸到灰度为0-255的像素区间；进行绘制直方图像素曲线；

S42：判断直方曲线是否存在两个及以上的峰值；若存在，则执行步骤S43，若不存在，则说明直方曲线有且仅有一个峰值（曲线图必定有一个或以上的峰值），则执行步骤S44：

S43：通过谷底最小值算法获取最佳阈值；

S44：通过模糊集阈值算法获取最佳阈值；

S45：校验阈值；若校验失败，则计算直方图像素平均值，作为最佳阈值，并执行步骤S46；若校验成功，直接执行步骤S46。

S46：根据获取到的最终阈值，对区域图像进行二值化操作。

S5：解码二值化图像隐写信息；

根据阈值化后的图像，解码二值化图像隐写信息，初步计算出溯源信息。

S6：判断隐写信息是否可以通过校验；若可以则溯源出隐写信息“MAC：00-C1-40-82-0A-1A；IPV4：168.10.10.155；USER：Tong”；反之则未检测到隐写信息。

为确保溯源信息真实可靠，原始溯源数据需进行BCH和CRC校验，在这里对初步计算出的溯源信息进行BCH和CRC校验，若均能通过校验则溯源出隐写信息；任意一项校验没通过则直接反馈未检测到隐写信息，通过系统提示“未检测到隐写信息或者溯源失败”。

整个方法全部集成到DLP系统中，全程系统自动处理，用户体验感好。

本发明不局限于上述具体的实施方式，本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围。

Claims

1.一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于，包括以下步骤：

S1：获取敏感文档图片；

S2：对获取的文档图片预处理，去除干扰区域；

S3：定位文档敏感区域，对敏感区域进行灰度直方图增强；

S4：计算增强后的区域图像二值化阈值，对图像二值化；

S5：解码二值化图像隐写信息；

2.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

执行步骤S1之前，需要在敏感文档中隐藏溯源信息。

3.根据权利要求2所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

在敏感文档中隐藏溯源信息具体包括：敏感文档打印时，系统实时hook打印请求，获取打印页大小，然后根据页面大小，自适应的将溯源信息隐藏到打印文件中。

4.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

5.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于，步骤S2具体包括：

S21：利用透视变换将图片校正；

S23：利用图片腐蚀去除图片污染区域。

6.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

执行步骤S3时，将图片转成灰度图，对敏感区域进行图像增强，突出敏感文档中的隐藏内容。

7.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

执行步骤S4时，判断直方图是否为双峰图像；若是，则使用谷底最小值算法计算出最佳阈值；反之则采用模糊集阈值算法计算最佳阈值；若上述两种方法均无法获取阈值，则取直方图像素平均值作为最佳阈值；最后通过阈值，将图像二值化。

8.根据权利要求7所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

执行步骤S5时，根据阈值化后的图像，初步计算出溯源信息。

9.根据权利要求8所述的一种基于直方图二值化的纸质敏感文件溯源方法，其特征在于：

执行步骤S6时，对初步计算出的溯源信息进行BCH和CRC校验，若均能通过校验则溯源出隐写信息；任意一项校验没通过则直接反馈未检测到隐写信息。