CN112364875A - 一种基于直方图二值化的纸质敏感文件溯源方法 - Google Patents

一种基于直方图二值化的纸质敏感文件溯源方法 Download PDF

Info

Publication number
CN112364875A
CN112364875A CN202011300912.2A CN202011300912A CN112364875A CN 112364875 A CN112364875 A CN 112364875A CN 202011300912 A CN202011300912 A CN 202011300912A CN 112364875 A CN112364875 A CN 112364875A
Authority
CN
China
Prior art keywords
tracing
information
histogram
sensitive
binarization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011300912.2A
Other languages
English (en)
Inventor
张黎
杨大志
吴洋
李蓓蓓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefei Shenjie Information Technology Co ltd
Original Assignee
Hefei Shenjie Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefei Shenjie Information Technology Co ltd filed Critical Hefei Shenjie Information Technology Co ltd
Priority to CN202011300912.2A priority Critical patent/CN112364875A/zh
Publication of CN112364875A publication Critical patent/CN112364875A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Image Processing (AREA)

Abstract

本发明提供一种基于直方图二值化的纸质敏感文件溯源方法,涉及信息识别技术领域,包括以下步骤:S1:获取敏感文档图片;S2:对获取的文档图片预处理,去除干扰区域;S3:对敏感区域进行灰度直方图增强;S4:对图像二值化;S5:解码二值化图像隐写信息;S6:隐写信息通过校验,则溯源出隐写信息;反之则未检测到隐写信息。本发明不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。

Description

一种基于直方图二值化的纸质敏感文件溯源方法
技术领域
本发明涉及信息识别技术领域,尤其是,本发明涉及一种基于直方图二值化的纸质敏感文件溯源方法。
背景技术
数据是信息系统中最为核心的资产,随着信息技术的飞速发展,人类生产生活中产生的各类数据呈指数级增长,这些数据具有重要价值。因此数据安全领域已成为企业和国家的重点关注领域。目前许多企业和政府部门采用电子文档办公,并通过打印、拍照、复印等途径将文档内容呈现在纸介质上,以方便日常阅读和办公。对于敏感信息,如企业合同和政府部门涉密文件,由于纸介质难以追溯的特性,许多机密信息会通过纸质文档泄露出去,给企业和国家造成重大损失。
传统数据防泄漏(Data Leakage Prevention,DLP)领域大多对电子文档等确切数据进行有效的安全防护,无法对非确切数据(如打印、复印、拍照)进行有效的监控、拦截和追溯。因此需要对文档传播路径进行额外管控,防止机密信息通过文档外泄。
已有的纸质文档溯源方法分为两类:在纸介质上嵌入纹路、点阵、二维码等可见信息(明水印);将溯源信息隐藏到自定义的字形字库中(字形字库水印),例如中国专利发明专利CN107239713A涉及一种敏感内容数据信息防护方法和系统。该方法包括:1)设计基因字库文件,包括字符和字符的安全编码,每个字符的安全编码与该字符在标准字库中的标准编码形成多对一的映射关系;2)将基因字库文件设置为禁止嵌入模式,并进行整体加密后保存在服务器上,不直接在客户端的操作系统中安装;3)将标准字库中的标准编码转换为基因字库中相应字符的安全编码,并将需要保护的敏感内容数据对应的标准编码的字符转换为安全编码的字符后存储;4)在客户端部署打印监控服务程序,实时截获打印文档的内容数据,并过滤受保护的敏感内容数据。该发明解决了现有技术中通过安全字库加密技术防止数据泄密方面存在的安全性相对较低的问题。
但是上述两类溯源方法具有以下缺点:明水印虽简单方便,但易被泄密者抹去溯源信息,从而无法定位、追溯泄密源。字形字库水印虽不易被泄密者察觉,但需要为计算机系统中每种字体设计字形字库,工作量大;并且文字一旦被人为污损,也无法正常提取。
因此为了解决上述问题,设计一种合理的基于直方图二值化的纸质敏感文件溯源方法对我们来说是很有必要的。
发明内容
本发明的目的在于提供一种不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,具有执行简单、识别准确、符合现实运用等特点,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力的基于直方图二值化的纸质敏感文件溯源方法。
为达到上述目的,本发明采用如下技术方案得以实现的:
一种基于直方图二值化的纸质敏感文件溯源方法,包括以下步骤:
S1:获取敏感文档图片;
S2:对获取的文档图片预处理,去除干扰区域;
S3:定位文档敏感区域,对敏感区域进行灰度直方图增强;
S4:计算增强后的区域图像二值化阈值,对图像二值化;
S5:解码二值化图像隐写信息;
S6:判断隐写信息是否可以通过校验;若可以则溯源出隐写信息;反之则未检测到隐写信息。
作为本发明的优选,执行步骤S1之前,需要在敏感文档中隐藏溯源信息。
作为本发明的优选,在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,系统实时hook打印请求,获取打印页大小,然后根据页面大小,自适应的将溯源信息隐藏到打印文件中。
作为本发明的优选,执行步骤S2时,敏感文档图片包括打印件、复印件、扫描件和照片。
作为本发明的优选,步骤S2具体包括:
S21:利用透视变换将图片校正;
S22:利用高斯滤波消除打印、复印、扫描、拍照时产生的随机噪点;
S23:利用图片腐蚀去除图片污染区域。
作为本发明的优选,执行步骤S3时,将图片转成灰度图,对敏感区域进行图像增强,突出敏感文档中的隐藏内容。
作为本发明的优选,执行步骤S4时,判断直方图是否为双峰图像;若是,则使用谷底最小值算法计算出最佳阈值;反之则采用模糊集阈值算法计算最佳阈值;若上述两种方法均无法获取阈值,则取直方图像素平均值作为最佳阈值;最后通过阈值,将图像二值化。
作为本发明的优选,执行步骤S5时,根据阈值化后的图像,初步计算出溯源信息。
作为本发明的优选,执行步骤S6时,对初步计算出的溯源信息进行BCH和CRC校验,若均能通过校验则溯源出隐写信息;任意一项校验没通过则直接反馈未检测到隐写信息。
本发明一种基于直方图二值化的纸质敏感文件溯源方法有益效果在于:不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,具有执行简单、识别准确、符合现实运用等特点,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。
附图说明
图1为本发明一种基于直方图二值化的纸质敏感文件溯源方法的流程示意图。
具体实施方式
以下是本发明的具体实施例,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的模块和结构的相对布置不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法及系统可能不作详细讨论,但在适当情况下,技术、方法及系统应当被视为授权说明书的一部分。
实施例:如图1所示,仅仅为本发明的其中一个的实施例,一种基于直方图二值化的纸质敏感文件溯源方法,包括以下步骤:
S1:获取敏感文档图片;
需要注意的是,为了对敏感文件进行本发明的方法的溯源,需要保证也是采用相应方式进行隐写,才能进行溯源,也就是需要在敏感文档中隐藏溯源信息,隐藏和溯源方式都是直接集成到数据防泄漏(Data Leakage Prevention,DLP)系统中。
在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,DLP系统实时hook电脑的打印请求,获取打印页大小,然后根据页面大小,自适应的按照页面大小将溯源信息编码、打散,并依次隐藏到打印文件中。例如隐藏的溯源信息为“MAC:00-C1-40-82-0A-1A;IPV4:168.10.10.155;USER:Tong”,那么将溯源信息编码、打散,并按照一定的顺序将编码隐藏在打印页上与打印内容一同进行打印。这样不易被泄密者发现,且无需对每种字体设计字形字库。
这一步实际上是加密(Encode)环节,与步骤S2至S6的解密(Decode)环节相对。
执行步骤S1时,敏感文档图片包括打印件、复印件、扫描件和照片。
也对应着,打印的敏感文档通过扫描、拍照或复印外泄传播。防止其他方式传播,本实施例以拍照外泄作为传播渠道,进行实时监控,当然也可以识别其它外泄介质(如图片、彩印、喷绘等等)敏感信息。
S2:对获取的文档图片预处理,去除干扰区域;
DLP系统实时监控到文档照片传播,尝试对传播的照片进行溯源。真实场景中,外泄文档可能受到污损,文档拍摄环境随机,并且外泄图片可能通过三方软件外发出去,因此图片往往是非正对拍照,图片本身有阴影,并且被压缩。所以DLP系统获取文档一般为污损文档,需要对污损文档进行溯源。本实施例从实际场景出发,对真实环境外泄文档进行实时溯源。
预处理去除干扰区域的步骤具体包括:
S21:利用透视变换将图片校正;
S22:利用高斯滤波消除打印、复印、扫描、拍照时产生的随机噪点;
S23:利用图片腐蚀去除图片污染区域。
这样的好处是可以针对污损文件进行溯源,鲁棒性高,具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。
S3:定位文档敏感区域,对敏感区域进行灰度直方图增强;
在这里,将图片转成灰度图,对敏感区域进行图像增强,突出敏感文档中的敏感内容。
S4:计算增强后的区域图像二值化阈值,对图像二值化;
对图像二值化的具体步骤为;
S41:获取区域直方图,并将直方图拉伸到灰度为0-255的像素区间;进行绘制直方图像素曲线;
S42:判断直方曲线是否存在两个及以上的峰值;若存在,则执行步骤S43,若不存在,则说明直方曲线有且仅有一个峰值(曲线图必定有一个或以上的峰值),则执行步骤S44:
S43:通过谷底最小值算法获取最佳阈值;
S44:通过模糊集阈值算法获取最佳阈值;
S45:校验阈值;若校验失败,则计算直方图像素平均值,作为最佳阈值,并执行步骤S46;若校验成功,直接执行步骤S46。
S46:根据获取到的最终阈值,对区域图像进行二值化操作。
S5:解码二值化图像隐写信息;
根据阈值化后的图像,解码二值化图像隐写信息,初步计算出溯源信息。
S6:判断隐写信息是否可以通过校验;若可以则溯源出隐写信息“MAC:00-C1-40-82-0A-1A;IPV4:168.10.10.155;USER:Tong”;反之则未检测到隐写信息。
为确保溯源信息真实可靠,原始溯源数据需进行BCH和CRC校验,在这里对初步计算出的溯源信息进行BCH和CRC校验,若均能通过校验则溯源出隐写信息;任意一项校验没通过则直接反馈未检测到隐写信息,通过系统提示“未检测到隐写信息或者溯源失败”。
整个方法全部集成到DLP系统中,全程系统自动处理,用户体验感好。
本发明一种基于直方图二值化的纸质敏感文件溯源方法有益效果在于:不易被泄密者发现,且无需对每种字体设计字形字库,使用的直方图二值化算法,具有执行简单、识别准确、符合现实运用等特点,能有效提高文档打印涉密的管控力度,集成到DLP系统中,能增强DLP系统对非确切文档的溯源、追踪能力,确保及时、有效的溯源机密文档外泄途径,降低企业和政府部门损失,且具有很好的抗压缩、抗斜拍、抗阴影、抗污损能力。
本发明不局限于上述具体的实施方式,本发明可以有各种更改和变化。凡是依据本发明的技术实质对以上实施方式所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围。

Claims (9)

1.一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于,包括以下步骤:
S1:获取敏感文档图片;
S2:对获取的文档图片预处理,去除干扰区域;
S3:定位文档敏感区域,对敏感区域进行灰度直方图增强;
S4:计算增强后的区域图像二值化阈值,对图像二值化;
S5:解码二值化图像隐写信息;
S6:判断隐写信息是否可以通过校验;若可以则溯源出隐写信息;反之则未检测到隐写信息。
2.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S1之前,需要在敏感文档中隐藏溯源信息。
3.根据权利要求2所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
在敏感文档中隐藏溯源信息具体包括:敏感文档打印时,系统实时hook打印请求,获取打印页大小,然后根据页面大小,自适应的将溯源信息隐藏到打印文件中。
4.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S1时,敏感文档图片包括打印件、复印件、扫描件和照片。
5.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于,步骤S2具体包括:
S21:利用透视变换将图片校正;
S22:利用高斯滤波消除打印、复印、扫描、拍照时产生的随机噪点;
S23:利用图片腐蚀去除图片污染区域。
6.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S3时,将图片转成灰度图,对敏感区域进行图像增强,突出敏感文档中的隐藏内容。
7.根据权利要求1所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S4时,判断直方图是否为双峰图像;若是,则使用谷底最小值算法计算出最佳阈值;反之则采用模糊集阈值算法计算最佳阈值;若上述两种方法均无法获取阈值,则取直方图像素平均值作为最佳阈值;最后通过阈值,将图像二值化。
8.根据权利要求7所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S5时,根据阈值化后的图像,初步计算出溯源信息。
9.根据权利要求8所述的一种基于直方图二值化的纸质敏感文件溯源方法,其特征在于:
执行步骤S6时,对初步计算出的溯源信息进行BCH和CRC校验,若均能通过校验则溯源出隐写信息;任意一项校验没通过则直接反馈未检测到隐写信息。
CN202011300912.2A 2020-11-19 2020-11-19 一种基于直方图二值化的纸质敏感文件溯源方法 Pending CN112364875A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011300912.2A CN112364875A (zh) 2020-11-19 2020-11-19 一种基于直方图二值化的纸质敏感文件溯源方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011300912.2A CN112364875A (zh) 2020-11-19 2020-11-19 一种基于直方图二值化的纸质敏感文件溯源方法

Publications (1)

Publication Number Publication Date
CN112364875A true CN112364875A (zh) 2021-02-12

Family

ID=74534339

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011300912.2A Pending CN112364875A (zh) 2020-11-19 2020-11-19 一种基于直方图二值化的纸质敏感文件溯源方法

Country Status (1)

Country Link
CN (1) CN112364875A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177214A (zh) * 2021-04-29 2021-07-27 百度在线网络技术(北京)有限公司 图像发布、审核方法、相关装置及计算机程序产品
CN115883839A (zh) * 2023-03-09 2023-03-31 湖北芯擎科技有限公司 一种图像校验方法、装置、设备及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106530279A (zh) * 2016-10-15 2017-03-22 扬州奥泰光电生物技术有限公司 一种图像处理方法及系统
CN107633413A (zh) * 2017-10-17 2018-01-26 深圳市裕同包装科技股份有限公司 一种防伪溯源系统及方法
CN111147686A (zh) * 2019-12-31 2020-05-12 上海影卓信息科技有限公司 基于隐写信息的视频、图像内容追踪方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106530279A (zh) * 2016-10-15 2017-03-22 扬州奥泰光电生物技术有限公司 一种图像处理方法及系统
CN107633413A (zh) * 2017-10-17 2018-01-26 深圳市裕同包装科技股份有限公司 一种防伪溯源系统及方法
CN111147686A (zh) * 2019-12-31 2020-05-12 上海影卓信息科技有限公司 基于隐写信息的视频、图像内容追踪方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
肖南峰: "智能机器人", 31 January 2008, 华南理工大学出版社, pages: 75 - 78 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113177214A (zh) * 2021-04-29 2021-07-27 百度在线网络技术(北京)有限公司 图像发布、审核方法、相关装置及计算机程序产品
CN115883839A (zh) * 2023-03-09 2023-03-31 湖北芯擎科技有限公司 一种图像校验方法、装置、设备及计算机可读存储介质
CN115883839B (zh) * 2023-03-09 2023-06-06 湖北芯擎科技有限公司 一种图像校验方法、装置、设备及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN107239713B (zh) 一种敏感内容数据信息防护方法和系统
JP3373811B2 (ja) 白黒2値文書画像への透かし情報埋め込み・検出方法及びその装置
US8538068B2 (en) Embedding and detecting hidden information
US6694041B1 (en) Halftone watermarking and related applications
US8014557B2 (en) Watermarking electronic text documents
US20060028689A1 (en) Document management with embedded data
CN111680273B (zh) 水印嵌入方法、装置、电子设备及可读存储介质
Chandra et al. Digital watermarking technique for protecting digital images
Hosam Attacking image watermarking and steganography-a survey
CN112364875A (zh) 一种基于直方图二值化的纸质敏感文件溯源方法
Tan et al. Print-Scan Resilient Text Image Watermarking Based on Stroke Direction Modulation for Chinese Document Authentication.
CN112085643B (zh) 图像脱敏处理方法、验证方法及装置、设备及介质
CN112270638A (zh) 一种基于深度对抗网络的敏感文件隐写和溯源方法
Singh et al. Transform domain techniques for image steganography
US8038073B2 (en) Tamper detection of documents using encoded dots
US8270038B2 (en) Image output method and apparatus with a control unit inhibits output of composite image including two-dimensional bar code and document image, if density of the document image exceeds threshold
González-Lee et al. Script format document authentication scheme based on watermarking techniques
CN116757903A (zh) 一种水印嵌入和提取方法、及水印处理装置
Melman et al. Methods for countering attacks on image watermarking schemes: Overview
Mantoro et al. Real-time printed document authentication using watermarked qr code
CN114330621A (zh) 一种基于标识信息的二维码防伪方法、装置、存储介质
CN113076528A (zh) 防伪信息嵌入方法、提取方法、装置及存储介质
Borges et al. Document image processing for paper side communications
RU2739936C1 (ru) Способ внесения цифровых меток в цифровое изображение и устройство для осуществления способа
Tuncer et al. A watermarking application for authentication of Holy Quran

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination