CN112650992A - 一种基于数字水印的文档追踪加密方法 - Google Patents

一种基于数字水印的文档追踪加密方法 Download PDF

Info

Publication number
CN112650992A
CN112650992A CN202011516281.8A CN202011516281A CN112650992A CN 112650992 A CN112650992 A CN 112650992A CN 202011516281 A CN202011516281 A CN 202011516281A CN 112650992 A CN112650992 A CN 112650992A
Authority
CN
China
Prior art keywords
watermark
image
information
character
embedded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011516281.8A
Other languages
English (en)
Inventor
朱杰
郭鑫
陈朕
林志远
魏峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Qunje Iot Technology Co ltd
Original Assignee
Jiangsu Qunje Iot Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Qunje Iot Technology Co ltd filed Critical Jiangsu Qunje Iot Technology Co ltd
Priority to CN202011516281.8A priority Critical patent/CN112650992A/zh
Publication of CN112650992A publication Critical patent/CN112650992A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • G06F21/16Program or content traceability, e.g. by watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/602Providing cryptographic facilities or services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T1/00General purpose image data processing
    • G06T1/0021Image watermarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/13Edge detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2201/00General purpose image data processing
    • G06T2201/005Image watermarking
    • G06T2201/0065Extraction of an embedded watermark; Reliable detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了一种基于数字水印的文档追踪加密方法,包括两个过程:水印嵌入水印读取。水印嵌入步骤A1,将原始的Word或PDF文件统一转成JPG格式的图像文档;步骤A2,对图像文档进行预处理,包括二值化、文字区域选取、行切分、字切分等;步骤A3,二进制信息使用CRC‑4计算出校验码拼接原信息;步骤A4,将完整数据循环嵌入图像文件中完成水印嵌入过程。水印读取步骤B1,使用采集设备将纸质文档转为图像;步骤B2,图像预处理,包括矫正、去印章、缩放到原图宽度、二值化、文字区域选取、行切分、字切分等;步骤B3,根据获取到的字距计算出水印信息;步骤B4,校验水印信息返回通过校验的二进制信息完成水印解密过程。

Description

一种基于数字水印的文档追踪加密方法
技术领域
本发明属于信息处理与管理技术领域,尤其涉及一种基于数字水印的文档追踪加密方法。
背景技术
随着科技和经济的发展以及互联网的普及,文档已经成为了人们拿起法律武器保护自身合法利益的保障。由于一份重要的文档包含很长篇幅的内容,在计算机普及的时代,往往选择发送电子文档给对方提前审核,现场直接盖章,节约双方时间。对于电子文档的出处如果能够得到有效的校验,将大大提高文档的安全性。
发明内容
目前电子文档加密数字水印技术,电子文档打印成纸质文档后将失去对文档的安全保护,因此本发明提供了一种基于数字水印的文档追踪加密方法,利用人眼对细微文字距离不敏感特性,将信息隐藏于文字间,其实现过程包括水印嵌入过程、水印读取过程。
本发明具体包括如下步骤:
步骤1,对原始文件进行处理,完成水印嵌入;
步骤2,对待校验文档进行水印读取,完成文档校验。
步骤1包括:
步骤A1,将原始文件统一转成JPG格式的图像;
步骤A2,对图像进行预处理,获取文字坐标信息;
步骤A3,使用CRC-4计算得到完整数据;
步骤A4,将完整数据循环嵌入图像文件中完成水印嵌入过程。
步骤A1中,所述原始文件包括doc、docx、pdf格式的文件。
步骤A2包括:对图像进行二值化处理,识别出文字区域,进行逐行扫描,统计每行的像素量并存储,如果行像素数小于参考值,则判定是每行的空白间隙,提取每行之间的空白间隙,实现行切分;对每行,检测文字间的间隙,垂直方向切分出每个文字,最终获取文字坐标;根据文字坐标数据计算可嵌入水印的位置。
步骤A3包括:使用CRC-4计算需要嵌入水印信息的校验码,水印信息为随机生成的六位二进制串,水印信息拼接校验码获得完整数据。
步骤A4包括:根据步骤A2中计算出的文字坐标数据和可嵌入水印的位置,以及需要嵌入的二进制水印信息长度,水印信息长度为预先设置的二进制串加四位校验码的总长度,计算出可循环嵌入次数t=l/(j+1),l表示可嵌入水印的位置的数量(比如如果取值为6,则表示可嵌入水印的位置有6个),j为二进制水印信息长度,当t大于等于1时,开始执行如下水印嵌入操作,否则无法嵌入:
采用字符距离标记的方式实现数据标识,标记符分为两种:信息标记符和结束标记符;
信息标记符是指:标记位起,前后字符位置距离相差4px和0px,分别对应1和0;
结束标记符是指:标记位起,前后字符位置距离相差6px;
根据信息标记符和结束标记符,循环移动目标文字,直至覆盖全文,完成水印嵌入。
步骤2包括:
步骤B1,将待校验的纸质文档转为图像;
步骤B2,进行图像预处理,获取文字坐标信息;
步骤B3,根据文字坐标信息计算出水印信息;
步骤B4,校验水印信息,返回通过校验的二进制信息,完成水印解密过程。
步骤B2包括:
将纸质文档转为图像,使用OpenCV的图像灰度以及二值化技术将图像转为黑白图,选取白色区域,使用黑帽算法突显文字内容,选取文字区域外接矩形并使用OpenCV中仿射变换将图像等比例投影到与原文档等宽的新图像G上;
通过检查红色像素判断图像G是否存在印章,使用OpenCV中的图像转HVS色域,将色值在(156,43,46)到(180,255,255),(0,43,46)到(9,255,255)之间的像素提取并写入到新建图像中,新建图像与图像G尺寸相等,使用OpenCV中轮廓查找方法提取新建图像中的印章轮廓区域,在印章轮廓区域内将有效像素替换为白色,实现去印章;
对根据以上处理后得到的图像,使用步骤A2中的方法获取可嵌入水印的位置。
步骤B3包括:根据步骤B2中得到的可嵌入水印的位置,按照信息标记符规范获取二进制信息,使用结束标记符的特征将整段信息拆分为多段二进制信息。
步骤B4包括:根据步骤B3所获得的二进制信息,循环使用CRC-4方式校验,如果校验结果无余数,则表示校验通过,将通过校验且出现频率最高的校验结果作为正确的结果返回。
有益效果:
本发明补充了市面上针对纸质文档的数字水印加密技术的空缺,且嵌入的水印具有不可见性,通过大量测试、验证,使用了去噪算法,去印章,优化了水印提取的算法,大大地提高了水印提取的正确性,水印识别平均耗时约500毫秒,可以有效的降低人工检验的成本。通过该技术对相关文档进行加密,从而保证文档来源的可靠性。进而可以对加密的文档进行验印操作,从而确保该文档来源的正确性,以防文档被恶意篡改。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述或其他方面的优点将会变得更加清楚。
图1是CRC-4获取校验码过程。
图2是CRC-4校验数据过程。
图3是文档嵌入水印过程示意图。
图4是识别图像预处理过程示意图。
图5是根据坐标信息获取、校验水印信息流程示意图。
图6是根据文字坐标以及嵌入规则选取的目标文字示意图。
具体实施方式
下面结合附图及实施例对本发明做进一步说明。
如图3、图4、图5所示,本发明提供了一种基于数字水印的文档追踪加密方法,包括:
水印嵌入过程:
步骤A1,将原始文件统一转成JPG格式的图像文档;
步骤A2,对图像文档进行预处理,包括二值化、文字区域选取、行切分、字切分等,最终获取文字坐标信息;
步骤A3,使用CRC-4计算得到完整数据;
步骤A4,将完整数据循环嵌入图像文件中完成水印嵌入过程。
水印读取过程:
步骤B1,使用采集设备将纸质文档转为图像;
步骤B2,图像预处理,包括矫正、去印章、缩放到原图宽度、二值化、文字区域选取、行切分、字切分等,最终获取文字坐标信息;
步骤B3,根据获取到的字距计算出水印信息;
步骤B4,校验水印信息返回通过校验的二进制信息完成水印解密过程;
步骤A1中,原始的文件为doc、docx或者pdf格式的文件。
步骤A2包括:对图像(2480px*3500px)进行二值化处理,然后识别出文字区域,进行逐行扫描,将统计每行的像素量并存储,如果行像素数小于参考值(一般设置为50像素),则判定是每行的空白间隙,提取每行之间的空白间隙,实现行切分;对每行,检测文字间的间隙,垂直方向切分出每个文字,最终获取文字坐标。根据文字坐标数据计算可嵌入水印的位置(每行位置第一位以及最后一位,符号位后且字符前空隙距离大于30px)。
步骤A3包括:使用CRC-4计算需要嵌入水印信息的校验码,水印信息为随机生成的六位二进制串,水印信息拼接校验码获得完整数据。例如,将二进制码(例:101010),共m位,使用CRC-4作为校验方式,其多项式为:G(x)=x4+x+1,由多项式计算获得除数第0,第1,第4位为1,即10011作为除数,共5(k)位,余数位低于除数一位,可获取补位位数:i=k-1,完整数据位数:j=m+k-1,原数据补齐4位0可得数据(1010100000),使用模二除法获取余数(111),不够4位补齐0即获取校验码(0111),保存完整数据(1010100111),如图1所示。
步骤A4包括:根据步骤A2中计算出的文字坐标数据和可嵌入水印的位置,以及需要嵌入的二进制水印信息长度,水印信息长度为预先设置的二进制串加四位校验码的总长度,计算出可循环嵌入次数t=l/(j+1),l表示可嵌入水印的位置的数量,j为二进制水印信息长度,当t大于等于1时,开始执行如下水印嵌入操作,否则无法嵌入:
图像嵌入数据:采用字符距离标记的方式实现数据标识,标记符分为两种:信息标记符(标记位起,前后字符位置距离相差4px/0px,分别对应1/0),结束标记符(标记位起,前后字符位置距离相差6px)。根据以上特征,循环移动目标文字,如图6中方框标记位置,直至覆盖全文即完成水印嵌入。
步骤B1包括:使用采集设备将纸质文档转换为电子图像。
步骤B2包括:
对纸质文档图像进行裁剪矫正:使用OpenCV的图像灰度以及二值化技术将图像转为黑白图,选取白色区域,使用黑帽算法突显文字内容,选取文字区域外接矩形并使用OpenCV中仿射变换将图像等比例投影到与原文档等宽的新图像上;
去印章:通过检查红色像素判断是否存在印章,使用OpenCV中的图像转HVS色域,将色值在(156,43,46)到(180,255,255)之间的像素提取并写入到新建图像中(与原图像尺寸相等),使用OpenCV中轮廓查找方法提取新图像中的印章轮廓区域,在轮廓区域内将有效像素替换为白色实现去印章效果。
对根据以上处理后得到的图像,使用步骤A2中的方法获取可嵌入水印的位置。
步骤B3包括:根据步骤B2中得到的可嵌入水印的位置,按照信息标记符规范获取二进制信息,使用结束标记符的特征将整段信息拆分为多段二进制信息。如全文获取水印内容为1010100111 1010100111 1010,1和0为水印内容标志,空格为分段符,全文内容可拆分为两段1010100111于一段1010,丢弃不长度不足的信息,两段1010100111参与校验。
步骤B4包括:根据步骤B3所获得的二进制段循环使用CRC-4方式校验,正确结果无余数,如图2所示。将通过校验且权重最高值作为正确的结果返回,通过系统验证。
本发明提供了一种基于数字水印的文档追踪加密方法,具体实现该技术方案的方法和途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

Claims (10)

1.一种基于数字水印的文档追踪加密方法,其特征在于,包括如下步骤:
步骤1,对原始文件进行处理,完成水印嵌入;
步骤2,对待校验文档进行水印读取,完成文档校验。
2.根据权利要求1所述的方法,其特征在于,步骤1包括:
步骤A1,将原始文件统一转成JPG格式的图像;
步骤A2,对图像进行预处理,获取文字坐标信息;
步骤A3,使用CRC-4计算得到完整数据;
步骤A4,将完整数据循环嵌入图像文件中完成水印嵌入过程。
3.根据权利要求2所述的方法,其特征在于,步骤A1中,所述原始文件包括doc、docx、pdf格式的文件。
4.根据权利要求3所述的方法,其特征在于,步骤A2包括:对图像进行二值化处理,识别出文字区域,进行逐行扫描,统计每行的像素量并存储,如果行像素数小于参考值,则判定是每行的空白间隙,提取每行之间的空白间隙,实现行切分;对每行,检测文字间的间隙,垂直方向切分出每个文字,最终获取文字坐标;根据文字坐标数据计算可嵌入水印的位置。
5.根据权利要求4所述的方法,其特征在于,步骤A3包括:使用CRC-4计算需要嵌入水印信息的校验码,水印信息为随机生成的六位二进制串,水印信息拼接校验码获得完整数据。
6.根据权利要求5所述的方法,其特征在于,步骤A4包括:根据步骤A2中计算出的文字坐标数据和可嵌入水印的位置,以及需要嵌入的二进制水印信息长度,水印信息长度为预先设置的二进制串加四位校验码的总长度,计算出可循环嵌入次数t=l/(j+1),l表示可嵌入水印的位置的数量,j为二进制水印信息长度,当t大于等于1时,开始执行如下水印嵌入操作,否则无法嵌入:
采用字符距离标记的方式实现数据标识,标记符分为两种:信息标记符和结束标记符;
信息标记符是指:标记位起,前后字符位置距离相差4px和0px,分别对应1和0;
结束标记符是指:标记位起,前后字符位置距离相差6px;
根据信息标记符和结束标记符,循环移动目标文字,直至覆盖全文,完成水印嵌入。
7.根据权利要求6所述的方法,其特征在于,步骤2包括:
步骤B1,将待校验的纸质文档转为图像;
步骤B2,进行图像预处理,获取文字坐标信息;
步骤B3,根据文字坐标信息计算出水印信息;
步骤B4,校验水印信息,返回通过校验的二进制信息,完成水印解密过程。
8.根据权利要求7所述的方法,其特征在于,步骤B2包括:
将纸质文档转为图像,使用OpenCV的图像灰度以及二值化技术将图像转为黑白图,选取白色区域,使用黑帽算法突显文字内容,选取文字区域外接矩形并使用OpenCV中仿射变换将图像等比例投影到与原文档等宽的新图像G上;
通过检查红色像素判断图像G是否存在印章,使用OpenCV中的图像转HVS色域,将色值在(156,43,46)到(180,255,255),(0,43,46)到(9,255,255)之间的像素提取并写入到新建图像中,新建图像与图像G尺寸相等,使用OpenCV中轮廓查找方法提取新建图像中的印章轮廓区域,在印章轮廓区域内将有效像素替换为白色,实现去印章;
对根据以上处理后得到的图像,使用步骤A2中的方法获取可嵌入水印的位置。
9.根据权利要求8所述的方法,其特征在于,步骤B3包括:根据步骤B2中得到的可嵌入水印的位置,按照信息标记符规范获取二进制信息,使用结束标记符的特征将整段信息拆分为多段二进制信息。
10.根据权利要求9所述的方法,其特征在于,步骤B4包括:根据步骤B3所获得的二进制信息,循环使用CRC-4方式校验,如果校验结果无余数,则表示校验通过,将通过校验且出现频率最高的校验结果作为正确的结果返回。
CN202011516281.8A 2020-12-21 2020-12-21 一种基于数字水印的文档追踪加密方法 Pending CN112650992A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011516281.8A CN112650992A (zh) 2020-12-21 2020-12-21 一种基于数字水印的文档追踪加密方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011516281.8A CN112650992A (zh) 2020-12-21 2020-12-21 一种基于数字水印的文档追踪加密方法

Publications (1)

Publication Number Publication Date
CN112650992A true CN112650992A (zh) 2021-04-13

Family

ID=75358597

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011516281.8A Pending CN112650992A (zh) 2020-12-21 2020-12-21 一种基于数字水印的文档追踪加密方法

Country Status (1)

Country Link
CN (1) CN112650992A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883839A (zh) * 2023-03-09 2023-03-31 湖北芯擎科技有限公司 一种图像校验方法、装置、设备及计算机可读存储介质
CN117708779A (zh) * 2024-02-05 2024-03-15 广东鸿数科技有限公司 一种数据水印处理方法和溯源方法、存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209676A (ja) * 2002-01-10 2003-07-25 Oki Electric Ind Co Ltd 電子透かし埋め込み装置,電子透かし検出装置,電子透かし埋め込み方法,及び,電子透かし検出方法
CN107644391A (zh) * 2017-09-18 2018-01-30 北京邮电大学 一种用于打印文档溯源的数字水印处理方法及装置
CN108182349A (zh) * 2017-12-11 2018-06-19 江苏大学附属医院 一种Word文档水印版权信息保护装置及方法
CN108805787A (zh) * 2018-04-17 2018-11-13 北京溯斐科技有限公司 一种纸质文档篡改鉴真的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003209676A (ja) * 2002-01-10 2003-07-25 Oki Electric Ind Co Ltd 電子透かし埋め込み装置,電子透かし検出装置,電子透かし埋め込み方法,及び,電子透かし検出方法
CN107644391A (zh) * 2017-09-18 2018-01-30 北京邮电大学 一种用于打印文档溯源的数字水印处理方法及装置
CN108182349A (zh) * 2017-12-11 2018-06-19 江苏大学附属医院 一种Word文档水印版权信息保护装置及方法
CN108805787A (zh) * 2018-04-17 2018-11-13 北京溯斐科技有限公司 一种纸质文档篡改鉴真的方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115883839A (zh) * 2023-03-09 2023-03-31 湖北芯擎科技有限公司 一种图像校验方法、装置、设备及计算机可读存储介质
CN117708779A (zh) * 2024-02-05 2024-03-15 广东鸿数科技有限公司 一种数据水印处理方法和溯源方法、存储介质
CN117708779B (zh) * 2024-02-05 2024-06-07 广东鸿数科技有限公司 一种数据水印处理方法和溯源方法、存储介质

Similar Documents

Publication Publication Date Title
CN108805787B (zh) 一种纸质文档篡改鉴真的方法和装置
US6813381B2 (en) Method and apparatus for identification of documents, and computer product
US20210165860A1 (en) Watermark embedding and extracting method for protecting documents
US20040001606A1 (en) Watermark fonts
CN107248134B (zh) 一种文本文档中的信息隐藏方法和装置
US20110052094A1 (en) Skew Correction for Scanned Japanese/English Document Images
US8275168B2 (en) Orientation free watermarking message decoding from document scans
CN101119429A (zh) 一种数字水印嵌入与提取的方法及装置
CN109902710B (zh) 一种文本图像的快速匹配方法和装置
US20140185933A1 (en) Document image compression method and its application in document authentication
JP5669957B2 (ja) 西洋語の透かし処理をするための透かし画像の分割方法と装置
Tan et al. Print-Scan Resilient Text Image Watermarking Based on Stroke Direction Modulation for Chinese Document Authentication.
CN112650992A (zh) 一种基于数字水印的文档追踪加密方法
JP4380733B2 (ja) 原稿の複写履歴を管理する装置及びその方法
US8630444B2 (en) Method for embedding messages into structure shapes
US20110170133A1 (en) Image forming apparatus, method of forming image and method of authenticating document
CN116910778A (zh) 一种基于图片像素值隐写标记的方法、存储介质
US7676058B2 (en) System and method for detection of miniature security marks
RU2431192C1 (ru) Способ внедрения скрытого цифрового сообщения в печатаемые документы и извлечения сообщения
CN112990178B (zh) 一种基于字符切分的文本数字信息嵌入、提取方法及系统
JP2008085579A (ja) 情報埋め込み装置、情報読み取り装置、情報埋め込み方法、情報読み取り方法、およびコンピュータプログラム
US7974437B2 (en) Identifying steganographic data in an image
CN113076528A (zh) 防伪信息嵌入方法、提取方法、装置及存储介质
US7792324B2 (en) System and method for embedding miniature security marks
CN111626244A (zh) 图像识别方法、装置、电子设备和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination