CN109815653A - 一种基于深度学习的pdf文本水印提取及比对方法 - Google Patents

一种基于深度学习的pdf文本水印提取及比对方法 Download PDF

Info

Publication number
CN109815653A
CN109815653A CN201910097666.6A CN201910097666A CN109815653A CN 109815653 A CN109815653 A CN 109815653A CN 201910097666 A CN201910097666 A CN 201910097666A CN 109815653 A CN109815653 A CN 109815653A
Authority
CN
China
Prior art keywords
text
deep learning
pdf
watermarking
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910097666.6A
Other languages
English (en)
Inventor
宋俊典
李顿伟
戴炳荣
杨琳
纪婷婷
旷志光
张绍华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Original Assignee
SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY filed Critical SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority to CN201910097666.6A priority Critical patent/CN109815653A/zh
Publication of CN109815653A publication Critical patent/CN109815653A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

一种基于深度学习的pdf文本水印提取及比对方法,包括以下步骤:收集pdf文本图像集,构建深度学习训练数据集;构建深度学习网络模型;利用训练数据集对深度学习网络训练;基于深度学习图片进行水印提取及比对,提取pdf文本图像中的水印图像,比对提取到的水印图像。

Description

一种基于深度学习的pdf文本水印提取及比对方法
技术领域
本发明属于文档水印技术领域,特别涉及一种基于深度学习的文本pdf水印提取及比对方法。
背景技术
数字水印技术(Digital Watermarking)技术是将一些标识信息(即数字水印)直接嵌入数字载体(包括多媒体、文档、软件等)当中,但不影响原载体的使用价值,也不容易被人的知觉系统(如视觉或听觉系统)觉察或注意到。通过这些隐藏在载体中的信息,可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。但是在很多情况下,在确认了安全之后,会有将图像中的水印消除的需要。通常图像去水印的方法有以下两种:
一种是基于Telea在2004年提出的基于快速行进的修复算法(FMM算法)。先处理待修复区域边缘上的像素点,然后层层向内推进,直到修复完所有的像素点。这种方法需要ui工程师设计出黑底白字的水印底图且位置必须一致的单通道灰度图。
另一种是基于像素的反色中和。对于彩色图像的R、G、B各彩色分量取反的技术就是图像的反色处理,这在处理二值化图像的连通区域选取的时候非常重要。如物体连通域用黑色表示,而二值化后的物体连通域图像可那是白色的,而背景是黑色的,这时应手动选取图像的反色处理或有程序根据背景和物体连通域两种颜色的数量所占比例而自动选择是否选择选取图像的反色处理。
但是,现有的方法中,对于pdf文本水印提取和比对还存在不准确的情况。
发明内容
本发明提供了一种基于深度学习的pdf文本水印提取及比对方法。
本发明实施例之一,一种基于深度学习的pdf文本水印提取及比对方法,包括以下步骤:
收集pdf文本图像集,构建深度学习训练数据集;
构建深度学习网络模型;
利用训练数据集对深度学习网络训练;
基于深度学习图片进行水印提取及比对,提取pdf文本图像中的水印图像,比对提取到的水印图像。
本发明与现有技术相比,具有以下的优点和积极效果:
本发明增加了对多种类型pdf文本水印提取及去除功能;操作简单,方便部署;本系统可以应用到文档比对、图像修复领域,可以在不影响图像及pdf画质的情况下去除水印,能够方便人们去除图像水印。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1是本发明实施例中文本水印提取及比对方法流程图;
图2是本发明实施例中以感知哈希算法将图片编码为文本值流程图;
具体实施方式
根据一个或者多个实施例,一种基于深度学习的文本pdf水印提取及比对方法,如图1所示。该方法包括pdf文本图像数据集收取、深度学习网络模型构建、深度学习网络训练和深度学习文本pdf水印提取和水印比对,所述pdf文本图像数据集收取用于收集深度学习训练所需的水印图像集包括有水印的文本图像和原文本图像;所述深度学习网络模型构建用于构建端到端的深度学习神经网络模型;所述深度学习网络训练用于使用设计的网络模型来训练文本图像数据集;所述深度学习文本pdf水印提取用于提取文本图像中的水印图像。所述水印比对用于比对提取到的水印图像是否有重复的水印。
本实施方式以用户上传的pdf、word文档为准,提取其文字水印或者是消除水印。所述pdf文本图像数据集收集是使用程序批量的将文本文档包括doc、docx格式,统一转化成pdf,在将pdf统一转化成文本图像,这是原图像数据集;然后将原始文本文档中加入多种类型的文字水印,在将文本文档转化成pdf文档,最终将文本文档转化成文本图像。
本实施方式中的深度学习网络模型构建是搭建深度学习端到端网络模型,本次设计使用全卷积神经网络(FCN)进行构建,输入是带水印的文本图像,输出是不带水印的文本图像。
卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deeplearning)的代表算法之一。由于卷积神经网络能够进行平移不变分类(shift-invariantclassification),因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。
卷积神经网络通常包括卷积层、激活层、下采样层和全连接层。比如le-net是一个6层网络结构:三个卷积层,两个下采样层和一个全连接层。
通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务,因为它们最后都期望得到整个输入图像的一个数值描述(概率),比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。FCN与CNN的区域在把于CNN最后的全连接层换成卷积层,输出的是一张已经Label好的图片。
本实施方式可以将图像统一缩放到200*188大小,输入是200*188*3,输出是200*188*3大小的彩色图片(不带水印)。
根据一个或者多个实施例,以感知哈希算法将图片编码为文本值,其流程如图2所示。
感知哈希算法是一类算法的总称,包括aHash、pHash、dHash。顾名思义,感知哈希不是以严格的方式计算Hash值,而是以更加相对的方式计算哈希值,因为“相似”与否,就是一种相对的判定。下面是介绍dhash计算过程:
(1)缩放图片。目的是把图片缩放到足够小。缩放的原因是原图的分辨率一般都非常高。一张200*200的图片,就有整整4万个像素点,每一个像素点都保存着一个RGB值,4万个RGB,是相当庞大的信息量,非常多的细节需要处理。因此,本实施方式需要把图片缩放到非常小,隐藏它的细节部分,只见森林,不见树木。建议缩放为9*8。
(2)灰度化。dHash全名为差异值hash,通过计算相邻像素之间的颜色强度差异得出。我们缩放后的图片,细节已经被隐藏,信息量已经变少。但是还不够,因为它是彩色的,由RGB值组成。白色表示为(255,255,255),黑色表示为(0,0,0),值越大颜色越亮,越小则越暗。每种颜色都由3个数值组成,也就是红、绿、蓝的值。如果直接使用RGB值对比颜色强度差异,相当复杂,因此本实施方式转化为灰度值——只由一个0到255的整数表示灰度。这样的话就将三维的比较简化为了一维比较。
(3)差异计算。差异值是通过计算每行相邻像素的强度对比得出的。我们的图片为9*8的分辨率,那么就有8行,每行9个像素。差异值是每行分别计算的,也就是第二行的第一个像素不会与第一行的任何像素比较。每一行有9个像素,那么就会产生8个差异值,这也是为何我们选择9作为宽度,因为8bit刚好可以组成一个byte,方便转换为16进制值。如果前一个像素的颜色强度大于第二个像素,那么差异值就设置为True(也就是1),如果不大于第二个像素,就设置为False(也就是0)。
(4)转换为hash值。本实施方式将差异值数组中每一个值看做一个bit,每8个bit组成为一个16进制值,将16进制值连接起来转换为字符串,就得出了最后的dHash值。
通过dHash值计算两张图片的汉明距离(Hamming Distance),通过汉明距离的大小,判断两张图片的相似程度。主要用到汉明距离:两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2,汉明距离越大则说明图片越不一致,反之,汉明距离越小则说明图片越相似,当距离为0时,说明完全相同。(通常认为距离>10就是两张完全不同的图片)
本发明可以用于对复杂拍摄场景下(如光照不均、有杂物)身份证号提取功能,操作简单,方便部署。本系统可以应用到安保、金融领域,可以提高复杂拍摄场景下身份证信息提取,可以大大的提高识别率。
值得说明的是,虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理,但是应该理解,本发明并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合,这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims (6)

1.一种基于深度学习的pdf文本水印提取及比对方法,其特征在于,包括以下步骤:
收集pdf文本图像集,构建深度学习训练数据集;
构建深度学习网络模型;
利用训练数据集对深度学习网络训练;
基于深度学习图片进行水印提取及比对,提取pdf文本图像中的水印图像,比对提取到的水印图像。
2.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法,其特征在于,pdf文本图像集的收集方法是,
将doc、docx格式文本文档批量转化成pdf文本,再将pdf文本转化成文本图像形成原始文本,然后在原始文本中加入多种类型的文字水印,再将加入文字水印的文本转化成文本图像。
3.根据权利要求2所述的基于深度学习的pdf文本水印提取及比对方法,其特征在于,搭建深度学习端到端网络模型,采用全卷积神经网络(FCN)模型,输入是带水印的文本图像,输出是不带水印的文本图像。
4.根据权利要求3所述的基于深度学习的pdf文本水印提取及比对方法,其特征在于,使用tensorflow深度学习网络对pdf文本图像集进行训练。
5.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法,其特征在于,所述的方法还包括基于深度学习网络提取和去除pdf文本水印,即进行原始图片相减、图片转哈希值和图片水印比对的处理。
6.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法,其特征在于,还包括以感知哈希算法将图片编码为文本值,具体步骤有:缩放图像图片、对图像灰度化、差异计算、转换为hash值。
CN201910097666.6A 2019-01-31 2019-01-31 一种基于深度学习的pdf文本水印提取及比对方法 Pending CN109815653A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910097666.6A CN109815653A (zh) 2019-01-31 2019-01-31 一种基于深度学习的pdf文本水印提取及比对方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910097666.6A CN109815653A (zh) 2019-01-31 2019-01-31 一种基于深度学习的pdf文本水印提取及比对方法

Publications (1)

Publication Number Publication Date
CN109815653A true CN109815653A (zh) 2019-05-28

Family

ID=66606224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910097666.6A Pending CN109815653A (zh) 2019-01-31 2019-01-31 一种基于深度学习的pdf文本水印提取及比对方法

Country Status (1)

Country Link
CN (1) CN109815653A (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110990801A (zh) * 2019-11-29 2020-04-10 深圳市商汤科技有限公司 信息校验方法及装置、电子设备和存储介质
CN110991488A (zh) * 2019-11-08 2020-04-10 广州坚和网络科技有限公司 一种使用深度学习模型的图片水印识别方法
CN111798359A (zh) * 2020-05-19 2020-10-20 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的图像去水印方法
CN113158583A (zh) * 2021-05-24 2021-07-23 南京信息工程大学 一种端到端的基于深度学习的文本图像水印模型建立方法
CN113837914A (zh) * 2020-06-08 2021-12-24 北京金山办公软件股份有限公司 一种基于人工智能的水印识别方法和识别系统
CN114926317A (zh) * 2022-07-20 2022-08-19 南通倍佳机械科技有限公司 基于大数据的消防监控视频智能防篡改方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945622A (zh) * 2006-10-25 2007-04-11 北京北大方正电子有限公司 一种数字水印嵌入与提取方法及装置
CN105389770A (zh) * 2015-11-09 2016-03-09 河南师范大学 基于bp和rbf神经网络的图像水印嵌入、提取方法与装置
CN107194390A (zh) * 2017-04-11 2017-09-22 常诚 一种识别pdf文档中水印的方法
CN108805789A (zh) * 2018-05-29 2018-11-13 厦门市美亚柏科信息股份有限公司 一种基于对抗神经网络去除水印的方法、装置、设备及可读介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1945622A (zh) * 2006-10-25 2007-04-11 北京北大方正电子有限公司 一种数字水印嵌入与提取方法及装置
CN105389770A (zh) * 2015-11-09 2016-03-09 河南师范大学 基于bp和rbf神经网络的图像水印嵌入、提取方法与装置
CN107194390A (zh) * 2017-04-11 2017-09-22 常诚 一种识别pdf文档中水印的方法
CN108805789A (zh) * 2018-05-29 2018-11-13 厦门市美亚柏科信息股份有限公司 一种基于对抗神经网络去除水印的方法、装置、设备及可读介质

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110991488A (zh) * 2019-11-08 2020-04-10 广州坚和网络科技有限公司 一种使用深度学习模型的图片水印识别方法
CN110991488B (zh) * 2019-11-08 2023-10-20 广州坚和网络科技有限公司 一种使用深度学习模型的图片水印识别方法
CN110990801A (zh) * 2019-11-29 2020-04-10 深圳市商汤科技有限公司 信息校验方法及装置、电子设备和存储介质
CN110990801B (zh) * 2019-11-29 2022-05-17 深圳市商汤科技有限公司 信息校验方法及装置、电子设备和存储介质
CN111798359A (zh) * 2020-05-19 2020-10-20 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的图像去水印方法
CN113837914A (zh) * 2020-06-08 2021-12-24 北京金山办公软件股份有限公司 一种基于人工智能的水印识别方法和识别系统
CN113158583A (zh) * 2021-05-24 2021-07-23 南京信息工程大学 一种端到端的基于深度学习的文本图像水印模型建立方法
CN114926317A (zh) * 2022-07-20 2022-08-19 南通倍佳机械科技有限公司 基于大数据的消防监控视频智能防篡改方法

Similar Documents

Publication Publication Date Title
CN109815653A (zh) 一种基于深度学习的pdf文本水印提取及比对方法
Korus Digital image integrity–a survey of protection and verification techniques
US11615559B2 (en) Methods and systems for human imperceptible computerized color transfer
Ahmed et al. Image splicing detection using mask-RCNN
Yan et al. Recolored image detection via a deep discriminative model
Qureshi et al. A bibliography of pixel-based blind image forgery detection techniques
US20180101751A1 (en) Systems and methods for detection and localization of image and document forgery
CN110472623A (zh) 图像检测方法、设备以及系统
CN109102451B (zh) 一种纸媒输出的防伪半色调智能数字水印制作方法
Berezhnoy et al. Computer analysis of van Gogh’s complementary colours
CN112069891B (zh) 一种基于光照特征的深度伪造人脸鉴别方法
Murali et al. Comparision and analysis of photo image forgery detection techniques
Wang et al. Image splicing detection based on convolutional neural network with weight combination strategy
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN101930461A (zh) 通信网络的数字图像可视化管理和检索
CN116664961B (zh) 基于信码的防伪标签智能识别方法及系统
Gupta et al. A study on source device attribution using still images
CN112217958B (zh) 与设备颜色空间无关的数字水印载体图像预处理的方法
Li et al. Distinguishing computer graphics from photographic images using a multiresolution approach based on local binary patterns
CN113065407B (zh) 基于注意力机制和生成对抗网络的财务票据印章擦除方法
CN113160028B (zh) 基于彩色字符画的信息隐藏及恢复方法、设备及存储介质
CN115731593A (zh) 一种人脸活体检测方法
Abraham Digital image forgery detection approaches: A review and analysis
CN114973364A (zh) 一种基于脸部区域注意力机制的深度图片鉴伪方法及系统
CN114549267A (zh) 一种多特征聚类的零水印方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination