CN109815653A

CN109815653A - 一种基于深度学习的pdf文本水印提取及比对方法

Info

Publication number: CN109815653A
Application number: CN201910097666.6A
Authority: CN
Inventors: 宋俊典; 李顿伟; 戴炳荣; 杨琳; 纪婷婷; 旷志光; 张绍华
Original assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Current assignee: SHANGHAI DEVELOPMENT CENTER OF COMPUTER SOFTWARE TECHNOLOGY
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2019-05-28

Abstract

一种基于深度学习的pdf文本水印提取及比对方法，包括以下步骤：收集pdf文本图像集，构建深度学习训练数据集；构建深度学习网络模型；利用训练数据集对深度学习网络训练；基于深度学习图片进行水印提取及比对，提取pdf文本图像中的水印图像，比对提取到的水印图像。

Description

一种基于深度学习的pdf文本水印提取及比对方法

技术领域

本发明属于文档水印技术领域，特别涉及一种基于深度学习的文本pdf水印提取及比对方法。

背景技术

数字水印技术(Digital Watermarking)技术是将一些标识信息(即数字水印)直接嵌入数字载体(包括多媒体、文档、软件等)当中，但不影响原载体的使用价值，也不容易被人的知觉系统(如视觉或听觉系统)觉察或注意到。通过这些隐藏在载体中的信息，可以达到确认内容创建者、购买者、传送隐秘信息或者判断载体是否被篡改等目的。但是在很多情况下，在确认了安全之后，会有将图像中的水印消除的需要。通常图像去水印的方法有以下两种：

一种是基于Telea在2004年提出的基于快速行进的修复算法(FMM算法)。先处理待修复区域边缘上的像素点，然后层层向内推进，直到修复完所有的像素点。这种方法需要ui工程师设计出黑底白字的水印底图且位置必须一致的单通道灰度图。

另一种是基于像素的反色中和。对于彩色图像的R、G、B各彩色分量取反的技术就是图像的反色处理，这在处理二值化图像的连通区域选取的时候非常重要。如物体连通域用黑色表示，而二值化后的物体连通域图像可那是白色的，而背景是黑色的，这时应手动选取图像的反色处理或有程序根据背景和物体连通域两种颜色的数量所占比例而自动选择是否选择选取图像的反色处理。

但是，现有的方法中，对于pdf文本水印提取和比对还存在不准确的情况。

发明内容

本发明提供了一种基于深度学习的pdf文本水印提取及比对方法。

本发明实施例之一，一种基于深度学习的pdf文本水印提取及比对方法，包括以下步骤：

收集pdf文本图像集，构建深度学习训练数据集；

构建深度学习网络模型；

利用训练数据集对深度学习网络训练；

基于深度学习图片进行水印提取及比对，提取pdf文本图像中的水印图像，比对提取到的水印图像。

本发明与现有技术相比，具有以下的优点和积极效果：

本发明增加了对多种类型pdf文本水印提取及去除功能；操作简单，方便部署；本系统可以应用到文档比对、图像修复领域，可以在不影响图像及pdf画质的情况下去除水印，能够方便人们去除图像水印。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1是本发明实施例中文本水印提取及比对方法流程图；

图2是本发明实施例中以感知哈希算法将图片编码为文本值流程图；

具体实施方式

根据一个或者多个实施例，一种基于深度学习的文本pdf水印提取及比对方法，如图1所示。该方法包括pdf文本图像数据集收取、深度学习网络模型构建、深度学习网络训练和深度学习文本pdf水印提取和水印比对，所述pdf文本图像数据集收取用于收集深度学习训练所需的水印图像集包括有水印的文本图像和原文本图像；所述深度学习网络模型构建用于构建端到端的深度学习神经网络模型；所述深度学习网络训练用于使用设计的网络模型来训练文本图像数据集；所述深度学习文本pdf水印提取用于提取文本图像中的水印图像。所述水印比对用于比对提取到的水印图像是否有重复的水印。

本实施方式以用户上传的pdf、word文档为准，提取其文字水印或者是消除水印。所述pdf文本图像数据集收集是使用程序批量的将文本文档包括doc、docx格式，统一转化成pdf，在将pdf统一转化成文本图像，这是原图像数据集；然后将原始文本文档中加入多种类型的文字水印，在将文本文档转化成pdf文档，最终将文本文档转化成文本图像。

本实施方式中的深度学习网络模型构建是搭建深度学习端到端网络模型，本次设计使用全卷积神经网络(FCN)进行构建，输入是带水印的文本图像，输出是不带水印的文本图像。

卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deeplearning)的代表算法之一。由于卷积神经网络能够进行平移不变分类(shift-invariantclassification)，因此也被称为“平移不变人工神经网络(Shift-Invariant ArtificialNeural Networks,SIANN)”。

卷积神经网络通常包括卷积层、激活层、下采样层和全连接层。比如le-net是一个6层网络结构：三个卷积层，两个下采样层和一个全连接层。

通常CNN网络在卷积层之后会接上若干个全连接层,将卷积层产生的特征图(feature map)映射成一个固定长度的特征向量。以AlexNet为代表的经典CNN结构适合于图像级的分类和回归任务，因为它们最后都期望得到整个输入图像的一个数值描述(概率)，比如AlexNet的ImageNet模型输出一个1000维的向量表示输入图像属于每一类的概率(softmax归一化)。FCN与CNN的区域在把于CNN最后的全连接层换成卷积层，输出的是一张已经Label好的图片。

本实施方式可以将图像统一缩放到200*188大小，输入是200*188*3，输出是200*188*3大小的彩色图片(不带水印)。

根据一个或者多个实施例，以感知哈希算法将图片编码为文本值，其流程如图2所示。

感知哈希算法是一类算法的总称，包括aHash、pHash、dHash。顾名思义，感知哈希不是以严格的方式计算Hash值，而是以更加相对的方式计算哈希值，因为“相似”与否，就是一种相对的判定。下面是介绍dhash计算过程：

(1)缩放图片。目的是把图片缩放到足够小。缩放的原因是原图的分辨率一般都非常高。一张200*200的图片，就有整整4万个像素点，每一个像素点都保存着一个RGB值，4万个RGB，是相当庞大的信息量，非常多的细节需要处理。因此，本实施方式需要把图片缩放到非常小，隐藏它的细节部分，只见森林，不见树木。建议缩放为9*8。

(2)灰度化。dHash全名为差异值hash，通过计算相邻像素之间的颜色强度差异得出。我们缩放后的图片，细节已经被隐藏，信息量已经变少。但是还不够，因为它是彩色的，由RGB值组成。白色表示为(255,255,255),黑色表示为(0,0,0)，值越大颜色越亮，越小则越暗。每种颜色都由3个数值组成，也就是红、绿、蓝的值。如果直接使用RGB值对比颜色强度差异，相当复杂，因此本实施方式转化为灰度值——只由一个0到255的整数表示灰度。这样的话就将三维的比较简化为了一维比较。

(3)差异计算。差异值是通过计算每行相邻像素的强度对比得出的。我们的图片为9*8的分辨率，那么就有8行，每行9个像素。差异值是每行分别计算的，也就是第二行的第一个像素不会与第一行的任何像素比较。每一行有9个像素，那么就会产生8个差异值，这也是为何我们选择9作为宽度，因为8bit刚好可以组成一个byte，方便转换为16进制值。如果前一个像素的颜色强度大于第二个像素，那么差异值就设置为True(也就是1)，如果不大于第二个像素，就设置为False(也就是0)。

(4)转换为hash值。本实施方式将差异值数组中每一个值看做一个bit，每8个bit组成为一个16进制值，将16进制值连接起来转换为字符串，就得出了最后的dHash值。

通过dHash值计算两张图片的汉明距离(Hamming Distance)，通过汉明距离的大小，判断两张图片的相似程度。主要用到汉明距离：两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。例如字符串“1111”与“1001”之间的汉明距离为2，汉明距离越大则说明图片越不一致，反之，汉明距离越小则说明图片越相似，当距离为0时，说明完全相同。(通常认为距离>10就是两张完全不同的图片)

本发明可以用于对复杂拍摄场景下(如光照不均、有杂物)身份证号提取功能，操作简单，方便部署。本系统可以应用到安保、金融领域，可以提高复杂拍摄场景下身份证信息提取，可以大大的提高识别率。

值得说明的是，虽然前述内容已经参考若干具体实施方式描述了本发明创造的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种基于深度学习的pdf文本水印提取及比对方法，其特征在于，包括以下步骤：

收集pdf文本图像集，构建深度学习训练数据集；

构建深度学习网络模型；

利用训练数据集对深度学习网络训练；

2.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法，其特征在于，pdf文本图像集的收集方法是，

将doc、docx格式文本文档批量转化成pdf文本，再将pdf文本转化成文本图像形成原始文本，然后在原始文本中加入多种类型的文字水印，再将加入文字水印的文本转化成文本图像。

3.根据权利要求2所述的基于深度学习的pdf文本水印提取及比对方法，其特征在于，搭建深度学习端到端网络模型，采用全卷积神经网络(FCN)模型，输入是带水印的文本图像，输出是不带水印的文本图像。

4.根据权利要求3所述的基于深度学习的pdf文本水印提取及比对方法，其特征在于，使用tensorflow深度学习网络对pdf文本图像集进行训练。

5.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法，其特征在于，所述的方法还包括基于深度学习网络提取和去除pdf文本水印，即进行原始图片相减、图片转哈希值和图片水印比对的处理。

6.根据权利要求1所述的基于深度学习的pdf文本水印提取及比对方法，其特征在于，还包括以感知哈希算法将图片编码为文本值，具体步骤有：缩放图像图片、对图像灰度化、差异计算、转换为hash值。