CN107194390A - 一种识别pdf文档中水印的方法 - Google Patents

一种识别pdf文档中水印的方法 Download PDF

Info

Publication number
CN107194390A
CN107194390A CN201710231660.4A CN201710231660A CN107194390A CN 107194390 A CN107194390 A CN 107194390A CN 201710231660 A CN201710231660 A CN 201710231660A CN 107194390 A CN107194390 A CN 107194390A
Authority
CN
China
Prior art keywords
fingerprint
watermark
content
bitmap
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710231660.4A
Other languages
English (en)
Inventor
常诚
何黎刚
陈浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201710231660.4A priority Critical patent/CN107194390A/zh
Publication of CN107194390A publication Critical patent/CN107194390A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

本发明涉及一种识别PDF文件中水印的方法。步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数;指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次;步骤2:筛选(计数>页数/2)的指纹集合,查找相应指纹位置的元素;步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5;步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印;步骤5:提取指纹对应的位图,如果相同则判定为图片水印。在上述处理框架中,本发明还阐述了位置指纹生成方法,文字内容规律判断方法及相同图片判断方法等实施细节,综合提高PDF文档水印的识别率,为提取、分析内容等后续处理做准备。

Description

一种识别PDF文档中水印的方法
技术领域
本发明属于PDF文件内容处理与分析的技术领域,本发明涉及一种识别 PDF 文件中水印的方法。
背景技术
PDF文档中经常出现水印用于标识该文档的版权、状态或其他附加信息,比如页面背景带“草稿”字样,提示文档未正式发表。PDF内容提取场景,如转换为其他格式(Word文档)或针对文字内容进行分析处理等,都需要识别水印信息,以免将它们混入正文干扰内容解析。
PDF格式标准中并没有独立的“水印”概念,水印内容同样是通过PDF命令绘制,即将文档记录的颜色、字体、大小、位置、透明度等指令显示在页面上,与正文数据操作完全相同,所以无法直接通过程序解读和区分水印信息。
然而,人眼却可以很容易辨别出水印:从构成角度看,水印可分为文字和图片(PDF格式中的位图Bitmap,下面不再赘述)两种;一般会显示相同或有规律的内容,并与正文有明显的风格(字体、字号等)差别;出现位置可以是正文下方作为内容背景,也可以是半透明状态覆盖在正文之上;另外水印通常都在页面特定位置出现,每页或至少正文页面都有。基于这些观察,本发明提出一种方法,利用水印显示规律自动识别PDF文档页面上的水印。
发明内容
本发明所要解决的技术问题是提供一种识别 PDF文件中的水印的方法,能够解析页面上的水印内容并标识其所在位置 。
本发明解决上述技术问题的技术方案如下。
步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。
步骤2:筛选(计数 > 页数 / 2)的指纹集合,查找相应指纹位置的元素。
步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5。
步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印。
步骤5:提取指纹对应的位图,如果相同则判定为图片水印。
在以上处理流程中,还涉及通过元素位置坐标参数,生成文本指纹方法;文字元素相同通过字体、字号、颜色、旋转参数综合对比判断;文字内容递增递减规律通过差分方法判断;相同图片对比位图md5哈希值方法判断等实施细节。
本发明的有益效果是:通过遍历PDF文件提取文本和位图元素,利用位置信息生成指纹。指纹生成方法在后面介绍。由于PDF文档按页显示内容,不同页面但同一位置的页面元素,可以通过条件(计数 > 页数 / 2)筛选出来,它们是潜在的水印。然后,针对备选指纹及指纹对应的内容判断,如果是文本内容,需要判断是否相同,或者满足某种变化规律,这是因为某些文本水印会附带页码、日期、项目编号等规律信息,满足条件则判定为水印;否则是图片内容,则直接判断位图数据是否相同,是则判定为图片水印。本发明利用指纹(计数)处理,避免存储、计算图文内容信息本身,节省分析开销。此外,针对文本、图片水印分别进行内容判断,可以大大拓展识别算法的适用性,提高识别率。
在上述处理流程中,本发明还阐述了位置指纹生成方法,相同/规律文字及相同图片判断条件等细节,综合解决PDF文档水印识别问题。
附图说明
图 1为本发明提出的识别 PDF文件中水印的方法的流程图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述, 所举实例只用于解释本发明,并非用于限定本发明的范围。
图 1为本发明提出的识别 PDF文件中的水印的方法的流程图。这里PDF是Portable Document Format的缩写,意为便携文件格式,是一种电子文件格式,PDF文件指的是采用PDF格式的电子文件。该格式常用于保存和分发复杂排版的文档,名称中的便携(Portable)是指在各种硬件设备和软件平台上都可以获得相同的排版效果,因此特别适合用于要求准确显示、不可修改的文档。正因为这种不可修改的特性,生成文档时常常会添加水印,作用与纸质水印类似。本发明中,PDF文件中的水印可以是文字或图片(位图),出现在文档页面的固定位置,标识文档的版权、状态或其他附加信息。
如图1所示, 该方法包括。
步骤 101 : 提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数。指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次。
每个对象都包含显示的位置信息,可以表示为矩形,通过右下角位置坐标(x, y)和宽高(w, h)参数确定。然后将位置转换为指纹字符串“x,y,w,h”,其中每项数字都转为字符串,截断若干小数位降低匹配敏感度。举例说明,某坐标为(12.3212, 20.6833),宽高分别为(45.5000, 100.7300)的文字元素,得到指纹:“ 12.3,20.6,45.5,100.7”,这里保留一位小数。
提取过程中,如果指纹再次出现则计数累加。最后,计数代表某个位置上元素出现了几次。通过指纹转换和截断小数点的方法,可以节约比较计算开销,同时忽略特别小的位置偏移,因为源头上计算机无法精确存储浮点型数据,所以引入截断机制可以提高本步骤的容错性。
步骤 102:筛选(计数 > 页数 / 2)的指纹集合,查找相应指纹位置的元素。
本步骤筛选计数大于一半文档页数的指纹集合。步骤101已经解释过计数的含义,多个页面同一位置出现元素是水印的特征。设定数量大于一半页数,是因为某些具有装订线的文档,相邻页水印位置对称分布(隔页相同);另一方面,通常封面和底页不带有水印。实践中还可以人工指定该阈值以更适合识别场景 。
查找相应指纹位置的元素,同一指纹一般对应多个元素,在后续步骤中进一步判断。
步驟 103 : 遍历备选指纹,如果指纹对应得都是文字元素,则进行步骤105处理,否则进入步骤104。
本步骤中的 "遍历" 是一种计算机运算形式,指的是沿着某条搜索路线,依次对集合中每个结点均做一次且仅做一次访问。 遍历的方法以及上述的集合的概念属于计算机领域的公知常识,在此不做赘述。
由于文本和位图处理方式不同,我们将满足位置条件的元素分为两类处理。指纹对应计数的内容均为文字元素,则满足条件,转入105继续进行内容检测。
步骤104:如果指纹对应得都是位图元素,则进行步骤106 。
本步骤是103的后继判断,如果同一指纹对应元素既有文本又有位图也说明不是水印,尽管这种情况非常少见。
步骤105:提取该指纹对应的文字,如果相同或满足递增、递减规律则判断为文字水印。
步骤101至103 主要着眼于元素位置,缩小判断范围,本步骤判断对应文字元素本身信息。首先,检查文字风格,包括文本字体,字号,颜色、旋转参数相同则继续判断。而后针对文字内容,如果完全相同,则判定为水印,如果不同,但是存在满足递增、递减规律的数字则判定为水印。
其中,文字风格和内容是PDF格式固有信息,正是依赖这些指令,文档才得以精确显示。数字判断可以使用正则表达式,该算法是计算机领域的广泛使用的字符串处理方案,不再详细解释。递增、递减数字判断是通过差分计算获得,原理是数学中的等差数列。
步骤106:提取指纹对应的位图,如果相同则判断为图片水印。
PDF格式中的位图是以原始数据(二进制)方式存储,无论是文档多处引用,还是将同一位图多次存储(较少见),总能提取图片数据。为了比较图片数据相同,我们对图片数据做md5运算,计算该数据的摘要,摘要相同则说明是相同位图,判定为水印。
其中,md5算法可以对数据生成一组 128位的哈希值,用来确保信息传输完整性,接受消息(数据)时,验证附带md5哈希值即可判断是否与发送消息相同。我们分别计算图片的md5值,用来判断数据是否相同,避免直接比较二进制数据。
步骤 107:记录水印信息。
在 105、106步骤基础上,对判定为水印的指纹逆向转换:通过逗号(,)分割字符串,然后将四部分字符串转为数字,就可以得到相应的位置坐标。结合之前的类型型信息,得到一个文档的水印信息。
本发明具有以下优点:通过遍历PDF文件,利用水印的一般特点,首先针对页间位置固定,设计了一种简单指纹,缩小查找范围,提高搜索效率。然后,分别定义文本水印和图片水印相同或相似的规则,进一步判断满足位置条件元素是否为水印。这样获得了文档的水印信息,便于后续对内容精确处理和分析。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (1)

1.一种识别PDF文件中水印的方法,其特征在于该方法包括:步骤1:提取PDF文字、位图元素内容及位置信息,根据位置计算指纹并计数;指纹是从内容中(此处即是位置)提取的关键信息,可以代表所指向的内容,相同指纹可以统计出现次;步骤2:筛选(计数 > 页数 /2)的指纹集合,查找相应指纹位置的元素;步骤3:遍历备选指纹,如果指纹对应的都是文字元素,则进行步骤4处理;对应均为位图元素则进入步骤5;步骤4:提取该指纹对应的文字,如果相同或满足递增、递减规律则判定为文字水印;步骤5:提取指纹对应的位图,如果相同则判定为图片水印——在以上处理流程中,还涉及通过元素位置坐标参数,生成文本指纹方法;文字元素内容递增递减规律通过差分方法判断;相同图片对比位图md5哈希值判断方法等实施细节。
CN201710231660.4A 2017-04-11 2017-04-11 一种识别pdf文档中水印的方法 Pending CN107194390A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710231660.4A CN107194390A (zh) 2017-04-11 2017-04-11 一种识别pdf文档中水印的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710231660.4A CN107194390A (zh) 2017-04-11 2017-04-11 一种识别pdf文档中水印的方法

Publications (1)

Publication Number Publication Date
CN107194390A true CN107194390A (zh) 2017-09-22

Family

ID=59871335

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710231660.4A Pending CN107194390A (zh) 2017-04-11 2017-04-11 一种识别pdf文档中水印的方法

Country Status (1)

Country Link
CN (1) CN107194390A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815653A (zh) * 2019-01-31 2019-05-28 上海计算机软件技术开发中心 一种基于深度学习的pdf文本水印提取及比对方法
CN111815499A (zh) * 2019-04-11 2020-10-23 珠海金山办公软件有限公司 一种水印删除方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075925A1 (en) * 1999-06-08 2000-12-14 Intertrust Technologies Corp. Method and systems for protecting data using digital signature and watermark
CN101676949A (zh) * 2008-09-19 2010-03-24 深圳富泰宏精密工业有限公司 水印信息移除系统及方法
CN104899821A (zh) * 2015-05-27 2015-09-09 合肥高维数据技术有限公司 一种用于文档类图像可视水印的擦除方法
CN105989013A (zh) * 2015-01-28 2016-10-05 腾讯科技(深圳)有限公司 去除文字水印的方法及装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2000075925A1 (en) * 1999-06-08 2000-12-14 Intertrust Technologies Corp. Method and systems for protecting data using digital signature and watermark
CN101676949A (zh) * 2008-09-19 2010-03-24 深圳富泰宏精密工业有限公司 水印信息移除系统及方法
CN105989013A (zh) * 2015-01-28 2016-10-05 腾讯科技(深圳)有限公司 去除文字水印的方法及装置
CN104899821A (zh) * 2015-05-27 2015-09-09 合肥高维数据技术有限公司 一种用于文档类图像可视水印的擦除方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109815653A (zh) * 2019-01-31 2019-05-28 上海计算机软件技术开发中心 一种基于深度学习的pdf文本水印提取及比对方法
CN111815499A (zh) * 2019-04-11 2020-10-23 珠海金山办公软件有限公司 一种水印删除方法及装置

Similar Documents

Publication Publication Date Title
CN101957919B (zh) 基于图像局部特征检索的文字识别方法
US8965127B2 (en) Method for segmenting text words in document images
US20100303356A1 (en) Method for processing optical character recognition (ocr) data, wherein the output comprises visually impaired character images
US7035463B1 (en) Document image processor, method for extracting document title, and method for imparting document tag information
Davila et al. ICDAR 2019 competition on harvesting raw tables from infographics (chart-infographics)
CN103377390B (zh) 二维码的生成、识别方法和装置
Zheng et al. A cascaded method for text detection in natural scene images
JP2012008791A (ja) 帳票認識装置及び帳票認識方法
EP2110758B1 (en) Searching method based on layout information
CN103914680A (zh) 一种喷印字符图像识别与校验系统及方法
CN111488732B (zh) 一种变形关键词检测方法、系统及相关设备
CN105930836A (zh) 一种视频文字的识别方法和装置
CN111310750B (zh) 一种信息处理方法、装置、计算设备及介质
CN111984589A (zh) 文档处理方法、文档处理装置和电子设备
CN114881698A (zh) 广告合规审核方法、装置、电子设备及存储介质
US8010564B2 (en) Logical structure analyzing apparatus, method, and computer product
Chen et al. A solution to reconstruct cross-cut shredded text documents based on constrained seed K-means algorithm and ant colony algorithm
CN107194390A (zh) 一种识别pdf文档中水印的方法
Böschen et al. Multi-oriented text extraction from information graphics
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN115147855A (zh) 票据进行批量ocr识别方法及系统
CN117496521A (zh) 一种表格关键信息抽取方法、系统、装置及可读存储介质
CN116343237A (zh) 基于深度学习和知识图谱的票据识别方法
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN115455966B (zh) 安全字库构建方法及其安全码提取方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170922