CN101854461B - 一种利用半色调信息检测文档真实性的打印文档取证方法 - Google Patents

一种利用半色调信息检测文档真实性的打印文档取证方法 Download PDF

Info

Publication number
CN101854461B
CN101854461B CN2010101544616A CN201010154461A CN101854461B CN 101854461 B CN101854461 B CN 101854461B CN 2010101544616 A CN2010101544616 A CN 2010101544616A CN 201010154461 A CN201010154461 A CN 201010154461A CN 101854461 B CN101854461 B CN 101854461B
Authority
CN
China
Prior art keywords
document
character
halftoning
tone information
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010101544616A
Other languages
English (en)
Other versions
CN101854461A (zh
Inventor
孔祥维
吴玉宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN2010101544616A priority Critical patent/CN101854461B/zh
Publication of CN101854461A publication Critical patent/CN101854461A/zh
Application granted granted Critical
Publication of CN101854461B publication Critical patent/CN101854461B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Processing (AREA)
  • Image Analysis (AREA)

Abstract

一种利用半色调信息检测文档真实性的打印文档取证方法,属于信号与信息处理技术领域。其特征是利用文档经过二次打印后引入了正弦噪声,使打印文档存在半色调,表现为在其频谱的四个象限中产生四个峰值。通过字符分割得到每个字符图像块,求取图像块的对数幅度谱并归一化,设计一个在四个象限存在峰值的带通滤波函数,通过计算归一化的对数幅度谱与带通滤波函数的相关性来判断半色调是否存在,进而判断出打印文档是否经过二次打印篡改。本发明的效果和益处是对打印文档的每一个字符图像是否含有半色调进行自动判决,以此鉴别该文档是否经过二次打印篡改。

Description

一种利用半色调信息检测文档真实性的打印文档取证方法
技术领域
本发明属于信号与信息处理技术领域,涉及到检测文档真实性的打印文档取证方法,特别涉及到一种利用半色调信息检测文档真实性的打印文档取证方法。
背景技术
伪造文档通常有两种办法:通过直接二次打印方式进行添加文字的伪造;通过对扫描文档进行添加、删除和修改文字等编辑操作后再进行打印,称为剪切合成二次打印。
王跃等人在“添加打印文书检验方法新探”文中指出前者不可避免的造成肉眼可见的伪造缺陷,如行字迹横向倾斜差异、行距差异和左右页边距差异,具体如图1所示。图中第一段和第二段经过两次打印形成。
第二种方法使用软件实现去除、添加文字,操作精度高,可有效避免上述缺陷。但是编辑后只能以图像形式再次打印,而这会在打印文档中引入半色调效应。图2(a)为文档形式打印的字符,其中不含半色调效应;图2(b)为图像形式打印的字符,在含有墨迹区域存在半色调效应。崔岚在“用复印法变造复印文件的鉴别”文中指出通过数码复印机复印图像文件也会产生半色调效应,而模拟复印机不会产生半色调现象。所以针对实际中的数码复印机伪造文件,也可以使用本发明中的方法帮助检验文档的真实性。
从上面分析中可以看出,利用字符图像是否含有半色调来判断其所在文档是由文档编辑软件打印还是以图像形式打印。如果由文档编辑软件打印,则认为不存在剪切合成二次打印的伪造行为;如果是以图像形式打印,则认为存在剪切合成二次打印伪造行为的可能性很大。综上所述,有必要进行字符图像是否含有半色调技术的检测工作,以帮助确定文档是否进行过剪切合成二次打印操作。
Kaushal Solanki等人在“‘Print and Scan’Resilient Data Hiding in Images”文中指出这种半色调信息可以在傅立叶变换的频域幅度谱中产生明显的4个对称的亮点,具体如其文中473页的“Fig.8”所示。他们利用了频域的4个亮点的相对位置信息实现对打印文档的图像进行倾斜校正,从而帮助实现在打印文档图像中隐藏信息的正确提取。孔月萍在“图像逆半调及其质量评价技术研究”一文中同样对图像半色调在频域中引起的这种亮点现象进行研究,具体如第12页“图2.4”所示。她分析这种现象的目的是设计更好的半色调和逆半色调算法。
发明内容
本发明要解决的技术问题是如何从打印文档提取各个字符图像中是否含有半色调信息,以帮助文件检验工作人员更准确的检验文档的真实性,这将为文件检验提供一种新的方法。本发明利用含有半色调的字符图像在其频域中存在明显的四个对称亮点的特点,采用预处理方法实现对文档图像进行字符分割,通过这种频域特点判断每个字符图像中是否含有半色调信息,最后将每个字符的判决结果均标记在文档图像中。这幅标记了每个字符图像半色调信息的文档图像将帮助文检工作人员分析文档的真实性。如果文档的字符图像整体上或局部区域中存在半色调信息,则说明该文档可能经过篡改操作。因为这部分区域并不是以正常的文本形式打印,或者以手写签名等方式形成的。含有半色调信息的字符一定是以图像的形式的打印的,这就很有可能是经过了剪切合成二次打印的伪造操作。
本发明的技术方案如下:
1.利用半色调信息判别文档真实性的方法框图
本方法的框图如图3所示,具体包括3个步骤。针对一幅带检测的文档图像,首先要经过预处理实现字符分割,然后针对每个字符图像,使用频域分析的办法判断是否含有半色调信息,最后将是否含有半色调信息的判别结果标记在文档图像中。这个判决结果就可以很直观的帮助文件检验工作人员分析文档的真实性。
2.字符分割
为了从文档图像中分割出字符图像,本文通过二值去噪、倾斜校正、提取字符中心三个步骤构成的预处理过程来获得特征点,并将其匹配构成特征点对集合。
首先,对文本文档图像进行基于阈值的二值化,得到对应的二值图像。文本文档图像包含字符墨迹和均匀背景区域,其灰度直方图呈现明显的双峰,可以选择双峰中间的谷点作为二值化阈值。对于二值图像中面积小于某个阈值的连通区域,认为是墨点飞溅产生的噪声斑点并将其消除。
其次,对二值去噪图像使用Xiaoyi Jiang等人在“Skew Detection of DocumentImages by Focused Nearest-Neighbor Clustering”文中提出的FNNC(FocusedNearest-Neighbor Clustering,聚焦近邻法)算法进行倾斜校正。FNNC方法为近邻法的改进方法,分为特征点提取和倾斜角度估计两个阶段。在特征点提取阶段,本文提取字符连通区域重心作为特征点。针对单个汉字可能存在多个连通区域的特点,可以计算各连通区域的凸壳,对于凸壳相连或之间距离小于某阈值的连通区域,认为属于同一汉字字符,并将其标记为同一个连通区域。在倾斜角度估计阶段,选取某特征点的3个最近邻特征点确定局部倾斜角度,再根据各特征点的局部倾斜角度统计直方图确定页面倾斜角度。
然后,对倾斜校正后的二值图像提取字符中心。与上述倾斜校正步骤中的特征点提取阶段类似,通过凸壳来合并单个汉字内各连通区域,并取每个汉字字符连通区域外接矩形的中心作为特征点。字符中心检测过程实例如图4所示。
3.字符图像中是否含有半色调信息的判别
图2中是两个字符图像,图2(a)为不含有半色调的字符图像,图2(b)为含有半色调的字符图像。从中可以看出,图2(b)中存在明显的加网效果,相当于在图2(a)中叠加了一个二维正弦噪声。分析表明,含有半色调的字符图像在频域的中频分量会出现4个峰值。如图5所示。利用这种现象判断字符图像是否含有半色调。针对字符图像,执行以下步骤:
1)将空域图像减其平均值,以消除频域直流分量;
2)对图像进行二维Fourier变换,获取幅度谱,取其对数并归一化,得到归一化的对数幅度谱|S(ωx,ωy)|,再减去其均值得|S0x,ωy)|;
3)设计带通滤波函数W(x,y),由余弦函数构成,其特点是在四个象限存在四个峰值,与上述归一化对数幅度谱相乘求和得到二者相关性,设定合适的阈值T,可检测出带有半色调的字符图像。
上述步骤2)中,|S0x,ωy)|=|S(ωx,ωy)|-mean|S(ωx,ωy)|,  (1)
上述步骤3)中,带通滤波器W(x,y)的表达式为:
W ( x , y ) = 1 64 [ - cos ( 2 π T x x ) + 1 ] 3 · [ - cos ( 2 π T y y ) + 1 ] 3 , 0 ≤ x ≤ 2 T x , 0 ≤ y ≤ 2 T y , - - - ( 2 )
其中Tx,Ty为余弦函数的周期,取值分别为待检测字符图像长和宽的1/2,这样就能保证窗函数在x,y取值范围内包含四个峰值点,与带有半色调的中频幅度谱的峰值点位置相吻合,如图6所示,计算
M = 1 4 T x T y Σ x , y S 0 ( x , y ) · W ( x , y ) , 0 ≤ x ≤ 2 T x , 0 ≤ y ≤ 2 T y , - - - ( 3 )
设定阈值T=0,将M>T的字符图像判为含有半色调。
4.将半色调信息判别结果标记在文档页面
在第2步中,将文档图像进行字符分割得到字符图像,然后对每个字符图像按照第3步的方法提取是否含有半色调的信息。如果某个字符含有半色调信息,则用外接矩形进行标记,最终得到可供文件检验人员参考的标记半色调信息的文档图像。文件检验人员可以从该结果中直观地观察到文档图像中各字符的半色调信息,从而为判断文档的真实性提供依据。具体的字符图像检测结果如图7所示。
综上所述,本发明对打印文档的打印机来源进行检测和取证具体步骤如下:
首先,通过预处理过程从文档图像中分割出各个字符图像;其次,判断每个字符图像中是否含有半色调信息;第三,将整幅文档中各个字符的是否含有半色调的判决结果标记在图像中,以帮助判别文档是否经过伪造篡改。
本发明的效果和益处是:
本发明主要针对实际伪造文档过程中,伪造者通常采用剪切合成办法进行伪造而提出的。剪切合成二次打印不可避免的会在伪造文档的字符图像中产生半色调效应。本发明解决了自动检验文档中每个字符是否含有半色调信息的判断问题,从而为司法机关和刑侦部门检测文档的真实性提供了更有效的工具。本发明适用于信息安全领域,可以有效地帮助文件检验人员检验文档的真实性。
附图说明
图1是直接二次打印过程中产生的伪造痕迹图。
图2是以文档形式打印的字符图像、以图像形式打印的字符图像。
图中:图2(a)是以文档形式打印的字符图像,图2(b)是以图像形式打印的字符图像。
图3是利用半色调信息检测文档真实性的打印文档取证方法框图。
图4是原始字符图像、初始凸壳图像、合并凸壳图像及分割出的字符图像。
图中:图4(a)是原始字符图像,图4(b)是初始凸壳图像,图4(c)是合并凸壳图像,图4(d)是分割出的字符图像。
图5打印文档中字符的幅度谱图像。
图中:图5(a)是不含半色调字符图像对数幅度谱,图5(b)是含半色调字符图像对数幅度谱。
图6是带通滤波函数的三维效果图。
图7是对字符图像的检测结果图。
图中:图7(a)上面三行为经过二次打印的含有半色调的字符图像,下面三行为不含有半色调的字符图像,图7(b)表示对图7(a)中的字符图像的检测结果图像。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施方式。
实验中需要对打印文档的字符图像是否含有半色调信息进行检测,首先要制作出含有半色调信息的字符文档图像,文档的上半部分为经过打印和扫描的字符“e”的图像,下半部分为正常字符“e”,对该文档进行打印扫描得到待检测文档图像,该图像的上半部分含有半色调,下半部分不含有半色调,以便于检测结果的对比,实验中使用扫描精度为600dpi。图7(a)为待检测文档的一部分,上面三行含有半色调,下面三行不含半色调,检测结果如图7(b)所示,含有半色调的字符用矩形框标记出来。
半色调的产生是由于文档在二次打印时字符图像叠加了正弦噪声,这些噪声与文档的内容无关,因此该算法对其它英文字符和汉语字符仍然适用。在字符分割时,由于存在误差,将两个字符用一个矩形框标记出来,这使得分割的字符图像大小不一,在对每个字符进行检测的同时,带同滤波函数可以获得分割字符图像的大小,通过调整带通滤波器参数Tx,Ty,使之与待检测字符图像的大小相对应即可解决此问题。

Claims (4)

1.一种利用半色调信息检测文档真实性的打印文档取证方法,其特征是利用文档经过扫描并二次打印后引入了正弦噪声,使打印文档存在半色调,表现为在其频谱的四个象限中产生四个峰值,通过字符分割得到每个字符图像块,将每个图像块减其均值,消除直流分量,并做二维傅里叶变换,获得幅度谱,取其对数并归一化,再减去其均值,最后设计带通滤波函数,与上述归一化的对数幅度谱相乘求和得到二者相关性来判断字符图像是否含有半色调,进而判断出打印文档是否经过二次打印篡改。
2.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法,其特征在于对待检测文档进行字符分割,通过设定阈值将图像二值化,对于二值图像中面积小于某个阈值的连通区域,认为是墨点飞溅产生的噪声斑点并将其消除,使用Focused Nearest-Neighbor Clustering(聚焦近邻法)算法进行倾斜校正,最后对倾斜校正后的二值图像提取字符中心并得到单个字符图像。
3.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法,其特征在于对分割得到的字符图像进行Fourier变换,取其对数幅度谱并归一化,含有半色调的字符频谱中在四个象限中央有明显的峰值,用于判断半色调的存在。
4.根据权利要求1所述的一种利用半色调信息检测文档真实性的打印文档取证方法,其特征在于计算归一化的对数幅度谱与带通滤波函数的相关性,此带通滤波函数由余弦函数构成,在四个象限存在四个峰值,将滤波函数与归一化对数幅度谱对应相乘再求和来计算二者的相关性,设定阈值T,将相关性大于T的字符图像判定为含有半色调,并将判决结果标记在文档图像中。
CN2010101544616A 2010-04-20 2010-04-20 一种利用半色调信息检测文档真实性的打印文档取证方法 Expired - Fee Related CN101854461B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101544616A CN101854461B (zh) 2010-04-20 2010-04-20 一种利用半色调信息检测文档真实性的打印文档取证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101544616A CN101854461B (zh) 2010-04-20 2010-04-20 一种利用半色调信息检测文档真实性的打印文档取证方法

Publications (2)

Publication Number Publication Date
CN101854461A CN101854461A (zh) 2010-10-06
CN101854461B true CN101854461B (zh) 2012-07-04

Family

ID=42805707

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101544616A Expired - Fee Related CN101854461B (zh) 2010-04-20 2010-04-20 一种利用半色调信息检测文档真实性的打印文档取证方法

Country Status (1)

Country Link
CN (1) CN101854461B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326961A (zh) * 2015-07-01 2017-01-11 迪米特里·马琳金 用于保护对象、物品、文档、包装和/或标签的真实性免于模仿、伪造和盗窃的方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104537654B (zh) * 2014-12-19 2017-04-12 大连理工大学 利用半色调点位置失真打印图像篡改取证方法
CN115629507B (zh) * 2022-11-07 2023-11-24 广东南天司法鉴定所 一种文件字迹和图案的真伪鉴定方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581926A (zh) * 2003-08-07 2005-02-16 鸿友科技股份有限公司 自动检测图文的半色调处理方法
CN101149848A (zh) * 2006-09-20 2008-03-26 致伸科技股份有限公司 在图像中确定对应于金融票券的区域的验证方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1581926A (zh) * 2003-08-07 2005-02-16 鸿友科技股份有限公司 自动检测图文的半色调处理方法
CN101149848A (zh) * 2006-09-20 2008-03-26 致伸科技股份有限公司 在图像中确定对应于金融票券的区域的验证方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孔月萍.图像逆半调及其质量评价技术研究.《西安电子科技大学学报》.2008,(第12期), *
崔岚.用复印法变造复印文件的鉴别.《中国人民公安大学学报》.2008,(第03期), *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106326961A (zh) * 2015-07-01 2017-01-11 迪米特里·马琳金 用于保护对象、物品、文档、包装和/或标签的真实性免于模仿、伪造和盗窃的方法

Also Published As

Publication number Publication date
CN101854461A (zh) 2010-10-06

Similar Documents

Publication Publication Date Title
Elkasrawi et al. Printer identification using supervised learning for document forgery detection
Gebhardt et al. Document authentication using printing technique features and unsupervised anomaly detection
US10404868B2 (en) Image defect detection
CN110378310B (zh) 一种基于答案库的手写样本集的自动生成方法
US20070253040A1 (en) Color scanning to enhance bitonal image
CN104966051A (zh) 一种文档图像的版式识别方法
CN101894268B (zh) 一种可消除底单干扰的印鉴真伪识别方法
JP4821663B2 (ja) 文字ノイズ除去装置、文字ノイズ除去方法、文字ノイズ除去プログラム
Yadav et al. Text extraction in document images: highlight on using corner points
CN101854461B (zh) 一种利用半色调信息检测文档真实性的打印文档取证方法
CN101587540B (zh) 一种利用页面文档几何失真检测文档来源的打印机取证方法
CN101118592B (zh) 一种基于字符打印特征的打印机取证方法
Ryu et al. Document forgery detection with SVM classifier and image quality measures
Wu et al. A printer forensics method using halftone dot arrangement model
RU2436156C1 (ru) Способ разрешения противоречивых выходных данных из системы оптического распознавания символов (ocr), где выходные данные включают в себя более одной альтернативы распознавания изображения символа
Wu et al. Printer forensics based on page document's geometric distortion
Wang et al. Fourier-residual for printer identification
CN107609482B (zh) 一种基于汉字笔画特征的中文文本图像倒置判别方法
CN104537654B (zh) 利用半色调点位置失真打印图像篡改取证方法
CN102646194B (zh) 一种利用字符边缘特征进行打印机类型取证的方法
Chhabra et al. Detecting fraudulent bank checks
Khan et al. Urdu optical character recognition technique using point feature matching; a generic approach
Clausner et al. A robust hybrid approach for text line segmentation in historical documents
Van Beusekom et al. Automatic counterfeit protection system code classification
Messaoud et al. New method for the selection of binarization parameters based on noise features of historical documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120704

Termination date: 20160420