CN107480728B - 一种基于傅里叶残差值的打印文件的鉴别方法 - Google Patents
一种基于傅里叶残差值的打印文件的鉴别方法 Download PDFInfo
- Publication number
- CN107480728B CN107480728B CN201710748676.2A CN201710748676A CN107480728B CN 107480728 B CN107480728 B CN 107480728B CN 201710748676 A CN201710748676 A CN 201710748676A CN 107480728 B CN107480728 B CN 107480728B
- Authority
- CN
- China
- Prior art keywords
- residual
- fourier
- row
- file
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Other Investigation Or Analysis Of Materials By Electrical Means (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于傅里叶残差值的打印文档鉴别方法,解决打印文档之间没有相同字符或者相同字符较少的情况下的鉴别问题。具体方法是:获取一张打印文档的文档图像;提取文档图像的文本行,找到最大的打印区域;提取文档图像的傅里叶残差图,在残差图上提取灰度,熵的统计特征,对这些特征利用分类器进行分类。基于傅里叶残差值的打印文档鉴别方法,可以很好的区分不同打印机之间的打印特性,同时,也不需要打印文档之间有太多相同字符,提高了打印文档鉴别方法的适用范围和准确率。
Description
技术领域
本发明涉及打印文件的源机认定技术的领域,尤其涉及基于傅里叶残差值的打印文件的鉴别方法。
背景技术
由于打印机在生产时的参数配置差异以及日常使用中的损耗情况的不同,因此,打印出的文档也不相同,这是打印文档机源认定技术的基础,所谓打印文档的鉴别,就是判断两份打印文档是否来自同一台打印机。
随着计算机技术的发展和打印机的普及,打印文档取代手写文件作为承载信息的媒介已经成为一种趋势。与此同时,对于打印文件的修改、伪造等犯罪也正在兴起。有越来越多的工作投入到对打印文档的鉴别上。
目前打印文档识别技术中,有的运用小波分析的方法提取单个字符的频域特征做训练样本,使用分类器进行单字符识别。有的基于纹理信息,利用Gabor滤波器提取字符特征进行识别。其识别率很高,但它的维数高,计算量大。但是这些方法都限制在对打印的字符的识别,无法达到打印文档内容无关的识别,因此提出一种打印文档内容无关的鉴别方法是很有必要的。
打印文档字符的傅里叶残差信息承载了其打印机的特性,可利用这些残差信息鉴别两份打印文件是否来自同一打印文件。同时通过对这些残差信息统计建模,以解决打印文档内容无关的鉴别问题。
发明内容
发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种更简单泛化能力更好的用于打印文档识别的方法,从而达到对内容无关的打印文档的鉴别。
为了解决上述技术问题,本发明采用的技术方案是:
一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,包括以下步骤:
步骤1,获取一张打印文档的文档图像;
步骤2,提取文档图像的文本行,找到最大的打印区域;
步骤3,提取文档图像的傅里叶残差图,具体方法是:
步骤31,将文档图像转化为灰度图,记为Igray(x,y),其中(x,y)代表文档图像的像素点;
步骤32,对灰度图做傅里叶变换转换到频率域,记为F(u,v),其中(u,v)代表频率域空间坐标:
式中,j为复数虚部单位;
步骤33,对傅里叶图在频率域做拉普拉斯滤波:
G(u,v)=-(u2+v2)F(u,v),
其中,G(u,v)为傅里叶-拉普拉斯滤波增强后的图像;
步骤34,重建灰度图像IRG(x,y)和拉普拉斯滤波后的图像IRFL(x,y),将两个图像取绝对差,得到残差图像Ires(x,y):
Ires(x,y)=IRG(x,y)-IRFL(x,y)
步骤4,对承载打印机特性的残差图提取灰度,熵的统计特征:
步骤41,提取残差图像的灰度特征,设残差图一共有M行N列,将每一行,每一列的均值分别记为和
步骤42,将每一行,每一列的均值分别与残差图中的每一列,每一行计算自相关系数,记为prow,pcol,:
步骤43,在均值和自相关系数的基础上提取统计特征,一共14个统计特征,分别为 的方差,偏度和峰度,记为prow、pcol的方差、偏度和峰度,记为σprow,σpcol,γ1prow,γ1pcol,γ2prow,γ2pcol:
其中,分别为prow、pcol的均值;
步骤44,提取残差图的信息熵的相关特征,将每一行,每一列的熵,分别记为
步骤45,计算残差图的每一列的值和每一列熵的相关系数,每一行的值和每一行熵的相关系数,分别记为qcol和qrow:
步骤46,对残差图的局部信息熵和全局信息熵提取特征,计算相关系数,均值,方差,偏度,峰度的14个统计特征;
其中,分别为qrow、qcol的均值;
步骤47,提取最后一个特征是关于prow,pcol的相对值,记为f29:
步骤5,通过分类器分类,判别文档图像所属的打印机。
所述步骤2还包括对文档图像的倾斜做简单处理。
所述步骤2中,利用Tesseract OCR软件提取文档的文本行。
所述步骤2中,利用扫描仪获取打印文档的文档图像。
步骤1获取的文档图像像素为400dpi。
本发明步骤5中所述通过分类器分类,判别打印文档所属的打印机包括如下步骤:在提取所有文档的特征的基础上,利用SVM对训练集进行训练,找出每种打印机的判别边界,然后对测试集中的文档进行判断,以判断最有可能属于的打印机类别,以达到鉴别的目的。
与现有技术相比,本发明具有如下优点:
本发明是通过重建文档的灰度图和锐化增强后的图像获取残差信息,对残差信息提取统计特征,来达到一种更简单泛化能力更好的打印机文档鉴别方法。
(1)本发明提出了傅里叶残差,通过在频率域结合了傅里叶的拉普拉斯滤波方法,增强了代表不同打印机噪声模式的系数,同时在重建灰度信息和锐化后的信息的基础上,剔除了打印文档中的字符图像特征,只留下与打印机相关的残差信息。这个残差信息可以很好的用来描述不同打印机的打印特征,即使是通过提取简单的统计特征,结合简单的线性分类器就可以获得不错的效果。
(2)本发明将灰度统计特征和信息熵特征结合起来,利用结合后的特征对打印文档进行鉴别,只通过残差图的灰度统计特征进行判断的效果不是很好,通过挖掘残差图每一行的信息熵相关信息,同时构建残差图整体的信息熵特征,可以对打印机的不同打印模式进行更好的建模,因此,这种做法较以往只利用灰度统计特征的方法更加精确。不需要打印文档之间有太多相同字符,提高了打印文档鉴别方法的适用范围和准确率。
附图说明
下面结合附图和具体实施方式对本发明做更进一步的具体说明,本发明的上述和或其他方面的优点将会变得更加清楚。
图1为本发明流程图。
图2为输入扫描的文档实例。
图3为输入实例文档的提取文本行。
图4为包含噪声信息的残差图。
具体实施方式:
本发明一种基于傅里叶残差值的打印文档鉴别方法的基本出发点是根据对不同打印机的打印特性,产生的打印噪声差异不同,通过傅里叶残差图提取出这些噪声,并进行统计建模,根据统计特征的差异性,进行分类,从而达到对打印文档的鉴别。
下面结合附图对本发明做更加详细的解释:
1.扫描文档
对一张打印的文档,通过扫描仪扫描,获取像素为400dpi的图像,如图2所示。
2.找出文本行
利用Tesseract OCR软件提取文档的文本行,找到最大的打印区域,同时对文档的倾斜做简单处理。如图3所示。
3.构造残差图
首先将文档图像利用傅里叶变换转换到频域得到F图,然后在频域内做拉普拉斯滤波操作,得到G图,接着对F图做逆傅里叶变换,转换到空域,得到R-G图,同时对G图也做逆傅里叶变换,得到R-FL图,将R-G图减去R-FL图,就能得到包含噪声信息的傅里叶残差图,如图4所示。
4.特征提取
残差图的特征提取主要考虑到要做到打印内容的无关性,结合了灰度和熵的一些统计特征,来挖掘出噪声信息的每一列,每一行的一些相同特征。
对包含噪声信息的残差图提取自相关,熵的统计特征。前14个特征分别是每一行,每一列均值的方差,偏度,峰度,每一行,每一列的均值分别与残差图中的每一列,每一行计算自相关系数的均值,方差,偏度,峰度。另外14个特征是每一行,每一列熵的方差,偏度,峰度,每一行,每一列的熵分别与残差图中的每一列,每一行计算自相关系数的均值,方差,偏度,峰度。最后一个特征是相关系数的一个相对值。
5.分类器
利用SVM对训练集进行训练,找出每种打印机的判别边界,然后对测试集中的文档进行判断,以判断最有可能属于的打印机类别,以达到鉴别的目的。
实施例:
本实施例包括以下部分:
1.输入文本文档
本实例的数据集来自于DPKI打印文档数据集,该数据集主要包括回执单,合同以及论文三类,每类60张,分别用20种不同的打印机打印,共计1200个文档,记为DPKI-20。图2就是其中的一个文档。另一个数据集是我们自己搜集了5台打印机,同时打印DPKI数据集中的文档,然后扫描保存为图像,记为DPKI-5。
2.实验
将数据集中的文档中80%做样本,20%做测试。构造出残差图后提取自相关和熵的统计特征,最后用SVM分类。实验结果用20类打印机的平均精确率,平均召回率,平均F1值三个标准进行评价,如表1所示。
表1分类鉴别结果
数据集 | 平均精确率 | 平均召回率 | 平均F1值 |
DPKI-20 | 0.90 | 0.90 | 0.90 |
DPKI-5 | 0.91 | 0.91 | 0.90 |
从表1可见,本方法在打印机种类较多的情况下,依然可以达到很高的分类准确率,有很好的鲁棒性。
Claims (6)
1.一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,包括以下步骤:
步骤1,获取一张打印文档的文档图像;
步骤2,提取文档图像的文本行,找到最大的打印区域;
步骤3,提取文档图像的傅里叶残差图,具体方法是:
步骤31,将文档图像转化为灰度图,记为Igray(x,y),其中(x,y)代表文档图像的像素点;
步骤32,对灰度图做傅里叶变换转换到频率域,记为F(u,v),其中(u,v)
代表频率域空间坐标:
式中,j为复数的虚部单位;
步骤33,对傅里叶图在频率域做拉普拉斯滤波:
G(u,v)=-(u2+v2)F(u,v),
其中,G(u,v)为傅里叶-拉普拉斯滤波增强后的图像;
步骤34,重建灰度图像IRG(x,y)和拉普拉斯滤波后的图像IRFL(x,y),将两个图像取绝对差,得到残差图像Ires(x,y):
Ires(x,y)=IRG(x,y)-IRFL(x,y)
步骤4,对承载打印机特性的残差图提取灰度,熵的统计特征:
步骤41,提取残差图像的灰度特征,设残差图一共有M行N列,将每一行,每一列的均值分别记为和
步骤42,将每一行,每一列的均值分别与残差图中的每一列,每一行计算自相关系数,记为prow,pcol,:
式中,Ires(i,.)为残差图第i行的像素值,Ires(.,k)为残差图第k列的像素值;
步骤43,在均值和自相关系数的基础上提取统计特征,一共14个统计特征,分别为 的方差,偏度和峰度,记为prow、pcol的方差,偏度和峰度,记为σprow,σpcol,γ1prow,γ1pcol,γ2prow,γ2pcol:
其中,分别为prow、pcol的均值;
步骤44,提取残差图的信息熵的相关特征,将每一行,每一列的熵,分别记为
步骤45,计算残差图的每一列的值和每一列熵的相关系数,每一行的值和每一行熵的相关系数,分别记为qcol和qrow:
式中,Ires(i,.)为残差图第i行的像素值,Ires(.,k)为残差图第k列的像素值;
步骤46,对残差图的局部信息熵和全局信息熵提取特征,计算相关系数,均值,方差,偏度,峰度的14个统计特征;
其中,分别为qrow、qcol的均值;
步骤47,提取最后一个特征是关于prow,pcol的相对值,记为f29:
步骤5,通过分类器分类,判别文档图像所属的打印机。
2.根据权利要求1所述的一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,所述步骤2还包括对文档图像的倾斜做简单处理。
3.根据权利要求1所述的一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,步骤5中所述通过分类器分类,判别打印文档所属的打印机包括如下步骤:
在提取所有文档图像的特征的基础上,利用SVM对训练集进行训练,找出每种打印机的判别边界,然后对测试集中的文档图像进行判断。
4.根据权利要求1所述的一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,所述步骤2中,利用Tesseract OCR软件提取文档的文本行。
5.根据权利要求1所述的一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,所述步骤1中,利用扫描仪获取打印文档的文档图像。
6.根据权利要求1所述的一种基于傅里叶残差值的打印文档鉴别方法,其特征在于,步骤1获取的文档图像像素为400dpi。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710748676.2A CN107480728B (zh) | 2017-08-28 | 2017-08-28 | 一种基于傅里叶残差值的打印文件的鉴别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710748676.2A CN107480728B (zh) | 2017-08-28 | 2017-08-28 | 一种基于傅里叶残差值的打印文件的鉴别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107480728A CN107480728A (zh) | 2017-12-15 |
CN107480728B true CN107480728B (zh) | 2019-02-26 |
Family
ID=60602766
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710748676.2A Active CN107480728B (zh) | 2017-08-28 | 2017-08-28 | 一种基于傅里叶残差值的打印文件的鉴别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107480728B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110705546B (zh) * | 2019-09-06 | 2023-12-19 | 平安科技(深圳)有限公司 | 文本图像角度纠偏方法、装置及计算机可读存储介质 |
CN113012018B (zh) * | 2021-04-12 | 2022-02-25 | 中船重工汉光科技股份有限公司 | 一种隐形办公打印文本加密及解密方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289665A (zh) * | 2011-09-01 | 2011-12-21 | 华中师范大学 | 基于墨粉堆积纹理分析的打印文件鉴别方法 |
CN104732548A (zh) * | 2015-04-07 | 2015-06-24 | 武汉大学 | 一种基于纹理合成的打印文件鉴别方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR2916678B1 (fr) * | 2007-06-01 | 2021-07-16 | Advanced Track & Trace | Procede et dispositif de securisation de documents |
CN104700106B (zh) * | 2015-03-30 | 2018-01-23 | 武汉珞珈博研科技有限责任公司 | 一种基于信息挖掘与信息融合的打印文件鉴别方法 |
EP3107067A1 (en) * | 2015-06-16 | 2016-12-21 | Thomson Licensing | Method and apparatus for computing an estimate position of a micro-image produced by a micro-lens of an array of micro-lenses of an optical acquisition system |
CN105069458A (zh) * | 2015-07-29 | 2015-11-18 | 武汉理工大学 | 基于切比雪夫傅里叶矩的复杂Logo图案特征提取方法 |
-
2017
- 2017-08-28 CN CN201710748676.2A patent/CN107480728B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102289665A (zh) * | 2011-09-01 | 2011-12-21 | 华中师范大学 | 基于墨粉堆积纹理分析的打印文件鉴别方法 |
CN104732548A (zh) * | 2015-04-07 | 2015-06-24 | 武汉大学 | 一种基于纹理合成的打印文件鉴别方法 |
Non-Patent Citations (1)
Title |
---|
面向纸质文件的数字化被动取证研究;尚士泽;《中国博士学位论文全文数据库 社会科学Ⅰ辑》;20170315;全文 |
Also Published As
Publication number | Publication date |
---|---|
CN107480728A (zh) | 2017-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2004271639B2 (en) | Systems and methods for biometric identification using handwriting recognition | |
Bourlai et al. | Restoring degraded face images: A case study in matching faxed, printed, and scanned photos | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
CN102081731B (zh) | 一种从图像中提取文本的方法和装置 | |
Brink et al. | Towards robust writer verification by correcting unnatural slant | |
Tong et al. | Learning no-reference quality metric by examples | |
CN107480728B (zh) | 一种基于傅里叶残差值的打印文件的鉴别方法 | |
Wu et al. | Morphology-based text line extraction | |
Laadjel et al. | Combining Fisher locality preserving projections and passband DCT for efficient palmprint recognition | |
EP3547209A1 (en) | System and method of identifying an image containing an identification document | |
CN108197577B (zh) | 联合Sobel和MFRAT的指静脉图像特征提取方法 | |
Shivakumara et al. | A new RGB based fusion for forged IMEI number detection in mobile images | |
CN108921006B (zh) | 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法 | |
Khanna et al. | Intrinsic signatures for scanned documents forensics: effect of font shape and size | |
Jannoud | Automatic Arabic handwritten text recognition system | |
CN107609482B (zh) | 一种基于汉字笔画特征的中文文本图像倒置判别方法 | |
Wang et al. | Fourier-residual for printer identification | |
CN106599910B (zh) | 基于纹理重组的打印文件鉴别方法 | |
CN104732548A (zh) | 一种基于纹理合成的打印文件鉴别方法 | |
Khan et al. | Urdu optical character recognition technique using point feature matching; a generic approach | |
CN105844605A (zh) | 基于自适应表示的人脸画像合成方法 | |
Tsai et al. | Recognition of Vehicle License Plates from a Video Sequence. | |
Kavitha et al. | A robust script identification system for historical Indian document images | |
US20060171589A1 (en) | Grayscale character dictionary generation apparatus | |
Schreyer et al. | Intelligent Printing Technique Recognition and Photocopy Detection for Forensic Document Examination. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |