CN101118592B - 一种基于字符打印特征的打印机取证方法 - Google Patents

一种基于字符打印特征的打印机取证方法 Download PDF

Info

Publication number
CN101118592B
CN101118592B CN2007100125844A CN200710012584A CN101118592B CN 101118592 B CN101118592 B CN 101118592B CN 2007100125844 A CN2007100125844 A CN 2007100125844A CN 200710012584 A CN200710012584 A CN 200710012584A CN 101118592 B CN101118592 B CN 101118592B
Authority
CN
China
Prior art keywords
character
document
printer
characters
paper
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2007100125844A
Other languages
English (en)
Other versions
CN101118592A (zh
Inventor
孔祥维
沈林杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dalian University of Technology
Original Assignee
Dalian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dalian University of Technology filed Critical Dalian University of Technology
Priority to CN2007100125844A priority Critical patent/CN101118592B/zh
Publication of CN101118592A publication Critical patent/CN101118592A/zh
Application granted granted Critical
Publication of CN101118592B publication Critical patent/CN101118592B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本方明属于信号与信息处理技术领域,涉及到一种基于字符打印特征的打印机取证方法。其特征在于通过对待测文档提取计算得到的一页纸判断正确时需要的最少字符数,并对字符提取特征,用支持向量机进行分类识别,最终用投票的方法判决此文档的来源。本发明的效果和益处是只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性,可以有效地追查打印文本文档的来源。本发明适用于信息安全领域。

Description

一种基于字符打印特征的打印机取证方法
技术领域
本发明属于信号与信息处理技术领域,涉及到文档的安全,特别涉及到一种基于字符打印特征的打印机取证方法。
背景技术
激光打印机已成为政府、公司和个人等组织和机构广泛使用的日常办公设备,而且打印文件是公文、票据和各种凭证的主要形式。为了达到各种利益目的,利用打印机进行违法犯罪活动呈逐年上升趋势,例如制作假合同、假发票、假税票、假证件,发表反动言论文章等等。这些犯罪活动不仅可能会引起公司之间的经济纠纷,而且可能会影响到政府部门正常的安全事务,甚至是国家的安全等一系列问题。此外,在日常生活中,普通用户也同样需要真实的打印文件,因为由伪造的打印文件引起的民事案件和纠纷也屡屡发生。诸如此类问题都需要从司法角度对打印文件进行检验,使之成为有效的法律证据。但是利用现代化的设备伪造的打印文件不仅具有一定的隐蔽性,发现难度大;而且对伪造文件的检验需要进行综合性、系统性分析,检验难度大。因此,研究打印机识别的文件检验技术具有非常重要的现实意义。
传统的文件检验主要是采用人工借助仪器的手段,存在分析仪器价格高,操作专业性,人工操作凭经验,有一定的主观性等特点,已严重滞后于当前形势的发展。已有的利用计算机等常用电子设备进行打印机取证的研究主要是利用数字水印的主动取证技术。国外已有文献利用数字图像处理技术进行打印机的被动取证研究,但目前尚处于实验阶段,尤其是对于打印输出相对较多的文本文件的被动取证工作才刚刚开始。美国的普度大学是现在打印机取证技术的主要研究机构之一,发表文献中有很好的实验结果。
文献(G.N.Ali,P.-J.Chiang,A.K.Mikkilineni,G.T.-C.Chiu,E.J.Delp,and J.P.Allebach,“Application of principal components analysis and gaussian mixturemodels to printer identification,”Proceedings of the IS&T’s NIP20:InternationalConference on Digital Printing Technologies,vol.20,Salt Lake City,UT,October/November 2004,pp.301-305.)认为打印机分类与各种模式识别技术相近,基本思想都是从打印文件中找到每台打印机特有的特征,然后进行分类。于是作者利用PCA技术把从字符得到的特征进行降维,然后用混合高斯模型和树型分类的方法来区分打印机,但是实验结果表明5台打印机判决正确4台,而且字符识别正确率较低。文献(Mikkilineni AK,Chiang P-J,Ali GN,Chiu GT-C,Allebach JP.Delp EJ.Printer identification based on graylevel co-occurrence featuresfor security and forensic applications.In:Proceedings of the SPIE InternationalConference on Security,Steganography,and Watermarking of Multimedia ContentsVII,vol.5681.San Jose,CA;March 2005.p.430-40;A.K.Mikkilineni,O.Arslan,P.-J.Chiang,R.M.Kumontoy,J.P.Allebach,G.T.-C.Chiu,and E.J.Delp,“Printerforensics using svm techniques,”Proceedings of the IS&T’s NIP21:InternationalConference on Digital Printing Technologies,vol.21,Baltimore,MD,October 2005,pp.223-226.)利用共生矩阵对字符“e”进行纹理描述,提取其统计特征作为分类的依据。作者尝试用纹理描述的手段抓住每台打印机独有的“条带”频率特性,从而区分不同的打印机。实验结果表明,10台打印机都能判决正确,平均字符识别正确率为93.2%。
但是上述文献所提方法特征提取计算复杂度高,而且只能针对特定的字符,比如对于英文文档只能对字符“e”进行特征提取,作为判决的依据;如果扩展到中文,就只能针对汉字“的”这样频率出现高的字符。所以当待测打印文件所含字符较少或没有原先训练所用的高频字符(比如字符“e”)时,这种方法就会失效。以上不足制约了其实用性和扩展性。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于字符打印特征的打印机取证方法。该方法通过对待测打印文本文件,分割提取单个字符,并对每一个字符提取特征,然后用支持向量机分类识别得到混淆矩阵,最后采用投票的原则判定测试文档的源打印机,即追查到此打印文本文件的来源。本方法把待测文档中的任意字符都作为判决单元,解决了目前基于特定字符的打印机取证方法在文档字符较少或没有训练的字符时会失效的问题。
为了达到以上目的,本发明采用的技术方案是:一种基于字符打印特征的打印机取证方法,包括以下步骤:
步骤1对需要取证的每台打印机打印相同的样本:一页由50个一级常用汉字组成的约1400个字符的文档,用于训练;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。
步骤2对每一个样本扫描,提取单个字符:所有样本都是用同一台扫描仪扫描成数字图像,分辨率为600dpi,保存为灰度BMP图;提取的字符尽量没有倾斜,边框边缘尽量与字符边缘相切。
步骤3  对每一个字符提取特征量:字符打印区域平均能量、字符打印区域的灰度值熵、字符打印区域的灰度值方差、字符噪声图像的一阶矩均值、字符噪声图像的二阶矩均值、字符模糊度。
步骤4用支持向量机(SVM)训练得到最优模型:对一页由50个一级常用汉字组成的约1400个字符的文档进行训练;通过网格搜索和交叉校验得到SVM最优分类参数C和γ,利用最优分类参数得到最优模型。
步骤5对设计的样本进行测试,得到每台打印机的平均字符分类正确率:对7页由所有一级常用汉字组成的约10000个字符的文档进行测试;测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。
步骤6计算每台打印机取证需要的最少字符数:用需要取证的每台打印机平均字符分类正确率计算每台打印机取证需要的最少字符数。具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸最终判断正确的概率为: Σ m = n / 2 + 1 n C n m p m ( 1 - p ) n - m , 这样得到每一张纸正确判断需要的理想最少字符数,即当 Σ m = n / 2 + 1 n C n m p m ( 1 - p ) n - m = 1 时,m的最小值。
步骤7对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源:测试文档提取的字符中有一半以上判断为训练集合中的A打印机打印,则认为此文档来源于A打印机。
本发明的效果和益处是,采用本发明所述的方法,只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性。
本发明所述方法可以应用于司法部门在特定范围内追查打印文本文档的来源,具有较高的实用价值。
附图说明
图1是中文字符打印扫描图。
图2是中文字符由二值化阈值限定的ROI图。
图3是中文字符由二值化阈值限定的ROB图。
图4是打印机取证的系统框图。
具体实施方式
以下结合技术方案和附图,详细叙述本发明的具体实施方式。
如图4所示,一种基于字符打印特征的打印机取证方法,包括以下步骤:
1.对需要取证的每台打印机打印相同的样本
每台打印机打印一页由50个一级常用汉字均匀分布组成的约1400个字符的文档用于训练,这50个汉字可以从3375个一级常用汉字中随机挑选得到;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。7页测试文档中3375个一级常用字符平均分布,每个字出现频率为3次。这8页设计的样本需要每台打印机相同设置模式下一次正常打印输出,中间没有其他打印输出。样本的字体,字号需要与待测文本文档一样,比如都是宋体,小四。每台打印机采用相同类型的纸张用于样本打印,而且尽量与待测文档质量相近的纸张类型。
2.对每一个样本扫描,提取单个字符
所有的样本和待测文档都是用同一台扫描仪扫描生成数字图像,分辨率设置为600dpi,保存为灰度BMP图。扫描时尽量保证纸张没有倾斜,提取的单个字符边框尽量与字符边缘相切。
3.对每一个字符提取特征量
图1给出的是打印扫描后一个中文字符例子。图2为图1经过处理得到的图像,其中灰色部分为感兴趣区域ROI,也即为提取特征的区域,由自适应二值化阈值限定,注意对原始图像进行二值化是为找到理想字符的打印边界,得到的图2是图1的一部分,而不是二值化后的图像。这里定义图2为图像I,ROI区域像素总数为N。图3为图1去掉图2以后剩余部分,其中灰色区域为模糊区域ROB。
a.字符打印区域平均能量:
E = 1 N Σ i , j ∈ ROI I i , j 2 - - - ( 1 )
b.字符打印区域的灰度值熵:
h = - Σ m = 0 255 ( h m / N ) * log 2 ( h m / N ) - - - ( 2 )
其中 h m = Σ i , j ∈ ROI , I i , j = m 1 , m为像素灰度值。
c.字符打印区域的灰度值方差:
σ 2 = 1 N Σ i , j ∈ ROI ( I i , j - μ ) 2 - - - ( 3 )
其中μ为ROI区域灰度的均值, μ = 1 N Σ i , j ∈ ROI I i , j ·
d.对字符图像进行3×3高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值。Iorig表示原始图像(图1),If表示滤波后的图像,此时字符图像中的感兴趣区域ROI′为Iorigij<255像素集合,则噪声图像的一阶矩均值为
ϵ = 1 R Σ i , j ∈ ROI ′ | Iorig ij - If ij | - - - ( 4 )
同理噪声图像的二阶矩均值为
ϵ 2 = ( 1 R Σ i , j ∈ ROI ′ | Iorig ij - If ij | 2 ) 1 / 2 - - - ( 5 )
其中 R = Σ i , j ∈ ROI ′ 1 ·
e.字符模糊度:
r = Σ i , j ∈ ROB 1 / Σ i , j ∈ ROI ′ 1 - - - ( 6 )
4.用支持向量机(SVM)训练得到最优模型
针对由50个一级常用汉字组成的约1400字符的文档,以支持向量机(SVM)为分类器,输入每一个字符的特征向量进行训练。这里我们使用的是LIBSVM,选择C-SVC,非线性的径向基函数(RBF)作为核函数,通过网格搜索和交叉校验得到最优分类参数C和γ,利用最优分类参数得到最优模型,其中参数C的网格搜索范围为{2-5,2-4,…,25},参数γ的网格搜索范围为{2-5,2-4,…,23},交叉校验的v=5。
5.对设计的样本进行测试,得到每台打印机的平均字符分类正确率
用上一步得到的SVM最优模型对7页由所有一级常用汉字组成的约10000个字符的文档进行测试,测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。在用SVM训练和测试时,需要对特征向量数据进行归一化。
6.计算每台打印机取证需要的最少字符数
具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸最终判断正确的概率为: Σ m = n / 2 + 1 n C n m p m ( 1 - p ) n - m , 这样得到每一张纸正确判断需要的理想最少字符数,即当 Σ m = n / 2 + 1 n C n m p m ( 1 - p ) n - m = 1 时,m的最小值。
7.对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源
经过步骤(6)每台打印机都可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数。设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测。依据投票原则,这些预测的字符中有一半以上判决为A打印机,则我们认为此待测文档为A打印机所打印。理想情况下对待测文档提取mmax个字符就能判断正确,但是为了取证的可靠性,一般情况下还是提取尽可能多的字符作为判决的依据,这是取证可靠性和取证效率的一个折中。我们提出的mmax,是在尽可能保证取证可靠性的前提下,减少取证的时间。
上述步骤只是一个优选的实施方案。本领域技术人员不难得出其他的实施方法而不违背本发明的总体思想。
其中,对于训练样本可以选择更多的汉字等。

Claims (2)

1.一种基于字符打印特征的打印机取证方法,其特征在于从待取证的打印文档样本的单个字符中提取了6个字符打印特征量,使用支持向量机SVM训练这些特征量,并依据每个字符的分类正确率计算每台打印机取证时所需要的最少字符数,最后从待取证文档中提取该数量的字符,使用支持向量机SVM进行分类,确定文档的打印机来源;其中上述方法中对单个字符提取以下6个字符打印特征量:
S2-1.字符打印区域的平均能量:
Figure FSB00000496103200011
N为经过处理得到的字符图像的感兴趣区域ROI区域像素总数;
S2-2.字符打印区域的灰度熵:
Figure FSB00000496103200012
其中
Figure FSB00000496103200013
m为像素灰度值;
S2-3.字符打印区域的灰度值方差:
Figure FSB00000496103200014
其中μ为均值, μ = 1 N Σ i , j ∈ ROI I i , j ;
S2-4.对字符图像进行高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值:I表示原始图像,If表示滤波后的图像,此时字符图像中感兴趣区域ROI′为Iij<255像素集合,则噪声图像的一阶矩均值为
Figure FSB00000496103200016
同理噪声图像的二阶矩均值为
Figure FSB00000496103200017
其中
Figure FSB00000496103200018
S2-5.字符模糊度:
Figure FSB00000496103200019
即非正常打印区域像素个数占打印像素的比率,ROB为字符图像的原始图像去掉经过处理得到的字符图像后的剩余部分中灰色区域。
2.一种基于字符打印特征的打印机取证方法,其特征在于从待取证的打印文档样本的单个字符中提取了6个字符打印特征量,使用支持向量机SVM训练这些特征量,并依据每个字符的分类正确率计算每台打印机取证时所需要的最少字符数,最后从待取证文档中提取该数量的字符,使用支持向量机SVM进行分类,确定文档的打印机来源;其中上述方法中计算每台打印机取证需要的最少字符数,具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,则这张纸就是判断正确的,这样一张纸最终判断正确的概率为:
Figure FSB00000496103200021
这样得到每一张纸正确判断需要的理想最少字符数,即当
Figure FSB00000496103200022
时,m的最小值;上述方法中每台打印机都可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数;设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测,依据投票原则,这些预测的字符中有一半以上判决为A打印机,则此待测文档为A打印机所打印。
CN2007100125844A 2007-08-22 2007-08-22 一种基于字符打印特征的打印机取证方法 Expired - Fee Related CN101118592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007100125844A CN101118592B (zh) 2007-08-22 2007-08-22 一种基于字符打印特征的打印机取证方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007100125844A CN101118592B (zh) 2007-08-22 2007-08-22 一种基于字符打印特征的打印机取证方法

Publications (2)

Publication Number Publication Date
CN101118592A CN101118592A (zh) 2008-02-06
CN101118592B true CN101118592B (zh) 2011-07-20

Family

ID=39054702

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007100125844A Expired - Fee Related CN101118592B (zh) 2007-08-22 2007-08-22 一种基于字符打印特征的打印机取证方法

Country Status (1)

Country Link
CN (1) CN101118592B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101587540B (zh) * 2009-04-16 2011-08-03 大连理工大学 一种利用页面文档几何失真检测文档来源的打印机取证方法
WO2013028185A1 (en) * 2011-08-24 2013-02-28 Hewlett-Packard Development Company, L.P. Forensic authentication system and method
CN102289665B (zh) * 2011-09-01 2012-12-19 华中师范大学 基于墨粉堆积纹理分析的打印文件鉴别方法
CN102646194B (zh) * 2012-02-22 2013-10-16 大连理工大学 一种利用字符边缘特征进行打印机类型取证的方法
CN108109124A (zh) * 2017-12-27 2018-06-01 北京诸葛找房信息技术有限公司 基于深度学习的不定位置图片水印修复方法
CN108846307B (zh) * 2018-04-12 2021-12-28 中南大学 一种基于波形图像的微震与爆破事件识别方法
CN116051490B (zh) * 2022-12-30 2023-06-20 北京辰光融信技术有限公司 文档打印质量检测方法、打印装置、电子设备和储存介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731423A (zh) * 2005-08-10 2006-02-08 北京北大方正电子有限公司 一种基于预览图的彩色页面快速识别的方法
CN1986226A (zh) * 2005-12-19 2007-06-27 研能科技股份有限公司 打印芯片识别电路

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1731423A (zh) * 2005-08-10 2006-02-08 北京北大方正电子有限公司 一种基于预览图的彩色页面快速识别的方法
CN1986226A (zh) * 2005-12-19 2007-06-27 研能科技股份有限公司 打印芯片识别电路

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Aravind K.Mikkilineni, Osman Arsian, Pei-Ju Chiang,RoyM.Kumontoy, Jan P.Allebach, George T.-C.Chiu,EdwardJ.Delp.Printer Forensics Using SVM Techniques.21st International Conference on Digital Printing Technologies Final Program and Proceedings.2005,21223-226. *

Also Published As

Publication number Publication date
CN101118592A (zh) 2008-02-06

Similar Documents

Publication Publication Date Title
CN101118592B (zh) 一种基于字符打印特征的打印机取证方法
CN101894260B (zh) 基于匹配特征点随机生成特征线的伪造印章识别方法
Elkasrawi et al. Printer identification using supervised learning for document forgery detection
CN104200561B (zh) 一种基于纹理特征识别具有字迹污损人民币的方法
Sharma et al. Character recognition using neural network
Blando et al. Prediction of OCR accuracy using simple image features
CN101739549B (zh) 人脸检测方法及系统
CN107392136B (zh) 一种基于特征自适应震荡衰减的签名真伪性鉴别系统
CN102254196A (zh) 计算机鉴别手写汉字的方法
Pinthong et al. License plate tracking based on template matching technique
Pal et al. Off-line Bangla signature verification
US11961094B2 (en) Fraud detection via automated handwriting clustering
CN101587540B (zh) 一种利用页面文档几何失真检测文档来源的打印机取证方法
Nandanwar et al. A new method for detecting altered text in document images
Venu An Automatic recognition system of fake Indian currency notes detection using Image processing analysis
CN104537654B (zh) 利用半色调点位置失真打印图像篡改取证方法
Wang et al. Fourier-residual for printer identification
Chhabra et al. Detecting fraudulent bank checks
CN104239895A (zh) 基于特征降维的sar目标鉴别方法
Rahmad et al. Authenticity of money using the method KNN (K-Nearest Neighbor) and CNN (Convolutional Neural Network)
Ueda et al. Automatic seal imprint verification system for bank check processing
CN101854461B (zh) 一种利用半色调信息检测文档真实性的打印文档取证方法
Tangwannawit et al. Recognition of lottery digits using OCR technology
Singh et al. Number plate recognition through image using morphological algorithm
Patgar et al. An unsupervised intelligent system to detect fabrication in photocopy document using geometric moments and gray level co-occurrence matrix

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110720

Termination date: 20150822

EXPY Termination of patent right or utility model