CN101118592A - 一种基于字符打印特征的打印机取证方法 - Google Patents
一种基于字符打印特征的打印机取证方法 Download PDFInfo
- Publication number
- CN101118592A CN101118592A CNA2007100125844A CN200710012584A CN101118592A CN 101118592 A CN101118592 A CN 101118592A CN A2007100125844 A CNA2007100125844 A CN A2007100125844A CN 200710012584 A CN200710012584 A CN 200710012584A CN 101118592 A CN101118592 A CN 101118592A
- Authority
- CN
- China
- Prior art keywords
- character
- printer
- characters
- document
- method based
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 238000012706 support-vector machine Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 13
- 239000011159 matrix material Substances 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims description 2
- 230000002159 abnormal effect Effects 0.000 claims 1
- 230000000694 effects Effects 0.000 abstract description 3
- 230000010365 information processing Effects 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000005516 engineering process Methods 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Image Analysis (AREA)
Abstract
本发明属于信号与信息处理技术领域,涉及到一种基于字符打印特征的打印机取证方法。其特征在于通过对待测文档提取计算得到的一页纸判断正确时需要的最少字符数,并对字符提取特征,用支持向量机进行分类识别,最终用投票的方法判决此文档的来源。本发明的效果和益处是只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性,可以有效地追查打印文本文档的来源。本发明适用于信息安全领域。
Description
技术领域
本发明属于信号与信息处理技术领域,涉及到文档的安全,特别涉及到一种基于字符打印特征的打印机取证方法。
背景技术
激光打印机已成为政府、公司和个人等组织和机构广泛使用的日常办公设备,而且打印文件是公文、票据和各种凭证的主要形式。为了达到各种利益目的,利用打印机进行违法犯罪活动呈逐年上升趋势,例如制作假合同、假发票、假税票、假证件,发表反动言论文章等等。这些犯罪活动不仅可能会引起公司之间的经济纠纷,而且可能会影响到政府部门正常的安全事务,甚至是国家的安全等一系列问题。此外,在日常生活中,普通用户也同样需要真实的打印文件,因为由伪造的打印文件引起的民事案件和纠纷也屡屡发生。诸如此类问题都需要从司法角度对打印文件进行检验,使之成为有效的法律证据。但是利用现代化的设备伪造的打印文件不仅具有一定的隐蔽性,发现难度大;而且对伪造文件的检验需要进行综合性、系统性分析,检验难度大。因此,研究打印机识别的文件检验技术具有非常重要的现实意义。
传统的文件检验主要是采用人工借助仪器的手段,存在分析仪器价格高,操作专业性,人工操作凭经验,有一定的主观性等特点,已严重滞后于当前形势的发展。已有的利用计算机等常用电子设备进行打印机取证的研究主要是利用数字水印的主动取证技术。国外已有文献利用数字图像处理技术进行打印机的被动取证研究,但目前尚处于实验阶段,尤其是对于打印输出相对较多的文本文件的被动取证工作才刚刚开始。美国的普度大学是现在打印机取证技术的主要研究机构之一,发表文献中有很好的实验结果。
文献(G.N.Ali,P.-J.Chiang,A.K.Mikkilineni,G.T.-C.Chiu,E.J.Delp,and J.P.Allebach,“Application of principal components analysis and gaussian mixturemodels to printer identification,”Proceedings of the IS&T’s NIP20:InternationalConference on Digital Printing Technologies,vol.20,Salt Lake City,UT,October/November 2004,pp.301-305.)认为打印机分类与各种模式识别技术相近,基本思想都是从打印文件中找到每台打印机特有的特征,然后进行分类。于是作者利用PCA技术把从字符得到的特征进行降维,然后用混合高斯模型和树型分类的方法来区分打印机,但是实验结果表明5台打印机判决正确4台,而且字符识别正确率较低。文献(Mikkilineni AK,Chiang P-J,Ali GN,Chiu GT-C,Allebach JP Delp EJ.Printer identification based on graylevel co-occurrence featuresfor security and forensic applications.In:Proceedings of the SPIE InternationalConference on Security,Steganography,and Watermarking of Multimedia ContentsVII,vol.5681.San Jose,CA;March 2005.p.430-40;A.K.Mikkilineni,O.Arslan,P.-J.Chiang,R.M.Kumontoy,J.P.Allebach,G.T.-C.Chiu,and E.J.Delp,“Printerforensics using svm techniques,”Proceedings of the IS&T’s NIP21:InternationalConference on Digital Printing Technologies,vol.21,Baltimore,MD,October 2005,pp.223-226.)利用共生矩阵对字符“e”进行纹理描述,提取其统计特征作为分类的依据。作者尝试用纹理描述的手段抓住每台打印机独有的“条带”频率特性,从而区分不同的打印机。实验结果表明,10台打印机都能判决正确,平均字符识别正确率为93.2%。
但是上述文献所提方法特征提取计算复杂度高,而且只能针对特定的字符,比如对于英文文档只能对字符“e”进行特征提取,作为判决的依据;如果扩展到中文,就只能针对汉字“的”这样频率出现高的字符。所以当待测打印文件所含字符较少或没有原先训练所用的高频字符(比如字符“e”)时,这种方法就会失效。以上不足制约了其实用性和扩展性。
发明内容
本发明的目的是针对现有技术的不足,提供了一种基于字符打印特征的打印机取证方法。该方法通过对待测打印文本文件,分割提取单个字符,并对每一个字符提取特征,然后用支持向量机分类识别得到混淆矩阵,最后采用投票的原则判定测试文档的源打印机,即追查到此打印文本文件的来源。本方法把待测文档中的任意字符都作为判决单元,解决了目前基于特定字符的打印机取证方法在文档字符较少或没有训练的字符时会失效的问题。
为了达到以上目的,本发明采用的技术方案是:一种基于字符打印特征的打印机取证方法,包括以下步骤:
步骤1对需要取证的每台打印机打印相同的样本:一页由50个一级常用汉字组成的约1400个字符的文档,用于训练;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。
步骤2对每一个样本扫描,提取单个字符:所有样本都是用同一台扫描仪扫描成数字图像,分辨率为600dpi,保存为灰度BMP图;提取的字符尽量没有倾斜,边框边缘尽量与字符边缘相切。
步骤3对每一个字符提取特征量:字符打印区域平均能量、字符打印区域的灰度值熵、字符打印区域的灰度值方差、字符噪声图像的一阶矩均值、字符噪声图像的二阶矩均值、字符模糊度。
步骤4用支持向量机(SVM)训练得到最优模型:对一页由50个一级常用汉字组成的约1400个字符的文档进行训练;通过网格搜索和交叉校验得到SVM最优分类参数C和γ,利用最优分类参数得到最优模型。
步骤5对设计的样本进行测试,得到每台打印机的平均字符分类正确率:对7页由所有一级常用汉字组成的约10000个字符的文档进行测试;测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。
步骤6计算每台打印机取证需要的最少字符数:用需要取证的每台打印机平均字符分类正确率计算每台打印机取证需要的最少字符数。具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸
最终判断正确的概率为: 这样得到每一张纸正确判断需要的
理想最少字符数,即当 时,m的最小值。
步骤7对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源:测试文档提取的字符中有一半以上判断为训练集合中的A打印机打印,则认为此文档来源于A打印机。
本发明的效果和益处是,采用本发明所述的方法,只要对待测文档提取少量任意中文字符就能正确判决此文档的源打印机,可以大大减少取证时间;而且本发明所提字符特征使每台打印机的字符分类正确率非常高,从而增强了取证的可靠性。
本发明所述方法可以应用于司法部门在特定范围内追查打印文本文档的来源,具有较高的实用价值。
附图说明
图1是中文字符打印扫描图。
图2是中文字符由二值化阈值限定的ROI图。
图3是中文字符由二值化阈值限定的ROB图。
图4是打印机取证的系统框图。
具体实施方式
以下结合技术方案和附图,详细叙述本发明的具体实施方式。
如图4所示,一种基于字符打印特征的打印机取证方法,包括以下步骤:
1.对需要取证的每台打印机打印相同的样本
每台打印机打印一页由50个一级常用汉字均匀分布组成的约1400个字符的文档用于训练,这50个汉字可以从3375个一级常用汉字中随机挑选得到;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率。7页测试文档中3375个一级常用字符平均分布,每个字出现频率为3次。这8页设计的样本需要每台打印机相同设置模式下一次正常打印输出,中间没有其他打印输出。样本的字体,字号需要与待测文本文档一样,比如都是宋体,小四。每台打印机采用相同类型的纸张用于样本打印,而且尽量与待测文档质量相近的纸张类型。
2.对每一个样本扫描,提取单个字符
所有的样本和待测文档都是用同一台扫描仪扫描生成数字图像,分辨率设置为600dpi,保存为灰度BMP图。扫描时尽量保证纸张没有倾斜,提取的单个字符边框尽量与字符边缘相切。
3.对每一个字符提取特征量
图1给出的是打印扫描后一个中文字符例子。图2为图1经过处理得到的图像,其中灰色部分为感兴趣区域ROI,也即为提取特征的区域,由自适应二值化阈值限定,注意对原始图像进行二值化是为找到理想字符的打印边界,得到的图2是图1的一部分,而不是二值化后的图像。这里定义图2为图像I,ROI区域像素总数为N。图3为图1去掉图2以后剩余部分,其中灰色区域为模糊区域ROB。
a.字符打印区域平均能量:
b.字符打印区域的灰度值熵:
其中 m为像素灰度值。
c.字符打印区域的灰度值方差:
其中μ为ROI区域灰度的均值,
d.对字符图像进行3×3高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值。Iorig表示原始图像(图1),If表示滤波后的图像,此时字符图像中的感兴趣区域ROI′为Iorigij<255像素集合,则噪声图像的一阶矩均值为
同理噪声图像的二阶矩均值为
其中
e.字符模糊度:
4.用支持向量机(SVM)训练得到最优模型
针对由50个一级常用汉字组成的约1400字符的文档,以支持向量机(SVM)为分类器,输入每一个字符的特征向量进行训练。这里我们使用的是LIBSVM,选择C-SVC,非线性的径向基函数(RBF)作为核函数,通过网格搜索和交叉校验得到最优分类参数C和γ,利用最优分类参数得到最优模型,其中参数C的网格搜索范围为{2-5,2-4,…,25},参数γ的网格搜索范围为{2-5,2-4,…,23},交叉校验的v=5。
5.对设计的样本进行测试,得到每台打印机的平均字符分类正确率
用上一步得到的SVM最优模型对7页由所有一级常用汉字组成的约10000个字符的文档进行测试,测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。在用SVM训练和测试时,需要对特征向量数据进行归一化。
6.计算每台打印机取证需要的最少字符数
具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,我们认为这张纸就是判断正确的,这样一张纸最终判断正确的概率为: 这样得到每一张纸正确判断需要的理想最少字符数,即当 时,m的最小值。
7.对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源
经过步骤(6)每台打印机部可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数。设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测。依据投票原则,这些预测的字符中有一半以上判决为A打印机,则我们认为此待测文档为A打印机所打印。理想情况下对待测文档提取mmax个字符就能判断正确,但是为了取证的可靠性,一般情况下还是提取尽可能多的字符作为判决的依据,这是取证可靠性和取证效率的一个折中。我们提出的mmax,是在尽可能保证取证可靠性的前提下,减少取证的时间。
上述步骤只是一个优选的实施方案。本领域技术人员不难得出其他的实施方法而不违背本发明的总体思想。
其中,对于训练样本可以选择更多的汉字等。
Claims (8)
1.一种基于字符打印特征的打印机取证方法,其特征是:对需要取证的每台打印机打印相同的样本;对每一个样本扫描,提取单个字符;对每一个字符提取特征量;用支持向量机(SVM)训练得到最优模型;对设计的样本进行测试,得到每台打印机的平均字符分类正确率;计算每台打印机取证需要的最少字符数;对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源。
2.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是每台打印机打印相同的训练样本:一页由50个一级常用汉字组成的约1400个字符的文档,用于训练;7页由所有一级常用汉字组成的约10000个字符的文档,用于测试计算每台打印机的平均字符分类正确率;7页测试文档中3375个一级常用字符平均分布,每个字出现频率为3次;样本文档都是相同字体,相同字号;而且是一次正常打印输出。
3.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是所有的样本和待测文档都是用同一台扫描仪扫描生成数字图像,分辨率设置为600dpi,保存为灰度BMP图。
4.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是对每个字符提取以下6个特征量:
S4-1.字符打印区域的平均能量: N为图像I(图2)ROI区域像素总数;
S4-2.字符打印区域的灰度熵: 其中 m为像素灰度值;
S4-3.字符打印区域的灰度值方差: 其中μ为均值,
S4-4.对字符图像进行高斯滤波,计算噪声图像的一阶矩均值和二阶矩均值:I表示原始图像,If表示滤波后的图像,此时字符图像中感兴趣区域ROI′为Iij<255像素集合,则噪声图像的一阶矩均值为 同理噪声图像的二阶矩均值为 其中
S4-5.字符模糊度: 即非正常打印区域像素个数占打印像素的比率,ROB为图3中灰色区域。
5.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是针对由50个一级常用汉字组成的约1400字符的文档,以SVM为分类器,输入每一个字符的特征向量进行训练,通过网格搜索和交叉校验得到最优分类参数C和γ,利用最优分类参数得到最优模型。
6.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是用权利要求5得到的SVM最优模型对7页由所有一级常用汉字组成的约10000个字符的文档进行测试,测试得到混淆矩阵后计算每台打印机的平均字符分类正确率。
7.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是计算每台打印机取证需要的最少字符数,具体计算过程为:设一张纸上有n个字符,每个字符的平均判断正确的概率为p,当一张纸上有一半以上的字符判断正确时,则这张纸就是判断正确的,这样一张纸最终判断正确的概率为: 这样得到每一张纸正确判断需要的理想最少字符数,即
当 时,m的最小值。
8.根据权利要求1所述的一种基于字符打印特征的打印机取证方法,其特征是对待测文档提取最少字符数,用SVM进行预测,判定此文档的来源;由权利要求7所述,每台打印机都可以计算得到一个m值,即正确判断一张纸需要的理想最少字符数;设这些m值中,最大的m值为mmax,对待测文档提取mmax个字符用于SVM预测,依据投票原则,这些预测的字符中有一半以上判决为A打印机,则此待测文档为A打印机所打印。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100125844A CN101118592B (zh) | 2007-08-22 | 2007-08-22 | 一种基于字符打印特征的打印机取证方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007100125844A CN101118592B (zh) | 2007-08-22 | 2007-08-22 | 一种基于字符打印特征的打印机取证方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101118592A true CN101118592A (zh) | 2008-02-06 |
CN101118592B CN101118592B (zh) | 2011-07-20 |
Family
ID=39054702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007100125844A Expired - Fee Related CN101118592B (zh) | 2007-08-22 | 2007-08-22 | 一种基于字符打印特征的打印机取证方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101118592B (zh) |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587540B (zh) * | 2009-04-16 | 2011-08-03 | 大连理工大学 | 一种利用页面文档几何失真检测文档来源的打印机取证方法 |
CN102289665A (zh) * | 2011-09-01 | 2011-12-21 | 华中师范大学 | 基于墨粉堆积纹理分析的打印文件鉴别方法 |
CN102646194A (zh) * | 2012-02-22 | 2012-08-22 | 大连理工大学 | 一种利用字符边缘特征进行打印机类型取证的方法 |
CN103748866A (zh) * | 2011-08-24 | 2014-04-23 | 惠普发展公司,有限责任合伙企业 | 取证鉴定系统和方法 |
CN108109124A (zh) * | 2017-12-27 | 2018-06-01 | 北京诸葛找房信息技术有限公司 | 基于深度学习的不定位置图片水印修复方法 |
CN108846307A (zh) * | 2018-04-12 | 2018-11-20 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
CN116051490A (zh) * | 2022-12-30 | 2023-05-02 | 北京辰光融信技术有限公司 | 文档打印质量检测方法、打印装置、电子设备和储存介质 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN100363945C (zh) * | 2005-08-10 | 2008-01-23 | 北京北大方正电子有限公司 | 一种基于预览图的彩色页面快速识别的方法 |
CN1986226A (zh) * | 2005-12-19 | 2007-06-27 | 研能科技股份有限公司 | 打印芯片识别电路 |
-
2007
- 2007-08-22 CN CN2007100125844A patent/CN101118592B/zh not_active Expired - Fee Related
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101587540B (zh) * | 2009-04-16 | 2011-08-03 | 大连理工大学 | 一种利用页面文档几何失真检测文档来源的打印机取证方法 |
CN103748866A (zh) * | 2011-08-24 | 2014-04-23 | 惠普发展公司,有限责任合伙企业 | 取证鉴定系统和方法 |
CN103748866B (zh) * | 2011-08-24 | 2017-06-09 | 惠普发展公司,有限责任合伙企业 | 取证鉴定系统和方法 |
CN102289665A (zh) * | 2011-09-01 | 2011-12-21 | 华中师范大学 | 基于墨粉堆积纹理分析的打印文件鉴别方法 |
CN102646194A (zh) * | 2012-02-22 | 2012-08-22 | 大连理工大学 | 一种利用字符边缘特征进行打印机类型取证的方法 |
CN108109124A (zh) * | 2017-12-27 | 2018-06-01 | 北京诸葛找房信息技术有限公司 | 基于深度学习的不定位置图片水印修复方法 |
CN108846307A (zh) * | 2018-04-12 | 2018-11-20 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
CN108846307B (zh) * | 2018-04-12 | 2021-12-28 | 中南大学 | 一种基于波形图像的微震与爆破事件识别方法 |
CN116051490A (zh) * | 2022-12-30 | 2023-05-02 | 北京辰光融信技术有限公司 | 文档打印质量检测方法、打印装置、电子设备和储存介质 |
CN116051490B (zh) * | 2022-12-30 | 2023-06-20 | 北京辰光融信技术有限公司 | 文档打印质量检测方法、打印装置、电子设备和储存介质 |
Also Published As
Publication number | Publication date |
---|---|
CN101118592B (zh) | 2011-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Elkasrawi et al. | Printer identification using supervised learning for document forgery detection | |
Gebhardt et al. | Document authentication using printing technique features and unsupervised anomaly detection | |
US9542752B2 (en) | Document image compression method and its application in document authentication | |
US9596378B2 (en) | Method and apparatus for authenticating printed documents that contains both dark and halftone text | |
CN101118592A (zh) | 一种基于字符打印特征的打印机取证方法 | |
Joshi et al. | Single classifier-based passive system for source printer classification using local texture features | |
JP2012109941A (ja) | ハーフトーンパターンで印刷されたグレーまたは淡色テキストを含む、スキャンされた文書画像を2値化するための方法 | |
US8903155B2 (en) | Optical waveform generation and use based on print characteristics for MICR data of paper documents | |
Nandanwar et al. | A new method for detecting altered text in document images | |
Nayak et al. | Automatic number plate recognition | |
Ryu et al. | Document forgery detection with SVM classifier and image quality measures | |
Wu et al. | A printer forensics method using halftone dot arrangement model | |
Chhabra et al. | Detecting fraudulent bank checks | |
Wang et al. | Fourier-residual for printer identification | |
Eskenazi et al. | When document security brings new challenges to document analysis | |
Gaikwad et al. | Automatic Indian New Fake Currency Detection | |
CN101854461B (zh) | 一种利用半色调信息检测文档真实性的打印文档取证方法 | |
Deng et al. | Printer identification based on distance transform | |
Ueda et al. | Automatic seal imprint verification system for bank check processing | |
Patgar et al. | An unsupervised intelligent system to detect fabrication in photocopy document using geometric moments and gray level co-occurrence matrix | |
Swami et al. | Currency recognition and fake currency identification using image processing | |
Bashir et al. | Techniques of detecting forgery in identity documents | |
van Beusekom et al. | Lessons learned from automatic forgery detection in over 100,000 invoices | |
Patgar et al. | An unsupervised intelligent system to detect fabrication in photocopy document using Variations in Bounding Box Features | |
Hasan | New Method to Detect Text Fabrication in Scanned Documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20110720 Termination date: 20150822 |
|
EXPY | Termination of patent right or utility model |