CN102646194A - 一种利用字符边缘特征进行打印机类型取证的方法 - Google Patents
一种利用字符边缘特征进行打印机类型取证的方法 Download PDFInfo
- Publication number
- CN102646194A CN102646194A CN2012100410558A CN201210041055A CN102646194A CN 102646194 A CN102646194 A CN 102646194A CN 2012100410558 A CN2012100410558 A CN 2012100410558A CN 201210041055 A CN201210041055 A CN 201210041055A CN 102646194 A CN102646194 A CN 102646194A
- Authority
- CN
- China
- Prior art keywords
- character
- edge
- printer
- normal vector
- utilizing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
一种利用字符边缘特征进行打印机类型取证的方法,属于信号与信息处理技术领域。其特征是利用打印字符边缘特征判断打印机的类型,包括激光打印机和喷墨打印机两种。对文档的扫描图像进行预处理获得单个字符图像,针对每个字符图像提取字符边缘区域平均梯度特征和字符边缘离散测度特征。将此二维特征表示在二维直角坐标系中,利用决策线对打印字符进行区分,能够对每个字符的打印机类型进行判断。本发明的效果益处主要针对文档来源鉴定过程中,自动检测出每个打印字符的打印机类型来源。本发明适用于信息安全领域,可以有效地帮助文件检验人员检验文档的打印机类型。
Description
技术领域
本发明属于信号与信息处理技术领域,涉及到打印机类型的取证方法。
背景技术
目前日常办公中使用的打印机类型主要是激光打印机和喷墨打印机。在文书鉴定过程中,需要判断打印文档的打印机来源,在确定打印机的品牌及型号之前若能区分打印机类型,可以提高检测效率,缩小侦查范围。
由于激光打印机和喷墨打印机的机械构造、打印原理、墨的性状均不相同,导致打印效果和质量不同。因此可从多个角度考虑两种打印机类型的鉴别问题。
刘宁在《喷墨打印机种鉴别方法及流程》中提出利用打印文件的墨迹特征、机械压痕特征、墨水成分三方面对喷墨打印机打印的文档进行分析,并使用综合压痕显现法、墨水成分分析法及显微镜检验法对喷墨打印机进行鉴别。该方法需要专业的人员和设备进行检测。
Jack Tchan在《Classifying Digital Prints According to Their Production Process Using Image Analysis and Artificial Neural Networks》中利用专门打印的方形黑色区块进行打印机的类型鉴别,提取黑色区块的边缘特征,并使用神经网络进行鉴别。该方法鉴别打印机类型必须使用预先的打印图像,不能应用于字符或普通图像的检测。
Christian Schulze等在《Using DCT Features for Printing Technique and Copy Detection》中针对整幅文档利用DCT变换,分析DCT系数的分布特征,能够对激光打印机、喷墨打印机及复印机产生的文档进行有效区分。该方法只能针对整幅扫描的文档图像进行检测,不能检测单个字母或汉字。
发明内容
本发明的目的是在打印文档中,如何判断每个打印字符的打印机类型,其中打印机类型包括激光打印机和喷墨打印机。由打印原理不同导致打印字符的效果和质量不同,研究如何利用每个字符的边缘特征进行打印机类型的鉴别。本发明解决了自动检测打印机类型问题,以帮助文件检验工作人员更准确的检验文档的来源及其真实性,这将为文件检验工作提供一种新的方法。
本发明的技术方案如下:
1.利用字符边缘特征进行打印机类型取证的方法框图
本方法的框图如图1所示,首先对扫描图像进行预处理,然后提取字符边缘区域平均梯度和边缘离散测度两维特征。提取边缘区域平均梯度特征时,首先要进行倾斜校正和字符分割的预处理操作,然后针对每个字符图像提取边缘区域并计算平均梯度;提取边缘离散测度特征时,首先要进行倾斜校正、字符分割和二值化的预处理操作,然后针对每个字符图像进行轮廓提取、单位法向量计算、旋转变换,最后计算边缘离散测度;最后进行综合判决,将每个字符的两维特征表示在二维直角坐标系中,利用决策线区分不同类型打印机的打印字符。
2.文档图像预处理
使用平板扫描仪对打印文档进行扫描,利用Hough变换估计文档图像的倾斜角度,然后将图像旋转进行倾斜校正以便于字符分割,在Hough变换中选择角度范围为θ∈[-30°,30°]。
使用投影方法对倾斜校正后的图像进行字符分割,先进行行向投影,获取单行字符图像,再对单行字符图像进行列向投影获得单个字符图像。
字符分割之后对每个字符图像进行二值化,由于字符图像为灰度图像且直方 图会出现明显的两个峰值,因此选取两峰值所对应像素值的均值作为二值化的阈值,小于该阈值的像素值为0,大于或等于该阈值的像素值为1。
3.字符边缘区域平均梯度特征提取
(1)边缘区域选择
在计算字符边缘的平均梯度之前,要确定边缘区域的位置,利用直方图的阈值分割确定字符边缘位置,图2为打印字符“o”的直方图。在上述将图像二值化过程中,取直方图的两峰值点对应像素值的均值Th,以Th为中心向两边扩展一定宽度以获得打印字符的边缘区域,本发明选取的边缘区域像素值范围为0.8×Th~1.2×Th,即将像素值在此范围内的点作为计算平均梯度的边缘区域集合,设为集合为M。集合M在字符图像中的位置如图3所示,字符边缘的纯白区域的像素为边缘集合M。
(2)梯度图像计算
假设图像I的尺寸为m×n,0m和0n表示长度为m和n元素值为0的列向量,计算图像四个方向的差分分量,分别为水平差分分量H,垂直差分分量V,主对角差分分量D1,次对角差分分量D2。为方便计算,计算时去掉图像相应的行或列并补0,计算方法如式(1)-(4)所示:
H=|[I(1:m,2:n)0m]-[0mI(1:m,1:n-1)]| (1)
利用这四个方向的差分分量,最终得到图像I的梯度图像为:
平均梯度用GAverage表示,如式(6)所示:
其中|M|表示集合M中元素的个数。
4.字符边缘离散测度特征提取
(1)字符外层边缘提取
为获得字符图像边缘像素的坐标以及相互位置关系,本发明提出一种边缘像素搜索方法,按照先行后列的方式搜索初始边缘点,记录该点坐标后按照固定搜索方向逐个像素搜索,直到返回初始边缘像素点,这样便得到一个连通区域的边缘像素集合。在搜索过程中记录边缘点坐标,得到完整的连通区域之后将该连通区域内所有像素进行标记,再按照上述方式对下一个连通区域的边缘像素进行搜索,直到标记除图像块中所有的连通区域为止。这样便得到了整个字符的轮廓坐标集合。
在确定初始边缘点之后,假设像素初始移动方向为垂直向下,如图4(a)所示,初始搜索方向为沿着像素初始移动方向右侧垂直方向(位置“1”),如果位置“1”不是边缘点,则在与点D相邻的像素中按照逆时针方向进行搜索(搜索方向为1→2→3→…→7),直到搜索到下一个边缘点为止,然后以下一个边缘点为中心,记录中心点D移动方向,按照上述规则,沿着中心点移动方向右侧垂直方向搜索边缘点,以此类推,直到中心点回到初始边缘点,此时该连通区域的边缘点提取完毕,图4(b)(c)为两种边缘像素不同移动方向初始搜索方向的选取示意图。对汉字“人”的边缘像素搜索结果如图5所示。
(2)单位法向量计算
本发明提出一种基于边缘搜索的方法计算单位法向量。在求取汉字图像边缘坐标过程中,已按照顺序记录了边缘像素的坐标值,利用边缘搜索方法寻找计 算单位法向量的边缘点坐标,使用两个边缘点坐标即确定该两点之间边缘的单位法向量,并继续搜索下一个边缘点,以此类推求出字符各个边缘区域的单位法向量。字符边缘的法向量方向是任意方向,如图6所示,箭头方向表示字符边缘的法向量方向。
使用边缘搜索方法搜索计算单位法向量的边缘点并求出单位法向量,初始条件为:设定初始搜索步进L长度为1/5字符图像高度,对于每个连通域,初始点设为O,搜索起止点为A和B,且 A,B两点间任意一点为C(如图7(a)所示)。区域法相向量的计算步骤如下:
1).计算A,B两点间每个边缘点到直线AB的距离d,若max(d)>5,则转入4);
2).计算由AC顺时针旋转至与AB同向时的角度α,若α>180°,则转入4);
3).计算AC与BC夹角β,若min(β)>90°,转入(5),否则转入4);
4).L=L-1;
6).搜索下一个与B点距离为L的像素点并定义为B,将原始B的位置定义为A,查看AB区间内是否有初始搜索点O,如果有将初始搜索点定义为B,返回1);
7)算法结束。
步骤1)中计算边缘点到直线AB的距离,目的是防止AB两点间跨度过大,两点间有笔画交汇或较大弧度如图7(a)所示,步骤2)中计算AC顺时针旋转至AB的角度,防止由于步进过大而导致的边缘点分属AB的两侧,如图7(b)所示,步骤3)计算AC与BC的夹角,为防止AB间边缘点有笔画相交使单位法向量计算错误,如图7(c)所示。
(3)旋转变换
计算单位法向量时,每个区间的边缘点都对应一个单位法向量 利用旋转变换将所有单位法向量旋转至相同方向,与单位法向量对应的边缘点也随之旋转,这样能使字符边缘的二维图像投影成一维曲线。设旋转变换后的单位法向量为 为了将字符边缘旋转并投影到另一个坐标系,需要计算向量 逆时针旋转到 时的角度θ。首先计算两向量间的夹角α,计算公式为 则两向量间夹角 在判断两个向量的相对位置,计算两向量的叉乘 则 若 则θ=α,否则θ=2π-α。
设原始边缘点坐标为(x1,y1),旋转变换后投影到另一坐标系坐标为(x2,y2),则根据旋转公式得
由于原始坐标系下,边缘像素点两相邻像素之间都是连接在一起的,在相同单位法向量的一个区域内的边缘点经过旋转投影变换后像素点仍然相互连接,而两个相邻区域经过变换后如不校正会出现断裂现象,因此在变换后坐标上分别引入偏移量a,b,如公式(8),
在确定变换后坐标之前确定a,b的值,使两相邻区域的边缘能够相互连接,将公式(8)展开得:
设变换后坐标初始位置为原点(0,0),即x2=0,y2=0,则得到偏移量初始值 a=-cosθ·x1-sinθ·y1,b=sinθ·x1-cosθ·y1。具有相同单位法向量区域的每个像素点具有相同的偏移量,将前一个区域末尾像素点的坐标值定义为下一个区域初始坐标点的坐标值,求出下一区域坐标的偏移量。依此类推,求出整个字符经过旋转变换后的边缘曲线。激光打印字符和喷墨打印字符的边缘图像分别如图8(a)-(b)所示,经过旋转变换后,字符边缘的部分曲线如图9(a)-(b)所示。由图中看出,喷墨打印机打印的字符边缘离散程度更大。
(4)离散测度计算和判决
由于喷墨打印的原理是在运动中进行打印,因此字符的边缘会出现周期性的变化,离散测度表示为每个周期区域内最大值和最小值的差的平均值。由图9(b)看出,喷墨打印的周期大约为20,因此本文中计算最大值最小值的区域大小m=20,设字符边缘点个数为n,则将字符边缘分为 个区域,设Di为第i个区域的边缘数据, 则离散测度:
激光打印的字符边缘较为平坦,因此离散测度小于喷墨打印字符。
5.综合判决
将每个字符的两维特征表示在二维直角坐标当中,如图10所示,经过多次试验,寻找能够使检测两类字符特征的准确率达到最大值,则该直线方程即为本发明所需的决策线方程,本发明所找到的直线方程为:18x-25y+30=0。
综上所述,本发明对打印机类型取证的具体步骤如下:
首先,通过文档图像的预处理获得单个字符图像及其二值化图像;其次,对每个字符图像提取字符边缘区域平均梯度特征和字符边缘离散测度特征;最后进行综合判决,将每个字符的两维特征表示在二维直角坐标系中,利用决策线将不同打印机打印的字符进行区分。
本发明的效果益处是:
本发明主要针对文档来源鉴定过程中,确定每个打印字符的打印机类型来源,包括激光打印机和喷墨打印机两种。本发明解决了自动检测打印机类型取证问题,从而为司法机关和刑侦部门检测文档的来源提供了技术上的支持。本发明适用于信息安全领域,有效地帮助文件检验人员检验文档的打印机类型来源。
附图说明
图1是打印机类型来源源取证框图。
图2是打印字符“o”的直方图及其阈值选取的示意图。
图3是字符“o”的边缘区域选取结果图像。
图4是提取图像边缘时像素搜索示意图。
图中:图4(a)为初始方向选择示意图,图4(b)为边缘像素点移动动举例示意图,图4(b)为边缘像素点移动举例示意图。
图5是边缘提取后的字符边缘图像。
图6是字符边缘法向量示意图。
图7是计算边缘单位法向量过程中边缘搜索示意图。
图中:图7(a)为由于搜索步长过大导致边缘点距离搜索向量AB较远的示意图;图7(b)为是计算边缘法向量过程中由于步进过大而导致的边缘点分属向量AB的两侧的示意图;图7(c)为由于搜索步长过大导致出现笔画拐角示意图。
图8激光打印机和喷墨打印机打印字符边缘提取图像。
图中:图8(a)为激光打印机打印字符边缘图像;图8(b)为喷墨打印机打印字符边缘图像。
图9是激光打印机和喷墨打印机打印字符边缘图像经过旋转变换后的边缘 曲线示意图。
图中:图9(a)为激光打印机打印字符边缘图像经过旋转变换后的边缘曲线;图9(b)为喷墨打印机打印字符边缘图像经过旋转变换后的边缘曲线。
图10是利用直角坐标系显示打印机型号取证的结果图像。
具体实施方式
以下结合技术方案和附图详细叙述本发明的具体实施方式。
试验中需要对打印文档的打印机类型进行来源取证,首先需要对打印文档进行扫描,使用扫描精度为1200dpi,将文档图像保存成灰度Tiff图像。然后对扫描图像进行预处理,包括倾斜校正、字符分割等操作,获得可提取特征的单个字符图像。本发明所使用的打印机品牌及型号如表1所示,分别使用4台激光打印机和4台喷墨打印机,共5种品牌8种型号。每台打印机打印中英文字符共500个用于试验。
表1实验使用设备
序号 | 激光打印机 | 序号 | 喷墨打印机 |
1 | Lenove LJ6000 | 5 | Canon 4000 |
2 | Canon LBP3500 | 6 | HP B9180 |
3 | Samsung 3471ND | 7 | EPSON T50 |
4 | HP P1505 | 8 | EPSON R290 |
针对每个分割的字符图像,提取字符边缘区域平均梯度特征和字符边缘离散测度特征,使用二维直角坐标系将样本的二维特征值表现出来。寻找能够使检测正确率达到最大的决策线方程,如图10所示,通过试验所得的决策线方程为18x-25y+30=0,由图中可以看出,本发明能够正确区分两种不同的打印机类型,与打印机的具体品牌及型号无关。
Claims (4)
1.一种利用字符边缘特征进行打印机类型取证的方法,其特征是对单个字符图像提取字符边缘区域平均梯度特征和边缘离散测度特征,通过字符边缘区域提取和字符梯度图像计算来提取平均梯度特征,通过对字符图像的轮廓图像提取、单位法向量计算、旋转变换来获取离散测度特征;综合判决时,将每个字符的两维特征表示在二维直角坐标系中,利用决策线区分不同类型打印机的打印字符。
2.根据权利要求1所述的一种利用字符边缘特征进行打印机类型取证的方法,其特征是提取字符边缘区域,利用字符直方图会出现两个峰值的特点,取两峰值点像素值的均值Th,设定在0.8×Th~1.2×Th范围内的像素值为边缘像素。
3.根据权利要求1所述的一种利用字符边缘特征进行打印机类型取证的方法,其特征是对字符图像边缘提取单位法向量,根据已经记录的边缘像素坐标值,利用边缘搜索方法寻找计算单位法向量的边缘点坐标,两个边缘点即确定该两点之间边缘的单位法向量。
4.根据权利要求1所述的一种利用字符边缘特征进行打印机类型取证的方法,其特征是利用旋转变换将所有边缘区域的单位法向量旋转至相同方向,与法向量对应的边缘点也随之旋转,使字符边缘的二维图像投影成一维曲线。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210041055 CN102646194B (zh) | 2012-02-22 | 2012-02-22 | 一种利用字符边缘特征进行打印机类型取证的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210041055 CN102646194B (zh) | 2012-02-22 | 2012-02-22 | 一种利用字符边缘特征进行打印机类型取证的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN102646194A true CN102646194A (zh) | 2012-08-22 |
CN102646194B CN102646194B (zh) | 2013-10-16 |
Family
ID=46659010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210041055 Expired - Fee Related CN102646194B (zh) | 2012-02-22 | 2012-02-22 | 一种利用字符边缘特征进行打印机类型取证的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102646194B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413271A (zh) * | 2013-07-18 | 2013-11-27 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN110427939A (zh) * | 2019-08-02 | 2019-11-08 | 泰康保险集团股份有限公司 | 校正倾斜文本图像的方法、装置、介质及电子设备 |
CN110458158A (zh) * | 2019-06-11 | 2019-11-15 | 中南大学 | 一种针对盲人辅助阅读的文本检测与识别方法 |
CN110781727A (zh) * | 2019-09-12 | 2020-02-11 | 中国刑事警察学院 | 基于图像物理度量指标的激光打印文件量化检验方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118592A (zh) * | 2007-08-22 | 2008-02-06 | 大连理工大学 | 一种基于字符打印特征的打印机取证方法 |
CN101751571A (zh) * | 2009-12-28 | 2010-06-23 | 山东大学 | 一种实用的二值文档图像倾斜角度检测方法 |
US20120008874A1 (en) * | 2009-04-07 | 2012-01-12 | Murata Machinery, Ltd. | Image processing apparatus, image processing method, image processing program, and storage medium |
-
2012
- 2012-02-22 CN CN 201210041055 patent/CN102646194B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118592A (zh) * | 2007-08-22 | 2008-02-06 | 大连理工大学 | 一种基于字符打印特征的打印机取证方法 |
US20120008874A1 (en) * | 2009-04-07 | 2012-01-12 | Murata Machinery, Ltd. | Image processing apparatus, image processing method, image processing program, and storage medium |
CN101751571A (zh) * | 2009-12-28 | 2010-06-23 | 山东大学 | 一种实用的二值文档图像倾斜角度检测方法 |
Non-Patent Citations (2)
Title |
---|
孙福利、孔祥维: "基于模糊推理的边缘检测", 《西安石油大学学报》 * |
沈林杰、孔祥维等: "基于字符图像质量评价的打印机取证", 《东南大学学报》 * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103413271A (zh) * | 2013-07-18 | 2013-11-27 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN103413271B (zh) * | 2013-07-18 | 2016-03-02 | 西安交通大学 | 基于局部信息的文档图像校正方法 |
CN110458158A (zh) * | 2019-06-11 | 2019-11-15 | 中南大学 | 一种针对盲人辅助阅读的文本检测与识别方法 |
CN110458158B (zh) * | 2019-06-11 | 2022-02-11 | 中南大学 | 一种针对盲人辅助阅读的文本检测与识别方法 |
CN110427939A (zh) * | 2019-08-02 | 2019-11-08 | 泰康保险集团股份有限公司 | 校正倾斜文本图像的方法、装置、介质及电子设备 |
CN110781727A (zh) * | 2019-09-12 | 2020-02-11 | 中国刑事警察学院 | 基于图像物理度量指标的激光打印文件量化检验方法 |
CN110781727B (zh) * | 2019-09-12 | 2022-06-17 | 中国刑事警察学院 | 基于图像物理度量指标的激光打印文件量化检验方法 |
Also Published As
Publication number | Publication date |
---|---|
CN102646194B (zh) | 2013-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10404868B2 (en) | Image defect detection | |
US9396404B2 (en) | Robust industrial optical character recognition | |
EP0636475B1 (en) | Automatic inspection of printing plates or cylinders | |
CN106251341B (zh) | 一种印刷品质量检测方法 | |
CN103034848B (zh) | 一种表单类型的识别方法 | |
US20110069894A1 (en) | Image defect detection | |
CN102760226B (zh) | 一种基于实心正方形的试卷客观题答题卡定位方法 | |
CN105913093A (zh) | 一种用于文字识别处理的模板匹配方法 | |
CN101533513B (zh) | 基于双视几何的图片伪造检测方法 | |
CN102646194B (zh) | 一种利用字符边缘特征进行打印机类型取证的方法 | |
CN109447067A (zh) | 一种票据方向检测矫正方法及自动检票系统 | |
CN103942777A (zh) | 一种基于主成分分析的手机玻璃盖板缺陷检测方法 | |
CN102629322A (zh) | 一种基于边界点笔画形状的字符特征提取方法及应用 | |
CN101587540B (zh) | 一种利用页面文档几何失真检测文档来源的打印机取证方法 | |
Garz et al. | A binarization-free clustering approach to segment curved text lines in historical manuscripts | |
US9008444B2 (en) | Image rectification using sparsely-distributed local features | |
CN102289665A (zh) | 基于墨粉堆积纹理分析的打印文件鉴别方法 | |
EP2748754B1 (en) | Forensic authentication system and method | |
JP4661034B2 (ja) | 印刷品質検査装置及び方法 | |
Wu et al. | A printer forensics method using halftone dot arrangement model | |
Wu et al. | Printer forensics based on page document's geometric distortion | |
US8855419B2 (en) | Image rectification using an orientation vector field | |
CN104537654B (zh) | 利用半色调点位置失真打印图像篡改取证方法 | |
CN104732548A (zh) | 一种基于纹理合成的打印文件鉴别方法 | |
CN101854461B (zh) | 一种利用半色调信息检测文档真实性的打印文档取证方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20131016 Termination date: 20170222 |