CN101587540B

CN101587540B - 一种利用页面文档几何失真检测文档来源的打印机取证方法

Info

Publication number: CN101587540B
Application number: CN200910011193XA
Authority: CN
Inventors: 孔祥维; 吴玉宝
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2009-04-16
Filing date: 2009-04-16
Publication date: 2011-08-03
Anticipated expiration: 2029-04-16
Also published as: CN101587540A

Abstract

一种利用页面文档几何失真检测文档来源的打印机取证方法，属于信号与信息处理技术领域。其特征是利用页面文档的几何失真现象，采用投影变换模型对这种几何失真进行建模，通过提取和匹配理想图像和文档图像中对应位置字符中心点构成特征点对集合，利用最小二乘法从特征点对集合中估计出模型参数，并选择能够代表打印机固有特征的模型参数作为特征，通过预先训练好的模型和参数，使用支持向量机作为分类器，对未知来源的打印文档检测和取证其打印机来源。本发明的效果和益处是通过已有的数据模型和待取证的打印文档，对该文档的打印机来源进行准确的鉴别和取证。本发明适合于信息安全领域。

Description

一种利用页面文档几何失真检测文档来源的打印机取证方法

技术领域

本发明属于信号与信息处理技术领域，涉及到检测打印文档的打印机来源取证方法。

背景技术

由于打印和扫描文档的使用越来越广泛，与伪造文档相关的案件越来越多。因此用于检验文档来源及真实性的无损被动打印机取证技术也随之发展起来。下面将从2002年开始陆续发表的具有代表性的文章描述如下。

John Oliver在“Use of signature analysis to discriminate digital printingtechnologies”文中借助于ImageXpert专业打印质量分析软硬件，将提取的打印质量特征用于打印机来源取证，具体包括：线宽度、粗糙度、飞溅度、点圆满度、周长、周围散落点数等特征。Purdue大学的Edward Delp团队提取了打印机的条带特征，并且Mikkilineni A.K.在“Printer identification based on graylevelco-occurrence features for security and forensic applications”文中从打印的“e”字符图像中提取了共生矩阵特征。Cyril Murie在“Inkjet printing discrimination basedon invariant moments”文中将不变矩特征用于打印机来源取证。沈林杰在“基于字符图像质量评价的打印机取证”文中通过高斯滤波提取字符图像的随机噪声，并借助图像质量评价方法提取其统计特征。Thomas Breuel在“Evaluation ofGraylevel-Features for Printing Technique Classification in High-ThroughputDocument Management Systems”文中提出了一些基于普通纹理和边缘描述的灰度级特征，并给出了较详细的实验结果。Farid在“Printer Profiling for Forensicsand Ballistics”文中使用PCA方法构建近似的打印机失真模型，根据字符图像与打印机失真模型的匹配程度来判断文档来源。

上述方法均从文档图像中含有墨迹的连通区域或局部字符区域中提取特征，而这些特征大多受打印文档的墨迹浓淡变化影响很大。在Farid一文中实验了墨迹浓淡对判决结果的影响，实验表明，判决结果更多地取决于墨迹浓淡程度而不是打印机个体。上述特征对墨迹浓淡变化并不稳定，这将影响正确判决打印文档的打印机来源。

发明内容

本发明要解决的技术问题是如何从打印的文本文档中提取不受墨迹浓淡变化影响的特征，以弥补上述打印机取证方法的不足。本发明旨在实现在时间推移或更换硒鼓等条件造成同一台打印机的打印文档出现墨迹浓淡变化的情况下，仍能准确判断打印文档打印机来源的取证方法。本发明利用页面文档固有的几何失真现象，采用投影变换模型对这种几何失真进行建模，通过理想图像和文档图像中对应位置字符中心点的提取和匹配估计出投影变换模型参数，并选择部分模型参数作为特征，然后使用支持向量机分类器对打印文档的打印机来源进行准确检测和取证。字符区域的墨迹浓淡变化不会造成上述字符中心点位置的改变，也不会影响到后续投影变换模型参数的估计，从而实现上述目的。

本发明的技术方案如下：

1.打印文档图像的几何失真

理想情况下，在一页文档中行与行之间是严格平行的。但实际中行斜率有明显的变化规律。有些打印机中，一页文档的行斜率从上到下逐渐变小；而有些则逐渐变大。这种现象称为页面文档几何失真现象。这种几何失真现象将理想的平行线变成了实际的相交线，所以可以将其建模为投影变换模型。从而该模型的参数中包含了可用于打印机来源认证的固有特征。

这种几何失真现象可能是由打印机内部走纸机械装置存在缺陷所造成的。比如左右走纸轮的转速及对纸张的夹紧度存在微小差异等缺陷均可能造成上诉几何失真现象。

2.利用页面文档几何失真检测文档来源的打印机取证方法框图

利用页面文档几何失真检测文档来源的打印机取证方法框图如图1所示。一方面，将一页Word文档转换为PDF文件，然后另存为600dpi分辨率Tif格式的理想图像；另一方面，将该页Word文档打印成纸质文档，然后将其扫描成相同分辨率Tif格式的文档图像。

理想图像和文档图像分别通过预处理过程提取特征点集合，两者对应位置的特征点相匹配，构成特征点对集合。使用最小二乘法和莱茵达准则从特征点对集合中估计出模型参数，其中部分能够代表打印机固有特征的模型参数将用于SVM分类，从而实现打印机来源认证。

3.预处理

预处理的目的是提取理想和文档图像中字符中心点以构成特征点对集合。

首先对文本文档图像进行基于阈值的二值化，得到对应的二值图像。文本文档图像包含字符墨迹区域和均匀背景区域，其灰度直方图呈现明显的双峰，可以选择两个峰值中间的谷点作为二值化域值。其次对于二值图像中面积小于某个阈值的连通区域，认为是墨点飞溅产生的噪声斑点并将其消除。在600dpi分辨率下，判断某连通区域是否为噪声斑点的阈值可选为50个像素。对于理想图像，由于本身就是二值图像，而且不含噪声，所以这两步可以省略。

然后对上面得到的消除噪声的二值图像进行字符分割。由于本发明处理的是由常用汉字字符组成的文档图像，并且页面文档在扫描过程中进行了手动矫正，倾斜角度很小。所以本发明先采用行投影方法将文档图像的每一行分割出来。对二值图像矩阵取反，并对每一行求和，得到一个列向量，即为图像矩阵的行投影列向量。在行投影列向量中，会出现文本行间隙区域值很低，而文本行内区域值很高的特点。可以依据这一特点在行投影列向量中确定行的上下起点，实现对原灰度文本文档图像的行分割。在行投影列向量中，用于确定行边界的阈值可通过实验观察选取，通常选为10，即略大于0即可。同样的道理，针对分割出的每一行字符图像，再采用列投影方法将每个字符分割出来。

在字符正确分割之后，可以提取字符中心点。字符中心点为二值图像中字符连通区域最小外接矩形的中心点。实际中分割出的字符图像如图2所示，其中图2(a)为从理想图像中分割出的字符图像，图2(b)为从文档图像相应位置分割出的字符图像，字符图像中心的黑色十字斑点表示检测到的字符中心点。将理想和文档图像对应位置字符中心点均匹配为特征点对，从而获得特征点对集合。

4.投影变换失真模型

本节将介绍超定方程组形式的投影变换失真模型。

设像素坐标点(x_1i，y_1i)代表文档图像中的特征点，(x_2i，y_2i)代表理想图像中与其匹配的特征点，即(x_1i，y_1i)与(x_2i，y_2i)构成一对特征点对。将像素坐标点(x_1i，y_1i)映射为像素坐标点(x_2i，y_2i)的二维投影变换形式为：

\{\begin{matrix} x_{2 i} = \frac{m_{0} x_{1 i} + m_{1} y_{1 i} + m_{2}}{m_{6} x_{1 i} + m_{7} y_{1 i} + 1} + e_{xi} \\ y_{2 i} = \frac{m_{3} x_{1 i} + m_{4} y_{1 i} + m_{5}}{m_{6} x_{1 i} + m_{7} y_{1 i} + 1} + e_{yi} \end{matrix} - - - (1)

其中，m₀，m₄分别为x和y方向缩放系数，m₁，m₃为旋转系数，m₂，m₅分别为x和y方向平移系数，m₆，m₇分别为描述x和y方向平行线畸变为相交线程度的系数。e_xi和e_yi为x和y方向的匹配残差，并假设(e_x，e_y)^T服从高斯分布N(0，σ₁ ²I)。

仅需要4个特征点对就可以得到恰定方程组，求解出m₀～m₇这8个参数。但是特征点对集合中包含了所有字符中心点，其个数远大于4对，若从中选择4个特征点对求解模型参数，参数精度明显会降低。为了提高模型参数估计精度，选取特征点对集合中的所有特征点对，从而构建超定方程组形式的失真模型。

为了使用线性最小二乘法估计模型参数，将式(1)调整如下：

\{\begin{matrix} m_{6} x_{1 i} x_{2 i} + m_{7} y_{1 i} x_{2 i} + x_{2 i} = m_{0} x_{1 i} + m_{1} y_{1 i} + m_{2} + α_{i} \\ m_{6} x_{1 i} y_{2 i} + m_{7} y_{1 i} y_{2 i} + y_{2 i} = m_{3} x_{1 i} + m_{4} y_{1 i} + m_{5} + β_{i} \end{matrix} - - - (2)

其中，假设(α，β)^T同样服从高斯分布N(0，σ₂ ²I)。将式(2)写成矩阵形式：

[\begin{matrix} x_{2 i} \\ y_{2 i} \end{matrix}] = [\begin{matrix} x_{1 i} & y_{1 i} & 1 & 0 & 0 & 0 & - x_{1 i} x_{2 i} & - y_{1 i} x_{2 i} \\ 0 & 0 & 0 & x_{1 i} & y_{1 i} & 1 & - x_{1 i} y_{2 i} & - y_{1 i} y_{2 i} \end{matrix}] M + [\begin{matrix} α_{i} \\ β_{i} \end{matrix}] - - - (3)

其中，M＝[m₀ m₁ m₂ m₃ m₄ m₅ m₆ m₇]^T。

假设一页文档图像含有n个特征点，则得到的超定方程组形式的失真模型可以表示如下：

[\begin{matrix} x_{21} \\ y_{21} \\ L \\ x_{2 n} \\ y_{2 n} \end{matrix}] = [\begin{matrix} x_{11} & y_{11} & 1 & 0 & 0 & 0 & {- x}_{11} x_{21} & - y_{11} x_{21} \\ 0 & 0 & 0 & x_{11} & y_{11} & 1 & - x_{11} y_{21} & - y_{11} y_{21} \\ L & L & L & L & L & L & L & L \\ x_{1 n} & y_{1 n} & 1 & 0 & 0 & 0 & - x_{1 n} x_{2 n} & - y_{1 n} x_{2 n} \\ 0 & 0 & 0 & x_{1 n} & y_{1 n} & 1 & - x_{1 n} y_{2 n} & - y_{1 n} y_{2 n} \end{matrix}] M + [\begin{matrix} α_{1} \\ β_{1} \\ L \\ α_{n} \\ β_{n} \end{matrix}] - - - (4)

将上面的方程写成简洁的矩阵形式：

b＝AM+φ (5)

其中，b的尺寸为2n×1，A的尺寸为2n×8，φ的尺寸为2n×1。

公式(5)所表示的投影变换失真模型可以应用线性最小二乘法估计出最优的模型参数M。

5.投影变换失真模型的解

本节将求解超定方程组b＝AM+φ，得到模型参数并计算各特征点对在估计模型参数

下的匹配残差向量，然后使用莱因达准则检测匹配残差向量模值集合中的坏点，并在特征点对集合中剔除对应的特征点对，从而使模型参数估计得更加准确。

当特征点数n＞4的时候，可以在最小二乘意义下求得模型参数

\hat{M} = \arg \min_{M} | | AM - b | | - - - (6)

其中，

\hat{M} = {[\begin{matrix} {\hat{m}}_{0} & {\hat{m}}_{1} & {\hat{m}}_{2} & {\hat{m}}_{3} & {\hat{m}}_{4} & {\hat{m}}_{5} & {\hat{m}}_{6} & {\hat{m}}_{7} \end{matrix}]}^{T} .

通常可以通过下面的方法求解该最小二乘问题：

A^{T} b = A^{T} A \hat{M} - - - (7)

但是从公式(4)可知，矩阵A最后两列元素数值要远大于前六列，造成矩阵A前几列近似相关，即矩阵A为近似奇异矩阵，同样可分析，矩阵A^TA也是近似奇异的。近似奇异矩阵不宜直接求逆，所以公式(7)描述的解法不合适应用在这里。这里采用奇异值分解方法求解该最小二乘问题。

定理1.设A∈C^p×q，rank(A)＝r，又设∑为AA^T(或等效为A^TA)的本征值按从大到小沿主对角线构成的对角阵，其中非零本征值构成的r×r对角阵，记为S，为∑的子矩阵。则有正交阵U∈C^p×q和V∈C^q×q，使A可分解为

A = {UΣV}^{T} = U |\begin{matrix} S & 0 \\ 0 & 0 \end{matrix}| V^{T} - - - (8)

其中，S＝diag(λ₁，λ₂，L，λ_r)，λ₁，λ₂，L，λ_r为矩阵A的奇异值，其值不为零。

定理2.设线性方程组AM＝b，其中A∈C^p×q，rank(A)＝r，A按照定理1进行奇异值分解，则

M = A^{+} b = V |\begin{matrix} S^{- 1} & 0 \\ 0 & 0 \end{matrix}| U^{T} b - - - (9)

其中，S^-1＝diag(1/λ₁，1/λ₂，L，1/λ_r)，A⁺为矩阵A的伪逆。

式(9)给出了线性映射b＝AM+φ在最小二乘意义下最小范数的唯一解。

在使用式(9)求得参数之后，利用该模型计算各特征点对的匹配残差向量：

{\hat{e}}_{i} = {\hat{e}}_{xi} + {j \hat{e}}_{yi} - - - (7)

其中，j为虚数标志，

和

表达式如下所示：

\{\begin{matrix} {\hat{e}}_{xi} = \frac{{\hat{m}}_{0} x_{1 i} + {\hat{m}}_{1} y_{1 i} + {\hat{m}}_{2}}{{\hat{m}}_{6} x_{1 i} + {\hat{m}}_{7} y_{1 i} + 1} - x_{2 i} \\ {\hat{e}}_{yi} = \frac{{\hat{m}}_{3} x_{1 i} + {\hat{m}}_{4} y_{1 i} + {\hat{m}}_{5}}{{\hat{m}}_{6} x_{1 i} + {\hat{m}}_{7} y_{1 i} + 1} - y_{2 i} \end{matrix} - - - (8)

将特征点对匹配残差向量序列

{\hat{e}}_{i} (i = 1,2, L, n)

按照特征点在页面文档中的位置表示成矩阵形式，并将该特征点对匹配残差向量构成的矩阵称为残差模式。

在实验中，较差的打印质量可能会导致字符中心点的检测产生较大偏差，这将会使特征点集合中出现异常值。特征点集合中的异常值会影响投影变换模型参数的估计精度。本发明采用莱因达准则剔除异常值，以使模型参数估计得更加精确。莱因达准则具体描述如下：

对于采集数据的测量列X₁，X₂，L，X_k，先求得算数平均值

\overset{&OverBar;}{X} = (1 / k) Σ_{i = 1}^{k} X_{i}

及剩余误差v_i＝X_i-X，然后再求得均方根偏差

σ = {({Σv}_{i}^{2} / k - 1)}^{1 / 2} .

判别依据如下(假设v_i服从正态分布，即测量列也服从正态分布)：

若|X_i-X|＞3σ，则X_i为粗大误差，应予舍弃；

若|X_i-X|≤3σ，则X_i为正常数据，应予保留。

对特征点对匹配误差向量模值序列

| {\hat{e}}_{i} | (i = 1,2, L, n)

采用莱因达准则进行粗差剔除。若检测出

为异常值，则剔除特征点对集合中对应的特征点对(x_1i，y_1i)和(x_2i，y_2i)，然后重新计算模型参数

在剔除坏点的特征点集合基础上，重新形成最小二乘问题。

重复上述形成、求解最小二乘问题和检测、剔除坏点数据的过程，直至不再有坏点数据产生为止，最后得到估计的模型参数

6.特征选择和SVM分类器

模型参数M中各参数代表不同的含义。考虑到打印和扫描过程中，平移和旋转是不可避免的，所以对应的参数m₁、m₂、m₃、m₅存在随机性，并不代表打印机的固有特征。本发明认为参数m₀、m₄、m₆、m₇代表了打印机的固有特征，并用其进行打印机的来源认证。这4维特征是从特征点对集合中提取的几何失真参数，而这些集合中的特征点(即字符中心点)并不会受到墨迹浓淡程度的影响，所以这些特征对墨迹浓淡变化是稳定的。

由于所选择的参数特征往往不具备线性可分性，因此，本发明中的分类器采用了支持向量机(SVM，Support Vector Machine)。SVM的核心思想就是对最优分类面的推广，即实现不同类别之间分类间隔的最大化。为了解决这个问题，SVM往往采用内积函数定义的非线性变换将输入空间转换到高维，使得原本低维空间中线性不可分的问题变得高维线性可分，然后在这个高维空间中求解广义最优分类面。本发明采用支持向量机作为分类器，对训练样本的特征进行训练以获得每个打印机的模型和参数，然后利用该模型和参数，对未知来源的打印文档进行打印机来源的鉴别和取证。

综上所述，本发明对打印文档的打印机来源进行检测和取证具体步骤如下：

首先，理想和文档图像经过预处理得到特征点对集合；然后，建立超定方程组形式的失真模型；第三步，使用奇异值分解方法和莱茵达准则求解方程组，得到估计的模型参数

最后，应用支持向量机对部分模型参数进行分类，实现打印机来源认证。

本发明的效果益处是：

目前的打印机取证方法均从页面文档中含有墨迹的局部连通区域或字符区域中提取特征，而本发明从页面文档整体提取几何失真特征。这种几何失真特征并不会受到墨迹浓淡变化影响，从而在时间推移或更换硒鼓等条件造成同一台打印机的打印文档出现墨迹浓淡变化的情况下，仍能准确的判断打印文档的打印机来源。本发明解决了打印机取证方法在实际应用中遇到的由于同一台打印机打印文档的墨迹浓淡变化产生的判决准确度降低问题，从而为司法机关和刑侦部门检测文档的打印机来源提供了更可靠的工具。

本发明适用于信息安全领域，可以有效地对未知打印机来源的打印文档检测和取证其打印机来源。

附图说明

图1是利用页面文档几何失真检测文档来源的打印机取证方法框图。

图2是从理想图像和文档图像对应位置分割出的字符图像。

图中：图2(a)是从理想图像中分割出的字符图像，图2(b)是从文档图像中对应位置分割出的字符图像。

图3是10台打印机样本投影变换模型的m₄和m₇参数分布图。

图中：横坐标为m₄参数的分布范围，纵坐标为m₇参数的分布范围，图例中01～10为10台打印机的标号。

图4是分别从标号为01和05打印机采样文档图像得到的残差模式。

图中：图4(a)从标号为01打印机的03号样本页中得到，图4(b)从标号为05打印机的03号样本页中得到。图中横坐标为列数，纵坐标为行数，与一页文档含有34列×44行汉字字符相对应。图中箭头由理想图像字符中心点指向校正后的文档图像字符中心点。

具体实施方式

以下结合技术方案和附图，详细叙述本发明的具体实施方式。

实验中选择了目前市场占有率较高的5种型号10台不同的打印机作为测试样本。表一中列举出了实验中所有的打印机型号。实验中一页页面文档中包含1496个(34列×44行)常用汉字字符，即特征点对集合中有1496个特征点对。每台打印机采样12页样本。表一中各打印机采样的文档图像按照本发明方法进行处理，每页文档图像可求得其投影变换模型参数

和残差模式。

表一实验打印机型号列表

打印机型号	标号
		Hp1000	01，03，04，06
Hp1020	05，09
		Hp1320n	02，10
Lenovo 2312P	07
		Sumsang ML1510	08

各打印机采样样本图像投影变换模型的m₄和m₇参数分布如图3所示。从图3中可以看出，各打印机均具有较好的聚类效果，类间具有明显的可分性。

实验中的SVM工具为网络上公开的LIBSVM，其下载地址为http://www.csie.ntu.edu.tw/～cjlin/libsvm。将各打印机采样的12页样本平均分成两部分，第一部分训练SVM分类器，第二部分进行测试。实验结果表明，10台打印机采样样本的分类正确率均为100％。

图4给出了上述实验样本中两幅典型的残差模式，图4(a)由01打印机03号样本页得到，图4(b)由05打印机03号样本页得到。其中箭头表示校正后文档图像字符中心点与匹配的理想图像字符中心点之间的匹配残差向量。从图4(a)中可以看到，投影变换模型产生的残差模式存在明显的纵向条带特征。而图4(b)在11行和38行附近存在很明显的横向条带特征。通过分析各页面文档图像残差模式的特征，也可以帮助确定页面文档的打印机来源。

实验结果证明了所选投影变换模型参数在打印机来源取证中的有效性。同时残差模式同样可帮助确定文档的打印机来源。

在实际应用中，上述实验过程可以根据实际情况进行相应改变。例如，针对一页或几页待检测打印文档，通常检测人员手中没有该打印文档的电子版本。检测人员可以手动或者使用字符识别和版面恢复软件获得电子版文件。得到待检测打印文档电子版后，可以在所怀疑的多台打印机上进行打印并扫描，从而获得训练分类器的样本图像，然后根据其训练的分类器对待检测打印文档分类。

如果恢复待检测打印文档电子版本存在困难，比如需要较大人力，检测人员也可使用与待检测打印文档内容相似的电子版文件。这里相似主要指以下两种情况：一页文档打印字符在页面整体中的相对位置和所占比例要相似，比如只在上半页区域存在打印字符或者在页面的中间位置存在打印字符；字符大小、间距、行距等这些能够影响字符中心点相对位置的因素要尽量的保证相似，而对于某个位置上具体是什么字符，不会影响到本发明方法。如果这些还存在困难，检测人员可以直接打印前面实验中满页均为常用汉字的样本，通过这些文档同样能够提取出打印机几何失真参数。待检测文档中的打印字符区域在整幅页面中所占比例越大越有利于获取更加精确的打印机失真模型和分类准确度。

目前实际的打印文档文件检验方法通常需要提供待检测文档同时期的打印样本。在本发明中，能够提供待检测文档同时期打印文档当然会使结果更可靠。考虑到本发明检测结果不受墨迹浓淡程度变换影响，待检测打印文档和检测时采样文档可以具有一定时间间隔。更换硒鼓或者硒鼓中墨量随使用逐渐减少均不会对本发明检测准确性产生较大影响。但是如果打印机出现其它的一些情况，比如，打印机机械逐渐老化、机械修理等，本发明方法将会失去检验效果。

Claims

1.一种利用页面文档几何失真检测文档来源的打印机取证方法，其特征在于，采用投影变换模型对页面文档几何失真进行建模，通过提取和匹配理想图像和文档图像中对应位置字符中心点构成特征点对集合，利用最小二乘法和莱茵达准则从特征点对集合中估计出模型参数，并选择能够代表打印机固有特征的模型参数作为特征，使用支持向量机作为分类器，来对打印文档的打印机来源进行检测和取证。

2.根据权利要求1所述的一种利用页面文档几何失真检测文档来源的打印机取证方法，其特征在于采用二维投影变换模型对页面文档几何失真进行建模，并将分式形式的投影变换模型变换成多项式形式，从而形成超定方程组形式的投影变换几何失真模型。

3.根据权利要求1所述的一种利用页面文档几何失真检测文档来源的打印机取证方法，其特征在于采用奇异值分解方法求解形成的最小二乘问题，利用求得模型参数计算各特征点对匹配残差，并采用莱茵达准则依据匹配残差模值对特征点对集合进行坏点数据剔除，在剔除坏点的特征点对集合基础上重复形成、求解最小二乘问题和剔除坏点数据的过程，直至不再有坏点数据产生为止，最后得到估计的模型参数。

4.根据权利要求1所述的一种利用页面文档几何失真检测文档来源的打印机取证方法，其特征在于选择模型参数中x和y方向缩放系数m₀、m₄和描述平行线畸变为相交线程度的系数m₆、m₇作为提取的打印机固有特征，采用支持向量机SVM作为分类器，对训练样本的特征进行训练以获得每个打印机的模型和参数，然后利用该模型和参数，对未知来源的打印文档进行打印机来源的鉴别和取证。

5.根据权利要求1所述的一种利用页面文档几何失真检测文档来源的打印机取证方法，其特征在于将文档图像二值化，消除由墨点飞溅产生的噪声斑点，采用行投影和列投影的方法分割字符以获取字符中心点作为特征点，并对理想和文档图像对应位置字符中心点进行匹配，从而构成特征点对集合。