CN102289681B

CN102289681B - 一种信封图像匹配方法

Info

Publication number: CN102289681B
Application number: CN201110224869.0A
Authority: CN
Inventors: 吕岳; 刘丽; 吕淑静
Original assignee: SHANGHAI POST SCIENCE INST
Current assignee: China Post Technology Co.,Ltd.
Priority date: 2011-08-05
Filing date: 2011-08-05
Publication date: 2014-03-19
Anticipated expiration: 2031-08-05
Also published as: CN102289681A

Abstract

本发明公开了一种信封图像匹配方法，将待匹配的两个信封图像分别用图表示出来，则图像之间的相似度计算转化为图匹配问题，采用基于最小权重的二分图匹配算法计算两个图之间的距离。进一步的，首先对信封图像进行分割，基于分割结果构建图像的图表示。其中，图的每个顶点代表信封图像中的一个区域，而图的每一条边用来表示两个区域之间的邻接关系。由于图像在采集过程中易受到噪声等因素的影响，可能会导致对应于同一个信封的多个图像的图表示有所不同，故本发明采用一种非精确图匹配算法。大量实验结果表明，该方法对于光照、倾斜、旋转等具有较强的鲁棒性，能够高效地实现基于信封图像的信函信息查询。

Description

一种信封图像匹配方法

技术领域

本发明属于邮政技术领域，特别涉及一种信封图像匹配方法。

背景技术

信封图像匹配是邮政自动化领域的一项重要研究内容，即将信封图像作为查询依据和信函分拣系统数据库中的所有图像做匹配，将获得成功匹配的图像以及其在数据库中的相关处理信息比如邮编或地址识别结果作为最终查询结果返回。

根据格式塔视觉原理，对象中各个部分之间的相对位置关系在人的视觉系统中起着关键作用，相对位置关系的变化必然会导致视觉差异。传统采用特征向量来描述对象的方法，并不能准确地表达出对象中各个部分之间的关系。此外，基于特征向量的匹配方法，容易受到旋转、倾斜等因素的影响。

图作为一种数据结构不仅能表示对象，而且能较好地刻画对象各个部分之间的关系，符合人的视觉特性。尤其是后者在实际的模式识别应用中尤为重要，比如在信封图像检索中，信封图像一般由一些显著区域组成，如邮编、地址、邮票区等，故在匹配时，可以充分利用这些区域之间的相对拓扑结构关系。对于拓扑结构有很大差异的两个信封图像，基本上可以确定它们之间的不匹配关系。

图匹配有坚实的数学理论基础，对旋转、平移均具有良好的不变性。近年来，许多学者开展了图匹配方法的研究。主要分为两大类：精确匹配以及非精确匹配。其中精确匹配要求待匹配的两个图具有完全相同的顶点以及顶点之间的拓扑结构关系，这种苛刻的要求限制了其在实际中的应用。而在非精确匹配中，更多关注的是在两个图不完全相同的情况下，如何给出一个合适的相似性度量方法。

发明内容

本发明的目的是提供一种信封图像匹配方法，以实现以信封图像作为查询依据在信函分拣系统的数据库中查询相关信息。

本发明的技术方案是，一种信封图像匹配方法，包括对信封图像进行高斯平滑滤波、边缘检测、二值化以及闭运算的预处理步骤，还包括以下步骤：

A1，对所述信封图像进行分割，分割结果为Ω＝{R₁，R₂，...，R_N}，其中N表示区域总数，区域R_i的邻接区域为N(R_i)，基于分割结果Ω构建该信封图像的图表示G＝(V，E，μ，v)，其中V是顶点集，E是边集，μ：V→L_V为顶点属性函数，v：E→L_E为边属性函数，其中L_V和L_E以是任意类型的集合，图G中的顶点v_i对应Ω中的区域R_i，图G中的任两个顶点v_i及v_j，其对应区域分别为R_i∈Ω及R_j∈Ω，v_i和v_j之间存在边e_ij的条件是R_i∈N(R_j)或者R_j∈N(R_i)，

对于图G中的顶点v_i，其属性定义为v_i＝{F_i，T_i，M_i，C_i}，

前景像素比例F，即区域R_i中前景像素占整个图像中前景像素的比例，纹理特征为特征向量T_i＝{Ent_avg，Ent_var，Con_avg，Con_var，Hom_avg，Hom_var}.计算区域R_i的四方向，包括0度、45度、90度以及180度的灰度共生矩阵P_j(j＝1，2，3，4)，其大小为S×S，基于每个P_j提取熵Ent、对比度Con和逆差距Hom三个特征：

{Ent}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} P_{j} (a, b) \times \log P_{j} (a, b) - - - (1)

{Con}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} {(a - b)}^{2} \times P_{j} (a, b) - - - (2)

{Hom}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} \frac{P_{j} (a, b)}{1 + {(a - b)}^{2}} - - - (3)

对每个特征分别求四个方向的均值与方差，则纹理特征最终表示为特征向量T_i＝{Ent_avg，Ent_var，Con_avg，Con_var，Hom_avg，Hom_var}.

矩特征M。假定区域R_i的灰度级范围为[0-L]，则其归一化后灰度直方图表示成H_i＝{h(0)，h(1)，...，h(L)}，其中h(k)(k＝0，1，...，L)代表灰度级k在区域R_i中所占比例，该区域的直方图二阶矩为：

M_{i} = Σ_{k = 0}^{L} {(k - m)}^{2} \times h (k) - - - (4)

其中m为区域R_i的平均灰度值。

上下文特征C。令(Cx_i，Cy_i)为R_i的中心，R_j∈N(R_i)的中心为(Cx_j，Cy_j)。

连接(Cx_i，Cy_i)与(Cx_j，Cy_j)，则形成以(Cx_i，Cy_i)为中心的星形拓扑结构，将整个平面划分为||N(R_i)||份，该拓扑结构较好地描述了N(R_i)之间相对于R_i的位置关系。用θ来表示两条直线间的夹角，则R_i的上下文特征可以描述为特征向量

图G中连接顶点v_i和v_j的边e_ij，其属性描述所连接两个区域R_i和R_j之间的邻接关系，边e_ij的属性为e_ij＝{Cdis_ij，Ang_ij}

归一化的中心连线距离Cdis

{Cdis}_{ij} = \frac{\sqrt{{({Cx}_{i} - {Cx}_{j})}^{2} + {({Cy}_{i} - {Cy}_{j})}^{2}}}{\sqrt{{ImgH}^{2} + {ImgW}^{2}}} - - - (5)

R_i的中心坐标为(Cx_i，Cy_i)，R_j的中心坐标为(Cx_j，Cy_j)，其中ImgH和ImgW分别代表信封图像的高和宽，

边e_ij的角度特征Ang指该边与其它所有与顶点v_i或v_j相连的边之间的夹角集合，设E_i＝{e_im|m＝1，2，...，N_i，m≠j，m≠i}表示与顶点v_i相连的边集，E_j＝{e_jn|n＝1，2，...，N_j，n≠i，n≠j}表示与顶点v_j相连的边集，其中N_i和N_j分别表示与顶点v_i及v_j相连的边数，则e_ij的角度特征Ang为：

Ang_ij＝Ang_i∪Ang_j (6)

其中，

{Ang}_{i} = {θ_{e_{ij} e_{i 1}}, θ_{e_{ij} e_{i 2}}, . . ., θ_{e_{ij} e_{im}}}, e_{im} &Element; E_{i} - - - (7)

{Ang}_{j} = {θ_{e_{ij} e_{j 1}}, θ_{e_{ij} e_{j 2}}, . . ., θ_{e_{ij} e_{jn}}}, e_{jn} &Element; E_{j} - - - (8)

θ_{e_{ij} e_{im}} = \arccos (\frac{e_{ij} \cdot e_{im}}{| e_{ij} | \times | e_{im} |}) - - - (9)

A2，令图库中任一图表示为G′＝(V′，E′，μ′，v′)，计算图G＝(V，E，μ，v)与G′＝(V′，E′，μ′，v′)之间的相似度，具体步骤为：

B1，计算v_i∈G与v_i′∈G′顶点之间的距离

d(v_i，v_i′)＝d_F+d_T+d_M+d_C (15)

其中，

属性F之间的距离d_F：

d_{F} = \frac{| F_{i} - F_{i^{'}} |}{F_{i} + F_{i^{'}}} - - - (10)

属性T之间的距离d_T：

d_{T} = 1 - \underset{K = Ent, Con, Hom}{Π} \frac{\min (K_{avgi}, K_{{avgi}^{'}}) \min (K_{vari}, K_{{vari}^{'}})}{\max (K_{avgi}, K_{{avgi}^{'}}) \max (K_{vari}, K_{{vari}^{'}})} - - - (11)

属性M之间的距离d_M：

d_{M} = \frac{| M_{i} - M_{i^{'}} |}{M_{i} + M_{i^{'}}}

属性C之间的距离d_C

采用Hausdorff距离计算d_C，具体方法如下，

假定C_i＝{θ₁，θ₂，...，θ_p}，C_i′＝{θ′₁，θ′₂，...，θ′_p′}，则

d_{C} = \frac{\max (h (C_{i}, C_{i^{'}}), h (C_{i^{'}}, C_{i}))}{Context_MAX} - - - (12)

其中，

h (C_{i}, C_{i^{'}}) = \max_{θ &Element; C_{i}} \min_{θ^{'} &Element; C_{i^{'}}} | θ - θ^{'} | - - - (13)

h (C_{i^{'}}, C_{i}) = \max_{θ^{'} &Element; C_{i^{'}}} \min_{θ &Element; C_{i}} | θ^{'} - θ | - - - (14)

Context_MAX是两个顶点属性C之间可能取到的最大Hausdorff距离，即获得v_i∈G与v_i′∈G′之间的距离d(v_i，v_i′)如下，

d(v_i，v_i′)＝d_F+d_T+d_M+d_C (15)

B2，计算对于e_ij∈G和e_i′j′∈G′，边之间的距离为

d(e_ij，e_i′j′)＝d_Cdis+d_Ang (16)

其中d_Cdis表示Cdis属性之间的距离，d_Ang表示Ang属性之间的距离，

属性Cdis之间的距离d_Cdis为

d_{Cdis} = \frac{| {Cdis}_{ij} - {Cdis}_{i^{'} j^{'}} |}{| {Cdis}_{ij} + {Cdis}_{i^{'} j^{'}} |}

属性Ang之间的距离d_Ang采用Hausdorff距离计算，主要步骤如下：

假设Ang_ij＝{θ₁，θ₂，...，θ_p}，Ang_i′j′＝{θ′₁，θ′₂，...，θ′_p′}，则

d_{Ang} = \frac{\max (h ({Ang}_{ij}, {Ang}_{i^{'} j^{'}}), h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij}))}{Ang_MAX}

其中，

h ({Ang}_{ij}, {Ang}_{i^{'} j^{'}}) = \max_{θ &Element; {Ang}_{ij}} \min_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} | θ - θ^{'} |

h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij}) = \max_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} \min_{θ &Element; {Ang}_{ij}} | θ^{'} - θ |

Ang_MAX是两条边属性Ang之间可能取到的最大Hausdorff距离；

B3，计算图之间的距离Dist(G，G′)

根据G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)建立二分图BP，具体为：令

BP = (\overset{&OverBar;}{U}, \overset{&OverBar;}{W}, \overset{&OverBar;}{E}),

其中

\overset{&OverBar;}{U} = V,

\overset{&OverBar;}{W} = V^{'},

\overset{&OverBar;}{E} = \overset{&OverBar;}{U} \times \overset{&OverBar;}{W}

令其权重

w ({\overset{&OverBar;}{e}}_{{ii}^{'}}) = d (v_{i}, v_{i^{'}})

基于二分图BP，运用Munkre算法获得具有最小权重的匹配，将该最小权重作为两个图之间的顶点距离Dist_Node，

假设图G＝(V，E，μ，v)与G′＝(V′，E′，μ′，v′)中顶点数目分别为N和N′，则采用Munkre算法获得min(N，N′)对顶点对应关系，定义0-1矩阵Z，大小为N×N′，即

基于矩阵Z可以获得两个图之间隐含的边匹配关系，主要分为以下四种情况：假设v_i∈G，v_j∈G及v_i′∈G′，v_j′∈G′，Z[i][i′]＝1并且Z[j][j′]＝1，

对于e_ij∈E∩e_i′j′∈E′，d(e_ij，e_i′j′)值不变，

对于

令d(e_ij，e_i′j′)＝0

对于令d(e_ij，e_i′j′)＝σ，其中σ为大于0的常数，

对于

令d(e_ij，e_i′j′)＝σ，其中σ为大于0的常数，

则G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)之间的边距离Dist_Edge为：

{Dist}_{Edge} = Σ_{a = 0}^{N} Σ_{b = a + 1}^{N} Σ_{a^{'} = 0}^{N^{'}} Σ_{b^{'} = a^{'} + 1}^{N^{'}} Z [a] [a^{'}] Z [b] [b^{'}] d (e_{ab}, e_{a^{'} b^{'}}) - - - (18)

当图G＝(V，E，μ，v)与G′＝(V′，E′，μ′，v′)中顶点数目不同时，额外的匹配代价Penal(G，G′)为：

Penal (G, G^{'}) = \frac{fabs (| | V | | - | | V^{'} | |)}{| | V | | + | | V^{'} | |} - - - (19)

其中||·||表示图中顶点数目，fabs(·)为取绝对值操作，

图G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)之间的距离Dist(G，G′)为：

Dist(G，G′)＝Dist_Node(G，G′)+Dist_Edge(G，G′)+Penal(G，G′)(20)，距离Dist(G，G′)即为G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)之间的相似度。

本发明将待匹配的两个信封图像分别用图表示出来，则图像之间的相似度计算转化为图匹配问题，采用基于最小权重的二分图匹配算法计算两个图之间的距离。

进一步的，首先对信封图像进行分割，基于分割结果构建图像的图表示。其中，图的每个顶点代表信封图像中的一个区域，而图的每一条边用来表示两个区域之间的邻接关系。

由于图像在采集过程中易受到噪声等因素的影响，可能会导致对应于同一个信封的多个图像的图表示有所不同，故本发明采用一种非精确图匹配算法。大量实验结果表明，该方法对于光照、倾斜、旋转等具有较强的鲁棒性，能够高效地实现基于信封图像的信函信息查询。

附图说明

图1是本发明实施例中信封图像的预处理流程图

图2是本发明实施例中信封图像的分割结果示意图

图3是本发明实施例中信封图像中各个区域之间的邻接关系

图4是本发明实施例中信封图像的图表示

图5是本发明实施例中信封图像中每个区域与其邻接区域之间形成的“星型”拓扑结构

图6是本发明实施例中所构建的图中顶点的上下文属性

图7是本发明实施例中所构建的图中边的角度属性

图8是本发明实施例中基于最小权重的二分图匹配

图9是本发明实施例中信封图像的检索流程

具体实施方式

以下结合附图对本发明的具体实施方式做详细说明。

为了减少噪声等干扰对后续图像分割以及匹配的影响，需要对图像进行预处理，主要包括高斯平滑滤波、边缘检测、二值化以及闭运算等几个步骤，如图1所示。

将图匹配方法应用在实际问题中时，首先要解决的问题是如何准确地将待处理对象用图表示出来。方法是，先对信封图像进行分割，得到若干不相交区域，然后基于分割结果来构建图。采用基于区域的方法来构建信封图像的图表示主要原因在于区域是介于像素以及整幅图像之间的一种有效的图像表征方法，通过对每个区域属性的描述可以获得图像的局部特征，而各个区域之间的关系则可以表达出图像的全局拓扑结构。所以较通常采用的基于特征点构建图的方法在描述对象的能力方面具有一定优势。

结合信封图像版面格式的先验知识，采用连通元分析(CCA)方法对信封图像进行分割，分割结果的一个实例如图2所示。

本发明技术方案中涉及的一些概念和方法如下所述。

1，构建信封图像的图表示。

以下对如何基于信封图像的分割结果构建其图表示G做详细说明。

令图像分割结果为Ω＝{R₁，R₂，...，R_N}，其中N表示区域总数。定义区域R_i的邻接区域为N(R_i)，基于Ω构建图像的图表示G的主要方法如下：

(1)图G中的每个顶点v_i对应Ω中的一个区域R_i。

(2)对于图G中的两个顶点v_i及v_j，假设其对应区域分别为R_i∈Ω及R_j∈Ω。则v_i和v_j之间存在边e_ij的条件是R_i∈N(R_j)或者R_j∈N(R_i)。

具体来说，将图G表示为四元组G＝(V，E，μ，v)，其中V是顶点集，E是边集，μ：V→L_V为顶点属性函数，v：E→L_E为边属性函数。其中L_V和L_E可以是任意类型的集合，比如实数、向量或者符号。图3显示了信封图像中各个区域之间的邻接关系，图4为对应于该信封图像的图表示。

1.1，关于前述的图中顶点属性的定义特别说明如下。

图中顶点属性对应于其所代表图像区域的特征，由于光照的影响，会导致直接基于图像灰度的特征具有不稳定性，所以后续操作均是基于图像的边缘图进行的。一方面边缘保留了原始图像中的所有重要信息，并且对光照有一定鲁棒性。

(1)前景像素比例F。即区域R_i中前景像素占整个图像中前景像素的比例。

(2)纹理特征T。分别计算区域R_i的四方向(0度、45度、90度以及180度)灰度共生矩阵P_j(j＝1，2，3，4)，其大小为S×S。基于每个P_j提取熵Ent、对比度Con和逆差距Hom三个特征。

{Ent}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} P_{j} (a, b) \times \log P_{j} (a, b) - - - (1)

{Con}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} {(a - b)}^{2} \times P_{j} (a, b) - - - (2)

{Hom}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} \frac{P_{j} (a, b)}{1 + {(a - b)}^{2}} - - - (3)

对每个特征分别求四个方向的均值与方差，则纹理特征最终表示为特征向量T_i＝{Ent_avg，Ent_var，Con_avg，Con_vav，Hom_avg，Hom_var}.

(3)矩特征M。假定区域R_i的灰度级范围为[0-L]，则其归一化后灰度直方图表示成H_i＝{h(0)，h(1)，...，h(L)}，其中h(k)(k＝0，1，...，L)代表灰度级k在区域R_i中所占比例。该区域的直方图二阶矩被定义为：

M_{i} = Σ_{k = 0}^{L} {(k - m)}^{2} \times h (k) - - - (4)

其中m为区域R_i的平均灰度值。

(4)上下文特征C。令(Cx_i，Cy_i)为R_i的中心，R_j∈N(R_i)的中心为(Cx_j，Cy_j)。

连接(Cx_i，Cy_i)与(Cx_j，Cy_j)，则形成以(Cx_i，Cy_i)为中心的星形拓扑结构，如图5所示，将整个平面划分为||N(R_i)||份，该拓扑结构较好地描述了N(R_i)之间相对于R_i的位置关系。用θ来表示两条直线间的夹角，则R_i的上下文特征可以描述为特

征向量

C_{i} = {θ_{1}, θ_{2}, . . ., θ_{| | N (R_{i}) | |}},

如图6所示。

从上述定义方式来看，上下文特征具有良好的旋转不变性，只要区域R_i和其相邻区域N(R_i)之间相对位置关系维持不变，则R_i的上下文特征具有稳定性。

综合起来，

其属性定义为v_i＝{F_i，T_i，M_i，C_i}。

1.2，图中边属性定义

对于G中任意一条连接顶点v_i和v_j的边e_ij，其属性主要用来描述所连接两个区域R_i和R_j之间的邻接关系，以下分别从距离Cdis以及角度Ang两个方面来考虑。

(1)归一化的中心连线距离Cdis

令R_i的中心坐标为(Cx_i，Cy_i)，R_j的中心坐标为(Cx_j，Cy_j)，则

{Cdis}_{ij} = \frac{\sqrt{{({Cx}_{i} - {Cx}_{j})}^{2} + {({Cy}_{i} - {Cy}_{j})}^{2}}}{\sqrt{{ImgH}^{2} + {ImgW}^{2}}} - - - (5)

其中ImgH和ImgW分别代表信封图像的高和宽。

(2)角度Ang

边e_ij的角度特征Ang指该边与其它所有与顶点v_i或v_j相连的边之间的夹角集合，如图7所示。假设E_i＝{e_im|m＝1，2，...，N_i，m≠j，m≠i}表示与顶点v_i相连的边集，E_j＝{e_jn|n＝1，2，...，N_j，n≠i，n≠j}表示与顶点v_j相连的边集，其中N_i和N_j分别表示与顶点v_i及v_j相连的边数，则e_ij的角度特征Ang定义如下，

Ang_ij＝Ang_i∪Ang_j (6)

其中，

{Ang}_{i} = {θ_{e_{ij} e_{i 1}}, θ_{e_{ij} e_{i 2}}, . . ., θ_{e_{ij} e_{im}}}, e_{im} &Element; E_{i} - - - (7)

{Ang}_{j} = {θ_{e_{ij} e_{j 1}}, θ_{e_{ij} e_{j 2}}, . . ., θ_{e_{ij} e_{jn}}}, e_{jn} &Element; E_{j} - - - (8)

θ_{e_{ij} e_{im}} = \arccos (\frac{e_{ij} \cdot e_{im}}{| e_{ij} | \times | e_{im} |}) - - - (9)

故图中边e_ij的属性定义为e_ij＝{Cdis_ij，Ang_ij}。

2，图匹配算法

以下主要介绍本发明中采用的图匹配算法。

为计算两个图G＝(V，E，μ，v)与G′＝(V′，E′，μ′，v′)之间的相似度，采用基于最小权重的二分图匹配算法，虽然属于一种次优图匹配方法，即不保证得到最优解，但是通过大量实验证明，该方法在基本不影响匹配性能的前提下大大提高了时间效率。

2.1，顶点之间的距离

v_i∈G与v_i′∈G′之间的距离d(v_i，v_i′)定义为各个属性分量之间的距离和。

(1)属性F之间的距离d_F

d_{F} = \frac{| F_{i} - F_{i^{'}} |}{F_{i} + F_{i^{'}}} - - - (10)

(2)属性T之间的距离d_T

d_{T} = 1 - \underset{K = Ent, Con, Hom}{Π} \frac{\min (K_{avgi}, K_{{avgi}^{'}}) \min (K_{vari}, K_{{vari}^{'}})}{\max (K_{avgi}, K_{{avgi}^{'}}) \max (K_{vari}, K_{{vari}^{'}})} - - - (11)

(3)属性M之间的距离d_M

d_M定义方法与d_F相似，

d_{M} = \frac{| M_{i} - M_{i^{'}} |}{M_{i} + M_{i^{'}}}

(4)属性C之间的距离d_C

采用Hausdorff距离计算d_C，具体方法如下，

d_{C} = \frac{\max (h (C_{i}, C_{i^{'}}), h (C_{i^{'}}, C_{i}))}{Context_MAX} - - - (12)

其中，

h (C_{i}, C_{i^{'}}) = \max_{θ &Element; C_{i}} \min_{θ^{'} &Element; C_{i^{'}}} | θ - θ^{'} | - - - (13)

h (C_{i^{'}}, C_{i}) = \max_{θ^{'} &Element; C_{i^{'}}} \min_{θ &Element; C_{i}} | θ^{'} - θ | - - - (14)

Context_MAX是两个顶点属性C之间可能取到的最大Hausdorff距离。

即v_i∈G与v_i′∈G之间的距离d(v_i，v_i′)定义如下，

d(v_i，v_i′)＝d_F+d_T+d_M+d_C (15)

2.2，边之间的距离

边之间的距离定义为两条边各个属性分量之间的距离和。

与顶点之间距离计算方法类似，边之间的距离同样定义为各个属性分量之间的距离和，对于e_ij∈G和e_i′j′∈G′，其距离为

d(e_ij，e_i′j′)＝d_Cdis+d_Ang (16)

其中d_Cdis表示Cdis属性之间的距离，采用与d_F相似的定义方法。d_Ang表示Ang属性之间的距离，定义方法与d_C类似。

(1)属性Cdis之间的距离d_Cdis

d_{Cdis} = \frac{| {Cdis}_{ij} - {Cdis}_{i^{'} j^{'}} |}{| {Cdis}_{ij} + {Cdis}_{i^{'} j^{'}} |}

(2)属性Ang之间的距离d_Ang

采用Hausdorff距离计算d_Ang，主要步骤如下：

d_{Ang} = \frac{\max (h ({Ang}_{ij}, {Ang}_{i^{'} j^{'}}), h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij}))}{Ang_MAX}

其中，

h ({Ang}_{ij}, {Ang}_{i^{'} j^{'}}) = \max_{θ &Element; {Ang}_{ij}} \min_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} | θ - θ^{'} |

h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij}) = \max_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} \min_{θ &Element; {Ang}_{ij}} | θ^{'} - θ |

Ang_MAX是两条边属性Ang之间可能取到的最大Hausdorff距离。

2.3，图之间的距离

采用一种基于最小权重的二分图匹配算法来计算两个图之间的距离，首先根据G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)建立二分图BP，如图8所示，具体步骤如下，

(1)令

BP = (\overset{&OverBar;}{U}, \overset{&OverBar;}{W}, \overset{&OverBar;}{E}),

其中

\overset{&OverBar;}{U} = V,

\overset{&OverBar;}{W} = V^{'},

\overset{&OverBar;}{E} = \overset{&OverBar;}{U} \times \overset{&OverBar;}{W}

令其权重

w ({\overset{&OverBar;}{e}}_{{ii}^{'}}) = d (v_{i}, v_{i^{'}})

基于二分图BP，运用Munkre算法获得具有最小权重的匹配，将该最小权重作为两个图之间的顶点距离Dist_Node。

假设图G＝(V，E，μ，v)与G′＝(V′，E′，μ′，v′)中顶点数目分别为N和N′，则采用Munkre算法获得min(N，N′)对顶点对应关系，为了便于描述，定义0-1矩阵Z，大小为N×N′，即

基于矩阵Z可以获得两个图之间隐含的边匹配关系，主要分为以下四种情况来讨论：假设v_i∈G，v_j∈G及v_i′∈G′，v_j′∈G′，Z[i][i′]＝1并且Z[j][j′]＝1，

(1) e_{ij} &Element; E \cap e_{i^{'} j^{'}} &Element; E^{'}

(2) e_{ij} &Element; E \cap e_{i^{'} j^{'}} &NotElement; E^{'}

(3) e_{ij} &NotElement; E \cap e_{i^{'} j^{'}} &Element; E^{'}

(4) e_{ij} &NotElement; E \cap e_{i^{'} j^{'}} &NotElement; E^{'}

对于(1)，采用2.2中所述方法计算边e_ij，e_i′j′之间的距离d(e_ij，e_i′j′)。

对于(4)，令d(e_ij，e_i′j′)＝0。

对于(2)(3)，令d(e_ij，e_i′j′)＝σ，其中σ为大于0的常数。

则两个图之间的边距离Dist_Edge定义为

{Dist}_{Edge} = Σ_{a = 0}^{N} Σ_{b = a + 1}^{N} Σ_{a^{'} = 0}^{N^{'}} Σ_{b^{'} = a^{'} + 1}^{N^{'}} Z [a] [a^{'}] Z [b] [b^{'}] d (e_{ab}, e_{a^{'} b^{'}}) - - - (18)

此外，当两个图中顶点数目不同时，需要考虑额外的匹配代价Penal(G，G′)，具体定义为，

Penal (G, G^{'}) = \frac{fabs (| | V | | - | | V^{'} | |)}{| | V | | + | | V^{'} | |} - - - (19)

其中||·||表示图中顶点数目，fabs(·)为取绝对值操作。

则最终两个图G＝(V，E，μ，v)和G′＝(V′，E′，μ′，v′)之间的距离Dist(G，G′)定义如下：

Dist(G，G′)＝Dist_Node(G，G′)+Dist_Edge(G，G′)+Penal(G，G′)(20)

3，信封图像检索系统

基于上述图匹配方法建立信封图像检索系统，预先构建数据库中所有图像的图表示形成图库，当查询图像被提交后，对查询图像进行同样处理并生成其图表示，依次与图库中所有图进行匹配，将最为相似即相应两个图之间距离最小的图像以及其相关信息作为查询结果返回。上述做法存在一个问题，当数据库中图像数目很大时，将查询图像和数据库中所有图像依次做匹配带来的时间开销将是不可忍受的。针对此问题，将检索过程分解为两个阶段：粗匹配与细匹配，具体流程如图9所示。在粗匹配阶段剔除大多数无关图像，获得与查询图像Q最相关的候选匹配集R。基于该候选匹配集R，再进一步进行细匹配，通常情况下该候选匹配集中图像数目远远小于数据库中图像总数目，所以大大减少了匹配次数，降低了时间复杂度。

3.1，粗匹配

在粗匹配阶段，主要解决的问题是如何高效地剔除数据库中与查询图像无关的信封图像。前面介绍的图匹配算法虽然准确率高，但是时间开销大，所以尝试用特征向量将图表示出来，这样图匹配问题就转化为了计算两个特征向量之间的距离，而后者可以运用统计模式识别中丰富的数学工具来解决，本文采用简单直观的欧式距离。

下面具体介绍如何用特征向量将图表示出来。

(1)对图库中的所有图按照顶点数目分类，并选取每一类的中心组成集合A＝{G₁，G₂，...，G_J}，其中J表示类别总数。这里的“中心”定义为该图到其所属类中所有图的距离之和最小。

(2)任给图G ，其特征向量表示为(Dist(G，G₁)，Dist(G，G₂)，...，Dist(G，G_J))。

该方法既结合了图在描述对象方面的优势，由于通过计算两个特征向量之间的距离来近似图匹配，故在节省时间开销方面也很明显。基于此方法，获得数据库中与查询图像最相关的图像组成候选匹配集R。

3.2，细匹配

在此阶段，查询图像需要依次和候选匹配集R中的每个图像进行匹配，采用前文第2标题部分中所述图匹配算法，最终将与查询图像最相似的图像及其相关信息返回。

Claims

1.一种信封图像匹配方法，包括对信封图像进行高斯平滑滤波、边缘检测、二值化以及闭运算的预处理步骤，其特征在于，还包括以下步骤：

步骤A1，对所述信封图像进行分割，分割结果为Ω={R₁,R₂,...,R_N}，其中N表示区域总数，区域R_i的邻接区域为N(R_i)，基于分割结果Ω构建该信封图像的图G=(V,E,μ,ν)，其中V是顶点集，E是边集，μ:V→L_V为顶点属性函数，ν:E→L_E为边属性函数，其中L_V和L_E可以是任意类型的集合，图G中的顶点v_i对应Ω中的区域R_i，图G中的任两个顶点v_i及v_j，其对应区域分别为R_i∈Ω及R_j∈Ω，v_i和v_j之间存在边e_ij的条件是R_i∈N(R_j)或者R_j∈N(R_i)，图G顶点数目与区域总数相等，也为N，

对于图G中的顶点v_i，v_i∈V，根据描述习惯，记v_i∈G，其属性定义为v_i={F_i,T_i,M_i,C_i}，

其中，F_i为前景像素比例，即区域R_i中前景像素占整个图像中前景像素的比例；

T_i为纹理特征向量，且

T_i={Ent_avg,Ent_var,Con_avg,Con_var,Hom_avg,Hom_var}，

即计算区域R_i的四方向，包括0度、45度、90度以及180度的灰度共生矩阵P_j(j=1,2,3,4)，其大小为S×S，基于每个P_j提取熵Ent、对比度Con和逆差距Hom三个特征：

{Ent}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} P_{j} (a, b) \times \log P_{j} (a, b) - - - (1)

{Con}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} {(a - b)}^{2} \times P_{j} (a, b) - - - (2)

{Hom}_{j} = - Σ_{a = 0}^{S} Σ_{b = 0}^{S} \frac{P_{j} (a, b)}{1 + {(a - b)}^{2}} - - - (3)

对每个特征分别求四个方向的均值与方差，则纹理特征最终表示为特征向量T_i={Ent_avg,Ent_var,Con_avg,Con_var,Hom_avg,Hom_var}；

M_i为矩特征，假定区域R_i的灰度级范围为[0-L]，则其归一化后灰度直方图表示成H_i={h(0),h(1),...,h(L)}，其中h(k)(k=0,1,...,L)代表灰度级k在区域R_i中所占比例，该区域的直方图二阶矩为：

M_{i} = Σ_{k = 0}^{L} {(k - m)}^{2} \times h (k) - - - (4)

其中m为区域R_i的平均灰度值；

C_i为上下文特征，令(Cx_i,Cy_i)为R_i的中心，R_j∈N(R_i)的中心为(Cx_j,Cy_j),

连接(Cx_i,Cy_i)与(Cx_j,Cy_j)，则形成以(Cx_i,Cy_i)为中心的星形拓扑结构，将整个平面划分为||N(R_i)||份，该拓扑结构较好地描述了N(R_i)之间相对于R_i的位置关系，用θ来表示两条直线间的夹角，则R_i的上下文特征可以描述为特征向量

对于图G中连接顶点v_i和v_j的边e_ij，其属性描述所连接两个区域R_i和R_j之间的邻接关系，边e_ij={Cdis_ij,Ang_ij}

其中Cdis_ij为归一化的中心连线距离，

{Cdis}_{ij} = \frac{\sqrt{{({Cx}_{i} - {Cx}_{j})}^{2} + {({Cy}_{i} - {Cy}_{j})}^{2}}}{\sqrt{{ImgH}^{2} + Img W^{2}}} - - - (5)

R_i的中心坐标为(Cx_i,Cy_i)，R_j的中心坐标为(Cx_j,Cy_j)，其中ImgH和ImgW分别代表信封图像的高和宽，

边e_ij的角度特征Ang指该边与其它所有与顶点v_i或v_j相连的边之间的夹角集合，设E_i={e_im|m=1,2,...,N_i,m≠j,m≠i}表示与顶点v_i相连的边集，E_j={e_jn|n=1,2,...,N_j,n≠i,n≠j}表示与顶点v_j相连的边集，其中N_i和N_j分别表示与顶点v_i及v_j相连的边数，则e_ij的角度特征Ang为：

Ang_ij=Ang_i∪Ang_j （6）

其中，

{Ang}_{i} = {θ_{e_{ij} e_{i 1}}, θ_{e_{ij} e_{i 2}}, \cdot \cdot \cdot \cdot, θ_{e_{ij} e_{im}}}, e_{im} &Element; E_{i} - - - (7)

{Ang}_{j} = {θ_{e_{ij} e_{j 1}}, θ_{e_{ij} e_{j 2}}, \cdot \cdot \cdot, θ_{e_{ij} e_{jn}}}, e_{jn} &Element; E_{j} - - - (8)

θ_{e_{ij} e_{im}} = \arccos (\frac{e_{ij} \cdot e_{im}}{| e_{ij} | \times | e_{im} |}) - - - (9);

A2，令图库中任一图，表示为G'=(V',E',μ',ν')，计算图G=(V,E,μ,ν)与G'=(V',E',μ',ν')之间的相似度，具体步骤为：

B1，计算v_i∈G与v_i'∈G'顶点之间的距离

d(v_i,v_i')=d_F+d_T+d_M+d_C （15）

其中，

F_i之间的距离d_F：

d_{F} = \frac{| F_{i} - F_{i^{'}} |}{F_{i} + F_{i^{'}}} - - - (10)

T_i之间的距离d_T：

d_{T} = 1 - \underset{K = Ent, Con, Hom}{Π} \frac{\min (K_{avgi}, K_{{avgi}^{'}}) \min (K_{vari}, K_{var i^{'}})}{\max (K_{avgi}, K_{{avgi}^{'}}) \max (K_{vari}, K_{{vari}^{'}})} - - - (11)

M_i之间的距离d_M：

d_{M} = \frac{| M_{i} - M_{i^{'}} |}{M_{i} + M_{i^{'}}}

C_i之间的距离d_C

采用Hausdorff距离计算d_C，具体方法如下，

假定C_i={θ₁,θ₂,...,θ_p}，C_i'={θ'₁,θ'₂,...,θ'_p'}，则

d_{C} = \frac{\max (h (C_{i}, C_{i^{'}}), h (C_{i^{'}}, C_{i}))}{Context_MAX} - - - (12)

其中，

h (C_{i}, C_{i^{'}}) = \max_{θ &Element; C_{i}} \max_{θ^{'} &Element; C_{i^{'}}} | θ - θ^{'} | - - - (13)

h (C_{i^{'}}, C_{i}) = \max_{θ^{'} &Element; C_{i^{'}}} \min_{θ &Element; C_{i}} | θ^{'} - θ | - - - (14)

Context_MAX是两个顶点属性C之间取到的最大Hausdorff距离，即获得v_i∈G与v_i'∈G'之间的距离d(v_i,v_i')如下，

d(v_i,v_i')=d_F+d_T+d_M+d_C （15）

B2，计算对于e_ij∈G和e_i'j'∈G'，边之间的距离为

d(e_ij,e_i'j')=d_Cdis+d_Ang （16）

属性Cdis之间的距离d_Cdis为

d_{Cdis} = \frac{| {Cdis}_{ij} - {Cdis}_{i^{'} j^{'}} |}{| {Cdis}_{ij} + {Cdis}_{i^{'} j^{'}} |}

假设Ang_ij={θ₁,θ₂,...,θ_p}，Ang_i'j'={θ'₁,θ'₂,...,θ'_p'}，则

d_{Ang} = \frac{\max (h (A {ng}_{ij}, {Ang}_{i^{'} j^{'}})), h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij})}{Ang_MAX}

其中，

h ({Ang}_{ij}, {Ang}_{i^{'} j^{'}}) = \max_{θ &Element; {Ang}_{ij}} \min_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} | θ - θ^{'} |

h ({Ang}_{i^{'} j^{'}}, {Ang}_{ij}) = \min_{θ^{'} &Element; {Ang}_{i^{'} j^{'}}} \min_{θ &Element; {Ang}_{ij}} | θ^{'} - θ |

Ang_MAX是两条边属性Ang之间取到的最大Hausdorff距离；

B3，计算图之间的距离Dist(G,G')

根据G=(V,E,μ,ν)和G'=(V',E',μ',ν')建立二分图BP，具体为：令

BP = (\overset{&OverBar;}{U}, \overset{&OverBar;}{W}, \overset{&OverBar;}{E}),

其中

\overset{&OverBar;}{U} = V,

\overset{&OverBar;}{W} = V^{'},

\overset{&OverBar;}{E} = \overset{&OverBar;}{U} \times \overset{&OverBar;}{W},

若

{\overset{&OverBar;}{e}}_{{ii}^{'}} &Element; \overset{&OverBar;}{E},

则令其权重为

w ({\overset{&OverBar;}{e}}_{{ii}^{'}}) = d (v_{i}, v_{i^{'}}),

假设图G=(V,E,μ,ν)与G'=(V',E',μ',ν')中顶点数目分别为N和N'，则采用Munkre算法获得min(N,N')对顶点对应关系，定义0-1矩阵Z，大小为N×N'，即

基于矩阵Z可以获得两个图之间隐含的边匹配关系，主要分为以下四种情况：假设v_i∈G,v_j∈G及v_i'∈G',v_j'∈G'，Z[i][i']=1并且Z[j][j']=1，

对于e_ij∈E∩e_i'j'∈E'，d(e_ij,e_i'j')值不变，

对于

e_{ij} &NotElement; E \cap e_{i^{'} j^{'}} &NotElement; E^{'},

令d(e_ij,e_i'j')=0

对于

令d(e_ij,e_i'j')=σ，其中σ为大于0的常数，

对于

令d(e_ij,e_i'j')=σ，其中σ为大于0的常数，

则G=(V,E,μ,ν)和G'=(V',E',μ',ν')之间的边距离Dist_Edge为：

{Dist}_{Edge} = Σ_{a = 0}^{N} Σ_{b = a + 1}^{N} Σ_{a^{'} = 0}^{N^{'}} Σ_{b^{'} = a^{'} + 1}^{N^{'}} Z [a] [a^{'}] Z [b] [b^{'}] d (e_{ab}, e_{a^{'} b^{'}}) - - - (18)

当图G=(V,E,μ,ν)与G'=(V',E',μ',ν')中顶点数目不同时，额外的匹配代价Penal(G,G')为：

Penal (G, G^{'}) = \frac{fabs (| | V | | - | | V^{'} | |)}{| | V | | + | | V^{'} | |} - - - (19)

其中||·||表示图中顶点数目，fabs(·)为取绝对值操作，

图G=(V,E,μ,ν)和G'=(V',E',μ',ν')之间的距离Dist(G,G')为：

Dist(G,G')=Dist_Node(G,G')+Dist_Edge(G,G')+Penal(G,G')（20），距离Dist(G,G')即为G=(V,E,μ,ν)和G'=(V',E',μ',ν')之间的相似度。