CN105096239A

CN105096239A - 图像配准方法及其装置以及图像拼接方法及其装置

Info

Publication number: CN105096239A
Application number: CN201510382287.3A
Authority: CN
Inventors: 周舒畅; 姚聪; 朱睿
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Aperture Science and Technology Ltd
Priority date: 2015-07-02
Filing date: 2015-07-02
Publication date: 2015-11-25
Anticipated expiration: 2035-07-02
Also published as: CN105096239B

Abstract

本发明公开了图像配准方法、图像配准装置、图像拼接方法和图像拼接装置。该图像配准方法包括：步骤S100：对第一图像和第二图像进行文字识别，其中该第一图像和该第二图像包含文字；步骤S200：基于文字识别结果生成候选匹配对；步骤S300：在该候选匹配对中选择自洽的候选匹配对并且根据该自洽的候选匹配对生成该第二图像到该第一图像的几何变换；以及步骤S400：根据该几何变换，将该第二图像映射到该第一图像的坐标系中。上述图像配准方法和其对应装置计算量小、配准准确。因为配准过程的计算量小、结果准确，上述图像拼接方法和其对应装置也在较小计算量的前提下，能够取得较好拼接效果。

Description

图像配准方法及其装置以及图像拼接方法及其装置

技术领域

本发明涉及图像处理领域，具体涉及一种图像配准方法、图像拼接方法以及与二者分别对应的装置。

背景技术

图像配准是采用一定的匹配策略，找出一个图像中的像素点在另一图像中对应的位置，进而确定两个图像之间的变换关系的图像处理方法。现有的图像配准方法主要采用点匹配法。具体地，首先通过寻找两个图像中的角点找到关键点，在关键点邻域提取描述子。之后，在两个图像中基于描述子生成候选匹配对。然后，在候选匹配对中选择一组自洽的候选匹配对，例如通过投票的方法，并生成图像间的几何变换。最后，可根据该几何变换将一个图像映射到另一图像的坐标系中。

图像拼接是将多张有重叠部分的图像，例如不同时间、不同视角或者不同传感器获得的图像，拼成一幅大型图像的技术。例如，当用照相机的镜头成像时，镜头的视角和图像解析度是一对矛盾。具体地，增加镜头的视角能一次摄入更多的内容，但是因为照相机的像素不变，因此图像解析度必然降低。如果要保证图像解析度，则必然视角较小，无法一次摄入太多内容。因此当需要对较大对象，例如大幅面文档印刷件，进行高清成像时，通常采用如下方法：首先拍摄多张具有少量重叠的高清图像，然后利用重叠部分对图像进行配准，最后将经配准的图像进行融合，以得到经拼接重构的平滑无缝全景图像。图像配准和图像融合是图像拼接的两个关键技术。图像配准是图像融合的基础。

当上述图像配准方法用于文档印刷件图像时，由于文字的角点繁多且相似度高，导致候选匹配对繁多，显著增加了计算量且容易造成配准错误。图像配准的计算量直接影响图像拼接的计算量，而且如果图像配准发生错误，将造成图像拼接也发生错误。

发明内容

鉴于上述问题，提出了本发明以便提供一种至少部分地解决上述问题的图像配准方法、图像拼接方法以及与二者分别对应的装置。

根据本发明一个方面，提供了一种图像配准方法。该图像配准方法包括以下步骤：步骤S100：对第一图像和第二图像进行文字识别，其中该第一图像和该第二图像包含文字；步骤S200：基于文字识别结果生成候选匹配对；步骤S300：在该候选匹配对中选择自洽的候选匹配对并且根据该自洽的候选匹配对生成该第二图像到该第一图像的几何变换；以及步骤S400：根据该几何变换，将该第二图像映射到该第一图像的坐标系中。

可选地，上述步骤S100进一步包括：对该第一图像和该第二图像进行文字样式识别。该文字样式可以包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果。

可选地，上述步骤S100进一步包括：针对所识别的文字，确定文字识别的识别置信度，其中该识别置信度作为该文字识别结果的一部分。

可选地，上述步骤S200进一步包括：识别该文字识别结果中的预定字；以及针对该文字识别结果中的、该预定字以外的字生成该候选匹配对。

根据本发明另一方面，提供了一种图像拼接方法。该图像拼接方法包括步骤：按照上述图像配准方法对待拼接图像中的、包含文字的第一图像和第二图像进行配准。

根据本发明又一方面，提供了一种图像配准装置。该图像配准装置包括识别模块、粗匹配模块、细匹配模块和映射模块。识别模块用于对第一图像和第二图像进行文字识别，其中该第一图像和该第二图像包含文字。粗匹配模块用于基于文字识别结果生成候选匹配对。细匹配模块用于在该候选匹配对中选择自洽的候选匹配对并且根据该自洽的候选匹配对生成该第二图像到该第一图像的几何变换。映射模块用于根据该几何变换将该第二图像映射到该第一图像的坐标系中。

可选地，上述识别模块进一步包括：样式识别模块，用于对该第一图像和该第二图像进行文字样式识别。该文字样式可以包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果。

可选地，上述识别模块进一步包括：置信度确定模块，用于针对所识别的文字，确定文字识别的识别置信度，其中该识别置信度作为该文字识别结果的一部分。

可选地，上述粗匹配模块进一步包括预定字识别模块和匹配对生成模块。预定字识别模块用于识别该文字识别结果中的预定字。匹配对生成模块用于针对该文字识别结果中的、该预定字以外的字生成该候选匹配对。

根据本发明再一方面，提供了一种图像拼接装置。该图像拼接装置包括上述图像配准装置。

根据本发明的图像配准方法、图像拼接方法以及与二者分别对应的装置，避免了现有技术中包含文字的图像配准时角点过多且相似度高以及其带来的候选匹配对繁多、计算量大、配准容易错误的问题。相应地，取得了图像配准的计算量小，准确度高的有益效果。因为图像配准的计算量小、结果准确，上述图像拼接方法和其对应装置也在具有较小计算量的前提下，能够取得较好拼接效果。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了根据本发明一个实施例的图像配准方法的流程图；

图2示出了根据本发明一个实施例的、经文字识别的图像的示意图；

图3示出了根据本发明一个实施例的第二图像到第一图像的几何变换示意图；

图4示出了根据本发明一个实施例的图像拼接方法的流程图；

图5示出了根据本发明一个实施例的图像配准装置的示意性框图；以及

图6示出了根据本发明一个实施例的图像拼接装置的示意性框图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

文字是人类用来交流的符号系统，是纪录思想和事件的书写形式。文字是由简单图形形成，早期更加接近图画，现在更加接近几何线条。例如拉丁字母是简单的直线、弧线和点构成。汉字主要是由直线构成，所以叫做“方块汉字”。包含文字的图像，可能包含过多图像亮度变化剧烈的点或图像边缘曲线上曲率极大值的点，也即角点。这给基于角点的图像配准带来了极大负面影响，进而也对图像拼接造成了很大困扰。

为解决上述问题，根据本发明一个方面，提供了一种图像配准方法。图1示出根据本发明一个实施例的图像配准方法100的流程图，在该图像配准方法100中，将第一图像与第二图像进行配准。如图1所示，图像配准方法100包括步骤S110、步骤S120、步骤S130和步骤S140。

步骤S110：对第一图像和第二图像进行文字识别，其中第一图像和第二图像包含文字。

相对于角点，文字是更高层的图像特征，特异性更高。可以通过光学字符识别(OCR)方式来进行文字识别，其通过图像处理和模式识别对光学字符进行识别。具体而言，OCR是检查图像上的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成文字的过程。可以理解，本发明中图像所包含的文字，并不仅限于汉字，其可以包括英文、日文、韩文等其他文字。

通过文字识别，可以对第一图像和第二图像进行文字内容识别。换言之，即识别出第一图像和第二图像上包含哪些具体文字。文字识别还同时识别了这些文字内容在图像中的位置。例如，图2示出了根据本发明一个实施例的、经文字识别的图像的示意图。对于图2所示的图像，可以识别出图像中包括以下文字、词组和短语：“奥巴马”、“男”、“肯尼”、“1961”、“8”、“4”、“华盛顿特区宜宾法尼亚大道1600号白宫”等等。文字识别操作还可以识别出每个文字在图像中的特定位置。进而，文字识别可以获得一个或多个文本区域，如图2中的矩形框内区域所示。

可选地，本步骤S110还可以包括：对第一图像和第二图像进行文字样式识别。文字样式是一组可随图形保存的文字设置的集合。这些设置可包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果等。文字特殊效果简称文字特效，其包括文字是否是上标或下标，是否被标记有删除线、下划线等，是否具有阴影等等。

可选地，步骤S110进一步包括：针对所识别的文字，确定文字识别的识别置信度。对于图像中每个所识别的文字，其识别置信度是不同的，有些文字的识别置信度高，有些文字的识别置信度低。特别地，对于位于图像中不同位置的两个字，其可能内容一致，例如都是文字“阿”，但是其识别置信度也可能各有高低。

与实施方案相对应地，文字内容、文字样式和识别置信度均可以作为文字识别结果的一部分。

在图像配准过程中，除了文字内容，还考虑到文字样式和识别置信度，可以更好地进行第一图像和第二图像的文本区域匹配，避免发生匹配错误。

步骤S120：基于步骤S110的文字识别结果生成候选匹配对。通过对步骤S110的描述，可以理解，文字识别结果可以至少包括所识别的具体文字和其在图像中的位置，进而可以确定图像包括哪些文本区域。根据文字识别结果，可以初步判断第一图像和第二图像中有哪些文本区域是匹配的，这样即可生成候选匹配对。

可选地，利用打分公式来对各个文本区域进行打分，以生成候选匹配对。例如，打分公式d可以如公式(1)所示：

d(t₁，t₂)＝a₀(text(t₁)-text(t₂))²+

a₁(size(t₁)-size(t₂))²+

a₂(stroke-color(t₁)-stroke-color(t₂))+

a₃(font(t₁)-font(t₂))²+

a₄(aspect-ratio(t₁)-aspect-ratio(t₂))²+

a₅(confidence(t₁)-confidence(t₂))²(1)

公式(1)中，下标1和下标2分别表示参数所属的图像是第一图像和第二图像。t₁、t₂为待比较的文本区域。text()表示文本区域内的文字内容，size()表示文本区域内文字的文字大小，stroke-color()表示文本区域内文字的文字颜色，font()表示文本区域内的文字字体，aspect-ratio()表示文本区域内的文字长宽比，confidence()表示文本区域内文字的文字识别置信度。a₀、a₁、a₂、a₃、a₄、a₅为系数，其均为任意实数，a₀、a₁、a₂、a₃、a₄、a₅可以都取相同值，例如1。a₀与其余参数相比，其可以为较大值，而剩余参数为较小值。

对于打分公式中的每项，可以设置其相减的规则。本领域普通技术人员可以理解，各个项之间的相减规则可以不同。例如，每项中的减数与被减数完全相同则差值为0，否则差值为1。又例如，对于项a₀(text(t₁)-text(t₂))²，可以设置为根据文本内容的差异度计算差值text(t₁)-text(t₂)。对于包含字数较多的文本内容text(t₁)和text(t₂)，可以根据文字相同的比例计算差值。如果二者完全相同，差值可为0；如果二者完全不同，差值可为1；根据二者中相同的文字的个数以及文字总字数，差值可能为诸如0.1、0.2等的不同值。

本领域普通技术人员可以理解，上述公式(1)仅为打分公式的一个示例，而非限制。例如，a₁、a₂、a₃、a₄、a₅中的一个或者多个可以为0。又例如，公式(1)的右方可以加和其他的项，例如关于文字特殊效果的项a₆(effect(t₁)-effect(t₂))²。当然，打分公式也可以做其他变化，例如将打分公式中的减法改为除法等。

当上述打分公式的所获得的分数低于预定阈值时，生成候选匹配对t₁和t₂。

综上，对于公式(1)所示的打分公式，当两个文本区域的各项内容足够接近时，如文字字体类似、文字颜色相似、文字大小相近、文字识别置信度类似的文本区域，才能成为候选匹配对。例如，第一图像中黑体的文字“阿”与第二图像中楷体的文字“阿”不会构成候选匹配对。又例如，第一图像中文字“阿”的识别置信度为0.9，而第二图像中文字“阿”的识别置信度为0.1，则二者也不会构成候选匹配对。由此可知，文字样式识别和文字识别置信度能够更好地帮助筛选候选匹配对，保证了候选匹配对的准确性，并且有效减少了候选匹配对数目。进而，在保证图像配准准确性的同时，减小了后续计算量。

可选地，步骤S120中进一步包括以下步骤：识别文字识别结果中的预定字；并且针对文字识别结果中的、预定字以外的字生成候选匹配对。换言之，可以在生成候选匹配对时，忽略预定字。预定字是识别度、特异性最低的文字。针对这样的文字生成候选匹配对，对图像匹配没有太大帮助反而会造成匹配时的特征混淆，此外还造成了极大计算量。

预定字可以是最常用字。最常用字是最经常用到的文字。可以根据文字的使用频率、学科分布、构词能力、语义功能等因素来选择最常用字。通常情况下，使用频率高、学科分布广、构词能力强且语义功能多的文字是最常用字。最常用字例如：“的”、“一”、“国”、“在”、“人”等。

预定字可以是第一图像和第二图像中已知出现频率非常高的文字。例如对于图纸图像，文字“图”就可能是预定字。

总之，通过在生成候选匹配对时忽略预定字，可以有效减小计算量，并且对配准准确度没有显著负面影响。

步骤S130：在步骤S120所生成的候选匹配对中选择自洽的候选匹配对并且根据自洽的候选匹配对生成第二图像到第一图像的几何变换。其中，自洽的候选匹配对是指这些候选匹配对内在逻辑一致，不含悖论。可选地，该步骤S130利用随机抽样一致性(RandomSampleConsensus，RANSAC)算法。RANSAC算法能鲁棒地估计模型参数。例如，它能从包括大量候选匹配对的数据集中估计出高精度的自洽的候选匹配对。此外，该步骤S130还可以用最小二乘法。

图3示出了根据本发明一个实施例的第二图像到第一图像的几何变换示意图。图3中，左边为第一图像，右边为第二图像。图3所示不同灰度直线连接的是两图中经文字识别后的候选匹配对。这些候选匹配对经过选择后获得自洽的候选匹配对，根据自洽的候选匹配对可以生成第二图像周围白色四边形框的几何变换。

步骤S140：根据步骤S130所生成的几何变换，将第二图像映射到第一图像的坐标系中。可以理解，在映射后，图3所示的右侧的白色四边形框的内容将被映射成左侧的矩形框中的内容。本领域普通技术人员可以理解该步骤的具体实现，为了简洁，在此不再详述。

本领域普通技术人员可以理解，上述图像配准方法100中的第一图像和第二图像可以是证件图像、图纸图像或任意其他适合的图像。证件图像在日常中应用较多。图纸图像通常幅面较大。将上述配准方法应用于证件图像和图纸图像不仅可以保证配准的准确性，而且计算量小，节约了技术操作人员的时间和精力。

可以理解，上述图像配准方法可以应用于多种图像处理操作，例如：图像转正、模板匹配、图像拼接等等。假设第一图像为正的，那么将第二图像映射到第一图像的坐标系中，即实现了第二图像的转正。此外，可以以第一图像为模板，进行第二图像与模板的匹配。

根据本发明另一方面，还提供了一种图像拼接方法，其包括按照上述图像配准方法对待拼接图像中的、包含文字的第一图像和第二图像进行配准。待拼接图像可以是两个或更多。本领域技术人员可以理解，待拼接图像至少包括两个包含文字的图像，其可以分别作为第一图像和第二图像。待拼接图像可以全部是包含文字的图像，也可以部分是包含文字的图像。对于后一种情况，可以仅针对包含文字的图像进行上述图像配准，而对于另外不包含文字的图像，采用现有的图像配准方法进行配准。

对于待拼接图像包括三个以上包含文字的图像的情况，则包含文字的图像可以顺次分别作为第一图像和第二图像而组成不同的图像对，按照上述图像配准方法进行配准。例如，对于连续拍摄的三个图像：图像a、图像b和图像c，则首先可以将图像a和图像b分别作为第一图像和第二图像，进行图像配准；然后，可以将图像b和图像c分别作为第一图像和第二图像，进行图像配准；最后根据上述两次图像配准结果，进行图像拼接。

图4示出了根据本发明一个实施例的图像拼接方法400的流程图，根据该图像拼接方法400，可以将两个或更多图像进行拼接。如图4所示，图像拼接方法400包括步骤S410、步骤S420、步骤S430和步骤S440。

步骤S410：选择待拼接图像中的新图像对。图像对由包含文字的第一图像和第二图像构成。

步骤S420：对所选图像对按照上述图像配准方法进行配准。

步骤S430：判断是否已经遍历待拼接图像的所有可能匹配的图像对。对于否的情况，转至步骤S410，重新选择新图像对。对于是的情况，转至步骤S440。

步骤S440：按照配准结果进行图像融合以获得拼接图像。在步骤S430的图像配准过程中，已经将第二图像映射到第一图像的坐标系中，完成了统一坐标变换。在此步骤，可以对第一图像和第二图像的互相重叠部分进行图像融合。

可选地，上述图像融合是通过对图像的互相重叠部分进行均值平滑处理来完成。如此，所获得的拼接图像将无明显拼接痕迹，具有无缝效果。可选地，可以将该互相重叠部分的像素值设置为第一图像或者第二图像的对应的像素值。

本领域普通技术人员可以理解，上述步骤S410中选择待拼接图像中的新图像对，可以是随机选择。如果待拼接图像为连续拍摄的图像，那么在上述步骤S410中可以每次选择两个相邻图像作为图像对。这里的连续是指图像中的内容是连续的。因为图像为连续拍摄，非相邻图像之间可能没有重叠区域，那么由非相邻图像构成的图像对则不可能匹配。因此，每次选择相邻图像来进行配准有效避免了无谓计算。

根据本发明又一方面，还提供了一种图像配准装置。该图像配准装置可以应用于证件图像或图纸图像等合适的图像。图5示出了根据本发明一个实施例的图像配准装置500的示意性框图。如图5所示，图像配准装置500包括识别模块510、粗匹配模块520、细匹配模块530和映射模块540。

识别模块510用于对第一图像和第二图像进行文字识别，其中该第一图像和该第二图像包含文字。文字识别可以通过OCR的方式。通过文字识别，可以获得诸如文字内容、文字位置等的文字识别结果。

可选地，识别模块510可包括样式识别模块，其用于对第一图像和第二图像进行文字样式识别。文字样式可以包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果。

可选地，识别模块510可包括置信度确定模块，其用于针对所识别的文字，确定文字识别的识别置信度。

可以理解，上述文字样式和识别置信度均可以作为文字识别结果的一部分。

粗匹配模块520用于基于识别模块510所获得的文字识别结果生成候选匹配对。具体地，粗匹配模块520可以利用打分公式来对文字识别结果中的各个文本区域打分，进而根据打分结果生成候选匹配对。打分公式可以是多个项的加和。打分公式的项例如是两个文本区域的文字内容差异度等。可选地，打分公式还可以考虑文字样式和/或识别置信度等因素，例如增加表达例如文字字体差异度、文字颜色差异度、文字大小差异度、文字识别置信度差异度的项。

可选地，粗匹配模块520包括预定字识别模块和匹配对生成模块。预定字识别模块用于识别文字识别结果中的预定字；匹配对生成模块用于针对该文字识别结果中的、该预定字以外的字生成候选匹配对。通过仅针对非预定字生成候选匹配对，而有选择性地忽略预定字，可以避免预定字的混淆作用，并且减小了计算量。

细匹配模块530用于在粗匹配模块520所生成的候选匹配对中选择自洽的候选匹配对并且根据该自洽的候选匹配对生成第二图像到第一图像的几何变换，例如通过RANSAC算法。

映射模块540用于根据细匹配模块530所生成的几何变换将第二图像映射到第一图像的坐标系中。

根据本发明再一方面，还提供了一种图像拼接装置。该图像拼接装置包括上述图像配准装置。该图像配准装置用于对待拼接图像中的、包含文字的第一图像和第二图像进行配准。

图6示出了根据本发明一个实施例的图像拼接装置600的示意性框图。如图6所示，图像拼接装置600包括选择模块610、图像配准装置620和融合模块630。选择模块610用于选择待拼接图像中的新图像对，直至遍历该待拼接图像的所有可能匹配的图像对。其中，图像对由包含文字的第一图像和第二图像构成。图像配准装置620用于对选择模块610每次所选的图像对进行配准。融合模块630用于按照配准结果进行图像融合以获得拼接图像。

本领域普通技术人员通过阅读上文关于图像配准方法和图像拼接方法的详细描述，能够理解上述图像配准装置和图像拼接装置的构成、实现以及优点，因此这里不再赘述。

在此提供的方法和装置不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者装置的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的图像配准装置和图像拼接装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims

1.一种图像配准方法，其特征在于，包括：

步骤S100：对第一图像和第二图像进行文字识别，其中所述第一图像和所述第二图像包含文字；

步骤S200：基于文字识别结果生成候选匹配对；

步骤S300：在所述候选匹配对中选择自洽的候选匹配对并且根据所述自洽的候选匹配对生成所述第二图像到所述第一图像的几何变换；以及

步骤S400：根据所述几何变换，将所述第二图像映射到所述第一图像的坐标系中。

2.如权利要求1所述的图像配准方法，其特征在于，所述步骤S100进一步包括：对所述第一图像和所述第二图像进行文字样式识别。

3.如权利要求2所述的图像配准方法，其特征在于，所述文字样式包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果。

4.如权利要求1至3任一项所述的图像配准方法，其特征在于，所述步骤S100进一步包括：针对所识别的文字，确定文字识别的识别置信度，其中所述识别置信度作为所述文字识别结果的一部分。

5.如权利要求1所述的图像配准方法，其特征在于，所述步骤S200进一步包括：

识别所述文字识别结果中的预定字；以及

针对所述文字识别结果中的、所述预定字以外的字生成所述候选匹配对。

6.如权利要求1所述的图像配准方法，其特征在于，所述步骤S300是利用随机抽样一致性算法。

7.如权利要求1所述的图像配准方法，其特征在于，所述第一图像和所述第二图像是证件图像或图纸图像。

8.一种图像拼接方法，其特征在于，包括：

按照如权利要求1至7任一项所述的图像配准方法对待拼接图像中的、包含文字的第一图像和第二图像进行配准。

9.一种图像配准装置，其特征在于，包括：

识别模块，用于对第一图像和第二图像进行文字识别，其中所述第一图像和所述第二图像包含文字；

粗匹配模块，用于基于文字识别结果生成候选匹配对；

细匹配模块，用于在所述候选匹配对中选择自洽的候选匹配对并且根据所述自洽的候选匹配对生成所述第二图像到所述第一图像的几何变换；以及

映射模块，用于根据所述几何变换将所述第二图像映射到所述第一图像的坐标系中。

10.如权利要求9所述的图像配准装置，其特征在于，所述识别模块进一步包括：

样式识别模块，用于对所述第一图像和所述第二图像进行文字样式识别。

11.如权利要求10所述的图像配准装置，其特征在于，所述文字样式包括以下项中的一项或多项：文字字体、文字颜色、文字长宽比、文字大小和文字特殊效果。

12.如权利要求9至11任一项所述的图像配准装置，其特征在于，所述识别模块进一步包括：

置信度确定模块，用于针对所识别的文字，确定文字识别的识别置信度，其中所述识别置信度作为所述文字识别结果的一部分。

13.如权利要求9所述的图像配准装置，其特征在于，所述粗匹配模块进一步包括：

预定字识别模块，用于识别所述文字识别结果中的预定字；以及

匹配对生成模块，用于针对所述文字识别结果中的、所述预定字以外的字生成所述候选匹配对。

14.一种图像拼接装置，其特征在于，包括如权利要求9至13任一项所述的图像配准装置。