CN112991410A

CN112991410A - 一种文本图像配准方法、电子设备及其存储介质

Info

Publication number: CN112991410A
Application number: CN202110470381.XA
Authority: CN
Inventors: 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-04-29
Filing date: 2021-04-29
Publication date: 2021-06-18

Abstract

本申请实施例提供了一种文本图像配准方法、电子设备及其存储介质。根据本申请实施例提供的文本图像配准方案，对于待配准的第一文本图像和第二文本图像，从而分别从第一文本图像和第二文本图像中检测得到相应的文本行的集合，进而可以匹配得到存在对应关系的文本行关系对，并从文本行关系对中提取得到所包含的特征点，从而根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射，实现第一文本图像和第二文本图像之间的图像配准。

Description

一种文本图像配准方法、电子设备及其存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种文本图像配准方法、电子设备及其存储介质。

背景技术

图像配准及其相关技术在图像处理研究领域中被广泛使用，其目的在于比较和融合针对同一对象在不同条件下获取的不同的图像。例如，对于两张待配准图像，通过一系列操作，得到一种空间变换，把一副图像映射到另一幅图像上，使得两图中对于空间同一位置的点的对应关系得以明确。

在对文本图像的配准时，由于文本图像的获取环境差异很大，因此导致获取得到的文本图像比较复杂，这导致常规方式的文本图像的配准效果不佳，制约了后续的操作。

基于此，本申请提供一种更为准确的文本图像配准方案。

发明内容

有鉴于此，本申请实施例提供一种文本图像配准方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种文本图像配准方法，包括：

获取待配准的第一文本图像和第二文本图像；

获取所述第一文本图像中所包含的第一文本行的集合，以及，获取所述第二文本图像中包含的第二文本行的集合；

确定所述第一文本行的集合与所述第二文本行的集合中存在对应关系的至少一个文本行关系对，所述文本行关系对中包含第一文本行和第二文本行；

确定所述存在对应关系的至少一个文本行关系对所包含的特征点；

根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射。

根据本申请实施例的第二方面，提供了一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如第一方面所述的文本图像配准方法对应的操作。

根据本申请实施例的第三方面，提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面所述的文本图像配准方法。

根据本申请实施例提供的文本图像配准方案，对于待配准的第一文本图像和第二文本图像，从而分别从第一文本图像和第二文本图像中检测得到相应的文本行的集合，进而可以匹配得到存在对应关系的文本行关系对，并从文本行关系对中提取得到所包含的特征点，从而根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射，实现第一文本图像和第二文本图像之间的图像配准，通过融合图像中所包含的文本行的信息和特征点的信息，实现更精确的特征点匹配，有效提升文本图像配准的精度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种文本图像配准方法的流程示意图；

图2为本申请实施例所给出的标准答案图像和用户拍摄的试卷文本图像的示意图；

图3为本申请实施例所提供的一种目标模型的训练方法的流程示意图；

图4为本申请实施例所提供的一种文本图像配准装置的结构示意图；

图5为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

在常规的图像配准中，一般即提取相关两张图像中的特征点，然后计算两张图像的单应矩阵来进行像素点的映射。由于单应矩阵只有8个未知数，因此一般情况下，只需要4对匹配点便可以得到，而常规文本图像上都能提取到上千个特征点，其匹配不仅更费时，而且效果可能不稳定。

例如，在在线教育的场景中，在线教育服务方可以提供一张包含有多个不同问题的试卷给学生，学生在在试卷上写完答案之后即可以通过拍照的方式上传，从而在线教育服务方需要通过配准标准答案图像和学生上传的文本图像，才能将两张图像映射起来进行判题。

在这种场景下，由于每个人的书写习惯和拍照场景不同等多种客观原因，导致学生上传的文本图像可能出现背透（同一页纸两边都写字导致一边影响了另一边）、光照不均匀（做完作业灯光下拍摄）、影印和拍摄角度不正等大量问题，导致后续提取得到的特征点不准确，而影响了图像配准。基于此，本申请实施例提供一种更准确的文本图像配准方案。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。如图1所示，图1为本申请实施例所提供的一种文本图像配准方法的流程示意图，包括:

S101,获取待配准的第一文本图像和第二文本图像。

第一文本图像和第二文本图像中各自包含了相应数量的文本行，如果是第一文本图像和第二文本图像所对应的实体相同（例如对应于同一份试卷或者对应于同一个练习册的同一页），那么，在第一文本图像和第二文本图像中所包含的文本行应当是数量相同且一一对应的。

例如，在在线教育的场景中，第一文本图像可以是标准答案图像，第二第二文本图像可以是用户拍摄的试卷文本图像。

在这种场景下，标准答案图像和用户拍摄的试卷文本图像均同时包含了相同数量的文本行：即题目部分或者又可以称为题干图像。

标准答案图像和用户拍摄的试卷文本图像的不同之处在于：在标准答案图像中在题干图像下方即为对应的标准答案，而在用户拍摄的试卷文本图像中，在题干图像下方即为用户所给出的手写或者打印的答案。显然，用户所给出的手写或者打印的答案通常总是与标准答案存在不同。

此外，由于用户拍摄的试卷文本图像还在角度和大小比例上和标准答案图像有可能存在不同，例如，用户拍摄的试卷文本图像有可能是具有一定倾斜角度的缩小图像，以及，还有可能包含一些背景图像，等等。

如图2所示，图2为本申请实施例所给出的标准答案图像和用户拍摄的试卷文本图像的示意图。在该示意图中，用户拍摄得到的试卷文本图像已经和标准答案图像的大小不再一致，同时还存在一定的拍摄倾角。在实际中，如果试卷是双面印刷的，那么还有可能在15、16或者17题的另一面会存在另外的印刷题干或者用户手写字体，这些都会对特征点提取和后续的单应矩阵计算产生影响。

又例如，在做问卷调查时，通过向不同身份的被调查者提供了相同的调查问卷，当被调查者以拍照的形式上传反馈问卷时，此时的第一文本图像即可以是不包含任何回答的调查问卷本身，而第二文本图像即可以是被调查者以拍照的形式所上传的反馈问卷，其中，不包含任何回答的调查问卷本身和中反馈问卷同时包含了相应数量的文本行，即每一个调查问题都是一个文本行。

在更多的应用场景下，第一文本图像和第二文本图像还可以有其它的形式，此处不再一一列举。

S103，获取所述第一文本图像中所包含的第一文本行的集合，以及，获取所述第二文本图像中包含的第二文本行的集合。

第一文本行即为从第一文本图像中所检测得到的包含多个字符的矩形区域，其可以是包含了一行或者多行字符串（例如，题干可以是由一行多行字符串所组成）。第二文本行即为从第二文本图像中所检测得到的包含多个字符的矩形区域，其同样可以是包含了一行或者多行字符串。

可以采用各种文本行检测模型来分别检测得到第一文本图像和第二文本图像中不包含的文本行，从而分别得到第一文本行的集合和第二文本行的集合。检测得到的第一文本行和第二文本行仍然是图像。通常第一文本行和第二文本行即为第一文本图像或者第二文本图像中的部分的矩形区域。

检测得到的第一文本行的集合或者第二文本行的集合中所包含的文本行的数量至少应当是一个；以及，第一文本行的集合和第二文本行的集合中所包含的文本行的数量可以相同，也可以不同，这并不会对本申请的方案的后续实施造成影响。

S105，确定所述第一文本行的集合与所述第二文本行的集合中存在对应关系的至少一个文本行关系对，所述文本行关系对中包含第一文本行和第二文本行。

文本行关系对是指在包含相同的字符的长度或者数量上满足一定条件的第一文本行和第二文本行所组成的关系对。在一个文本行关系对中应当同时包含有一个第一文本行和一个第二文本行，同时，一个第一文本行应当只同时对应于一个第二文本行，即第一文本行和第二文本行应当一一对应。

例如，在第一文本行的集合中存在3个第一文本行{A1，A2，A3}，在第二文本行的集合中存在4个第一文本行{B1，B2，B3，B4}，而最终确定得到文本行关系对可能只有两个（A1、B1）和（A3、B4）。

确定存在的文本行关系对在实际中即表征了其所包含的第一文本行和第二文本行可能是对应于同一个实体。例如，第一文本行和第二文本行可能同时对应了试卷中的第10题的题干部分。换言之，第一文本行和第二文本行在原始的试卷中的位置应当是相同的，那么，即可以基于这种关系来进行后续的图像配准。

S107，确定所述存在对应关系的至少一个文本行关系对所包含的特征点。

可以采用常规的方式（诸如sift算法）来得到第一文本图像和第二文本图像中的特征点，并得到得到每个特征点对应的特征描述符，并进行相应的特征点匹配。

在第一文本图像和第二文本图像中可能同时存在数以千计的特征点。那么基于此，可以基于特征点的坐标和文本行的位置，将匹配成功的特征点分配到对应的文本行关系。

具体而言，如果一个特征点没有落入一个文本行关系对中的第一文本行或者第二文本行的范围，那么即可以直接剔除该特征点，以减少无效的特征点，提高计算效率。

如果一个特征点同时落入了一个文本行关系对中的第一文本行或者第二文本行的位置范围，那么即可以将其确定为该文本行关系对所包含的特征点。

一个文本行关系对可能同时包含有多个特征点。

S109，根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射。

具体而言，即可以采用不少于4个的特征点来确定单应矩阵（单应矩正中包含有8个未知数，至少需要4个特征点作为已知参数来计算）。单应矩阵用于在第一文本图像和第二文本图像进行相关的像素点之间的映射，以实现两张图像的配准。

在计算得到的单应矩阵时可以是基于一个文本行关系对所包含的特征点来计算得到用，用于该文本行关系对的图像配准；也可以是基于全体图像的特征点来计算得到，用于图像整体的图像配准。

在计算得到一个单应矩阵之后，即可以将第一文本图像和第二文本图像的像素点来进行像素点之间进行映射。例如，将用户拍摄的试卷文本图像中的题干部分和标准答案图像中的题干图像进行像素点之间进行映射，从而使得二者重合，那么就可以确定出在各自下方的是对应的用户所给出的手写或者打印的答案和标准答案，从而可以进行相应的判题。

需要说明的是，由于各种客观原因，即使是对应于同一实体的第一文本图像和第二文本图（例如，对于与同一试卷的标准答案和用户的拍摄图像），其检测得到的对应的文本行中的字符串也可能会不同。

例如，在图2的示意中，可以同时在左右两张图像中检测到第15题所对应的第一文本行和第二文本行，但是第二文本行中的字符串也并不一定与第一文本行中的字符串完全相同，在实际中则往往是因为拍摄原因、试卷透光以及模型原因而导致第一文本行和第二文本行的字符串存在一些差异。

因此，在一种实施例中，在确定存在对应关系的文本行关系对，可以分别对第一文本行和第二文本行分别进行文字识别，从而定所述第一文本行和第二文本行所分别对应的字符串。进而，当任意的第一文本行和任意的第二文本行所分别对应的字符串满足预设条件时，即可以建立包含所述满足预设条件的第一文本行和第二文本行的文本行关系对。其中，所述预设条件包括：字符串的最长公共子串的长度超过预设长度，和/或，字符串的公共子串的数量超过第一预设数量。

例如，假设预设条件是“最长公共子串的长度超过10，或者，公共子串的数量不少于3”，对于一个第一文本行，其被识别所得到的字符串是“根据上述材料，按照顺序写出题目中所出现的无机物，以及可能产生的有机物，并写出化学反应式”。那么，如果一个第二文本行中包含了“按照顺序写出题目中所出现的无机物”，或者，另一个第二文本行同时包含了公共子串（即在第一本行中和第二文本行中同时存在的字符串）“无机物”、“有机物”和“化学反应式”，都可以视为与该第一文本行存在对应关系。

进一步地，由于在两张待配准的图像中，一个第一文本行不应当同时对应于两个第二文本行（即不可能在一个试卷中出现两个相同的题目，或者说，一个题目不可能出现在同一个试卷的不同位置上），因此，当发生一个第一文本行存在多个对应的第二文本行时，还可以对多个对应的第二文本行进行筛选。

例如，可以分别计算多个对应的第二文本行中的最长公共子串的长度，或者，分别计算字符串的公共子串的数量，取其中的最长公共子串的长度最大或者公共子串的数量最多的作为最终对应的第二文本行，以形成在文本行关系对中第一文本行和第二文本行的一一对应。

在一种实施例中，还有可能发生在第一文本图像和第二文本图像中的文本行关系对的数量并不多，并没有超过第二预设数量。第二预设数量可以是一个绝对数值（例如，5个）或者是一个相对数值（例如，第一文本行的50%）。

例如，在标准答案上包含了10题干图像（即第一文本行的数量为10），而最终得到的文本行关系对只有3个（即不超过5个，或者，不超过第一文本行的50%），那么既可以认为第一文本图像和第二文本图像为不相关，从而终止后续的图像配准流程，并给用户发出相应的反馈。

即只有当文本行关系对的数量超过第二预设数量时，才会执行后续步骤S107中的“获取所述存在对应关系的至少一个文本行关系对所包含的特征点”。否则，流程将在S107终止执行。

在一种实施例中，在从第一文本图像和第二文本图像中提取得到特征点时，可以首先从全局图像中提取得到全量的特征点（数量可能是几千个），

进而可以根据检测得到的文本行确定出文本行的坐标，从而可以基于提取得到的特征点进行判断，当一个特征点在两张图像中的坐标同时落入一个文本行关系对中的第一文本行和第二文本行时，那么即可以确定该提取得到的特征点为所述文本行关系对所包含的特征点。通过该方式，可以剔除掉那些和文本行关系对无关的特征点，简化计算。

在一种实施例中，对于提取得到的特征点，可以每一个文本行关系对均计算得到一个对应的单应矩阵。即对于任一被选取的文本行关系对，根据该被选取的文本行关系对中所包含的特征点，确定该被选取的文本行关系对所对应的局部单应矩阵，用于该被选取的文本行关系对中所包含的第一文本行和第二文本行的像素点之间进行映射。

例如，假设存在3个文本行关系对（A1、B1）、（A2、B2）和（A3、B3），其中（A1、B1）中包含有10个特征点，（A2、B2）中包含有8个特征点，（A3、B3）中包含有15个特征点。

那么在这种方式下计算单应矩阵时，即应当分别根据（A1、B1）中包含的10个特征点计算得到对应于（A1、B1）的局部单应矩阵M1，根据（A2、B2）中包含的8个特征点计算得到对应于（A2、B2）的局部单应矩阵M2，根据（A3、B3）中包含的15个特征点计算得到对应于（A3、B3）的局部单应矩阵M3。并将M1用于从第一文本行A1所对应的图像中的像素点到第二文本行B1所对应的图像中的像素点的映射，M2和M3依次类推。

容易理解，在这种方式下，如果存在N个文本行关系对，那么将会产生一一对应的N个局部单应矩阵，每个文本行关系对将会基于其对应的单应矩阵来实现局部的像素点的映射，从而通过每个局部的映射来实现整体的题干部分的图像配准，在这种配准方式下实现速度较快。

在另一种实施例中，还可以分别确定所述多个文本行关系对所包含的多个特征点，根据所述多个特征点确定全局单应矩阵。例如，对于前例而言，则可以基于3个文本行关系对（A1、B1）、（A2、B2）和（A3、B3）所共同包含的33个特征点来计算得到1个全局单应矩阵，并通过该全局单应矩阵来进行从第一文本图像和第二文本图像的全局的像素点之间进行映射。在这种配准方式下实现方式较为简单。

在一种实施例中，还可以通过预先训练好的目标模型来检测第一文本图像和第二文本图像中包含的文本行，来生成第一文本行的集合和第二文本行的集合。

具体而言，所述目标模型可以采用如下方式预先训练得到，如图3所示，图3为本申请实施例所提供的一种目标模型的训练方法的流程示意图，具体包括：

S301，获取训练样本，其中，所述训练样本包括已标注文本行的位置的文本图像。

这里的训练样本可以收集大量的文本图像，并对每张图像随机的在不同条件下进行多次拍摄，从而得到大量不同背景、不同拍摄角度的文本图像对，同时根据文本检测任务的训练数据需求，对这些图像进行标注。这里的标注包括对于文本行位置的标注，也包括对于文本行中所包含的的字符串中的字符的标注。

S303，采用包含多个块的基础网络模型对所述训练样本分别进行卷积，生成对应于所述多个块的多个不同大小的子特征图像，对所述多个不同大小的子特征图像采样至相同规格，串联所述采样后的相同规格的多个子特征图像，生成对应训练样本的特征图像。

具体而言，首先采用包含多个块（例如，4个块，可根据需要进行设定）的基础网络模型（例如，可以采用Resnet18模型）对所述训练样本分别进行卷积，对输入的训练样本中提取纹理、边缘、角点和语义信息等特征，这些特征由4组大小不同的多通道子特征图像表征，其提取到的特征依次为原始输入的训练样本的1/4、1/8、1/16和1/32，从而生成对应所述多个块的多个不同大小的正向特征图像。按照从大到小的，从前往后的次序，依次称该4组特征图像为正向第一、正向第二、正向第三、正向第四特征图像。

然后采用多个特征融合模块（Feature Fusion EnhanceModule，FFEM，例如，可采用两个FFEM模块，具体数量可根据需要进行设定）对正向第一、正向第二、正向第三、正向第四特征图像进行诸如图像上采样/下采样、按照通道逐点相加、深度可分离卷积、批归一化和激活函数等操作之后，从而生成得到4个不同大小（分别是原始输入的训练样本的1/4、1/8、1/16和1/32）的第一子特征图像。

具体而言，第一个FFEM模块可以先对正向第四组特征图像进行2倍上采样，即将其大小扩大2倍，然后将其与正向第三组特征图像按照通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为反向第二组特征图像，同样的操作用于反向第二组特征图像和正向第二组特征图像得到反向第三组特征图像，然后同样的操作作用于反向第三组特征图像和正向第一组特征图像，得到反向第四组特征图像，同时将正向第四组特征图像视为反向第一组特征图像，由此得到4组反向特征图像；将第四组反向特征图像作为目标第一组特征图像，然后对目标第一组特征图像进行 2倍下采样，即大小缩小2倍，然后将其与反向第三组特征图像按通道逐点相加，对结果进行一次深度可分离卷积操作之后，再进行一次卷积、批归一化和激活函数作用操作，得到的结果称为目标第二组特征图像，同样的操作作用于目标第二组特征图像和反向第二组特征图像，得到目标第三组特征图像，然后同样的操作作用于目标第三组特征图像和反向第一组特征图像，得到目标第四组特征图像，目标第一、目标第二、目标第三和目标第四组特征图像便是FFEM模块的输出；第2个FFEM模块是以第1个FFEM模块的输出作为输入，进行与前述方式同样的操作，得到输出，即为4个不同大小的子特征图像。

此时，即可以对子特征图像分别进行上采样（即放大）至相同规格（例如，放大至训练样本的1/4大小，即与正向第一特征图像大小相同）。并串联所述上采样后的多个子特征图像，生成特征图像。

S305，根据所述特征图像生成与所述训练样本相同规格的输出特征图像，所述输出特征图像用于指示识别得到的文本行的位置。

例如，可以对于特征图像进行一次卷积操作，两次反卷积操作，得到与输入图像大小一致（即与训练样本相同规格）的多通道的输出特征图像，并通过输出特征图像来指示识别得到的文本行的位置。

S307，当所述识别得到的文本行的位置与所述已标注文本行的位置的差异不超过预设差异时，确定训练得到的模型为目标模型。

在这个过程中，可以基于识别得到的的文本行的位置与所述已标注文本行的位置的差异和损失函数来训练基础网络模型而得到目标模型。损失函数可以采用诸如与目标检测网络Centernet一样的目标函数，以及使用L1损失函数等等。训练得到的目标模型用于检测所述待配准的第一文本图像和第二文本图像中的第一文本行和第二文本行。通过采用前述方式可以融合得到多方面的特征而得到目标模型，使得目标模型对于文本行的检测更准确。

在一种实施例中，目标模型对于得到的特征图像，可以采用多通道特征图像的方式来表征文本行的位置。

例如对所述特征图像进行卷积和反卷积，生成与所述训练样本相同规格的包含六个通道的输出特征图像，其中，第一个通道表示文本框中心点得分图（即每个像素点值在0到1之间，表示这个点是大框中心点的概率），第二和第三个通道分别表示中心点的中心点横坐标偏移量和中心点纵坐标偏移量，第四和第五个通道表示预测的文本行的宽和文本行的高，第六个通道表示表检测得到的文本行的旋转角度，通过旋转角度可以适应多种不同方向的文本行，以适应用户的多角度拍摄。

此外，对于检测得到的文本行也可以实现训练一个对应的字符串识别模型来进行识别。例如，可以采用卷积循环神经网络结构（Convolutional Recurrent NeuralNetwork，CRNN）或者其他模型）构建一个字符串识别模型，其由卷积神经网络、循环神经网络和转录层三部分组成，卷积神经网络部分包括多个卷积层，用于提取输入文本图像特征，循环神经网络部分使用两层双向长短期记忆网络（Long Short-Term Memory，LSTM），用于构建字符之间的时序关系，并得到概率矩阵。最后的转录层则是使用解码算法，从概率矩阵中得出字符串，使用CTC进行训练并识别。

本申请实施例还提供了一种文本图像配准装置，如图4所示，图4为本申请实施例所提供的一种文本图像配准装置的结构示意图，包括：

获取模块401，获取待配准的第一文本图像和第二文本图像；

文本行获取模块403,获取所述第一文本图像中所包含的第一文本行的集合，以及，获取所述第二文本图像中包含的第二文本行的集合；

文本行关系对确定模块405，确定所述第一文本行的集合与所述第二文本行的集合中存在对应关系的至少一个文本行关系对，所述文本行关系对中包含第一文本行和第二文本行；

特征点确定模块407，确定所述存在对应关系的至少一个文本行关系对所包含的特征点；

配准模块409，根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射。

本实施例的文本图像配准装置用于实现前述多个方法实施例中相应的文本图像配准方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的文本图像配准装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

本申请实施例的第二方面，还提供了一种电子设备，如图5所示，图5为本申请实施例所提供的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图5所示，该电子设备可以包括：处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。

其中：

处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。

通信接口504，用于与其它电子设备或服务器进行通信。

处理器502，用于执行程序510，具体可以执行上述文本图像配准方法实施例中的相关步骤。

具体地，程序510可以包括程序代码，该程序代码包括计算机操作指令。

处理器502可能是中央处理器CPU，或者是特定集成电路ASIC（ApplicationSpecific Integrated Circuit），或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器506，用于存放程序510。存储器506可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序510具体可以用于使得处理器502执行以下操作：

获取待配准的第一文本图像和第二文本图像；

程序510中各步骤的具体实现可以参见上述文本图像配准方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例的第三方面，还提供了一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面中所述的文本图像配准方法。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质（诸如CD ROM、RAM、软盘、硬盘或磁光盘）中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件（诸如ASIC或FPGA）的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件（例如，RAM、ROM、闪存等），当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的文本图像配准方法。此外，当通用计算机访问用于实现在此示出的文本图像配准方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的文本图像配准方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种文本图像配准方法，包括：

获取待配准的第一文本图像和第二文本图像；

2.如权利要求1所述的方法，其中，确定所述第一文本行的集合与所述第二文本行的集合中存在对应关系的至少一个文本行关系对，包括：

对所述第一文本行和第二文本行分别进行文字识别，确定所述第一文本行和第二文本行所分别对应的字符串；

当任意的第一文本行和任意的第二文本行所分别对应的字符串满足预设条件时，建立包含所述满足预设条件的第一文本行和第二文本行的文本行关系对；

其中，所述预设条件包括：字符串的最长公共子串的长度超过预设长度，和/或，字符串的公共子串的数量超过第一预设数量。

3.如权利要求2所述的方法，其中，获取所述存在对应关系的至少一个文本行关系对所包含的特征点，包括：

当文本行关系对的数量超过第二预设数量时，获取所述存在对应关系的至少一个文本行关系对所包含的特征点。

4.如权利要求1所述的方法，其中，确定所述存在对应关系的至少一个文本行关系对所包含的特征点，包括：

从所述第一文本图像和第二文本图像中提取得到特征点，根据提取得到特征点的坐标确定其所对应的第一文本行和第二文本行；

当提取得到的特征点同时落入一个文本行关系对中的第一文本行和第二文本行时，确定该提取得到的特征点为所述文本行关系对所包含的特征点。

5.如权利要求4所述的方法，其中，根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射，包括：

对于任一被选取的文本行关系对，根据该被选取的文本行关系对中所包含的特征点，确定该被选取的文本行关系对所对应的局部单应矩阵，用于该被选取的文本行关系对中所包含的第一文本行和第二文本行的像素点之间进行映射。

6.如权利要求4所述的方法，其中，当存在多个文本行关系对时，根据所述特征点确定单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射，包括：

分别确定所述多个文本行关系对所包含的多个特征点，根据所述多个特征点确定全局单应矩阵，用于所述第一文本图像和第二文本图像的像素点之间进行映射。

7.如权利要求1所述的方法，其中，获取所述第一文本图像中所包含的第一文本行的集合，以及，获取所述第二文本图像中包含的第二文本行的集合，包括：

采用预先训练得到的目标模型获取第一文本图像中所包含的第一文本行和第二文本图像中包含的第二文本行，生成第一文本行的集合和第二文本行的集合，其中，所述目标模型采用如下方式预先训练得到：

获取训练样本，其中，所述训练样本包括已标注文本行的位置的文本图像；

采用包含多个块的基础网络模型对所述训练样本分别进行卷积，生成对应于所述多个块的多个不同大小的子特征图像，对所述多个不同大小的子特征图像采样至相同规格，串联所述采样后的相同规格的多个子特征图像，生成对应训练样本的特征图像；

根据所述特征图像生成与所述训练样本相同规格的输出特征图像，所述输出特征图像用于指示识别得到的文本行的位置；

当所述识别得到的文本行的位置与所述已标注文本行的位置的差异不超过预设差异时，确定训练得到的模型为目标模型；

其中，所述目标模型用于检测所述待配准的第一文本图像和第二文本图像中的第一文本行和第二文本行。

8.如权利要求7所述的方法，根据所述特征图像生成与所述训练样本相同规格的输出特征图像，所述输出特征图像用于指示识别得到的文本行的位置，包括：

对所述特征图像进行卷积和反卷积，生成与所述训练样本相同规格的包含六个通道的输出特征图像，其中，所述输出特征图像通过所述六个通道的输出特征图像分别确定文本行的中心点、中心点横坐标偏移量、中心点纵坐标偏移量、文本行的宽、文本行的高和文本行的旋转角度。

9.如权利要求1至8任一所述的方法，所述第一文本图像为标准答案图像，所述第二文本图像为用户拍摄的试卷文本图像；

相应的，所述第一文本行是所述标准答案图像中所包含的题干图像，所述第二文本行是所述试卷文本图像中所包含的题干图像。

10.一种电子设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的文本图像配准方法对应的操作。

11.一种计算机存储介质，其上存储有计算机程序，该程序被处理器执行时实现如权利要求1-9中任一所述的文本图像配准方法。