CN113362380A

CN113362380A - 一种图像特征点检测模型训练方法、装置及其电子设备

Info

Publication number: CN113362380A
Application number: CN202110639991.8A
Authority: CN
Inventors: 刘军; 秦勇
Original assignee: Beijing Century TAL Education Technology Co Ltd
Current assignee: Beijing Century TAL Education Technology Co Ltd
Priority date: 2021-06-09
Filing date: 2021-06-09
Publication date: 2021-09-07

Abstract

本申请实施例提供了一种图像特征点检测模型训练方法、装置及其电子设备。根据本申请实施例提供的方案，采用基础网络模型提取得到训练样本中的特征图像，并生成包含关键点得分图和词向量特征图的输出图像，基于关键点得分图得到预测关键点，以及基于词向量特征图确定预测词向量，再结合获取到的训练样本中的关键点标注信息及其周围的字符标注信息，进行模型训练而得到图像特征点检测模型。通过前述方式训练得到一个可以快速检测关键点和词向量的图像特征点检测模型，并根据检测得到的特征点及其对应的词向量来计算得到在文本图像中的单应矩阵，实现文本图像间的像素点映射。

Description

一种图像特征点检测模型训练方法、装置及其电子设备

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种图像特征点检测模型训练方法、装置及其电子设备。

背景技术

图像配准及其相关技术在图像处理研究领域中被广泛使用，其目的在于比较和融合针对同一对象在不同条件下获取的不同的图像。例如，对于两张待配准图像，通过一系列操作，得到一种空间变换，把一副图像映射到另一幅图像上，使得两图中对于空间同一位置的点的对应关系得以明确。

在对文本图像的配准时，由于文本图像的获取环境差异很大，因此导致获取得到的文本图像比较复杂，这导致常规方式的文本图像的配准效果不佳，制约了后续的操作。

基于此，本申请提供一种更为准确的文本图像配准方案。

发明内容

有鉴于此，本申请实施例提供一种文本图像配准方案，以至少部分解决上述问题。

根据本申请实施例的第一方面，提供了一种图像特征点检测模型训练方法，包括：获取训练样本，所述训练样本为文本图像，所述训练样本的标签中包含文本图像的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息；获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；采用基础网络模型对所述文本图像进行特征提取，获得特征图像；根据所述特征图像生成输出图像，其中，所述输出图像与所述训练样本相同规格，所述输出图像包括关键点得分图和词向量特征图，所述关键点得分图用于表征每个像素点为关键点的概率，所述词向量特征图用于表征每个像素点所对应的第二预设区域内的字符的词向量；根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型

根据本申请实施例的第二方面，提供了一种文本图像的配准方法，包括：获取待配准的第一文本图像和第二文本图像；采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量，其中，所述图像特征点检测模型基于权利要求1至6的任一方法训练得到；基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

根据本申请实施例的第三方面，提供了一种图像特征点检测模型训练装置，包括：训练样本获取模块，获取训练样本，所述训练样本为文本图像，所述训练样本的标签中包含文本图像的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息；真实词向量获取模块，获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；特征提取模块，采用基础网络模型对所述文本图像进行特征提取，获得特征图像；输出图像生成模块，根据所述特征图像生成输出图像，其中，所述输出图像与所述训练样本相同规格，所述输出图像包括关键点得分图和词向量特征图，所述关键点得分图用于表征每个像素点为关键点的概率，所述词向量特征图用于表征每个像素点所对应的第二预设区域内的字符的词向量；模型调整模块，根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型。

根据本申请实施例的第四方面，提供了一种文本图像的配准装置，包括：图像获取模块，获取待配准的第一文本图像和第二文本图像；检测模块，采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量，其中，所述图像特征点检测模型基于第一方面所述的方法训练得到；配准模块，基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

根据本申请实施例的第五方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行如第一方面或者第二方面所述的方法。

根据本申请实施例的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该程序被处理器执行时实现如第一方面或者第二方面所述的方法。

根据本申请实施例的第七方面，提供了一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现如第一方面或者第二方面所述的方法。

根据本申请实施例提供的方案，，采用基础网络模型提取得到训练样本中的特征图像，并生成包含关键点得分图和词向量特征图的输出图像，基于关键点得分图得到预测关键点，以及基于词向量特征图确定预测词向量，再结合获取到的训练样本中的关键点标注信息及其周围的字符标注信息，进行模型训练而得到图像特征点检测模型。通过前述方式利用文本图像由字符组成的特点，以文本图像中具有代表性的关键点及其周围的字符所对应的词向量作为检测识别目标，从而训练得到一个可以快速检测关键点和词向量的图像特征点检测模型，并根据检测得到的特征点及其对应的词向量来计算得到在文本图像中的单应矩阵，实现文本图像间的像素点映射。通过前述方案，在文本图像中提高了检测得到的特征点和词向量的效率，同时这种操作极大的减少了在图像配准中的匹配的特征点的数量，增大了匹配效率，同时由于保留的点更有效，所以特征点的匹配精确准确度也更高，从而实现更准确的图像配准。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本申请实施例所提供的一种图像特征点检测模型方法的流程示意图；

图2为本申请实施例所提供的一种训练样本的示意图；

图3为本申请实施例所提供的一种文本图像的配准方法的流程示意图；

图4为本申请实施例所提供的标准答案图像和用户拍摄的试卷文本图像的示意图；

图5为本申请实施例所提供的一种图像特征点检测模型训练装置的结构示意图；

图6为本申请实施例所提供的一种文本图像的配准装置的结构示意图；

图7为本申请实施例所提供的一种电子设备的结构示意图。

具体实施方式

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

在常规的图像配准中，一般即提取相关两张图像中的特征点，然后计算两张图像的单应矩阵来进行像素点的映射。由于单应矩阵只有8个未知数，因此一般情况下，只需要4对匹配点便可以得到，而常规文本图像上都能提取到上千个特征点，其匹配不仅更费时，而且效果可能不稳定。

例如，在在线教育的场景中，在线教育服务方可以提供一张包含有多个不同问题的试卷给学生，学生在在试卷上写完答案之后即可以通过拍照的方式上传，从而在线教育服务方需要通过配准标准答案图像和学生上传的文本图像，才能将两张图像映射起来进行判题。

在这种场景下，由于每个人的书写习惯和拍照场景不同等多种客观原因，导致学生上传的文本图像可能出现背透(同一页纸两边都写字导致一边影响了另一边)、光照不均匀(做完作业灯光下拍摄)、影印和拍摄角度不正等大量问题，导致后续提取得到的特征点不准确，而影响了图像配准。基于此，本申请实施例提供一种更准确的文本图像配准方案。

具体而言，在本申请的方案中包括了两个方面：第一方面，模型训练方案，用于训练得到一个可用的图像特征点检测模型；第二方面，基于训练得到的图像特征点检测模型来检测得到特征点和词向量，从而实现图像配准。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。对于本申请的第一方面，如图1所示，图1为本申请实施例所提供的一种模型训练方法的流程示意图，包括:

S101，获取训练样本。

可以通过拍摄设备不同环境下的文本图像来得到训练样本。例如，可以对同一试卷或者不通的试卷在随机的在不同条件下进行多次拍摄，从而得到大量不同背景、不同拍摄角度的文本图像。

在一个训练样本的文本图像中包含了一个或者多个文本行。训练样本中包含了标签，这里的标签包含了对于一个文本行中的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息。所述关键点标注信息包括了关键点的坐标，以及，在一个坐标所对应的点是否为关键点所对应的概率评分；字符标注信息即明确了在该点的周围的字符内容。

所述关键点可以是诸如文本行的角点(例如，右上角、右下角、左上角以及左下角中的一个或者多个)、文本行的中心点、或者文本行的边上的分位点(包括二分位、三分位点等等)。

由于文本行的角点、中心点以及边上的分位点实际上具有相当强的特征因素，实际上基于每两个角点和1个中心点就能彻底固定一个文本行的位置，因此，实际上已经标注位置的关键点可以是一个中心点以及至少2个对角线的角点、或者至少三个角点等等。即，通过3个关键点可以唯一的确定出一个文本行即可。

同时，在对每个文本行进行关键点标注的时候，还可以同时转录出这个文本行所标注的关键点的周围字符。字符可以是包括文字、数字或者字母形式在内的任意字符。例如，字符标注信息可以是在关键点周围的“小、线、透、背”四个文字所组成。

如果已经标注位置的关键点为左上角点、中心点和右下角点，那么在所述关键点周围的已标注的字符则可以包括左上角点附近预设范围内的文字(例如，最靠近左上角点的4个字，当然也可以设置其他数量的字)、中心点预设范围内的文字和右下角点预设范围内的文字等等。

如图2所示，图2为本申请实施例所提供的一种训练样本的示意图。在该示意图中，对于第15题所对应的文本行分别选取了左上角点、左下角点、中心点作为标注位置的关键点，对于其它题所对应的文本行，也采用的相同位置的点(即左上角点、左下角点和中心点)作为标注位置的关键点(在图中未示出)。

S103，获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；

例如，可以采用诸如Word2vec或者Glove这种对词进行向量化编码的方法对这4个字进行编码，即每4个字得到一个多维向量，例如，维度为100维或者其他维度，可以根据训练的需要自行设定。

S105，采用基础网络模型对所述文本图像进行特征提取，获得特征图像。

可以采用包含N个块的基础网络模型对所述文本图像进行特征提取，生成对应于所述N个块的N个子特征图像，其中N>1。在这个过程中，可以使用互相独立的N个块采用不同的方式对于所述文本图像分别进行卷积，从而得到互相独立的对应于所述N个块的N个子特征图像。也可以采用N个块互相串联方式来得到互相之间存在影响关系的N个子特征图像。

在一种实施例中，当基础网络模型中存在N个块时，可以采用互相串联的N个块来得到N个子特征图像。例如，可以采用包含4个卷积模块的Resnet18作为作为基础网络模型。第一个块以输入的训练样本为输入，前一个块的输出均作为后一个块的输入，每一个块都对前一块的输出进行卷积以得到对应于该块的子特征图像。第一个block块输出的特征映射大小为原图的1/4,第二个为原图1/8，第三个为原图1/16,第四个为原图1/32每个block块输出的特征映射数量都为128，从而得到依次为前一个块大小一半的多个子特征图像。通过该方式可以使得得到的子特征图像中所包含的特征更为丰富。

进而可以融合所述N个子特征图像，生成目标特征图像。例如，可以采用将得到的N个子特征图像采样至相同规格并串联的方式(即将4组特征映射全部通过插值的方式将其大小变为原图1/4大小并串联)，从而生成目标特征图像。在这种方式下操作简单，可以快速融合得到目标特征图像。

又例如，可以按照子特征图像的大小，采用依次插值并逐点相加的方式，来生成目标特征图像。即第4个块所对应的子特征图像通过上采样至与第三个块所对应的子特征图像相同规格，并逐点相加，从而生成第三中间特征图像；进而将第三中间特征图像上采样至与第二个块所对应的子特征图像相同规格，并逐点相加，从而生成第二中间特征图像；进而将第二中间特征图像上采样至与第一个块所对应的子特征图像相同规格，并逐点相加，从而生成第一中间特征图像，并将第一中间特征图像确定为目标特征图像，在这种方式下融合得到的目标特征图像更为丰富。

S109，根据所述特征图像生成输出图像。

具体而言，即可以对目标特征图像进行卷积和反卷积操作(例如一次卷积操作，两次反卷积操作)，从而得到与训练样本规格相同的多个通道的输出图像，其中，输出图像的通道数等于已经标注位置的关键点的数量与词向量的维度数量的和。

例如，假设已经标注位置的关键点的数量为3(即采用了两个角点和一个中心点)，词向量的维度数量为100，那么，此时生成的输出图像的通道数即为103。

在这103个通道中，前3个通道为关键点得分图，关键点得分图用于表征每个像素点为关键点的概率。例如，第一个通道表示文本行的中心点得分图(由于输出图像训练样本相同大小，因此，输出图像上的每一个点都是和训练样本的像素点一一对应，中心点得分图上表征了训练样本的每个像素点值在0到1之间的分值，表示这个点是文本行中心点的概率)，第二和第三个通道分别表示文本行左上角点和右下角点得分图，用于表征这个点是是文本行左上角点和右下角点的概率。

同时，对于关键点得分图中的任一点而言，在同一个像素坐标的后100个通道即组合成为了该点所对应对应的第二预设区域内的字符的词向量。

S111，根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型。

进而，可以基于定点得分图确定预测关键点(包括预测中心点、预测角点或者预测分位点)。例如，对于一个中心点得分图而言，由于其分值都是在0至1之间，因此，可以将取值在0.8以上的点确定为预测关键点(通常预测关键点的坐标和已经标注位置的关键点的坐标会存在偏差，通过对模型的不断训练这个偏差会减小，最终收敛至一定范围内)，从而，在得到了预测关键点之后，即可以基于预测关键点的坐标所对应的后续的100个通道的取值依序拼接，即得到该预测关键点所对应的预测词向量。

进而，可以采用预设的损失函数来衡量偏差，并对基础网络模型中的相关卷积核中的权值参数进行更新，以训练得到图像特征点检测模型。训练得到的图像特征点检测模型用于在后续的图像配准中对待配准的文本图像进行关键点和词向量检测。

在具体的模型训练过程中，可以采用诸如focal loss损失函数对关键点的检测部分进行训练，同时，使用平滑L1损失函数对词向量所对应的部分进行训练

通过第一方面的方案，采用基础网络模型提取得到训练样本中的特征图像，并生成包含关键点得分图和词向量特征图的输出图像，基于关键点得分图得到预测关键点，以及基于词向量特征图确定预测词向量，再结合获取到的训练样本中的关键点标注信息及其周围的字符标注信息，进行模型训练而得到图像特征点检测模型。通过前述方式利用文本图像由字符组成的特点，以文本图像中具有代表性的关键点及其周围的字符所对应的词向量作为检测识别目标，从而训练得到一个可以快速检测关键点和词向量的图像特征点检测模型，所以通过这种方式训练得到的图像特征点检测模型图像特征点检测模型可以直接用于后续文本图像中的特征点和词向量的检测，有利于后续的图像配准。

在一种实施例中，在基于关键点得分图确定预测关键点时，还可以首先对关键点得分图进行二值化。这里的二值化，即为将大于设定阈值的数值设为1，而不大于设定阈值的数值设为0。例如，假设关键点得分图中三个点的得分分别为(0.4,0.6,0.9),而设定阈值为0.8，在二值化之后，三个点的得分分别为(0,0,1)。由于训练样本中所包含的像素点实际上是比较多的，而关键点的数量相对稀疏(即大部分的点不是关键点)。因此，通过二值化定点得分图，并将二值化结果为预设数值的点确定为预测关键点，可以避免对于非关键点的无效比较，大幅提高计算速度。

在一种实施例中，关键点可以是至少角点或者中心点中的至少三个，而如果包含了文本行的边上的分位点时，则数量可能需要多一些，那么此时，输出图像中包含的关键点得分图也会需要增加对应的通道数来表征对应的一种关键点。例如，如果标注位置的关键点包括了中心点、2个角点、4个分位点，那么在输出图像中包含的关键点得分图也应当包含1个中心点得分图、2个角点得分图，4个分位点得分图，即输出图像中包含了与标签中关键点的数量一一对应的关键点得分图，所述输出图像中关键点得分图的数量与所述关键点的类型数量一致。标注位置的关键点的数量越多，则训练得到的图像特征点检测模型图像特征点检测模型更为准确。

进一步地，在一种实施例中，可以采用中心点、以及互为对角点的文本框第一角点和文本框第二角点作为训练对象，从而在模型中输出的特征图像后，可以通过对所述特征图像进行卷积操作和反卷积操作，获得文本框中心点得分图、文本框第一角点得分图、文本框第二角点得分图以及词向量特征图。

通过该方式，即可以训练得到以文本框的中心点和对角线上的两个角点为检测对象的图像特征点检测模型，通过该方式所训练得到的图像特征点检测模即可以通过检测得到中心点和对角线上的两个角点更为准确地确定在文本图像中的文本行，有利于后续的图像配准。

在一种实施例中，对于关键点第一预设区域内的字符，可以是分别在N个指定方向上距离所述关键点最近的N个字符，例如，在关键点的上下左右4个方向中，每个方向选出一个距离所述关键点最近的字符，从而得到4个字符，这种方式比较适合关键点为中心点的情形，在文本图像中中心点的周围总是很容易找到多个不同方向上的文字。

或者，还可以是以关键点圆心，向外画圆，从而得到在以以所述关键点为圆心的圆内距离所述关键点最近的M个字符，其中，M为非零自然数，这种方式比较适合关键点为非中心点(包括角点、分位点等)的情形，在非中心点附近，容易出现短距离没有字符的情形，通过不断增大圆的半径，可以容易的找到距离该关键点最近的字符。

例如，可以取M≥4，以中心点或者角点为圆心，以一定步长(例如，3个像素点的步长)逐步增大半径，来获取半径内的字符作为第一预设区域内的字符，直至满足半径内的字符的数量不低于4个，从而可以获取得到足够数量的字符。在本申请中，词向量需要用于与另一图像的词向量进行距离计算而进行匹配，因此通过获取多个字符来确定词向量以表征一个点的周围字符，可以使得对于一个点的周围字符的表征更为准确，从而在后续匹配时更为准确。

在一种实施例中，基础网络模型在训练过程中，将基于关键点得分图和词向量特征图分别对于模型中的不同参数进行训练。具体而言，即根据所述关键点得分图和所述关键点标注信息的差值确定为第一损失值，采用Centernet训练中心点时使用的focal loss损失函数对模型进行训练，以调整所述基础网络模型中用于生成关键点得分图的权重参数，使得训练得到的图像特征点检测模型所生成的关键点得分图和所述关键点标注信息的差值不超过预设值。

同时，还可以根据所述预测词向量和所述真实词向量的距离，调整所述基础网络模型中用于生成词向量特征图的权重参数。即根据预测词向量和所述真实词向量的距确定为第二损失值，使用平滑L1损失函数，以使得图像特征点检测模型所生成的的词向量特征图中，关键点所对应的预测词向量和真实词向量的距离不超过预距离。

在前述部分对于图像特征点检测模型的训练进行了说明。在训练得到一个可用于在文本图像中进行关键点和词向量检测的图像特征点检测模型之后，即进入本申请的第二部分，如图3所示，图3为本申请实施例所提供的一种文本图像的配准方法的流程示意图，包括：

S301，获取待配准的第一文本图像和第二文本图像。

在实际应用中，第一文本图像和第二文本图像中各自包含了相应数量的文本行，如果是第一文本图像和第二文本图像所对应的实体相同(例如对应于同一份试卷或者对应于同一个练习册的同一页)，那么，在第一文本图像和第二文本图像中所包含的文本行应当是数量相同且一一对应的。

例如，在在线教育的场景中，第一文本图像可以是标准答案图像，第二第二文本图像可以是用户拍摄的试卷文本图像。在这种场景下，标准答案图像和用户拍摄的试卷文本图像均同时包含了相同数量的文本行：即题目部分或者又可以称为题干图像。

标准答案图像和用户拍摄的试卷文本图像的不同之处在于：在标准答案图像中在题干图像下方即为对应的标准答案，而在用户拍摄的试卷文本图像中，在题干图像下方即为用户所给出的手写或者打印的答案。显然，用户所给出的手写或者打印的答案通常总是与标准答案存在不同。

此外，由于用户拍摄的试卷文本图像还在角度和大小比例上和标准答案图像有可能存在不同，例如，用户拍摄的试卷文本图像有可能是具有一定倾斜角度的缩小图像，以及，还有可能包含一些背景图像，等等。

如图4所示，图4为本申请实施例所提供的标准答案图像和用户拍摄的试卷文本图像的示意图。在该示意图中，用户拍摄得到的试卷文本图像已经和标准答案图像的大小不再一致，同时还存在一定的拍摄倾角。在实际中，如果试卷是双面印刷的，那么还有可能在15、16或者17题的另一面会存在另外的印刷题干或者用户手写字体，这些都会对特征点提取和后续的单应矩阵计算产生影响。

又例如，在做问卷调查时，通过向不同身份的被调查者提供了相同的调查问卷，当被调查者以拍照的形式上传反馈问卷时，此时的第一文本图像即可以是不包含任何回答的调查问卷本身，而第二文本图像即可以是被调查者以拍照的形式所上传的反馈问卷，其中，不包含任何回答的调查问卷本身和中反馈问卷同时包含了相应数量的文本行，即每一个调查问题都是一个文本行。

在更多的应用场景下，第一文本图像和第二文本图像还可以有其它的形式，此处不再一一列举。

S303，采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量。

此处的图像特征点检测模型即为前述的第一方面训练所得到的图像特征点检测模型。基于该图像特征点检测模型即可以分别从第一文本图像检测得到多个第一关键点及其对应的多个第一词向量，同时，可以从第二文本图像中检测得到多个第二关键点及其对应的多个第二词向量，

显然，多个第一关键点和多个第二关键点的数量不一定相同(例如，在第一文本图像检测得到90个第一关键点，而在第二文本图像检测得到60个第二关键点)，但是第一词向量和第二词向量的维度相同。

此外，需要说明的是，在这个过程中，图像特征点检测模型并不需要检测得到具体的文本行的位置，也不需要识别得到文本图像中的字符，即这个过程的目标并不真正需要将文本检测出来，只是为了寻找关键的具有代表性的点(即第一关键点和第二关键点)。

S305，基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

如前所述，实际上由于检测得到的多个第一关键点和多个第二关键点目前只知道其坐标以及分别的词向量，因此还需要从多个第一关键点和多个第二关键点之间进行互相匹配，以确定特征点对。

具体而言，由于第一词向量和第二词向量的维度相同，因此，可以计算第一词向量和第二词向量的空间距离(包括欧氏距离，马氏距离、汉明距离等等)，如果一个第一词向量和一个第二词向量的空间距离不超过预设值，即可以认为为互相匹配的词向量，并且将其所对应的第一关键点和第二关键点确定为特征点对。

进一步地，如果一个第一词向量存在多个匹配的第二词向量，那么可以从中间选取空间距离最小的作为互相匹配的第一词向量和第二词向量。

从而将所述多个特征点对所对应的第一词向量和第二词向量作为特征描述符，根据所述特征描述符确定单应矩阵，在得到了多个匹配的特征点之后，即可以直接使用第一词向量和第二词向量作为特征描述符。特征描述符的目的是在特征点计算后,用一组向量将这个特征点描述出来,这个描述子不但包括特征点的信息,也包括特征点周围对其有贡献的像素点的相关信息。而在本申请中，第一词向量和第二词向量是在关键点周围的已标注的字符所对应的词向量，因此可以作为特征描述符来计算对应的单应矩阵。进而可以将第一文本图像中的像素点的坐标根据所述单应矩阵进行映射，生成另一文本图像，根据所述另一文本图像和所述第二文本图像进行图像配准，即将另一文本图像和第二文本图像中坐标相同的点的像素值进行对比、灰度或者替换等等。

通过本申请实施例提供的方案，首先训练得到一个用于检测关键点和词向量检测的图像特征点检测模型，然后基于图像特征点检测模型从待配准的第一文本图像和第二文本图像中检测得到多个特征点及其对应的词向量，并根据检测得到的特征点及其对应的词向量来计算得到单应矩阵，从而实现第一文本图像和第二文本图像间的像素点映射。这种操作极大的减少了在图像配准中的匹配的特征点的数量，增大了匹配效率，同时由于保留的点更有效，所以特征点的匹配精确准确度也更高，从而实现更准确的图像配准。

对于得到的特征点对在进行后续的图像配准时，还可以分别进行局部的图像配准或者全局的图像配准。

具体而言，在一种实施方式中，可以使用获取得到的全部的多个特征点对所对应的第一词向量和第二词向量作为特征描述符，来确定全局单应矩阵，进行基于全局单应矩阵来实现第一文本图像和第二文本图像的每一个像素点间的映射，在这种配准方式下实现方式较为简单。

在另一种实施方式中，还可以根据多个特征点的坐标对所述多个特征点进行分类，生成多个特征点子集，其中，一个特征点子集中包含所述第一文本图像中同属于第一文本行的特征点，以及，所述第二文本图像中与所述第一文本行中的特征点相匹配的同属于第二文本行的特征点(即一个特征点子集中所包含的第一关键点的坐标对应所述第一文本图像中的一个第一文本行，特征点子集中所包含的第二关键点的坐标对应所述第二文本图像中的一个第二文本行)。例如，在已知文本行的高度的情况下(可以根据实际的情形预先设定)，可以基于中心点的高度坐标和角点的高度来对关键点进行分类。

例如，假设文本行的高度为1，一个中心点的坐标为(10,10)，那么则可以知道与中心点属于同一个文本行的高度坐标应该为9或者11。从而可以基于该方式对于得到的多个特征点进行分类，即，高度坐标在区间[9,11]之间的点都输入第一文本行。从而可以分别确定出与多个文本行一一对应的多个特征点子集。显然，特征点子集与第一文本图像或者第二文本图像中的文本行的数量是一一对应的。

进而，针对任一的特征点子集，根据该特征点子集中所包含的特征点对所对应的第一词向量和第二词向量作为特征描述符，计算局部单应矩阵，并将每个所述特征点子集对应的第一文本行的像素点的坐标根据所述局部单应矩阵映射到所述第二文本行。

即将所述特征点子集对应的第一文本行的像素点的坐标根据所述单应矩阵进行映射，生成另一文本行图像，根据所述另一文本行图像和所述第二文本行中坐标相同的点的像素值进行对比、灰度或者替换等等操作，以进行图像配准。

在这种方式下，如果在第一文本图像和第二文本图像中存在N个文本行，那么将会产生一一对应的N个局部单应矩阵，第一文本图像和第二文本图像可以分别基于每个文本行之间对应的局部单应矩阵来实现局部的像素点的映射和配准，从而通过每个局部的映射和配准来实现整体的图像配准，在这种配准方式下实现速度较快且更为准确。

与第一方面对应的，本申请实施例的第三方面还提供了一种图像特征点检测模型训练装置，如图5所示，图5为本申请实施例所提供的一种图像特征点检测模型训练装置的结构示意图，具体包括：

训练样本获取模块501，获取训练样本，所述训练样本为文本图像，所述训练样本的标签中包含文本图像的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息；

真实词向量获取模块503，获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；

特征提取模块505，采用基础网络模型对所述文本图像进行特征提取，获得特征图像；

输出图像生成模块507，根据所述特征图像生成输出图像，其中，所述输出图像与所述训练样本相同规格，所述输出图像包括关键点得分图和词向量特征图，所述关键点得分图用于表征每个像素点为关键点的概率，所述词向量特征图用于表征每个像素点所对应的第二预设区域内的字符的词向量；

模型调整模块509，根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型。

本实施例的图像特征点检测模型训练装置用于实现前述多个方法实施例中相应的模型训练方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的图像特征点检测模型训练装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

与第二方面对应的，本申请实施例的第四方面还提供一种文本图像的配准装置，如图6所示，图6为本申请实施例所提供的一种文本图像的配准装置的结构示意图，具体包括：

图像获取模块601，获取待配准的第一文本图像和第二文本图像；

检测模块603，采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量，其中，所述图像特征点检测模型基于第一方面的模型训练方法训练得到；

配准模块605，基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

本实施例的文本图像的配准装置用于实现前述多个方法实施例中相应的文本图像的配准方法，并具有相应的方法实施例的有益效果，在此不再赘述。此外，本实施例的文本图像的配准装置中的各个模块的功能实现均可参照前述方法实施例中的相应部分的描述，在此亦不再赘述。

本申请实施例的第五方面，提供了一种电子设备，包括：处理器；以及存储程序的存储器，其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行如第一方面或者第二方面所述的方法。

如图7所示，图7为本申请实施例所提供的一种电子设备的结构示意图，本申请具体实施例并不对电子设备的具体实现做限定。

如图7所示，该电子设备可以包括：处理器(processor)1002、通信接口(Communications Interface)1004、存储器(memory)1006、以及通信总线1008。

其中：

处理器1002、通信接口1004、以及存储器1006通过通信总线1008完成相互间的通信。

通信接口1004，用于与其它电子设备或服务器进行通信。

处理器1002，用于执行程序1010，具体可以执行上述文本图像配准方法实施例中的相关步骤。

具体地，程序1010可以包括程序代码，该程序代码包括计算机操作指令。

处理器1002可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器1006，用于存放程序1010。存储器1006可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

程序1010具体可以用于使得处理器1002执行如第一方面或者第二方面中的操作。

程序1010中各步骤的具体实现可以参见上述模型训练方法或者文本图像的配准方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

本申请实施例的第六方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该程序被处理器执行时实现如第一方面或者第二方面所述的方法。

需要指出，根据实施的需要，可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤，也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤，以实现本申请实施例的目的。

上述根据本申请实施例的方法可在硬件、固件中实现，或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码，或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码，从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解，计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如，RAM、ROM、闪存等)，当所述软件或计算机代码被计算机、处理器或硬件访问且执行时，实现在此描述的方法。此外，当通用计算机访问用于实现在此示出的方法的代码时，代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及方法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请实施例的范围。

以上实施方式仅用于说明本申请实施例，而并非对本申请实施例的限制，有关技术领域的普通技术人员，在不脱离本申请实施例的精神和范围的情况下，还可以做出各种变化和变型，因此所有等同的技术方案也属于本申请实施例的范畴，本申请实施例的专利保护范围应由权利要求限定。

Claims

1.一种图像特征点检测模型训练方法，包括：

获取训练样本，所述训练样本为文本图像，所述训练样本的标签中包含文本图像的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息；

获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；

采用基础网络模型对所述文本图像进行特征提取，获得特征图像；

根据所述特征图像生成输出图像，其中，所述输出图像与所述训练样本相同规格，所述输出图像包括关键点得分图和词向量特征图，所述关键点得分图用于表征每个像素点为关键点的概率，所述词向量特征图用于表征每个像素点所对应的第二预设区域内的字符的词向量；

根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型。

2.如权利要求1所述的方法，其中，根据所述特征图像生成输出图像包括：

对所述特征图像进行卷积操作和反卷积操作，获得文本框中心点得分图、文本框第一角点得分图、文本框第二角点得分图以及词向量特征图，其中，文本框第一角点和文本框第二角点互为文本框的对角点。

3.如权利要求2所述的方法，其中，所述第一预设区域内的字符包括：

分别在N个指定方向上距离所述关键点最近的N个字符，其中，N为非零自然数；或者，

以所述关键点为圆心的圆内距离所述关键点最近的M个字符，其中，M为非零自然数。

4.如权利要求1所述的方法，其中，根据预测关键点和所述词向量特征图确定预测词向量，包括：

确定所述预测关键点在所述关键点得分图中的像素位置；

拼接在词向量特征图中所述像素位置上的词向量特征图的多个通道的像素值，生成预测词向量。

5.如权利要求1所述的方法，其中，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，包括：

根据所述关键点得分图和所述关键点标注信息的差值，调整所述基础网络模型中用于生成关键点得分图的权重参数；

以及，根据所述预测词向量和所述真实词向量的距离，调整所述基础网络模型中用于生成词向量特征图的权重参数。

6.如权利要求1所述的方法，其中，所述关键点包括文本图像的文本行的角点、边上的分位点和中心点中的至少一种；所述输出图像中关键点得分图的数量与所述关键点的类型数量一致。

7.一种文本图像的配准方法，包括：

获取待配准的第一文本图像和第二文本图像；

采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量，其中，所述图像特征点检测模型基于权利要求1至6的任一方法训练得到；

基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

8.如权利要求7所述的方法，其中，基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理，包括：

将空间距离不超过预设距离的第一词向量和第二词向量各自对应的关键点确定为互相匹配的特征点对，获得多个特征点对；

根据所述多个特征点对，计算所述第一文本图像和第二文本图像的单应矩阵；

将第一文本图像中的像素点的坐标根据所述单应矩阵映射到所述第二文本图像。

9.如权利要求8所述的方法，其中，根据所述多个特征点对，计算所述第一文本图像和第二文本图像的单应矩阵，包括：

根据特征点对的坐标对所述多个特征点对进行分类，生成多个特征点子集，其中，一个特征点子集中包含所述第一文本图像中同属于第一文本行的特征点，以及，所述第二文本图像中与所述第一文本行中的特征点相匹配的同属于第二文本行的特征点；

针对任一的特征点子集，根据该特征点子集中所包含的特征点对所对应的第一词向量和第二词向量，计算局部单应矩阵；

相应的，所述将第一文本图像中的像素点的坐标根据所述单应矩阵映射到所述第二文本图像，包括：将每个所述特征点子集对应的第一文本行的像素点的坐标根据所述局部单应矩阵映射到所述第二文本行。

10.一种图像特征点检测模型训练装置，包括：

训练样本获取模块，获取训练样本，所述训练样本为文本图像，所述训练样本的标签中包含文本图像的关键点的关键点标注信息和位于所述关键点第一预设区域内的字符的字符标注信息；

真实词向量获取模块，获取所述字符标注信息中字符对应的真实词向量，其中，所述真实词向量通过对字符进行编码后生成；

特征提取模块，采用基础网络模型对所述文本图像进行特征提取，获得特征图像；

输出图像生成模块，根据所述特征图像生成输出图像，其中，所述输出图像与所述训练样本相同规格，所述输出图像包括关键点得分图和词向量特征图，所述关键点得分图用于表征每个像素点为关键点的概率，所述词向量特征图用于表征每个像素点所对应的第二预设区域内的字符的词向量；

模型调整模块，根据关键点得分图确定预测关键点，根据预测关键点和所述词向量特征图确定预测词向量，基于所述预测关键点、预测词向量、所述训练样本的关键点标注信息以及所述真实词向量对所述基础网络模型进行训练，得到图像特征点检测模型。

11.一种文本图像的配准装置，包括：

图像获取模块，获取待配准的第一文本图像和第二文本图像；

检测模块，采用图像特征点检测模型检测得到所述第一文本图像中的多个第一关键点及所述每个第一关键点对应的第一词向量，以及，采用所述图像特征点检测模型检测得到所述第二文本图像中的多个第二关键点及每个所述第二关键点对应的第二词向量，其中，所述图像特征点检测模型基于权利要求1至6的任一方法训练得到；

配准模块，基于所述第一关键点、所述第一词向量、所述第二关键点和所述第二词向量，对所述第一文本图像和第二文本图像进行配准处理。

12.一种电子设备，包括：

处理器；以及

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-9中任一项所述的方法。

13.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的方法。

14.一种计算机程序产品，包括计算机程序，其中，所述计算机程序在被处理器执行时实现权利要求1-9中任一项所述的方法。