CN114937280A

CN114937280A - 用于对文档图像进行一致性比对的方法及装置

Info

Publication number: CN114937280A
Application number: CN202210643781.0A
Authority: CN
Inventors: 罗涛; 张晓博; 钱烽
Original assignee: Ant Blockchain Technology Shanghai Co Ltd
Current assignee: Ant Blockchain Technology Shanghai Co Ltd
Priority date: 2022-06-08
Filing date: 2022-06-08
Publication date: 2022-08-23

Abstract

本说明书实施例提供了用于对文档图像进行一致性比对的方法及装置。在该方法中，获取待比对文档图像；使用文本特征提取模型对待比对文档图像进行特征提取，以得到对应的待比对文本特征向量；根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中确定出与待比对文档图像的相似度最高的第一指定数量的文档图像；以及将待比对文档图像与所确定出的各个文档图像分别进行相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。

Description

用于对文档图像进行一致性比对的方法及装置

技术领域

本说明书实施例涉及人工智能技术领域，具体地，涉及用于对文档图像进行一致性比对的方法及装置。

背景技术

文档由字符、句子、段落等不同类型的文本构成，两个文档之间进行一致性比对时，是针对两个文档中的文本进行比对。当两个文档中的文本存在差异时，则该两个文档之间不一致。否则，该两个文档之间具备一致性。

目前，针对文档的一致性比对，常用比对方式是利用OCR(Optical CharacterRecognition，光学字符识别)技术进行比对。在该比对方式中，对于待比对的任意两个文档，需要先将该两个文档转换成图像，然后利用OCR技术分别对每个文档的图像进行字符识别，以识别出每个文档中包含的字符。接着，将两个文档中所识别出的字符进行一一比对，当经过比对存在不同的字符时，可以确定该两个文档不一致。当经过比对两个文档中的字符均相同时，则可以确定该两个文档具备一致性。通过OCR技术，能够实现对任意两个文档之间的一致性比对。

发明内容

鉴于上述，本说明书实施例提供了用于对文档图像进行一致性比对的方法及装置。在本说明书实施例提供的技术方案中，通过根据文本特征向量的相似性能够从文档库中粗筛出一部分相似度较高的文档图像，从而减少了与待比对文档图像进行比对处理的文档图像的数量，提高了一致性比对的处理效率。此外，通过多任务学习方式训练出的文本特征提取模型能够提取更有效的且更有针对性的语义特征信息，从而在初筛阶段针对相似的文档图像的筛选更精确。

根据本说明书实施例的一个方面，提供了一种用于对文档图像进行一致性比对的方法，包括：获取待比对文档图像；使用文本特征提取模型对所述待比对文档图像进行特征提取，以得到对应的待比对文本特征向量，其中，所述文本特征提取模型是通过多任务学习方式训练得到，所述训练中的多任务包括针对图像文本的不同维度的任务；根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像，其中，所述各个文档图像对应的文本特征向量是使用所述文本特征提取模型得到的；以及将所述待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像。

根据本说明书实施例的另一方面，还提供一种用于对文档图像进行一致性比对的装置，包括：文档图像获取单元，获取待比对文档图像；特征向量提取单元，使用文本特征提取模型对所述待比对文档图像进行特征提取，以得到对应的待比对文本特征向量，其中，所述文本特征提取模型是通过多任务学习方式训练得到，所述训练中的多任务包括针对图像文本的不同维度的任务；文档图像筛选单元，根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像，其中，所述各个文档图像对应的文本特征向量是使用所述文本特征提取模型得到的；以及相似性比对单元，将所述待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像。

根据本说明书实施例的另一方面，还提供一种电子设备，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如上述任一所述的用于对文档图像进行一致性比对的方法。

根据本说明书实施例的另一方面，还提供一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的用于对文档图像进行一致性比对的方法。

根据本说明书实施例的另一方面，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上任一所述的用于对文档图像进行一致性比对的方法。

附图说明

通过参照下面的附图，可以实现对于本说明书实施例内容的本质和优点的进一步理解。在附图中，类似组件或特征可以具有相同的附图标记。

图1示出了根据本说明书实施例的用于对文档图像进行一致性比对的方法的一个示例的流程图。

图2示出了根据本说明书实施例的针对文本特征提取模型进行训练的一个示例的示意图。

图3示出了根据本说明书实施例的结构相似性比对的一个示例的流程图。

图4示出了根据本说明书实施例的用于对文档图像进行一致性比对的装置的一个示例的方框图。

图5示出了根据本说明书实施例的相似性比对单元的一个示例的方框图。

图6示出了根据本说明书实施例的用于实现文档图像一致性比对方法的电子设备的方框图。

具体实施方式

以下将参考示例实施方式讨论本文描述的主题。应该理解，讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题，并非是对权利要求书中所阐述的保护范围、适用性或者示例的限制。可以在不脱离本说明书实施例内容的保护范围的情况下，对所讨论的元素的功能和排列进行改变。各个示例可以根据需要，省略、替代或者添加各种过程或组件。另外，相对一些示例所描述的特征在其它例子中也可以进行组合。

如本文中使用的，术语“包括”及其变型表示开放的术语，含义是“包括但不限于”。术语“基于”表示“至少部分地基于”。术语“一个实施例”和“一实施例”表示“至少一个实施例”。术语“另一个实施例”表示“至少一个其他实施例”。术语“第一”、“第二”等可以指代不同的或相同的对象。下面可以包括其他的定义，无论是明确的还是隐含的。除非上下文中明确地指明，否则一个术语的定义在整个说明书中是一致的。

然而，在上述比对方式中，在一个待比对文档需要与若干个文档进行一致性比对的情况下，比如，存储在文档库中的若干文档，待比对文档需要与该若干文档中的每个文档分别进行比对处理，这样导致执行比对操作的数据量大，从而导致一致性比对的处理效率低。

鉴于上述，本说明书实施例提供了用于对文档图像进行一致性比对的方法及装置。在该方法中，获取待比对文档图像；使用文本特征提取模型对待比对文档图像进行特征提取，以得到对应的待比对文本特征向量；根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中确定出与待比对文档图像的相似度最高的第一指定数量的文档图像；以及将待比对文档图像与所确定出的各个文档图像分别进行相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。在本说明书实施例提供的技术方案中，通过根据文本特征向量的相似性能够从文档库中粗筛出一部分相似度较高的文档图像，从而减少了与待比对文档图像进行比对处理的文档图像的数量，提高了一致性比对的处理效率。此外，通过多任务学习方式训练出的文本特征提取模型能够提取更有效的且更有针对性的语义特征信息，从而在初筛阶段针对相似的文档图像的筛选更精确。

下面结合附图对本说明书实施例提供的用于对文档图像进行一致性比对的方法及装置进行详细说明。

图1示出了根据本说明书实施例的用于对文档图像进行一致性比对的方法的一个示例100的流程图。

如图1所示，在110，可以获取待比对文档图像。

在本说明书实施例中，待比对文档图像包括待比对的文档的图像区域。可以通过摄像设备获取待比对文档图像，比如，摄像设备可以包括照相机、摄像机、具备摄像功能的手机等电子设备。

在一个场景中，摄像设备可以对待比对的文档进行拍摄，以得到该文档对应的待比对文档图像。然后，摄像设备可以将该待比对文档图像发送给执行一致性比对操作的设备中。在一个示例中，待比对的文档可以包括身份证、银行卡、纸张等，纸张上可以呈现有字符等。

在一个示例中，在获取到待比对文档图像后，可以确定待比对文档图像中的纸张区域图像。在该示例中，当待比对的文档包括具有字符的纸张时，待比对文档图像包括有纸张区域图像，纸张区域图像是待比对文档图像中纸张所在区域的图像。在一个示例中，纸张区域图像可以是待比对文档图像中的一部分图像。在另一个示例中，纸张区域可以充满整个待比对文档图像，从而待比对文档图像即为纸张区域图像。

在一个示例中，可以检测待比对文档图像中的文档区域，所检测的文档区域包括纸张区域、身份证区域、银行卡区域等。然后，可以检测该文档区域的显示对象是否为纸张，在确定文档区域的显示对象是纸张时，可以从待比对文档图像中提取纸张区域图像。

在上述示例中，在检测文档区域的显示对象是否为纸张之前，可以从待比对文档图像中提取文档区域图像，然后检测该文档区域图像的显示对象是否为纸张，在确定该显示对象是纸张时，可以将该文档区域图像确定为纸张区域图像。

针对纸张的检测方式，可以采用机器学习模型的方式进行检测。在该检测方式中，可以预先训练出用于检测图像中的纸张的模型，然后，使用经过训练的模型来检测文档区域的显示对象是否为纸张。

在一个示例中，当纸张区域图像是待比对文档图像中的一部分图像时，在待比对文档图像中纸张区域与非纸张区域相邻，纸张区域与非纸张区域之间因为对象的不同，比如，纸张区域的对象是纸张，非纸张区域的对象是放纸张的桌子，导致待比对文档图像中纸张区域与非纸张区域的边缘连接处的像素点有明显变化，比如，像素值呈现梯度变化。基于此，可以使用边缘检测方式从待比对文档图像中提取纸张区域图像，所提取的纸张区域图像可以作为后续进行一致性比对的待比对文档图像。

在一个示例中，可以训练具备针对纸张区域的边缘进行检测的机器学习模型，使用该机器学习模型对待比对文档图像进行边缘检测，以确定出待比对文档图像中的纸张区域，从而根据所确定出的纸张区域从待比对文档图像中提取纸张区域图像。

在另一个示例中，当基于边缘检测方式无法从待比对文档图像中检测到边缘时，可以确定该待比对文档图像中仅呈现一个对象，而不存在多个对象。因此，对于该待比对文档图像，无法从待比对文档图像中分割出更小的区域图像，从而可以确定该待比对文档图像为纸张区域图像。

在该示例中，可以检测该待比对文档图像中所显示的对象是否为纸张，在确定待比对文档图像中显示的是纸张时，可以将该待比对文档图像确定为纸张区域图像。

在120，可以使用文本特征提取模型对待比对文档图像进行特征提取，以得到对应的待比对文本特征向量。

在本说明书实施例中，文本特征提取模型可以是机器模型，还可以是神经网络模型，比如，可以是adv-inception V3。文本特征提取模型可以用于提取输入图像中的针对文本的相关特征。

在本说明书实施例中，文本特征提取模型可以从针对文本的不同维度来提取相关特征，针对文本的特征维度可以包括：针对文本的分割所形成的文本区域、文本版式等。

文本特征提取模型可以是通过多任务学习方式训练得到，该训练中的多任务可以包括针对图像文本的不同维度的任务。通过不同维度的任务来训练文本特征提取模型，使得经过训练的文本特征提取模型具有从该不同维度来提取文本特征的能力，即，文本特征提取模型所输出的文本特征包括该不同的各个维度的特征。多任务模型训练中的各个任务可以自定义配置，从而可以通过配置不同的任务使得所训练的文本特征提取模型能够有针对性地提取指定维度的文本特征。

在一个示例中，针对文本特征提取模型的训练中的多任务可以包括：文本分割任务以及文本版式识别任务等。

文本分割任务用于从图像中识别出文本区域，并将所识别出的文本区域分割出来。在模型训练中，通过文本分割任务可以使得所训练的文本特征提取模型更关注于图像中的文本部分，从而使得所训练的文本特征提取模型对文本的识别更精确。在一个示例中，文本分割任务可以采用DBNet的Head作为执行文本分割任务的网络。

在文本分割任务中，输入的是训练中的当前文本特征提取模型输出的特征向量，然后对该特征向量执行文本分割任务，得到文本区域分割结果，将文本区域分割结果与文本区域标签进行比较，以得到对应的损失值。

文本版式识别任务用于对图像中的文本所构成的版式进行识别，文本版式由图像中的所有文本构成。文本版式可以体现文本在图像中的分布，从而文本版式从整体上表征出图像中的文本特征。在模型训练中，通过文本版式识别任务可以使得所训练的文本特征提取模型更关注图像中的文本所构成的文本版式，从而使得所训练的文本特征提取模型能够识别出文本在图像中的整体分布。在一个示例中，文本版式识别任务可以采用dhSegment的Head作为执行文本版式识别任务的网络。

在文本版式识别任务中，输入的是训练中的当前文本特征提取模型输出的特征向量，然后对该特征向量执行文本版式识别任务，得到文本版式识别结果，将文本版式识别结果与文本版式标签进行比较，以得到对应的损失值。

在另一个示例中，针对文本特征提取模型的训练中的多任务还可以包括：纸张角度回归任务和/或图像重建任务等。

纸张角度回归任务用于对图像中的纸张的角度进行调整。在模型训练中，通过纸张角度回归任务可以使得所训练的模型更关注图像中的纸张。在一个示例中，纸张角度回归任务可以采用MLP(Multilayer Perceptron，多层感知器)和Sigmoid相结合的网络作为执行纸张角度回归任务的网络。

在纸张角度回归任务中，可以对输入文本特征提取模型的样本纸张图像中的纸张旋转一个随机角度，在模型训练中，文本特征提取模型可以输出纸张旋转后的图像对应的特征向量。可以将该特征向量作为纸张角度回归任务的输入，从而可以基于作为回归目标的随机角度对该特征向量执行纸张角度回归任务，得到纸张角度回归结果，将该纸张角度回归结果与回归目标进行比较，以得到对应的损失值。

图像重建任务用于根据从图像中所提取的特征向量来对该图像进行重建，图像重建任务可以使得所训练的模型能够从图像中提取更高精度的表征向量，从而所训练的模型能够更关注图像中的文本。在一个示例中，图像重建任务可以采用SDAE(stacked denoisedautoencoder，堆栈去噪自编码器)的解码器作为执行图像重建任务的网络。

在图像重建任务中，输入的是训练中的当前文本特征提取模型输出的图像所对应的特征向量，然后对该特征向量执行图像重建任务，得到图像重建结果，将图像重建结果与输入当前文本特征提取模型的原始图像进行比较，以得到对应的损失值。

在一个示例中，对于输入当前文本特征提取模型的样本纸张图像，可以增加噪音，从而当前文本特征提取模型输出的是增加噪音后的图像所对应的特征向量，然后对该特征向量执行图像重建任务，得到图像重建结果，将图像重建结果与增加噪音之前的原始图像进行比较，以得到对应的损失值。

需要说明的是，针对文本特征提取模型的训练中的多任务除了包括上述四种任务以外，还可以包括其他维度的针对图像文本的任务，各个任务之间可以相互独立执行。

如图2所示，针对文本特征提取模型的模型训练可以由多轮训练构成，在每一轮模型训练过程中，可以将样本纸张图像输入给待训练的当前文本特征提取模型。样本纸张图像是包括有纸张的图像，纸张上有字符等文本信息。当前文本特征提取模型可以对输入的样本纸张图像提取对应的图像特征，从而当前文本特征提取模型可以输出样本纸张图像对应的图像特征向量。

然后，可以对所得到的图像特征向量分别执行多任务中的各个任务，以得到各个任务对应的损失值。各个任务之间相互独立，在一个示例中，每个任务可以由一个设备来执行，从而可以将图像特征向量分别输入至各个任务对应的设备中，以对图像特征向量执行相应的任务。以图2为例，模型训练的多任务包括文本分割任务、文本版式识别任务、纸张角度回归任务以及图像重建任务，则对图像特征向量可以分别执行文本分割任务、文本版式识别任务、纸张角度回归任务以及图像重建任务。

每一种任务对应有标签，不同任务对应的标签可以不同。例如，文本分割任务对应的标签是文本区域，文本版式识别任务对应的标签是文本版式，纸张角度回归任务对应的标签是纸张需要回归的角度，图像重建任务对应的标签是需要重建的原始图像。对于每一种任务，对输入的图像特征向量进行相应处理，并根据该任务对应的标签得到用于表征处理结果与标签之间的差距的损失值。不同任务所得到的损失值可以不同。

接着，根据各个任务对应的损失值得到总损失值，总损失值的得到方式可以包括聚合方式。在一种聚合方式中，可以将各个任务对应的损失值相加，所得到的和即为总损失值。在另一种聚合方式中，可以将各个任务对应的损失值进行平均，得到的均值即为总损失值。在另一种聚合方式中，针对各个任务可以设置对应的权重，可以将各个任务的损失值和权重相乘，再将各个任务对应的乘积相加，所得到的和即为总损失值。

根据总损失值对当前文本特征提取模型的模型参数进行调整。在当前不满足循环结束条件时，可以将调整后的文本特征提取模型作为下一次循环的当前文本特征提取模型。在当前满足循环结束条件时，则可以结束训练。

在一个示例中，循环结束条件可以根据总损失值确定。例如，循环结束条件可以包括：总损失值小于第一阈值、相邻两轮的总损失值之差小于第二阈值等。在另一个示例中，循环结束条件还可以包括循环次数小于第三阈值。

需要说明的是，图2所示的模型训练仅作为一个示例，文本分割任务、文本版式识别任务、纸张角度回归任务以及图像重建任务仅作为多任务的一个示例，多任务还可以包括其他任务，还可以仅包括文本分割任务、文本版式识别任务、纸张角度回归任务以及图像重建任务中的部分任务。

在130，根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，可以从文档库中筛选出与待比对文档图像的相似度最高的第一指定数量的文档图像。

在本说明书实施例中，文档库中可以存储有已被识别的多个文档，文档库中的文档可以以图像、PDF、WORD等形式存储。当文档以非图像形式存储时，可以将文档转换成文档图像。文档库中的各个文档图像可以对应提取出文本特征向量，各个文档图像对应的文本特征向量可以是使用经过训练的文本特征提取模型得到的，该文本特征提取模型与对待比对文档图像进行特征提取的文本特征提取模型相同。

在一个示例中，在执行本说明书实施例的过程中，可以使用文本特征提取模型分别对文档库中的各个文档图像进行特征提取，从而针对每个文档图像可以得到对应的文档特征向量。在另一个示例中，在执行说明书实施例前，可以预先使用文本特征提取模型分别对文档库中的各个文档图像进行特征提取，以得到各个文档图像对应的文档特征向量。所得到的文档特征向量可以存储在文档库中，还可以存储在其他存储空间中。当需要使用各个文档图像的文档特征向量时，可以从所在的存储空间中获取相应的文档特征向量。

在一个示例中，可以将待比对文本特征向量分别与各个文档图像对应的文本特征向量相乘，所得到的乘积可以表示对应的两个特征向量所表征的两个图像之间的相似度。即，当待比对文本特征向量与一个文档图像对应的文本特征向量相乘，可以得到针对待比对文档图像与该文档图像之间的相似度。在计算得到待比对文档图像与各个文档图像之间的相似度后，按照相似度的大小筛选出第一指定数量的最大的相似度，所筛选出的相似度对应的文档图像可以被确定为与待比对文档图像的相似度最高的第一指定数量的文档图像。

在另一个示例中，可以使用KNN(K-Nearest Neighbor)算法根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中筛选出与待比对文档图像的相似度最高的第一指定数量的文档图像。

在该示例中，每个特征向量可以用特征空间中的一个点来表示，基于此，待比对文本特征向量以及各个文本特征向量可以以特征点的方式表示在特征空间中。然后，在特征空间中可以计算待比对文本特征向量对应的特征点与其他各个特征点之间的距离，并将所计算得到的各个距离按照大小进行排序，筛选出K个距离最小的特征点，K是第一指定数量。根据所筛选出的K个距离最小的特征点可以确定与待比对文档图像的相似度最高的第一指定数量的文档图像，具体地，确定所筛选出的K个特征点对应的文本特征向量，然后进一步地确定K个文本特征向量对应的文档图像，所确定的K个文档图像即为与待比对文档图像的相似度最高的第一指定数量的文档图像。

在140，可以将待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。

在一个示例中，可以将待比对文档图像与所筛选出的各个文档图像分别进行结构相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。结构相似性比对是从整体结构的维度上进行图像的相似度比对，整体结构可以包括图像中的文本区域、文本版式等。

在结构相似性比对的一个示例中，可以将待比对文档图像分别与所筛选出的各个文档图像配对成一个图像对，每个图像对包括两张图像，其中一张是待比对文档图像，另一张是其中一张文档图像，不同图像对中的文档图像不同。

图3示出了根据本说明书实施例的结构相似性比对的一个示例300的流程图。

如图3所示，在141，针对各个图像对，可以基于该图像对中的待比对文档图像和文档图像中的关键点将待比对文档图像和文档图像进行图像对齐。

在一个示例中，针对各个图像对，可以提取该图像对中的待比对文档图像和文档图像中的关键点特征向量，每个关键点特征向量用于表征一个关键点。关键点特征向量的提取方式可以包括SIFT(Scale-invariant feature transform，尺度不变特征变换)、SURF(Speeded Up Robust Features)等。在一个示例中，在提取待比对文档图像和文档图像的关键点后，可以对所提取的关键点进行异常点过滤，过滤的方式可以包括GMS(Grid-basedMotion Statistics)等。通过过滤异常点能够减小异常点对正常关键点的影响，从而避免异常点影响图像对齐。

在提取待比对文档图像和文档图像中的关键点后，可以根据待比对文档图像的关键点特征向量以及文档图像的关键点特征向量，筛选出第二指定数量的对齐的关键点对，以使待比对文档图像与文档图像基于所筛选的关键点对对齐。每个关键点对由待比对文档图像中的一个关键点和文档图像中的一个关键点构成，每个关键点对中包括的两个关键点表征同一对象。

在一个示例中，第二指定数量可以包括4，则在本说明书实施例中筛选4个对齐的关键点对。例如，可以将矩阵形状的图像上的四个顶点确定为对齐的4个关键点。

在根据关键点特征向量来确定关键点对的一个示例中，可以将表征同一对象的不同图像中的关键点特征向量确定为一个关键点对。在该示例中，可以在特征空间中表示出各个关键点特征向量对应的关键点，则位于同一位置的关键点对应的关键点特征向量所表征的对象相同。

在图像对齐的另一个示例中，针对待比对文档图像以及所确定出的各个文档图像，还可以利用深度学习模型对待比对文档图像与文档图像进行关键点检测以及匹配，然后基于关键点检测和匹配的结果将待比对文档图像与文档图像进行图像对齐。用于关键点检测以及匹配的深度学习模型可以包括loftr、superglue等。

回到图3，在143，可以利用对齐的待比对文档图像中的关键点以及文档图像中的关键点，计算透视变换矩阵。然后，利用透视变换矩阵对待比对文档图像进行反透视变换。经过反透视变换后的待比对文档图像与文档图像在几何维度上一致，比如，文档图像为长度为a、宽度为b的矩形，则经过反透视变换后的待比对文档图像也是长度为a、宽度为b的矩形。

在145，可以将变换后的待比对文档图像与文档图像进行结构相似性比对，以得到结构相似度。结构相似度可以用数值来表示，数值越高表示结构相似度越高，而数值越低表示结构相似度越低。

在一个示例中，可以利用SSIM(Structural Similarity)算法将变换后的待比对文档图像与文档图像进行结构相似性比对，以得到结构相似度。在另一个示例中，可以利用孪生网络比对模型将变换后的待比对文档图像与文档图像进行结构相似性比对，以得到结构相似度。在该示例中，可以将待比对文档图像和文档图像分别输入至孪生网络比对模型中的两个孪生网络中进行相应处理，孪生网络比对模型输出用于表征待比对文档图像与文档图像之间结构相似度的数值。

在147，根据待比对文档图像与各个文档图像之间的结构相似度，确定出与待比对文档图像中的文本内容一致的文档图像。

在一个示例中，可以将结构相似度最高的文档图像确定为与待比对文档图像中的文本内容一致的文档图像。在另一个示例中，判断最高的结构相似度是否大于指定相似度阈值，若大于，则可以将结构相似度最高的文档图像确定为与待比对文档图像中的文本内容一致的文档图像；若不大于，则可以确定文档库中不存在与待比对文档图像一致的文档图像。

在上述示例中，通过利用图像处理的方式来进行结构相似性比对，从图像的整体结构上进行比对，在提升整体性的同时，相比于OCR的方式，无需对文档中的每个字符进行细节处理，比对处理的数据量减少，从而使得比对处理效果提升。

图4示出了根据本说明书实施例的用于对文档图像进行一致性比对的装置(以下称为文档图像一致性比对装置400)的一个示例的方框图。

如图4所示，文档图像一致性比对装置400包括：文档图像获取单元410、特征向量提取单元420、文档图像筛选单元430和相似性比对单元440。

文档图像获取单元410，可以被配置为获取待比对文档图像。

在一个示例中，文档图像一致性比对装置400还可以包括纸张区域图像确定单元，该纸张区域图像确定单元可以被配置为确定待比对文档图像中的纸张区域图像。在一个示例中，纸张区域图像确定单元还可以被配置为：使用边缘检测方式从所获取的待比对文档图像中提取纸张区域图像，作为进行一致性比对的待比对文档图像；或者，当基于边缘检测不能从待比对文档图像中分割出更小的区域图像时，确定待比对文档图像为纸张区域图像。

特征向量提取单元420，被配置为使用文本特征提取模型对待比对文档图像进行特征提取，以得到对应的待比对文本特征向量，其中，文本特征提取模型是通过多任务学习方式训练得到，训练中的多任务包括针对图像文本的不同维度的任务。

在一个示例中，训练中的多任务包括：文本分割任务和文本版式识别任务。在一个示例中，训练中的多任务还包括：纸张角度回归任务和/或图像重建任务。

文档图像筛选单元430，被配置为根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中筛选出与待比对文档图像的相似度最高的第一指定数量的文档图像，其中，各个文档图像对应的文本特征向量是使用文本特征提取模型得到的。

在一个示例中，文档图像筛选单元430可以被配置为：使用KNN算法根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中筛选出与待比对文档图像的相似度最高的第一指定数量的文档图像。

相似性比对单元440，被配置为将待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。

在一个示例中，相似性比对单元440可以被配置为：将待比对文档图像与所筛选出的各个文档图像分别进行结构相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。

在一个示例中，文本特征提取模型可以按照以下方式进行训练，直至满足循环结束条件：将样本纸张图像输入待训练的当前文本特征提取模型，以得到输出的图像特征向量；对所得到的图像特征向量分别执行多任务中的各个任务，以得到各个任务对应的损失值；根据各个任务对应的损失值得到总损失值；以及根据总损失值对当前文本特征提取模型的模型参数进行调整，并将调整后的文本特征提取模型作为下一次循环的当前文本特征提取模型。

图5示出了根据本说明书实施例的相似性比对单元440的一个示例的方框图。

如图5所示，相似性比对单元440包括：图像对齐模块441、反透视变换模块443、结构相似性比对模块445和文档图像确定模块447。

图像对齐模块441，可以被配置为针对待比对文档图像以及所筛选出的各个文档图像，将待比对文档图像与该文档图像基于关键点进行图像对齐。在一个示例中，图像对齐模块441还可以被配置为：针对待比对文档图像以及所确定出的各个文档图像，提取待比对文档图像以及该文档图像中的关键点特征向量；以及根据待比对文档图像的关键点特征向量以及该文档图像的关键点特征向量，筛选第二指定数量的对齐的关键点对，以使待比对文档图像与该文档图像基于所筛选的关键点对对齐。

反透视变换模块443，可以被配置为根据待比对文档图像与该文档图像中对齐的关键点将待比对文档图像进行反透视变换，以使得变换后的待比对文档图像与该文档图像在几何维度上一致。

结构相似性比对模块445，可以被配置为将变换后的待比对文档图像与该文档图像进行结构相似性比对，以得到结构相似度。在一个示例中，结构相似性比对模块445还可以被配置为：利用SSIM算法或者孪生网络比对模型将变换后的待比对文档图像与该文档图像进行结构相似性比对。

文档图像确定模块447，可以被配置为根据待比对文档图像与各个文档图像之间的结构相似度，确定出与待比对文档图像中的文本内容一致的文档图像。

以上参照图1到图5，对根据本说明书实施例的用于对文档图像进行一致性比对的方法及装置的实施例进行了描述。

本说明书实施例的用于对文档图像进行一致性比对的装置可以采用硬件实现，也可以采用软件或者硬件和软件的组合来实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将存储器中对应的计算机程序指令读取到内存中运行形成的。在本说明书实施例中，用于对文档图像进行一致性比对的装置例如可以利用电子设备实现。

图6示出了根据本说明书实施例的用于实现文档图像一致性比对方法的电子设备600的方框图。

如图6所示，电子设备600可以包括至少一个处理器610、存储器(例如，非易失性存储器)620、内存630和通信接口640，并且至少一个处理器610、存储器620、内存630和通信接口640经由总线650连接在一起。至少一个处理器610执行在存储器中存储或编码的至少一个计算机可读指令(即，上述以软件形式实现的元素)。

在一个实施例中，在存储器中存储计算机可执行指令，其当执行时使得至少一个处理器610：获取待比对文档图像；使用文本特征提取模型对待比对文档图像进行特征提取，以得到对应的待比对文本特征向量；根据待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从文档库中确定出与待比对文档图像的相似度最高的第一指定数量的文档图像；以及将待比对文档图像与所确定出的各个文档图像分别进行相似性比对，以确定出与待比对文档图像中的文本内容一致的文档图像。

应该理解，在存储器中存储的计算机可执行指令当执行时使得至少一个处理器610进行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

根据一个实施例，提供了一种例如机器可读介质的程序产品。机器可读介质可以具有指令(即，上述以软件形式实现的元素)，该指令当被机器执行时，使得机器执行本说明书的各个实施例中以上结合图1-5描述的各种操作和功能。

具体地，可以提供配有可读存储介质的系统或者装置，在该可读存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码，且使该系统或者装置的计算机或处理器读出并执行存储在该可读存储介质中的指令。

在这种情况下，从可读介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能，因此机器可读代码和存储机器可读代码的可读存储介质构成了本发明的一部分。

本说明书各部分操作所需的计算机程序代码可以用任意一种或多种程序语言编写，包括面向对象编程语言，如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB、NET以及Python等，常规程序化编程语言如C语言、Visual Basic 2003、Perl、COBOL2002、PHP以及ABAP，动态编程语言如Python、Ruby和Groovy，或者其他编程语言等。该程序编码可以在用户计算机上运行，或者作为独立的软件包在用户计算机上运行，或者部分在用户计算机上运行另一部分在远程计算机运行，或者全部在远程计算机或服务器上运行。在后一种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(LAN)或广域网(WAN)，或连接至外部计算机(例如通过因特网)，或者在云计算环境中，或者作为服务使用，比如软件即服务(SaaS)。

可读存储介质的实施例包括软盘、硬盘、磁光盘、光盘(如CD-ROM、CD-R、CD-RW、DVD-ROM、DVD-RAM、DVD-RW、DVD-RW)、磁带、非易失性存储卡和ROM。可选择地，可以由通信网络从服务器计算机上或云上下载程序代码。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

上述各流程和各系统结构图中不是所有的步骤和单元都是必须的，可以根据实际的需要忽略某些步骤或单元。各步骤的执行顺序不是固定的，可以根据需要进行确定。上述各实施例中描述的装置结构可以是物理结构，也可以是逻辑结构，即，有些单元可能由同一物理实体实现，或者，有些单元可能分由多个物理实体实现，或者，可以由多个独立设备中的某些部件共同实现。

在整个本说明书中使用的术语“示例性”意味着“用作示例、实例或例示”，并不意味着比其它实施例“优选”或“具有优势”。出于提供对所描述技术的理解的目的，具体实施方式包括具体细节。然而，可以在没有这些具体细节的情况下实施这些技术。在一些实例中，为了避免对所描述的实施例的概念造成难以理解，公知的结构和装置以框图形式示出。

以上结合附图详细描述了本说明书的实施例的可选实施方式，但是，本说明书的实施例并不限于上述实施方式中的具体细节，在本说明书的实施例的技术构思范围内，可以对本说明书的实施例的技术方案进行多种简单变型，这些简单变型均属于本说明书的实施例的保护范围。

本说明书内容的上述描述被提供来使得本领域任何普通技术人员能够实现或者使用本说明书内容。对于本领域普通技术人员来说，对本说明书内容进行的各种修改是显而易见的，并且，也可以在不脱离本说明书内容的保护范围的情况下，将本文所定义的一般性原理应用于其它变型。因此，本说明书内容并不限于本文所描述的示例和设计，而是与符合本文公开的原理和新颖性特征的最广范围相一致。

Claims

1.一种用于对文档图像进行一致性比对的方法，包括：

获取待比对文档图像；

使用文本特征提取模型对所述待比对文档图像进行特征提取，以得到对应的待比对文本特征向量，其中，所述文本特征提取模型是通过多任务学习方式训练得到，所述训练中的多任务包括针对图像文本的不同维度的任务；

根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像，其中，所述各个文档图像对应的文本特征向量是使用所述文本特征提取模型得到的；以及

将所述待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像。

2.如权利要求1所述的方法，其中，根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像包括：

使用KNN算法根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像。

3.如权利要求1所述的方法，其中，将所述待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像包括：

将所述待比对文档图像与所筛选出的各个文档图像分别进行结构相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像。

4.如权利要求3所述的方法，其中，将所述待比对文档图像与所筛选出的各个文档图像分别进行结构相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像包括：

针对所述待比对文档图像以及所筛选出的各个文档图像，将所述待比对文档图像与该文档图像基于关键点进行图像对齐；

根据所述待比对文档图像与该文档图像中对齐的关键点将所述待比对文档图像进行反透视变换，以使得变换后的待比对文档图像与该文档图像在几何维度上一致；

将所述变换后的待比对文档图像与该文档图像进行结构相似性比对，以得到结构相似度；以及

根据所述待比对文档图像与所述各个文档图像之间的结构相似度，确定出与所述待比对文档图像中的文本内容一致的文档图像。

5.如权利要求4所述的方法，其中，针对所述待比对文档图像以及所筛选出的各个文档图像，将所述待比对文档图像与该文档图像基于关键点进行图像对齐包括：

针对所述待比对文档图像以及所确定出的各个文档图像，提取所述待比对文档图像以及该文档图像中的关键点特征向量；以及

根据所述待比对文档图像的关键点特征向量以及该文档图像的关键点特征向量，筛选第二指定数量的对齐的关键点对，以使所述待比对文档图像与该文档图像基于所筛选的关键点对对齐。

6.如权利要求4所述的方法，其中，将所述变换后的待比对文档图像与该文档图像进行结构相似性比对包括：

利用SSIM算法或者孪生网络比对模型将所述变换后的待比对文档图像与该文档图像进行结构相似性比对。

7.如权利要求1所述的方法，其中，所述训练中的多任务包括：文本分割任务和文本版式识别任务。

8.如权利要求7所述的方法，其中，所述训练中的多任务还包括：纸张角度回归任务和/或图像重建任务。

9.如权利要求7或8所述的方法，其中，所述文本特征提取模型按照以下方式进行训练，直至满足循环结束条件：

将样本纸张图像输入待训练的当前文本特征提取模型，以得到输出的图像特征向量；

对所得到的图像特征向量分别执行所述多任务中的各个任务，以得到各个任务对应的损失值；

根据各个任务对应的损失值得到总损失值；以及

根据所述总损失值对所述当前文本特征提取模型的模型参数进行调整，并将调整后的文本特征提取模型作为下一次循环的当前文本特征提取模型。

10.如权利要求1所述的方法，其中，在获取待比对文档图像后，所述方法还包括：

使用边缘检测方式从所获取的待比对文档图像中提取纸张区域图像，作为进行一致性比对的待比对文档图像；或者，

当基于边缘检测不能从所述待比对文档图像中分割出更小的区域图像时，确定所述待比对文档图像为纸张区域图像。

11.一种用于对文档图像进行一致性比对的装置，包括：

文档图像获取单元，获取待比对文档图像；

特征向量提取单元，使用文本特征提取模型对所述待比对文档图像进行特征提取，以得到对应的待比对文本特征向量，其中，所述文本特征提取模型是通过多任务学习方式训练得到，所述训练中的多任务包括针对图像文本的不同维度的任务；

文档图像筛选单元，根据所述待比对文本特征向量以及文档库中的各个文档图像对应的文本特征向量，从所述文档库中筛选出与所述待比对文档图像的相似度最高的第一指定数量的文档图像，其中，所述各个文档图像对应的文本特征向量是使用所述文本特征提取模型得到的；以及

相似性比对单元，将所述待比对文档图像与所筛选出的各个文档图像分别进行相似性比对，以确定出与所述待比对文档图像中的文本内容一致的文档图像。

12.如权利要求11所述的装置，其中，相似性比对单元包括：

图像对齐模块，针对所述待比对文档图像以及所筛选出的各个文档图像，将所述待比对文档图像与该文档图像基于关键点进行图像对齐；

反透视变换模块，根据所述待比对文档图像与该文档图像中对齐的关键点将所述待比对文档图像进行反透视变换，以使得变换后的待比对文档图像与该文档图像在几何维度上一致；

结构相似性比对模块，将所述变换后的待比对文档图像与该文档图像进行结构相似性比对，以得到结构相似度；以及

文档图像确定模块，根据所述待比对文档图像与所述各个文档图像之间的结构相似度，确定出与所述待比对文档图像中的文本内容一致的文档图像。

13.一种电子设备，包括：至少一个处理器，与所述至少一个处理器耦合的存储器，以及存储在所述存储器上的计算机程序，所述至少一个处理器执行所述计算机程序来实现如权利要求1-10中任一所述的方法。

14.一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-10中任一所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如权利要求1-10中任一所述的方法。