CN117351324A

CN117351324A - 通过神经网络模型进行文档图像处理的方法及装置

Info

Publication number: CN117351324A
Application number: CN202311647324.XA
Authority: CN
Inventors: 何建杉; 徐威迪; 王经纬; 周虹廷; 褚崴; 谢乐乐
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2023-12-04
Filing date: 2023-12-04
Publication date: 2024-01-05
Anticipated expiration: 2043-12-04
Also published as: CN117351324B

Abstract

本公开提供一种通过神经网络模型进行文档图像处理的方法及装置，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，方法包括：从包含文档内容的目标图像中识别出多个文字；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。该实施方式使用包括约束规则的神经网络模型确定文档图像中多个文字各自所属的语义字段，因此可以提高文档图像处理的准确性。

Description

通过神经网络模型进行文档图像处理的方法及装置

技术领域

本公开涉及图像处理技术领域，特别涉及通过神经网络模型进行文档图像处理的方法及装置。

背景技术

文档图像处理是一种计算机视觉任务，需要对文档类型的图像进行解析，以抽取其中的目标字段。现有的文档图像处理技术通常基于文字在图像中的位置信息，从文档图像中确定出待识别的图像区域，以及对图像区域进行文字识别，并基于识别出的文字预测出文档图像中包含的关键字段。但是，这种处理方式往往忽略了文字之间的语义约束，从而降低了文档图像处理的准确性。

发明内容

本公开提供一种通过神经网络模型进行文档图像处理的方法、装置、计算机存储介质、电子设备及进行文档图像处理的神经网络模型的训练方法，能够提高文档图像处理的准确性。

根据第一方面，提供一种通过神经网络模型进行文档图像处理的方法，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，该方法包括：从包含文档内容的目标图像中识别出多个文字；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

由此，在通过匹配预测网络预测文字组合属于同一语义字段的概率的基础上，使用包括约束规则的逻辑交互网络进一步确定文字组合属于同一语义字段的概率，并最终得到文档图像中多个文字各自所属的语义字段，从而提高了文档图像处理的准确性。

在一种可能的实现方式中，神经网络模型还包括编码网络；该方法还包括：通过编码网络，基于多个文字的语义信息，以及其在目标图像中的位置信息，编码得到各个文字对应的第一向量。

在一种可能的实现方式中，匹配预测网络包括二分类器；使用匹配预测网络，得到文字组合属于同一语义字段的第一概率，包括：使用二分类器对构成文字组合的两个文字对应的第一向量进行处理，得到文字组合属于同一语义字段的第一概率。

在一种可能的实现方式中，神经网络模型还包括标签预测网络；该方法还包括：确定目标图像包含的多个语义字段对应的字段标签；对多个文字中的每个文字，使用标签预测网络包括的多分类器对该文字对应的第一向量进行处理，得到该文字分别匹配每一字段标签的概率组成的第二向量。

在一种可能的实现方式中，基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段，包括：基于各个文字组合对应的第二概率和各个文字对应的第二向量，确定多个文字各自所属的语义字段对应的字段标签。

在一种可能的实现方式中，多个文字中各个文字组合的第一概率构成第一概率矩阵；若干条约束规则对应于若干种矩阵操作；根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括：分别利用若干种矩阵操作，对第一概率矩阵进行运算更新，得到若干第二概率矩阵；将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵，第三概率矩阵中的矩阵元素表示第二概率。

在一种可能的实现方式中，每个约束规则对应一个爱因斯坦求和函数，矩阵操作根据爱因斯坦求和函数确定。

在一种可能的实现方式中，若干约束规则包括第一约束规则，第一约束规则对应于第一矩阵操作，第一矩阵操作包括，将任意的第i行第k列的矩阵元素值更新为第一目标值，第一目标值为，对第i行的矩阵元素和第k列的矩阵元素进行爱因斯坦求和得到的和值。

在一种可能的实现方式中，若干约束规则包括第二约束规则，第二约束规则对应于第二矩阵操作，第二矩阵操作包括，将任意的第i行第j列的矩阵元素值更新为第二目标值，第二目标值为，对第i行的矩阵元素和第j行的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第j行的变换矩阵元素为1减去第j行矩阵元素得到的差值。

在一种可能的实现方式中，若干种矩阵操作在逻辑交互网络中并行执行。

在一种可能的实现方式中，多个文字中各个文字组合的第一概率构成第一概率矩阵；若干条约束规则对应于若干种矩阵操作；逻辑交互网络包括多个网络层，首个网络层的输入为第一概率矩阵；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括，在每个网络层中：分别利用若干种矩阵操作，对输入本网络层的概率矩阵进行运算更新，得到若干第二概率矩阵；将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵；多个网络层中最后一个网络层输出的第三概率矩阵中的矩阵元素表示第二概率。

在一种可能的实现方式中，编码网络采用Transformer神经网络结构。

根据第二方面，提供一种进行文档图像处理的神经网络模型的训练方法，神经网络模型至少包括匹配预测网络和逻辑交互网络，方法包括：从包含文档内容的样本图像中识别出多个文字；样本图像具有标注数据，标注数据包括，该图像中包含的各个文字所属的标注语义字段；对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；基于各个文字组合对应的第二概率，确定多个文字各自所属的预测语义字段；根据多个文字各自的预测语义字段和标注语义字段，更新神经网络模型。

由此，通过利用与文档理解相关的若干条约束规则进行神经网络模型训练，能够提高神经网络模型训练预测文字组合是否属于同一语义字段的准确性。

根据第三方面，提供一种通过神经网络模型进行文档图像处理的装置，神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，装置包括：识别模块，用于从包含文档内容的目标图像中识别出多个文字；预测模块，用于对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；更新模块，用于在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；确定模块，用于基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

根据第四方面，提供一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现上述第一方面或第一方面的任一种可能的实现方式所描述的方法，或者，实现上述第二方面所描述的方法。

根据第五方面，提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行程序时，实现上述第一方面或第一方面的任一种可能的实现方式所描述的方法，或者，实现上述第二方面所描述的方法。

可以理解的是，上述第三方面至第五方面的有益效果可以参见上述第一方面至第二方面中的相关描述，在此不再赘述。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种文档图像处理任务的示意图；

图2是本公开实施例提供的一种进行文档图像处理的神经网络模型的结构示意图；

图3是本公开实施例提供的一种通过神经网络模型进行文档图像处理的方法流程图；

图4是本公开实施例提供的一种逻辑交互网络建模约束规则的方法流程图；

图5是本公开实施例提供的一种进行文档图像处理的神经网络模型的训练方法流程图；

图6是本公开实施例提供的一种通过神经网络模型进行文档图像处理的装置框图；

图7是本公开一些实施例提供的一种电子设备的示意框图；

图8是本公开一些实施例提供的另一种电子设备的示意框图；

图9是本公开一些实施例提供的一种存储介质的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在文档图像处理任务中，可以基于文字在图像中的位置信息，从文档图像中确定出待识别的图像区域，以及对图像区域进行文字识别，并基于识别出的文字预测出文档图像中包含的关键字段。但是，这种处理方式只考虑了文字在图像中的位置信息，而忽略了文字之间的语义约束，从而降低了文档图像处理的准确性。

参见图1，示出了一种文档图像处理任务的示意图。如图1所示，对于大量格式统一、内容各异的身份证图像，使用机器自动提取身份证图像中字段“住址”的内容是文档图像处理的一个任务。基于不同的字段提取模型，对第一张身份证图像包括的“住址”字段，在住址统计表的2行中显示了两种可能的提取效果。在第一种情况中，由两个连续的字符串“XX省XX市XX镇XX村”和“委员会XX村123号”联合表示的字段被分开在上下两行中进行显示。在这种情况中，只考虑了文字在图像中的位置信息，而忽略了文字之间的语义约束，因此不能对“住址”字段的内容进行准确提取。显然，第二种情况中连续显示的内容“XX省XX市XX镇XX村委员会XX村123号 ”是理想的提取效果。

为了实现第二种提取效果，需要考虑文字之间的语义约束，这是因为图1中所示的文档图像处理任务是一个结构预测任务。结构预测任务（structured prediction）是指预测任务中包括多个预测变量，并且这些预测变量之间存在某些依赖关系。因此，图1中所示某个文档图像的多个文字之间也存在某种逻辑约束，比如语义约束。

目前来说，可以先使用传统的识别模型对图像中的文字进行提取和关键字段的预测（这是因为目前神经网络预测模型一般只能进行独立变量的预测，而不能预测变量之间存在的某些依赖关系），再使用后处理方法进行文字间语义约束关系的预测。比如，使用一些启发式规则对传统识别模型的预测结果进行修改，但是这种启发式方法产生的修正无法结合传统识别模型的预测，不能从系统全局的角度进行性能优化，通常效果很差。

还可以考虑将语义约束规则融合到传统的识别模型，从系统全局的角度进行预测性能的优化。这样首先需要将语义约束规则进行适当的建模，比如，可以使用逻辑符号编程方法（logic programming）实现约束规则。基于生成式对抗网络(generative adversarialnetwork，GAN)的语义损失（Semantic Loss）函数或使用结合深度神经网络的逻辑编程语言（DeepProblog），将通用神经网络和逻辑符号编程方法实现的约束规则相融合。但是，一方面，逻辑符号编程方法对规则的范围有要求，即不能实现所有的语义约束规则；另一方法，这类方法需要编译一个逻辑电路，也无法在系统中进行有效并行，因而计算缓慢而且复杂。

或者，还可以使用马尔可夫逻辑网络 (markov logic network，MLN)实现约束规则。马尔可夫逻辑网络是一种结合规则的联合概率模型，能够很好地建模变量之间的依赖关系。但马尔可夫逻辑网络通常采用变分推断或蒙特蒙特卡洛采样的方法进行推理，使用变分推断的方法需要在马尔可夫逻辑网络的知识库中对所有规则和实体进行遍历，并且遍历过程在系统中无法进行有效并行。为了预测多个变量之间的依赖关系，所需要执行的遍历过程缓慢而且复杂。而蒙特卡洛采样是一种近似推理，其计算精度无法得到保证。

因此，难以在使用逻辑符号编程方法或马尔可夫逻辑网络建模约束规则的基础上，进一步考虑与传统识别模型的融合。

有鉴于此，本公开提供了一种通过神经网络模型进行文档图像处理的方法，通过逻辑交互网络建模与文档理解相关的若干条约束规则，并通过整体训练将逻辑交互网络融合在神经网络模型中。在使用神经网络模型进行文档图像处理时，通过使用匹配预测网络得到文字组合属于同一语义字段的第一概率，再利用逻辑交互网络更新得到各个文字组合对应的第二概率，可以确定多个文字各自所属的语义字段。由于在神经网络模型预测语义字段的过程中，考虑了与文档理解相关的若干条约束规则，因此可以提高文档图像处理的准确性。

另外，在整体训练神经网络模型时，可以将基于逻辑交互网络的文档图像处理结果反馈给神经网络模型的其他网络进行参数迭代，从而从系统全局的角度进行性能优化。

图2中示出了一种进行文档图像处理的神经网络模型的结构示意图。如图2所示，神经网络模型包括提取网络210、编码网络220、标签预测网络230、匹配预测网络240、逻辑交互网络250和输出网络260。

本实施例中，给定批量文档图像，如图1左图所示身份证图像，文档图像处理的任务目标是提取出文档图像中所包含的语义字段，并分类进行显示。语义字段可以为一类或多类，每个类别对应一个字段标签。字段标签的数量和种类根据该批文档图像的具体处理任务确定。

对于批量文档图像中的任一张文档图像，提取网络210基于该文档图像的区域位置信息提取该文档图像中包含的多个文字。这些文字是计算机能够识别的文字，具有对应的语义信息。由于此时只考虑文字对应的位置信息，因此，还需要引入文字之间可能存在的约束规则。

在一种可能的实现方式中，整体训练的神经网络模型中也可以省略提取网络210，而通过已有的单独的工具（例如OCR工具），直接获取批量文档图像中每个文档图像包含的多个文字、以及多个文字中每个文字在每个文档图像中的位置信息。

编码网络220可以根据每个文字的位置信息和语义信息分别进行编码，得到各个文字对应的第一向量。可以理解，第一向量是文字位置信息和语义信息的综合表示，它是预测各个文字之间可能存在的约束关系的基础。

标签预测网络230可以获取字段标签的数量和种类，该信息是根据该批文档图像的具体处理任务确定的。根据一种可能的实现方式，标签预测网络230包括多分类器。对于多个文字中的任一文字，多分类器根据该文字对应的第一向量中包含的位置信息和语义信息，预测该文字匹配各个字段标签的概率，并将这些概率在第二向量中进行表示。

另一方面，可以将提取的多个文字中的任意两个文字进行两两组合，得到多个文字组合对，将这些文字组合对输入匹配预测网络240。匹配预测网络240包括二分类器。对于多个文字组合对中的任一对文字组合，二分类器根据该文字组合的两个文字对应的第一向量中包含的位置信息和语义信息，预测该文字组合属于同一语义字段的概率，称为第一概率。不难发现，第一概率仅根据两个文字对应的第一向量中包含的位置信息和语义信息预测得到，并没有考虑两个文字之间可能存在的约束关系，因而准确性还需进一步增强。

需要说明的是，在本实施中所使用的标签预测网络230和匹配预测网络240是相互独立运行的模块，两者的执行不存在前后顺序关系。在另外的实现方式中，也可以将它们合并为一个预测网络。在这个合并后的预测网络中，比如，可以先执行如标签预测网络230所述的功能，再执行如匹配预测网络240所述的功能，或者顺序反之。只需要能分别得到上述多个文字中的任一文字对应的第二向量，以及多个文字组合对中的任一对文字组合对应的第一概率即可。

逻辑交互网络250用于建模与文档理解相关的若干条约束规则。在逻辑交互网络250中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率。因为考虑了各个文字组合间的语义约束关系，所以预测得到的各个文字组合对应的第二概率的准确度可以得到极大提高。

输出网络260基于各个文字组合对应的第二概率，以及各个文字对应的第二向量，输出多个文字各自所属的语义字段，并按照字段标签分类进行显示，如图1右图所示提取结果。

下面将结合以上内容对本公开提出的一种通过神经网络模型进行文档图像处理的方法进行详细描述。

图3中示出了一种通过神经网络模型进行文档图像处理的方法流程图。其中，神经网络模型预先通过整体训练得到，该神经网络模型中至少包括匹配预测网络和逻辑交互网络。如图3所示，该文档图像处理方法主要包括以下步骤：

步骤S301，从包含文档内容的目标图像中识别出多个文字。

在本实施例中，目标图像是文档图像处理任务中给定的一张文档对应的图像。目标图像中包含了大量的文档内容，这些文档内容由多个文字（比如：汉字、字母、标点符号等）进行表示。任务目标是抽取目标图像中所包含的语义字段，语义字段通常由多个文字中的若干文字按照一定的顺序排列而成。

在一种实现方式中，如图2所示，神经网络模型包括提取网络210，用于从图像中识别出文字。例如，该提取网络210可以以卷积神经网络为主干网络，采用目标检测算法实现。在另一种实现方式中，可以使用传统的文字识别，例如OCR技术识别目标图像中包含的多个字符图像，然后将字符图像翻译成计算机能够识别的多个文字。这些字符图像在目标图像中还具有对应的位置信息，将这些位置信息与识别字符图像得到的文字进行一一对应。

在得到多个文字的基础上，可以利用编码网络220，基于多个文字的语义信息和其在目标图像的位置信息，编码得到各个文字对应的第一向量。各个文字对应的第一向量可以统一表示为行向量或者列向量。

在一个示例中，编码网络220可以是一个传统的transformer模型。通过该transformer模型实现上述编码过程，并得到各个文字对应的第一向量。

步骤S302，对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率。

在本实施例中，匹配预测网络240可以实现二分类器的功能。根据二分类器对构成文字组合的两个文字对应的第一向量进行处理，得到文字组合属于同一语义字段的第一概率。

可以理解，二分类器的输入是两个文字各自对应的第一向量，输出是两个文字组成的文字组合属于同一语义字段的第一概率。

在一种实现方式中，匹配预测网络240可以实现为多层感知机MLP。对于任意两个文字A和B的文字组合，可以将两个文字A和B各自的第一向量进行拼接，得到输入向量，输入该MLP。MLP对其进行处理，输出这两个文字A和B属于同一字段的概率，即第一概率。如此，可以得到多个文字中任意两个文字构成的文字组合属于同一字段的各个第一概率。

在另一种实现方式中，匹配预测网络240也实现为卷积神经网络CNN。将各个文字对应的第一向量表示为行向量，以一定的顺序依次作为行元素组成第一矩阵E，并将各个文字对应的第一向量表示为列向量，以同样的顺序依次作为列元素组成第二矩阵F。将第一矩阵E和第二矩阵F输入该CNN，CNN对其进行矩阵操作，输出第一矩阵E和第二矩阵F进行内积计算得到的矩阵，即第一概率矩阵M。第一概率矩阵M中第i行j列的元素Mij表示多个文字中文字i和文字j属于同一语义字段的概率，即第一概率。

基于第一向量，神经网络模型还可以使用标签预测网络230预测目标图像包含的多个文字匹配多个字段标签的概率。多个字段标签的数量和种类根据目标图像的具体处理任务确定。比如可以根据对语义字段分类的颗粒度要求确定字段标签，以图1所示的身份证图像为例，根据身份证图像包含的文字信息，可以设立比较具体的字段标签，包括 “姓名”、“性别”、“出生”、“公民身份号码”等中的一个或多个。也可以设置较为抽象的字段标签，包括“标题”、“问题”、“答案”、“其他”等中的一个或多个，只要符合文字的语义表达习惯和目标图像的任务处理要求即可。

标签预测网络230可以实现多分类器的功能。根据多分类器对多个文字中的每个文字对应的第一向量进行处理，得到该文字分别匹配每一字段标签的概率。将该文字分别匹配不同字段标签的概率组成对应的第二向量。

可以理解，多分类器可以是k分类器（k>=2），其中k即为前述根据目标图像的具体处理任务确定的k个字段；该k分类器的输入是每个文字对应的第一向量，输出是该文字分别匹配k个不同字段标签的概率构成的第二向量C。相应的，第二向量C是一个k维的向量，其中的第j（0≤j<k）个元素Cj表示该文字属于第j个字段标签的概率。

在一种实现方式中，标签预测网络230也可以实现为多层感知机MLP。将多个文字中的任意文字对应的第一向量输入MLP。MLP对其进行分类处理，得到该文字分别匹配不同字段标签的概率，并输出由这些不同的概率组成的第二向量。

步骤S303，在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率。

在本实施例中，根据目标图像的具体处理任务确定与文档理解相关的若干条约束规则。规则约束（Logic constraint）指一些预测变量之间的依赖关系，是某种逻辑形式的约束。比如在层次分类中，逻辑约束为“子节点命中，则父节点必须命中”。不难理解，对于不同的结构处理任务，可以对应不同的约束规则。以目标图像为例，不同的处理任务也可以对应不同的约束规则。

在上述步骤S301中提到，任务目标是抽取目标图像中所包含的若干语义字段的内容，因此本公开根据这一具体的处理任务确定若干条约束规则，并使用逻辑交互网络250建模这些约束规则。需要注意的是，在确定这些约束规则的过程中，重点考虑了降低约束规则之间耦合性的要求。即若干条约束规则中的各条约束规则优选是相互独立的。因为若干条约束规则相互之间不具备依赖关系，因此在建模时可以设计成并行的计算方式，从而提高了逻辑交互网络250的预测速度。

在一个示例中，多个文字中各个文字组合的第一概率构成一个矩阵，称为第一概率矩阵。第一概率矩阵M中第i行j列的元素Mij，表示文字i和文字j属于同一语义字段的第一概率。相应的，若干条约束规则可以对应于若干种矩阵操作。可以分别利用若干种矩阵操作，对第一概率矩阵M进行运算更新，得到若干第二概率矩阵。再将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵，第三概率矩阵中的矩阵元素表示所述第二概率。

在一种可能的实现方式中，逻辑交互网络250可以通过建立多个网络层来建模这些约束规则。对于多个网络层的首个网络层，其输入为多个文字中各个文字组合的第一概率构成的第一概率矩阵M。在逻辑交互网络250的每一个网络层中，都需要按照约束规则对输入本网络层的概率矩阵进行运算更新，得到若干第二概率矩阵。其中，每个约束规则对应一个矩阵操作，每个矩阵操作得到一个第二概率矩阵。因此，每个网络层得到的第二概率矩阵的数量和约束规则的数量相等。将若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵，作为当前网络层的输出矩阵。将逻辑交互网络250中，最后一个网络层输出的第三概率矩阵P中的矩阵元素Pij作为各个文字组合对应的第二概率。

由于第二概率是根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率得到的概率，因此其预测准确性会得到提升。另外，由于若干条约束规则相互之间是相互独立的，约束规则各自对应的矩阵操作也是相互独立的，可以在逻辑交互网络250中并行进行执行，因此其执行速度会得到提高。

步骤S304，基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

在本实施例中，第二概率表示神经网络模型确定的各个文字组合属于同一语义字段的最终概率。基于各个文字组合对应的第二概率，神经网络模型还可以使用输出网络260确定各个文字所属的语义字段，并将这些语义字段进行不同形式的输出。

在一个实施例中，可以根据第二概率确定并直接输出各个文字所属的语义字段。具体的，根据步骤S303可知，逻辑交互网络250输出第三概率矩阵P。又如图2所示，输出网络260的输入为逻辑交互网络250输出的第三概率矩阵P，第三概率矩阵P根据逻辑交互网络250处理各个文字对应的第一概率得到，第一概率根据匹配预测网络240处理各个文字对应的第一向量得到，而在第一向量中包含了各个文字对应的语义信息和其在目标图像中的位置信息。因此，在第三概率矩阵P中，除了由矩阵元素Pij表示各个文字组合对应的第二概率，即各个文字组合属于同一语义字段的最终概率，还由各个文字组合对应的矩阵元素Pij在第三概率矩阵P中所处的位置表示各个文字在目标图像中的位置信息。

在一种实现方式中，输出网络260可以是一段后处理程序，利用第三概率矩阵P中矩阵元素Pij和其在第三概率矩阵P中所处的位置，将目标图像中相近区域的具有强语义关系的文字按顺序进行组合，得到各个文字所属的语义字段。

在另一实施例中，也可以在确定多个文字组合属于同一语义字段的第二概率的基础上，结合上述步骤S302中由标签预测网络230确定的各个文字对应的第二向量，进一步确定各个文字所属的语义字段。在该实施例中，输出网络260可以是模型中的一部分神经网络。具体的，如图2的示例所示，输出网络260一方面接收标签预测网络230输出的各个文字的第二向量，一方面接收逻辑交互网络250输出的第二概率，基于第二概率对第二向量进行修正，得到各个文字各自所属的语义字段的最终结果。

输出网络260可以将文档图像处理任务中包括的所有目标图像进行上述处理并进行结果存储，基于存储的内容和文档图像处理任务的不同要求，输出网络260可以直接将各个文字所属的语义字段进行输出，也可以将各个文字所属的语义字段根据对应的字段标签进行分类输出。

由此，通过执行步骤S301-304，在通过匹配预测网络240预测文字组合属于同一语义字段的概率的基础上，使用包括约束规则的逻辑交互网络250进一步确定文字组合属于同一语义字段的概率，并最终得到文档图像中多个文字各自所属的语义字段，从而提高了文档图像处理的准确性。

下面将对步骤S303中逻辑交互网络建模与文字理解相关的若干条约束规则的过程进行详细介绍。

图4中示出了一种逻辑交互网络建模约束规则的方法流程图。如图4所示，主要包括以下步骤：

步骤S401，获取根据文档图像处理任务确定的若干条语义约束规则。

本实施例中，逻辑交互网络250获取根据文档图像处理任务确定的若干条语义约束规则，并通过建立多个网络层来建模这些约束规则。上述若干条语义约束规则可以是由专家针对文档图像处理任务预先设置的一些规则，也可以是基于这些人工设置的规则进行进一步处理，得到的优化规则。具体的，对规则的进一步处理可以包括，对规则的筛选，解耦，合并，衍生扩展，等等。

具体的，在上述步骤S301中提到，任务目标是抽取目标图像中所包含的语义字段，为了实现这个任务，需要预测目标图像包括的多个文字中任意两个文字是否在一个语义字段中。针对这一具体的处理任务，对于多个文字中的第i个字、第j个字和第k个字，可以设置一个基本的约束规则为：

1、如果第i个字和第j个字在同一个字段，并且第j个字和第k个字在同一个字段，那么第i个字和第k个字在同一字段。

在一个例子中，将该基本规则作为所述若干条语义约束规则。

在另一例子中，可以基于上述基本规则进行衍生扩展处理，得到如下两个相关的约束规则：

2、如果第i个字和第k个字在同一个字段，并且第j个字和第k个字不在同一个字段，那么第i个字和第j个字不在同一字段。

3、如果第i个字和第j个字在同一个字段，并且第i个字和第k个字不在同一个字段，那么第j个字和第k个字不在同一字段。

上述约束规则1-3是相互独立的，可以在逻辑交互网络250建模约束规则时，把这三个约束规则都考虑进来。

步骤S402，根据若干条语义约束规则建模矩阵操作，并确定各个矩阵操作对应的爱因斯坦求和函数。

如上述步骤S303中所述，逻辑交互网络250的输入为多个文字中各个文字组合的第一概率构成的第一概率矩阵M，第一概率矩阵M中第i行j列的元素Mij表示文字i和文字j属于同一语义字段的第一概率。

根据一种实现方式，在逻辑交互网络250中，通过建立多个网络层来建模这些约束规则。对于多个网络层的首个网络层，其输入为多个文字中各个文字组合的第一概率构成的第一概率矩阵M。在逻辑交互网络250的每一个网络层中，都需要按照约束规则对输入本网络层的概率矩阵进行运算更新，得到若干第二概率矩阵。其中，每个约束规则对应一个矩阵操作，每个矩阵操作得到一个第二概率矩阵。因此，每个网络层得到的第二概率矩阵的数量和约束规则的数量相等。比如在步骤S401获取的约束规则1-3的基础上，每个网络层根据这些约束规则分别对输入的概率矩阵进行对应的矩阵操作得到3个第二概率矩阵。

在一种实现方式中，逻辑交互网络250建模每种矩阵操作对应一个爱因斯坦求和函数。爱因斯坦求和函数又称为爱因斯坦标记法（Einstein notation），在处理关于矩阵运算时非常有用。如果涉及的运算矩阵数量庞大，爱因斯坦求和函数还支持将多个矩阵组合成一个新的数组，进行3D张量的运算。例如，一个批量矩阵相乘公式表示为：out[a,i,k] =einsum('aij,ajk->aik', S, T) ，其中，S和T是进行运算的矩阵，参数a表示矩阵S、T以及输出矩阵的维数，一组参数(i, j)和(j, k)分别表示矩阵S和T的轴标签，(i, k)表示输出矩阵的轴标签。由于爱因斯坦求标记法处理矩阵运算可以总结为两条计算规则：沿着重复的轴标签做乘法计算；沿着消失的轴标签做求和计算。则该式中爱因斯坦求和函数表示沿着重复轴j的方向做乘法计算，并且沿着消失轴j的方向做求和运算。公式计算得到的输出矩阵为：out[a, i, k] = sum_j S[a, i, j] * T[a, j, k]。

示例性的，根据约束规则1-3确定逻辑交互网络250的各个网络层对应的爱因斯坦求和函数为：

1、score_to_ik = einsum('bij,bjk->bik', M1, M1)；

2、score_to_ij = -einsum('bik,bjk->bij', M1, 1- M1)；

3、score_to_jk = -einsum('bij,bik->bjk', M1, 1- M1)。

具体的，上述爱因斯坦求和函数1对应约束规则1，约束规则1对应于第一矩阵操作。第一矩阵操作将输入矩阵M1中任意的第i行第k列的矩阵元素值更新为第一目标值。第一目标值为对矩阵M1第i行的矩阵元素和第k列的矩阵元素进行爱因斯坦求和得到的和值。第一目标值构成的矩阵即为第二概率矩阵N1，在上述爱因斯坦求和函数1中，得到的第二概率矩阵为score_to_ik。

上述爱因斯坦求和函数2对应约束规则2，约束规则2对应于第二矩阵操作。第二矩阵操作将输入矩阵M1中任意的第i行第j列的矩阵元素值更新为第二目标值。第二目标值为对矩阵M1第i行的矩阵元素和第j行的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第j行的变换矩阵元素为1（单位矩阵）减去M1中第j行矩阵元素得到的差值，即差值矩阵1-M1的第j行元素。第二目标值构成的矩阵即为第二概率矩阵N2，在上述爱因斯坦求和函数2中，得到的第二概率矩阵为score_to_ij。

上述爱因斯坦求和函数3对应约束规则3，约束规则3对应于第三矩阵操作。第三矩阵操作包括将输入矩阵M1中任意的第j行第k列的矩阵元素值更新为第三目标值。第三目标值为对矩阵M1第j列的矩阵元素和第k列的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第k列的变换矩阵元素为1（单位矩阵）减去M1中第k列矩阵元素得到的差值，即差值矩阵1-M1的第k列元素。第三目标值构成的矩阵即为第二概率矩阵N3，在上述爱因斯坦求和函数3中，得到的第二概率矩阵为score_to_jk。

步骤S403，基于矩阵操作的结果得到各个文字组合对应的第二概率。

在一个实施例中，可以将逻辑交互网络250的每个网络层进行矩阵操作得到的三个第二概率矩阵N1、N2、N3，按照公式P = N1 + N2 + N3进行矩阵求和得到第三概率矩阵P。在另外的实现方式中，也可以按照公式P = k1*N1 + k2*N2 + k3*N3进行加权求和得到第三概率矩阵P，其中，k1、 k2、 k3∈[0,1]，k1+ k2+ k3=1，k1、 k2、 k3分别表示约束规则1-3在神经网络模型中进行语义约束预测时各自所占的权重。将每个网络层得到的第三概率矩阵P作为下一网络层的输入矩阵。如此持续迭代直到最后一个网络层。

在交互网络250的最后一个网络层，输出最终的第三概率矩阵P。将该最后一层输出的第三概率矩阵P中的矩阵元素Pij确定为各个文字组合对应的第二概率。

因为上述三种矩阵操作的运算过程是相互独立的，因此可以在处理设备中并行执行，从而提高了整个神经网络模型的预测速度。

图5中示出一种进行文档图像处理的神经网络模型的训练方法。神经网络模型至少包括匹配预测网络和逻辑交互网络，神经网络模型的训练方法包括以下步骤：

步骤S501，从包含文档内容的样本图像中识别出多个文字。样本图像具有标注数据，标注数据包括，该图像中包含的各个文字所属的标注语义字段。

在本实施例中，样本图像包含很多的文字信息，比如可以通过OCR技术对样本图像分区域进行识别，提取得到计算机可以识别的多个文字。

在一种实现方式中，神经网络模型的训练过程是有监督的学习过程，样本图像可以具有标注数据，标注数据包含多个文字中各个文字所属的标注语义字段。

步骤S502，对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率。

步骤S503，在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率。

步骤S504，基于各个文字组合对应的第二概率，确定多个文字各自所属的预测语义字段。

上述步骤S502-504中的具体实现细节可以参考上述步骤S302-S304中的内容，不再赘述。

步骤S505，根据多个文字各自的预测语义字段和标注语义字段，更新神经网络模型。

在本实施例中，可以基于合适的模型搭建图2所示神经网络模型中各个网络的框架，并基于这些模型的初始化状态进行整体训练。这些任意的模型具备统一的损失函数，基于该统一的损失函数对各个网络的模型参数进行统一调整，可以通过反复迭代直至满足迭代结束条件，或者直至满足迭代次数得到收敛的神经网络模型。

在一种实现方式中，神经网络模型根据第三概率矩阵P中包含的第二概率输出预测语义字段。比较多个文字各自对应的预测语义字段和标注语义字段的区别，将这些区别反馈给神经网络模型的其他网络进行参数迭代，从而可以从系统全局的角度对神经网络模型进行性能优化。

另外，在步骤S503中，基于逻辑交互网络250得到若干第二概率函数后，如果类比步骤S303中的公式P = k1*N1 + k2*N2 + k3*N3进行加权求和，得到第三概率矩阵P。还可以根据神经网络模型中其他网络的参数迭代情况改变该公式中k1、k2或k3代表的权值系数，从而改变k1、 k2、 k3分别对应的约束规则在逻辑交互网络250中所占的权重，以进一步提高逻辑交互网络250对约束规则的建模精度。

图6中示出一种通过神经网络模型进行文档图像处理的装置框图。神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，通过神经网络模型进行文档图像处理的装置600包括：

识别模块610，用于从包含文档内容的目标图像中识别出多个文字；

预测模块620，用于对于多个文字中任意两个文字构成的文字组合，使用匹配预测网络，得到文字组合属于同一语义字段的第一概率；

更新模块630，用于在逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；

确定模块640，用于基于各个文字组合对应的第二概率，确定多个文字各自所属的语义字段。

图7为本公开一些实施例提供的一种电子设备的示意框图。如图7所示，该电子设备910包括处理器911和存储器912，可以用于实现客户端或服务器。存储器912用于非瞬时性地存储有计算机可执行指令（例如一个或多个计算机程序模块）。处理器911用于运行该计算机可执行指令，该计算机可执行指令被处理器911运行时可以执行上文所述的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法中的一个或多个步骤，进而实现上文所述的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法。存储器912和处理器911可以通过总线系统和/或其它形式的连接机构（未示出）互连。

例如，处理器911可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或程序执行能力的其它形式的处理单元。例如，中央处理单元(CPU)可以为X86或ARM架构等。处理器911可以为通用处理器或专用处理器，可以控制电子设备910中的其它组件以执行期望的功能。

例如，存储器912可以包括一个或多个计算机程序产品的任意组合，计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序模块，处理器911可以运行一个或多个计算机程序模块，以实现电子设备910的各种功能。在计算机可读存储介质中还可以存储各种应用程序和各种数据以及应用程序使用和/或产生的各种数据等。

需要说明的是，本公开的实施例中，电子设备910的具体功能和技术效果可以参考上文中关于通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法的描述，此处不再赘述。

图8为本公开一些实施例提供的另一种电子设备的示意框图。该电子设备920例如适于用来实施本公开实施例提供的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法。电子设备920可以是终端设备等，可以用于实现客户端或服务器。电子设备920可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字TV、台式计算机、智能家居设备等等的固定终端。需要注意的是，图8示出的电子设备920仅仅是一个示例，其不会对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备920可以包括处理装置(例如中央处理器、图形处理器等)921，其可以根据存储在只读存储器(ROM) 922中的程序或者从存储装置928加载到随机访问存储器(RAM) 923中的程序而执行各种适当的动作和处理。在RAM 923中，还存储有电子设备920操作所需的各种程序和数据。处理装置921、ROM 922以及RAM 923通过总线924彼此相连。输入/输出(I/O)接口925也连接至总线924。

通常，以下装置可以连接至I/O接口925：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置926；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置927；包括例如磁带、硬盘等的存储装置928；以及通信装置929。通信装置929可以允许电子设备920与其他电子设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备920，但应理解的是，并不要求实施或具备所有示出的装置，电子设备920可以替代地实施或具备更多或更少的装置。

例如，根据本公开的实施例，上述通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包括用于执行上述通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置929从网络上被下载和安装，或者从存储装置928安装，或者从ROM922安装。在该计算机程序被处理装置921执行时，可以实现本公开实施例提供的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法中限定的功能。

图9为本公开一些实施例提供的一种存储介质的示意图。例如，如图9所示，存储介质930可以为非暂时性计算机可读存储介质，用于存储非暂时性计算机可执行指令931。当非暂时性计算机可执行指令931由处理器执行时可以实现本公开实施例所述的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法，例如，当非暂时性计算机可执行指令931由处理器执行时，可以执行根据上文所述的通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法中的一个或多个步骤。

例如，该存储介质930可以应用于上述电子设备中，例如，该存储介质930可以包括电子设备中的存储器。

例如，存储介质可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、闪存、或者上述存储介质的任意组合，也可以为其他适用的存储介质。

例如，关于存储介质930的说明可以参考电子设备的实施例中对于存储器的描述，重复之处不再赘述。存储介质930的具体功能和技术效果可以参考上文中关于通过神经网络模型进行文档图像处理的方法或进行文档图像处理的神经网络模型的训练方法的描述，此处不再赘述。

需要说明的是，在本公开的上下文中，计算机可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是，但不限于：电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种通过神经网络模型进行文档图像处理的方法，所述神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，所述方法包括：

从包含文档内容的目标图像中识别出多个文字；

对于所述多个文字中任意两个文字构成的文字组合，使用所述匹配预测网络，得到所述文字组合属于同一语义字段的第一概率；

在所述逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；

基于各个文字组合对应的第二概率，确定所述多个文字各自所属的语义字段。

2.根据权利要求1所述的方法，其中，所述神经网络模型还包括编码网络；

所述方法还包括：

通过所述编码网络，基于所述多个文字的语义信息，以及其在所述目标图像中的位置信息，编码得到各个文字对应的第一向量。

3.根据权利要求2所述的方法，其中，所述匹配预测网络包括二分类器；

所述使用所述匹配预测网络，得到所述文字组合属于同一语义字段的第一概率，包括：

使用所述二分类器对构成所述文字组合的两个文字对应的第一向量进行处理，得到所述文字组合属于同一语义字段的第一概率。

4.根据权利要求2所述的方法，其中，所述神经网络模型还包括标签预测网络；

所述方法还包括：

确定所述目标图像包含的多个语义字段对应的字段标签；

对所述多个文字中的每个文字，使用所述标签预测网络包括的多分类器对该文字对应的第一向量进行处理，得到该文字分别匹配每一字段标签的概率组成的第二向量。

5.根据权利要求4所述的方法，其中，所述基于各个文字组合对应的第二概率，确定所述多个文字各自所属的语义字段，包括：

基于各个文字组合对应的第二概率和各个文字对应的第二向量，确定所述多个文字各自所属的语义字段对应的字段标签。

6.根据权利要求1所述的方法，其中，所述多个文字中各个文字组合的第一概率构成第一概率矩阵；所述若干条约束规则对应于若干种矩阵操作；

所述根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括：

分别利用所述若干种矩阵操作，对所述第一概率矩阵进行运算更新，得到若干第二概率矩阵；

将所述若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵，所述第三概率矩阵中的矩阵元素表示所述第二概率。

7.根据权利要求6所述的方法，其中，每个所述约束规则对应一个爱因斯坦求和函数，所述矩阵操作根据所述爱因斯坦求和函数确定。

8.根据权利要求7所述的方法，其中，所述若干条约束规则包括第一约束规则，所述第一约束规则对应于第一矩阵操作，所述第一矩阵操作包括，将任意的第i行第k列的矩阵元素值更新为第一目标值，所述第一目标值为，对第i行的矩阵元素和第k列的矩阵元素进行爱因斯坦求和得到的和值。

9.根据权利要求7所述的方法，其中，所述若干条约束规则包括第二约束规则，所述第二约束规则对应于第二矩阵操作，所述第二矩阵操作包括，将任意的第i行第j列的矩阵元素值更新为第二目标值，所述第二目标值为，对第i行的矩阵元素和第j行的变换矩阵元素进行爱因斯坦求和得到的和值的相反数，其中，第j行的变换矩阵元素为1减去第j行矩阵元素得到的差值。

10.根据权利要求6所述的方法，其中，所述若干种矩阵操作在所述逻辑交互网络中并行执行。

11.根据权利要求1所述的方法，其中，所述多个文字中各个文字组合的第一概率构成第一概率矩阵；所述若干条约束规则对应于若干种矩阵操作；所述逻辑交互网络包括多个网络层，首个网络层的输入为所述第一概率矩阵；

在所述逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，包括，在每个网络层中：

分别利用所述若干种矩阵操作，对输入本网络层的概率矩阵进行运算更新，得到若干第二概率矩阵；

将所述若干第二概率矩阵进行求和或加权求和，得到第三概率矩阵；

所述多个网络层中最后一个网络层输出的第三概率矩阵中的矩阵元素表示所述第二概率。

12.根据权利要求2所述的方法，其中，所述编码网络采用Transformer神经网络结构。

13.一种进行文档图像处理的神经网络模型的训练方法，所述神经网络模型至少包括匹配预测网络和逻辑交互网络，所述方法包括：

从包含文档内容的样本图像中识别出多个文字；所述样本图像具有标注数据，所述标注数据包括，该图像中包含的各个文字所属的标注语义字段；

基于各个文字组合对应的第二概率，确定所述多个文字各自所属的预测语义字段；

根据所述多个文字各自的预测语义字段和标注语义字段，更新所述神经网络模型。

14.一种通过神经网络模型进行文档图像处理的装置，所述神经网络模型预先通过整体训练得到，其中至少包括匹配预测网络和逻辑交互网络，所述装置包括：

识别模块，用于从包含文档内容的目标图像中识别出多个文字；

预测模块，用于对于所述多个文字中任意两个文字构成的文字组合，使用所述匹配预测网络，得到所述文字组合属于同一语义字段的第一概率；

更新模块，用于在所述逻辑交互网络中，根据与文档理解相关的若干条约束规则，更新各个文字组合对应的第一概率，得到各个文字组合对应的第二概率；

确定模块，用于基于各个文字组合对应的第二概率，确定所述多个文字各自所属的语义字段。

15.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令所述计算机执行权利要求1-13中任一项所述的方法。

16.一种电子设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项所述的方法。