CN115497112B

CN115497112B - 表单识别方法、装置、设备以及存储介质

Info

Publication number: CN115497112B
Application number: CN202211145142.8A
Authority: CN
Inventors: 安梦涛; 郭若愚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-10-13
Anticipated expiration: 2042-09-20
Also published as: CN115497112A

Abstract

本公开提供了表单识别方法、装置、设备以及存储介质，涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：电子设备可以获取第一图像，第一图像包括目标表单的图像内容，目标表单包括多个文本实体单元。电子设备可以对第一图像进行矫正，得到第二图像。电子设备可以基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征，并基于多个文本实体单元的文本特征，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息。最后，电子设备可以基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息。

Description

表单识别方法、装置、设备以及存储介质

技术领域

本公开涉及人工智能技术领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，具体涉及一种表单识别方法、装置、设备以及存储介质。

背景技术

近年来，无纸化办公在各个领域盛行，但是在如发票、考勤表、调查表、试卷、医院诊断表等基础业务中，仍然使用印刷在纸张上的表单。为了对这类表单上的信息进行系统管理，可以利用扫描仪扫描表单，再从生成的图片中识别出表单信息。

目前，在图片中的表单格式固定时，电子设备可以通过光学字符识别(OpticalCharacter Recognition，OCR)技术，将图片中的文字识别出来，以实现对表单信息的识别。其中，OCR是指通过图像处理和模式识别技术对图片中的光学字符进行识别，并将光学字符翻译成计算机文字的过程。

发明内容

本公开提供了一种表单识别方法、装置、设备以及存储介质。

第一方面，本公开提供了一种表单识别方法，包括：

电子设备可以获取第一图像，第一图像包括目标表单的图像内容，目标表单包括多个文本实体单元。之后，电子设备可以对第一图像进行矫正，得到第二图像，第二图像为第一图像对应的矫正后的图像。接着，电子设备可以基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征，并基于多个文本实体单元的文本特征，对多个文本实体单元进行实体分类，得到每个文本实体单元的实体类别。并且，电子设备可以基于多个文本实体单元的文本特征，对多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到多个文本实体单元的关系信息，关系信息用于表征不同文本实体单元之间是否存在关联关系。最后，电子设备可以基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息。

第二方面，本公开提供了一种表单识别装置，包括：获取单元，用于获取第一图像，第一图像包括目标表单的图像内容，目标表单包括多个文本实体单元。处理单元，用于对第一图像进行矫正，得到第二图像，第二图像为第一图像对应的矫正后的图像。处理单元，还用于基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征。处理单元，还用于基于多个文本实体单元的文本特征，对多个文本实体单元进行实体分类，得到每个文本实体单元的实体类别。处理单元，还用于基于多个文本实体单元的文本特征，对多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到多个文本实体单元的关系信息，关系信息用于表征不同文本实体单元之间是否存在关联关系。输出单元，用于基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息。

第三方面，本公开提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行第一方面中的任一项方法。

第四方面，本公开提供了一种存储有计算机指令的非瞬时计算机可读存储介质，包括：

计算机指令用于使计算机执行第一方面中的任一项方法。

第五方面，本公开提供了一种计算机程序产品，包括：

计算机程序，计算机程序在被处理器执行第一方面中的任一项方法。

根据本公开的技术解决了表单识别依赖于表单样式而导致通用性不高的问题，提高了表单识别的鲁棒性。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种表单格式的实例图；

图2是本公开实施例提供的另一种表单格式的实例图；

图3是本公开实施例提供的一种表单识别方法的流程示意图；

图4是本公开实施例提供的一种文本识别的实例图；

图5是本公开实施例提供的一种实体类别分类的实例图；

图6是本公开实施例提供的一种实体类别分类和关系预测的实例图；

图7是本公开实施例提供的一种关联单元集合的实例图；

图8是本公开实施例提供的一种表单信息的实例图；

图9是本公开实施例提供的另一种表单识别方法的流程示意图；

图10是本公开实施例提供的一种表单识别装置的结构示意图；

图11是本公开实施例提供的一种表单识别方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在对本公开实施例的表单识别方法进行详细介绍之前，先对本公开实施例的应用场景进行介绍。

首先，对本公开实施例的应用场景进行介绍。

示例性的，如图1所示，假如电子设备中存储有可识别的表单格式101，该表单格式101可以包括：表单区域102、表单区域103、表单区域104和表单区域105等。在表单区域102填写内容为“姓名”，表单区域103填写内容为“张三”，表单区域104填写内容为“性别”，表单区域105填写内容为“男”的情况下，电子设备可以分别识别表单区域102、表单区域103、表单区域104和表单区域105的内容，并按照表单格式101的格式输出各区域的填写内容。

但是，在相关技术中，OCR识别仅能在图片中的表单格式固定时，实现对表单信息的准确识别。在图片中包括的表单格式不固定时，识别的准确率较低，用户体验差。

示例性的，结合图1，假如电子设备可以识别的表单格式为表单格式101。如图2所示，当前电子设备识别的表单201与表单格式101不同，如图1中的表单区域102和表单区域103分别为“姓名”、“张三”，图2中的表单区域202与表单区域102和表单区域103相重叠，且表单区域202为“通讯地址”，与图1中表单区域102和表单区域103中的文本含义不同。电子设备则可能无法准确识别表单201中的内容（如通讯地址未识别，或者识别错误）。

为了解决上述问题，本公开实施例提供一种表单识别方法，应用于表单识别的应用场景中。在该方法中，电子设备可以获取待识别图像，该待识别图像中包括表单的图像内容，表单包括多个文本实体单元。之后，电子设备可以对待识别图像进行矫正，得到矫正后的待识别图像。接着，电子设备可以对待识别图像进行处理，确定多个文本实体单元的实体类别，并从待识别图像中提取文本实体单元的关系信息。然后，电子设备可以按照文本实体单元的类别和关系信息，输出表单信息。

可以理解的是，电子设备获取待识别图像，并对待识别图像进行矫正，可以提高待识别图像的清晰度，进而提高识别图像的准确率。并且，待识别图像中包括表单的图像内容，表单包括多个文本实体单元，电子设备可以得到多个文本实体单元的实体类别，并提取文本实体单元的关系信息。如此，电子设备可以按照文本实体单元的实体类别和关系信息，对多个文本实体单元进行组合，并输出得到表单的表单信息，提高了输出表单信息的准确率。并且，本公开实施例无需表单按照固定格式排列，提高了表单识别的鲁棒性。

需要说明的是，本公开实施例对电子设备不作限定。本公开实施例中的电子设备可以是平板电脑、手机、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机（ultra-mobile personal computer，UMPC）、上网本，以及蜂窝电话、个人数字助理（personal digital assistant，PDA）、增强现实（augmented reality，AR）\虚拟现实（virtual reality，VR）设备、车载设备等设备，本公开实施例对该电子设备的具体形态不作特殊限制。

本公开提供的表单识别方法的执行主体可以为表单识别的装置，该执行装置可以为电子设备。同时，该执行装置还可以为该电子设备的中央处理器（Central ProcessingUnit，CPU），或者该电子设备中的用于识别表单的控制模块。本公开实施例中以电子设备执行表单识别方法为例，说明本公开实施例提供的表单识别方法。

如图3所示，为本公开实施例提供的一种表单识别方法，该方法包括：

S301、电子设备获取第一图像。

其中，第一图像可以包括目标表单的图像内容。

需要说明的是，本公开实施例中，目标表单可以为一种半结构化形式的文档。本公开实施例中对目标表单不作限定。例如，目标表单可以为发票、考勤表、调查表、医院诊断表等表单。又例如，目标表单可以为证件卡片（如银行卡、身份证、营业执照）对应的表单。

在本公开实施例中，目标表单包括多个文本实体单元。

示例性的，结合图1，目标表单可以包括：“姓名”对应的文本实体单元、“张三”对应的文本实体单元、“性别”对应的文本实体单元等。

在一种可能的实现方式中，电子设备可以通过摄像头采集第一图像。如，电子设备可以通过拍照的方式得到第一图像。或者，电子设备可以通过扫描的方式得到第一图像。

在另一种可能的实现方式中，电子设备可以接收来自其他电子设备的第一图像。

S302、电子设备对第一图像进行矫正，得到第二图像。

其中，第二图像为第一图像对应的矫正后的图像。

在一种可能的实现方式中，电子设备可以预测第一图像中的映射域。之后，电子设备可以将第一图像中每个像素移动到模板图像，得到第二图像。

在另一种可能的实现方式中，电子设备可以将第一图像输入训练后的矫正模型中，得到第二图像。

在一种可能的设计中，该矫正模型是基于卷积神经网络(Convolutional NeuralNetworks，CNN)构建的。电子设备将第一图像输入训练后的矫正模型，第一图像包括多个第一像素点。在矫正模型中，电子设备可以为第一图像中每个第一像素点分配一个二维向量，该二维向量用于指示目标坐标，该目标坐标为第一像素点在第二图像中的坐标。之后，矫正模型可以驱动卷积神经网络将第一图像中每个第一像素点回归至目标坐标。

需要说明的是，本公开实施例对训练模型的过程不作限定。例如，在训练矫正模型的过程中，电子设备可以将图像样本集合输入矫正模型，直至迭代训练次数达到阈值，得到训练后的矫正模型。其中，图像样本集合中存在扭曲图像。

在另一种可能的实现方式中，电子设备可以将扭曲图像输入文档恢复网络中提取图像特征，其中，文档恢复网络包括多个下采样层和上采样层。之后，文档恢复网络可以将图像特征转化为多个第一像素点的目标坐标。然后，文档恢复网络可以获取第一图像对应的非扭曲图像中第二像素点的真实坐标，并计算第二像素点的真实坐标和第一像素点的目标坐标之间的损失值，第一像素点与第二像素点一一对应。最后，文档恢复网络可以基于损失值，通过反向传播更新第一图像中每个第一像素点的坐标，得到第二图像。例如，文档恢复网络可以为u-net网络。

示例性的，第一图像中像素点A的坐标为（1,1）。对第一图像进行矫正处理之后，第二图像中像素点A的坐标为（1，3）。

S303、电子设备基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征。

在一种可能的实现方式中，电子设备可以对第二图像进行文本识别，得到每个文本实体单元的文本内容。之后，电子设备可以对每个文本实体单元的文本内容进行特征编码，得到每个文本实体单元的文本特征。

示例性的，对于文本实体单元A（该文本实体单元A为多个文本实体单元中任一文本实体单元），电子设备得到文本实体单元A的文本内容之后，可以对文本实体单元A中每个文字进行特征编码，得到多个特征向量。之后，电子设备基于文本实体单元A中文字的行关系，使用双向长短期记忆人工神经网络BiLSTM模型串联该文本实体单元A中每个文字的特征向量，得到该文本实体单元A的文本特征。

可以理解的是，电子设备对矫正后的第二图像进行文本识别，可以提高识别文本内容的准确率。之后，电子设备对识别到的文本实体单元的文本内容进行特征编码，以得到特征向量。如此，电子设备可以依据文本实体单元的特征向量，准确识别表单内容，并输出表单信息。

在另一种可能的实现方式中，电子设备可以将第二图像输入训练后的第一目标模型，得到每个文本实体单元的文本特征。其中，该第一目标模型可以用于文本检测和文本识别。

示例性的，如图4所示，电子设备可以将证件图像401输入第一目标模型。第一目标模型可以对证件图像401进行文本检测，得到多个文本区域402。之后，第一目标模型可以对每个文本区域402进行OCR，得到文本内容403（如“姓名”、“赵六”、“男”）。

需要说明的是，本公开实施例对第一目标模型不作限定。例如，该第一目标模型可以为卷积递归神经网络（Convolutional Recurrent Neural Network，CRNN）模型。又例如，该第一目标模型可以为CNN模型。又例如，第一目标模型可以为Transformer模型。

在一种可能的设计中，电子设备可以通过OCR训练集训练第一目标模型。其中，该OCR训练集中的数据为OCR格式的数据。

可选的，在OCR训练集中的数据格式为非OCR格式的情况下，电子设备可以将OCR训练集中的数据转换为OCR格式的数据。

示例性的，OCR训练集的数据为VQA格式，电子设备可以将VQA格式的数据转换为OCR格式的数据。

可选的，该第一目标模型可以包括第一子模型和第二子模型。其中，第一子模型用于文本检测，第二子模型用于文本识别。

在另一种可能的实现方式中，电子设备可以将待识别图像输入第二目标模型进行特征提取，得到待识别图像的图像特征图。之后，电子设备采用感兴趣区域(Region OfInterest，ROI)Pooling操作，在图像特征图上裁剪文本实体单元对应的区域特征，并将文本实体单元的区域特征进行特征编码，得到文本实体单元的文本特征。

S304、电子设备基于多个文本实体单元的文本特征，对多个文本实体单元进行实体分类，得到每个文本实体单元的实体类别。

在本公开实施例中，实体类别用于指示构成表单的实体的分类类别。

需要说明的是，本公开实施例对实体类别不作限定。实体类别可以包括：标题、键、值、表头等。

在一种可能的实现方式中，电子设备可以使用一个全连接层，对多个文本实体单元的区域特征进行特征映射，得到多个文本实体单元的特征向量。之后，电子设备可以基于使用逻辑回归模型softmax模型基于多个文本实体单元的特征向量进行实体分类，得到文本实体单元的实体类别。

示例性的，如图5所示，通过逻辑回归模型（如softmax模型）可以将多个文本实体单元（如“姓名”、“年龄”、“性别”、“张三”、“25”、“男”）进行实体分类，将“姓名”、“年龄”、“性别”划分为类别A，将“张三”、“25”、“男”划分为类别B。

在另一种可能的实现方式中，电子设备可以由全连接网络基于文本特征对每个文本实体单元进行分类，得到每个文本实体单元的实体类别。

S305、电子设备基于多个文本实体单元的文本特征，对多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到多个文本实体单元的关系信息。

其中，关系信息用于表征不同文本实体单元之间是否存在关联关系。

在一种可能的设计中，关系信息可以包括第一关联信息，该第一关联信息用于指示两个文本实体单元之间存在关联关系。

可选的，多个文本实体单元的实体类别包括键实体类别和值实体类别，键实体类别和值实体类别之间存在键值关系，关系信息可以包括：两个文本实体单元之间存在键值关系。

可以理解的是，多个文本实体单元的实体类别包括键实体类别和值实体类别，关系信息可以包括两个文本实体单元之间存在键值关系。如此，电子设备可以根据键值关系，输出表单信息，提高了输出表单的准确率。

示例性的，结合图5，类别A可以为键实体类别，类别B可以划分为值实体类别。键实体类别可以包括“姓名”、“年龄”、“性别”，值实体类别可以包括“张三”、“25”、“男”。

在另一种可能的设计中，关系信息还可以包括第二关联信息，第二关联信息用于指示两个文本实体单元之间不存在关联关系。

示例性的，第一关联信息包括：信息A（如文本实体单元A-文本实体单元B）、信息B（如文本实体单元C-文本实体单元D），第二关联信息包括：信息C（如文本实体单元A-文本实体单元D）。即文本实体单元A与文本实体单元B存在关联关系，文本实体单元C与文本实体单元D存在关联关系，文本实体单元A与文本实体单元D不存在关联关系。

在一种可能的实现方式中，对于多个文本实体单元，电子设备可以通过第一操作确定多个文本实体单元的关系信息。第一操作可以包括：电子设备可以获取第一实体单元的文本特征和第二实体单元的文本特征，第一实体单元和第二实体单元为多个文本实体单元中任意两个文本实体单元。之后，电子设备可以基于第一实体单元的文本特征和第二实体单元的文本特征进行特征映射，得到第一实体单元的第一映射特征和第二实体单元的第二映射特征。然后，电子设备可以串联第一映射特征和第二映射特征，并使用一个全连接层进行二分类，以预测第一实体单元和第二实体单元之间是否存在关联。

需要说明的是，本公开实施例中对电子设备执行S304和S305的执行顺序不作限定。例如，电子设备可以先执行S304，再执行S305。又例如，电子设备可以先执行S305，再执行S304。又例如，电子设备可以同时执行S304和S305。

S306、电子设备基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息。

在本公开实施例中，该表单信息可以包括：实体类别为键的文本实体单元对应的文本内容、实体类别为值的文本实体单元对应的文本内容。

可选的，该表单信息还可以包括：实体类别为标题（和/或表头等）的文本实体单元对应的文本内容。

在一种可能的实现方式中，电子设备可以根据多个文本实体单元的实体类别，从多个文本实体单元中确定第一实体单元集合，该第一实体单元集合可以包括：目标类别的文本实体单元，目标类别为多个文本实体单元的实体类别中的类别。之后，电子设备可以根据第一实体单元集合中每个文本实体单元的关系信息，输出具有关联关系的文本实体单元对应的文本内容。

需要说明的是，该目标类别可以由开发人员自行设定。或者，该目标类别可以由用户自行输入。本公开实施例对此不作限定。

在一种可能的设计中，目标类别中两两实体类别具有关联关系。电子设备输出的表单信息包括第一实体单元集合中的文本实体单元。

也就是说，目标类别中的实体类别均可以在目标类别中找到与该实体类别具有关联关系的实体类别，即第一实体单元集合中的文本实体单元均可以在第一实体单元集合中找到与该文本实体单元具有关联关系的文本实体单元。

示例性的，假如目标类别为类别A和类别B，且类别A和类别B具有关联关系。类别A的文本实体单元包括：文本实体单元A、文本实体单元B，类别B的文本实体单元包括：文本实体单元C和文本实体单元D。其中，文本实体单元A和文本实体单元B的关系信息均为文本实体单元A和文本实体单元B具有关联关系，文本实体单元C和文本实体单元D的关系信息均为文本实体单元C和文本实体单元D具有关联关系。则表单信息包括：文本实体单元A的文本内容、文本实体单元B的文本内容、文本实体单元C的文本内容、文本实体单元D的文本内容。

可以理解的是，电子设备通过目标类别，可以得到需要输出的实体类别的文本实体单元，减小了输出的实体类别的范围。并且，目标类别中两两实体类别具有关联关系，即第一实体单元集合中两两文本实体单元具有关联关系。因此，电子设备可以将第一实体单元集合中的文本实体单元按照关联关系进行输出，以提高输出表单信息的准确性。

另一种可能的设计中，目标类别中存在至少一个第一类别，该第一类别为与目标类别中任一实体类别均不存在关联关系的实体类别。电子设备输出的表单信息可以包括：第一实体单元集合中的文本实体单元和目标单元，目标单元包括：其他文本实体单元中与第一类别具有关联关系的实体类别的文本实体单元，该其他文本实体单元包括多个文本实体单元中除第一实体单元集合以外的实体单元。

在本公开实施例中，电子设备可以根据第一类别中的文本实体单元，从其他文本实体单元中确定目标单元。

也就是说，目标类别中存在实体类别无法在目标类别中找到与该实体类别具有关联关系的实体类别，即第一实体单元集合中的文本实体单元中存在无法在第一实体单元集合中找到与该文本实体单元具有关联关系的文本实体单元，需要在其他文本实体单元中确定与该文本实体单元具有关联关系的文本实体单元。

可以理解的是，电子设备通过目标类别，可以得到需要输出的实体类别的文本实体单元，减小了输出的实体类别的范围。并且，目标类别中存在至少一个第一类别，该第一类别为与目标类别中任一实体类别均不存在关联关系的实体类别，即第一实体单元集合中存在没有具有关联关系的文本实体单元。因此，电子设备需要从其他文本实体单元中确定目标单元，并将目标单元和第一实体单元集合按照关系信息进行输出，以提高输出表单信息的准确性。

基于上述技术方案，电子设备获取第一图像之后，可以对第一图像进行矫正，得到第二图像。如此，可以提高图像的清晰度。并且，第一图像包括目标表单的图像内容，目标表单包括多个文本实体单元。在图像较为清晰的情况下，电子设备基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征，可以提高获取文本特征的准确程度。之后，电子设备可以基于多个文本实体单元的文本特征，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息，该关系信息用于表征不同文本实体单元之间是否存在关联。这样一来，电子设备可以通过文本实体单元的实体类别和关系信息，对多个文本实体单元进行组合，并输出得到表单的表单信息。如此，可以提高输出表单信息的准确率。并且，本公开实施例无需表单按照固定格式排列，提高了表单识别的鲁棒性。

在一些实施例中，电子设备基于多个文本实体单元的文本特征，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息（即S304和S305），可以包括：电子设备可以将多个文本实体单元输入训练后的自然语言处理模型，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息。

需要说明的是，本公开实施例对自然语言处理模型不作限定。例如，自然语言处理模型可以为循环神经网络（Recurrent Neural Network，RNN）模型。又例如，自然语言处理模型可以为长短时记忆（Long Short-Term Memory，LSTM）模型。又例如，自然语言处理模型可以为门控循环单元结构（Gated Recurrent Unit，GRU）模型。又例如，自然语言处理模型可以为LayoutXLM模型。

在本公开实施例中，自然语言处理模型可以包括：实体分类模型和关系预测模型。其中，实体分类模型用于对文本实体单元进行分类，关系预测模型用于预测文本实体单元之间的关联关系。

需要说明的是，本公开实施例对实体分类模型（也可以称为义实体识别(SemanticEntity Recognition, SER)模型）和关系预测模型（也可以称为关系抽取(RelationExtraction, RE)模型）不作限定。例如，SER模型可以为全卷积网络（Fully ConvolutionalNetworks，FCN）模型、Deeplabv3p（带孔卷积）模型、OCRNet（注意力机制）模型等。RE模型可以为SpERT模型。

示例性的，如图6所示，电子设备可以将多个文本实体单元601（如“姓名”对应的实体单元、“男”对应的实体单元、“25” 对应的实体单元等）的文本特征输入自然语言处理模型602。之后，实体分类模型可以基于多个文本实体单元601的文本特征，将多个文本实体单元601分为键类别603（如包括“姓名”对应的实体单元）和值类别604（如包括“男”对应的实体单元、“25” 对应的实体单元）。并且，关系预测模块可以基于多个文本实体单元601的文本特征，确定关系信息605（如“姓名”对应的实体单元与“张三”对应的实体单元具有关联关系）。

可以理解的是，电子设备可以将多个文本实体单元输入训练后的自然语言处理模型，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息，该自然语言处理模型包括：实体分类模型和关系预测模型。也就是说，可以分别通过实体分类模型得到实体类别，通过关系预测模型得到关系信息。如此，可以便于电子设备基于实体类别和关系信息输出表单信息，提高了识别表单的鲁棒性。

需要说明的是，为了提高关系抽取的准确率，可以对自然语言处理模型进行训练。

在本公开实施例中，电子设备可以将关系提取训练集输入自然语言处理模型，对自然语言处理模型进行训练，直至预设指标达到预设指标阈值，得到训练后的自然语言处理模型。其中，关系提取训练集可以包括目标类图像，目标类图像为包括表单的图像。

示例性的，预设指标阈值可以为60%、72.25、70%。

可选的，关系提取训练集还可以包括非目标类图像，非目标类图像中不包括表单，非目标类图像中包括具有关联关系的文本的图像内容。

可以理解的是，关系提取训练集包括目标类图像和非目标类图像，可以增加训练集中的图像数量。如此，可以提高训练后的自然语言处理模型的鲁棒性。

在一些实施例中，表单信息可以包括：至少一组关联单元集合，至少一组关联单元集合包括多个文本实体单元，一组关联单元集合包括：一个键实体类别的文本实体单元、与文本实体单元存在键值关系的至少一个值实体类别的文本实体单元。

在本公开实施例中，电子设备基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息（即S306），可以包括：电子设备可以基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，得到至少一组关联单元集合。

在一种可能的实现方式中，每组关联单元集合包括一个键实体类别的文本实体单元和一个值实体类别的文本实体单元。对于多个文本实体单元中每个两个存在键值关系的文本实体单元，电子设备可以根据两个文本实体单元的实体类别，确定管理单元集合。

示例性的，如图7所示，假如多个具有键值关系的文本实体单元包括：“张三”对应的文本实体单元、“姓名”对应的文本实体单元等，“值实体类别包括“张三”对应的文本实体单元，键实体类别包括“姓名”对应的文本实体单元。则“姓名”对应的文本实体单元和“张三”对应的文本实体单元可以构成关联单元集合，其中“姓名”为键，“张三”为值。

需要说明的是，在每组关联单元集合包括一个键实体类别的文本实体单元和一个值实体类别的文本实体单元的情况下，说明电子设备处理的表单数量为1，即电子设备仅识别了一张表单的图像内容。

在一些实施例中，在电子设备获取多张待识别图像的情况下，每组关联单元集合包括一个键实体类别的文本实体单元和多个值实体类别的文本实体单元。

示例性的，假如表单A中包括：“张三”对应的文本实体单元、“姓名”对应的文本实体单元，表单B中包括：“李四”对应的文本实体单元、“姓名”对应的文本实体单元，表单C中包括：“王五”对应的文本实体单元、“姓名”对应的文本实体单元，则“姓名”对应的文本实体单元与“张三”对应的文本实体单元、“李四”对应的文本实体单元、“王五”对应的文本实体单元可以构成一个关联单元集合。

之后，电子设备可以输出至少一组关联单元集合，表单信息包括至少一组关联单元集合。

在一种可能的设计中，输出格式可以为xlsx格式或者xls格式。

示例性的，结合图1，电子设备对图1所示的表单执行S301-S306，可以得到如图8所示的excel表格。其中，在电子设备仅获取到图1所示表单的情况下，图8所示的内容可以仅包括“张三”所在行的内容。在电子设备获取到多张表的情况下，电子设备可以输出多行内容，如“李四”所在行的内容，“王五”所在行的内容。

可选的，该表单信息的输出格式还可以为表单形式输出的信息，即输入表单的图像，通过识别并构建表单，可以输出预设格式如XML格式的表。

可以理解的是，电子设备基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，可以得到键实体类别的文本实体单元和至少一个值实体类别的文本实体单元。这样一来，电子设备无需按照固定格式，便可以按照键值关系输出至少一组关联单元集合（即表单信息），提高了输出表单信息的鲁棒性。

需要说明的是，在第一图像不是扭曲图像的情况下，电子设备对第一图像进行矫正处理，可能会浪费电子设备的处理资源，影响电子设备的性能。

在一些实施例中，电子设备可以判断第一图像是否为扭曲图像，并对第一图像进行相应的处理。

如图9所示，为本公开实施例提供的另一种表单识别方法，在S301之后，S302之前，该方法包括：

S901、电子设备确定第一图像是否为扭曲图像。

在一种可能的实现方式中，电子设备可以确定第一图像中是否存在目标区域的图像，所述目标区域的图像为经过像素拉伸的图像。若第一图像中存在目标区域的图像，电子设备则确定第一图像为扭曲图像。若第一图像中的像素均为水平像素，电子设备则确定第一图像为非扭曲图像。

在另一种可能的实现方式中，电子设备可以获取第一图像的形变参数，形变参数可以包括：形变的初始点、方向、形变程度、形变类型等，形变类型可以包括扭曲和折叠。若第一图像的形变参数大于预设参数阈值，电子设备则确定第一图像为扭曲图像。若第一图像的形变参数小于预设参数阈值，电子设备则确定第一图像为非扭曲图像。

在一些实施例中，若第一图像为扭曲图像，电子设备可以执行S302。

在一种可能的实现方式中，若第一图像为扭曲图像，电子设备则可以第一图像输入训练后的矫正模型，得到第二图像。

需要说明的是，具体对于电子设备得到第二图像的介绍，可以参考S302中的介绍，此处不予赘述。

可以理解的是，在第一图像为扭曲图像的情况下，电子设备将第一图像输入训练后的矫正模型，得到第二图像。如此，可以提高图像的清晰度，进而提高识别表单的准确率。

可选的，若第一图像为非扭曲图像，电子设备也可以执行S302。

可以理解的是，电子设备获取表单等文档内容时，表单均可能存在或多或少的扭曲褶皱。如此，电子设备对非扭曲图像进行校正处理，可以提高识别的准确率。

若第一图像为非扭曲图像，电子设备可以执行S902。

在一些实施例中，若第一图像为扭曲图像，电子设备可以执行S302。若第一图像为非扭曲图像，电子设备可以执行S902。

S902、电子设备基于第一图像获取多个文本实体单元的文本特征和多个文本实体单元的关系信息，并基于多个文本实体单元的文本特征和多个文本实体单元的关系信息，输出目标表单的表单信息。

需要说明的是，电子设备基于第一图像获取多个文本实体单元的文本特征和多个文本实体单元的关系信息，并基于多个文本实体单元的文本特征和多个文本实体单元的关系信息，输出目标表单的表单信息的方式，可以参考对电子设备对第二图像进行处理，输出目标表单的表单信息（如S303-S306）的介绍，此处不予赘述。

可以理解的是，在第一图像为非扭曲图像的情况下，电子设备可以直接基于第一图像获取多个文本实体单元的文本特征和多个文本实体单元的关系信息，并基于多个文本实体单元的文本特征和多个文本实体单元的关系信息，输出目标表单的表单信息。如此，减少了矫正图像的过程，降低了电子设备的负荷，可以提高电子设备的处理能力。

上述主要从计算机设备的角度对本公开实施例提供的方案进行了介绍。可以理解的是，计算机设备为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本公开所公开的实施例描述的各示例的表单识别方法步骤，本公开能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本公开的范围。

本公开实施例可以根据上述方法示例对表单识别方式进行功能模块或者功能单元的划分，例如，可以对应各个功能划分各个功能模块或者功能单元，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块或者功能单元的形式实现。其中，本公开实施例中对模块或者单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

如图10所示，为本公开实施例提供的一种表单识别装置的结构示意图。表单识别可以包括：获取单元1001、处理单元1002和输出单元1003。

获取单元1001，用于获取第一图像，第一图像包括目标表单的图像内容，目标表单包括多个文本实体单元。处理单元1002，用于对第一图像进行矫正，得到第二图像，第二图像为第一图像对应的矫正后的图像。处理单元1002，还用于基于第二图像获取多个文本实体单元中每个文本实体单元的文本特征。处理单元1002，还用于基于多个文本实体单元的文本特征，对多个文本实体单元进行实体分类，得到每个文本实体单元的实体类别。处理单元1002，还用于基于多个文本实体单元的文本特征，对多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到多个文本实体单元的关系信息，关系信息用于表征不同文本实体单元之间是否存在关联关系。输出单元1003，用于基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，输出目标表单的表单信息。

可选的，处理单元1002，具体用于若第一图像为扭曲图像，则将第一图像输入训练后的矫正模型，得到第二图像。

可选的，处理单元1002，具体用于对第二图像进行文本识别，得到每个文本实体单元的文本内容。处理单元1002，具体用于对每个文本实体单元的文本内容进行特征编码，得到每个文本实体单元的文本特征。

可选的，处理单元1002，具体用于将多个文本实体单元输入训练后的自然语言处理模型，得到每个文本实体单元的实体类别和多个文本实体单元的关系信息；自然语言处理模型包括：实体分类模型和关系预测模型。

可选的，多个文本实体单元的实体类别包括键实体类别和值实体类别，键实体类别和值实体类别之间存在键值关系，关系信息包括：两个文本实体单元之间存在键值关系。

可选的，表单信息包括：至少一组关联单元集合，至少一组关联单元集合包括多个文本实体单元，一组关联单元集合包括：一个键实体类别的文本实体单元、与文本实体单元存在键值关系的至少一个值实体类别的文本实体单元。处理单元1002，具体用于基于多个文本实体单元的实体类别和多个文本实体单元的关系信息，得到至少一组关联单元集合。输出单元1003，具体用于输出至少一组关联单元集合，表单信息包括至少一组关联单元集合。

可选的，处理单元1002，具体用于若第一图像为非扭曲图像，则基于第一图像获取多个文本实体单元的文本特征和多个文本实体单元的关系信息，并基于多个文本实体单元的文本特征和多个文本实体单元的关系信息，输出目标表单的表单信息。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器（ROM）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（RAM）1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出（I/O）接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元1108，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如表单识别方法。例如，在一些实施例中，表单识别方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM 1103并由计算单元1101执行时，可以执行上文描述的表单识别方法的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行表单识别方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种表单识别方法，包括：

获取多个第一图像，每个所述第一图像包括目标表单的图像内容，所述目标表单包括多个文本实体单元；

若所述第一图像为扭曲图像，则反向传播更新所述第一图像中像素点的坐标，得到第二图像；

基于多个所述第一图像对应的第二图像获取每个所述第二图像的多个文本实体单元中每个文本实体单元的文本特征；

基于每个所述第二图像的多个文本实体单元的文本特征，对每个所述第二图像的多个文本实体单元进行实体分类，得到每个所述第二图像的各文本实体单元的实体类别；

基于每个所述第二图像的多个文本实体单元的文本特征，对每个所述第二图像的多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到每个所述第二图像的多个文本实体单元的关系信息，所述关系信息用于表征不同文本实体单元之间是否存在键值关系；

基于所有所述第二图像的各文本实体单元的实体类别，从所有所述第二图像的各文本实体单元中确定第一实体单元集合，所述第一实体单元集合包括：目标类别的文本实体单元，所述目标类别包括:预先设置的具有键值关系的实体类别；

基于所述第一实体单元集合和所述第一实体单元集合中每个文本实体单元的关系信息，确定至少一组关联单元集合，每组关联单元集合包括：一个键实体类别的文本实体单元，以及所有所述第二图像的与所述键实体类别存在键值关系的值实体类别的文本实体单元；

按照输出格式输出所述至少一组关联单元集合，所述输出格式中每个所述键实体类别的文本实体单元均与多个所述值实体类别的文本实体单元相对应。

2.根据权利要求1所述的方法，其中，基于所述第二图像获取所述多个文本实体单元中每个文本实体单元的文本特征，包括：

对所述第二图像进行文本识别，得到所述每个文本实体单元的文本内容；

对所述每个文本实体单元的文本内容进行特征编码，得到所述每个文本实体单元的文本特征。

3.根据权利要求1或2所述的方法，其中，基于所述多个文本实体单元的文本特征，得到所述每个文本实体单元的实体类别和所述多个文本实体单元的关系信息，包括：

将所述多个文本实体单元输入训练后的自然语言处理模型，得到所述每个文本实体单元的实体类别和所述多个文本实体单元的关系信息；所述自然语言处理模型包括：实体分类模型和关系预测模型。

4.根据权利要求1或2所述的方法，其中，所述多个文本实体单元的实体类别包括键实体类别和值实体类别，所述键实体类别和所述值实体类别之间存在键值关系。

5.根据权利要求1或2所述的方法，还包括：

若所述第一图像为非扭曲图像，则基于所述第一图像获取所述多个文本实体单元的文本特征和所述多个文本实体单元的关系信息，并基于所述多个文本实体单元的文本特征和所述多个文本实体单元的关系信息，输出所述目标表单的表单信息。

6.一种表单识别装置，包括：

获取单元，用于获取多个第一图像，每个所述第一图像包括目标表单的图像内容，所述目标表单包括多个文本实体单元；

处理单元，用于对所述第一图像进行矫正，得到第二图像，所述第二图像为所述第一图像对应的矫正后的图像；

所述处理单元，还用于若所述第一图像为扭曲图像，则反向传播更新所述第一图像中像素点的坐标，得到第二图像；

所述处理单元，还用于基于每个所述第二图像的多个文本实体单元的文本特征，对每个所述第二图像的多个文本实体单元进行实体分类，得到每个所述第二图像的各文本实体单元的实体类别；

所述处理单元，还用于基于每个所述第二图像的多个文本实体单元的文本特征，对每个所述第二图像的多个文本实体单元中不同文本实体单元之间的关联关系进行预测，得到每个所述第二图像的多个文本实体单元的关系信息，所述关系信息用于表征不同文本实体单元之间是否存在键值关系；

所述处理单元，还用于基于所有所述第二图像的各文本实体单元的实体类别，从所有所述第二图像的各文本实体单元中确定第一实体单元集合，所述第一实体单元集合包括：目标类别的文本实体单元，所述目标类别包括:预先设置的具有键值关系的实体类别；

所述处理单元，还用于基于所述第一实体单元集合和所述第一实体单元集合中每个文本实体单元的关系信息，确定至少一组关联单元集合，每组关联单元集合包括：一个键实体类别的文本实体单元，以及所有所述第二图像的与所述键实体类别存在键值关系的值实体类别的文本实体单元；

输出单元，用于按照输出格式输出所述至少一组关联单元集合，所述输出格式中每个所述键实体类别的文本实体单元均与多个所述值实体类别的文本实体单元相对应。

7.根据权利要求6所述的装置，其中，

所述处理单元，具体用于对所述第二图像进行文本识别，得到所述每个文本实体单元的文本内容；

所述处理单元，具体用于对所述每个文本实体单元的文本内容进行特征编码，得到所述每个文本实体单元的文本特征。

8.根据权利要求6或7所述的装置，其中，

所述处理单元，具体用于将所述多个文本实体单元输入训练后的自然语言处理模型，得到所述每个文本实体单元的实体类别和所述多个文本实体单元的关系信息；所述自然语言处理模型包括：实体分类模型和关系预测模型。

9.根据权利要求6或7所述的装置，其中，所述多个文本实体单元的实体类别包括键实体类别和值实体类别，所述键实体类别和所述值实体类别之间存在键值关系。

10.根据权利要求6或7所述的装置，其中，

所述处理单元，具体用于若所述第一图像为非扭曲图像，则基于所述第一图像获取所述多个文本实体单元的文本特征和所述多个文本实体单元的关系信息，并基于所述多个文本实体单元的文本特征和所述多个文本实体单元的关系信息，输出所述目标表单的表单信息。

11.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。

12.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-5中任一项所述的方法。