CN113886578B

CN113886578B - 一种表单分类方法及装置

Info

Publication number: CN113886578B
Application number: CN202111089106.XA
Authority: CN
Inventors: 王凡; 李磊; 李军
Original assignee: Techbloom Beijing Information Technology Co ltd
Current assignee: Techbloom Beijing Information Technology Co ltd
Priority date: 2021-09-16
Filing date: 2021-09-16
Publication date: 2023-08-04
Anticipated expiration: 2041-09-16
Also published as: CN113886578A

Abstract

本说明书实施例提供了一种表单分类方法及装置。本发明将模型学习到的文本特征信息、文本布局特征信息和图像特征信息进行融合，共同决定表单的分类结果，提高了模型分类的准确率。另外，采用改进的自适应学习率算法，进一步提高了模型的分类准确率，解决了表单分类准确性不高的问题。

Description

一种表单分类方法及装置

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种表单分类方法及装置。

背景技术

传统的表单分类方法是基于规则的方法，使用预定义的规则将表单进行分类，例如，任何带有“篮球”、“足球”字样的表单都被归类为体育类表单。

这种表单分类方式所使用的信息是单一的，使得决定表单分类的因素变得单一，最终影响到表单分类的准确性。

发明内容

本说明书实施例提供及一种表单分类方法及装置，以解决现有技术存在的问题。

第一方面，本说明书实施例提供一种表单分类方法，包括：

获取目标表单图像；

对目标表单图像进行文字识别，得到目标表单图像中每个单元格各自对应的第一文本信息、第一标识信息和第一文本布局坐标；

将所述第一文本信息和第一标识信息输入循环神经网络，得到第一文本特征信息；

将所述第一文本布局坐标和第一标识信息输入目标检测网络，得到第一文本布局特征信息；

将所述目标表单图像输入卷积神经网络，得到第一图像特征信息；

将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形，得到同一维度的向量，对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合；

将融合后的特征输入表单分类模型，得到目标表单的表单分类结果。

第二方面，本说明书实施例提供一种表单分类装置，包括：

目标表单图像获取模块，用于获取目标表单图像；

文字识别模块，用于对目标表单图像进行文字识别，得到目标表单图像中每个单元格各自对应的第一文本信息、第一标识信息和第一文本布局坐标；

文本特征提取模块，用于将所述第一文本信息和第一标识信息输入循环神经网络，得到第一文本特征信息；

文本布局特征提取模块，用于将所述第一文本布局坐标和第一标识信息输入目标检测网络，得到第一文本布局特征信息；

图像特征提取模块，用于将所述目标表单图像输入卷积神经网络，得到第一图像特征信息；

特征融合模块，用于将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形，得到同一维度的向量，对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合；

表单分类模块，用于将融合后的特征输入表单分类模型，得到目标表单的表单分类结果。

本说明书实施例有益效果如下：

本发明将模型学习到的文本特征信息、文本布局特征信息和图像特征信息进行融合，共同决定表单的分类结果，提高了模型分类的准确率。另外，采用改进的自适应学习率算法，进一步提高了模型的分类准确率，解决了表单分类准确性不高的问题。

附图说明

图1为本说明书实施例第一方面的方法流程图；

图2为本说明书实施例第二方面的装置框图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

如图1所示，本说明书实施例提供一种表单分类方法，包括：

步骤101、获取目标表单图像；

步骤102、对目标表单图像进行文字识别，得到目标表单图像中每个单元格各自对应的第一文本信息、第一标识信息和第一文本布局坐标，其中，文本布局坐标即文本信息对应的矩形框(单元格)四个定点坐标的坐标序列；

步骤103、将所述第一文本信息和第一标识信息输入循环神经网络，得到第一文本特征信息；

步骤104、将所述第一文本布局坐标和第一标识信息输入目标检测网络，得到第一文本布局特征信息；

步骤105、将所述目标表单图像输入卷积神经网络，得到第一图像特征信息；

步骤106、将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形，得到同一维度的向量，对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合；

步骤107、将融合后的特征输入表单分类模型，得到目标表单的表单分类结果。

其中，表单分类模型是预先训练得到的。

首先获取样本表单图像。具体的，获取原始样本表单图像集合；对原始样本表单图像集合中的样本表单图像进行以下至少一项操作：加入随机高斯噪声、图像旋转、图像缩放、图像平移，形成增强样本表单图像集合；所述原始表单图像集合和所述增强样本表单图像集合中的样本表单图像用于表单分类模型的训练。

接下来，对带分类标签的样本表单图像进行文字识别，得到样本表单图像中每个单元格各自对应的第二文本信息、第二标识信息和第二文本布局坐标；将所述第二文本信息和第二标识信息输入循环神经网络，得到第二文本特征信息；将所述第二文本布局坐标和第二标识信息输入目标检测网络，得到第二文本布局特征信息；将所述样本表单图像输入卷积神经网络，得到第二图像特征信息；将所述第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行变形，得到同一维度的向量，对变形后的第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行特征融合；利用融合后的特征训练表单分类模型。

利用融合后的特征训练表单分类模型的过程中，根据迭代的次数优化学习率l，具体公式如下：

其中，l₀是初始的学习率，i表示第i次迭代，L表示网络训练的总迭代次数。

优选地，l₀取值为0.005，L取值为800。

可选地，所述卷积神经网络包括Resnet50。

可选地，所述循环神经网络和所述目标检测网络包括layoutlm，layoutlm是循环神经网络和目标检测网络的结合。

如图2所示，本发明实施例提供一种表单分类装置，包括：

目标表单图像获取模块201，用于获取目标表单图像；

文字识别模块202，用于对目标表单图像进行文字识别，得到目标表单图像中每个单元格各自对应的第一文本信息、第一标识信息和第一文本布局坐标；

文本特征提取模块203，用于将所述第一文本信息和第一标识信息输入循环神经网络，得到第一文本特征信息；

文本布局特征提取模块204，用于将所述第一文本布局坐标和第一标识信息输入目标检测网络，得到第一文本布局特征信息；

图像特征提取模块205，用于将所述目标表单图像输入卷积神经网络，得到第一图像特征信息；

特征融合模块206，用于将所述第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行变形，得到同一维度的向量，对变形后的第一文本特征信息、第一文本布局特征信息和第一图像特征信息进行特征融合；

表单分类模块207，用于将融合后的特征输入表单分类模型，得到目标表单的表单分类结果。

可选地，所述装置还包括模型训练模块，用于：

对带分类标签的样本表单图像进行文字识别，得到样本表单图像中每个单元格各自对应的第二文本信息、第二标识信息和第二文本布局坐标；

将所述第二文本信息和第二标识信息输入循环神经网络，得到第二文本特征信息；

将所述第二文本布局坐标和第二标识信息输入目标检测网络，得到第二文本布局特征信息；

将所述样本表单图像输入卷积神经网络，得到第二图像特征信息；

将所述第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行变形，得到同一维度的向量，对变形后的第二文本特征信息、第二文本布局特征信息和第二图像特征信息进行特征融合；

利用融合后的特征训练表单分类模型。

可选的，所述装置还包括：

样本获取模块，用于获取原始样本表单图像集合；

样本处理模块，用于对原始样本表单图像集合中的样本表单图像进行以下至少一项操作：加入随机高斯噪声、图像旋转、图像缩放、图像平移，形成增强样本表单图像集合；所述原始表单图像集合和所述增强样本表单图像集合中的样本表单图像用于表单分类模型的训练。

下面结合具体应用场景对本发明实施例进行详细说明。

在该应用场景中，需要对物流表单进行分类。包括如下操作：

步骤1，准备模型训练需要的输入信息，对表单图像进行文字识别，得到文本信息、id和文本布局坐标，还有图像本身和分类标签；

步骤2，将文本信息、id和文本布局坐标作为layoutlm模型的输入，让网络学习到文本特征信息和布局特征信息；

步骤3，将表单图像作为Resnet50的输入，学习到表单图像特征信息；

步骤4，将步骤3和步骤4学习到的特征进行变形，使得各特征信息的维度一致，再进行特征融合，最后进入分类函数，开始模型的训练；

步骤5，采用改进的自适应学习率算法，相比采用原有的学习率，准确率有所提高，训练得出预测结果；

步骤6，将步骤5的预测分类结果与步骤1准备的标签进入交叉损失函数并得到损失值；

步骤7，根据步骤6的损失值，模型回到步骤2继续学习特征信息并调整模型权重，使得步骤6的损失值变得越来越小；

步骤8，模型训练后得到损失值最小的模型，也就是训练效果最好的模型；

步骤9，加载步骤8得到的最好的模型；

步骤10，对表单图像预测出表单的分类结果。

本发明实施例具有如下核心点：

数据集的制作和增强

通过公司场内物流表单中大量的文本信息，结合公司现有的几种表单布局方式，制作出大量的数据集，称为原数据集，通过在原数据集上随机加入高斯噪声、图像旋转、缩放和平移等操作，完成图像增强处理，形成增强数据集，将原数据集和增强数据集结合，全部用于模型的训练。

卷积神经网络、循环神经网络和目标检测网络的融合

卷积神经网络的输入是图像，通过模型对图像特征的学习，得到了丰富的图像特征信息；循环神经网络的输入是文本的信息和id，学习到文本的特征信息，目标检测网络的输入是文本坐标和id，学习到布局特征信息；将图像特征信息与文本特征信息和布局特征信息进行变形，变为同一维度的向量，再进行特征融合，将融合后的特征全部进入分类函数，使得模型的分类结果是基于图像特征、文本信息特征和文本布局特征共同决定的，从而提高模型的分类准确率，解决了以往模型中存在分类局限和准确性不高的问题。

自适应的学习率算法

传统的学习速率设定，主要有根据先验经验设定和通过穷举挑选出最优的学习率，但是这些方法，对网络的训练会造成很大的困难，模型训练成本高，会消耗很大的资源和时间，而且最后不一定会得到较好的学习率。学习率设置过高，收敛速度虽然变快，但是很难达到较高的准确率，学习率设置过小，可以达到较高的准确率，但是收敛速度较慢。

本发明提出一种自适应的算法，可以根据迭代的次数来优化学习率，当迭代次数较小时，学习率的降低会比较快，随着迭代次数的增加，学习率变化的越来越慢，这样就能够同时满足收敛快，精度高的问题。具体公式如下：

其中，l₀是初始的学习率，它的设置可以较大，i表示第i次迭代，L表示网络训练的总迭代次数。从公式中可以看出，当i从0开始时，代表第1次迭代，公式的值为l₀,当i很小时，的值大于0，接近于1，当i增大时，/>的-1

值会不断减小并趋于e，这样就能保证学习率不会过低。由e为底数的指数函数的特点可知，随着迭代次数的增加，值会变小并且变化率也会变小，也就是迭代次数越高，学习率的变化越慢，使得精确率越高。本文设置l₀初始值为0.005，L为800。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种表单分类方法，其特征在于，包括：

获取目标表单图像；

将融合后的特征输入表单分类模型，得到目标表单的表单分类结果；

所述方法还包括：

利用融合后的特征训练表单分类模型；

所述方法还包括：

获取原始样本表单图像集合；

对原始样本表单图像集合中的样本表单图像进行以下至少一项操作：加入随机高斯噪声、图像旋转、图像缩放、图像平移，形成增强样本表单图像集合；所述原始表单图像集合和所述增强样本表单图像集合中的样本表单图像用于表单分类模型的训练；

2.根据权利要求1所述的方法，其特征在于，l₀取值为0.005，L取值为800。

3.根据权利要求1至2任一项所述的方法，其特征在于，所述卷积神经网络包括Resnet50。

4.根据权利要求1至2任一项所述的方法，其特征在于，所述循环神经网络和所述目标检测网络包括layoutlm。

5.一种表单分类装置，其特征在于，包括：

目标表单图像获取模块，用于获取目标表单图像；

表单分类模块，用于将融合后的特征输入表单分类模型，得到目标表单的表单分类结果；

所述装置还包括模型训练模块，用于：

利用融合后的特征训练表单分类模型；