CN117315704A

CN117315704A - 字段识别方法、装置、计算机设备及计算机可读存储介质

Info

Publication number: CN117315704A
Application number: CN202311451000.9A
Authority: CN
Inventors: 陈桂安
Original assignee: Ping An International Financial Leasing Co Ltd
Current assignee: Ping An International Financial Leasing Co Ltd
Priority date: 2023-11-02
Filing date: 2023-11-02
Publication date: 2023-12-29

Abstract

本申请公开了一种字段识别方法、装置、计算机设备及计算机可读存储介质，涉及计算机视觉技术和金融领域，无需手动提取特征，模型可以根据大量样本数据自主学习到特征表示，适应多字段图像的识别需求。所述方法包括：获取原始图像集，对原始图像集中的每个原始图像进行数据标注，得到标注图像集；按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集，以及采用样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型；响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

Description

字段识别方法、装置、计算机设备及计算机可读存储介质

技术领域

本申请涉及计算机视觉技术和金融领域，特别是涉及一种字段识别方法、装置、计算机设备及计算机可读存储介质。

背景技术

随着计算机视觉技术的发展，出现了OCR(Optical Character Recognition，光学字符识别)项目，OCR项目先用检测模型检测图片上的文字得到文本行坐标，再根据坐标裁剪出文本行图片然后用识别模型识别文字。在获取到检测文本行坐标及文本内容后，根据坐标位置及文本特征进行类别识别。但传统的OCR方法在后处理过程中通常依赖于手工设计的特征和规则进行分类和修正，这种方法的泛化能力较差、识别准确率较低，难以处理复杂的多文本图像。因此，亟需一种适用复杂文本的字段识别方法。

发明内容

有鉴于此，本申请提供了一种字段识别方法、装置、计算机设备及计算机可读存储介质，主要目的在于解决目前传统的OCR方法在后处理过程中通常依赖于手工设计的特征和规则进行分类和修正，这种方法的泛化能力较差、识别准确率较低，难以处理复杂的多文本图像的问题。

依据本申请第一方面，提供了一种字段识别方法，该方法包括：

获取原始图像集，对所述原始图像集中的每个原始图像进行数据标注，得到标注图像集，其中，每个所述原始图像中存在有多个文本字段，所述数据标注用于对每个文本字段的字段位置和字段类别进行标注；

按照预设裁剪标准，对所述标注图像集中的每个标注图像进行裁剪，得到样本数据集，以及采用所述样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，所述字段识别应用模型为全卷积神经网络；

响应于字段识别指令，获取所述字段识别指令中携带的待识别图像，并将所述待识别图像输入至所述字段识别应用模型进行识别，得到所述待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

可选地，所述将所述待识别图像输入至所述字段识别应用模型进行识别，得到所述待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别，包括：

采用所述字段识别应用模型的卷积层对所述待识别图像进行特征提取，得到目标特征图，并在所述字段识别应用模型的分类层对所述目标特征图进行图像处理，得到分割张量和分类张量，所述卷积层为特征金字塔网络结构；

在所述字段识别应用模型的输出层读取所述分割张量中每个像素的像素值，将像素值大于预设像素阈值的指定像素标记为前景区域，将其他像素标记为背景区域，并基于图像处理算法计算所述前景区域中的连续边界，得到多个目标文本字段的多个文本框，将每个目标文本字段的文本框的位置作为所述目标文本字段的目标字段位置，以及对于所述多个文本框中的每个文本框，确定所述文本框对应的全部文本像素，在所述分类张量中查询每个文本像素的字段类别，统计像素值最多的字段类别作为所述文本框对应的目标文本字段的目标字段类别，所述其他像素用于指示所述分割张量中除所述指定像素之外的像素。

可选地，所述分类层，包括分类张量输出层和分割张量输出层，其中，所述分类张量输出层的通道数等于字段类别的类别数，用于确定像素值所属的字段类别，所述分割张量输出层的通道数为1，用于确定文本字段的坐标。

可选地，所述获取原始图像集，对所述原始图像集中的每个原始图像进行数据标注，得到标注图像集，包括：

获取每个所述原始图像进行图像预处理，所述图像预处理包括但不限于噪声去除处理、尺寸统一处理和对比度增强处理；

使用预设标注工具，标注每个所述原始图像中存在的多个文本字段的字段位置，并为每个文本字段设置类别标签，将每个所述文本字段的类别标签和对应的字段位置关联，得到标注图像；

对所述原始图像集中的每个所述原始图像进行标注，得到所述标注图像集。

可选地，所述按照预设裁剪标准，对所述标注图像集中的每个标注图像进行裁剪，得到样本数据集，包括：

读取所述预设裁剪标准对应的多个裁剪尺寸；

对于所述标注图像集中的每个所述标注图像，查询所述标注图像中存在的多个文本字段的字段位置，并根据所述字段位置，确定多个文本字段对应的多个文本框；

在所述标注图像中确定每个所述文本字段的文本框，根据裁剪条件，持续在所述多个裁剪尺寸中选取任一裁剪尺寸进行裁剪，将裁剪得到的多个裁剪框等比缩放为尺寸大小一致的多个背景框，所述裁剪条件为不剪断文本框；

将所述标注图像对应的多个所述文本框和多个所述背景框作为所述标注图像对应的样本数据；

确定每个所述标注图像对应的样本数据，得到所述样本数据集。

可选地，所述确定每个所述标注图像对应的样本数据，得到所述样本数据集之后，所述方法还包括：

对所述样本数据集中的每个样本数据进行编号，提取指定编号对应的指定样本数据，得到多个指定样本数据，所述指定编号的取值为任意数值，所述多个指定样本数据的数量满足预设拆分数值；

将所述多个指定样本数据聚合为训练样本集，将提取后剩余的样本数据聚合为测试样本集。

可选地，所述采用所述样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，包括：

将所述样本数据集中的训练样本集输入至所述初始字段识别模型进行字段位置识别和字段类型识别，根据识别结果更新所述初始字段识别模型的模型参数，得到待测试字段识别模型；

将所述样本数据集中的测试样本集输入至所述待测试字段识别模型进行模型测试，得到测试结果；

当所述测试结果的准确率满足预设准确率阈值时，得到所述字段识别应用模型。

依据本申请第二方面，提供了一种字段识别装置，该装置包括：

获取模块，用于获取原始图像集，对所述原始图像集中的每个原始图像进行数据标注，得到标注图像集，其中，每个所述原始图像中存在有多个文本字段，所述数据标注用于对每个文本字段的字段位置和字段类别进行标注；

裁剪模块，用于按照预设裁剪标准，对所述标注图像集中的每个标注图像进行裁剪，得到样本数据集，以及采用所述样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，所述字段识别应用模型为全卷积神经网络；

识别模块，用于响应于字段识别指令，获取所述字段识别指令中携带的待识别图像，并将所述待识别图像输入至所述字段识别应用模型进行识别，得到所述待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

可选地，所述识别模块，用于采用所述字段识别应用模型的卷积层对所述待识别图像进行特征提取，得到目标特征图，并在所述字段识别应用模型的分类层对所述目标特征图进行图像处理，得到分割张量和分类张量，所述卷积层为特征金字塔网络结构；在所述字段识别应用模型的输出层读取所述分割张量中每个像素的像素值，将像素值大于预设像素阈值的指定像素标记为前景区域，将其他像素标记为背景区域，并基于图像处理算法计算所述前景区域中的连续边界，得到多个目标文本字段的多个文本框，将每个目标文本字段的文本框的位置作为所述目标文本字段的目标字段位置，以及对于所述多个文本框中的每个文本框，确定所述文本框对应的全部文本像素，在所述分类张量中查询每个文本像素的字段类别，统计像素值最多的字段类别作为所述文本框对应的目标文本字段的目标字段类别，所述其他像素用于指示所述分割张量中除所述指定像素之外的像素。

可选地，所述获取模块，用于获取每个所述原始图像进行图像预处理，所述图像预处理包括但不限于噪声去除处理、尺寸统一处理和对比度增强处理；使用预设标注工具，标注每个所述原始图像中存在的多个文本字段的字段位置，并为每个文本字段设置类别标签，将每个所述文本字段的类别标签和对应的字段位置关联，得到标注图像；对所述原始图像集中的每个所述原始图像进行标注，得到所述标注图像集。

可选地，裁剪模块，用于读取所述预设裁剪标准对应的多个裁剪尺寸；对于所述标注图像集中的每个所述标注图像，查询所述标注图像中存在的多个文本字段的字段位置，并根据所述字段位置，确定多个文本字段对应的多个文本框；在所述标注图像中确定每个所述文本字段的文本框，根据裁剪条件，持续在所述多个裁剪尺寸中选取任一裁剪尺寸进行裁剪，将裁剪得到的多个裁剪框等比缩放为尺寸大小一致的多个背景框，所述裁剪条件为不剪断文本框；将所述标注图像对应的多个所述文本框和多个所述背景框作为所述标注图像对应的样本数据；确定每个所述标注图像对应的样本数据，得到所述样本数据集。

可选地，裁剪模块，还用于对所述样本数据集中的每个样本数据进行编号，提取指定编号对应的指定样本数据，得到多个指定样本数据，所述指定编号的取值为任意数值，所述多个指定样本数据的数量满足预设拆分数值；将所述多个指定样本数据聚合为训练样本集，将提取后剩余的样本数据聚合为测试样本集。

可选地，裁剪模块，用于将所述样本数据集中的训练样本集输入至所述初始字段识别模型进行字段位置识别和字段类型识别，根据识别结果更新所述初始字段识别模型的模型参数，得到待测试字段识别模型；将所述样本数据集中的测试样本集输入至所述待测试字段识别模型进行模型测试，得到测试结果；当所述测试结果的准确率满足预设准确率阈值时，得到所述字段识别应用模型。

依据本申请第三方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述第一方面中任一项所述方法的步骤。

依据本申请第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述第一方面中任一项所述的方法的步骤。

借由上述技术方案，本申请提供的一种字段识别方法、装置、计算机设备及计算机可读存储介质，本申请首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本申请实施例提供的一种字段识别方法流程示意图；

图2A示出了本申请实施例提供的一种字段识别方法流程示意图；

图2B示出了本申请实施例提供的一种字段识别方法的识别过程示意图；

图3示出了本申请实施例提供的一种字段识别装置的结构示意图；

图4示出了本申请实施例提供的一种计算机设备的装置结构示意图。

具体实施方式

下面将参照附图更详细地描述本申请的示例性实施例。虽然附图中显示了本申请的示例性实施例，然而应当理解，可以以各种形式实现本申请而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本申请，并且能够将本申请的范围完整的传达给本领域的技术人员。

本申请实施例提供了一种字段识别方法，如图1所示，该方法包括：

101、获取原始图像集，对原始图像集中的每个原始图像进行数据标注，得到标注图像集，其中，每个原始图像中存在有多个文本字段，数据标注用于对每个文本字段的字段位置和字段类别进行标注。

随着计算机视觉技术的发展，出现了OCR(Optical Character Recognition，光学字符识别)项目，OCR项目先用检测模型检测图片上的文字得到文本行坐标，再根据坐标裁剪出文本行图片然后用识别模型识别文字。在获取到检测文本行坐标及文本内容后，根据坐标位置及文本特征进行类别识别。但传统的OCR方法在后处理过程中通常依赖于手工设计的特征和规则进行分类和修正，这种方法的泛化能力较差、识别准确率较低，难以处理复杂的多文本图像。因此，亟需一种适用复杂文本的字段识别方法。因此，本申请提供了一种字段识别方法，首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

在本申请实施例中，相关工作人员首先要收集一批存在多文本字段的原始图像，并上传至字段识别系统，字段识别系统在获取到原始图像后，将原始图像存储至原始图像集。需要说明的是，这些存在多文本字段的原始图像可以是发票等证明文件，在实际操作过程中，相关工作人员可以在互联网上搜索发票图像来线上收集原始图像，或者从客户和合作伙伴处线下收集原始图像，确保原始图像集包含不同类型、布局和格式的发票图像。进一步地，字段识别系统采用相关工作人员预设的图像标注工具对每个原始图像中存在的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。

102、按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集，以及采用样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，字段识别应用模型为全卷积神经网络。

在本申请实施例中，对于每个标注图像，字段识别系统需要根据标注图像中的确定的字段区域进行裁剪操作，具体地，确定标注图像中每个文本字段对应文本框，按照预设裁剪标准裁剪标注图像，裁剪过程中要避免文本框被剪断。裁剪完毕后得到样本数据，聚合全部样本数据，得到样本数据集，进一步地，字段识别系统采用样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型。需要说明的是，字段识别应用模型为全卷积神经网络，全卷积神经网络是一种常见的图像语义分割模型，可以采用常规的训练方法，如基于梯度的反向传播算法，来更新模型参数以提高识别准确率。全卷积神经网络通过层叠卷积和转置卷积层构建，通过多级的信息提取和上采样操作来获得丰富的特征表示和准确的分割结果。通过对网络进行合适的训练和优化，可以实现对图像中不同目标的准确区分和定位。另外，在训练过程中，可以采用一些优化策略，如数据增强、正则化等，以提高模型的泛化能力和鲁棒性。

103、响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

其中，字段识别指令可以是用户基于其所在的终端设备上传的，终端设备可以是手机、平板电脑或电脑等智能设备，本申请对终端设备不进行具体限定。

具体的，可以通过相应的接口或工具从字段识别指令中获取待识别的图像数据。将待识别图像输入字段识别应用模型，使用预训练好的全卷积神经网络模型，在输入图像上执行前向传递操作，获得每个目标文本字段的位置和类别。实际运行时，提取的目标字段位置和类别信息可以根据具体需求进行展示、记录或后续处理。

本实施例提供的字段识别方法，首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

进一步的，作为上述实施例具体实施方式的细化和扩展，为了完整说明本实施例的实施过程，本申请实施例提供了一种字段识别方法，如图2A所示，该方法包括：

201、获取原始图像集，对原始图像集中的每个原始图像进行数据标注，得到标注图像集。

在本申请实施例中，相关工作人员在进行字段识别之前，预先通过线上和线下多种途径收集存在多文本字段的原始图像并上传至字段识别系统，以便字段识别系统根据这些原始图像训练字段识别模型。字段识别系统将接收到的原始图像存储至原始图像集中，并采用相关工作人员预设的图像标注工具对每个原始图像进行标注，得到标注图像集，具体获取标注图像集的过程如下：

首先，这些存在多文本字段的原始图像可以是发票等证明文件，相关工作人员可以在互联网上搜索发票图像来实现线上收集，或者从客户和合作伙伴处获取发票来实现线下收集，以确保原始图像集中包含不同类型、布局和格式的发票图像。相关工作人员将这些原始图像上传至字段识别系统后，字段识别系统将原始图像存储至原始图像集。进一步地，获取每个原始图像进行图像预处理，并确定标注的字段类别，比如发票号码、日期、供应商名称、金额等，定义每个字段类别的准确标注规则。其中，图像预处理包括但不限于噪声去除处理、尺寸统一处理和对比度增强处理。接下来，字段识别系统采用相关工作人员预设的标注工具对每个原始图像中存在的每个文本字段绘制边界框来标注每个文本字段的字段位置，并按照标注规则，为每个边界框设置类别标签，将每个文本字段的类别标签和对应的字段位置关联，得到标注图像。其中，常用的数据标注工具包括LabelImg、RectLabel、VGGImageAnnotator(VIA)等。例如，

748,357,843,360,842,445,746,442invoice_date、

352,211,585,211,585,292,352,292invoice_code、

683,998,1458,998,1458,1067,683,1067invoice_number、

361,366,426,366,426,431,361,431total_amount。

在完成数据标注后，字段识别系统可以直接将标注图像聚合，得到标注图像集，也可以将标注图像发送至校验终端进行校验，获取校验结果，将校验结果指示通过的标注图像存储至标注图像集中。对于校验结果指示不通过的待校验图像，说明出现标注错误，此时接收校验终端基于该标注图像上传的修订图像，将该修订图像作为标注图像存储至标注图像集中。最终，遍历原始图像集，对原始图像集中的每个原始图像进行标注，得到标注图像集。

通过相关工作人员预设的图像标注工具，结合字段识别系统的功能，可以自动为每个原始图像中存在的文本字段绘制边界框并标注字段类别，从而实现对数据的自动化标注，避免了传统手动标注的耗时和劳动力成本。与此同时，通过将校验终端引入标注流程，可以对标注结果进行校验，确保标注的准确性和一致性。校验结果指示不通过的标注图像可以进一步进行修正和改进，提高标注质量。

202、按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。

在本申请实施例中，对于标注图像集中的每个标注图像，字段识别系统需要根据标注图像中标注的字段区域进行裁剪。具体地，对于任一标注图像，确定标注图像中每个文本字段的文本框，按照预设裁剪标准裁剪该标注图像，裁剪完毕后得到样本数据，聚合全部样本数据，得到样本数据集。

具体地，字段识别系统首先读取预设裁剪标准对应的多个裁剪尺寸，例如可预设裁剪尺寸为100x100像素、200x200像素和300x300像素等。对于标注图像集中的每个标注图像(即发票图像)，查询标注图像中存在的多个文本字段的字段位置，例如发票号码、日期、供应商名称和金额等，根据字段位置，确定多个文本字段对应的多个文本框，比如每个发票图像可能包含一个发票号码框、一个日期框、一个供应商名称框和一个金额框。接下来，在标注图像中确定每个文本字段的文本框，并按照裁剪条件，选择任一预设裁剪尺寸进行裁剪，其中，裁剪条件为确保不剪断文本框的内容，保持文本框的完整性。随后，将裁剪得到的多个裁剪框等比缩放为尺寸大小一致的多个背景框，将发票图像中的多个文本框和对应的背景框作为样本数据，并将它们与每张发票图像进行关联，得到每张发票图像对应的样本数据，以便后续训练模型对文本字段进行识别。另外，确定每张发票图像对应的样本数据，得到样本数据集后，需要对样本数据集中的每个样本数据进行编号，以便根据预设拆分数值，提取指定编号对应的指定样本数据，得到多个指定样本数据。例如，从样本数据集中提取100个样本数据作为训练样本，剩余的样本数据作为测试样本。将多个指定样本数据聚合为训练样本集，用于模型训练和参数优化。剩余的样本数据被聚合为测试样本集，用于模型评估和性能测试。

203、采用样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型。

在本申请实施例中，字段识别系统采用样本数据集对初始字段识别模型进行模型训练，以获取字段识别应用模型。需要说明的是，字段识别应用模型为全卷积神经网络，全卷积神经网络是一种常见的图像语义分割模型，可以采用常规的训练方法，如基于梯度的反向传播算法，来更新模型参数以提高识别准确率。全卷积神经网络通过层叠卷积和转置卷积层构建，通过多级的信息提取和上采样操作来获得丰富的特征表示和准确的分割结果。通过对网络进行合适的训练和优化，可以实现对图像中不同目标的准确区分和定位。字段识别应用模型包括输入层、卷积层、分类层和输出层，其中，分类层，包括分类张量输出层和分割张量输出层，其中，分类张量输出层的通道数等于字段类别的类别数，用于确定像素值所属的字段类别，分割张量输出层的通道数为1，用于确定文本字段的坐标。

在实际运行过程中，字段识别系统将样本数据集中的训练样本集输入至初始字段识别模型进行字段位置识别和字段类型识别，根据识别结果更新初始字段识别模型的模型参数，得到待测试字段识别模型。进一步地，将样本数据集中的测试样本集输入至待测试字段识别模型进行模型测试，得到测试结果。当测试结果的准确率满足预设准确率阈值时，得到字段识别应用模型。当测试结果的准确率不满足预设准确率阈值时，再次获取训练样本输入至初始字段识别模型进行字段位置识别和字段类型识别，根据识别结果更新初始字段识别模型的模型参数，得到待测试字段识别模型，直至存在待测试字段识别模型对于的测试准确率满足预设准确率阈值，得到字段识别应用模型。

204、响应于字段识别指令，获取字段识别指令中携带的待识别图像。

在本申请实施例中，字段识别指令可以是用户基于其所在的终端设备上传的，终端设备可以是手机、平板电脑或电脑等智能设备，本申请对终端设备不进行具体限定。响应于字段识别指令，字段识别系统可以通过相应的接口或工具从字段识别指令中获取待识别的图像数据，进而将待识别图像输入字段识别应用模型进行识别。

205、将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

在本申请实施例中，使用预训练好的全卷积神经网络模型，在输入图像上执行前向传递操作，获得每个目标文本字段的位置和类别。在实际运行时，提取出的目标字段位置和目标字段类别可以根据具体需求进行展示、记录或存储以便后续处理。

具体地，如图2B所示，采用字段识别应用模型的卷积层对待识别图像进行特征提取，得到目标特征图，并在字段识别应用模型的分类层，通过分割通道和分类通道对目标特征图进行图像处理，得到分割张量和分类张量，需要说明的是，卷积层为FPN特征金字塔网络结构。FPN(Feature Pyramid Network)是一种常用于目标检测和分割任务的网络结构，它通过融合不同尺度的特征图，实现对多尺度目标的检测和精确定位。

进一步地，在字段识别应用模型的输出层读取分割张量中每个像素的像素值，将像素值大于预设像素阈值的指定像素标记为前景区域，将其他像素标记为背景区域。接下来，基于图像处理算法计算前景区域中的连续边界，得到多个目标文本字段的多个文本框，将每个目标文本字段的文本框的位置作为目标文本字段的目标字段位置。对于多个文本框中的每个文本框，确定文本框对应的全部文本像素，在分类张量中查询每个文本像素的字段类别，统计像素值最多的字段类别作为文本框对应的目标文本字段的目标字段类别。其中，其他像素用于指示分割张量中除指定像素之外的像素。全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

本申请实施例提供的方法，首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

进一步地，作为图1所述方法的具体实现，本申请实施例提供了一种字段识别装置，如图3所示，所述装置包括：获取模块301、裁剪模块302、识别模块303。

该获取模块301，用于获取原始图像集，对所述原始图像集中的每个原始图像进行数据标注，得到标注图像集，其中，每个所述原始图像中存在有多个文本字段，所述数据标注用于对每个文本字段的字段位置和字段类别进行标注；

该裁剪模块302，用于按照预设裁剪标准，对所述标注图像集中的每个标注图像进行裁剪，得到样本数据集，以及采用所述样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，所述字段识别应用模型为全卷积神经网络；

该识别模块303，用于响应于字段识别指令，获取所述字段识别指令中携带的待识别图像，并将所述待识别图像输入至所述字段识别应用模型进行识别，得到所述待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。

在具体的应用场景中，该识别模块303，用于采用所述字段识别应用模型的卷积层对所述待识别图像进行特征提取，得到目标特征图，并在所述字段识别应用模型的分类层对所述目标特征图进行图像处理，得到分割张量和分类张量，所述卷积层为特征金字塔网络结构；在所述字段识别应用模型的输出层读取所述分割张量中每个像素的像素值，将像素值大于预设像素阈值的指定像素标记为前景区域，将其他像素标记为背景区域，并基于图像处理算法计算所述前景区域中的连续边界，得到多个目标文本字段的多个文本框，将每个目标文本字段的文本框的位置作为所述目标文本字段的目标字段位置，以及对于所述多个文本框中的每个文本框，确定所述文本框对应的全部文本像素，在所述分类张量中查询每个文本像素的字段类别，统计像素值最多的字段类别作为所述文本框对应的目标文本字段的目标字段类别，所述其他像素用于指示所述分割张量中除所述指定像素之外的像素。

在具体的应用场景中，所述分类层，包括分类张量输出层和分割张量输出层，其中，所述分类张量输出层的通道数等于字段类别的类别数，用于确定像素值所属的字段类别，所述分割张量输出层的通道数为1，用于确定文本字段的坐标。

在具体的应用场景中，该获取模块301，用于获取每个所述原始图像进行图像预处理，所述图像预处理包括但不限于噪声去除处理、尺寸统一处理和对比度增强处理；使用预设标注工具，标注每个所述原始图像中存在的多个文本字段的字段位置，并为每个文本字段设置类别标签，将每个所述文本字段的类别标签和对应的字段位置关联，得到标注图像；对所述原始图像集中的每个所述原始图像进行标注，得到所述标注图像集。

在具体的应用场景中，该裁剪模块302，用于读取所述预设裁剪标准对应的多个裁剪尺寸；对于所述标注图像集中的每个所述标注图像，查询所述标注图像中存在的多个文本字段的字段位置，并根据所述字段位置，确定多个文本字段对应的多个文本框；在所述标注图像中确定每个所述文本字段的文本框，根据裁剪条件，持续在所述多个裁剪尺寸中选取任一裁剪尺寸进行裁剪，将裁剪得到的多个裁剪框等比缩放为尺寸大小一致的多个背景框，所述裁剪条件为不剪断文本框；将所述标注图像对应的多个所述文本框和多个所述背景框作为所述标注图像对应的样本数据；确定每个所述标注图像对应的样本数据，得到所述样本数据集。

在具体的应用场景中，该裁剪模块302，还用于对所述样本数据集中的每个样本数据进行编号，提取指定编号对应的指定样本数据，得到多个指定样本数据，所述指定编号的取值为任意数值，所述多个指定样本数据的数量满足预设拆分数值；将所述多个指定样本数据聚合为训练样本集，将提取后剩余的样本数据聚合为测试样本集。

在具体的应用场景中，该裁剪模块302，用于将所述样本数据集中的训练样本集输入至所述初始字段识别模型进行字段位置识别和字段类型识别，根据识别结果更新所述初始字段识别模型的模型参数，得到待测试字段识别模型；将所述样本数据集中的测试样本集输入至所述待测试字段识别模型进行模型测试，得到测试结果；当所述测试结果的准确率满足预设准确率阈值时，得到所述字段识别应用模型。

本申请实施例提供的装置，首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

需要说明的是，本申请实施例提供的一种字段识别装置所涉及各功能单元的其他相应描述，可以参考图1和图2A至图2B中的对应描述，在此不再赘述。

基于上述如图1、图2A至图2B所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述的字段识别方法的步骤。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1、图2A至图2B所示的方法，以及图3所示的字段识别装置实施例，为了实现上述目的，在示例性实施例中，参见图4，还提供了一种设备，该设备包括通信总线、处理器、存储器和通信接口，还可以包括输入输出接口和显示设备，其中，各个功能单元之间可以通过总线完成相互间的通信。该存储器存储有计算机程序，处理器，用于执行存储器上所存放的程序，执行上述实施例中的字段识别方法。

可选的，该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，首先获取原始图像集，原始图像集中的每个原始图像存在有多个文本字段，对每个原始图像中的每个文本字段的字段位置和字段类别进行标注，得到标注图像集。进一步地，按照预设裁剪标准，对标注图像集中的每个标注图像进行裁剪，得到样本数据集。接下来，采用样本数据集对全卷积神经网络的初始字段识别模型进行模型训练，获取字段识别应用模型。最终，响应于字段识别指令，获取字段识别指令中携带的待识别图像，并将待识别图像输入至字段识别应用模型进行识别，得到待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别。与现有技术相比，在本申请实施例中，全卷积神经网络可以通过多层卷积和池化操作来提取图像的特征。这使得网络能够同时兼顾大文本和小文本的需要，使网络能够兼顾不同尺寸的文本字段，提高了字段识别的准确性。另外，全卷积神经网络通过监督训练的方式，可以自动学习字段位置和类别的特征表示。与传统方法相比，不再需要手动提取特征，模型可以根据大量样本数据自主学习到更为有表达能力的特征表示。这种端到端的学习方式具有更好的泛化能力，可以适应不同场景和文本风格的识别需求。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。

本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。

以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种字段识别方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待识别图像输入至所述字段识别应用模型进行识别，得到所述待识别图像中存在的每个目标文本字段对应的目标字段位置和目标字段类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述分类层，包括分类张量输出层和分割张量输出层，其中，所述分类张量输出层的通道数等于字段类别的类别数，用于确定像素值所属的字段类别，所述分割张量输出层的通道数为1，用于确定文本字段的坐标。

4.根据权利要求1所述的方法，其特征在于，所述获取原始图像集，对所述原始图像集中的每个原始图像进行数据标注，得到标注图像集，包括：

5.根据权利要求1所述的方法，其特征在于，所述按照预设裁剪标准，对所述标注图像集中的每个标注图像进行裁剪，得到样本数据集，包括：

读取所述预设裁剪标准对应的多个裁剪尺寸；

6.根据权利要求5所述的方法，其特征在于，所述确定每个所述标注图像对应的样本数据，得到所述样本数据集之后，所述方法还包括：

7.根据权利要求1所述的方法，其特征在于，所述采用所述样本数据集对初始字段识别模型进行模型训练，获取字段识别应用模型，包括：

8.一种字段识别装置，其特征在于，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。