CN113536856A

CN113536856A - 图像识别方法和系统、数据处理方法

Info

Publication number: CN113536856A
Application number: CN202010312917.0A
Authority: CN
Inventors: 张诗禹; 高飞宇; 王永攀; 郑琪; 罗楚威
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2020-04-20
Filing date: 2020-04-20
Publication date: 2021-10-22

Abstract

本申请公开了一种图像识别方法和系统、数据处理方法。其中，该图像识别方法包括：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。本申请解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。

Description

图像识别方法和系统、数据处理方法

技术领域

本申请涉及图像识别领域，具体而言，涉及一种图像识别方法和系统、数据处理方法。

背景技术

表格是一种数据可视化方法，能够直观展现数据组织方式。目前常用OCR(OpticalCharacter Recognition，光学字符识别)来识别表格图像，但是，该方法输出的文字块缺失了原始数据结构信息，导致识别准确度较低。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像识别方法和系统、数据处理方法，以至少解决相关技术中对表格图像中的关键字的识别准确度较低的技术问题。

根据本申请实施例的一个方面，提供了一种图像识别方法，包括：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

根据本申请实施例的另一方面，还提供了一种图像识别装置，包括：获取模块，用于获取表格图像；第一处理模块，用于对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；第二处理模块，用于利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：获取待处理图像，其中，待处理图像包括文字数据和格式数据；生成待处理图像对应的目标图，其中，目标图包含多个节点，节点间通过边相连，节点用于表征文字数据，边用于表征格式数据；展示目标图。

根据本申请实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述的图像识别方法和数据处理方法。

根据本申请实施例的另一方面，还提供了一种计算设备，包括：存储器和处理器，存储器用于存储程序，处理器用于运行程序，其中，程序运行时执行上述的图像识别方法和数据处理方法。

根据本申请实施例的另一方面，还提供了一种图像识别系统，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

在本申请实施例中，在获取到表格图像之后，首先对表格图像进行处理，得到相应的表格数据，进一步利用表格识别模型对表格数据进行处理，可以得到关键字和关键字的结构类型，从而实现表格图像识别的目的。容易注意到的是，可以利用表格识别模型对表格数据进行处理，从而得到表格中关键字的结构类型，使得表格图像中文字块的识别包含有原始数据结构信息，达到了提高关键字识别准确度，提高表格图像识别的鲁棒性的技术效果，进而解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图；

图2是根据本申请实施例的图像识别方法的流程图；

图3是根据本申请实施例的一种可选的表格图像的示意图；

图4是根据本申请实施例的一种可选的表格识别模型的示意图；

图5是根据本申请实施例的图像识别装置的示意图；

图6是根据本申请实施例的数据处理方法的流程图；

图7是根据本申请实施例的一种可选的交互界面的示意图；以及

图8是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

OCR：可以是指通过图像处理和模式识别技术对光学的字符进行识别。

关键字(Key)关系分析：分析Key是简单Key、列表Key还是复合Key。

表格理解：分析表格中数据的组织方式。

图(Graph)：用于描述不具备规则的空间结构的数据，可以是节点集合，节点通过一系列边连接，其中，节点可以用圆圈表示，边可以用圆圈键之间的连线表示。

图卷积层：可以是指适用于图数据的卷积层。

图注意力层：可以用注意力机制代替图卷积中固定的标准化操作。

多层感知器：Multi-Layer Perceptron，MLP，可以是一种前馈人工神经网络模型，其将输入的多个数据集映射到单一的输出的数据集上。

目前，常用OCR来识别表格图像，但是，该方法输出的文字块缺失了原始数据结构信息。针对上述问题，现有技术中提出了多种方案来分析Key的结构，但是，上述方案都只能处理单一逻辑结构的表格，并且需要预先知道逻辑结构类型。

为了解决上述问题，针对OCR识别出的表格数据构建图，并基于图卷积的表格识别模型进行处理，从而能够学习表格中的结构类型，达到对复杂表格的鲁棒处理。

实施例1

根据本申请实施例，提供了一种图像识别方法，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现图像识别方法的计算机终端(或移动设备)的硬件结构框图。如图1所示，计算机终端10(或移动设备10)可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为BUS总线的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的图像识别方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像识别方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与计算机终端10(或移动设备)的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备(或移动设备)可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备(或移动设备)中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的图像识别方法。图2是根据本申请实施例的图像识别方法的流程图。如图2所示，该方法包括如下步骤：

步骤S202，获取表格图像；

上述步骤中的表格图像可以是未填充数据的空白表格图像，也可以是填充有数据的表格图像，在本申请实施例中，以空白表格图片为例进行说明。

步骤S204，对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；

上述步骤中的文本信息可以是单元格内的文字，其中，对于空白单元格，文本信息可以是空白信息。结构关系可以是表征两个单元格在表格中的位置关系，包括但不限于：相邻关系、同行关系、同列关系。

在一种可选的实施例中，可以通过识别图像中的横线和竖线，确定表格中的单元格，进一步可以通过OCR识别出每个单元格内的文字，另外可以通过单元格在表格中的位置信息，确定单元格之间的结构关系。其中，单元格的位置信息可以通过如下方式确定：首先基于图像中的横线和竖线，确定表格的尺寸，也即，确定表格有几行几列，进一步通过单元格在表格中所占的行数和列数，确定单元格的位置信息。

可选的，位置信息可以通过一个1*4的矩阵表示，矩阵中第一个元素表示单元格的起始行数，第二个元素标识单元格的终止行数，第三个元素表示单元格的起始列数，第四个元素标识单元格的终止列数。例如，如图3所示的表格图像，通过识别图像中的横线和竖线，可以识别出该表格有3行3列，总共包含6个单元格，第一个单元格的位置信息为[0 1 0 3]，第二个单元格的位置信息为[1 2 0 1]，第三个单元格的位置信息为[1 2 1 2]，第四个单元格的位置信息为[1 2 2 3]，第五个单元格的位置信息为[2 3 0 1]，第六个单元格的位置信息为[2 3 1 3]。

步骤S206，利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

上述步骤中的结构类型可以包括但不限于：简单类型、列表类型和复合类型，其中，简单类型是指该Key是键值(Key-Value)对中的Key，列表类型是指该Key是列表Key-Value中的Key，复合类型是指该Key是复合Key-Value中的Key。例如，如图3所示的表格，“学生姓名”这个Key的结构类型为简单类型，“关系”这个Key的结构类型为列表类型，“家访情况”这个Key的结构类型为复合类型。

在一种可选的实施例中，为了能够实现对表格图像中关键字的结构类型进行识别，可以将表格结构抽象为图模型中的节点和边，在此基础上，可以通过表格识别模型对节点和边进行分类，从而可以准确得到关键字的结构类型。

通过本申请上述实施例提供的方案，在获取到表格图像之后，首先对表格图像进行处理，得到相应的表格数据，进一步利用表格识别模型对表格数据进行处理，可以得到关键字和关键字的结构类型，从而实现表格图像识别的目的。容易注意到的是，可以利用表格识别模型对表格数据进行处理，从而得到表格中关键字的结构类型，使得表格图像中文字块的识别包含有原始数据结构信息，达到了提高关键字识别准确度，提高表格图像识别的鲁棒性的技术效果，进而解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。

在本申请上述实施例中，利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型包括：基于表格数据，生成目标图，其中，目标图包含多个节点，任意两个节点通过边相连，节点用于表征单元格内的文本信息，边用于表征单元格之间的结构关系；将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷基层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层中，得到关键字和关键字的结构类型。

上述步骤中的目标图可以是由多个节点以及节点之间的边组成的数据结构，与图像不同。为了能够得到两个单元格间的方向，该目标图可以是有向图。

可选的，第一向量为t_i，第二向量为r_ij，图卷积可以表示为如下公式：

h_ij＝g(t_i，r_ij，t_j)＝MLP([t_i||r_ij||t_j])，

其中，MLP表示多层感知器，||表示向量连接操作。

图注意力可以表示为如下公式：

t′_i＝σ(∑_{j∈{1，…，n}}α_ijh_ij)，

其中，σ表示激活函数。每一层编码后的节点特征为上述公式中的t′_i，边特征r′_ij表示如下：

r′_ij＝MLP(h_ij)。

例如，以如图4所示的表格识别模型为例进行说明，对于图4中所示的表格图像，可以将单元格作为图的节点，节点特征为单元格内的文字经过编码器的向量表示，图中两两节点间都会成边，边特征为两个单元格间方向、相邻和同行同列关系构成的01向量表示，然后将节点和边向量经过5层图卷积和图注意力的处理，得到处理后的节点特征和边特征，进一步通过输出层，提取出表格图像中的Key和Key的结构类型。

需要说明的是，节点的分类结果也可以通过Key库搜索来实现，进而将KV分类作为输入使用图卷积和图注意力进行处理，得到Key的结构类型。

在本申请上述实施例中，将节点特征和边特征输入至表格识别模型的输出层中，得到关键字和关键字的结构类型包括：利用多层感知器和归一化指数函数对节点特征和边特征进行处理，得到节点的分类结果和边的分类结果；基于节点的分类结果和边的分类结果，得到关键字和关键字的结构类型。

可选地，节点的分类结果包括如下之一：关键字，数据和键值组合，分别表示这个单元格内是Key，是Value，还是KV同单元格。边的分类结果包括如下之一：并列关系(parallel)、从属关系(belong)、复合从属关系(complex belong)和没有关系(None)，前三种关系分别表示普通Key结构，列表KV结构和复合KV结构。

例如，仍以如图4所示的表格识别模型为例进行说明，对5层图卷积和图注意力处理后的节点特征和边特征经过MLP和softmax后输出节点和边的分类结果，然后根据上述分类结果即可得到原始表格图像中的Key和Key的结构类型。如图4所示，分类结果为Value的节点用空心圆圈表示，分类结果为Key的节点用实心圆圈表示，分类结果为KV的节点用圆环表示。并列关系的边用实线表示，从属关系的边用虚线表示，复合关系的边用点划线表示，没有关系的边用双点划线表示。

在本申请上述实施例中，该方法还包括如下步骤：生成训练数据；利用训练数据对初始模型进行训练，得到表格识别模型。

在一种可选的实施例中，由于网上能够获取到的表格数据有限，为了确保表格识别模型的识别准确度，可以根据需要大量生成表格数据作为训练数据。

在本申请上述实施例中，生成训练数据包括：将表格切分为多个区域；确定每个区域对应的基础逻辑结构，其中，基础逻辑结构包括如下之一：键值对，列表键值，复合键值；基于每个区域对应的基础逻辑结构，生成训练数据。

在一种可选的实施例中，表格数据可以采用如图3所示的表格2D布局和基础逻辑结构填充的层次化方法进行生成，表格的基础逻辑结构有KV对、列表KV和复合KV三种。首先可以通过随机的横竖线切分生成表格的2D布局，然后对每一个区域随机选定一种基础逻辑结构，最后基于基础逻辑结构随机填充语料，并填充基础逻辑结构，以生成训练数据。

在本申请上述实施例中，基于每个区域对应的基础逻辑结构，生成训练数据包括：基于每个区域对应的基础逻辑结构，在每个区域内填充关键字语料和数据语料；在每个区域内填充每个区域对应的基础逻辑结构。

在一种可选的实施例中，在随机选定基础逻辑结构之后，可以通过参数化方法随机生成这种基础逻辑结构的一个实例，并随机填充KV语料，最后填充基础逻辑结构。

在本申请上述实施例中，对表格图像进行处理，得到表格图像对应的表格数据包括：对表格图像进行处理，得到单元格的图像和单元格之间的结构关系；对单元格的图像进行处理，得到单元格内的文本信息。

在一种可选的实施例中，可以通过表格还原技术得到单元格的图像和单元格之间的结构关系，具体实现方式如下：通过识别图像中的横线和竖线，确定表格中的单元格，并通过单元格在表格中的位置信息，确定单元格之间的结构关系。进一步通过OCR对单元格图像进行文本识别，可以得到每个单元格内的文字。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种用于实施上述图像识别方法的图像识别装置，如图5所示，该装置500包括：获取模块502、第一处理模块504和第二处理模块506。

其中，获取模块502用于获取表格图像；第一处理模块504用于对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；第二处理模块506用于利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

此处需要说明的是，上述获取模块502、第一处理模块504和第二处理模块506对应于实施例1中的步骤S202至步骤S206，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在实施例1提供的计算机终端10中。

在本申请上述实施例中，第二处理模块包括：生成单元、第一处理单元、第二处理单元和第三处理单元。

其中，生成单元用于基于表格数据，生成目标图，其中，目标图包含多个节点，任意两个节点通过边相连，节点用于表征单元格内的文本信息，边用于表征单元格之间的结构关系；第一处理单元用于将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；第二处理单元用于将第一向量和第二向量输入至表格识别模型的图卷基层和图注意力层中，得到节点特征和边特征；第三处理单元用于将节点特征和边特征输入至表格识别模型的输出层中，得到关键字和关键字的结构类型。

在本申请上述实施例中，第三处理单元包括：第一子处理单元和第二子处理单元。

其中，第一子处理单元用于利用多层感知器和归一化指数函数对节点特征和边特征进行处理，得到节点的分类结果和边的分类结果；第二子处理单元用于基于节点的分类结果和边的分类结果，得到关键字和关键字的结构类型。

在本申请上述实施例中，该装置还包括：生成模块和训练模块。

其中，生成模块用于生成训练数据；训练模块用于利用训练数据对初始模型进行训练，得到表格识别模型。

在本申请上述实施例中，生成模块包括：划分单元，用于将表格切分为多个区域；确定单元，用于确定每个区域对应的基础逻辑结构，其中，基础逻辑结构包括如下之一：键值对，列表键值和复合键值；生成单元，用于基于每个区域对应的基础逻辑结构，生成训练数据。

在本申请上述实施例中，生成单元包括：第一子填充单元和第二子填充单元。

其中，第一子填充单元用于基于每个区域对应的基础逻辑结构，在每个区域内填充关键字语料和数据语料；第二子填充单元用于在每个区域内填充每个区域对应的基础逻辑结构。

在本申请上述实施例中，第一处理模块包括：第四处理单元和第五处理单元。

其中，第四处理单元用于对表格图像进行处理，得到单元格的图像和单元格之间的结构关系；第五处理单元用于对单元格的图像进行处理，得到单元格内的文本信息。

需要说明的是，本申请上述实施例中涉及到的优选实施方案与实施例1提供的方案以及应用场景、实施过程相同，但不仅限于实施例1所提供的方案。

实施例3

根据本申请实施例，还提供了一种图像识别系统，包括：

处理器；以及

存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

实施例4

根据本申请实施例，还提供了一种数据处理方法。

图6是根据本申请实施例的数据处理方法的流程图。如图6所示，该方法包括如下步骤：

步骤S602，获取待处理图像，其中，待处理图像包括文字数据和格式数据；

在不同的应用领域中，上述步骤中的待处理图像不同，例如，在表格数据处理的应用领域中，待处理图像可以是未填充数据的空白表格图像，也可以是填充有数据的表格图像，在本申请实施例中，以空白表格图片为例进行说明。文字数据可以表征待处理图像中单元格内的文字，格式数据可以表征待处理图像中单元格之间的位置关系，包括但不限于：相邻关系、同行关系、同列关系。

又例如，在道路监控的应用领域中，待处理图像可以是监控摄像头拍摄到的车辆车牌的图像，文字数据可以包括车牌中的中文、英文和数字，格式数据可以表征车牌中每个文字与其他文字之间的位置关系，包括但不限于：相邻关系、同行关系等。

在一种可选的实施例中，如图7所示，用户可以通过点击“上传图像”按钮，或者直接将图像文件拖入至虚线框内，实现上传待处理图像的目的。

步骤S604，生成待处理图像对应的目标图，其中，目标图包含多个节点，节点间通过边相连，节点用于表征文字数据，边用于表征格式数据；

步骤S606，展示目标图。

在一种可选的实施例中，如图7所示，为了方便用户查看待处理图像对应的目标图，可以给用户提供一个交互界面，并将生成的目标图展示在交互界面的显示区域中。

在本申请上述实施例中，该方法还包括：接收用户的输入，调整目标图中的节点之间的关系。

在一种可选的实施例中，用户可以根据需要删减目标图中的节点，并调整节点之间的关系，上述调整可以包括：删除节点之间的边，增加节点之间的边，修改箭头方向等。为了方便用户调整目标图，如图7所示，用户可以直接在显示区域中对目标图进行操作，例如，可以通过点击操作选择需要调整的节点或边，然后通过选择相应的操作，或执行相应的手势操作，实现调整目的。

在本申请上述实施例中，该方法还包括：基于目标图，对待处理图像进行识别，得到识别结果，其中，识别结果包括：待处理图像中的关键字，和关键字的结构类型。

在表格数据处理的应用领域中，上述步骤中的结构类型可以包括但不限于：简单类型、列表类型和复合类型，其中，简单类型是指该Key是键值(Key-Value)对中的Key，列表类型是指该Key是列表Key-Value中的Key，复合类型是指该Key是复合Key-Value中的Key。例如，如图3所示的表格，“学生姓名”这个Key的结构类型为简单类型，“关系”这个Key的结构类型为列表类型，“家访情况”这个Key的结构类型为复合类型。

在道路监控的应用领域中，上述步骤中的关键字可以是车牌中的每个文字、英文字母或数字，结构类型可以是关键字之间的位置类型。

在本申请上述实施例中，基于目标图，对待处理图像进行识别，得到识别结果包括：将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷积层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层，得到识别结果。

实施例5

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行图像识别方法中以下步骤的程序代码：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型包括：依次连接的编码层，图卷积层，图注意力层和输出层。

可选地，图8是根据本申请实施例的一种计算机终端的结构框图。如图8所示，该计算机终端A可以包括：一个或多个(图中仅示出一个)处理器802、以及存储器804。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的图像识别方法和装置对应的程序指令/模块，以及数据处理方法对应的程序指令，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的图像识别方法和数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至终端A。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

可选的，上述处理器还可以执行如下步骤的程序代码：基于表格数据，生成目标图，其中，目标图包含多个节点，任意两个节点通过边相连，节点用于表征单元格内的文本信息，边用于表征单元格之间的结构关系；将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷基层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层中，得到关键字和关键字的结构类型。

可选的，上述处理器还可以执行如下步骤的程序代码：利用多层感知器和归一化指数函数对节点特征和边特征进行处理，得到节点的分类结果和边的分类结果；基于节点的分类结果和边的分类结果，得到关键字和关键字的结构类型。

可选的，上述处理器还可以执行如下步骤的程序代码：生成训练数据；利用训练数据对初始模型进行训练，得到表格识别模型。

可选的，上述处理器还可以执行如下步骤的程序代码：将表格切分为多个区域；确定每个区域对应的基础逻辑结构，其中，基础逻辑结构包括如下之一：键值对，列表键值，复合键值；基于每个区域对应的基础逻辑结构，生成训练数据。

可选的，上述处理器还可以执行如下步骤的程序代码：基于每个区域对应的基础逻辑结构，在每个区域内填充关键字语料和数据语料；在每个区域内填充每个区域对应的基础逻辑结构。

可选的，上述处理器还可以执行如下步骤的程序代码：对表格图像进行处理，得到单元格的图像和单元格之间的结构关系；对单元格的图像进行处理，得到单元格内的文本信息。

采用本申请实施例，提供了一种图像识别的方案。通过表格识别模型对表格数据进行处理，从而得到表格中关键字的结构类型，使得表格图像中文字块的识别包含有原始数据结构信息，达到了提高关键字识别准确度，提高表格图像识别的鲁棒性的技术效果，进而解决了相关技术中对表格图像中的关键字的识别准确度较低的技术问题。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理图像，其中，待处理图像包括文字数据和格式数据；生成待处理图像对应的目标图，其中，目标图包含多个节点，节点间通过边相连，节点用于表征文字数据，边用于表征格式数据；展示目标图。

可选的，上述处理器还可以执行如下步骤的程序代码：接收用户的输入，调整目标图中的节点之间的关系。

可选的，上述处理器还可以执行如下步骤的程序代码：基于目标图，对待处理图像进行识别，得到识别结果，其中，识别结果包括：待处理图像中的关键字，和关键字的结构类型。

可选的，上述处理器还可以执行如下步骤的程序代码：将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷积层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层，得到识别结果。

本领域普通技术人员可以理解，图8所示的结构仅为示意，计算机终端也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌声电脑以及移动互联网设备(MobileInternet Devices，MID)、PAD等终端设备。图8其并不对上述电子装置的结构造成限定。例如，计算机终端A还可包括比图8中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图8所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

实施例6

本申请的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于保存上述实施例所提供的图像识别方法和数据处理方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取表格图像；对表格图像进行处理，得到表格图像对应的表格数据，其中，表格数据包括：表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对表格数据进行处理，得到表格图像中的关键字和关键字的结构类型，其中，表格识别模型用于获取表格数据，将表格数据输入至编码网络，得到表格数据对应的向量，将向量输入至特征提取网络，得到表格数据的特征，将表格数据的特征输入到分类网络，得到关键字和关键字的结构类型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于表格数据，生成目标图，其中，目标图包含多个节点，任意两个节点通过边相连，节点用于表征单元格内的文本信息，边用于表征单元格之间的结构关系；将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷基层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层中，得到关键字和关键字的结构类型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：利用多层感知器和归一化指数函数对节点特征和边特征进行处理，得到节点的分类结果和边的分类结果；基于节点的分类结果和边的分类结果，得到关键字和关键字的结构类型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将表格切分为多个区域；确定每个区域对应的基础逻辑结构，其中，基础逻辑结构包括如下之一：键值对，列表键值，复合键值；基于每个区域对应的基础逻辑结构，生成训练数据。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于每个区域对应的基础逻辑结构，在每个区域内填充关键字语料和数据语料；在每个区域内填充每个区域对应的基础逻辑结构。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：对表格图像进行处理，得到单元格的图像和单元格之间的结构关系；对单元格的图像进行处理，得到单元格内的文本信息。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理图像，其中，待处理图像包括文字数据和格式数据；生成待处理图像对应的目标图，其中，目标图包含多个节点，节点间通过边相连，节点用于表征文字数据，边用于表征格式数据；展示目标图。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：接收用户的输入，调整目标图中的节点之间的关系。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：基于目标图，对待处理图像进行识别，得到识别结果，其中，识别结果包括：待处理图像中的关键字，和关键字的结构类型。

可选的，上述存储介质还被设置为存储用于执行以下步骤的程序代码：将目标图中的节点和边输入至表格识别模型的编码层中，得到节点的第一向量和边的第二向量；将第一向量和第二向量输入至表格识别模型的图卷积层和图注意力层中，得到节点特征和边特征；将节点特征和边特征输入至表格识别模型的输出层，得到识别结果。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理图像，其中，所述待处理图像包括文字数据和格式数据；

生成所述待处理图像对应的目标图，其中，所述目标图包含多个节点，节点间通过边相连，所述节点用于表征所述文字数据，所述边用于表征所述格式数据；

展示所述目标图。

2.根据权利要求1所述的方法，还包括：

接收用户的输入，调整所述目标图中的节点之间的关系。

3.根据权利要求1所述的方法，还包括：

基于所述目标图，对所述待处理图像进行识别，得到识别结果，其中，所述识别结果包括：所述待处理图像中的关键字，和所述关键字的结构类型。

4.根据权利要求3所述的方法，其中，基于所述目标图，对所述待处理图像进行识别，得到识别结果包括：

将所述目标图中的节点和边输入至表格识别模型的编码层中，得到所述节点的第一向量和所述边的第二向量；

将所述第一向量和所述第二向量输入至所述表格识别模型的图卷积层和图注意力层中，得到节点特征和边特征；

将所述节点特征和所述边特征输入至所述表格识别模型的输出层，得到所述识别结果。

5.根据权利要求4所述的方法，其中，所述方法还包括：

生成训练数据；

利用所述训练数据对初始模型进行训练，得到所述表格识别模型。

6.根据权利要求5所述的方法，其中，生成训练数据包括：

将表格切分为多个区域；

确定每个区域对应的基础逻辑结构，其中，所述基础逻辑结构包括如下之一：键值对，列表键值和复合键值；

基于所述每个区域对应的基础逻辑结构，生成所述训练数据。

7.一种图像识别方法，包括：

获取表格图像；

对所述表格图像进行处理，得到所述表格图像对应的表格数据，其中，所述表格数据包括：所述表格图像中单元格内的文本信息和单元格之间的结构关系；

利用表格识别模型对所述表格数据进行处理，得到所述表格图像中的关键字和关键字的结构类型，其中，所述表格识别模型用于获取所述表格数据，将所述表格数据输入至编码网络，得到所述表格数据对应的向量，将所述向量输入至特征提取网络，得到所述表格数据的特征，将所述表格数据的特征输入到分类网络，得到所述关键字和所述关键字的结构类型。

8.根据权利要求7所述的方法，其中，利用表格识别模型对所述表格数据进行处理，得到所述表格图像中的关键字和关键字的结构类型包括：

基于所述表格数据，生成目标图，其中，所述目标图包含多个节点，任意两个节点通过边相连，所述节点用于表征所述单元格内的文本信息，所述边用于表征所述单元格之间的结构关系；

将所述目标图中的节点和边输入至所述表格识别模型的编码层中，得到所述节点的第一向量和所述边的第二向量；

将所述节点特征和所述边特征输入至所述表格识别模型的输出层中，得到所述关键字和所述关键字的结构类型。

9.根据权利要求8所述的方法，其中，将所述节点特征和所述边特征输入至所述表格识别模型的输出层中，得到所述关键字和所述关键字的结构类型包括：

利用多层感知器和归一化指数函数对所述节点特征和所述边特征进行处理，得到所述节点的分类结果和所述边的分类结果；

基于所述节点的分类结果和所述边的分类结果，得到所述关键字和所述关键字的结构类型。

10.根据权利要求9所述的方法，其中，所述节点的分类结果包括如下之一：关键字，数据和键值组合，所述边的分类结果包括如下之一：并列关系、从属关系、复合从属关系和没有关系。

11.根据权利要求7所述的方法，其中，所述方法还包括：

生成训练数据；

12.根据权利要求11所述的方法，其中，生成训练数据包括：

将表格切分为多个区域；

13.根据权利要求12所述的方法，其中，基于所述每个区域对应的基础逻辑结构，生成所述训练数据包括：

基于所述每个区域对应的基础逻辑结构，在所述每个区域内填充关键字语料和数据语料；

在所述每个区域内填充所述每个区域对应的基础逻辑结构。

14.根据权利要求7所述的方法，其中，对所述表格图像进行处理，得到所述表格图像对应的表格数据包括：

对所述表格图像进行处理，得到所述单元格的图像和所述单元格之间的结构关系；

对所述单元格的图像进行处理，得到所述单元格内的文本信息。

15.一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求1至6中任意一项所述的数据处理方法，或权利要求7至14中任意一项所述的图像识别方法。

16.一种计算设备，包括：存储器和处理器，所述存储器用于存储程序，所述处理器用于运行所述程序，其中，所述程序运行时执行权利要求1至6中任意一项所述的数据处理方法，或权利要求7至14中任意一项所述的图像识别方法。

17.一种图像识别系统，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：获取表格图像；对所述表格图像进行处理，得到所述表格图像对应的表格数据，其中，所述表格数据包括：所述表格图像中单元格内的文本信息和单元格之间的结构关系；利用表格识别模型对所述表格数据进行处理，得到所述表格图像中的关键字和关键字的结构类型，其中，所述表格识别模型用于获取所述表格数据，将所述表格数据输入至编码网络，得到所述表格数据对应的向量，将所述向量输入至特征提取网络，得到所述表格数据的特征，将所述表格数据的特征输入到分类网络，得到所述关键字和所述关键字的结构类型。