CN113569840A

CN113569840A - 基于自注意力机制的表单识别方法、装置及存储介质

Info

Publication number: CN113569840A
Application number: CN202111017228.8A
Authority: CN
Inventors: 杨紫崴
Original assignee: Ping An Medical and Healthcare Management Co Ltd
Current assignee: Shenzhen Ping An Medical Health Technology Service Co Ltd
Priority date: 2021-08-31
Filing date: 2021-08-31
Publication date: 2021-10-29

Abstract

本发明涉及人工智能及数字医疗领域，提供了一种基于自注意力机制的表单识别方法、装置及存储介质，该方法包括：获取待识别的表单图片，并对表单图片进行文本检测和文本识别，得到表单图片的文本位置信息和文本内容信息；读取表单图片中各个像素的像素值，得到表单图片的图像素信息；根据表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到表单图片的结构化处理结果，其中，表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；对表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。上述方法能够提高不同表单图片在自动化识别时的适应性，并提高表单图片识别的准确度。

Description

基于自注意力机制的表单识别方法、装置及存储介质

技术领域

本发明涉及人工智能和数字医疗领域，尤其是涉及一种基于自注意力机制的表单识别方法方法、装置、存储介质及计算机设备。

背景技术

随着科技的发展与进步，人工智能技术日趋完善，表格清单的自动化识别技术逐渐发展并开始应用于人们的日常生活中。比如，在医保异地报销业务场景中，常常需要对医疗清单明细进行手工录入，一般每个案件待录入的明细长达几十项，对于医保工作人员无疑是一项繁琐、耗时耗力的事务，为了减轻人力的消耗，提升报销时效，就出现了一些表单自动化识别的解决方案，以此来节省人力投入成本，并提高表单识别的效率。

在现有技术中，对各类表单进行自动化识别的方法，通常是对表单图片进行进行文本识别和文字内容提取，然后对识别出的文字进行规则性的后处理，从而形成结构化的数据，但是，这种规则性的后处理方式难以处理无表格线和多行合并等复杂情况，而且，对于较复杂的版面，规则性的处理方式也没有很好的鲁棒性与适应性，导致表单识别的准确度较低。另一种比较常见的表单自动识别方式是基于模板匹配的表格重建方法，此类方法需要先设计一个模板图像，然后将输入图像和模板图像进行匹配和校准，最后基于模板图像的结构对输入图像进行识别，但是，这种方法必须对每种表格单独设置模板，通用性较差，并且表单识别的准确度也较低。

发明内容

有鉴于此，本申请提供了一种基于自注意力机制的表单识别方法、装置、存储介质及计算机设备，主要目的在于解决现有技术中表单自动化识别方法通用性较差，识别结果精确度较低的技术问题。

根据本发明的第一个方面，提供了一种基于自注意力机制的表单识别方法方法，该方法包括：

获取待识别的表单图片，并对所述表单图片进行文本检测和文本识别，得到所述表单图片的文本位置信息和文本内容信息；

读取表单图片中各个像素的像素值，得到表单图片的图像素信息；

根据表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到表单图片的结构化处理结果，其中，表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；

对表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

根据本发明的第二个方面，提供了一种基于自注意力机制的表单识别装置，该装置包括：

文本信息获取模块，用于获取待识别的表单图片，并对表单图片进行文本检测和文本识别，得到表单图片的文本位置信息和文本内容信息；

图信息获取模块，用于读取表单图片中各个像素的像素值，得到表单图片的图像素信息；

结构化处理模块，用于根据表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到表单图片的结构化处理结果，其中，表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；

数据后处理模块，用于对表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

根据本发明的第三个方面，提供了一种存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述基于自注意力机制的表单识别方法方法。

根据本发明的第四个方面，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述基于自注意力机制的表单识别方法。

本发明提供的一种基于自注意力机制的表单识别方法、装置、存储介质及计算机设备，首先通过文本检测和文本识别技术获取到表单图片的文本位置信息和文本内容信息，然后通过读取表单图片的像素值得到表单图片的图像素信息，最后根据图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型对表单图片进行结构化处理和数据后处理，得到结构化的表单数据。上述方法通过运用表单数据处理模型，能够使本方法同时适用于各种不同版面和不同格式的表单图片，有效的提高了表单自动化识别方法对于不同表单图片识别时的鲁棒性和适应性。此外，上述方法中的表单数据处理模型是基于自注意力机制的编码解码模型实现的，其中，自注意力机制可以对表单图片中的各类信息进行融合性的学习，从而学习到各类信息间的相互联系，而编码解码模型可以通过融合性的特征信息对表单图片中隐藏的信息进行准确的预测，因此，上述表单数据处理模型能够有效的提高表单图片自动化识别的准确度。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1示出了本发明实施例提供的一种基于自注意力机制的表单识别方法方法的流程示意图；

图2示出了本发明实施例提供的表单数据处理模型的预训练示意图；

图3示出了本发明实施例提供的表单数据处理模型的训练示意图；

图4示出了本发明实施例提供的一种基于自注意力机制的表单识别装置的结构示意图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在一个实施例中，如图1所示，提供了一种基于自注意力机制的表单识别方法，以该方法应用于服务器等计算机设备为例进行说明，其中，服务器可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。上述方法包括以下步骤：

101、获取待识别的表单图片，并对所述表单图片进行文本检测和文本识别，得到所述表单图片的文本位置信息和文本内容信息。

其中，表单图片是指通过拍照或扫描的方式对各种纸质表单进行图片化处理后形成的图片。在实际工作生活中，纸质表单常常为人工填写的excel表格、word表格或人工绘制的表格等等。例如，纸质表单可以是工厂生产车间的生产记录、还可以是医院的诊疗记录等。这类纸质表单中的信息通常需要借由计算机设备进行进一步的统计和分析等操作，因此，就需要对这类表单图片中的信息进行结构化的提取。

具体的，首先，计算机设备可以从数据库中或者从其他存储设备中提取出待识别的表单图片，或者也可以直接对待识别的纸质表单进行扫描，从而得到待识别的表单图片，然后对待识别的表单图片进行文本检测和文本识别，从而得到待识别表单图片中的文本位置信息和文本内容信息。其中，文本检测是指对图像中的文字区域进行定位，并通常以边界框的形式将文本行标记出来，形成文本框；而文本识别是在文本检测后，针对文本检测得到的文本框，识别其中的文字信息和文字对应的位置信息。在本实施例中，文本识别和文本检测作为表单识别的基础，其识别和检测的精确度至关重要，因此，本实施例可以基于现有技术中文本识别和文本检测的精确度较高的方法实现。

102、读取所述表单图片中各个像素的像素值，得到所述表单图片的图像素信息。

其中，图像素信息一般是指图片中的像素值，计算机设备读取的图像是由的小方格组成的，每个小方块都有一个明确的位置和被分配的色彩数值，像素值就是一个数字序列，用以表示图像中小方块的一个最小单位，像素值通常由计算机设备通过算法对图片进行读取，常见的算法有python、matlab和opencv等等。

具体的，计算机设备可以通过读取像素值的算法对表单图片进行像素值提取，得到表单图片的图像素信息。其中，表单图片的图像素信息可以包括表单图片中每个基本单元的色彩数值信息，还可以包括每个基本单元的位置信息。表单图片的图像素信息和文字内容信息、文字位置信息共同构成了表单图片的整体信息，图像素信息和文字内容信息、文字位置信息之间也存在着一定的关系，一定的图像素信息对应着相应的文字内容信息和文字位置信息，而依据各种信息间的相互关系可以实现后续表单数据处理模型的训练。

103、根据所述表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到所述表单图片的结构化处理结果，其中，所述表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的。

其中，自注意力机制是注意力机制的一种变体，注意力机制模仿了生物观察行为的内部过程，即结合了内部经验和外部感觉，从而增加部分区域观察精细度的机制，而自注意力机制则减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。本实施中的表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的，其中，编码解码模型即transformer模型，它由编码器和解码器构成，并且常用于翻译领域，本实施例创新的将编码解码模型应用于表单图片自动识别的结构化处理过程中，能够利用编码解码模型的预测能力有效的提高表单数据处理模型的数据处理能力，从而提高识别的准确性。

具体的，计算机设备可以根据待识别表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，对图像素信息、文本位置信息和文本内容信息等多种信息进行处理，得到表单图片的结构化处理结果。在本实施例中，结构化处理结果可以根据表单数据处理模型的训练任务设定不同的输出任务，从而得到不同的输出结果，其中，表单数据处理模型的输出结果可以包括表单图片的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息等等，本实施例在此不做具体的限定。

在本实施例中，在通过表单数据处理模型对包含了图像素信息、文本位置信息和文本内容信息的多模态信息的处理过程中，多模态信息的特征表达是处理过程的一个重要环节。其中，多模态信息指的是具有多种不同来源或者形式的信息，例如，一种信息可以分别用视频、文本和语音进行表达，那么这三种形式的表达就是该信息的三种模态。在本实施例中，多模态信息是指表单图片中的图像素信息、文本位置信息和文本内容信息，多模态信息可以分别从不同的角度表达出表单图片的不同特征，并且，不同模态的特征之间相互关联，从而可以根据多模态信息间的关联性，高度还原表单图片的整体信息。本实施例采用自注意力机制对各种信息进行多模态信息的融合学习，这种基于自注意力机制的融合学习方式相较于基于单独一种信息的学习方式能够围绕多种信息之间的互补性，更好地进行特征的表达，从而提高表单数据处理模型的精确度。

104、对所述表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

其中，后处理过程是在表单图片的结构化处理结果的基础上，形成最终结构化表单数据的过程。结构化的表单数据是指将表单图片中的各种信息按照一定的分类和顺序进行排列，形成结构清晰、信息明确的表格结构的数据。

具体的，计算机设备可以将通过表单数据处理模型得到的各种表单图片的结构化处理结果，进行进一步的位置推定和信息排列处理，并按照表单列名和文本内容位置信息等信息，生成结构化的表单数据。在本实施例中，对表单图片的结构化处理结果进行表单数据后处理是表单识别中的最后一环，因而后处理的精确度也直接决定了表单识别结果的精确度，本实施例通过在表单数据处理模型的精准的输出结果基础上进行数据后处理，进一步提高了表单识别的准确度。

本实施例提供的基于自注意力机制的表单识别方法，首先通过文本检测和文本识别技术获取到表单图片的文本位置信息和文本内容信息，然后通过读取表单图片的像素值得到表单图片的图像素信息，最后根据图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型对表单图片进行结构化处理和数据后处理，得到结构化的表单数据。上述方法通过运用表单数据处理模型，能够使本方法同时适用于各种不同版面和不同格式的表单图片，有效的提高了表单自动化识别方法对于不同表单图片识别时的鲁棒性和适应性。此外，上述方法中的表单数据处理模型是基于自注意力机制的编码解码模型实现的，其中，自注意力机制可以对表单图片中的各类信息进行融合性的学习，从而学习到各类信息间的相互联系，而编码解码模型可以通过融合性的特征信息对表单图片中隐藏的信息进行准确的预测，因此，上述表单数据处理模型能够有效的提高表单图片自动化识别的准确度。

在一个实施例中，上述步骤101可以通过以下方法实现：首先，计算机设备可以从数据库中获取待识别的表单图片，然后对待识别表单图片进行文本检测，得到待识别表单图片中的所有文本框。进一步的，计算机设备可以通过对检测出的所有文本框进行文本识别，得到待识别表单图片中的所有文本位置信息和文本内容信息。在本实施例中，文本位置信息可以包括一维位置信息和二维位置信息，其中，一维位置信息是指将待识别表单图片中的文字按照一定顺序进行排列，每个文字所对应的序列号信息即为一维位置信息，如文本中的第一个文字的一维位置信息为1号，第二个文字的一维位置信息为2号等等；二维位置信息是指每个文字在待识别表单图片中的位置坐标信息，如，第一个文字的二维位置信息为(0，0)，第二个文字的二维位置信息为(0，1)等等。本实施例通过增加一维位置信息和二维位置信息，丰富了表单图片的文本位置信息表达，并且一维位置信息的表达更加简单直接，而二维位置信息的表达则更加的准确清晰，两者结合使用可以提高表单图片识别的效率同时也能够确保识别的准确度。此外，在本实施例中，文本检测可以采用基于文本分割的DBnet算法，文本识别可以采用CRNN+CTC算法，另外，文本检测和文本识别也可以采用其他现有技术中常用的算法，本实施例在此不做限定。

在一个实施例中，上述步骤102可以通过以下方式实现：首先，在读取表单图片中各个像素的像素值之前，可以按照预设的图片分割规则，对表单图片进行分割，得到多个表单图片模块，比如，可以将整个表单图片十字分割为四等份，得到左上区域表单图片模块、左下区域表单图片模块、右上区域表单图片模块和右下区域表单图片模块。另外，表单图片的分割数量和方式根据预设规则不同，可以得到不同的分割结果，例如，还可以将表单图片纵向分割为三等份等等，本实施例对图片分割规则不做具体的限定。然后，读取所有表单图片模块的各个像素的像素值，得到各个表单图片模块的图像素信息。在本实施例中，图像素信息中还包括每个表单图片模块的一维位置信息和二维位置信息。本实施例通过将表单图片进一步分割为多个表单图片模块，实现了对表单图片的图像素信息的更精准的定位，从而在后续基于自注意力机制的学习过程中能够更加精准的表达图像素信息、文本位置信息和文本内容信息之间的相互关系。

在一个实施例中，上述步骤103可以通过以下方式实现：首先，计算机设备可以对表单图片的图像素信息、文本位置信息和文本内容信息进行数据转换预处理，得到表单图片的特征向量组合。在本实施例中，表单图片的特征向量组合可以通过如下方式得到：首先对表单图片的图像素信息和文本内容信息进行分类编码，得到表单图片的分类编码信息，从而根据分类编码信息对图像素信息和文本内容信息进行区分。然后，分别对表单图片的图像素信息、文本位置信息、文本内容信息和分类编码信息进行数据转换，得到表单图片的图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量，进一步的，对图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量进行融合拼接，得到表单图片的特征向量组合。例如，如图2和图3所示，两幅图中输入部分中的“C”表示图像素信息的分类编码特征向量，“A”表示文本内容信息的分类编码特征向量，与分类编码特征向量拼接的是图特征向量中的一维位置特征向量和文本位置特征向量中的一维位置特征向量，接下来拼接的是图特征向量中的二维位置特征向量和文本位置特征向量中的二维位置特征向量，与二维位置特征向量进行拼接的是经分割得到的四个表单图片模块的图特征向量以及文本内容特征向量。

进一步的，计算机设备可以通过表单数据处理模型中的自注意力机制，对表单图片的特征向量组合进行预处理，得到表单图片的融合特征向量，在本实施例中，通过将表单图片的特征向量组合输入表单数据处理模型中，可以通过表单数据处理模型中的自注意力机制学习到特征向量组合中的多种特征向量间的相互关系，通过学习到的多种特征向量间的相互关系，即可得到表单图片的融合特征向量。最后，计算机设备可以根据表单图片的融合特征向量，通过表单数据处理模型中的编码解码网络，得到表单图片的结构化处理结果。在本实施例中，表单图片的结构化处理结果可以包括表单图片的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息等等。

在一个实施例中，上述步骤104可以通过以下方式实现：首先，根据表单图片的结构化处理结果，确定表单图片的起始坐标的文本内容信息、各个表单列名的文本内容信息和各个文本内容信息的至少两侧的文本位置信息，其次，根据起始坐标的文本内容信息和各个文本内容信息的至少两侧的文本位置信息，确定各个文本内容信息的坐标信息。最后，根据各个表单列名的文本内容信息和各个文本内容信息的坐标信息，生成结构化的表单数据。在本实施例中，文本内容信息的至少两侧的文本位置信息可以是文本内容信息右侧和下方的一维位置信息，也可以是文本内容信息左侧和上方的一维位置信息等等，本实施例对于文本位置信息不做具体的限定。具体的，首先根据表单数据处理模型的输出结果中的起始坐标判定结果找到表单的起始坐标，可以标注为坐标(0，0)；然后，根据表单数据处理模型的输出结果中的表单列名判定信息找到表单的列名，得到各个表单列名的文本内容信息；进一步的，根据表单数据处理模型的输出结果中的各个文本内容特征向量的右侧一维位置信息，并可以标注为坐标(0，1)、(0，2)等以此类推，然后，根据表单数据处理模型的输出结果中的各个文本内容特征向量的下方一维位置信息，定位出各个文本内容特征向量的位置，并可以标注为坐标(1，0)、(2，0)等以此类推，从而得到各个文本内容的坐标位置；最后根据各个表单列名的文本内容信息和各个文本内容信息的坐标信息，进行有序的排列组合，生成结构化的表单数据。

在一个具体的实施例中，表单数据处理模型的训练方法包括以下步骤：

首先，对大量不同版本并包含复杂内容的表单样本图片进行文本检测和文本识别，得到多个表单图片样本的图像素信息、文本位置信息和文本内容信息。其次，分别对各个所述表单图片样本的图像素信息、文本位置信息和文本内容信息，利用适用于图片、位置信息和内容信息的转换算法进行数据的转换，提取特征向量，得到各个表单图片样本的图特征向量、文本位置特征向量和文本内容特征向量，并且，对各个表单图片样本的图特征向量、文本位置特征向量和文本内容特征向量进行融合拼接，得到各个表单图片样本的特征向量组合。例如，如图2和图3所示，特征向量组合的拼接过程为首先将两幅图中的“C”代表的图像素信息的分类编码特征向量，和“A”代表的文本内容信息的分类编码特征向量，与图特征向量中的一维位置特征向量和文本位置特征向量中的一维位置特征向量进行拼接，然后将一维位置特征向量和图特征向量中的二维位置特征向量和文本位置特征向量中的二维位置特征向量进行拼接，接下来将二维位置特征向量与经分割得到的四个表单图片模块的图特征向量以及文本内容特征向量进行拼接，最终得到特征向量组合。

进一步的，以各个表单图片样本的特征向量组合为输入，以各个表单图片样本的图文匹配判断信息、文本涂黑判断信息和文本遮挡预测信息为输出，对基于自注意力机制的编码解码模型进行预训练，得到预训练的编码解码模型，预训练的示意图如图2所示。本实施例中，可以在将特征向量组和输入编码解码模型前，对各个表单图片样本的文本内容特征向量随机进行涂黑和遮挡，然后预测文本信息与图信息是否匹配、判断文本信息是否被涂黑，并预测遮挡的文本内容特征向量。在本实施例中，如图2所示，将每个表单图片样本进行十字等分，并对每个表单图片样本的分割结果进行编码，得到每个表单图片样本的表单图片模块的图像素信息V1、V2、V3和V4，并且，每个图像素信息包括样本表单图片模块的一维位置信息和二维位置信息，文本位置信息同样包括一维位置信息和二维位置信息。

图2中的预训练的表单数据处理模型是基于具有空间感知自注意力机制的编码解码模型，输入部分为融合了图特征向量、文本位置特征向量和文本内容特征向量以及分类编码特征向量的特征向量组合，输出部分为各个表单图片样本的图文匹配判断信息、文本涂黑判断信息和文本遮挡预测信息。例如，首先对各个表单图片样本的文本内容特征向量随机进行涂黑和遮挡，然后对各个表单图片样本的图特征向量、文本位置特征向量和文本内容特征向量以及分类编码特征向量进行融合拼接，得到各个表单图片样本的特征向量组合，并以所有的表单图片样本的特征向量组合为输入，进行图文匹配信息的判断，若判断结果为匹配，则输出matched，不匹配，则输出not matched；然后进行文本涂黑的判断，若判断结果为被涂黑，则输出covered，未被涂黑，则输出not covered；最后进行遮挡处的文本信息的预测，并输出预测结果。最终，通过对基于自注意力机制的编码解码模型的预训练，优化了模型的参数，得到了预训练的表单数据处理模型。

进一步的，以各个表单图片样本的特征向量组合为输入，以各个表单图片样本的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息为输出，对预训练的编码解码模型进行训练，得到表单数据处理模型，表单数据处理模型训练示意图如图3所示，图中，输入部分为表单图片的特征向量组合，输出部分分为四部分，分别为起始坐标判定信息(若是起始坐标，则输出True,若不是起始坐标，则输出False)、表单列名判定信息(若是表单列名，则输出True,若不是表单列名，则输出False)、各个文本内容特征向量右侧一维位置信息和各个文本内容特征向量下方一维位置信息。例如，首先将融合了图特征向量、文本位置特征向量和文本内容特征向量以及分类编码特征向量的特征向量组合输入到经过预训练的编码解码模型中，然后依据输出内容，对表单数据处理模型的训练过程设置第一任务、第二任务、第三任务和第四任务，其中，

第一任务是判断各个向量是否为表单起始坐标，若是起始坐标，则第一任务输出为True,若不是起始坐标，则第一任务输出为False；

第二任务是判断各个特征向量是否为表单列名，若是表单列名，则第二任务输出为True,若不是表单列名，则第二任务输出为False；

第三任务是预测各个文本内容特征向量右侧位置信息，第三任务输出为特征向量右侧的一维位置信息；

第四任务是预测各个文本内容特征向量下方位置信息，第四任务输出为特征向量下方的一维位置信息。

另外，对于第三任务和第四任务，也可以是预测各个文本内容特征向量左侧位置信息和上方位置信息，还可以是预测各个文本内容特征向量左侧位置信息和下方位置信息等等。最终，以四个任务的结果为输出，训练编码解码模型，得到表单数据处理模型。

在具体的实施例中，表单图片可以是医疗清单图片，其中，医疗清单图片是指对医疗清单采用拍照或扫描等方式形成的图片格式医疗清单，可以用于医保报销、缴费等情形中，医疗清单图片中可以包括药品名称、药品价格、报销人员姓名和年龄等详细信息。在本实施例中对医疗清单图片的自动识别，首先获取待识别的医疗清单图片，并对医疗清单图片进行文本检测和文本识别，得到医疗清单图片的文本位置信息和文本内容信息，然后，读取医疗清单图片中各个像素的像素值，得到医疗清单图片的图像素信息，进一步的，根据医疗清单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到医疗清单图片的结构化处理结果，最后，对医疗清单图片的结构化处理结果进行表单数据后处理，得到结构化的医疗清单数据。在医保异地报销业务场景中，常常需要对医疗清单明细进行手工录入，一般每个案件待录入的明细长达几十项，对于医保工作人员无疑是一项繁琐、耗时耗力的事务，通过本实施例中提供的基于自注意力机制的表单识别方法，可以节省录入人力，提升了医保异地报销的时效。

本实施例提供的基于自注意力机制的表单识别方法，通过对编码解码模型进行预训练，得到融合了多模态特征的融合特征向量，并通过自注意力机制的多模态特征融合学习得到更具相关性的特征向量，再根据融合特征向量对预训练的编码解码模型进行进一步的训练，从而得到了表单数据处理模型，进一步的提高了表单识别精确度。

进一步的，作为图1所示方法的具体实现，本实施例提供了一种基于自注意力机制的表单识别方法装置，如图4所示，该装置包括：文本信息获取模块21、图信息获取模块22、结构化处理模块23和数据后处理模块24。

文本信息获取模块21，可用于获取待识别的表单图片，并对表单图片进行文本检测和文本识别，得到表单图片的文本位置信息和文本内容信息；

图信息获取模块22，可用于读取表单图片中各个像素的像素值，得到表单图片的图像素信息；

结构化处理模块23，可用于根据表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到表单图片的结构化处理结果，其中，表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；

数据后处理模块24，可用于对表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

在具体的应用场景中，所述文本信息获取模块21，具体可用于对表单图片进行文本检测，得到所述表单图片中的文本框，然后，对文本框进行文本识别，得到表单图片的文本位置信息和文本内容信息，其中，文本位置信息包括一维位置信息和二维位置信息。

在具体的应用场景中，所述图信息获取模块22，具体可用于按照预设的图片分割规则，对表单图片进行分割，得到多个表单图片模块，然后读取每个所述表单图片模块的各个像素的像素值，得到每个表单图片模块的图像素信息，其中，所述图像素信息中还包括每个表单图片模块的一维位置信息和二维位置信息。

在具体的应用场景中，所述结构化处理模块23，具体可用于对表单图片的图像素信息、文本位置信息和文本内容信息进行数据转换预处理，得到表单图片的特征向量组合，然后，通过表单数据处理模型中的自注意力机制，对表单图片的特征向量组合进行预处理，得到表单图片的融合特征向量，进一步根据融合特征向量，通过表单数据处理模型，得到表单图片的结构化处理结果，其中，表单图片的结构化处理结果包括所述表单图片的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息。

在具体的应用场景中，所述所述结构化处理模块23，具体还可用于对表单图片的图像素信息和文本内容信息进行分类编码，得到表单图片的分类编码信息，然后分别对表单图片的图像素信息、文本位置信息、文本内容信息和分类编码信息进行数据转换，得到表单图片的图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量，进一步的，对所述图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量进行融合拼接，得到表单图片的特征向量组合。

在具体的应用场景中，所述数据后处理模块24，具体可用于根据表单图片的结构化处理结果，确定表单图片的起始坐标的文本内容信息、各个表单列名的文本内容信息和各个文本内容信息的至少两侧的文本位置信息，然后根据起始坐标的文本内容信息和各个文本内容信息的至少两侧的文本位置信息，确定各个文本内容信息的坐标信息，最后，根据各个表单列名的文本内容信息和各个文本内容信息的坐标信息，生成结构化的表单数据。

需要说明的是，本实施例提供的一种基于自注意力机制的表单识别装置所涉及各功能单元的其它相应描述，可以参考图1中的对应描述，在此不再赘述。

基于上述如图1所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1所示的基于自注意力机制的表单识别方法方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该待识别软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施场景所述的方法。

基于上述如图1所示的方法，以及图4所示的基于自注意力机制的表单识别装置实施例，为了实现上述目的，本实施例还提供了一种基于自注意力机制的表单识别方法的实体设备，具体可以为个人计算机、服务器、智能手机、平板电脑、智能手表、或者其它网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1所示的方法。

可选的，该实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency，RF)电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。

本领域技术人员可以理解，本实施例提供的一种基于自注意力机制的表单识别方法的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和待识别软件资源的程序，支持信息处理程序以及其它待识别软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与信息处理实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，首先，获取待识别的表单图片，并对表单图片进行文本检测和文本识别，得到表单图片的文本位置信息和文本内容信息，并且，读取表单图片中各个像素的像素值，得到表单图片的图像素信息，然后，根据表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到表单图片的结构化处理结果，其中，表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的，最后对表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。与现有技术相比，解决了现有技术中规则性的表单数据后处理方法在面对图片质量差或内容十分繁杂的表单图片时，鲁棒性较低，适应性较差的问题。并且，通过表单数据处理模型的运用，使得本方法能够适用于各种不同版面和不同格式的表单图片，提高了对不同表单图片的适应性。此外，本发明基于自注意力机制对图片信息、文字内容信息和文字位置信息进行学习，从而得到多模态信息间的紧密关系，并根据多模态信息间的相互关系精准地训练编码解码模型，得到表单数据处理模型，从而提高了表单图片自动识别的准确度。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种基于自注意力机制的表单识别方法，其特征在于，所述方法包括：

读取所述表单图片中各个像素的像素值，得到所述表单图片的图像素信息；

根据所述表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到所述表单图片的结构化处理结果，其中，所述表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；

对所述表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

2.根据权利要求1所述的方法，其特征在于，所述对所述表单图片进行文本检测和文本识别，得到所述表单图片的文本位置信息和文本内容信息，包括：

对所述表单图片进行文本检测，得到所述表单图片中的文本框；

对所述文本框进行文本识别，得到所述表单图片的文本位置信息和文本内容信息，其中，所述文本位置信息包括一维位置信息和二维位置信息。

3.根据权利要求1所述的方法，其特征在于，所述读取所述表单图片中各个像素的像素值，得到所述表单图片的图像素信息之前，所述方法还包括：

按照预设的图片分割规则，对所述表单图片进行分割，得到多个表单图片模块；

则所述读取所述表单图片中各个像素的像素值，得到所述表单图片的图像素信息，包括：

读取每个所述表单图片模块的各个像素的像素值，得到每个表单图片模块的图像素信息，其中，所述图像素信息中还包括每个表单图片模块的一维位置信息和二维位置信息。

4.根据权利要求1所述的方法，其特征在于，所述根据所述表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到所述表单图片的结构化处理结果，包括：

对所述表单图片的图像素信息、文本位置信息和文本内容信息进行数据转换预处理，得到所述表单图片的特征向量组合；

通过所述表单数据处理模型中的自注意力机制，对所述表单图片的特征向量组合进行预处理，得到所述表单图片的融合特征向量；

根据所述融合特征向量，通过所述表单数据处理模型，得到所述表单图片的结构化处理结果，其中，所述表单图片的结构化处理结果包括所述表单图片的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息。

5.根据权利要求4所述的方法，其特征在于，所述对所述表单图片的图像素信息、文本位置信息和文本内容信息进行数据转换预处理，得到所述表单图片的特征向量组合，包括：

对所述表单图片的图像素信息和文本内容信息进行分类编码，得到所述表单图片的分类编码信息；

分别对所述表单图片的图像素信息、文本位置信息、文本内容信息和分类编码信息进行数据转换，得到所述表单图片的图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量；

对所述图特征向量、文本位置特征向量、文本内容特征向量和分类编码特征向量进行融合拼接，得到所述表单图片的特征向量组合。

6.根据权利要求1所述的方法，其特征在于，所述对表单数据结构化处理结果进行表单数据后处理，得到结构化的表单数据，包括：

根据所述表单图片的结构化处理结果，确定所述表单图片的起始坐标的文本内容信息、各个表单列名的文本内容信息和各个文本内容信息的至少两侧的文本位置信息；

根据所述起始坐标的文本内容信息和各个文本内容信息的至少两侧的文本位置信息，确定各个文本内容信息的坐标信息；

根据所述各个表单列名的文本内容信息和所述各个文本内容信息的坐标信息，生成结构化的表单数据。

7.根据权利要求1至6任一项所述的方法，其特征在于，所述表单数据处理模型的训练方法包括：

获取多个表单图片样本的图像素信息、文本位置信息和文本内容信息；

分别对各个所述表单图片样本的图像素信息、文本位置信息和文本内容信息进行数据转换，得到所述各个表单图片样本的图特征向量、文本位置特征向量和文本内容特征向量；

对所述各个表单图片样本的图特征向量、文本位置特征向量和文本内容特征向量进行融合拼接，得到所述各个表单图片样本的特征向量组合；

以所述各个表单图片样本的特征向量组合为输入，以所述各个表单图片样本的图文匹配判断信息、文本涂黑判断信息和文本遮挡预测信息为输出，对基于自注意力机制的编码解码模型进行预训练，得到预训练的编码解码模型；

以所述各个表单图片样本的特征向量组合为输入，以所述各个表单图片样本的起始坐标判定信息、表单列名判定信息和至少两侧的文本位置信息为输出，对所述预训练的编码解码模型进行训练，得到表单数据处理模型。

8.一种基于自注意力机制的表单识别装置，其特征在于，所述装置包括：

文本信息获取模块，用于获取待识别的表单图片，并对所述表单图片进行文本检测和文本识别，得到所述表单图片的文本位置信息和文本内容信息；

图信息获取模块，用于读取所述表单图片中各个像素的像素值，得到所述表单图片的图像素信息；

结构化处理模块，用于根据所述表单图片的图像素信息、文本位置信息和文本内容信息，通过预训练的表单数据处理模型，得到所述表单图片的结构化处理结果，其中，所述表单数据处理模型是通过基于自注意力机制的编码解码模型训练得到的；

数据后处理模块，用于对所述表单图片的结构化处理结果进行表单数据后处理，得到结构化的表单数据。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。