CN114328679A

CN114328679A - 图像处理方法、装置、计算机设备以及存储介质

Info

Publication number: CN114328679A
Application number: CN202111232728.3A
Authority: CN
Inventors: 曹浩宇; 包志敏; 王斌; 刘银松; 姜德强
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-10-22
Filing date: 2021-10-22
Publication date: 2022-04-12

Abstract

本申请实施例公开了一种图像处理方法、装置、计算机设备以及存储介质。图像处理方法包括：获取待识别图像，对待识别图像进行字符识别处理，得到识别结果；其中，识别结果包括识别到的数据序列，数据序列包括字符序列、图像序列和位置序列中的一个或多个；基于数据序列的多模态特征序列对数据序列进行序列标注处理，得到数据序列中每个数据的结构化类别；根据数据序列和数据序列中每个数据的结构化类别，创建与待识别图像对应的结构化文档。采用本申请，可以提升将图片转换为结构化文档的效率和准确率。

Description

图像处理方法、装置、计算机设备以及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种图像处理方法、装置、计算机设备、存储介质以及计算机程序产品。

背景技术

现在越来越多的资源信息是以图像的方式进行存储，将图像中的字符转换为结构化文档有利于文档检索、文档分析、文本编辑以及以及其它智能化等服务。例如，将企业营业执照的照片转换为结构化文档，可以提升检索效率。

目前，是由人工将图像转换为结构化的文档，主要过程包括：人工定位字符区域，人工识别字符区域文字，人工输入文字以生成结构化文档。由人工将图像转换为结构化文档会导致效率低下，且易受主观因素影响，会降低准确性。

发明内容

本申请实施例提供一种图像处理方法、装置、计算机设备、存储介质以及计算机程序产品，可以提升将图片转换为结构化文档的效率和准确率。

本申请实施例一方面提供了一种图像处理方法，包括：

获取待识别图像，对所述待识别图像进行字符识别处理，得到识别结果；其中，所述识别结果包括识别到的数据序列，所述数据序列包括字符序列、图像序列和位置序列中的一个或多个，所述字符序列是所述待识别图像中的字符组成的序列，所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列，所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列；

基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别；

根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档。

本申请实施例一方面提供了一种图像处理装置，包括：

获取模块，用于获取待识别图像，对所述待识别图像进行字符识别处理，得到识别结果；其中，所述识别结果包括识别到的数据序列，所述数据序列包括字符序列、图像序列和位置序列中的一个或多个，所述字符序列是所述待识别图像中的字符组成的序列，所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列，所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列；

识别模块，用于基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别；

创建模块，用于根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档。

本申请实施例一方面提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机存储介质，计算机存储介质存储有计算机程序，计算机程序包括程序指令，程序指令当被处理器执行时，执行上述各实施例中的方法。

本申请实施例一方面提供了一种计算机程序产品，计算机程序产品包括计算机程序/计算机指令，计算机程序/计算机指令存储在计算机可读存储介质中，计算机程序/计算机指令被计算机设备的处理器执行时，执行上述各实施例中的方法。

本申请由终端设备自动将图像转换为结构化文档，不需要人工参与，可以提升将图像转换为结构化文档的效率，且终端设备自动执行，可以摒除主观因素的干扰，提升将图像转换为结构化文档的准确率；再有，多模态特征从多个维度来表征数据序列，可以提升结构化类别的识别准确性，进而提升成结构化文档的准确性；进一步地，通过识别数据序列中每个数据的结构化类别，进而生成结构化文档，不受字符在待识别图像中的排版限制，可以保证本申请在图像转结构化文档领域上的通用性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种图像处理的系统架构图；

图2是本申请实例提供的一种图像处理的场景示意图；

图3是本申请实施例提供的一种图像处理的示意图；

图4是本申请实施例提供的一种结构化类别的示意图；

图5是本申请实施例提供的一种基于图神经网络进行文档识别的示意图；

图6是本申请实施例提供的一种生成结构化文档的示意图；

图7是本申请实施例提供的一种图像处理的示意图；

图8是本申请实施例提供的一种图像处理的示意图；

图9是本申请实施例提供的一种训练多模态特征提取模型的流程示意图；

图10是本申请实施例提供的一种替换任务的示意图；

图11是本申请实施例提供的一种训练多模态特征提取模型的流程示意图；

图12是本申请实施例提供的一种匹配任务的示意图；

图13是本申请实施例提供的一种训练多模态特征提取模型的流程示意图；

图14是本申请实施例提供的一种分类任务的示意图；

图15是本申请实施例提供的一种图像处理装置的结构示意图；

图16是本申请实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

本申请涉及人工智能下属的计算机视觉技术(Computer Vision,CV)和自然语言处理(Nature Language processing,NLP)，具体涉及计算机视觉技术中的OCR(OpticalCharacter Recognition，光学字符识别)技术，和自然语言处理中的序列标注技术。

OCR技术是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程。序列标注技术是对序列中的每一个分量进行分类。

在本申请提出的将图像转换为结构化文档可以应用于将纸质文档进行电子化存储的场景；可以应用于将证照存储于信息数据库，以提升证照信息检索效率的场景；还可以应用于识别票据图像的关键信息的场景等。

请参见图1，是本发明实施例提供的一种图像处理的系统架构图。服务器10f通过交换机10e和通信总线10d与终端设备集群建立连接，终端设备集群可包括：终端设备10a、终端设备10b、...、终端设备10c。以终端设备10a为例，终端设备10a获取待识别图像，对待识别图像进行字符识别处理，得到识别结果，识别结果包括数据序列，数据序列包括字符序列、图像序列和位置序列中的一项或多项。终端设备10a基于数据序列的多模态特征序列对数据序列进行序列标注处理，得到数据序列中每个数据(字符和/或切片和/或位置)的结构化类别。根据结构化类别和数据序列创建待识别图像的结构化文档。

生成结构化文档的步骤也可以由服务器10f来执行，终端设备10a获取待识别图像，将待识别图像发送至服务器10f，服务器10f执行字符识别处理和序列标注处理，进而生成结构化文档。服务器10fa再将生成的结构化文档发送至终端设备10a，终端设备10a可以基于结构化文档进行后续操作，例如，文档检索，文档编辑等。

终端设备也可以称为终端(Terminal)、用户设备(user equinment,UE)、接入终端、用户单元、移动设备、用户终端、无线通信设备、用户代理或用户装置。终端设备可以是智能家电、具有无线通信功能的手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(personal computer,PC)、车载终端、智能语音交互设备、可穿戴设备或者其他智能装置等，但并不局限于此。

服务器10f可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。

下述以图2为例，具体说明如何将图像转换为结构化文档。请参见图2，其是本申请实例提供的一种图像处理的场景示意图。终端设备获取图像20a，对图像20a进行字符识别处理，得到字符序列20b、图像序列20c，以及位置序列20d。字符序列20b是图像20a中包含的字符组成的序列，图像序列20b是字符序列20b中每个字符在图像20a中的切片组成的序列，位置序列20c是字符序列20b中每个字符在图像20a中的位置组成的序列。总的来说，字符序列20b中的字符、图像序列20c中的图像以及位置序列20d中的位置是一一对应的。

终端设备对上述3个序列进行特征转换，首先将字符序列20b中的每个字符都转换为字符特征，此处可以使用预先训练好的词向量模型将每个字符转换为词向量，将转换后的词向量作为字符特征即可。

再将图像序列20c中的每张切片都转换为图像特征，此处可以使用预先训练好的图向量模型将每张切片转换为图向量，将转换后的图向量作为图像特征即可。可以基于大规模图像训练一个图像分类模型，图像分类模型包括隐藏层和输出层，将图像分类模型的隐藏层作为图向量模型。

最后将位置序列20d中的每个位置都转换为位置特征，可以将每个位置都进行标准化，将标准化后的位置作为位置特征即可。

将字符序列20b中的每个字符转换为字符特征，将图像序列20c中的每个图像转换为图像特征，将位置序列20b中的每个位置转换为位置特征的执行顺序没有限定。

终端设备将所有的字符特征组合为字符特征序列，将所有的图像特征组合为图像特征序列，将所有的位置特征组合为位置特征序列，将上述3个特征序列对位拼接，可以得到多模态特征序列，可以知道多模态特征序列中的每个多模态特征都是融合了字符特征、图像特征以及位置特征的。

终端设备将多模态特征序列依次输入训练好的标注模型，标注模型可以是RNN(Recurrent Neural Network，循环神经网络)结构，可以是LSTM(Long Short-TermMemory，长短期记忆网络)结构，也可以是Transformer等。标注模型输出每个多模态特征的结构化类别，结构化类别可以包括K(Key)类别和V(Vaule)类别，进一步地，K类别可以再细分为K-B(Begin)类别，K-I(Inner)类别和K-E(End)类别；同样地，V类别可以再细分为V-B类别，V-I类别和V-E类别。

当然，识别到的结构化类别也可以认为是字符、切片以及位置的结构化类别。

终端设备可以根据每个字符的结构化类别将字符序列20b划分为多个K字段和多个V字段，一个K字段中只包括一个K-B类别、一个K-E类别，一个V字段中只包括一个V-B类别、一个V-E类别。总的来说，就是将字符序列划分为多个结构化的字段，由于存在多个K字段和多个V字段，因此还需要对这多个K字段和多个V字段进行配对，得到多个K-V字段对。生成包含多个K-V字段对的文档20e，文档20e即是图像20a对应的结构化文档。终端设备可以按照一定的格式生成结构化文档，例如，一个K-V字段对就对应结构化文档的一行(或者一列)。

后续，用户可以基于生成的结构化文档20e作进一步的业务处理。例如，可以基于结构化文档20e进行文档检索，或者对结构化文档20e进行编辑，或者从结构化文档20e中抽取关键字段等。

其中，对待识别图像(如上述实施例中的图像20a)进行字符识别处理，得到识别结果(如上述实施例中的字符序列20b、图像序列20c和位置序列20e)，基于数据序列的多模态特征序列(如上述实施例中将字符特征序列、图像特征序列和位置特征序列拼接而成的多模态特征序列)对数据序列进行标注，得到结构化类别(如上述实施例中的K类别和V类别)，创建结构化文档(如上述实施例中的结构化文档20e)的具体过程可以参见下述图3-图14对应的实施例。

请参见图3，其是本申请实施例提供的一种图像处理的示意图，图像处理可以包括如下步骤：

步骤S101，获取待识别图像，对所述待识别图像进行字符识别处理，得到识别结果；其中，所述识别结果包括识别到的数据序列，所述数据序列包括字符序列、图像序列和位置序列中的一项或多项，所述字符序列是所述待识别图像中的字符组成的序列，所述图像序列是所述字符序列中的字符在所述待识别图像中的切片组成的序列，所述位置序列是所述字符序列中的字符在所述待识别图像中的位置组成序列。

具体的，终端设备获取待识别图像(如上述图2对应实施例中的图像20a)，对待识别图像进行字符识别处理，得到识别结果(如上述图2对应实施例中的字符序列20b、图像序列20c和位置序列20e)。

其中，识别结果包括识别到的数据序列，数据序列包括字符序列、图像序列和位置序列中的一项或多项。即，数据序列可以只包括字符序列，或者只包括图像序列，或者只包括位置序列；数据序列也可以包括字符序列和图像序列，或者包括字符序列和位置序列，或者包括图像序列和位置序列；数据序列还可以包括字符序列、图像序列和位置序列。

字符序列可以是待识别图像中的字符组成的序列，图像序列是字符序列中的每个字符在待识别图像中的切片组成的序列，位置序列是字符序列中的每个字符在待识别图像中的位置组成的序列。总的来说，字符序列可以中的字符、图像序列中的切片以及位置序列中的位置都是一一对应的。

字符序列的数量可以是1个或者多个，若是1个，那么此时字符序列中的字符就是待识别图像中的所有字符；若字符序列的数量是多个，那么一个字符序列可以对应待识别图像的一个段落，或者一行。当然，字符序列的数量＝图像序列的数量＝位置序列的数量，这多个字符序列、多个图像序列和多个位置序列是一一对应的，且一一对应的1个字符序列、1个图像序列和1个位置序列中的元素(字符、图像和位置)也是一一对应的。

下面对如何进行字符识别处理以得到数据序列的具体过程进行说明：

对待识别图像进行目标检测，目标检测的目的是找出待识别图像中的字符区域的位置以及识别出字符区域中的字符。将识别到的所有字符组合为原始文本(即原始文本包含待识别图像中的所有字符)，将识别到的位置组合为原始位置序列，原始位置序列是待识别图像中所有字符的在待识别图像中的位置组成的序列。当然，原始文本的字符数量＝原始位置序列的位置数量，且原始文本中字符和原始位置序列中的位置是一一对应的。

每个位置都包括字符区域的左上角坐标，右下角坐标，字符区域的长和字符区域的宽，字符区域是一个矩形区域。

终端设备从待识别图像中分别抽取原始位置序列中的每个位置对应的切片，将抽取的切片组合为原始图像序列，原始图像序列、原始文本和原始位置序列都是一一对应的。

终端设备根据原始位置序列，将原始文本划分为K个字符序列，一个字符序列对应一个段落，按照K个字符序列的划分方式，同样划分原始图像序列和原始位置序列，分别得到K个图像序列和K个位置序列。

举例来说，按照一个段落一个字符序列的原则，可以将原始文本划分为3个字符序列，原始文本中第1个字符至第5个字符是字符序列1，第6个字符至第15个字符是字符序列2，第16个字符至第20个字符是字符序列3；同样地，原始图像序列中的第1张切片至第5张切片是图像序列1，第6张切片至第15张切片是图像序列2，第16张切片至第20张切片是图像序列3；原始位置序列中的第1个位置至第5个位置是位置序列1，第6个位置至第15个位置是位置序列2，第16个位置至第20个位置是位置序列3。

步骤S102，基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别。

具体的，当数据序列包括字符序列、图像序列和位置序列中的多个序列时，就将数据序列包含的序列分别转换为特征序列，将多个特征序列对位拼接为数据序列的多模态特征序列。

字符序列转换得到的特征序列就是字符特征序列，图像序列转换得到的特征序列就是图像特征序列，位置序列转换得到的特征序列就是位置特征序列。其中，终端设备可以采用词向量模型将字符序列转换为字符特征序列，即调用词向量模型对字符序列中的每个字符进行编码，得到每个字符的字符特征，将所有字符特征进行拼接即可得到字符特征序列。

终端设备可以调用图向量模型将图像序列转换为图像特征序列，即调用图向量模型对图像序列中的每张切片进行编码，得到每张切片的图像特征，将所有图像特征进行拼接即可得到图像特征序列。或者，在进行目标识别时，可以获取到每张切片的区域特征，将该区域特征作为图像特征。

终端设备可以将位置序列中的每个位置进行标准化(L1标准化或L2标准化)，即可得到每个位置的位置特征。

例如，数据序列包括字符序列和图像序列，那么将字符序列转换为字符特征序列，将图像序列转换为图像特征序列，将这2个特征序列对位拼接为多模态特征序列。

总的来说，数据序列对应的数据模态，可以决定多模态特征的模态成分。若数据序列包括字符序列和图像序列，那么多模态特征序列中的多模态特征包含了字符特征和图像特征；若数据序列包括字符序列和位置序列，那么多模态特征包含了字符特征和位置特征；若数据序列包括图像序列和位置序列，那么多模态特征包含了图像特征和位置特征；若数据序列包括字符序列、图像序列和位置序列，那么多模态特征包含了字符特征、图像特征和位置特征。

当数据序列只包含字符序列，或者只包含图像序列，或者只包含位置序列时，终端设备可以获取数据序列的辅助序列，将数据序列转换为1个特征序列，将辅助序列转换为1个辅助特征序列，将特征序列和辅助特征序列对位拼接为数据序列的多模态特征序列。

例如，字符序列的辅助序列可以包括拼音组成的拼音序列，读音组成的音频序列等；图像序列的辅助序列可以包括频域图像序列(切片进行频域转换后的图像组成的序列)和时域图像序列(切片进行时域转换后的图像组成的序列)。

终端设备调用训练好的多模态特征提取模型对多模态特征序列进行编码，得到多模态结构化特征序列，一个多模态特征对应一个多模态结构化特征。多模态结构化特征序列是数据序列中的每个数据(每个字符和/或每张切片和/或每个位置)的多模态结构化特征所组成的序列。

终端设备再调用结构化类别识别模型对多模态结构化特征序列进行解码，得到数据序列中每个数据(每个字符和/或每张切片和/或每个位置)的结构化类别。结构化类别可以指示结构化信息，结构化类别可以具体包括键结构类别(如上述图2对应实施例中的K类别)和值结构类别(如上述图2对应实施例中的V类别)，键结构类别又可以包括键起始类别，键中间类别和键结束类别，值结构类别又可以包括值起始类别，值中间类别和值结束类别。

多模态特征提取模型和结构化类别识别模型可以是RNN结构，LSTM结构，Bert结构或者Transformer结构等。

进一步地，结构化类别还可以包括标题结构类别，注脚结构类别等。

请参见图4，图4是本申请实施例提供的一种结构化类别的示意图，结构化类别除了键结构类别和值结构类别外，还可以包括标题结构类别T，标题结构类别T同样可以细分为标题起始类别T-B，标题中间类别T-I和标题结束类别T-E。如图6所示，字符“驾”的结构化类别是标题起始类别T-B，字符“驶”的结构化类别是标题中间类别T-I，字符“证”的结构化类别是标题起始类别T-E。

结构化类别还可以包括注脚结构类别F，注脚结构类别F同样可以细分为注脚起始类别F-B，注脚中间类别F-I和注脚结束类别F-E。如图6所示，字符“车”的结构化类别是注脚起始类别F-B，字符“管”和字符“所”的结构化类别都是注脚中间类别F-I，字符“发”的结构化类别是注脚起始类别F-E。

步骤S103，根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档。

具体的，当数据序列至少包括字符序列时，由前述步骤可以确定字符序列中每个字符的结构化类别。

若字符序列的数量是多个(此时K大于1)，那么可以按照上述方式确定每个字符序列中每个字符的结构化类别。

终端设备可以根据K个字符序列中每个字符的结构化类别，将K个字符序列划分为N个键字段，一个键字段对应一个键起始类别和一个键结束类别。

例如，终端设备可以从字符序列的第一个字符开始遍历，找到第一个键起始类别，继续遍历找到第一个键结束类别，将第一个键起始类别和第一键结束类别之间的所有字符组合一个键字段；继续遍历，找到第二个键起始类别和第二个键结束类别，将第二个键起始类别和第二键结束类别之间的所有字符又组合为一个键字段。

同样地，终端设备可以根据字符序列中每个字符的结构化类别，将字符序列划分为N个值字段，一个值字段对应一个值起始类别和一个值结束类别。

这N个键字段和N个值字段是K个字符序列对应的键字段和值字段。

若结构化类别还包括其余类别，可以将属于同一个类别的字符组合为一个字段。例如，若结构化类别还包括标题结构类别，可以将属于标题结构类别的字符组合为标题字段；若结构化类别还包括注脚结构类别，可以将属于注脚结构类别的字符组合为注脚字段等。

至此，终端设备就获取到了N个键字段和N个值字段，还需要对这N个键字段和N个值字段配对，得到N个键值对，按照预设版式结构创建一个文档，该文档中包括这N个键值对，该文档即是待识别图像的结构化文档(如上述图2对应实施例中的20e)。当然，若还存在其余字段(例如，标题字段，注脚字段等)，同样可以将这些字段按照预设版式添加在结构化文档中。

例如，N个键值对排布在结构化文档中的中央，且一个键值对占据结构化文档的一行(或者一列)，标题字段排布在结构化文档的顶部，注脚字段排布在结构化文档的底部等。

对N个键字段和N个值字段配对的方式有多种，本申请采用图神经网络模型或者采用分类模型来进行配对，下面分别对这两种方式进行说明。

基于图神经网络模型进行配对的过程为：

终端设备根据N个键字段和N个值字段，构建拓扑图，拓扑图包括2N个节点，一个节点对应一个键字段或者一个值字段，将2N个节点中的任两个节点分别作为第一节点和第二节点，第一节点和第二节点之间的连接边权重是根据第一节点对应的字段和第二节点对应的字段在待识别图像中的距离确定的。每个节点还对应有节点特征，第一节点的节点特征是将第一节点对应的字段包含的所有字符的多模态结构化特征进行叠加后的特征。

可以采用下述公式(1)来计算第一节点和第二节点之间的连接边权重：

其中，h_max和w_max分别指待识别图像的高和宽，i和j分别指第一节点和第二节点，i_x和j_x分别指第一节点和第二节点对应字段在待识别图像中的横坐标，i_y和j_y分别指第一节点和第二节点对应字段在待识别图像中的纵坐标。

调用图神经网络对拓扑图进行匹配处理，得到第一节点和第二节点之间的关系类别。图神经网络的匹配过程即是在不改变节点的邻接关系前提下，仅通过对拓扑图的特征X(X是一个N×m的矩阵，N是拓扑图的节点数量，m是节点特征的维度)作为输入，得到输出Z(Z是一个N×F的矩阵，F是输出特征的维度)，用A表示拓扑图的邻接矩阵，图神经网络(GCN)通过多层卷积操作可以得到图中邻居的信息。比如对于一层的GCN，新的F维的顶点特征矩阵为：

D是拓扑图的度矩阵。

在本申请中，输出特征的维度F为N，每一行都表示一个节点与其余N-1个节点之间的匹配概率，若匹配概率大于预设概率阈值，那么可以认为这两个节点之间的关系类别为匹配关系类别。

若第一节点和第二节点之间的关系类别为匹配关系类别，那么将第一节点和第二节点对应的键字段和值字段组合为1个键值对。

综上，终端设备基于图神经网络模型可以匹配到N个键值对。

请参见图5，图5是本申请实施例提供的一种基于图神经网络进行文档识别的示意图，通过词组和文档之间的包含关系，构建出字符文档拓扑图，基于图神经网络的隐藏层可以提取出每个词组的特征表示和每个文档的特征表示，基于图神经网络的输出层识别出每个文档的类型。如图5所示，识别出文档1和文档2都是A类型，文档4是B类型。

基于分类模型进行配对的过程为：

将N个键字段和N个值字段组合为N²个字段组合，一个字段组合包括一个键字段和一个值字段。针对N²个字段组合中的任一字段组合(称为目标字段组合)，终端设备获取目标字段组合中键字段包含的所有字符的多模态结构化特征，将获取的多模态结构化特征叠加为目标字段组合中键字段的键字段特征，终端设备获取目标字段组合中值字段包含的所有字符的多模态结构化特征，将获取的多模态结构化特征叠加为目标字段组合中值字段的值字段特征。

终端设备将键字段特征和值字段特征拼接为目标字段组合的组合特征，将该组合特征输入训练好的分类模型中，分类模型对该组合特征进行分类处理，得到目标字段组合的匹配概率，若匹配概率大于预设的概率阈值，将目标字段组合作为键值对。

其余的字段组合可以采用相同的方式确定是否为键值对。

可选的，当数据序列不包括字符序列，且数据序列包括图像序列时，那么终端设备可以基于OCR技术识别出图像序列中每个切片的字符，同样，将切片对应的结构化类别也作为该切片对应字符的结构化类别。后续，可以参照上述方式，继续划分键字段、值字段，进而配对，生成结构化文档。

当数据序列不包括字符序列，也不包括图像序列，且数据序列只包括位置序列时，那么终端设备首先从待识别图像中抽取位置序列中每个位置对应的切片，组合为图像序列，终端设备再基于OCR技术识别出图像序列中每个切片包含的字符，同样，将位置对应的结构化类别作为该位置对应字符的结构化类别。后续，可以参照上述方式，继续划分键字段、值字段，进而配对，生成结构化文档。

请参见图6，图6是本申请实施例提供的一种生成结构化文档的示意图，如图6所示，首先对图像进行字符识别，得到文本(文本可以对应本申请的字符序列)、文本中每个字符的位置以及文本中每个字符在图像中的子图像(可以对应本申请中的切片)。终端设备将文本中的每个字符都转换为词向量，然后组合为字符特征序列。同样地，将每个子图像都转换为图像特征，然后将所有的图像特征组合为图像特征序列，将每个位置转换为位置特征，将所有的位置特征组合为位置特征序列。终端设备将上述字符特征序列、图像特征序列和位置特征序列对位拼接位多模态特征序列。将多模态特征序列输入到多模态特征提取模型中，提取出每个字符/每个子图像/每个位置的多模态结构化特征，将多模态结构化特征序列输入到结构化识别模型中，得到每个字符是K类别还是V类别。

其中，多模态特征提取模型是采用自监督模型预训练的，通过多个训练任务使得多模态特征提取模型可以是提取出结构化特征。

终端设备再根据每个字符是K类别还是V类别，将文本中的字符划分为K字段(可以对应本申请中的键字段)和V字段(可以对应本申请中的值字段)。通过K字段和V字段的配对，即可得到结构化文本。

请参见图7，图7是本申请实施例提供的一种图像处理的示意图，终端设备获取到待识别的图像后，进行KV字段提取，即是识别出图像中的K字段和V字段。具体过程是：对图像进行字符识别处理，得到图像包含的所有字符、包含字符的切片以及字符在图像中的位置。将上述数据都转换为特征，对位拼接为多模态特征序列。通过多模态特征提取模型和结构化类别识别模型对多模态特征序列进行识别，得到每个字符的是K类别还是V类别，进而将对应字符组合为K字段和V字段。KV字段匹配就是将多个K字段和多个V字段配对，将配对后的K字段和V字段按照预设版式进行成对输出，即可得到结构化文本。

请参见图8，图8是本申请实施例提供的一种图像处理的示意图，如图8所示，从图像中识别出字符、位置以及从图像中切分出切片，字符转换为字符特征，切片可以转换为图像特征，位置可以转换为位置特征。将字符特征、图像特征和位置特征对应进行拼接，即可得到多模态特征序列，图像特征可以是在识别字符过程中提取到的图像区域特征。将多模态特征序列输入至多模态特征提取模型，得到每个字符的多模态结构化特征表示。根据每个字符的多模态结构化特征表示，识别出每个字符的结构化类别。在通用结构化任务场景下，结构化类别包括键结构类别和值结构类别。在垂直场景结构化任务下，结构化类别还可以包括注脚结构类别，标题结构类别，ID结构类别等。终端设备根据每个字符的结构化类别，可以创建出图像的结构化文档。

上述可知，本申请将OCR结构化问题转换为序列标注问题，通过识别待识别图像中所有字符的结构化类别，进而创建结构化文档，不受字符在待识别图像中的排版限制，也不需要提前设置文档模板，可以提升通用性；再有，本申请通过图神经网络模型或者分类模型将字段进行配对，可以保证生成的结构化文档的准确性。

本申请中的多模态特征提取模型基于预训练任务训练的特征提取模型，预训练就是设计多个应用场景下的不同任务，每个任务都会对应一个模型，模型的特征提取部分是共有的，但特征识别部分是每个模型特有的。这样使得特征提取部分可以提取出通用性的特征，后续只需要利用目标应用场景下的少量样本进行微调，即可得到应用于某一个特定场景下的模型。

由于本申请训练模型是为了识别每个数据的结构化类别(即序列标注场景)，因此预训练完成后，在结构化类别的序列标注场景下进行少量样本的微调即可得到训练好的多模态特征提取模型和结构化类别识别模型，可以降低在序列标注场景下的样本需求量，且可以提升多模态特征提取模型的鲁棒性。

预训练任务可以包括替换任务、匹配任务和分类任务中的一个或多个，当预训练任务包括替换任务、匹配任务和分类任务中的多个时，在一次迭代过程中，可以只有1个任务参与(随机选择)，也可以多个任务一起参与，或者多个任务中的部分任务参与。

例如，预训练任务包括任务1和任务2，第一次迭代基于任务1进行，第二次迭代基于任务2进行；或者任意一次迭代都基于任务1+任务2进行。

替换任务是对第一模态样本序列进行数据替换处理，并根据第二模态样本序列预测处理后的第一模态样本序列中每个样本的替换结果(通俗来说，就是预测替换处理后的第一模态样本序列中的每一个样本是否被替换)。第一模态样本序列和第二模态样本序列是样本字符序列、样本图像序列和样本位置序列中的两个不同序列，且样本字符序列是第一模态样本序列或者第二模态样本序列(可以理解为样本字符序列必然会参与替换任务，样本图像序列和样本位置序列可以只有1个参与，也可能2个都参与)。替换任务可以实现语义和图像的对齐，或者实现语义和位置的对齐，或者既实现语义和图像的对齐也实现语义和位置的对齐。

样本字符序列、样本图像序列和样本位置序列是一一对应关系，即样本字符序列中的字符，样本图像序列中的切片和样本位置序列中的位置是来源于同一幅图像。

匹配任务是预测样本图像子序列和样本字符子序列之间的上下文关系，样本图像子序列是样本图像序列的子序列，样本字符序列是样本字符序列的子序列。匹配任务可以增强字段级多模态对齐。

分类任务是预测样本字符序列的文档类别(包括手写类别、信件类别、表单类别等)，分类任务可以通过文档级别的分类，以使得模型捕获更加全局的特征。

值得注意的是，替换任务、匹配任务和分类任务都自监督任务，在预训练过程中可以生成标签，自监督的方式可以扩大样本量，大量样本训练的多模态特征提取模型具有更优的特征提取能力。

请参见图9，图9是本申请实施例提供的一种训练多模态特征提取模型的流程示意图，本申请实施例主要描述如何基于替换任务训练多模态特征提取模型：

步骤S201，获取第一模态样本序列和第二模态样本序列，对所述第一模态样本序列进行替换处理，得到替换样本序列。

具体的，第一模态样本序列和第二模态样本序列是样本字符序列、样本图像序列和样本位置序列中的两个不同序列，且样本字符序列是第一模态样本序列或者第二模态样本序列。

终端设备将第一模态样本序列进行替换处理，将替换后的第一模样本序列作为替换样本序列，此处的替换可以将第一模态样本序列中的部分样本替换为其他同模态的数据，也可以将部分样本设置为空。例如，第一模态样本序列为样本字符序列，将样本字符序列中的部分字符替换为随机字符，得到替换样本序列。

步骤S202，将所述替换样本序列转换为替换特征序列，以及将所述第二模态样本序列转换为第二模态样本特征序列，将所述替换特征序列和所述第二模态样本特征序列对位拼接为第一样本多模态特征序列。

具体的，终端设备将替换样本本序列转换为替换特征序列，将第二模态样本序列转换为第二模态样本特征序列，此处的转换方式和前面获取字符特征序列、图像特征序列和位置特征序列的方式一样。

同样地，将替换特征序列和第二模态样本特征序列对位拼接为第一样本多模态特征序列。

步骤S203，调用所述多模态特征提取模型对所述第一样本多模态特征序列进行编码，得到第一样本结构化特征序列。

步骤S203，调用替换判别模型对所述第一样本结构化特征序列进行解码，得到预测替换结果序列。

具体的，预测替换结果序列是模型预测的替换样本序列中的每个样本是否被替换。

步骤S204，获取所述替换样本序列的替换结果标签序列，根据所述替换结果标签序列和所述预测替换结果序列训练所述多模态特征提取模型。

具体的，终端设备获取替换样本序列的替换结果标签序列(即真实替换结果)，根据替换结果标签序列和预测替换结果序列确定替换损失，根据替换损失可以调整多模态特征替换模型的模型参数。

由于第一模态样本序列和第二模态样本序列是样本字符序列、样本图像序列和样本位置序列中的两个不同序列，这有就可能存在多种组合。例如，第一模态样本序列是样本字符序列，第二模态样本序列是样本位置序列，或者第一模态样本序列是样本位置序列，第二模态样本序列是样本字符序列，或者第一模态样本序列是样本图像序列，第二模态样本序列是样本字符序列等等。

终端设备可以根据业务要求选择出一个或多个目标组合参与训练，每一个目标组合都可以确定一个替换损失，可以将所有的替换损失进行叠加，以得到替换总损失，再基于替换总损失调整多模态特征替换模型的模型参数。

例如，第一模态样本序列为样本字符序列，第二模态样本序列是样本位置序列，这种组合可以确定一个损失；第一模态样本序列为样本图像序列，第二模态样本序列是样本字符序列，这种组合又可以确定一个损失，将这两个损失进行叠加，由叠加后的损失训练多模态特征替换模型。

需要说明的是，参与训练的样本的模态成分会直接决定多模态特征的模态成分，也会决定数据序列中包含哪些序列，这是因为训练过程中多模态特征提取模型处理样本的模态，和模型使用过程中多模态特征提取模型处理数据(即是多模态特征序列)的模态是一致的。

若只有样本位置序列不参与训练，那么数据序列包括字符序列和图像序列；若只有样本图像序列不参与训练，那么数据序列包括字符序列和位置序列；若样本字符序列、样本图像序列和样本位置序列都要参与训练，那么数据序列包括字符序列、图像序列和位置序列。

请参见图10，图10是本申请实施例提供的一种替换任务的示意图。在自然语言处理领域中的Bert模型中，Bert模型也是通过预训练得到的，具体如图10所示，Bert模型的预训练包括掩模任务，具体来说，通过遮蔽部分字符，让模型预测被遮蔽的字符，在图10中，掩模方式1就是将字符串“身份证号码”中的“份”和“号”进行遮蔽，模型预测被遮蔽部分的字符。掩模方式2是将字符串“身份证号码”中的“身”和“份”进行遮蔽，模型预测被遮蔽部分的字符。

多模态特征提取模型的预训练任务包含的替换任务可以再细分为字符替换任务和图像替换任务，字符替换任务可以是保留样本位置序列，替换样本字符序列中的字符，让多模态特征提取模型+替换判别模型预测替换后的样本字符序列中的字符是否被替换。字符替换任务可以使语义和结构(即位置)对齐。图像替换任务可以是保留样本字符序列，替换样本图像序列中的图像，让多模态特征提取模型+关系判别模型预测替换后的样本图像序列中的图像是否被替换。图像替换任务可以使语义和图像对齐。

请参见图11，图11是本申请实施例提供的一种训练多模态特征提取模型的流程示意图，本实施例主要描述如何基于匹配任务训练多模态特征提取模型：

步骤S301，获取样本图像序列，从所述样本图像序列中抽取样本图像子序列，获取样本字符序列，从所述样本字符序列中抽取样本字符子序列。

具体的，终端设备获取样本图像序列，从样本图像序列中抽取连续的多个图像，作为样本图像子序列。终端设备获取样本字符序列，从样本字符序列中抽取连续的多个字符，作为样本字符子序列。

步骤S302，将所述样本图像子序列转为样本图像特征子序列，并将所述样本字符子序列的样本字符特征子序列，将所述样本图像特征子序列和所述样本字符特征子序列对位拼接为第二样本多模态特征序列。

此处的转换方式和前面获取字符特征序列、图像特征序列和位置特征序列的方式一样。

步骤S303，调用所述多模态特征提取模型对所述第二样本多模态特征序列进行编码，得到第二样本结构化特征序列。

步骤S304，调用关系判别模型对所述第二样本结构化特征序列进行解码，得到预测上下文关系。

具体的，预测上下文关系即是模型预测出样本字符子序列和样本图像子序列之间的上下文关系，预测上下文关系包括上下文匹配关系和上下文不匹配关系。

步骤S305，获取所述样本图像子序列和所述样本字符子序列之间的上下文关系标签，根据所述预测上下文关系和所述上下文关系标签训练所述多模态特征提取模型。

具体的，上下文关系标签即是样本字符子序列和样本图像子序列之间的真实的上下文关系，根据上下文关系标签和模型预测的预测上下文关系确定匹配损失，基于这个匹配损失调整多模态特征替换模型的模型参数。

请参见图12，图12是本申请实施例提供的一种匹配任务的示意图，从样本图像序列中随机采样，从样本字符序列中随机采样。将随机采样得到的图像转换为图像特征，进而拼接为样本图像特征序列。将随机采样得到的字符转换为字符特征，也拼接为样本字符特征序列，将样本图像特征序列和样本字符特征序列输入至多模态特征提取模型(假设多模态特征提取模型需要输入3种模态的特征(字符特征、图像特征和位置特征)，若输入数据只有1种模态特征，将其余2种模态特征设为空)，以提取出输入图像的多模态结构化特征以及输入字符的多模态结构化特征。通过关系判别模型对多模态结构特征序列进行识别，得到字符和图像的上下文关系R。进而由预测的上下文关系和真实的上下文关系训练多模态特征提取模型。

请参见图13，图13是本申请实施例提供的一种训练多模态特征提取模型的流程示意图，本实施例主要描述如何基于分类任务训练多模态特征提取模型：

步骤S401，获取样本字符序列，将所述样本字符序列转换为样本字符特征序列。

具体的，终端设备获取样本字符序列，调用词向量模型将样本字符序列中的每个字符都转换为词向量，将转换后的词向量组合为样本字符特征序列。

步骤S402，调用所述多模态特征提取模型对所述样本字符特征序列进行编码，得到第三样本结构化特征序列。

步骤S403，调用类型判别模型对所述第三样本结构化特征序列进行解码，得到预测类别。

其中，预测类别即是模型预测出来的样本字符序列所属的文档类别。

步骤S404，获取所述样本字符序列的类别标签，根据所述预测类别和所述类别标签训练所述多模态特征提取模型。

其中，样本字符序列的类别标签是样本字符序列的真实类别，根据该类别标签和模型预测的预测类别确定分类损失，基于这个分类损失调整多模态特征替换模型的模型参数。

请参见图14，图14是本申请实施例提供的一种分类任务的示意图，将文档中的字符序列转换为字符特征，输入至多模态特征提取模型中，假设多模态特征提取模型需要输入3种模态的特征(字符特征、图像特征和位置特征)，由于只有字符模态的特征，将其余2种模态的特征设为空。多模态特征提取模型提取出每个字符的多模态结构化特征，类别判别模型对多模态结构化特征进行识别，得到预测文档类别C，根据预测文档类别C和真实文档类别训练多模态特征提取模型。

上述可知，本申请中的多模态特征提取模型是基于预训练任务所训练的，在结构化类别的序列标注场景下进行少量样本的微调即可得对多模态特征提取模型训练完成，可以降低在序列标注场景下的样本需求量，且可以提升多模态特征提取模型的鲁棒性。

进一步的，请参见图15，其是本申请实施例提供的一种图像处理装置的结构示意图。如图15所示，图像处理装置1可以应用于上述图3-图14对应实施例中的终端设备。具体的，图像处理装置1可以是运行于计算机设备中的一个计算机程序(包括程序代码)，例如该图像处理装置1为一个应用软件；该图像处理装置1可以用于执行本申请实施例提供的方法中的相应步骤。

图像处理装置1可以包括：获取模块11、识别模块12和创建模块13。

获取模块11，用于获取待识别图像，对所述待识别图像进行字符识别处理，得到识别结果；其中，所述识别结果包括识别到的数据序列，所述数据序列包括字符序列、图像序列和位置序列中的一个或多个，所述字符序列是所述待识别图像中的字符组成的序列，所述图像序列是所述字符序列中的每个字符在所述待识别图像中的切片组成的序列，所述位置序列是所述字符序列中的每个字符在所述待识别图像中的位置组成序列；

识别模块12，用于基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别；

创建模块13，用于根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档。

在一种可能的实施方式中，当所述数据序列包括字符序列、图像序列和位置序列中的多个时，所述识别模块12在用于基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别时，具体用于：

将所述数据序列包含的多个序列分别转为特征序列，并将多个特征序列对位拼接为所述数据序列的多模态特征序列；

调用多模态特征提取模型对所述多模态特征序列进行编码，得到多模态结构化特征序列；

调用结构化类别识别模型对所述多模态结构化特征序列进行解码，得到所述数据序列中每个数据的结构化类别。

在一种可能的实施方式中，所述多模态特征提取模型是基于预训练任务所训练的特征提取模型，所述预训练任务包括替换任务、匹配任务和分类任务中的一个或多个；

所述替换任务是对第一模态样本序列进行数据替换处理，并根据第二模态样本序列预测处理后的第一模态样本序列中每个样本的替换结果，所述第一模态样本序列和所述第二模态样本序列是样本图像序列、样本字符序列和样本位置序列中的两个不同序列，所述样本字符序列是第一模态样本序列或第二模态样本序列；

所述匹配任务是预测样本图像子序列和样本字符子序列之间的上下文关系，所述样本图像子序列是所述样本图像序列的子序列，所述样本字符子序列是所述样本字符序列的子序列；

所述分类任务是预测所述样本字符序列的文档类别，所述样本图像序列、所述样本字符序列和所述样本位置序列之间均具有对应关系。

在一种可能的实施方式中，图像处理装置1还可以包括：第一训练模块14。

第一训练模块14，用于获取第一模态样本序列和第二模态样本序列，对所述第一模态样本序列进行替换处理，得到替换样本序列；

第一训练模块14，还用于将所述替换样本序列转换为替换特征序列，以及将所述第二模态样本序列转换为第二模态样本特征序列，将所述替换特征序列和所述第二模态样本特征序列对位拼接为第一样本多模态特征序列；

第一训练模块14，还用于调用所述多模态特征提取模型对所述第一样本多模态特征序列进行编码，得到第一样本结构化特征序列；

第一训练模块14，还用于调用替换判别模型对所述第一样本结构化特征序列进行解码，得到预测替换结果序列；

第一训练模块14，还用于获取所述替换样本序列的替换结果标签序列，根据所述替换结果标签序列和所述预测替换结果序列训练所述多模态特征提取模型。

在一种可能的实施方式中，图像处理模块还可以包括：第二训练模块15。

第二训练模块15，用于获取样本图像序列，从所述样本图像序列中抽取样本图像子序列；

第二训练模块15，还用于获取样本字符序列，从所述样本字符序列中抽取样本字符子序列；

第二训练模块15，还用于将所述样本图像子序列转为样本图像特征子序列，并将所述样本字符子序列的样本字符特征子序列，将所述样本图像特征子序列和所述样本字符特征子序列对位拼接为第二样本多模态特征序列；

第二训练模块15，还用于调用所述多模态特征提取模型对所述第二样本多模态特征序列进行编码，得到第二样本结构化特征序列；

第二训练模块15，还用于调用关系判别模型对所述第二样本结构化特征序列进行解码，得到预测上下文关系；

第二训练模块15，还用于获取所述样本图像子序列和所述样本字符子序列之间的上下文关系标签，根据所述预测上下文关系和所述上下文关系标签训练所述多模态特征提取模型。

在一种可能的实施方式中，图像处理装置1还可以包括：第三训练模块16。

第三训练模块16，用于获取样本字符序列，将所述样本字符序列转换为样本字符特征序列；

第三训练模块16，还用于调用所述多模态特征提取模型对所述样本字符特征序列进行编码，得到第三样本结构化特征序列；

第三训练模块16，还用于调用类型判别模型对所述第三样本结构化特征序列进行解码，得到预测类别；

第三训练模块16，还用于获取所述样本字符序列的类别标签，根据所述预测类别和所述类别标签训练所述多模态特征提取模型。

在一种可能的实施方式中，所述结构化类别包括键结构类别和值结构类别，当所述数据序列至少包括字符序列时，所述创建模块13在用于根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档时，具体用于：

将属于所述键结构类别的字符组合为键字段，将属于所述值结构类别的字符组合为值字段，所述键字段的数量和所述值字段的数量均为N，N是大于1的整数；

将N个键字段和N个值字段进行配对，得到N个键值对，创建包含所述N个键值对的所述结构化文档。

在一种可能的实施方式中，所述键结构类别包括键起始类别和键结束类别；

所述创建模块13在用于将属于所述键结构类别的字符组合为键字段时，具体用于：

根据每个字符的结构化类别，将所述字符序列划分为N个键字段，一个键字段包括一个键起始类别以及一个键结束类别。

在一种可能的实施方式中，所述创建模块13在用于将N个键字段和N个值字段进行配对，得到N个键值对时，具体用于：

根据N个键字段和N个值字段，构建拓扑图，其中，所述拓扑图包括2N个节点，一个节点对应一个键字段或一个值字段，第一节点和第二节点之间的连接边权重是根据所述第一节点和所述第二节点在所述待识别图像中的距离确定的，所述第一节点和所述第二节点是2N个节点中的两个不同节点，每个节点对应有节点特征，所述第一节点的节点特征是将第一节点对应的字段包含的所有字符的多模态结构化特征进行叠加后的特征；

调用图神经网络模型对所述拓扑图进行匹配处理，得到所述第一节点和所述第二节点之间的关系类别；所述关系类别包括匹配关系类别；

若所述第一节点和所述第二节点之间的关系类别为匹配关系类别，则将所述第一节点和所述第二节点对应的键字段和值字段组合为键值对。

在一种可能的实施方式中，创建模块13在用于将N个键字段和N个值字段进行配对，得到N个键值对时，具体用于：

将N个键字段和N个值字段划分为N²个字段组合，每个字段组合包括一个键字段和一个值字段；

获取目标字段组合中键字段的键字段特征，并获取目标字段组合中值字段的值字段特征，其中，目标字段组合是N2个字段组合中的任一字段组合，所述键字段特征是将目标字段组合中键字段包含的所有字符的多模态结构化特征进行叠加后的特征，所述值字段特征是将目标字段组合中值字段包含的所有字符的多模态结构化特征进行叠加后的特征；

将所述键字段特征和所述值字段特征拼接为所述目标字段组合的组合特征，调用分类模型对所述目组合特征进行分类处理，得到所述目标字段组合的匹配概率；

若所述匹配概率大于概率阈值，则将所述目标字段组合作为键值对。

在一种可能的实施方式中，当所述数据序列包括字符序列、图像序列和位置序列，且所述字符序列的数量、所述图像序列的数量和位置序列的数量均为K时，K是正整数，所述获取模块11在用于对所述待识别图像进行字符识别处理，得到识别结果时，具体用于：

对所述待识别图像进行目标检测，得到原始文本和原始位置序列，所述原始文本是所述待识别图像中的所有字符组成的文本，所述原始位置序列是所述待识别图像中的所有字符在所述待识别图像中的位置组成的序列；

从所述待识别图像中抽取所述原始位置序列对应的切片，将抽取的切片组合为原始图像序列；

将所述原始文本划分为K个字符序列，一个字符序列对应一个段落；

根据K个字符序列将所述原始图像序列划分为K个图像序列，以及将所述原始位置序列划分为K个位置序列。

根据本发明的实施例，图3-图14所示的方法所涉及的各个步骤均可以是由图15所示的图像处理装置中的各个模块来执行的。例如，图3中所示的步骤S101-S103可以分别由图15中所示的获取模块11、识别模块12和创建模块13来执行；又如，图9中所示的步骤S201-步骤S205可以由图15中所示的第一训练模块14来执行，图11中所示的步骤S301-步骤S305可以由图15中所示的第二训练模块15来执行、图13中所示的步骤S401-步骤S404可以由图15中所示的第三训练模块15来执行。

进一步地，请参见图16，是本申请实施例提供的一种计算机设备的结构示意图。上述图3-图14对应实施例中的终端设备可以为计算机设备1000。如图16所示，计算机设备1000可以包括：用户接口1002、处理器1004、编码器1006以及存储器1008。信号接收器1016用于经由蜂窝接口1010、WIFI接口1012、...、或NFC接口1014接收或者发送数据。编码器1006将接收到的数据编码为计算机处理的数据格式。存储器1008中存储有计算机程序，处理器1004被设置为通过计算机程序执行上述任一项方法实施例中的步骤。存储器1008可包括易失性存储器(例如，动态随机存取存储器DRAM)，还可以包括非易失性存储器(例如，一次性可编程只读存储器OTPROM)。在一些实例中，存储器1008可进一步包括相对于处理器1004远程设置的存储器，这些远程存储器可以通过网络连接至计算机设备1000。用户接口1002可以包括：键盘1018和显示器1020。

在图16所示的计算机设备1000中，处理器1004可以用于调用存储器1008中存储计算机程序，以实现：

在一个实施例中，当所述数据序列包括字符序列、图像序列和位置序列中的多个时，处理器1004在执行基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别时，具体执行以下步骤：

在一个实施例中，所述多模态特征提取模型是基于预训练任务所训练的特征提取模型，所述预训练任务包括替换任务、匹配任务和分类任务中的一个或多个；

在一个实施例中，处理器1004还执行以下步骤：

获取第一模态样本序列和第二模态样本序列，对所述第一模态样本序列进行替换处理，得到替换样本序列；

将所述替换样本序列转换为替换特征序列，以及将所述第二模态样本序列转换为第二模态样本特征序列，将所述替换特征序列和所述第二模态样本特征序列对位拼接为第一样本多模态特征序列；

调用所述多模态特征提取模型对所述第一样本多模态特征序列进行编码，得到第一样本结构化特征序列；

调用替换判别模型对所述第一样本结构化特征序列进行解码，得到预测替换结果序列；

获取所述替换样本序列的替换结果标签序列，根据所述替换结果标签序列和所述预测替换结果序列训练所述多模态特征提取模型。

在一个实施例中，处理器1004还执行以下步骤：

获取样本图像序列，从所述样本图像序列中抽取样本图像子序列；

获取样本字符序列，从所述样本字符序列中抽取样本字符子序列；

将所述样本图像子序列转为样本图像特征子序列，并将所述样本字符子序列的样本字符特征子序列，将所述样本图像特征子序列和所述样本字符特征子序列对位拼接为第二样本多模态特征序列；

调用所述多模态特征提取模型对所述第二样本多模态特征序列进行编码，得到第二样本结构化特征序列；

调用关系判别模型对所述第二样本结构化特征序列进行解码，得到预测上下文关系；

获取所述样本图像子序列和所述样本字符子序列之间的上下文关系标签，根据所述预测上下文关系和所述上下文关系标签训练所述多模态特征提取模型。

在一个实施例中，处理器1004还执行以下步骤：

获取样本字符序列，将所述样本字符序列转换为样本字符特征序列；

调用所述多模态特征提取模型对所述样本字符特征序列进行编码，得到第三样本结构化特征序列；

调用类型判别模型对所述第三样本结构化特征序列进行解码，得到预测类别；

获取所述样本字符序列的类别标签，根据所述预测类别和所述类别标签训练所述多模态特征提取模型。

在一个实施例中，所述结构化类别包括键结构类别和值结构类别，当所述数据序列至少包括字符序列时，处理器1004在执行根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档时，具体执行以下步骤：

在一个实施例中，所述键结构类别包括键起始类别和键结束类别；

处理器1004在执行将属于所述键结构类别的字符组合为键字段时，具体执行以下步骤：

在一个实施例中，处理器1004在执行将N个键字段和N个值字段进行配对，得到N个键值对时，具体执行以下步骤：

在一个实施例中，当所述数据序列包括字符序列、图像序列和位置序列，且所述字符序列的数量、所述图像序列的数量和位置序列的数量均为K时，K是正整数，处理器1004在执行对所述待识别图像进行字符识别处理，得到识别结果时，具体执行以下步骤：

应当理解，本申请实施例中所描述的计算机设备1000可执行前文图3-图14所对应实施例中对图像处理方法的描述，也可执行前文图15所对应实施例中对图像处理装置1的描述，在此不再赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。

此外，这里需要指出的是：本申请实施例还提供了一种计算机存储介质，且计算机存储介质中存储有前文提及的图像处理装置1所执行的计算机程序，且计算机程序包括程序指令，当处理器执行程序指令时，能够执行前文图3-图14所对应实施例中对图像处理方法的描述，因此，这里将不再进行赘述。另外，对采用相同方法的有益效果描述，也不再进行赘述。对于本申请所涉及的计算机存储介质实施例中未披露的技术细节，请参照本申请方法实施例的描述。作为示例，程序指令可以被部署在一个计算机设备上执行，或者在位于一个地点的多个计算机设备上执行，又或者，分布在多个地点且通过通信网络互联的多个计算机设备上执行，分布在多个地点且通过通信网络互联的多个计算机设备可以组合为区块链网络。

根据本申请的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备可以执行前文图3到图14所对应实施例中的方法，因此，这里将不再进行赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，上述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种图像处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，当所述数据序列包括字符序列、图像序列和位置序列中的多个时，所述基于所述数据序列的多模态特征序列对所述数据序列进行序列标注处理，得到所述数据序列中每个数据的结构化类别，包括：

3.根据权利要求2所述的方法，其特征在于，所述多模态特征提取模型是基于预训练任务所训练的特征提取模型，所述预训练任务包括替换任务、匹配任务和分类任务中的一个或多个；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的方法，其特征在于，所述方法还包括：

6.根据权利要求3所述的方法，其特征在于，所述方法还包括：

7.根据权利要求2所述的方法，其特征在于，所述结构化类别包括键结构类别和值结构类别，当所述数据序列至少包括字符序列时，所述根据所述数据序列和所述数据序列中每个数据的结构化类别，创建与所述待识别图像对应的结构化文档，包括：

8.根据权利要求7所述的方法，其特征在于，所述键结构类别包括键起始类别和键结束类别；

所述将属于所述键结构类别的字符组合为键字段，包括：

9.根据权利要求7所述的方法，其特征在于，所述将N个键字段和N个值字段进行配对，得到N个键值对，包括：

10.根据权利要求7所述的方法，其特征在于，所述将N个键字段和N个值字段进行配对，得到N个键值对，包括：

11.根据权利要求1所述的方法，其特征在于，当所述数据序列包括字符序列、图像序列和位置序列，且所述字符序列的数量、所述图像序列的数量和位置序列的数量均为K时，K是正整数，所述对所述待识别图像进行字符识别处理，得到识别结果，包括：

12.一种图像处理装置，其特征在于，包括：

13.一种计算机设备，其特征在于，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行权利要求1-11中任一项所述方法的步骤。

14.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令被处理器执行时，使得具有所述处理器的计算机设备执行权利要求1-11任一项所述方法的步骤。

15.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求1-11任一项所述方法的步骤。