CN114898388A

CN114898388A - 文档图片分类方法、装置、存储介质及电子设备

Info

Publication number: CN114898388A
Application number: CN202210312174.6A
Authority: CN
Inventors: 夏伯谦; 王洪彬
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-03-28
Filing date: 2022-03-28
Publication date: 2022-08-12
Anticipated expiration: 2042-03-28
Also published as: CN114898388B

Abstract

本说明书实施例公开了一种文档图片分类方法、装置、存储介质及电子设备，通过不同的分割单元获取每个分割单元对应的文本信息，以及文本信息对应的图像信息，将上述多个文本信息和多个图像信息作为至少两种模态的信息进行编码融合，从而实现对文档图片的理解和分类，也即利用不同的分割单元对应不同的模态信息实现信息之间互补，从而完成对文档图片的理解和分类。

Description

文档图片分类方法、装置、存储介质及电子设备

技术领域

本说明书涉及自然语言处理领域，尤其涉及一种文档图片分类方法、装置、存储介质及电子设备。

背景技术

文档图片为包括多个文字的图片，文档图片分类技术是指根据预先设定的类别，运用自然语言处理方法将文本归类的技术。文档图片分类技术作为自然语言处理的基本技术，广泛应用各类数据挖掘、文本处理等领域。在数字化时代，对文本的分类整理是众多企业的一大痛点。例如，医院每天会接收海量文本数据，该文本数据囊括了病情单、缴费单、药物明细单、CT片等类型。

发明内容

本说明书实施例提供了一种文档图片分类方法、装置、存储介质及电子设备，可以实现对文档图片分类的自动化，提高文档图片分类整理的准确性。所述技术方案如下：

第一方面，本说明书实施例提供了一种文档图片分类方法，所述方法包括：

以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息；

以第二分割单元对所述目标文档图片进行分割，得到N个第二文本信息以及所述N个第二文本信息各自对应的第二图像信息；所述N小于M，每个所述第二文本信息包括多个所述第一文本信息；

分别对每个所述第二文本信息、所述第二文本信息对应的所述第二图像信息及第一编码信息进行处理，得到N个第二编码信息；其中，所述第一编码信息为所述第二文本信息对应的多个所述第一文本信息、所述多个所述第一文本信息对应的第一图像信息编码得到；

根据所述N个第二编码信息确定所述目标文档图片的分类信息。

第二方面，本说明书实施例提供了一种文档图片分类装置，所述装置包括：

第一分割模块，用于以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息；

第二分割模块，用于以第二分割单元对所述目标文档图片进行分割，得到N个第二文本信息以及所述N个第二文本信息各自对应的第二图像信息；所述N小于M，每个所述第二文本信息包括多个所述第一文本信息；

获取编码模块，用于分别对每个所述第二文本信息、所述第二文本信息对应的所述第二图像信息及第一编码信息进行处理，得到N个第二编码信息；其中，所述第一编码信息为所述第二文本信息对应的多个所述第一文本信息、所述多个所述第一文本信息对应的第一图像信息编码得到；

获取分类模块，用于根据所述N个第二编码信息确定所述目标文档图片的分类信息。

第三方面，本说明书实施例提供一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本说明书实施例提供一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本说明书一些实施例提供的技术方案带来的有益效果至少包括：

本说明书实施例通过不同的分割单元获取每个分割单元对应的文本信息，以及文本信息对应的图像信息，将上述多个文本信息和多个图像信息作为至少两种模态的信息进行编码融合，从而实现对文档图片的理解和分类，相较于相关技术中仅通过单一模态的信息对文档图片进行分类的技术，本说明书实施例中利用丰富的分割单元对应的丰富的模态信息之间的互补提高了对文档图片理解和分类的准确率，鲁棒性较好，更好地满足复杂的使用环境中对文档图片的分类需求。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1A-图1C是本说明书实施例提供的一些待分类的文档图片的示意图；

图2是本说明书实施例提供的一种文档图片分类方法的流程示意图；

图3是本说明书实施例提供的一种文档图片分类的流程示意图；

图4是本说明书实施例提供的一种文档图片分类方法的流程示意图；

图5是本说明书实施例提供的一种文档图片分类的流程示意图；

图6是本说明书实施例提供的一种文档图片分类装置的结构示意图；

图7是本说明书实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本说明书的描述中，需要说明的是，除非另有明确的规定和限定，“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本说明书中的具体含义。此外，在本说明书的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

下面结合具体的实施例对本说明书进行详细说明。

文档图片分类是一种旨在针对扫描文件或数字商业文档(图像、PDF文件等)将其中的非结构化信息进行抽取和结构化，从而获取文档图片的分类信息的技术。本说明书实施例将扫描文件或数字商业文档统称为文档图片，文档图片的来源十分丰富，例如，居民或企业在网上办理各种事项时，将办理事项所需的文档材料转换为图像并上传，从而得到文档材料对应的文档图片。以办理金融审核事项为例，居民或企业在网上办理金融审核事项时，需要将支票、存款协议等拍照扫描成图像，并上传至事项办理平台，因此，事项办理平台采集的文档图片的类型至少包括支票和存款协议。

文档图片包括丰富的文字信息和图像信息，尤其是不同分类类型的文档图片，所包括的文字信息的特征和图像信息的特征都不相同。如图1A-图1C所示，为本申请实施例提供的一些文档图片的示意图，图1A为一种发票类型的文档图片，图1B为菜单类型的文档图片，图1C为一种病例类型的文档图片，本说明书实施例还包括文档图片类型为收据、商业报告等的文档图片，图1A-图1C仅作示例。

面对数量如此庞大的文本数据，办公人员对文本进行分类整理时不仅会耗费大量的时间，同时还会造成严重的错误率，效率低下。然而在传统的文档图片分析技术中，最常见的文档图片分类方法为提取图片包括的文档中的文字内容，根据文字内容对文档图片进行分类。例如通过光学字符识别(optical character recognition，OCR)对文档图片包括的文字内容进行提取，再通过变压器的双向解码表示(Bidirectional EncoderRepresentation from Transformers，BERT)模型对文字内容进行识别理解，提取出关键词，从而对文档图片进行分类。在另一些文档图片分析技术中，通过对文档图片包括的文档布局信息进行结构化处理，也即提取文档图片的图像模态信息，从而通过图像模态信息对文档图片进行分类。但上述方法通常只能通过单一的模态信息对文档图片进行理解分类，没有有效地利用文档图片包括的多个模态信息，没有考虑多个模态信息之间的关联关系和对多个模态信息进行融合。

在一个实施例中，如图2所示，提出了一种文档图片分类方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的文档图片分类装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

具体的，该方法包括：

S101、以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及M个第一文本信息各自对应的第一图像信息。

文本信息，可以理解为文档图片中的文本内容对应的信息，文本内容指由中文或外文文字组成的能够进行意思表示的文本段，包括句子、段落、文章等任意一种文本量，以及英语、中文、德语等任意一种语言形式，文本内容对应的信息包括文字、语义、文字所处位置、标点、重复单词出现的频率等任意本领域技术人员需要提取的信息。

图像信息，可以理解为包括文档图片的页面整体样式的信息、文档图片中文本区域对应的局部图像信息、非文本区域对应的图像信息等视觉信息。其中，提取文档图片中的文本区域对应的局部图像信息可以兼顾更多细节特征，非文本区域对应的图像信息中同样可能含有指向文档图片的分类信息的关键信息。

在另一些实施例中，图像信息还可以包括：文档图片中表格的数量信息、用于表示表格在文档图片中的图像面积占比的特征信息、用于表示文档图片中手写文本在全部文本中的占比的特征信息、用于表示文档图片中印刷文本在全部文本中的占比的特征信息等。

在一个实施例中，以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及M个第一文本信息各自对应的第一图像信息之前，还包括：对目标文档图片进行预处理。举例来说，对目标文档图片的预处理包括下述处理的一种或多种：图像去模糊，图像亮度增强、图像对比度增强、图像超分辨率重建和图像校正。例如，通过对文档图片的四方向旋转技术以及透视矫正技术，实现文档图片大方向和小角度的矫正。在本实施例中，通过图像处理技术对文档图片质量增强，提高提取文档图片中文本信息和图像信息的准确性和信息量，进而提高文档图片分类的准确性和可靠性。

具体而言，获取目标文档图片中包括的目标文档，可以通过光学字符识别(optical character recognition，OCR)对目标文档图片包括的文字内容进行提取。

进一步的，基于第一分割单元对目标文档进行分割，得到M个第一子文本，M为大于1的正整数。将目标文档进行分割，是指将一段中文序列或其他语言的序列分割为一个个中文词语或其他语言的词语，每个第一子文本对应上述一个个中文词语或其他语言的词语。例如，使用较为成熟的jieba文本分割系统，具体文本分割方法不做限制。第一分割单元，至少包括以下一种：以字character为单元、以词word为单元、以句sentence为单元和以段paragraph为单元，根据相关技术人员的需求进行设置。

在一个实施例中，基于第一分割单元对目标文档进行分割，得到M个第一子文本，包括：对目标文档或获取的至少一个第一子文本进行清洗。例如，对目标文档进行清洗，包括对目标文档进行去停用词、去特殊符号处理，避免将停用词或特殊符号作为子文本的情况。假设处理后，文本数量为f，词表大小为C。去停用词可以显著降低C数量，去除冗余信息。这里说的特殊符号包括标点符号以及句子中出现的货币符号、数学符号等。

又例如，对获取的至少一个第一子文本进行清洗，从而得到M个第一子文本，统计目标文档中特殊子文本出现的频率，根据特殊子文本的频率去除目标文档中的特殊子文本。本实施例统计每个特殊子文本出现的频率，去除“极度频率”(Extreme frequency)的情况。“极度频率”是指一个子文本出现的频率非常高或者非常低的情况。特殊子文本出现的频率在所有文档中非常高，表明该特殊子文本更多地表现为所有文档的共性特征，对文档图片的分类任务中作用不大。特殊子文本出现的频率在所有文本中非常低，表明词语较为稀有，很有可能属于罕见词，这样也无法体现某一类文档图片的共性特征，故也进行删除。也就是说，获取的子文本的频率ωi需满足：εlow＜Freq(ωi)＜εhigh，εhigh与εlow是上下频率过滤的参数，根据具体文本数据调整。

在本实施例中，通过对目标文档进行清洗，可以过滤掉对文档图片的分类没有帮助甚至产生负面影响的字、词或句等非必要子文本，避免获取上述非必要子文本的文本信息，提高文档图片分类效率，以及提高对文档图片分类的准确性和可靠性。

进一步的，根据M个第一子文本，获取每个子文本对应的文本信息，以及每个第一子文本对应的图像信息。具体而言，获取每个子第一文本对应的文本信息，指根据第一分割单元对每个第一子文本进行独立热编码(one-hot)。例如，第一分割单元以字为单元，在字级别上构造第一子文本对应的矩阵，第二分割单元以词为单元，在词级别上构造第一子文本对应的矩阵，矩阵的行列数量都是不重复表示的数量。矩阵的值初始化为0，每一行中对应该级别标识序列位置的值设置为1。

获取目标文档图片中第一子文本对应的图像信息，例如使用ResNeXt-FPN网络作为图像编码器，先抽取文档图片的第一特征图，再将第一特征图平均池化为固定尺寸(W×H)，接着按行展开平均池化后的第二特征图，通过第一子文本在第二特征图上线性投影，就可以得到第一子文本对应的图像的特征序列，也即第一子文本对应的图像信息。

S102、以第二分割单元对目标文档图片进行分割，得到N个第二本文信息以及N个第二文本信息各自对应的第二图像信息。

第二分割单元至少包括以下一种：以字character为单元、以词word为单元、以句sentence为单元和以段paragraph为单元，根据相关技术人员的需求进行设置。

其中，N小于M，每个第二文本信息包括多个第一文本信息。换而言之，当第一分割单元为以字为单元，则第二分割单元为以词为单元、以句为单元或以段为单元，当第一分割单元为以词单元，第二分割单元为以句为单元或以段为单元。可以理解为，第一分割单元对应的分割密度小于第二分割单元对应的分割密度，且第二文本信息对应的文本内容包括第一文本信息对应的文本内容。

以第二分割单元对目标文档图片进行分割，得到N个第二本文信息以及N个第二文本信息各自对应的第二图像信息的实施方式参见上述S101，此处不再赘述。

S103、分别对每个第二文本信息、第二文本信息对应的第二图像信息及第一编码信息进行处理，得到N个第二编码信息。

分别将每个第一文本信息、第一文本信息对应的第一图像信息进行处理，得到M个初始编码信息；其中，第二文本信息对应的第一编码信息包括第二文本信息对应的多个第一文本信息分别对应的初始编码信息。

如图3所示，为本申请实施例提供的一种文档图片分类方法的流程示意图，包括图1B所示的目标文档图片，包括：第二文本信息3011“小炒菜”和对应的第二图像信息3012，第一文本信息4011“小”和对应的第一图像信息4012，第一文本信息4021“炒”和对应的第一图像信息4022，第一文本信息4031“菜”和对应的第一图像信息4032。分别将图3所示的每个第一文本信息、第一文本信息对应的第一图像信息进行处理，处理过程参见上述S101，或者通过自然语言处理(Natural Language Processing，NLP)的bert模型中的第一编码器对每个第一文本信息、第一文本信息对应的第一图像信息进行编码，得到3个初始编码信息，第一编码信息501包括上述3个初始编码信息。进一步的，将第二文本信息3011、第二文本信息对应的第二图像信息3012及第一编码信息501进行处理，处理情况参见上述S102，或者通过bert模型中的第二编码器进行编码，得到第二编码信息502。可以理解的是，图3仅为示例，本申请还包括其他分割单元对应的实施例和实施方式。

S104、根据N个第二编码信息确定目标文档图片的分类信息。

N个第二编码信息融合了目标文档图片的第一文本信息和第一图像信息以及第二子文本的第一文本信息和第一图像信息，进一步根据N个第二编码信息确定目标文档图片的分类信息。例如，如图3所示，根据N个第二编码信息执行分析任务，例如表单理解(任务要求从文档图片中的表单中抽取四种类型的语义实体，包括问题、答案、标题、其他)、票据理解(通过CORD和SROIE两个票据理解数据集进行预训练得到，使用时从文档图片中抽取名称、价格、数量、店铺名、店铺地址、总价、消费时间等30类关键信息实体)、复杂布局长文档理解等，本申请还包括其他分析任务，根据分析结果得到目标文档图片的分类信息601为“菜单”。

在一个实施例中，如图4所示，提出了一种文档图片分类方法，该方法可依赖于计算机程序实现，可运行于基于冯诺依曼体系的文档图片分类装置上。该计算机程序可集成在应用中，也可作为独立的工具类应用运行。

具体的，该方法包括：

S201、以第一分割单元对目标文档图片中包括的目标文档进行分割处理，得到M个第一子文本。

获取目标文档图片中包括的目标文档，例如通过光学字符识别(opticalcharacter recognition，OCR)对文档图片包括的文字内容进行提取。将目标文档进行分割，也即将一段中文序列或其他语言的序列分割为一个个中文词语或其他语言的词语，每个子文本对应上述一个个中文词语或其他语言的词语。预设的分割单元，至少包括以下一种：以字character为单元、以词word为单元、以句sentence为单元和以段paragraph为单元，根据相关技术人员的需求进行设置。

在一个实施例中，获取目标文档中的M个第一子文本，包括：对目标文档或对获取的至少一个第一子文本进行清洗。例如，对目标文档进行清洗，包括对目标文档进行去停用词、去特殊符号处理，避免将停用词或特殊符号作为子文本的情况。通过对目标文档进行清洗，可以过滤掉对文档图片的分类没有帮助甚至产生负面影响的字、词或句等非必要子文本，避免获取上述非必要子文本的文本信息，提高文档图片分类效率，以及提高对文档图片分类的准确性和可靠性。

S202、获取每个第一子文本对应的第一文本信息，根据每个第一子文本包括的文字内容得到第一子文本对应的文字信息。

具体而言，根据每个第一子文本包括的文字内容得到子文本对应的文字信息，指根据第一分割单元以及第一子文本对应的文字信息，对每个第一子文本进行独立热编码(one-hot)。例如，第一分割单元为以字为单元，在字级别上构造矩阵，第一分割单元为以词为单元，在词级别上构造第一子文本矩阵，矩阵的行列数量都是不重复表示的数量。矩阵的值初始化为0，每一行中对应该级别标识序列位置的值设置为1。

S203、根据每个第一子文本处于目标文档图片的对应位置得到第一子文本对应的位置信息。

对应于每个第一子文本在目标文档图片中覆盖的坐标范围，使用平行于目标文档图片的坐标轴的边界框bounding box表示每个第一子文本的位置信息，也称布局信息。例如，据OCR技术得到的文本边界框得到每个第一子文本在文档图片中的坐标，将每个第一子文本对应的坐标转换为虚坐标后，计算出x、y、w、h四个层面分别对应的神经网络嵌入层embedding sublayers的向量坐标表示，最终用四个向量坐标表示连接后得到的向量表达式表征每个第一子文本对应的位置信息。本申请还包括其他位置信息的获取方式。

在本申请实施例中，每个第一子文本对应的文本信息包括S201获得的文字信息和S202获得的位置信息。一些分类下的文档图片包括丰富的文本信息，且文本信息如文本内容的关键词或文本内容的空间关系也即位置信息，都具有明显的特征，例如在表格中文本以网格布局排列，可以提取通常在第一列或第一行的标题中的关键词，从而根据关键词和网格布局对文档图片进行分类，例如发票、考试细则等类型，因此在得到通过分析每个子文本的位置信息，可以提高文档图片分类的准确性和可靠性。

S204、获取目标文档图片中每个第一子文本对应的图像信息。

对应于每个第一子文本在目标文档图片中覆盖的坐标范围，使用平行于目标文档图片坐标轴的包括第一子文本内容的部分图像区域作为每个第一子文本对应的第一子图片，进一步获取第一子图片的图像信息作为该第一子文本的图像信息。例如使用ResNeXt-FPN网络作为图像编码器，先抽取该第一子图片的第一特征图，再将第一特征图平均池化为固定尺寸(W×H)，接着按行展开平均池化后的第二特征图，通过第一子文本在第二特征图上线性投影，可以得到第一子文本对应的子图像，进一步通过ResNeXt-FPN网络提取第一子图像的特征序列，也即第一子文本对应的图像信息。

S205、以第二分割单元对目标文档图片中包括的目标文档进行分割处理，得到N个第二子文本。

具体地，S205与S201一致，此处不再赘述。

S206、获取每个第二子文本对应的第二文本信息，根据每个第二子文本包括的文字内容得到第二子文本对应的文字信息。

具体地，S206与S202一致，此处不再赘述。

S207、根据每个第二子文本处于目标文档图片的对应位置得到第二子文本对应的位置信息。

具体地，S207与S203一致，此处不再赘述。

S208、获取目标文档图片中每个第二子文本对应的图像信息。

具体地，S208与S204一致，此处不再赘述。

S209、通过多模态文档理解模型对N个第二编码信息执行分析任务，得到目标文档图片的分类信息。

其中，多模态文档理解模型通过训练集中的N个第二编码信息和分类信息进行训练得到。例如，多模态文档理解模型可以使用文档理解预训练模型LayoutLM 1.0或新一代的文档理解预训练模型LayoutLM 2.0，还可以在多模态文档理解模型中引入空间感知自注意力机制，进一步提高多模态文档理解模型对文档图片中的理解和分析能力。

分析任务至少包括以下任务中的一种或多种：文档布局分析(Document LayoutAnalysis)、视觉信息提取(Visual Information Extraction)和文档图片分类(DocumentImage Classification)等。其中，文档布局分析任务主要是对文档图片中的图像、文本、表格等位置关系进行自动分析、识别、理解等；视觉信息提取任务主要是从文档图片中的大量非结构化内容中提取实体及关系，对于视觉丰富的文档建模为计算机视觉问题，通过语义分割或文本框检测来进行信息提取；通过上述多个任务，实现文档图片分类任务，该任务是对文档图像进行分析和识别，并将其划分为不同类别的过程，如科学论文、简历、发票、收据等。

如图5所示，为本说明书实施例提供的一种文档图片分类的流程示意图，包括：第一子文本5011对应的文字信息text embedding“清”、对应的位置信息position embedding“(1，2)”和对应的图像信息image embedding，第一子文本5021对应的文字信息“炖”、对应的位置信息“(1，3)”和对应的图像信息，第一子文本5031对应的文字信息“羊”、对应的位置信息“(1，3)”和对应的图像信息，第一子文本5031对应的文字信息“肉”、对应的位置信息“(1，3)”和对应的图像信息。

将上述第一子文本对应的多模态信息分别输入第一编码单元601char berttransformer encoder中进行编码。第一编码器基于bert模型构建，该BERT模型可以理解为应用在自然语言处理领域(Natural Language Process，NLP)中执行各式各样下游任务的语言模型，是通过在海量语料的基础上运行自监督学习方法的特征提取器。具体而言，通过第一编码单元601的映射关系，获取第一子文本对应的位置信息、图像信息和文字信息对应的查询向量K和键值向量对(K，V)，进一步根据上述三个向量值，得到第一子文本5011对应的初始编码信息5012，第一子文本5021对应的初始编码信息5022，第一子文本5031对应的初始编码信息5032，第一子文本5041对应的初始编码信息5042，将上述初始编码信息作为第二文本信息702对应的第一编码信息701。可以理解的是，其他第二文本对应了与其他第一编码信息，该第一编码信息与第一编码信息701中包括的初始编码信息不相同。

进一步，将第二文本信息702对应的文字信息text embedding“清炖羊肉”、位置信息position embedding“(1，2)”和图像信息image embedding

下述为本说明书装置实施例，可以用于执行本说明书方法实施例。对于本说明书装置实施例中未披露的细节，请参照本说明书方法实施例。

请参见图6，其示出了本说明书一个示例性实施例提供的文档图片分类装置的结构示意图。该文档图片分类装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该文档图片分类装置包括第一分割模块61、第二分割模块62、获取编码模块63和获取分类模块64。

第一分割模块61，用于以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息；

第二分割模块62，用于以第二分割单元对所述目标文档图片进行分割，得到N个第二文本信息以及所述N个第二文本信息各自对应的第二图像信息；所述N小于M，每个所述第二文本信息包括多个所述第一文本信息；

获取编码模块63，用于分别对每个所述第二文本信息、所述第二文本信息对应的所述第二图像信息及第一编码信息进行处理，得到N个第二编码信息；其中，所述第一编码信息为所述第二文本信息对应的多个所述第一文本信息、所述多个所述第一文本信息对应的第一图像信息编码得到；

获取分类模块64，用于根据所述N个第二编码信息确定所述目标文档图片的分类信息。

在一个实施例中，文档图片分类装置包括：

初始编码模块，用于分别将每个所述第一文本信息、所述第一文本信息对应的第一图像信息进行处理，得到M个初始编码信息；其中，所述第二文本信息对应的第一编码信息包括所述第二文本信息对应的多个第一文本信息分别对应的初始编码信息。

在一个实施例中，第一分割单元61包括：

第一分割单元，用于以第一分割单元对目标文档图片中包括的目标文档进行分割处理，得到M个第一子文本；

第一信息单元，用于获取每个所述第一子文本的第一文本信息，以及获取所述目标文档图片中每个所述第一子文本对应的图像信息。

在一个实施例中，所述第一文本信息包括文字信息；

第一信息单元还用于根据每个所述第一子文本包括的文字内容得到所述第一子文本对应的所述文字信息。

第一文本信息还包括位置信息；

第一信息单元还用于根据每个所述第一子文本处于所述目标文档图片的对应位置得到所述第一子文本对应的位置信息。

在一个实施例中，第二分割单元62包括：

第二分割单元，以第二分割单元对目标文档图片中包括的目标文档进行分割处理，得到N个第二子文本；

第二信息单元，用于获取每个所述第二子文本的第二文本信息，以及获取所述目标文档图片中每个所述第二子文本对应的图像信息。

在一个实施例中，所述第二文本信息包括文字信息；

第二信息单元还用于根据每个所述第二子文本包括的文字内容得到所述第二子文本对应的所述文字信息。

在一个实施例中，所述第二文本信息还包括位置信息；

第二信息单元还用于根据每个所述第二子文本处于所述目标文档图片的对应位置得到所述第二子文本对应的位置信息。

在一个实施例中，获取分类单元，包括：

执行任务单元，用于通过多模态文档理解模型对所述N个第二编码信息执行分析任务，得到所述目标文档图片的分类信息；其中，所述多模态文档理解模型通过训练集中的文档图像和所述文档图像对应的分类信息进行训练得到。

在一个实施例中，所述分析任务至少包括以下任务中的一种或多种：文档布局分析、视觉信息提取和文档图片分类。

在一个实施例中，文档图片分类装置还包括：

预处理模块，用于对所述目标文档图片进行预处理。

在一个实施例中，所述预处理至少包括下述中的一种或多种：图像去模糊、图像亮度增强、图像对比度增强、图像超分辨率重建和图像矫正。

需要说明的是，上述实施例提供的文档图片分类装置在执行文档图片分类方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文档图片分类装置与文档图片分类方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本说明书实施例序号仅仅为了描述，不代表实施例的优劣。

本说明书实施例还提供了一种计算机存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述图1-图5所示实施例的所述文档图片分类方法，具体执行过程可以参见图1-图5所示实施例的具体说明，在此不进行赘述。

本说明书还提供了一种计算机程序产品，该计算机程序产品存储有至少一条指令，所述至少一条指令由所述处理器加载并执行如上述图1-图5所示实施例的所述文档图片分类方法，具体执行过程可以参见图1-图5所示实施例的具体说明，在此不进行赘述。

请参见图7，为本说明书实施例提供了一种电子设备的结构示意图。如图7所示，所述电子设备700可以包括：至少一个处理器701，至少一个网络接口704，用户接口703，存储器705，至少一个通信总线702。

其中，通信总线702用于实现这些组件之间的连接通信。

其中，用户接口703可以包括显示屏(Display)、摄像头(Camera)，可选用户接口703还可以包括标准的有线接口、无线接口。

其中，网络接口704可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器701可以包括一个或者多个处理核心。处理器701利用各种接口和线路连接整个服务器700内的各个部分，通过运行或执行存储在存储器705内的指令、程序、代码集或指令集，以及调用存储在存储器705内的数据，执行服务器700的各种功能和处理数据。可选的，处理器701可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列(ProgrammableLogic Array，PLA)中的至少一种硬件形式来实现。处理器701可集成处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器701中，单独通过一块芯片进行实现。

其中，存储器705可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器705包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器705可用于存储指令、程序、代码、代码集或指令集。存储器705可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器705可选的还可以是至少一个位于远离前述处理器701的存储装置。如图7所示，作为一种计算机存储介质的存储器705中可以包括操作系统、网络通信模块、用户接口模块以及文档图片分类应用程序。

在图7所示的电子设备700中，用户接口703主要用于为用户提供输入的接口，获取用户输入的数据；而处理器701可以用于调用存储器705中存储的文档图片分类应用程序，并具体执行以下操作：

在一个实施例中，处理器701执行所述分别对每个所述第二文本信息、所述第二文本信息对应的所述第二图像信息及第一编码信息进行处理，得到N个第二编码信息之前，执行以下操作：

分别将每个所述第一文本信息、所述第一文本信息对应的第一图像信息进行处理，得到M个初始编码信息；其中，所述第二文本信息对应的第一编码信息包括所述第二文本信息对应的多个第一文本信息分别对应的初始编码信息。

在一个实施例中，处理器701执行所述以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息，执行以下操作：

以第一分割单元对目标文档图片中包括的目标文档进行分割处理，得到M个第一子文本；

获取每个所述第一子文本的第一文本信息，以及获取所述目标文档图片中每个所述第一子文本对应的图像信息。

在一个实施例中，所述第一文本信息包括文字信息；

处理器701执行所述获取每个所述第一子文本对应的第一文本信息，执行以下操作：

根据每个所述第一子文本包括的文字内容得到所述第一子文本对应的所述文字信息。

在一个实施例中，所述第一文本信息还包括位置信息；

处理器701执行根据每个所述第一子文本包括的文字内容得到所述第一子文本对应的所述文字信息之后，还执行以下操作：

根据每个所述第一子文本处于所述目标文档图片的对应位置得到所述第一子文本对应的位置信息。

在一个实施例中，处理器701执行所述以第二分割单元对目标文档图片进行分割，得到N个第二文本信息以及所述N个第二文本信息各自对应的第二图像信息，执行以下操作：

以第二分割单元对目标文档图片中包括的目标文档进行分割处理，得到N个第二子文本；

获取每个所述第二子文本的第二文本信息，以及获取所述目标文档图片中每个所述第二子文本对应的图像信息。

在一个实施例中，处理器701执行所述第二文本信息包括文字信息；

所述获取每个所述第二子文本对应的第二文本信息，执行以下操作：

根据每个所述第二子文本包括的文字内容得到所述第二子文本对应的所述文字信息。

在一个实施例中，处理器701执行所述第二文本信息还包括位置信息；

根据每个所述第二子文本包括的文字内容得到所述第二子文本对应的所述文字信息之后，还执行以下操作：

根据每个所述第二子文本处于所述目标文档图片的对应位置得到所述第二子文本对应的位置信息。

在一个实施例中，处理器701执行所述根据所述N个第二编码信息确定所述目标文档图片的分类信息，执行以下操作：

通过多模态文档理解模型对所述N个第二编码信息执行分析任务，得到所述目标文档图片的分类信息；其中，所述多模态文档理解模型通过训练集中的文档图像和所述文档图像对应的分类信息进行训练得到。

在一个实施例中，处理器701执行所述以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息之前，还执行以下操作：

对所述目标文档图片进行预处理。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本说明书较佳实施例而已，当然不能以此来限定本说明书之权利范围，因此依本说明书权利要求所作的等同变化，仍属本说明书所涵盖的范围。

Claims

1.一种文档图片分类方法，所述方法包括：

2.根据权利要求1所述的文档图片分类方法，所述分别对每个所述第二文本信息、所述第二文本信息对应的所述第二图像信息及第一编码信息进行处理，得到N个第二编码信息之前，所述方法还包括：

3.根据权利要求1所述的文档图片分类方法，所述以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息，包括：

4.根据权利要求3所述的文档图片分类方法，所述第一文本信息包括文字信息；

所述获取每个所述第一子文本对应的第一文本信息，包括：

5.根据权利要求4所述的文档图片分类方法，所述第一文本信息还包括位置信息；

根据每个所述第一子文本包括的文字内容得到所述第一子文本对应的所述文字信息之后，所述方法还包括：

6.根据权利要求1所述的文档图片分类方法，所述以第二分割单元对目标文档图片进行分割，得到N个第二文本信息以及所述N个第二文本信息各自对应的第二图像信息，包括：

7.根据权利要求6所述的文档图片分类方法，所述第二文本信息包括文字信息；

所述获取每个所述第二子文本对应的第二文本信息，包括：

8.根据权利要7所述的文档图片分类方法，所述第二文本信息还包括位置信息；

根据每个所述第二子文本包括的文字内容得到所述第二子文本对应的所述文字信息之后，所述方法还包括：

9.根据权利要求1所述的文档图片分类方法，所述根据所述N个第二编码信息确定所述目标文档图片的分类信息，包括：

10.根据权利要求9所述的文档图片分类方法，所述分析任务至少包括以下任务中的一种或多种：文档布局分析、视觉信息提取和文档图片分类。

11.根据权利要求1所述的文档图片分类方法，所述以第一分割单元对目标文档图片进行分割，得到M个第一文本信息以及所述M个第一文本信息各自对应的第一图像信息之前，所述方法还包括：

对所述目标文档图片进行预处理。

12.根据权利要求11所述的文档图片分类方法，所述预处理至少包括下述中的一种或多种：图像去模糊、图像亮度增强、图像对比度增强、图像超分辨率重建和图像矫正。

13.一种文档图片分类装置，所述装置包括：

14.一种计算机存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～12任意一项的方法步骤。

15.一种计算机程序产品，所述计算机程序产品存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～12任意一项的方法步骤。

16.一种电子设备，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～12任意一项的方法步骤。