CN114842482B

CN114842482B - 一种图像分类方法、装置、设备和存储介质

Info

Publication number: CN114842482B
Application number: CN202210556040.9A
Authority: CN
Inventors: 庾悦晨; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-05-20
Filing date: 2022-05-20
Publication date: 2023-03-17
Anticipated expiration: 2042-05-20
Also published as: CN114842482A

Abstract

本公开提供了一种图像分类方法、装置、设备和介质，涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域。具体实现方案为：将文档图像输入图像特征提取模块中；其中，图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图；在图像特征提取模块顺序提取各图像特征图的过程中，将文档图像中文本框的文本关联特征，按照文本框在文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图；基于特征提取模块最终输出的多模态特征进行图像分类识别，以确定文档图像的分类结果；其中，多模态特征至少基于融合特征图而产生。本公开提高了图像分类识别结果的准确性，降低了计算量的增加幅度。

Description

一种图像分类方法、装置、设备和存储介质

技术领域

本公开涉及人工智能技术领域，具体涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR等场景。

背景技术

光学字符识别(Optical Character Recognition，简称OCR)技术，在教育、金融、医疗、交通和保险等各行各业都取到了广泛的关注和应用，随着办公电子化程度的提高，原本以纸质形式保存的文档资料逐渐通过扫描仪等电子化手段转为以图像形式保存。为了能查询或调阅指定记录的图像，需要将影像和影像内容数据建立索引。为建立索引一般通过OCR技术将扫描得到的图像分类、然后再进行识别以得到其内容。

为实现图像分类的需求，业界主流的是基于卷积神经网络的分类方法，该方法往往只能提取文档图像的图像视觉特征以用于识别文档图像的类别，使得结果准确度不高。

发明内容

本公开提供了一种图像分类方法、装置、设备以及存储介质。

根据本公开的一方面，提供了一种图像分类方法，包括：

将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图；

在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图；

基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生。

根据本公开的另一方面，提供了一种图像分类方装置，包括：

图像输入模块，用于将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图；

融合生成模块，用于在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图；

分类结果确定模块，基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器，所述处理器包括主机和至少一个异构设备；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本公开任一实施例所述的图像分类方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行本公开任一实施例所述的图像分类方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现本公开任一实施例所述的图像分类方法。

本公开实施例可以提高图像分类识别结果的准确性，降低计算量的增加幅度。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例提供的一种图像分类方法的示意图；

图2是根据本公开实施例提供的另一种图像分类方法的示意图；

图3是根据本公开实施例提供的又一种图像分类方法的示意图；

图4是根据本公开实施例提供的一种图像处理方法的应用场景示意图；

图5是本公开实施例中的一种图像分类装置的结构图；

图6是用来实现本公开实施例的图像分类方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例提供的一种图像分类方法的示意图，本公开实施例可适用于对包括文本内容的文档图像进行分类识别的情况。对于文档图像的分类识别，可涉及多种需求，得到的分类识别结果也有多种可能。例如，对文档图像识别区分为两类以上，输出的是各种分类的概率值；还可以在文档图像中区分具体内容的类别，如前景图像和背景图像；或者还可以在文档图像中区分同一类的具体实例，如行人类中具体是哪个人。在上述各种对文档图像进行分类识别的情况下，均需要进行特征提取，进而根据提取的特征进行分类识别。本公开实施例更关注于特征提取阶段的改进。该方法可由一种图像分类装置来执行，该装置可采用硬件和/或软件的方式来实现，可配置于电子设备中。参考图1，该方法具体包括如下：

S110、将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图。

文档图像是指具有文本内容的图像。对于文档图像进行分类识别的机器学习模型，可称为图像分类模型。在图像分类模型中包括有图像特征提取环节，可称为图像特征提取模块。图像特征提取模块用于获取文档图像的图像特征图。图像特征图中的各像素点处的像素值用于描述提取后的图像特征向量。以卷积神经网络为例，每个像素点的图像特征向量，代表图像多个维度的特征值。图像特征提取模块中包括至少两层图像特征提取层。示例性的，图像特征提取层的数量可以是两层、三层、四层或五层。每个图像特征提取层用于对输入图提取图像特征，得到图像特征图，再传输给下一个图像特征提取层，或作为最终输出的特征图。各图像特征提取层得到的图像特征图的分辨率可以相同，也可以不同。各图像特征提取层顺序相连，也可以理解为，后一图像特征提取层根据前一特征提取层提取的特征提取图，进行图像特征提取，得到新的特征提取图，其中第一个图像特征提取图直接根据文档图像提取特征提取图。

具体的，将文档图像输入图像特征提取模块中，图像特征提取模块中的各图像特征提取层根据文档图像顺序进行图像特征提取，用以得到特征提取图。

S120、在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图。

文本框是指包含文档图像中文本内容所在区域的外接框，一般可采用矩形框。文本框中包括一个或多个字符的文本。文本关联特征是指文本框中文本内容有关联的、某个维度的特征，例如文本语义特征等。文本框与文本关联特征相对应，也可以理解为，一个文本框对应有一个文本关联特征。文本框在文档图像中的位置是指文本框在文档图像中所在的像素点。融合是指将图像特征与文本关联特征结合。融合后，可作为融合特征图，是指图像特征与文本关联特征融合后得到的特征图，也可以理解为，融合特征图中既包含图像特征又包含文本关联特征。

具体的，不同维度的文本关联特征可通过不同方式提取，以文本语义特征为例，可通过文本识别技术提取文档图像中文本框的文本关联特征，在图像特征提取模块顺序提取各图像特征图的过程中，按照文本框在所述文档图像中的位置，在图像特征图中查找与文本框在图像中的位置有映射关系的像素点，并将位置匹配的像素点对应的图像特征与文本关联特征融合，得到融合特征图。文本关联特征可以与一个或多个图像特征图进行融合。与文本关联特征进行融合的图像特征图以及图像特征图的数量可以根据实际情况进行选取。文本关联特征与多个图像特征图融合时，可以将文本图像中全部文本关联特征与每个图像特征图都进行融合，也可以将文本图像中不同文本框的文本关联特征进行划分，与不同的图像特征图进行融合。

S130、基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生。

多模态特征是指从多个方面对图像进行描述的特征。多模态特征可以通过特征提取模块最终输出的特征图中获取。特征提取模块最终输出的特征图可以是融合特征图，也可以是对融合特征图进一步特征提取后得到的特征图，因此，多模态特征至少基于融合特征图产生。图像分类识别可以是对整体图像进行分类，也可以使对图像中包含的物体的种类或数量进行分类，还可以是对图像中包含的物体的位置进行分类，还可以对图像中包含的实例进行分类等。图像的分类结果是指文档图像的识别结果。

具体的，特征提取模块的输出结果为多模态特征，至少包括图像特征和文本关联特征，根据多模态特征对文档图像进行分类识别，得到文档图像的分类结果。其中，可以通过卷积分类器对文档图像进行分类，也可以通过全连接层对文档图像进行分类。

本公开实施例的技术方案，通过将文档图像输入图像特征提取模块，在图像提取模块提取各图像特征图的过程中，按照文本框在文档图像中的位置，将文本关联特征与至少一层图像特征图进行融合，基于特征提取模块最终输出的多模态特征进行图像分类识别，确定文档图像的分类结果，通过在图像提取模块提取各图像特征图的过程中，将文本关联特征与图像特征图进行融合，使得文本关联特征直接融入特征提取图中继续处理，而无需设置额外的复杂融合模型，所以降低了图像分类方法的整体复杂度，减少了计算量的增加程度，在文本关联特征与图像特征图融合的过程中，考虑了文本框在文档图像中的位置，使得融合特征图的获取过程融入了文本框的位置信息，从而在根据多模态特征进行图像分类识别时，提高了图像识别的准确度。

图2是根据本公开实施例公开的另一种图像分类方法的示意图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。其中，所述图像特征提取层为卷积神经网络，所述图像特征提取模块的各图像特征提取层用于对输入图进行下采样处理。

卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。输入图是指输入图像特征提取层的图。输入图可以是原始的文档图像，也可以是前一个图像特征提取层输出的图像特征图。通过下采样可以降低特征的维度，同时保留有效信息。图像特征提取层进行下采样时所用的卷积核的大小可以相同，也可以不同。

具体的，当图像特征提取层为卷积神经网络时，图像特征提取模块的中的各图像特征提取层可以用于对输入图进行下采样处理。

本公开实施例的技术方案，通过选取卷积神经网络作为图像特征提取层，对输入图进行下采样处理，可以尽可能保留重要参数，去掉不重要的参数，具有很好的学习效果，提高图像特征提取的准确性。

可选的，所述特征提取模块还包括顺序相连的至少两层图像上采样层，则基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果包括：将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图；根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果。参考图2，该方法具体包括如下：

S210、将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图；所述图像特征提取层为卷积神经网络，所述图像特征提取模块的各图像特征提取层用于对输入图进行下采样处理；所述特征提取模块还包括顺序相连的至少两层图像上采样层；

图像上采样层是指用于对图像进行上采样的卷积神经网络。在卷积神经网络中，上采样又可称为放大图像，主要目的是放大原图像，从而可以显示在更高分辨率的显示设备上。其中，图像上采样层的数量为至少两层，各图像上采样层顺序相连，图像上采样层的具体层数可以根据实际情况进行设置。通过图像上采样层，可以对下采样的处理结果进行还原。

S220、在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图。

S230、将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图。

图像语义图是指包含有文本关联特征的特征图，也可以理解为，融合特征图经过各图像上采样层处理后得到的特征图。各图像上采样层顺序处理，也可以理解为，后一图像上采样层根据前一图像上采样层的结果，进行上采样，得到新的上采样结果，其中，第一个图像上采样层根据文特征提取模块最后一个图像特征提取层输出的融合特征图进行上采样。

具体的，图像上采样层在图像特征提取层之后顺序连接，特征提取模块最后一个图像特征提取层输出的融合特征图，为第一个图像上采样层的输入，各图像上采样层按照顺序对融合特征图进行上采样，得到图像语义图。其中，图像语义图可以是最后一个图像上采样层的输出结果，也可以是对上采样层的输出结果进行处理后得到。

S240、根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果。

根据各图像上采样层的处理得到的图像语义图，提取图像语义图中的多模态特征，根据多模态特征对文档图像进行分类识别，得到文档图像的分类结果。

通过在特征提取模块中包括顺序相连的至少两层图像上采样层的基础上，将最后一个图像特征提取层输出的融合特征图作为第一个图像上采样层的输入，以对融合特征图进行上采样处理，得到图像语义图，根据图像语义图确定的多模态特征进行图像识别，通过图像上采样层对融合特征图进行处理能够提高融合特征的分辨率，从而提高图像分类的准确性。

可选的，根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果包括：将所述图像语义图输入全局平均池化层进行处理，以输出多模态特征；将所述多模态特征输入卷积分类器进行图像分类识别，以确定所述文档图像的分类结果。

全局平均池化层是指对最后一层卷积的特征图，每个通道求整个特征图的均值。通过全局平均池化层对图像语义图进行处理，能够对空间信息进行求和，因而对输入的空间变换更具有稳定性。

具体的，通过全局平均池化层对图像语义图进行处理，得到多模态特征，并通过卷积分类器，根据多模态特征对文档图像进行分类识别，得到文档图像的分类结果。

通过将图像语义图输入全局平均池化层，得到多模态特征，根据多模态特征，利用卷积分类器进行分类识别，以得到文档图像的分类结果，通过全局平均池化层处理，能够保留图像语义图中的空间信息，从而提高图像分类的准确性。

可选的，将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图包括：将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，以得到多个上采样图；将所述多个上采样图调整至相同分辨率，并进行叠加，以输出图像语义图。

上采样图是指上采样处理后得到的特征图。具体的，将特征提取模块最后一个图像特征提取层输出的融合特征图输入第一个图像上采样层后，保留各图像上采样层处理得到的上采样图，将各上采样图调整至相同分辨率，将调整后的各上采样图中匹配位置像素点对应的数值进行叠加，得到图像语义图。示例性的，根据各上采样图的分辨率，选取其中最大的分辨率，将各上采样图的分辨率调整为最大的分辨率，然后对调整后的上采样图进行叠加，得到图像语义图。

通过将各图像上采样层顺序处理得到的多个上采样图调整至相同的分辨率，并进行叠加，得到图像语义图，能够保留各上采样图中的特征，从而提高图像语义图的准确性。

可选的，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合包括：将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与位于中间的图像特征提取层所提取的图像特征图进行融合。

位于中间的图像特征提取层是指第一个图像特征提取层和最后一个图像特征提取层之间的其他图像特征提取层。示例性的，图像特征提取层有三层时，位于中间的图像特征提取层为第二层图像特征提取层；图像特征提取层有四层时，位于中间的图像特征提取层为第二层图像特征提取层和第三层图像特征提取层。

具体的，按照文本框在文档图像中的位置，在位于中间的图像特征提取层所提取的图像特征图中查询位置匹配的像素点，并将位置匹配的像素点对应的图像特征与文本关联特征与融合。其中，文本关联信息可以与一个位于中间的图像特征提取层所提取的图像特征融合，也可以与多个位于中间的图像特征提取层所提取的图像特征融合。

通过将文本关联特征与位于中间的图像特征提取层所提取的图像特征图进行融合，能够在保证特征提取的信息量的同时减少计算量，提高计算效率。

图3是根据本公开实施例公开的又一种图像分类方法的示意图，基于上述技术方案进一步优化与扩展，并可以与上述各个可选实施方式进行结合。其中，所述文本关联特征为所述文本框在所述文档图像中的位置特征和/或语义特征。

位置特征是指文本框在文档图像中的位置信息。语义特征是指文本框中文本内容的语义信息。具体的，文本关联特征包括文本框在文档图像中的位置特征和语义特征中的至少一项。

本公开实施例的技术方案，在文本关联特征中包含了位置特征，为之后的多模态特征的获取提供了数据基础，从而提高文档图像分类的准确性。

可选的，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合包括:将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加。参考图3，该方法具体包括如下：

S310、将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图。

S320、在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加。

对应像素位置是指，文本框在文档图像中的位置对应的像素点，在图像特征图中对应的像素点的位置。拼接是指将位置特征或语义特征的向量与图像特征向量相连接，例如首尾相连，形成更高维度的特征向量。累加是指将位置特征或语义特征的向量与图像特征向量中的数据相加。示例性的，位置特征或语义特征的向量为756位数组，图像特征向量为756位数组，则拼接是指将两个756位数组连接，得到1512位数组；累加是指将两个756位数组中相同位置的数据相加，得到756位数组。

在图像特征提取模块顺序提取各图像特征图的过程中，按照文本框在文档图像中的位置，在图像特征图中查找位置相同的像素点，将于文本框在文档图像中的位置相同的像素点对应的图像特征向量与位置特征或语义特征进行拼接或累加。其中，位置特征或语义特征的向量可以与一层或多层图像特征图中对应像素位置的图像特征向量进行拼接或累加。为了方便进行融合，可以将文本关联特征整和到二维图中，二维图的分辨率与待融合的图像特征图的分辨率相同。

可选的，可以将位置特征向量和语义特征向量，按照文本框在所述文档图像中的位置，依次与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加，得到融合特征图，此时融合特征图中同时包括位置特征和语义特征。

S330、基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生。

通过将位置特征或语义特征向量与图像特征向量进行拼接或累加，使得融合特征图中能够包含位置特征或语义特征，为之后的图像分类提供了位置特征或语义特征的参考，提高了图像分类的准确性。

可选的，将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加之后，还包括：将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层进行卷积处理。

同分辨率是指融合特征图与图像特征提取层的分辨率相同。具体的，将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层，进行卷积处理，实现对融合特征图的图像特征提取。

通过将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层能够进一步实现位置特征或语义特征与图像特征的融合，提高融合效果。

可选的，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合之前，还包括：采用文本识别技术对所述文档图像进行文本识别，以检测确定所述文档图像中的至少一个文本框，以获取所述文本框的位置特征；检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征。

文本字符是指文本框中的文本内容。示例性的，文本框中一个汉字为一个字符，一个英文单词为一个字符。文本识别技术是指对输入图像进行分析识别处理,获取图像中文字信息的过程。示例性的，文本识别技术可以是OCR技术。通过文本识别技术可以获取文档图像中的文本框，同时识别文本框中的文本内容。

具体的，通过文本识别技术对文档图像进行识别，获取文档图像中的文本框，根据文本框在文档图像中所在像素点的位置，确定文本框的位置特征，例如，矩形框的角点坐标值。通过文本识别技术确定各文本框中包含的文本字符，根据各文本框中的文本字符，识别文本字符对应的语义特征，并作为文本框的语义特征。

通过采样文本识别技术对文档图像进行识别，确定文档图像中的文本框和文本字符，以获取文本框的位置特征和语义特征。通过文本框的位置特征和语义特征，能够为多模态特征提供数据基础，同时，通过文本框的位置特征，能够在图像分类时，提供位置特征参考，从而提高图像分类的准确性。

可选的，检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征包括：将至少一个文本框的文本字符，串行拼接后，输入文本语义提取模块中，以分别确定每个文本框的文本字符的语义特征；将每个文本框中各文本字符的语义特征进行融合，作为所述文本框的语义特征。

串行拼接是指将各文本框中的文本字符首尾相连。文本语义提取模块用于提取文本字符的语义特征。融合是指将同一文本框中各文本字符的语义特征融合为一个语义特征，示例性的，可以将各文本字符的语义特征求平均值。

将文档图像中识别到的各文本框中的文本字符进行串行拼接，通过文本语义提取模块，根据拼接后的文本字符，对每个文本框中的各文本字符的语义特征进行提取。在同一文本框中，将各文本字符的语义特征进行融合，得到文本框的语义特征。

通过将至少一个文本框的文本字符，串行拼接后，输入文本语义提取模块中，提取每个文本框中各文本字符的语义特征，能够提高各文本字符的语义特征提取的准确性，从而提高文本框的语义特征提取的准确性。

图4是根据本公开实施例公开的一种图像处理方法的应用场景示意图。如图4所示，该方法具体为：

S410、将文档图像输入图像特征提取模块中，逐层提取图像特征图；

其中，图像特征提取模块中包含顺序连接的至少两层图像特征提取层，图像特征提取层为卷积神经网络，逐层提取图像特征图，如C2、C3、C4和C5。卷积神经网络可以是较为经典的用于语义分割的卷积神经网络。示例性的，ResNet(残差网络)、VGG(VisualGeometry Group Network，视觉几何群网络)、MobileNet(轻量化网络)等,可以得到各个尺寸的特征图，该特征图包含了文档图像里的丰富细节。

S420、在另一个分支中，将文档图像输入已经训练好的OCR引擎中，也就是文本识别技术，得到文档图像中各个文本框(字段)的文本字符以及位置特征。

S430、将各文本框中的文本字符，串行拼接成为一个完整的长段文本字符，输入到文本语义提取模块中，提取出各文本框中各文本字符的语义特征。示例性的，文本语义提取模块可以是ERNIE(Enhanced Representation through Knowledge Integration，语义理解框架)。根据各个文本框的位置特征，将语义特征2维化。

2维化，具体的，就是将每一个文本框中的所有字符的语义特征向量，进行累加平均操作，并映射回文档图像的相应位置当中，组建成一个2维的特征图。

S440、当S410中的图像特征提取模块，根据图像特征提取层依次执行C2层和conv3_1层时，将S430中得到的2维的特征图，连接到S410中得到图像特征图的conv3_1层中，并在其后通过搭建卷积层，生成C3层融合特征图。其中，搭建的卷积层的分辨率与conv3_1层的分辨率相同。在C3层之后顺序执行C4层和C5层。

S450、将C5层得到的融合特征图依次输入到反卷积层(图像上采样层)中，并将输出的上采样图P5～P2进行融合，生成最终的图像语义图，也就是P融合。

S460、将S450中的P融合，输入到全局平均池化(Global Average Pooling)层，提取出代表能代表整个文档图像的多模态特征，并输入到其后的卷积分类器中，获得最终的文档分类结果，并输出最终的文档分类结果。

本公开实施例的技术方案，通过将文档图像输入图像特征提取模块，在图像提取模块提取各图像特征图的过程中，按照文本框在文档图像中的位置，将文本关联特征与至少一层图像特征图进行融合，得到融合特征图，基于特征提取模块最终输出的多模态特征进行图像分类识别，确定文档图像的分类结果，通过在图像提取模块提取各图像特征图的过程中，将文本关联特征与图像特征图进行融合，使得文本关联特征直接融入特征提取图中继续处理，而无需设置额外的复杂融合模型，所以降低了图像分类方法的整体复杂度，减少了计算量的增加程度，在文本关联特征与图像特征图融合的过程中，考虑了文本框在文档图像中的位置，使得融合特征图的获取过程融入了文本框的位置信息，从而在根据多模态特征进行图像分类识别时，提高了图像识别的准确度。

根据本公开的实施例，图5是本公开实施例中的一种图像分类装置的结构图，本公开实施例适用于运行图像分类方法的情况。该装置采用软件实现，并具体配置于具备一定数据运算能力的电子设备中。

如图5所示的一种图像分类装置500，包括：图像输入模块501、融合生成模块502和分类结果确定模块503。其中，

图像输入模块501，用于将文档图像输入图像特征提取模块中；其中，所述图像特征提取模块包括顺序相连的至少两层图像特征提取层，用于顺序提取图像特征图；

融合生成模块502，用于在所述图像特征提取模块顺序提取各图像特征图的过程中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合，以形成融合特征图；

分类结果确定模块503，基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生。

进一步的，所述图像特征提取层为卷积神经网络，所述图像特征提取模块的各图像特征提取层用于对输入图进行下采样处理。

进一步的，融合生成模块502具体用于：将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与位于中间的图像特征提取层所提取的图像特征图进行融合。

进一步的，所述特征提取模块还包括顺序相连的至少两层图像上采样层，则分类结果确定模块503包括：图像语义图确定单元，用于将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图；分类结果确定单元，用于根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果。

进一步的，分类结果确定单元包括：多模态特征获取子单元，用于将所述图像语义图输入全局平均池化层进行处理，以输出多模态特征；分类结果确定子单元，用于将所述多模态特征输入卷积分类器进行图像分类识别，以确定所述文档图像的分类结果。

进一步的，图像语义图确定单元包括：上采样图确定子单元，用于将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，以得到多个上采样图；图像语义图确定子单元，用于将所述多个上采样图调整至相同分辨率，并进行叠加，以输出图像语义图。

进一步的，所述文本关联特征为所述文本框在所述文档图像中的位置特征和/或语义特征。

进一步的，融合生成模块502具体用于：将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加。

进一步的，该装置还包括：融合卷积模块，用于将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加之后，将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层进行卷积处理。

进一步的，该装置，还包括：

位置特征获取模块，用于将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合之前，采用文本识别技术对所述文档图像进行文本识别，以检测确定所述文档图像中的至少一个文本框，以获取所述文本框的位置特征；语义特征获取模块，用于检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征。

进一步的，语义特征获取模块包括：字符语义获取单元，用于将至少一个文本框的文本字符，串行拼接后，输入文本语义提取模块中，以分别确定每个文本框的文本字符的语义特征；文本框语义获取单元，用于将每个文本框中各文本字符的语义特征进行融合，作为所述文本框的语义特征。

上述图像分类装置可执行本公开任意实施例所提供的图像分类方法，具备执行图像分类方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图6所示，设备600包括计算单元601，其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序，来执行各种适当的动作和处理。在RAM 603中，还可存储设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

设备600中的多个部件连接至I/O接口605，包括：输入单元606，例如键盘、鼠标等；输出单元607，例如各种类型的显示器、扬声器等；存储单元608，例如磁盘、光盘等；以及通信单元609，例如网卡、调制解调器、无线通信收发机等。通信单元609允许设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理，例如图像分类方法。例如，在一些实施例中，图像分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元608。在一些实施例中，计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到设备600上。当计算机程序加载到RAM 603并由计算单元601执行时，可以执行上文描述的图像分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元601可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行图像分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)区块链网络和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

云计算(cloud computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种图像分类方法，包括：

基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生；

其中，所述图像特征提取层为卷积神经网络，所述图像特征提取模块的各图像特征提取层用于对输入图进行下采样处理；

所述特征提取模块还包括顺序相连的至少两层图像上采样层，则基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果包括：

将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图；

根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果。

2.根据权利要求1所述的方法，其中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合包括：

将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与位于中间的图像特征提取层所提取的图像特征图进行融合。

3.根据权利要求1所述的方法，其中，根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果包括：

将所述图像语义图输入全局平均池化层进行处理，以输出多模态特征；

将所述多模态特征输入卷积分类器进行图像分类识别，以确定所述文档图像的分类结果。

4.根据权利要求1所述的方法，其中，将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图包括：

将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，以得到多个上采样图；

将所述多个上采样图调整至相同分辨率，并进行叠加，以输出图像语义图。

5.根据权利要求1所述的方法，其中，所述文本关联特征为所述文本框在所述文档图像中的位置特征和/或语义特征。

6.根据权利要求5所述的方法，其中，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合包括:

将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加。

7.根据权利要求6所述的方法，将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加之后，还包括：

将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层进行卷积处理。

8.根据权利要求5所述的方法，将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合之前，还包括：

采用文本识别技术对所述文档图像进行文本识别，以检测确定所述文档图像中的至少一个文本框，以获取所述文本框的位置特征；

检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征。

9.根据权利要求8所述的方法，其中，检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征包括：

将至少一个文本框的文本字符，串行拼接后，输入文本语义提取模块中，以分别确定每个文本框的文本字符的语义特征；

将每个文本框中各文本字符的语义特征进行融合，作为所述文本框的语义特征。

10.一种图像分类方装置，包括：

分类结果确定模块，基于所述特征提取模块最终输出的多模态特征进行图像分类识别，以确定所述文档图像的分类结果；其中，所述多模态特征至少基于所述融合特征图而产生；

所述特征提取模块还包括顺序相连的至少两层图像上采样层，则所述分类结果确定模块包括：

图像语义图确定单元，用于将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，输出图像语义图；

分类结果确定单元，用于根据所述图像语义图确定多模态特征，并根据所述多模态特征进行图像分类识别，以确定所述文档图像的分类结果。

11.根据权利要求10所述的装置，其中，所述融合生成模块具体用于：

12.根据权利要求10所述的装置，其中，所述分类结果确定单元包括：

多模态特征获取子单元，用于将所述图像语义图输入全局平均池化层进行处理，以输出多模态特征；

分类结果确定子单元，用于将所述多模态特征输入卷积分类器进行图像分类识别，以确定所述文档图像的分类结果。

13.根据权利要求10所述的装置，其中，所述图像语义图确定单元包括：

上采样图确定子单元，用于将所述特征提取模块最后一个图像特征提取层输出的融合特征图，输入第一个图像上采样层，并通过各图像上采样层顺序处理，以得到多个上采样图；

图像语义图确定子单元，用于将所述多个上采样图调整至相同分辨率，并进行叠加，以输出图像语义图。

14.根据权利要求10所述的装置，其中，所述文本关联特征为所述文本框在所述文档图像中的位置特征和/或语义特征。

15.根据权利要求14所述的装置，其中，所述融合生成模块具体用于：

16.根据权利要求15所述的装置，其中，还包括：

融合卷积模块，用于将所述位置特征或语义特征的向量，按照文本框在所述文档图像中的位置，与至少一层图像特征图中对应像素位置的图像特征向量进行拼接或累加之后，将拼接或累加后的融合特征图，输入同分辨率的图像特征提取层进行卷积处理。

17.根据权利要求14所述的装置，还包括：

位置特征获取模块，用于将所述文档图像中文本框的文本关联特征，按照文本框在所述文档图像中的位置，与至少一层图像特征图进行融合之前，采用文本识别技术对所述文档图像进行文本识别，以检测确定所述文档图像中的至少一个文本框，以获取所述文本框的位置特征；

语义特征获取模块，用于检测确定所述文本框中的文本字符，并根据所述文本字符确定提取所述文本框的语义特征。

18.根据权利要求17所述的装置，其中，所述语义特征获取模块包括：

字符语义获取单元，用于将至少一个文本框的文本字符，串行拼接后，输入文本语义提取模块中，以分别确定每个文本框的文本字符的语义特征；

文本框语义获取单元，用于将每个文本框中各文本字符的语义特征进行融合，作为所述文本框的语义特征。

19.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-9中任一项所述的图像分类方法。

20.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-9中任一项所述的图像分类方法。