CN114429637A

CN114429637A - 一种文档分类方法、装置、设备及存储介质

Info

Publication number: CN114429637A
Application number: CN202210041761.6A
Authority: CN
Inventors: 李煜林; 曹健健; 钦夏孟; 章成全; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-01-14
Filing date: 2022-01-14
Publication date: 2022-05-03
Anticipated expiration: 2042-01-14
Also published as: CN114429637B

Abstract

本公开提供了一种文档分类方法、装置、设备及存储介质，涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于OCR等场景。具体实现方案为：获得待分类文档的图像；提取所述图像的图像特征，并对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；获得所得文本的文本特征；按照各文本特征所对应文本的文本位置信息，将各文本特征融合至所述图像特征，得到融合特征；基于所述融合特征，对所述待分类文档进行分类。应用本公开实施例提供的方案，能够实现对文档的分类。

Description

一种文档分类方法、装置、设备及存储介质

技术领域

本公开涉及人工智能技术领域，具体为深度学习、计算机视觉技术领域，可应用于OCR(Optical Character Recognition，光学字符识别)等场景。

背景技术

在自动化办公场景中，一般会涉及多种不同类型的文档，针对每种类型的文档，往往需要进行不同的处理。例如，在差旅报销场景中，可能会涉及增值税发票、出租车票、火车票、行程单等票据文档，每种票据文档的核验方式不相同；在病案分析场景中，可能会存在病例单、处方单、病案首页、检查报告等病案文档，每种病案文档的分析方式不同。

鉴于上述情况，需要提供一种文档分类的方法，对文档进行分类，以按照分类结果准确的对文档进行处理。

发明内容

本公开提供了一种文档分类方法、装置、设备及存储介质。

根据本公开的一方面，提供了一种文档分类方法，包括：

获得待分类文档的图像；

提取所述图像的图像特征，并对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；

获得所得文本的文本特征；

按照各文本特征所对应文本的文本位置信息，将各文本特征融合至所述图像特征，得到融合特征；

基于所述融合特征，对所述待分类文档进行分类。

根据本公开的另一方面，提供了一种文档分类装置，包括：

图像获得模块，用于获得待分类文档的图像；

图像特征提取模块，用于提取所述图像的图像特征；

文本检测模块，用于对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；

文本特征获得模块，用于获得所得文本的文本特征；

特征融合模块，用于按照各文本特征所对应文本的文本位置信息，将各文本特征融合至所述图像特征，得到融合特征；

文档分类模块，用于基于所述融合特征，对所述待分类文档进行分类。

根据本公开的另一方面，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述文档分类方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述文档分类方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述文档分类方法。

由以上可见，本公开实施例提供的方案中，不仅获取了文档的图像的图像特征，还获取了图像中文本的文本特征，在此基础上，根据图像中文本的位置信息，对图像特征和文本特征进行融合，得到融合特征，然后基于上述融合特征对文档进行分类。这样对文档进行分类时不仅考虑了图像特征，还兼顾了文本特征，使得文档分类过程中考虑的信息更加丰富、全面，因而能够有效地对文档进行分类。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1为本公开实施例提供的第一种文档分类方法的流程示意图；

图2为本公开实施例提供的第二种文档分类方法的流程示意图；

图3为本公开实施例提供的第三种文档分类方法的流程示意图；

图4为本公开实施例提供的一种空间特征图的构建示意图；

图5为本公开实施例提供的一种文本特征图的构建示意图；

图6为本公开实施例提供的第一种文档分类装置的结构示意图；

图7为本公开实施例提供的第二种文档分类装置的结构示意图；

图8为本公开实施例提供的第三种文档分类装置的结构示意图；

图9是用来实现本公开实施例的文档分类方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

下面对本公开实施例提供的文档分类方法进行具体说明。

参见图1，图1为本公开实施例提供的第一种文档分类方法的流程示意图，上述方法包括以下步骤S101-S106。

步骤S101：获得待分类文档的图像。

上述待分类文档是实际场景中需要进行分类的文档，因实际场景的不同而不同。例如，在差旅报销场景中，上述待分类文档可以是增值税发票、出租车票、火车票、行程单等票据文档；在病案分析场景中，上述待分类文档可以是病例单、处方单、病案首页、检查报告等病案文档。

上述待分类文档的图像可以由拍摄设备对待分类文档进行拍摄后得到，也可以由文档扫描设备对待分类文档进行扫描后得到。

上述图像可以是二维数据，也可以是三维数据或者更多维的数据。在上述图像为三维数据的情况下，三个维度可以分别是：宽度维度、高度维度和深度维度，其中，深度维度的取值可以由图像的通道数决定。如，假设上述图像为RGB格式的图像，则该图像具有三个通道，分别为R通道、G通道和B通道，则该图像在深度维度的取值可以为1、2、3。

步骤S102：提取图像的图像特征。

由于图像主要是通过画面向用户传递信息，用户也主要是通过视觉获取图像的画面所传递的信息，因此，可以认为上述图像特征表征图像的视觉信息。

本步骤中图像的图像特征可以以各种不同的数据形式呈现，本公开实施例对上述图像特征的数据形式不做限定。例如，上述图像特征的数据形式可以是向量，这种情况下上述图像特征可以被称为特征向量，上述图像特征的数据形式还可以是图像，这种情况下上述图像特征可以被称为特征图(Feature Map)，具体的，上述特征图的分辨率可以与待分类文档的图像的分辨率相同，也可以不相同。

在提取上述图像的图像特征时，可以基于现有技术中已有的特征提取方式提取上述图像的特征，例如，基于边缘提取算子提取图像的特征、基于纹理特征提取算法提取图像的特征等，本公开实施例并不限定提取图像特征的方式。

提取图像特征的其他实现方式还可以参见后续图3所示实施例中步骤S303，这里暂不详述。

步骤S103：对图像进行文本检测，得到图像中的文本以及文本位置信息。

上述文本位置信息用于表示单个文本在图像中的位置。具体的，文本位置信息可以通过多种形式呈现，例如，第一种情况，文本位置信息可以包括：连续文本在图像中所占区域的位置和单个文本的宽度，第二种情况，文本位置信息可以包括：单个文本在图像中所占区域的位置，第三种情况，文本位置信息可以包括：一行文本在图像中所占区域的第一位置和各单个文本在图像中所占区域的第二位置相对于第一位置的偏移，第四种情况，文本位置信息可以包括：所有文本在图像中所占区域的第三位置和上述第二位置相对于第三位置的偏移。

需要说明的是，本公开实施例仅仅以上述为例进行说明，并不对文本位置信息的具体呈现形式进行限定，只要能够表示单个文本在图像中的位置即可。

具体的，可以使用OCR技术对图像进行文本检测。

图像中的文本受实际场景影响，在图像中可能是以行为单位连续排列的，也可能是散乱排列的。下面结合文本在图像中的排列方式，通过不同的实施方式，对文本检测方式进行说明。

一种实施方式中，可以识别图像中的行文本区域，对各个行文本区域进行文本检测，得到图像中的文本，并根据各个行文本区域的位置得到各个行文本区域中文本对应的文本位置信息。

行文本区域可以是图像中一行文本所占区域的最小外接矩形区域。

下面列举两种这种情况下得到各个行文本区域中文本对应的文本位置信息的方式。

第一种方式，可以基于行文本区域左上角顶点坐标和预设的单个文本的宽度，确定行文本区域中各个文本的位置信息，将所确定的信息作为行文本区域中文本对应的文本位置信息。

第二种方式，可以基于行文本区域左上角顶点坐标和各单个文本相对于上述左上角顶点坐标的偏移，确定行文本区域中各个文本的位置信息，将所确定的信息作为行文本区域中文本对应的文本位置信息。

由于行文本区域表示的是一行文本所在的区域，这样基于行文本区域进行文本检测能够减少其他区域中的文本对正在进行文本检测的区域产生干扰，进而减少了文本检测的误差，提高了文本检测的准确度。

另一种实施方式中，在对图像进行文本检测时，可以识别图像中的文本区域，对文本区域进行逐文本检测，得到图像中的文本以及文本位置信息。

上述文本区域可以为图像中所有文本所占区域的最小外接矩形区域。

下面列举两种这种情况下得到图像中的文本位置信息的方式。

第一种方式，可以基于文本区域左上角顶点坐标和各单个文本相对于上述左上角顶点坐标的偏移，确定文本区域中各个文本的位置信息，将所确定的信息作为图像中的文本位置信息。

第二种方式，可以获得图像中每个文本字符所占区域的最小外接矩形区域，基于上述矩形区域四个顶点的坐标，确定各个文本的位置信息，将所确定的信息图像中的文本位置信息。

识别整个图像的文本区域后，在整个文本区域中进行文本检测，这样进行一次文本区域识别后即可基于这一个文本区域获取图像中的各个文本以及文本的位置信息，提高了文本检测的效率。

需要说明的是，本公开实施例并不限定上述步骤S102和S103之间的执行顺序，两个步骤可以并行执行，也可以串行执行。

步骤S104：获得所得文本的文本特征。

具体的，可以通过以下方式获得文本的文本特征。

一种实施方式中，可以基于现有技术中已有的文本特征获取方式获取文本的文本特征。例如，基于One-Hot编码(独热编码)对所得文本编码进而获得文本特征、基于Word2vec模型提取所得文本的文本特征等。

另一种实施方式中，可以采用字符编码算法对所得文本中每个字符进行编码，得到每个字符第一维的字符向量，然后可以通过下述两种不同的方式，基于所得到的字符向量，获得上述文本特征。

其中，上述第一维的取值等于上述图像的图像特征在深度维度的取值。例如，若上述图像在深度维度的取值为3，则可以使用字符编码算法，将文本中每个字符编码为3维的字符向量。

得到上述字符向量后，可以通过以下方法获得文本特征。

第一种方法，可以按照字符在文本行中的排列顺序，将属于同一文本行的字符的字符向量拼接为一个字符序列，对拼接所得字符序列进行编码，得到图像的文本特征，例如，上述字符在文本行中的排列顺序可以是字符在文本行中从左到右的排列顺序。具体的，上述对拼接所得字符序列进行编码来获得文本特征时，可以将上述拼接所得字符序列输入BilSTM(Bi-directional Long Short-Term Memory networks，双向长短期记忆网络)模型，由BilSTM模型对上述拼接所得字符序列进行编码，并输出文本特征。

本方式中以文本行为单位构建字符序列，并对所得字符序列进行编码获取文本特征，这样减小了进行文本特征编码的字符序列的粒度，进而降低了其他文本对文本特征的干扰。

第二种方式，可以按照字符在图像中的排列顺序，将各字符的字符向量拼接为一个字符序列，对拼接所得字符序列进行编码，得到图像的文本特征。

例如，上述字符在图像中的排列顺序可以是逐文本行、且同一文本行中字符从左到右的排列顺序。

具体的，对拼接所得字符序列进行编码进而获得文本特征时，也可以使用前述BilSTM模型进行编码输出编码结果，将编码结果作为文本特征。

本方式中将图像中全部字符构建为一个字符序列，对该字符序列进行编码获取文本特征，这样只需对一个字符序列进行一次编码即可得到文本特征，有效减少了进行编码的次数。

步骤S105：按照各文本特征所对应的文本位置信息，将各文本特征融合至图像特征，得到融合特征。

单个文本在图像中占据一定区域，且每个文本具有文本特征，由此可知每个文本在图像中占据的区域与文本特征相对应。

由于上述区域在图像中的位置可以通过文本位置信息描述，所以，可以基于上述文本位置信息，确定各文本在图像中的区域，然后在图像特征中确定与上述区域相对应的图像特征，将所确定的图像特征与上述区域对应的文本特征进行融合，进而得到融合特征。

本公开的一个实施例中，对于同一区域而言，可以将该区域对应的文本特征和该区域对应的图像特征相加的方式实现特征融合。

步骤S106：基于融合特征，对待分类文档进行分类。

下面对基于融合特征实现文档分类的实施方式进行说明。

一种实施方式中，可以预先设定不同文档类型对应的设定融合特征，在得到上述融合特征后，计算上述融合特征与各设定融合特征之间的相似度，基于计算所得相似度对待分类文档进行分类。

例如，可以计算上述融合特征和各设定融合特征的欧式距离，然后根据计算所得欧式距离，获得上述融合特征和各设定融合特征之间的相似度。上述融合特征和各预设融合特征的欧式距离越小，可以认为上述特征间的相似度越大。

具体的，基于计算所得相似度对待分类文档进行分类时，可以将最大相似度所对应设定融合特征对应的文档分类确定为待分类文档的分类；当然，也可以将大于预设相似度阈值的相似度所对应设定融合特征对应的文档分类确定为待分类文档的分类。

另一种实施方式中，对待分类文档的图像进行特征提取、特征融合以及确定待分类文档的分类可以一并通过预先训练的分类网络模型实现。

例如，上述分类网络模型可以是基于ResNet-50(Residual Neural Network-50，残差神经网络-50)架构的网络模型，该分类网络模型中包括ResNet-50的基础子模型、全连接层和softmax层。这样可以将待分类文档的图像输入ResNet-50的基础子模型得到上述融合特征，然后将上述融合特征输入全连接层，全连接层对上述融合特征与预设类别文档的特征进行映射比对，并输出上述融合特征与各预设类别文档的特征的相似概率向量，然后softmax层使用softmax函数(归一化指数函数)将上述各概率向量转换为概率值，取上述最高概率值对应的预设文档类别作为上述待分类文档的类别。

另外，本公开实施例提供的方案中在进行特征融合时，还结合了文本的位置信息，这样使得得到的融合特征能够体现文本在图像中的位置，进而，基于融合特征对文档进行分类，能够提高文档分类的准确度。

在进行特征融合时，除了前述图1所示实施例中对文本特征和图像特征进行融合外，还可以获得上述图像的空间特征并参与到特征融合中，以获得更加丰富的融合特征。具体可以参见下述图2所示实施例。

参见图2，图2为本公开实施例提供的第二种文档分类方法的流程示意图，上述方法包括以下步骤S201-S207。

步骤S201：获得待分类文档的图像。

上述步骤S201与前述图1所示实施例中的步骤S101相同，这里不再赘述。

步骤S202：获得图像中各像素点对应的空间特征。

具体的，可以采用以下方式获得图像中各像素点对应的空间特征。

一种实施方式中，可以获得图像中各像素点的二维坐标，将该二维坐标作为各像素点对应的空间特征。

另一种实施方式中，获得图像中各像素点的二维坐标之后，可以针对每一像素点，对该像素点的二维坐标进行编码，生成第一维的特征向量，作为该像素点的空间特征。

其中，上述第一维的取值等于上述图像的图像特征在深度维度的取值。

例如，若图像特征在深度维度的取值为3，此时可以针对每一像素点，使用编码算法，将该像素点的二维坐标编码为3维的特征向量，作为该像素点的空间特征。

由于通过编码使得各像素点的空间特征维度与图像特征在深度维度的取值相同，这样在特征融合时，能够使得空间特征和图像特征进行有效对齐。

步骤S203：提取图像的图像特征。

步骤S204：对图像进行文本检测，得到图像中的文本以及文本位置信息。

步骤S205：获得所得文本的文本特征。

上述步骤S203-S205与前述图1所示实施例中的步骤S102-104相同，这里不再赘述。

步骤S206：按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，将各文本特征和空间特征融合至图像特征，得到融合特征。

从前面步骤S105处的描述可以得知，每个文本在图像中占据的区域可以通过该文本对应的文本位置信息描述，上述区域在图像中又是基于像素点位置描述的，所以根据上述文本位置信息以及各空间像素点对应的像素点位置，能够确定出上述区域对应文本特征以及空间特征，又由于能够在图像特征中确定出上述区域对应的图像特征，这样能够对同一区域对应的文本特征、空间特征以及图像特征进行融合，得到融合特征。

本公开的一个实施例中，可以按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，对上述图像特征、文本特征和空间特征中对应同一像素点的特征进行相加，得到融合特征。

具体的，针对每一像素点，基于该像素点的二维坐标，判断上述二维坐标是否属于各文本字符区域，若为是，则将对应于该像素点二维坐标的空间特征、图像特征和文本特征进行特征相加，得到融合特征；若为否，则仅将对应于该像素点二维坐标的空间特征和图像特征进行特征相加，得到融合特征。

上述方式中通过特征相加的方式实现特征融合，这一融合方式快捷、简便、计算量小，能够提高获取融合特征的效率。

下面从融合顺序的角度对文本特征、空间特征以及图像特征的融合过程进行说明。

第一种方式，在确定待进行融合的文本特征、空间特征以及图像特征后，可以先将各文本特征融合至图像特征，得到中间特征，然后再将空间特征与上述中间特征进行融合，得到融合特征。

第二种方式，在确定待进行融合的文本特征、空间特征以及图像特征后，可以先将空间特征与图像特征进行融合，得到中间特征；再将文本特征与中间特征进行融合，得到融合特征。

步骤S207：基于融合特征，对待分类文档进行分类。

上述步骤S207与前述图1所示实施例中的步骤S106相同，这里不再赘述。

由以上可见，本实施例提供的方案中，在图像特征和文本特征的基础上，还获取了图像的空间特征，结合文本位置信息融合图像特征、文本特征和空间特征，这样使得融合特征可以表征的信息更加丰富，进而在基于上述融合特征进行文档分类时，进一步提高了文档分类的准确度。

在进行特征融合时，除了前述图2所示实施例中步骤S206处提及的实现方式外，还可以通过下述图3所示实施例实现。

参见图3，图3为本公开实施例提供的第三种文档分类方法的流程示意图，上述方法包括以下步骤S301-S310。

步骤S301：获得待分类文档的图像。

步骤S302：获得图像中各像素点对应的空间特征。

上述步骤S301-S302分别与前述图2所示实施例中的步骤S201-202相同，这里不再赘述。

步骤S303：对图像进行特征特征提取，得到图像特征图。

对图像进行特征提取之后，所得特征可以以特征图的形式呈现，称为图像特征图。

上述图像特征图在各维度上的大小可能与待分类文档的图像在各维度上的大小相同，也可能与待分类文档的图像在各维度上的大小不相同，本公开实施例并不对此进行限定。

例如，采用预先训练的卷积神经网络模型对待分类文档的图像进行特征提取时，随着所选用卷积核的不同，得到的图像特征图在各维度上的大小不同。

步骤S304：对图像进行文本检测，得到图像中的文本以及文本位置信息。

步骤S305：获得所得文本的文本特征。

上述步骤S304-S305分别与前述图2所示实施例中的步骤S204-205相同，这里不再赘述。

步骤S306：基于各像素点对应的空间特征，生成与图像特征图维度相同的空间特征图。

一种实施方式中，由前述实施例方式可以得知，每一像素点的空间特征可以以第一维的特征向量的形式表示，且第一维的取值等于上述图像的图像特征在深度维度的取值，因此，可以将各像素点的空间特征中对应深度维度不同取值的各元素值拆分开，获得由上述对应于深度维度不同取值的各元素值构建的空间特征图。由于空间特征是与待分类文档的图像中各个像素点相对应的，所以，空间特征图与待分类文档的图像在各维度上的大小相同。鉴于该情况，在空间特征图与图像特征图在各维度上的大小不相同的情况下，可以基于图像特征图在各维度上的大小对空间特征图进行缩放，进而得到与图像特征图维度相同的空间特征图，这时空间特征图与图像特征图在各个维度上的大小也是相同的。

例如，若各像素点的空间特征为3维特征向量，则可以构建3张对应深度维度不同取值的空间特征图。

下面结合图4，对空间特征图的构建过程进行说明，参见图4，示出了一种空间特征图的构建示意图。左侧3个矩形表示3张对应深度维度不同取值的空间特征图，右侧矩形表示待分类文档的图像，右侧矩形中的正方形A表示图像中一个像素点，该像素点对应的空间特征以特征向量表示为(a,b,c)。以该像素点为例，可以将对应于该像素点位置的各空间特征图中的特征值设置为A对应的空间特征中的不同元素，设置后三张空间特征图中对应于A像素点处像素点的像素值如图4中左侧所示。以上述方式设置三张空间特征图中的各个像素点的像素值后，可以获得三张空间特征图。

步骤S307：对图像特征图和空间特征图进行图像相加，得到中间特征图。

由于图像特征图和空间特征图是同维度的，因此，可以按照图像中像素点的位置将上述两种特征图进行图像相加，得到中间特征图。

步骤S308：获得与图像特征图维度相同的文本特征图，其中，文本特征图中对应于文本位置的特征值基于各文本特征设定、且其他位置的特征值为0。

具体的，可以采用以下方式构建文本特征图。

一种实施方式中，在待构建的文本特征图与待分类文档的图像大小相同的情况下，可以确定待分类文档的图像中各文本所在的区域，称为文本字符区域，然后将待构建的文本特征图中第一区域的特征值确定为上述文本字符区域对应的文本特征，将待构建的文本特征图中第二区域的特征值确定为0，然后基于所确定的各区域对应的特征值构建出文本特征图。

上述待构建的文本特征图与待分类文档的图像大小相同，表示待构建的文本特征图与待分类文档的图像不仅维度相同，且在各个维度的大小相同。

第一区域为：待构建的文本特征图中与上述文本字符区域相对应的区域，第二区域为：待构建的文本特征图中除第一区域之外的区域。

由于图像特征图的大小可能与待分类文档的图像的大小不相同，所以，在上述两种图像大小不相同的情况下，构建出文本特征图之后，还需要基于图像特征图的大小对文本特征图进行缩放。

另一种实施方式中，可以先构建一个特征值均为0、且维度与上述图像特征图的维度相同的文本特征图，然后分以下两种情况设置文本特征图的特征值。

第一种情况，在图像特征图与待分类文档的图像大小不相同时，基于图像特征图和待分类文档的图像的大小确定特征缩放比例，根据上述特征缩放比例对各文本特征进行缩放，将文本特征图中对应于文本位置的特征值设置为缩放后的各文本特征。

例如，若上述待分类文档的图像的大小为100×100像素，得到了大小为50×50像素的图像特征图，那么缩放比例为1/2，因此，需要将各文本特征缩小为原来的1/2，然后将文本特征图中对应于文本位置的特征值设置为缩小后的各文本特征。

第二种情况，在图像特征图与待分类文档的图像大小相同时，可以直接将文本特征图中对应于文本位置的特征值设置为各文本特征。

上述图像特征图与待分类文档的图像大小相同，表示图像特征图与待分类文档的图像不仅维度相同、且在各个维度的大小相同，由于前述所构建的特征值均为0的文档特征图的维度与图像特征图的维度相同，文档特征图又是体现待分类文档的图像中各个位置处文本的特征的图像，所以，待构建的文本特征图与待分类文档的图像不仅维度相同、且在各个维度的大小相同。

具体的，下面结合图5对文本特征图的构建过程进行说明，参见图5，示出了一种文本特征图的构建示意图，图中矩形方框表示文本特征图，文本特征图中各个特征值均为0。矩形方框中的正方形方框表示文本特征图中与各文本字符区域对应的区域，将正方形方框所表示区域的特征值设置为其所对应文本字符区域对应的特征值，这样即可完成文本特征图的构建。

从前面的描述可以看出，上述实施例中可以基于图像特征图与待分类文档的图像的大小，决定各文本特征是否需要缩放，以及需要缩放时的缩放比例，然后将文本特征图中对应于文本位置的特征值设置为各文本特征，这样提高了所获取的文本特征图的准确度。

步骤S309：对中间特征图和文本特征图进行图像相加，得到融合特征。

由于中间特征图与文本特征图是同维度的，图像特征图、空间特征图以及文本特征图又可以在各个维度上缩放为相同大小，因此，可以按照像素位置将中间特征图和文本特征图进行图像相加，得到融合特征。

步骤S310：基于融合特征，对待分类文档进行分类。

上述步骤S310与前述图2所示实施例中的步骤S207相同，这里不再详述。

由以上可见，本实施例提供的方案中，以特征图的方式获得了图像特征图和空间特征图，并基于文本特征构建了文本特征图，这样可以使用图像相加的方式融合图像特征、空间特征和文本特征，进一步提高了特征融合的效率。

与上述文档分类方法相对应的，本公开还提供了一种文档分类装置。

参见图6，图6为本公开实施例提供可以的第一种文档分类装置的结构示意图，上述装置包括以下模块601-606。

图像获得模块601，用于获得待分类文档的图像；

图像特征提取模块602，用于提取所述图像的图像特征；

文本检测模块603，用于对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；

文本特征获得模块604，用于获得所得文本的文本特征；

特征融合模块605，用于按照各文本特征所对应文本的文本位置信息，将各文本特征融合至所述图像特征，得到融合特征；

文档分类模块606，用于基于所述融合特征，对所述待分类文档进行分类。

本公开的一个实施例中，所述文本检测模块603，具体用于：

识别所述图像中的行文本区域，对各个行文本区域进行文本检测，得到所述图像中的文本，并根据各个行文本区域的位置得到各个行文本区域中文本对应的文本位置信息；

或

识别所述图像中的文本区域，对所述文本区域进行逐文本检测，得到所述图像中的文本以及文本位置信息。

另外，识别整个图像的文本区域后，在整个文本区域中进行文本检测，这样进行一次文本区域识别后即可基于这一个文本区域获取图像中的各个文本以及文本的位置信息，提高了文本检测的效率。

本公开的一个实施例中，所述文本特征获得模块604，具体用于：

对所得文本中每个字符进行编码，得到每个字符第一维的字符向量，其中，所述第一维的取值等于所述图像特征在深度维度的取值；

按照字符在文本行中的排列顺序，将属于同一文本行的字符的字符向量拼接为一个字符序列，对拼接所得字符序列进行编码，得到文本特征；

或

按照字符在所述图像中的排列顺序，将各字符的字符向量拼接为一个字符序列，对所得字符序列进行编码，得到文本特征。

本方式中以文本行为单位构建字符序列，并对所得字符序列进行编码获取文本特征，这样减小了进行文本特征编码的字符序列的粒度，进而降低了其他文本的干扰。

另外，本方式中将图像中全部字符构建为一个字符序列，对该字符序列进行编码获取文本特征，这样只需对一个字符序列进行一次编码即可得到文本特征，有效减少了进行编码的次数。

参见图7，图7为本公开实施例提供的第二种文档分类装置的结构示意图，上述装置包括以下模块701-707。

图像获得模块701，用于获得待分类文档的图像；

空间特征获得模块702，用于在所述图像获得模块获得待分类文档的图像之后获得所述图像中各像素点对应的空间特征；

图像特征提取模块703，用于提取所述图像的图像特征；

文本检测模块704，用于对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；

文本特征获得模块705，用于获得所得文本的文本特征；

特征融合模块706，用于按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，将各文本特征和空间特征融合至所述图像特征，得到融合特征；

文档分类模块707，用于基于所述融合特征，对所述待分类文档进行分类。

本公开的一个实施例中，所述空间特征获得模块702，具体用于：

获得所述图像中各像素点的二维坐标；针对每一像素点，对该像素点的二维坐标进行编码，生成第一维的特征向量，作为该像素点的空间特征，其中，所述第一维的取值等于所述图像特征在深度维度的取值。

本公开的一个实施例中，所述特征融合模块706，具体用于：

按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，对所述图像特征、文本特征和空间特征中对应同一像素点的特征进行相加，得到融合特征。

参见图8，图8为本公开实施例提供的第三种文档分类装置的结构示意图，上述装置包括以下模块801-808。

图像获得模块801，用于获得待分类文档的图像；

空间特征获得模块802，用于获得所述图像中各像素点对应的空间特征；

图像特征提取模块803，用于对所述图像进行特征提取，得到图像特征图；

文本检测模块804，用于对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息；

文本特征获得模块805，用于获得所得文本的文本特征；

空间特征图生成模块806，用于在所述空间特征获得模块获得空间特征之后，基于各像素点对应的空间特征，生成与所述图像特征图维度相同的空间特征图；

特征融合模块807，用于对所述图像特征图和空间特征图进行图像相加，得到中间特征图；获得与所述图像特征图维度相同的文本特征图，其中，所述文本特征图中对应于文本位置的特征值基于各文本特征设定、且其他位置的特征值为0；对所述中间特征图和文本特征图进行图像相加进行图像融合，得到融合特征。

文档分类模块808，用于基于所述融合特征，对所述待分类文档进行分类。

由以上可见，本实施例提供的方案中，以特征图的方式获得了图像特征图和空间特征图，并基于文本特征构建了文本特征图，这样可以使用图像相加的方式融合图像特征、空间特征和文本特征，进一步提高了上述特征融合的效率。

本公开的一个实施例中，按照以下方式构建所述文本特征图：

构建特征值均为0、且维度与所述图像特征图的维度相同的文本特征图；

在所述图像特征图与所述图像大小不相同的情况下，基于所述图像特征图和所述图像的大小确定特征缩放比例，根据所述特征缩放比例对各文本特征进行缩放，将所述文本特征图中应于文本位置的特征值设置为缩放后的各文本特征；

在所述图像特征图与所述图像大小相同的情况下，将所述文本特征图中应于文本位置的特征值设置为各文本特征。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

本公开的一个实施例中，提供了一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述方法实施例所述的文档分类方法。

本公开的一个实施例中，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行前述方法实施例所述的文档分类方法。

本公开的一个实施例中，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现前述方法实施例所述的文档分类方法。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器(ROM)902中的计算机程序或者从存储单元908加载到随机访问存储器(RAM)903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如文档分类方法。例如，在一些实施例中，文档分类方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的文档分类方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行文档分类方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种文档分类方法，包括：

获得待分类文档的图像；

获得所得文本的文本特征；

基于所述融合特征，对所述待分类文档进行分类。

2.根据权利要求1所述的方法，其中，在所述获得待分类文档的图像之后，还包括：

获得所述图像中各像素点对应的空间特征；

所述按照各文本特征所对应文本的文本位置信息，将各文本特征融合至所述图像特征，得到融合特征，包括：

按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，将各文本特征和空间特征融合至所述图像特征，得到融合特征。

3.根据权利要求2所述的方法，其中，所述按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，将各文本特征和空间特征融合至所述图像特征，得到融合特征，包括：

4.根据权利要求3所述的方法，其中，

所述提取所述图像的图像特征，包括：

对所述图像进行特征提取，得到图像特征图；

在所述获得所述图像中各像素点对应的空间特征之后，还包括：

基于各像素点对应的空间特征，生成与所述图像特征图维度相同的空间特征图；

所述按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，对所述图像特征、文本特征和空间特征中对应同一像素点的特征进行相加，得到融合特征，包括：

对所述图像特征图和空间特征图进行图像相加，得到中间特征图；

获得与所述图像特征图维度相同的文本特征图，其中，所述文本特征图中对应于文本位置的特征值基于各文本特征设定、且其他位置的特征值为0；

对所述中间特征图和文本特征图进行图像相加，得到融合特征。

5.根据权利要求4所述的方法，其中，按照以下方式构建所述文本特征图：

在所述图像特征图与所述图像大小不相同的情况下，基于所述图像特征图和所述图像的大小确定特征缩放比例，根据所述特征缩放比例对各文本特征进行缩放，将所述文本特征图中对应于文本位置的特征值设置为缩放后的各文本特征；

在所述图像特征图与所述图像大小相同的情况下，将所述文本特征图中对应于文本位置的特征值设置为各文本特征。

6.根据权利要求2-5中任一项所述的方法，其中，所述获得所述图像中各像素点对应的空间特征，包括：

获得所述图像中各像素点的二维坐标；

针对每一像素点，对该像素点的二维坐标进行编码，生成第一维的特征向量，作为该像素点的空间特征，其中，所述第一维的取值等于所述图像特征在深度维度的取值。

7.根据权利要求1-5中任一项所述的方法，其中，所述对所述图像进行文本检测，得到所述图像中的文本以及文本位置信息，包括：

或

8.根据权利要求1-5中任一项所述的方法，其中，所述获得所得文本的文本特征，包括：

或

9.一种文档分类装置，包括：

图像获得模块，用于获得待分类文档的图像；

图像特征提取模块，用于提取所述图像的图像特征；

文本特征获得模块，用于获得所得文本的文本特征；

10.根据权利要求9所述的装置，所述装置还包括：

空间特征获得模块，用于在所述图像获得模块获得待分类文档的图像之后获得所述图像中各像素点对应的空间特征；

所述特征融合模块，具体用于按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，将各文本特征和空间特征融合至所述图像特征，得到融合特征。

11.根据权利要求10所述的装置，其中，

所述特征融合模块，具体用于按照各文本特征所对应文本的文本位置信息以及各空间特征对应的像素点位置，对所述图像特征、文本特征和空间特征中对应同一像素点的特征进行相加，得到融合特征。

12.根据权利要求11所述的装置，其中，

所述图像特征提取模块，具体用于对所述图像进行特征提取，得到图像特征图；

所述装置还包括：

空间特征图生成模块，用于在所述空间特征获得模块获得空间特征之后，基于各像素点对应的空间特征，生成与所述图像特征图维度相同的空间特征图；

所述特征融合模块，具体用于对所述图像特征图和空间特征图进行图像相加，得到中间特征图；获得与所述图像特征图维度相同的文本特征图，其中，所述文本特征图中对应于文本位置的特征值基于各文本特征设定、且其他位置的特征值为0；对所述中间特征图和文本特征图进行图像相加进行图像融合，得到融合特征。

13.根据权利要求12所述的装置，其中，按照以下方式构建所述文本特征图：

14.根据权利要求10-13中任一项所述的装置，其中，

所述空间特征获得模块，具体用于获得所述图像中各像素点的二维坐标；针对每一像素点，对该像素点的二维坐标进行编码，生成第一维的特征向量，作为该像素点的空间特征，其中，所述第一维的取值等于所述图像特征在深度维度的取值。

15.根据权利要求9-13中任一项所述的装置，其中，

所述文本检测模块，具体用于识别所述图像中的行文本区域，对各个行文本区域进行文本检测，得到所述图像中的文本，并根据各个行文本区域的位置得到各个行文本区域中文本对应的文本位置信息；

或

具体用于识别所述图像中的文本区域，对所述文本区域进行逐文本检测，得到所述图像中的文本以及文本位置信息。

16.根据权利要求9-13中任一项所述的装置，其中，

所述文本特征获得模块，具体用于对所得文本中每个字符进行编码，得到每个字符第一维的字符向量，其中，所述第一维的取值等于所述图像特征在深度维度的取值；按照字符在文本行中的排列顺序，将属于同一文本行的字符的字符向量拼接为一个字符序列，对拼接所得字符序列进行编码，得到文本特征；或按照字符在所述图像中的排列顺序，将各字符的字符向量拼接为一个字符序列，对所得字符序列进行编码，得到文本特征。

17.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。

18.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。

19.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-8中任一项所述的方法。