CN114419646B

CN114419646B - 图像分类方法、装置、电子设备及存储介质

Info

Publication number: CN114419646B
Application number: CN202210051138.9A
Authority: CN
Inventors: 张秋晖; 王洪斌; 周迅溢; 蒋宁; 吴海英; 曾定衡
Original assignee: Mashang Consumer Finance Co Ltd
Current assignee: Mashang Consumer Finance Co Ltd
Filing date: 2022-01-17
Publication date: 2024-06-28
Anticipated expiration: 2042-01-17

Abstract

本申请提供一种图像分类方法、装置、电子设备及存储介质，方法包括：获取待识别图像，所述待识别图像包括至少一个文本区域；获取每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像；基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量；基于所述特征向量进行图像分类处理。本实施例提高了图像分类的准确度。

Description

图像分类方法、装置、电子设备及存储介质

技术领域

本申请属于文本识别技术领域，尤其涉及一种图像分类方法、装置、电子设备及存储介质。

背景技术

目前，通常采用光学字符识别(Optical Character Recognition，OCR)对相关图像(例如身份证、银行卡、发票、购物小票等)的信息进行通用识别，得到图像上每个字段的位置及其对应识别结果，然后在此基础上进行结构化的操作，例如将身份证上的“姓名”字段与“张三”建立对应关系。此外，目前大部分使用的技术为利用模板进行匹配，即采用一些人工制定的规则来匹配识别结果。可见，该种方法在一些完全固定版式的识别上具有较好的效果，但若存在部分图像的畸变(例如身份证倾斜、被遮挡了字段等)，结构化的效果会变差，分类准确度较低。

发明内容

本申请实施例的目的是提供一种图像分类方法、装置、电子设备及存储介质，用于提高分类识别的准确度。

第一方面，本申请实施例提供了一种图像分类方法，包括：

获取待识别图像，所述待识别图像包括至少一个文本区域；

获取每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像；

基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量；

基于所述特征向量进行图像分类处理。

第二方面，本申请实施例提供了一种图像分类装置，包括：

第一获取模块，用于获取待识别图像，所述待识别图像包括至少一个文本区域；

第二获取模块，用于获取每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像；

确定模块，用于基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量；

分类模块，用于基于所述特征向量进行图像分类处理。

第三方面，本申请实施例提供了一种电子设备，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。

第四方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储有程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。

第五方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法。

可以看出，在本申请实施例中，通过获取待识别图像，待识别图像包括至少一个文本区域，并获取每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，基于待识别图像、每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，确定每个文本区域的特征向量，然后基于特征向量进行图像分类处理，实现了从待识别图像、文本区域的位置信息、文本区域的文本信息、文本区域的图像四个维度确定用于进行图像分类处理的特征向量，扩展了特征向量的来源维度，实现了在图像分类处理过程中能够同时考虑整个待识别图像和待识别图像中的局部信息，从而提高了分类识别的准确度。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中图像分类方法的流程示意图；

图2为本申请实施例中得到特征向量的流程示意图；

图3为本申请实施例中另一图像分类方法的流程示意图；

图4为本申请实施例中图像分类装置的模块组成示意图；

图5为本申请实施例中电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。

此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。

在消费凭证的OCR场景中，通常是通过OCR对待识别图像进行通用识别，得到图像上每个字段的位置及其对应识别结果，此时由于仅通过对图像进行识别，特征向量的来源维度较少，导致图像分类识别的准确度较低。此外，相关技术中在OCR识别结果的基础上进行结构化的操作时，通常是利用模板进行匹配，即采用一些人工制定的规则来匹配识别结果，这种方式在一些完全固定版式的识别上具有较好的效果，但是对于版式不固定的图片，识别效果较差。

针对上述缺陷，本说明书实施例的思想在于，考虑到OCR在做版面分析时，会依赖于识别的结果、版式的信息、文字的相对位置信息等进行综合判断，因此本申请通过将待识别图像、待识别图像中每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像四个维度的信息进行融合，得到文本区域的特征向量，并通过该特征向量进行图像分类处理，得到待识别图像的种类分类结果(例如包括购物小票、其它小票、签购单、医疗发票、火车票等种类)，和/或，得到文本信息的属性分类结果(例如包括消费日期、金额、消费种类等分类)。这样扩展了用于进行图像分类处理的特征向量的来源维度，能在图像分类的同时考虑到每个字段信息对于整体的影响，提高了图像分类的准确度。经实验，使用单独的图像分类和单独的版式分析在消费凭证场景上的图像分类和字段结构化准确率分别为0.92，0.90，而本方案应用于该场景后，将整体图像特征与局部的图像、文本信息、位置信息进行了结合，因此在图像文档分类和信息抽取的任务上均取得了较好的结果，两项准确率可以提升至0.94，0.93，提高了图像分类的准确度。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的敏感词检测方法进行详细地说明。

如图1所示，为本申请实施例所提供的图像分类方法的步骤流程图，该方法的执行主体可以为服务器和/或终端，其中，服务器可以是独立的服务器，也可以是由多个服务器组成的服务器集群，而且，该服务器可以是能够进行程序操作处理的服务器，如进行图像分类的服务器等。该方法包括：

步骤101：获取待识别图像。

具体的，上述待识别图像可以为购物小票、销售点情报管理系统(Point of salesterminal，POS)签购单、医疗发票、火车票、行程单、其它小票等图像。

此外，待识别图像包括至少一个文本区域，即待识别图像可以包括一个或多个文本区域，文本区域为包括有文本信息的区域。

步骤102：获取每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像。

具体的，针对待识别图像中的每个文本区域，可以获取该文本区域的位置信息、文本信息和图像。

其中，获取每个文本区域的位置信息、文本信息和图像时，可以对待识别图像进行OCR检测，得到每个文本区域的位置信息和文本信息；然后，可以基于文本区域的位置信息，获取该文本区域的图像。

可选的，文本区域的位置信息可以由文本区域的外接矩形框的四个顶点坐标表示，且文本区域的文本信息即为外接矩形框内的文本信息。

此外，可选的，在获取每个文本区域的图像时，可以按照外接矩形框的四个顶点坐标，从待识别图像中将每个外接矩形框中的图像截取下来，得到每个文本区域的图像。

还需要说明的是，在文本区域的位置信息由文本区域的外接矩形框的四个顶点坐标表示时，可以通过下述公式对外接矩形框的四个顶点坐标进行标准化：

其中，x表示四个顶点坐标中的横轴坐标标准化后的坐标，x_src表示四个顶点坐标中的横轴坐标，y表示四个顶点坐标中的纵轴坐标标准化后的坐标，y_src表示四个顶点坐标中的纵轴坐标，w表示待识别图像在横轴方向上的尺寸，h表示待识别图像在纵轴方向上的尺寸。

通过对文本区域的外接矩形框的四个顶点坐标进行标准化，使得外接矩形框的四个顶点坐标的值处于0-1000之中，避免了数值过大或过小导致的分类准确度下降。

例如，作为一个示例，假设待识别图像为火车票，针对火车票上的文本区域“出发地”，可以获取文本区域“出发地”在火车票上的位置信息、文本区域“出发地”的文本信息和文本区域“出发地”对应的图像；针对文本区域“到达地”，可以获取文本区域“到达地”在火车票上的位置信息、文本区域“到达地”的文本信息和文本区域“到达地”对应的图像。

需要说明的是，上述示例仅对火车票上的两个文本区域进行举例说明，但应该理解，火车票上还包括有其他文本区域，例如乘车时间、乘车人、身份证等，在此并未对火车票上的其他文本区域进行一一举例说明。

步骤103：基于待识别图像、每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，确定每个文本区域的特征向量。

具体的，在本步骤中，可以基于待识别图像、每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，确定每个文本区域的特征向量。也即，针对每个文本区域，可以通过待识别图像、文本区域的文本信息、位置信息和文本区域的图像四个维度，得到该文本区域的特征向量，这丰富了特征向量的来源维度，实现了在图像分类处理过程中能够同时考虑整个图像和局部文本区域的信息，进而提高了图像分类时的准确度。

例如，接续上述示例，在确定文本区域的特征向量的过程中，针对文本区域“出发地”，可以通过火车票整体图像、文本区域“出发地”在火车票上的位置信息、文本区域“出发地”的文本信息和文本区域“出发地”的图像，确定文本区域“出发地”的特征向量；针对文本区域“到达地”，可以通过火车票整体图像、文本区域“到达地”在火车票上的位置信息、文本区域“到达地”的文本信息和文本区域“到达地”的图像，确定文本区域“到达地”的特征向量。这样使得所确定的文本区域的特征向量结合了整个图像和局部区域的信息，从而提高了图像分类的准确度。

步骤104：基于特征向量进行图像分类处理。

具体的，图像分类处理可以包括待识别图像的种类分类处理和/或文本信息的属性分类处理。

其中，待识别图像的种类可以按照待识别图像所对应实物的来源进行分类，例如可以包括购物小票、POS签购单、医疗发票、火车票、行程单、其它小票等种类。文本信息的属性可以按照文本的语义进行划分，例如可以包括消费日期、消费金额、消费种类等属性。

在本步骤中，可以基于每个文本区域的特征向量进行图像分类处理，此时由于每个文本区域的特征向量是通过待识别图像、文本区域的位置信息、文本信息和文本区域的图像四个维度确定的，即每个文本区域的特征向量均结合了整个图像和图像中的区域局部信息，丰富了每个文本区域的特征向量的信息来源维度，从而使得通过每个文本区域的特征向量进行图像分类处理时的图像分类准确度。

这样，本实施例通过包括至少一个文本区域的待识别图像，并获取每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，基于待识别图像、每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，确定每个文本区域的特征向量，然后基于特征向量进行图像分类处理，实现了从待识别图像、文本区域的位置信息、文本区域的文本信息、文本区域的图像四个维度确定用于进行图像分类处理的特征向量，扩展了特征向量的信息来源维度，实现了在图像分类处理过程中能够同时考虑整个待识别图像和待识别图像中的区域局部信息，从而提高了分类识别的准确度。

在一种实现方式中，如图2所示，基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量，可以包括如下步骤：

步骤201：从所述待识别图像中提取第一图像特征向量，从每个所述文本区域的图像中提取第二图像特征向量，从每个所述文本区域的文本信息中提取文本特征向量，以及从每个所述文本区域的位置信息中提取位置特征向量。

具体的，待识别图像的第一图像特征向量可以包括色彩、轮廓、灰度、像素等；第二图像特征向量可以包括文本区域图像的色彩、轮廓、灰度、像素等；位置特征向量可以包括文本区域的外接矩形框的四个顶点坐标，文本特征向量可以包括文本的语义向量。

在本步骤中，可以从待识别图像中提取第一图像特征向量，从每个文本区域的图像中提取第二图像特征向量，从每个文本区域的文本信息中提取文本特征向量，以及从每个文本区域的位置信息中提取位置特征向量，从而实现了多维度的特征向量的提取。

步骤202：确定每个所述文本区域的区域特征向量。

其中，每个所述文本区域的区域特征向量的确定方式有：将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量。

具体的，在将第一图像特征向量、文本区域对应的第二图像特征向量、文本区域对应的文本特征向量和文本区域对应的位置特征向量进行组合，得到文本区域的特征向量时，可以对所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个进行嵌入embedding操作，得到至少一个embedding向量。

此时，若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量均进行嵌入embedding操作，则将所述至少一个embedding向量进行组合，得到所述文本区域的特征向量；若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个未进行嵌入embedding操作，则将所述至少一个embedding向量以及未进行embedding操作的向量进行组合，得到所述文本区域的特征向量。

具体的，Embedding操作用于将高维特征向量转换为低维特征向量。例如，可以将第一图像特征向量转换为1×64维度向量，将文本特征向量转换为1维向量等。

此外，具体的，本实施例可以试具体需求，对第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个(即部分或全部)进行Embedding操作，从而得到Embedding操作后所对应的embedding向量。例如，可以对第一图像特征向量进行Embedding操作，得到第一图像特征向量Embedding操作后所对应的Embedding向量；可以对第二图像特征向量进行Embedding操作，得到第二图像特征向量Embedding操作后所对应的Embedding向量；可以对文本特征向量进行Embedding操作，得到文本特征向量Embedding操作后所对应的Embedding向量，从而实现了对高维向量向低维向量的转换，并实现了将特征向量转换为固定长度的向量表示。

需要说明的是，若第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量均进行了embedding操作，则可以将第一图像特征向量embedding操作后所对应的embedding向量、第二图像特征向量embedding操作后所对应的embedding向量、文本特征向量embedding操作后所对应的embedding向量、位置特征向量embedding操作后所对应的embedding向量进行组合，从而得到文本区域的特征向量。当然，若第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量中的部分向量进行了embedding操作，则可以将进行embedding操作后的embedding向量以及未进行embedding操作的向量进行组合，得到文本区域的特征向量。

其中，至少一个文本区域的特征向量可以按照下述方式进行组合以及分隔编码：[cls][image][x1][y1][x2][y2][ocr_res][ocr_image][sep]…。其中[cls]为特殊字符，后续输出表示整段文本的语义向量；[sep]为特殊字符表示句子分隔；[image]表示待识别图像的第一图像特征向量，或表示第一图像特征向量进行embedding操作后的向量；[x1][y1][x2][y2]表示文本区域的位置特征向量，或表示位置特征向量进行embedding操作后的向量，例如可以表示外接矩形框的四个顶点坐标；[ocr_res]表示文本区域的文本特征向量，或表示文本特征向量进行embedding操作后的向量；[ocr_image]表示文本区域的第二图像特征向量，或表示第二图像特征向量进行embedding操作后的向量。

这样，通过对第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量中的至少一个进行embedding操作，实现了将上述特征向量转换为固定长度的向量表示，为输入至模型提供了便利。

此外，在一种实现方式中，基于所述特征向量进行图像分类处理时，可以包括下述方式：

将所述特征向量输入图像分类模型中进行第一分类处理，输出所述待识别图像的种类分类结果；和/或，将所述特征向量输入文本分类模型中进行第二分类处理，输出所述文本信息的属性分类结果。

即可以将每个文本区域的特征向量作为输入向量，输入至图像分类模型，输出待识别图像的种类分类结果，此时基于每个文本区域的特征向量由四个维度的来源信息组合得到，从而使得在通过该特征向量对待识别图像的种类进行分类时，能够考虑到每个文本区域的文本信息对于整体图像的影响，从而提高了待识别图像的种类分类准确度。

还可以将每个文本区域的特征向量作为输入向量，输入至文本分类模型，得到每个文本信息的属性分类结果，此时基于每个文本区域的特征向量由四个维度的来源信息得到，使得在对文本信息的属性进行分类时能够考虑到整个图像的版式，从而提高了文本信息的属性分类准确度。

另外，还可以将每个文本区域的特征向量输入图像分类模型，得到待识别图像的种类分类结果，并且将每个文本区域的特征向量输入文本分类模型，得到文本信息的属性分类结果，从而实现了将待识别图像的种类分类和文本信息的属性分类结合到一起，既能在待识别图像的种类分类时考虑到每个文本区域信息对于整体的影响，又能在对文本信息的属性分类时考虑整个待识别图像的版式，从而提高了待识别图像的种类分类结果和文本信息的属性分类结果的识别准确度。

此外，在一种实现方式中，图像分类模型包括依次连接的第一编码解码器、第一线性层和第一分类器。

具体的，第一编码解码器可以为现有的三层的编码-解码(encoder-decoder)器，第一分类器可以为softmax分类器。

可选的，在所述第一分类处理过程中，所述第一编码解码器，用于将输入的所述特征向量进行解码，输出第一解码向量；所述第一线性层，用于将输入的第一解码向量进行映射，输出第一线性向量，所述第一线性向量的维度为预设的图像种类的个数，且所述第一线性向量每个维度的值为所述待识别图像属于所述维度所对应图像种类的得分；所述第一分类器，用于将输入的所述第一线性向量转换为概率值，输出所述待识别图像的种类分类结果。

其中，图像分类模型基于第一样本图像训练得到，其中所述第一样本图像标注有第一样本图像所对应的种类。

具体的，在得到特征向量之后，可以将部分特征向量(例如15％)不参与计算，随后将剩余的特征向量输入到第一编码解码器，当然也可以将全部的特征向量输入到第一编码解码器中，得到第一解码向量，即decoder结果。然后将第一解码向量经过第一线性层(linear层)，得到第一线性向量，该第一线性向量的维度与预设的图像种类个数向量；例如若预设的图像种类包括购物小票、POS签购单、医疗发票、火车票、行程单、其它小票等6个种类，则可以通过第一线性层，将第一解码向量映射为6维的第一线性向量。最后，将第一线性向量输入第一分类器，得到待识别图像属于每个种类的概率，并取最大的概率对应的种类作为待识别图像的种类分类结果。

这样，利用encoder-decoder结构自动将特征向量进行编解码，最后再利用一个简单的softmax分类器得到这些特征向量的分类结果，即得到待识别图像的种类分类结果，相比直接利用图像进行分类的方式，同时考虑了整个图像和区域局部信息，识别准确度更高。

另外，在一种实现方式中，所述文本分类模型包括依次连接的第二编码解码器、双向循环神经网络、第二线性层和第二分类器。

具体的，第二编码解码器可以为现有的三层的encoder-decoder，第二分类器可以为softmax分类器。

可选的，在所述第二分类处理过程中，所述第二编码解码器，用于将输入的所述特征向量进行解码，输出第二解码向量；所述双向循环神经网络，用于将输入的第二解码向量进行编码，输出编码向量；所述第二线性层，用于将输入的编码向量进行映射，输出第二线性向量，所述第二线性向量的维度为预设的文本信息属性的个数，且所述第二线性向量每个维度的值为所述文本信息属于所述维度所对应属性的得分；所述第二分类器，用于将输入的第二线性向量转换为概率值，输出所述文本信息的属性分类结果。

其中，所述文本分类模型可以基于第二样本图像训练得到，其中所述第二样本图像标注有第二样本图像中文本区域的文本信息所对应的属性种类。

具体的，在得到特征向量之后，可以将部分特征向量(例如15％)不参与计算，随后将剩余的特征向量输入到第二编码解码器，当然也可以将全部的特征向量输入到第二编码解码器中，得到第二解码向量，即decoder结果。然后，将第二解码向量经过双向循环神经网络，输出与输入的第二解码向量维度相同的编码向量，并通过一层第二线性层，将编码向量映射为第二线性向量，该第二线性向量的维度与预设的文本属性种类相同；例如，若预设的文本属性种类包括消费日期、消费金额、消费种类等3个种类，则可以通过第二线性层，将编码向量映射为3维的第二线性向量。最后，通过第二分类器获取文本信息属于每个属性的概率，并取最大的概率对应的属性作为文本信息的属性分类结果。

这样，利用encoder-decoder结构自动将特征向量进行编解码，最后再利用一个简单的softmax分类器得到这些特征向量的属性分类结果，从而获取了每个文本区域的文本信息对应的属性分类结果，与传统的OCR结构化相比，不需要人工干预下的规则的匹配，更具有普适性，且同时考虑了整个图像和局部区域的信息，提高了文本信息的属性分类准确度。

下面通过图3对本实施例的整体过程进行说明。

如图3所示，该图像分类方法包括如下步骤：

步骤301：对待识别图像进行OCR检测识别，得到待识别图像的文本识别结果。

该文本识别结果包括每个文本区域的位置信息和文本信息。

其中，文本区域的位置信息为文本区域的外接矩形框的四个顶点坐标。

具体的，可以通过下述公式对外接矩形框的四个顶点坐标进行标准化：

x＝x_src/w×1000；y＝y_src/h×1000；

步骤302：获取每个文本区域对应的文本图像。

具体的，可以按照每个文本区域的外接矩形框的四个顶点坐标，从待识别图像中将每个外接矩形框对应的图像截取下来。

步骤303：从待识别图像中提取第一图像特征向量，从每个文本区域的图像中提取第二图像特征向量，从每个文本区域的文本信息中提取文本特征向量，以及从每个文本区域的位置信息中提取位置特征向量。

步骤304：对第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量中的至少一个进行嵌入embedding操作，得到至少一个embedding向量。

具体的，Embedding操作用于将高维特征向量转换为低维特征向量，并能够将特征向量统一为固定长度的向量表示。

其中，若第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量均进行embedding操作，则将至少一个embedding向量进行组合，得到文本区域的特征向量；若第一图像特征向量、第二图像特征向量、文本特征向量和位置特征向量中的至少一个未进行embedding操作，则将至少一个embedding向量以及未进行embedding操作的向量进行组合，得到文本区域的特征向量。

步骤305：将特征向量输入图像分类模型中进行第一分类处理，输出待识别图像的种类分类结果；和/或，将特征向量输入文本分类模型中进行第二分类处理，输出文本信息的属性分类结果。

在此需要说明的是，该步骤的详细过程可以参见上述相关实施例的介绍，在此不再对该步骤的详细内容进行赘述。

这样，本实施例通过获取待识别图像，待识别图像包括至少一个文本区域，并获取每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，基于待识别图像、每个文本区域的位置信息、每个文本区域的文本信息、每个文本区域的图像，确定每个文本区域的特征向量，然后基于特征向量进行图像分类处理，实现了从待识别图像、文本区域的位置信息、文本区域的文本信息、文本区域的图像四个维度确定用于进行图像分类处理的特征向量，扩展了特征向量的来源维度，实现了在图像分类处理过程中能够同时考虑整个待识别图像和待识别图像中的区域局部信息，从而提高了分类识别的准确度。

需要说明的是，本申请实施例提供的图像分类方法，执行主体可以为图像分类装置，或者该图像分类装置中的用于执行图像分类方法的控制模块。本申请实施例中以图像分类装置执行图像分类方法为例，说明本申请实施例提供的图像分类装置。

如图4所示，该装置包括：

第一获取模块401，用于获取待识别图像，所述待识别图像包括至少一个文本区域；

第二获取模块402，用于获取每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像；

确定模块403，用于基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量；

分类模块404，用于基于所述特征向量进行图像分类处理。

在一种实现方式中，所述确定模块403用于：从所述待识别图像中提取第一图像特征向量，从每个所述文本区域的图像中提取第二图像特征向量，从每个所述文本区域的文本信息中提取文本特征向量，以及从每个所述文本区域的位置信息中提取位置特征向量；确定每个所述文本区域的区域特征向量；其中，每个所述文本区域的区域特征向量的确定方式有：将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量。

在一种实现方式中，所述确定模块403用于：对所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个进行嵌入embedding操作，得到至少一个embedding向量；其中，若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量均进行embedding操作，则将所述至少一个embedding向量进行组合，得到所述文本区域的特征向量；若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个未进行embedding操作，则将所述至少一个embedding向量以及未进行embedding操作的向量进行组合，得到所述文本区域的特征向量。

在一种实现方式中，所述分类模块404用于，将所述特征向量输入图像分类模型中进行第一分类处理，输出所述待识别图像的种类分类结果；和/或，将所述特征向量输入文本分类模型中进行第二分类处理，输出所述文本信息的属性分类结果。

在一种实现方式中，所述图像分类模型包括依次连接的第一编码解码器、第一线性层和第一分类器；在所述第一分类处理过程中，所述第一编码解码器，用于将输入的所述特征向量进行解码，输出第一解码向量；所述第一线性层，用于将输入的第一解码向量进行映射，输出第一线性向量，所述第一线性向量的维度为预设的图像种类的个数，且所述第一线性向量每个维度的值为所述待识别图像属于所述维度所对应图像种类的得分；所述第一分类器，用于将输入的所述第一线性向量转换为概率值，输出所述待识别图像的种类分类结果。

在一种实现方式中，所述文本分类模型包括依次连接的第二编码解码器、双向循环神经网络、第二线性层和第二分类器；在所述第二分类处理过程中，所述第二编码解码器，用于将输入的所述特征向量进行解码，输出第二解码向量；所述双向循环神经网络，用于将输入的第二解码向量进行编码，输出编码向量；所述第二线性层，用于将输入的编码向量进行映射，输出第二线性向量，所述第二线性向量的维度为预设的文本信息属性的个数，且所述第二线性向量每个维度的值为所述文本信息属于所述维度所对应属性的得分；所述第二分类器，用于将输入的第二线性向量转换为概率值，输出所述文本信息的属性分类结果。

在此需要说明的是，上述实施例提供的图像分类装置能够实现上述图像分类方法实施例的所有方法步骤及有益效果，为避免重复，在此不再对本实施例中与上述方法实施例中的相同方法步骤以及有益效果进行赘述。

对应上述实施例提供的图像分类方法，基于相同的技术构思，本申请实施例还提供了一种电子设备，该电子设备用于执行上述的图像分类方法，图5为实现本申请各个实施例的一种电子设备的结构示意图。电子设备可因配置或性能不同而产生比较大的差异，可以包括处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行下述步骤：

获取待识别图像，所述待识别图像包括至少一个文本区域；

基于所述特征向量进行图像分类处理。

在一种实现方式中，所述基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量，包括：从所述待识别图像中提取第一图像特征向量，从每个所述文本区域的图像中提取第二图像特征向量，从每个所述文本区域的文本信息中提取文本特征向量，以及从每个所述文本区域的位置信息中提取位置特征向量；确定每个所述文本区域的区域特征向量；其中，每个所述文本区域的区域特征向量的确定方式有：将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量。

在一种实现方式中，所述将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量，包括：对所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个进行嵌入embedding操作，得到至少一个embedding向量；其中，若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量均进行embedding操作，则将所述至少一个embedding向量进行组合，得到所述文本区域的特征向量；若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个未进行embedding操作，则将所述至少一个embedding向量以及未进行embedding操作的向量进行组合，得到所述文本区域的特征向量。

在一种实现方式中，所述基于所述特征向量进行图像分类处理，包括：

在一种实现方式中，所述文本分类模型包括依次连接的第二编码解码器、双向循环神经网络、第二线性层和第二分类器；在所述第二分类处理过程中，所述第二编码解码器，用于将输入的所述特征向量进行解码，输出第二解码向量；所述双向循环神经网络，用于将输入的第二解码向量进行编码，输出编码向量；所述第二线性层，用于将输入的编码向量进行映射，输出第二线性向量，所述第二线性向量的维度为预设的文本信息属性的个数，且所述第二线性向量每个维度的值为所述文本信息属于所述维度所对应属性的得分；所述第二分类器，用于将输入的第二线性向量转换为概率值，输出所述文本信息的属性分类结果。本申请实施例还提供一种可读存储介质，其上存储有程序或指令，该程序或指令被处理器执行时实现上述图像分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述图像分类方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以计算机软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种图像分类方法，其特征在于，包括：

获取待识别图像，所述待识别图像包括至少一个文本区域；

基于所述特征向量进行图像分类处理；

所述基于所述待识别图像、每个所述文本区域的位置信息、每个所述文本区域的文本信息、每个所述文本区域的图像，确定每个所述文本区域的特征向量，包括：

从所述待识别图像中提取第一图像特征向量，从每个所述文本区域的图像中提取第二图像特征向量，从每个所述文本区域的文本信息中提取文本特征向量，以及从每个所述文本区域的位置信息中提取位置特征向量；

确定每个所述文本区域的区域特征向量；其中，每个所述文本区域的区域特征向量的确定方式有：将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量。

2.根据权利要求1所述的图像分类方法，其特征在于，所述将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量，包括：

对所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个进行嵌入embedding操作，得到至少一个embedding向量；

其中，若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量均进行embedding操作，则将所述至少一个embedding向量进行组合，得到所述文本区域的特征向量；

若所述第一图像特征向量、所述第二图像特征向量、所述文本特征向量和所述位置特征向量中的至少一个未进行embedding操作，则将所述至少一个embedding向量以及未进行embedding操作的向量进行组合，得到所述文本区域的特征向量。

3.根据权利要求1所述的图像分类方法，其特征在于，所述基于所述特征向量进行图像分类处理，包括：

将所述特征向量输入图像分类模型中进行第一分类处理，输出所述待识别图像的种类分类结果；和/或，

将所述特征向量输入文本分类模型中进行第二分类处理，输出所述文本信息的属性分类结果。

4.根据权利要求3所述的图像分类方法，其特征在于，所述图像分类模型包括依次连接的第一编码解码器、第一线性层和第一分类器；

在所述第一分类处理过程中，所述第一编码解码器，用于将输入的所述特征向量进行解码，输出第一解码向量；所述第一线性层，用于将输入的第一解码向量进行映射，输出第一线性向量，所述第一线性向量的维度为预设的图像种类的个数，且所述第一线性向量每个维度的值为所述待识别图像属于所述维度所对应图像种类的得分；所述第一分类器，用于将输入的所述第一线性向量转换为概率值，输出所述待识别图像的种类分类结果。

5.根据权利要求3所述的图像分类方法，其特征在于，所述文本分类模型包括依次连接的第二编码解码器、双向循环神经网络、第二线性层和第二分类器；

在所述第二分类处理过程中，所述第二编码解码器，用于将输入的所述特征向量进行解码，输出第二解码向量；所述双向循环神经网络，用于将输入的第二解码向量进行编码，输出编码向量；所述第二线性层，用于将输入的编码向量进行映射，输出第二线性向量，所述第二线性向量的维度为预设的文本信息属性的个数，且所述第二线性向量每个维度的值为所述文本信息属于所述维度所对应属性的得分；所述第二分类器，用于将输入的第二线性向量转换为概率值，输出所述文本信息的属性分类结果。

6.一种图像分类装置，其特征在于，包括：

分类模块，用于基于所述特征向量进行图像分类处理；

所述确定模块用于：从所述待识别图像中提取第一图像特征向量，从每个所述文本区域的图像中提取第二图像特征向量，从每个所述文本区域的文本信息中提取文本特征向量，以及从每个所述文本区域的位置信息中提取位置特征向量；确定每个所述文本区域的区域特征向量；其中，每个所述文本区域的区域特征向量的确定方式有：将所述第一图像特征向量、所述文本区域对应的第二图像特征向量、所述文本区域对应的文本特征向量和所述文本区域对应的位置特征向量进行组合，得到所述文本区域的特征向量。

7.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至5任一项所述的图像分类方法的步骤。

8.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如权利要求1至5任一项所述的图像分类方法的步骤。