CN115546810B

CN115546810B - 图像元素类别的识别方法及装置

Info

Publication number: CN115546810B
Application number: CN202211507954.2A
Authority: CN
Inventors: 王维强; 顾章轩; 王可; 孟昌华; 兰钧
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-11
Anticipated expiration: 2042-11-29
Also published as: CN115546810A

Abstract

本说明书实施例提供一种图像元素类别的识别方法及装置，在识别方法中，从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框。针对多个边界框形成的初始集合，迭代执行若干轮次的切分操作，其中单论切分操作根据边界框的轴向投影，将本轮当前集合划分为多个子集合，并确定各个子集合的相对排序，直至得到各个边界框的排序编号，该排序编号指示各个边界框的阅读顺序。至少将多个文本片段、多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到目标图像中包含的各个元素的类别。

Description

图像元素类别的识别方法及装置

技术领域

本说明书一个或多个实施例涉及图像识别技术领域，尤其涉及一种图像元素类别的识别方法及装置。

背景技术

在很多场景下，需要识别图像中的元素类别。比如，在风险识别场景下，通常需要自动填充表单，以登录网站或应用，从而根据该网站或应用的内容进行风险识别。为了实现表单的自动填充，就需要识别表单中的元素类别。

传统技术中，在识别图像元素的类别时，先通过光学字符识别（opticalcharacter recognition，OCR）技术，识别图像中的各文本及其对应的各文本框，然后将各文本及各文本框，按照识别顺序输入模型进行识别。然而，通过OCR技术只能识别按照单一规则（比如，从上到下，从左到右）排序的各文本框的排列顺序，在各文本框的结构布局较复杂的情况下，所获取的识别顺序往往不够准确，这会影响图像元素类别识别的准确性。因此，需要提供一种更可靠的图像元素类别的识别方案。

发明内容

本说明书一个或多个实施例描述了一种图像元素类别的识别方法及装置，可以结合各边界框的阅读顺序，识别图像元素的类别，由此可以提高图像元素类别识别的准确性。

第一方面，提供了一种图像元素类别的识别方法，包括：

从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框；

针对所述多个边界框形成的初始集合，迭代执行若干轮次的切分操作，其中单论切分操作根据边界框的轴向投影，将本轮当前集合划分为多个子集合，并确定各个子集合的相对排序，直至得到各个边界框的排序编号，所述排序编号指示各个边界框的阅读顺序；

至少将所述多个文本片段、所述多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到所述目标图像中包含的各个元素的类别。

第二方面，提供了一种图像元素类别的识别装置，包括：

提取单元，用于从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框；

切分单元，用于针对所述多个边界框形成的初始集合，迭代执行若干轮次的切分操作，其中单论切分操作根据边界框的轴向投影，将本轮当前集合划分为多个子集合，并确定各个子集合的相对排序，直至得到各个边界框的排序编号，所述排序编号指示各个边界框的阅读顺序；

识别单元，用于至少将所述多个文本片段、所述多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到所述目标图像中包含的各个元素的类别。

第三方面，提供了一种计算机存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

本说明书一个或多个实施例提供的图像元素类别的识别方法及装置，先对从图像中提取的多个文本片段对应的多个边界框进行排序，得到各个边界框的指示阅读顺序的排序编号。然后，至少基于各个边界框的指示阅读顺序的排序编号，识别图像中的元素的类别。由于正确的阅读顺序有助于对图像含义的理解，因此，本方案可以提升图像元素类别识别的准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的图像元素类别的识别方法流程图；

图3示出在一个例子中边界框及关系树的示意图；

图4示出在一个实施例中类别预测模型的结构示意图；

图5示出在另一个实施例中类别预测模型的结构示意图；

图6示出在一个实施例中图像元素类别的识别装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书实施例提供的方案之前，先对“阅读顺序”的定义作如下说明：一般来说，对于一个给定的包含若干文本框的图像，人类观察所有文本框的顺序即为一个合理的阅读顺序。

如前所述，通过OCR技术通常不能针对具有复杂结构布局的各文本框识别出准确的阅读顺序，甚至会存在明显的误差。比如，图像中某个提示语的文本框和对应的用户填写的文本框逻辑上位于同一行，但是由于它们的坐标差距很大，从而通过OCR技术识别的两者的排序可能会差别较大，这使得会存在非唯一的阅读顺序，因此需要对识别得到的各文本框进行重排序。

图1为本说明书披露的一个实施例的实施场景示意图。图1中，类别预测模型用于识别多模态的目标图像中包含的各个元素的类别。为了提高类别预测模型的识别准确性，本方案在从多模态的目标图像中，提取到其中包含的多个文本片段（w1-wn）及其对应的多个边界框（Box1-Boxn）之后，先对各个边界框进行排序，以得到各个边界框的指示阅读顺序的排序编号（s1-sn），之后将各个文本片段、各个边界框及其对应的排序编号输入类别预测模型进行识别处理。

应理解，图1只是一种示例性说明，在实际应用中，还可以从目标图像中提取若干特征图，然后将各个特征图、各个特征图在目标图像中的位置及其排序编号也输入类别预测模型，然后由类别预测模型同时结合文本信息和图像信息进行识别处理。

下面描述以上方案的具体实现。

图2示出根据一个实施例的图像元素类别的识别方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该训练过程至少包括以下步骤。

步骤202，从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框。

这里的多模态的目标图像通常包含有大量的文本内容，且各文本内容之间具有丰富的层次结构，其例如可以为包含票据、表单或者卡证的图像。

在一个示例中，可以利用光学字符识别OCR技术，对目标图像进行文本识别，得到多个文本片段和多个边界框。OCR技术可以是指在图像中检测和识别文字。例如，OCR技术可以包括文字检测(Text Detection)与文字识别(TextRecognition)两部分。文字检测对图像中存在文字的区域进行定位，即找到分词或者句子的边界框；文字识别是对定位后的文字进行识别。

在另一个示例中，也可以将目标图像输入识别模型，得到多个文本片段和多个边界框。其中的识别模型可以实现为任一目标检测算法（比如，YOLO系列算法等）。

需要说明，上述从目标图像中提取的文本片段可以为分词，也可以为句子。此外，所提取的边界框具有对应的位置，该位置可以由两对横纵坐标构成。在一个例子中，该两对横纵坐标包括边界框的左上顶点的横纵坐标和右下顶点的横纵坐标。

步骤204，针对多个边界框形成的初始集合，迭代执行若干轮次的切分操作。

其中，单轮切分操作根据边界框的轴向投影，将本轮当前集合划分为多个子集合，并确定各个子集合的相对排序，直至得到各个边界框的排序编号，该排序编号指示各个边界框的阅读顺序。

具体地，上述单轮切分操作包括：针对本轮当前集合，根据边界框沿第一方向在第一轴上的第一投影，将本轮当前集合划分为多个第一子集合，并确定各个第一子集合的相对排序；其中，各个第一子集合之间，第一投影彼此无交叠。

需要说明，在上述单轮切分操作为首轮切分操作的情况下，上述本轮当前集合为初始集合。在上述单轮切分操作为非首轮切分操作的情况下，上述本轮当前集合基于上一轮的切分结果确定（后续说明）。

在一个示例中，上述第一方向为水平方向，上述第一轴为纵轴，上述第一投影具体为纵轴上的一段区间，其可以通过一对坐标表示，该一对坐标包括对应边界框的左上顶点的纵坐标和右下顶点的纵坐标。

在另一个示例中，上述第一方向为垂直方向，上述第一轴为横轴，上述第一投影具体为横轴上的一段区间，其可以通过一对坐标表示，该一对坐标包括对应边界框的左上顶点的横坐标和右下顶点的横坐标。

上述将本轮当前集合划分为多个第一子集合可以包括：确定本轮当前集合中各个边界框的第一投影均未覆盖的第一间隙区域，以第一间隙区域为界，沿第一方向，将本轮当前集合划分为多个第一子集合。

在实际应用中，上述第一间隙区域的数目可以为多个，该多个第一间隙区域均位于本轮当前集合中各边界框在第一轴上的最大坐标与最小坐标之间。

在一种具体实现方式中，可以利用XYcut算法计算指示函数，该指示函数代表各个边界框沿第一方向在第一轴上的第一投影，然后基于该指示函数确定上述第一间隙区域。

对于上述切分到的多个第一子集合中的任一第一子集合，其中所含边界框数目可以为1个，也可以为多个。

对于上述切分得到的多个第一子集合，可以根据各个第一子集合对应的第一投影集合在第一轴上的对应坐标的大小，确定各个第一子集合的相对排序。

以第一轴为纵轴为例来说，上述第一投影集合在第一轴上的对应坐标，可以是通过对第一投影集合中的各个第一投影的左上顶点（或右下顶点）的纵坐标求平均得到，也可以是直接将第一投影集合中任一第一投影的左上顶点（或右下顶点）的纵坐标作为上述对应坐标。

可选地，在确定各个第一子集合的相对排序之后，还可以执行如下的选取编号的步骤：

根据各个第一子集合的相对排序，依次针对每个第一子集合，从对应于本轮当前集合的编号集合中，选取未选取过的、与该第一子集合所含边界框数目相匹配的候选编号。其中，编号集合中的各个编号是按照大小顺序排列的。

此外，在确定各个第一子集合的相对排序之后，还可以执行生成关系树的步骤。该关系树的根节点对应于初始集合，中间节点用于记录若干轮次的切分操作过程，单个叶子节点对应于单个边界框，各个叶子节点的排序对应于各个边界框的排序编号。该生成关系树的步骤具体可以包括：

以对应于本轮当前集合的当前节点为父节点，生成对应于多个第一子集合的多个子节点，并根据各个第一子集合的相对排序确定各子节点的相对位置（即在同一层中各个子节点的先后顺序）。

这里，在上述本轮切分操作为首轮切分操作的情况下，上述当前节点为根节点。

此外，在还执行上述选取编号的步骤的情况下，对于所含边界框数目为1个的第一子集合对应的子节点，还可以将该子节点的值设定为针对对应第一子集合选取的候选编号。

需要说明，上述只是针对单轮切分操作中沿第一方向的切分步骤的说明。在实际应用中，在执行上述沿第一方向的切分之后，还可以执行如下的沿第二方向的切分步骤：

判断多个第一子集合中是否存在所含边界框数目为多个的中间子集合，若不存在，则结束；若存在，则针对该中间子集合，根据边界框沿第二方向在第二轴上的第二投影，将中间子集合划分为多个第二子集合，并确定各个第二子集合的相对排序。其中，各个第二子集合之间，第二投影彼此无交叠，第二轴垂直于第一轴。若多个第二子集合中存在所含边界框数目为多个的目标子集合，将其作为下一轮的当前集合。

其中，在第一方向为水平方向，第一轴为纵轴的情况下，上述第二方向可以为垂直方向，第二轴为横轴。

应理解，在多个第一子集合中存在多个中间子集合时，上述沿第二方向的切分步骤是重复执行的。由于沿第二方向的切分与沿第一方向的切分相类似，本说明书在此不复赘述。

此外，在多个第二子集合中存在多个目标子集合时，在下一轮的切分操作中，沿第一方向的切分也是重复执行的。

总之，在本说明书所述的单轮切分操作中，沿第一方向的切分和沿第二方向的切分交替进行。

需要说明，在执行完成如上的沿第二方向的切分步骤之后，也可以执行上述选取编号的步骤以及生成关系树的步骤。

其中，选取编号的步骤可以包括：根据各个第二子集合的相对排序，依次针对每个第二子集合，从对应于中间子集合的编号集合（由候选编号组成）中，选取与该第二子集合所含边界框数目相匹配的候选编号。这里，编号集合中的各个候选编号是按照大小顺序排列的。

此外，生成关系树的步骤可以包括：将对应于中间子集合的子节点作为父节点，生成对应于多个第二子集合的多个子节点，并根据各个第二子集合的相对排序确定各子节点的相对位置（即在同一层中各个子节点的先后顺序），以及将各个子节点中对应的第二子集合所含边界框的数目为多个的子节点，作为下一轮的当前集合对应的当前节点。

应理解，上述生成关系树的步骤是伴随着切分操作的执行而迭代执行的，在上述若干轮次的切分操作执行结束之后，也即在达到迭代结束条件之后（后续说明），关系树的生成过程结束。

以下对上述迭代结束条件进行说明。

本说明书所述的迭代结束条件包括两种：第一种：当前集合中各边界框的第一投影和第二投影都有交叠；第二种：当前集合所含边界框数目为1个。

其中，在迭代结束条件为第一种的情况下，在若干轮次的切分操作之后，针对当前集合中的各边界框，先按照边界框的左上顶点的纵坐标从大到小的排序，如若左上顶点的纵坐标有重合，再按照左上顶点的横坐标从大到小排序。之后，可以根据当前集合中的每个边界框，在关系树中生成对应的叶子节点，以得到最终的关系树。

应理解，如果迭代结束条件为第二种情况，那么在若干轮次的切分操作结束之后，每个边界框具有唯一的排序编号，且对应于一个叶子节点，从而上述生成的关系树即为最终的关系树。

需要说明，对于上述最终的关系树，可以根据关系树的各个叶子节点的相对位置及其代表的边界框，确定各个边界框的排序编号。比如，可以按照前序遍历算法，遍历关系树，所得到的各个叶子节点的排序，即为各个边界框的排序编号。

当然，如果在生成关系树的过程中，同时针对各个叶子节点设定了对应的值，那么可以将各个叶子节点的值，作为对应的各个边界框的排序编号。

以下结合例子，对上述边界框的排序编号的确定方法进行说明。

图3示出在一个例子中边界框及关系树的示意图。图3中，基于左边示出的7个边界框：a-g，可以形成初始集合，该初始集合对应的编号集合为：{1，2，3，4，5，6，7}。然后针对该初始集合进行第一轮切分操作中的水平切分，假设切分得到两个子集合：子集合1和子集合2，其中，子集合1包含边界框a，子集合2包含边界框b-g。由于子集合1中的边界框a的水平投影的y坐标，大于子集合2中任一边界框的水平投影的y坐标，因此，子集合1排序在前，子集合2排序在后。之后，可以先针对子集合1从{1，2，3，4，5，6，7}中选取到1个候选编号：1，然后针对子集合2从{1，2，3，4，5，6，7}中选取到6个候选编号：2，3，4，5，6和7，该6个候选编号组成子集合2对应的编号集合。

在执行水平切分之后，将预先针对初始集合创建的根节点作为父节点，生成对应于子集合1和子集合2的两个子节点，并且将排序在前的子集合1对应的子节点排布在左侧，以及将排序在后的子集合2对应的子节点排布在右侧。此外，由于子集合1只包含1个边界框，从而可以将对应于子集合1的子节点的值设定为针对该子集合1选取的候选编号：1。

接着，执行第一轮切分操作中的垂直切分。具体地，可以将所含边界框的数目为多个的子集合2作为中间子集合，并对其进行垂直切分。假设切分得到3个子集合：子集合3、子集合4和子集合5，其中，子集合3包含边界框b，子集合4包含边界框c-f，子集合5包含边界框g。由于子集合3中的边界框a的垂直投影的x坐标，大于子集合4中任一边界框的垂直投影的x坐标，以及子集合4中任一边界框的垂直投影的x坐标，大于子集合5中边界框g的垂直投影的x坐标。因此，子集合3排序在前，子集合4排序在中间，子集合5排序在后。之后，可以先针对子集合3从{2，3，4，5，6，7}中选取到1个候选编号：2，然后针对子集合4从{2，3，4，5，6，7}中选取到4个候选编号：3，4，5，6，以及针对子集合5从{2，3，4，5，6，7}中选取到1个候选编号：7。

在执行垂直切分之后，将对应于子集合2的子节点作为父节点，生成对应于子集合3、子集合4和子集合5的3个子节点，并且将排序在前的子集合3对应的子节点排布在左侧，将排序在中间的子集合4对应的子节点排布在中间，以及将排序在后的子集合5对应的子节点排布在右侧。此外，由于子集合3和子集合5只包含1个边界框，从而可以将对应于子集合3的子节点的值设定为针对该子集合3选取的候选编号：2，以及将对应于子集合5的子节点的值设定为针对该子集合5选取的候选编号：7。

至此，第一轮切分操作结束。应理解，在多个轮次的切分操作结束之后，也即在达到切分结束条件之后，就可以得到如图3右边示出的关系树。

应理解，根据关系树中分别对应于边界框：a-g的7个叶子节点的值，就可以得到边界框：a-g的排序编号。

步骤206，至少将多个文本片段、多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到目标图像中包含的各个元素的类别。

这里的元素可以包括以下中的至少一项：提示语、输入框（也称交互框）、按钮以及其它。

图4示出在一个实施例中类别预测模型的结构示意图。如图4所示，该类别预测模型包括：位置编码器和分类器。其中，位置编码器用于基于多个文本片段的内容（t1-t7）、多个边界框的位置（Boxt1-Boxt7）及其排序编号(0-6)，确定各个文本片段对应的各个第一嵌入向量，并对各个第一嵌入向量进行一维卷积处理，得到各个文本片段对应的各个位置向量。此外，位置编码器还用于基于若干特征图（v1-v4）、若干特征图的位置（Boxv1-Boxv4）及其排序编号(0-3)，确定各个特征图对应的各个第二嵌入向量，之后可以将各个第二嵌入向量分别转换为二维嵌入向量，并对各个二维嵌入向量进行二维卷积处理，得到各个特征图对应的各个二维位置向量。最后，通过对各个二维位置向量进行平铺处理，得到各个特征图的最终的位置向量。分类器，用于基于各个文本片段及其对应的各个位置向量，以及各个特征图及其对应的各个位置向量，确定目标图像中包含的各个元素的类别。

其中，上述若干特征图可以是通过特征提取器提取得到。在一个示例中，上述特征提取器可以实现为ResNeXt-101。具体地，特征提取器在提取到若干特征图之后，可以利用矩阵转换函数（比如，reshape()），将该若干特征图铺平成一行然后输入到位置编码器中。

在一个例子中，所提取的若干特征图可以表示为：7*7*1024，之后，在对该若干特征图进行平铺之后，可以得到49*1024的特征图。

此外，位置编码器进行上述一维卷积处理和二维卷积处理的卷积核为空洞卷积核（或扩展卷积核）。具体地，用于进行一维卷积处理的卷积核包括多个训练得到的参数，每两个参数之间通过0（对应于图4中一维卷积核中的虚线框）间隔。用于进行二维卷积处理的卷积核包括多个训练得到的排列为矩阵的参数，且在矩阵中每行、每列的两个参数之间通过0（对应于图4中二维卷积核中的虚线框）间隔。

应理解，在实际应用中，对应于上述一维卷积处理和二维卷积处理的卷积核的数目可以为多个，也即分别对各个文本片段和各个特征图进行多次卷积处理。之后通过对多次卷积结果进行融合，得到各个文本片段和各个特征图各自的位置向量。

需要说明，本方案利用空洞卷积核，分别对文本信息和图像信息进行卷积处理，使得位置编码器可以捕捉到长距离的信息，也即可以增加感受野，由此可以提升位置向量的准确性。此外，由于空洞卷积核是通过在多个训练参数中添加0得到，从而不需要额外增加计算量。

总之，本方案可以在不额外增加计算量的情况下，提升文本信息和图像信息各自编码的准确性。

图5示出在另一个实施例中类别预测模型的结构示意图。图5中，类别预测模型包括位置编码器、总编码器和分类器。其中，位置编码器进一步包括，第一编码器和第二编码器，该两个编码器具有相同的输入，不同个数的输出。具体地，第一编码器只具有一个输出，而第二编码器具有两个输出。

以该两个编码器的输入均为各个文本片段的内容、各个边界框的位置及其排序编号为例来说，通过第一编码器，可以输出各个文本片段对应的第一位置编码，其表征各个文本片段的顺序。通过第二编码器，可以输出各个文本片段对应的第二位置编码，其包括一对编码向量，用于表征对应边界框的横纵坐标。之后，可以组合第一位置编码和第二位置编码，得到各个文本片段对应的各个位置向量。

应理解，上述两个编码器的编码过程相近，均是先确定各个文本片段对应的各个第一嵌入向量，然后对各个第一嵌入向量进行一维卷积处理。然而，由于两个编码器各自具有不同个数的输出，从而可以得到不同的位置编码。

类似地，针对各个特征图，也可以得到两个位置编码，然后通过组合两个位置编码，可以得到各个特征图对应的各个位置向量。

需要说明，本说明书实施例提供的位置编码器，可以针对任意数目个特征图和文本片段进行编码，也即可以处理变长序列，由此可以提升其普遍适用性。此外，由于位置编码器是基于各文本片段的指示阅读顺序的排序编号，确定对应的位置向量，由此可以提升位置向量的准确性。

图5中的总编码器用于基于各个文本片段及其对应的各个位置向量，确定各个文本片段对应的各个第一特征向量，以及基于各个特征图及其对应的各个位置向量，确定各个特征图对应的各个第二特征向量。之后，可以对各个第一特征向量以及各个第二特征向量加以不同的权重，得到目标图像中包含的各个元素对应的各个综合向量。

在一个示例中，上述总编码器可以实现为Transformer编码器。

图5中的分类器用于基于各个综合向量，得到各个元素的类别。

综上，本说明书实施例提供的图像元素类别的识别方法，在提取到多个文本片段及其对应的多个边界框之后，先确定各个边界框的指示阅读顺序的排序编号，然后利用位置编码器基于该排序编号，确定各个文本片段的位置向量，由此可以大大提升位置向量的准确性。此外，位置编码器针对各文本片段进行一维卷积处理，针对各特征图进行二维卷积处理，使得位置编码器可以针对任意的变长序列（包括文本或图像）进行编码，由此可以提升本方案的普遍适用性。最后，本方案利用空洞卷积核，进行一维或二维卷积处理，可以提取到更全面的领域信息，从而可以进一步提升所生成的位置向量的准确性，进而可以提升图像元素类别识别的准确性。

与上述图像元素类别的识别方法对应地，本说明书一个实施例还提供的一种图像元素类别的识别装置，如图6所示，该装置可以包括：

提取单元602，用于从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框。

其中，上述文本片段对应于分词。

提取单元602具体用于：利用光学字符识别OCR技术，对目标图像进行文本识别，得到多个文本片段和多个边界框。

切分单元604，用于针对多个边界框形成的初始集合，迭代执行若干轮次的切分操作，其中单论切分操作根据边界框的轴向投影，将本轮当前集合划分为多个子集合，并确定各个子集合的相对排序，直至得到各个边界框的排序编号，该排序编号指示各个边界框的阅读顺序。

切分单元604具体用于：

针对本轮当前集合，根据边界框沿第一方向在第一轴上的第一投影，将本轮当前集合划分为多个第一子集合，并确定各个第一子集合的相对排序，其中，各个第一子集合之间，第一投影彼此无交叠。

其中，第一方向为水平方向，第一轴为纵轴。

切分单元604还具体用于：

确定本轮当前集合中各个边界框的第一投影均未覆盖的第一间隙区域；

以第一间隙区域为界，沿第一方向，将本轮当前集合划分为多个第一子集合。

切分单元604还具体用于：

根据各个第一子集合对应的第一投影集合在第一轴上的对应坐标的大小，确定各个第一子集合的相对排序。

切分单元604还具体用于：

若多个第一子集合中存在所含边界框数目为多个的中间子集合，针对中间子集合，根据边界框沿第二方向在第二轴上的第二投影，将中间子集合划分为多个第二子集合，并确定各个第二子集合的相对排序；其中，各个第二子集合之间，第二投影彼此无交叠；第二轴垂直于所述第一轴；

若多个第二子集合中存在所含边界框数目为多个的目标子集合，将其作为下一轮的当前集合。

识别单元606，用于至少将多个文本片段、多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到目标图像中包含的各个元素的类别。

其中，类别预测模型包括：位置编码器和分类器；识别单元606包括：

处理子模块6062，用于利用位置编码器，基于多个文本片段的内容、多个边界框的位置及其排序编号，确定各个文本片段对应的各个第一嵌入向量，并对各个第一嵌入向量进行一维卷积处理，得到各个文本片段对应的各个位置向量；

确定子模块6064，用于利用分类器，至少基于各个文本片段及其对应的各个位置向量，确定目标图像中包含的各个元素的类别。

其中，一维卷积处理的卷积核包括，多个训练得到的参数，每两个参数之间通过0间隔。

可选地，上述位置编码器包括第一编码器和第二编码器；

处理子模块6062具体用于：

通过第一编码器，输出各个文本片段对应的第一位置编码，其表征各个文本片段的顺序；

通过第二编码器，输出各个文本片段对应的第二位置编码，其包括一对编码向量，用于表征对应边界框的横纵坐标；

组合第一位置编码和第二位置编码，得到各个文本片段对应的各个位置向量。

可选地，提取单元602，还用于从目标图像中提取若干特征图。

处理子模块6062，还用于利用位置编码器，基于若干特征图、若干特征图的位置及其排序编号，确定各个特征图对应的各个第二嵌入向量，并对各个第二嵌入向量进行二维卷积处理，得到各个特征图对应的各个位置向量；

确定子模块6064，还用于利用分类器，基于各个文本片段及其对应的各个位置向量，以及各个特征图及其对应的各个位置向量，确定目标图像中包含的各个元素的类别。

其中，二维卷积处理的卷积核包括，多个训练得到的排列为矩阵的参数，且在矩阵中每行、每列的两个参数之间通过0间隔。

可选地，该装置还可以包括：

生成单元608，用于生成关系树，该关系树的根节点对应于初始集合，中间节点用于记录若干轮次的切分操作过程，单个叶子节点对应于单个边界框，各个叶子节点的排序对应于各个边界框的排序编号。

生成单元608具体用于：

以对应于本轮当前集合的当前节点为父节点，生成对应于多个子集合的多个子节点，并根据各个子集合的相对排序确定各个子节点的相对位置；直至各个子节点均为叶子节点。

切分单元604还具体用于：

根据关系树的各个叶子节点的相对位置及其代表的边界框，确定各个边界框的排序编号。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的图像元素类别的识别装置，可以结合各边界框的阅读顺序，识别图像元素的类别，由此可以提高图像元素类别识别的准确性。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种图像元素类别的识别方法，包括：

至少将所述多个文本片段、所述多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到所述目标图像中包含的各个元素的类别;

其中，所述类别预测模型包括：位置编码器和分类器；所述识别处理包括：

在所述位置编码器中，基于所述多个文本片段的内容、所述多个边界框的位置及其排序编号，确定各个文本片段对应的各个第一嵌入向量，并对所述各个第一嵌入向量进行一维卷积处理，得到所述各个文本片段对应的各个位置向量；

在所述分类器中，至少基于所述各个文本片段及其对应的各个位置向量，确定所述目标图像中包含的各个元素的类别。

2.根据权利要求1所述的方法，其中，所述单论切分操作包括：

针对本轮当前集合，根据边界框沿第一方向在第一轴上的第一投影，将本轮当前集合划分为多个第一子集合，并确定各个第一子集合的相对排序；其中，各个第一子集合之间，第一投影彼此无交叠。

3.根据权利要求2所述的方法，其中，所述单论切分操作包括：

若所述多个第一子集合中存在所含边界框数目为多个的中间子集合，针对所述中间子集合，根据边界框沿第二方向在第二轴上的第二投影，将所述中间子集合划分为多个第二子集合，并确定各个第二子集合的相对排序；其中，各个第二子集合之间，第二投影彼此无交叠；所述第二轴垂直于所述第一轴；

若所述多个第二子集合中存在所含边界框数目为多个的目标子集合，将其作为下一轮的当前集合。

4.根据权利要求2所述的方法，其中，所述第一方向为水平方向，所述第一轴为纵轴。

5.根据权利要求2所述的方法，其中，所述将本轮当前集合划分为多个第一子集合包括：

确定所述本轮当前集合中各个边界框的第一投影均未覆盖的第一间隙区域；

以所述第一间隙区域为界，沿所述第一方向，将本轮当前集合划分为多个第一子集合。

6.根据权利要求2所述的方法，其中，所述确定各个第一子集合的相对排序包括：

根据各个第一子集合对应的第一投影集合在所述第一轴上的对应坐标的大小，确定所述各个第一子集合的相对排序。

7.根据权利要求1所述的方法，还包括：生成关系树；所述关系树的根节点对应于所述初始集合，中间节点用于记录所述若干轮次的切分操作过程，单个叶子节点对应于单个边界框，各个叶子节点的排序对应于各个边界框的排序编号。

8.根据权利要求7所述的方法，其中，所述生成关系树包括：

以对应于本轮当前集合的当前节点为父节点，生成对应于所述多个子集合的多个子节点，并根据各个子集合的相对排序确定各个子节点的相对位置；直至各个子节点均为叶子节点；

所述得到各个边界框的排序编号包括：

根据所述关系树的各个叶子节点的相对位置及其代表的边界框，确定各个边界框的排序编号。

9.根据权利要求1所述的方法，其中，所述一维卷积处理的卷积核包括，多个训练得到的参数，每两个参数之间通过0间隔。

10.根据权利要求1所述的方法，其中，所述位置编码器包括第一编码器和第二编码器；

所述得到多个各个文本片段对应的各个位置向量，包括：

通过所述第一编码器，输出所述各个文本片段对应的第一位置编码，其表征各个文本片段的顺序；

通过所述第二编码器，输出所述各个文本片段对应的第二位置编码，其包括一对编码向量，用于表征对应边界框的横纵坐标；

组合所述第一位置编码和第二位置编码，得到所述各个文本片段对应的各个位置向量。

11.根据权利要求1所述的方法，还包括：

从所述目标图像中提取若干特征图；

所述识别处理还包括：

在所述位置编码器中，基于所述若干特征图、所述若干特征图的位置及其排序编号，确定各个特征图对应的各个第二嵌入向量，并对所述各个第二嵌入向量进行二维卷积处理，得到所述各个特征图对应的各个位置向量；

在所述分类器中，基于所述各个文本片段及其对应的各个位置向量，以及所述各个特征图及其对应的各个位置向量，确定所述目标图像中包含的各个元素的类别。

12.根据权利要求11所述的方法，其中，所述二维卷积处理的卷积核包括，多个训练得到的排列为矩阵的参数，且在矩阵中每行、每列的两个参数之间通过0间隔。

13.根据权利要求1所述的方法，其中，所述从多模态的目标图像中，提取其中包含的多个文本片段，及其对应的多个边界框，包括：

利用光学字符识别OCR技术，对所述目标图像进行文本识别，得到所述多个文本片段和所述多个边界框。

14.根据权利要求1所述的方法，其中，所述文本片段对应于分词。

15.一种图像元素类别的识别装置，包括：

识别单元，用于至少将所述多个文本片段、所述多个边界框及其各自的排序编号，输入类别预测模型进行识别处理，得到所述目标图像中包含的各个元素的类别;

其中，所述类别预测模型包括：位置编码器和分类器；所述识别单元包括：

处理子模块，用于利用所述位置编码器，基于所述多个文本片段的内容、所述多个边界框的位置及其排序编号，确定各个文本片段对应的各个第一嵌入向量，并对所述各个第一嵌入向量进行一维卷积处理，得到所述各个文本片段对应的各个位置向量；

确定子模块，用于利用所述分类器，至少基于所述各个文本片段及其对应的各个位置向量，确定所述目标图像中包含的各个元素的类别。

16.根据权利要求15所述的装置，其中，所述切分单元具体用于：

17.根据权利要求16所述的装置，其中，所述切分单元还具体用于：

18.根据权利要求16所述的装置，其中，所述切分单元还具体用于：

19.根据权利要求16所述的装置，其中，所述切分单元还具体用于：

20.根据权利要求15所述的装置，还包括：

生成单元，用于以对应于本轮当前集合的当前节点为父节点，生成对应于所述多个子集合的多个子节点，并根据各个子集合的相对排序确定各个子节点的相对位置；直至各个子节点均为叶子节点；

所述切分单元具体用于：

21.根据权利要求15所述的装置，其中，所述位置编码器包括第一编码器和第二编码器；

所述处理子模块具体用于：

22.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-14中任一项所述的方法。

23.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-14中任一项所述的方法。