CN114092949A

CN114092949A - 类别预测模型的训练、界面元素类别的识别方法及装置

Info

Publication number: CN114092949A
Application number: CN202111396483.8A
Authority: CN
Inventors: 王可; 兰钧; 孟昌华; 王维强
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2022-02-25

Abstract

本说明书实施例提供一种类别预测模型的训练、界面元素类别的识别方法及装置，在训练方法中，获取样本图像，该样本图像包含若干界面元素。获取各界面元素中包含的各文本内容。将样本图像以及各文本内容，输入类别预测模型进行预测处理。该预测处理包括：利用特征提取器从样本图像中提取图像特征。利用第一编码器基于各文本内容中各词的词向量，确定各文本内容的特征向量。利用第二编码器基于图像特征和各文本内容的特征向量，确定各界面元素的综合特征表示。利用分类器基于各综合特征表示，确定各界面元素的第一类别预测结果。至少根据各第一类别预测结果和各类别标签，训练类别预测模型。

Description

类别预测模型的训练、界面元素类别的识别方法及装置

技术领域

本说明书一个或多个实施例涉及图像识别技术领域，尤其涉及一种类别预测模型的训练、界面元素类别的识别方法及装置。

背景技术

在很多应用场景下为了提供相应的服务，都需要用户进行表单填充。例如，当向用户提供注册或登录等认证服务时，需要用户在表单中填充身份信息；当向用户提供相关的生活服务时，需要用户在表单中填充用户的地址信息。

比较传统的表单填充方式是由用户手动填充表单，然而这种方式不仅使得用户操作较复杂，而且容易出错。因此，目前很多网站或应用都提供自动填充表单信息的功能。为了使用该功能，就需要对表单中的界面元素进行识别，比如，识别界面元素的类别。然而传统的方法主要是依赖于解析网站源码来解析识别的内容，但是由于各个网站表单形式差距较大，因此，亟需一种更通用的依赖视觉的界面元素类别的识别方案。

发明内容

本说明书一个或多个实施例描述了一种类别预测模型的训练、界面元素类别的识别方法及装置，可以同时关注图像的图像特征以及图像中所包含的各界面元素的文本内容之间的关联性，从而可以更准确地识别界面元素的类别。

第一方面，提供了一种类别预测模型的训练方法，包括：

获取样本图像，所述样本图像包含若干界面元素，各界面元素具有对应的各类别标签；

获取各界面元素中包含的各文本内容；

将所述样本图像以及所述各文本内容，输入类别预测模型进行预测处理；所述类别预测模型包括特征提取器、第一编码器、第二编码器以及分类器；所述预测处理包括：利用所述特征提取器从所述样本图像中提取图像特征；利用所述第一编码器基于所述各文本内容中各词的词向量，确定所述各文本内容的特征向量；利用所述第二编码器基于所述图像特征和所述各文本内容的特征向量，确定所述各界面元素的综合特征表示；利用所述分类器基于各综合特征表示，确定所述各界面元素的第一类别预测结果；

至少根据所述各界面元素的第一类别预测结果和所述各类别标签，训练所述类别预测模型。

第二方面，提供了一种界面元素类别的识别方法，包括：

获取目标图像，所述目标图像包含目标界面元素；

获取所述目标界面元素中包含的目标内容；

获取类别预测模型，其中，所述类别预测模型根据如权利要求1所述的方法训练得到；

将所述目标图像以及所述目标内容，输入所述类别预测模型进行预测处理，得到所述目标界面元素的目标类别。

第三方面，提供了一种类别预测模型的训练装置，包括：

获取单元，用于获取样本图像，所述样本图像包含若干界面元素，各界面元素具有对应的各类别标签；

所述获取单元，还用于获取各界面元素中包含的各文本内容；

预测处理单元，用于将所述样本图像以及所述各文本内容，输入类别预测模型进行预测处理；所述类别预测模型包括特征提取器、第一编码器、第二编码器以及分类器；所述预测处理包括：利用所述特征提取器从所述样本图像中提取图像特征；利用所述第一编码器基于所述各文本内容中各词的词向量，确定所述各文本内容的特征向量；利用所述第二编码器基于所述图像特征和所述各文本内容的特征向量，确定所述各界面元素的综合特征表示；利用所述分类器基于各综合特征表示，确定所述各界面元素的第一类别预测结果；

训练单元，用于至少根据所述各界面元素的第一类别预测结果和所述各类别标签，训练所述类别预测模型。

第四方面，提供了一种界面元素类别的识别装置，包括：

获取单元，用于获取目标图像，所述目标图像包含目标界面元素；

所述获取单元，还用于获取所述目标界面元素中包含的目标内容；

所述获取单元，还用于获取类别预测模型，其中，所述类别预测模型根据如权利要求1所述的方法训练得到；

预测处理单元，用于将所述目标图像以及所述目标内容，输入所述类别预测模型进行预测处理，得到所述目标界面元素的目标类别。

本说明书一个或多个实施例提供的类别预测模型的训练方法及装置，可以基于样本图像的图像特征，以及样本图像所包含的各界面元素的各文本内容，来训练类别预测模型。也就是说，可以基于视觉和文本等多种信息，来训练类别预测模型，由此可以大大提升模型精度。此外，本方案在预测处理时，先利用第一编码器获取各文本内容的特征向量，然后再将其输入到第二编码器的方法，使得第二编码器在确定界面元素的综合特征表示时，可以关注各文本内容之间的关联性，而不仅仅关注单个字之间的关联性，这可以提升界面元素的特征表示的准确性，进而可以提升类别预测结果的准确性。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书披露的一个实施例的实施场景示意图；

图2示出根据一个实施例的类别预测模型的训练方法流程图；

图3a示出在一个实施例中样本图像的示意图；

图3b示出图3a中的输入框和提示语各自的类别标签；

图3c示出在另一个实施例中的样本图像示意图；

图4示出在一个实施例中的类别预测模型的训练方法示意图；

图5示出根据一个实施例的界面元素类别的识别方法流程图；

图6示出根据一个实施例的类别预测模型的训练装置示意图；

图7示出根据一个实施例的界面元素类别的识别装置示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及类别预测模型的训练。该类别预测模型可以包括，特征提取器、第一编码器、第二编码器和分类器。

图1中，类别预测模型的训练过程可以为：获取样本图像，并获取样本图像中各界面元素的文本内容。将样本图像和文本内容作为两种输入信息输入类别预测模型。具体地，可以将样本图像输入到特征提取器，以提取图像特征，以及将各文本内容分别输入第一编码器，以确定各文本内容的特征向量。之后，可以将图像特征和各文本内容的特征向量共同输入第二编码器，以使第二编码器结合各文本内容之间的关联性，以及各文本内容与图像特征之间的关联性，确定各界面元素的综合特征表示。最后将各综合特征表示输入分类器，得到各界面元素的类别预测结果。根据各界面元素的类别预测结果和类别标签，训练类别预测模型。

当然，在实际应用中，利用第二编码器还可以得到样本图像的综合特征表示。在将该样本图像的综合特征表示输入分类器后，可以得到样本图像的方向预测结果。从而可以根据类别预测结果与类别标签的预测误差，以及方向预测结果与方向标签的预测误差，来训练类别预测模型。

以下结合图1对本方案进行详细说明。

图2示出根据一个实施例的类别预测模型的训练方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图2所示，该训练过程至少包括以下步骤。

步骤202，获取样本图像，该样本图像包含若干界面元素，各界面元素具有对应的各类别标签。

这里的样本图像例如可以为表单图像(也称为富文本图像)，其中包含有若干界面元素。该界面元素可以包括以下中的至少一项：提示语、输入框(也称交互框)、按钮以及其它。

其中，对于输入框，其对应的类别标签可以包括主类别标签和子类别标签。在一个示例中，输入框的主类别标签例如可以为：输入框。子类别标签可以包括但不限于：账号、密码、手机号、姓名以及验证码等等。

对于其它界面元素，其对应的类别标签可以只包括主类别标签，也可以同时包括主类别标签和子类别标签。比如，提示语对应的类别标签可以包括主类别标签和子类别标签。

图3a示出在一个实施例中样本图像的示意图。图3a中，该样本图像中的界面元素可以包括：提示语、输入框、注册按钮及其它。

图3b示出图3a中的输入框和提示语各自的类别标签。其中，每个输入框/提示语左上角示出主类别标签，分别表示为“0”和“1”，其中，“0”表示提示语，“1”表示输入框。右下角示出子类别标签，分别表示为：“0”、“18”、“15”、“21”、“6”、“31”和“30”，其中，“0”表示账号、“18”表示密码，“15”表示姓名，“21”表示手机号，“6”表示提款密码，“31”表示微信号，“30”表示验证码。

此外，上述样本图像还具有方向标签，该方向标签指示样本图像的版面方向。该方向标签可以包括以下中的任一项：居中、向右和向下。

步骤204，获取各界面元素中包含的各文本内容。

在一个示例中，可以是从预设的存储单元中，读取上述样本图像包含的各界面元素的文本内容。该预测的存储单元用于记录若干样本图像各自包含的各界面元素的文本内容。

以任一样本图像为例来说，该样本图像包含的各界面元素的文本内容可以是利用光学字符识别(OpticalCharacter Recognition,OCR)技术，对样本图像进行文本识别得到的。OCR技术可以是指在图像中检测和识别文字。例如，OCR技术可以包括文字检测(TextDetection)与文字识别(TextRecognition)两部分。文字检测对图像中存在文字的区域进行定位，即找到单词或者文本行的边界框；文字识别是对定位后的文字进行识别。

应理解，在利用OCR技术识别样本图像时，针对每个界面元素，可以得到两部分内容：边界框和文本内容，从而可以基于各界面元素的边界框，来标注各自的类别标签。

在另一个示例中，也可以直接利用OCR技术，对样本图像进行文本识别，得到各界面元素中包含的文本内容。

以图3b为例来说，各提示语和各输入框包含的文本内容可以如表1所示。

表1

用户账号	用户名为5-11个英文字母或数字
		登录密码	密码为6-16个英文字母或数字
确认密码	请再次输入密码
		真实姓名	请输入真实姓名
手机	请输入手机号
		提款密码	请输入提款密码
微信号	请输入微信号
		验证码	请输入验证码

步骤206，将样本图像以及各文本内容，输入类别预测模型进行预测处理。

这里的类别预测模型可以包括：特征提取器、第一编码器、第二编码器和分类器。

以下先针对上述输入过程进行说明。

在一个示例中，上述将样本图像以及各文本内容，输入类别预测模型可以包括：将各文本内容中，预设比例的文本内容用预设短语进行遮蔽，得到遮蔽处理后的各文本内容。将样本图像以及遮蔽处理后的各文本内容，输入类别预测模型。其中，上述预测比例例如可以为10％。

应理解，在该种输入文本内容的方法中，需要模型仅基于位置信息来识别界面元素的类别，由此可以加强模型对界面元素的位置信息的关注，从而可以避免模型过于关注文本内容本身而导致的误判。

在另一个示例中，上述将样本图像以及各文本内容，输入类别预测模型可以包括：将各文本内容中对应于非输入框的各候选内容中，预设比例的候选内容，替换为输入框的文本内容，得到替换处理后的各文本内容。将样本图像以及替换处理后的各文本内容，输入类别预测模型。

通过该种输入文本内容的方法，同样可以加强模型对位置信息的关注，提升模型的识别准确率。比如，有一些文本内容会同时包含在输入框和非输入框中，如果过于关注文本内容本身，而忽略位置信息，容易导致将非输入框类别误识别为输入框类别。以下结合具体例子进行说明。

图3c示出在另一个实施例中的样本图像示意图。图3c中，两个方框中的文本内容比较相似。在训练过程中，如果随机将非输入框的文本内容替换为输入框的文本内容，可以让模型在进行判断时抵抗这类噪声的影响，减少对错误文本内容的关注，更多借助位置进行判断。

以上是对输入过程的说明，以下对上述预测处理过程进行说明。

上述预测处理可以包括：步骤a，利用特征提取器从样本图像中提取图像特征。步骤b，利用第一编码器基于各文本内容中各词的词向量，确定各文本内容的特征向量。步骤c，利用第二编码器基于图像特征和各文本内容的特征向量，确定各界面元素的综合特征表示。步骤d，利用分类器基于各综合特征表示，确定各界面元素的第一类别预测结果。

首先，在步骤a，所述的特征提取器可以实现为SEResNeXt-50系列的网络，该系列网络基于imageNet数据集训练得到。该系列网络相比于之前的网络增加了通道组数，具体实现原理是：通过控制图像的大小(包括深度和宽度)，把每个通道间重要的特征增强，不重要特征减弱，从而使得提取的特征指向性更强。

通过步骤a所获取的图像特征可以转为预定大小的特征图。比如，可以转为7*7*1024的特征图。之后可以利用矩阵转换函数(比如，reshape())，将该预定大小的特征图铺平成一行，就可以得到预定数目的特征图，且各特征图的维数相同。

当然，在实际应用中，在得到预定数目的特征图之后，还可以对其进行压缩处理，以使得特征图的维数与文本内容的维数相一致。比如，对于上述7*7*1024的特征图，在将其铺平后可以得到49*1024的特征图，之后在利用一层卷积核大小为：1*1*1024*768的卷积层，可以将其压缩为49*768的特征图。其中，49表示特征图的数目，768表示特征图的维数。

接着，在步骤b，所述的第一编码器可以包括第一嵌入层和第一注意力层。具体地，在第一嵌入层，可以基于各文本内容中各词的词向量以及对应的顺序编号，得到各词的嵌入向量。在第一注意力层，对同一文本内容中各词的嵌入向量加以不同的权重，得到对应文本内容的特征向量。

在一个示例中，上述第一编码器具体为Transformer编码器，从而在将某一文本内容中各词的词向量以及对应的顺序编号输入Transformer编码器之后，可以将该Transformer编码器的[CLS]token输出，作为该文本内容的特征向量。

需要说明，通常情况下，界面元素包含的文本内容从整体上考虑才更加合理。因此，本方案先将每个文本内容中的各词输入到第一编码器，以得到每个文本内容的特征向量，然后在将各文本内容的特征向量输入第二编码器，可以使得第二编码器关注各文本内容之间的关联性，以及图像特征和各文本内容之间的关联性，这个可以提升界面元素的特征表示的准确性。

其次，在步骤c，所述的第二编码器可以包括第二嵌入层和第二注意力层。在第二嵌入层，基于各特征图及其顺序编号，以及各特征图在样本图像中的位置信息，得到各特征图的嵌入向量，以及基于各文本内容的特征向量及其顺序编号，以及对应界面元素的位置信息，得到各文本内容的嵌入向量。在第二注意力层，对各特征图的嵌入向量以及各文本内容的嵌入向量加以不同的权重，得到各界面元素的综合特征表示。

首先，上述第二编码器也可以具体为Transformer编码器。此外，各特征图在样本图像中的位置信息，可以是在对样本图像进行N等分后，基于N个等分区域的坐标信息确定的。这里的N即为上述步骤a中最终得到的特征图的数目。

以特征图的数目(也即N)为49为例来说，对样本图像进行49等分，即为对样本图像的长和宽分别进行7等分，从而可以得到49个等分区域。对于每个等分区域，其具有对应的坐标信息。在一个示例中，每个等分区域的坐标信息由区域左上角的顶点坐标和右下角的顶点坐标构成，具体可以表示为：(((X_左上,Y_左上),(X_右下,Y_右下))。

需要说明，对于上述各等分区域，可以按照预定顺序(比如，从左到右，从上到下)，将其铺平成一行，铺平后的各等分区域具有对应的顺序编号(一般从0开始)。之后可以按照顺序编号，来建立各等分区域与各特征图之间的对应关系，并且针对任一特征图，可以将对应等分区域的坐标信息，作为其在样本图像中的位置信息。

此外，上述各文本内容的顺序编号(从0开始)，可以是在按照预定顺序，将各文本内容铺平成一行后而确定的。以表1为例来说，在按照从左到右，从上到下的顺序，将各文本内容铺平成一行后，文本内容：“登录密码”的顺序编号可以为：“2”，文本内容：“手机”的顺序编号可以为：“8”等等。

上述界面元素的位置信息，可以是基于OCR技术所检测到的边界框的坐标信息确定的。这里的边界框的坐标信息，也可以由框左上角的顶点坐标和框右下角的顶点坐标构成，具体表示方式可以参见上述等分区域，在此不复赘述。

当然，在实际应用中，利用第二编码器还可以得到样本图像的综合特征表示。具体地，可以将Transformer编码器的[CLS]token输出，作为样本图像的综合特征表示。

总之，第二编码器通过综合考虑各文本内容之间的关联性，图像特征和各文本内容之间的关联性，来获取各界面元素的综合特征表示，这可以提升界面元素的特征表示的准确性，进而可以提升界面元素类别识别的准确性。

最后，在步骤d，各界面元素的第一类别预测结果可以包括两个：一个为主类别预测结果，另一个为子类别预测结果。

此外，在第二编码器还确定样本图像的综合特征表示时，可以利用分类器基于样本图像的综合特征表示，确定第一方向预测结果。

步骤208，至少根据各界面元素的第一类别预测结果和各类别标签，训练类别预测模型。

在一个示例中，可以根据各界面元素的第一类别预测结果和各类别标签，确定各界面元素对应的各第一损失。然后对各第一损失求平均或者求加权平均，得到预测损失。最后根据预测损失，确定第一参数梯度，并根据该第一参数梯度调整类别预测模型的参数。至此，类别预测模型训练完成。

在一个例子中，可以根据如下公式确定界面元素i的第一损失：

其中，loss_elementi为界面元素i(elementi)的第一损失，

为主类别损失，其可以是基于界面元素i的主类别预测结果和主类别标签而确定。I_elementi为置信函数，具体地，若界面元素i具有子类别标签，比如，界面元素i为输入框或提示语，那么其为1，否则为0。

为子类别损失，其可以是基于界面元素i的子类别预测结果和子类别标签而确定。

可见，对于任意的界面元素i，若其同时具有主类别标签和子类别标签，那么可以先根据主类别预测结果和主类别标签，确定主类别损失，以及根据子类别预测结果和子类别标签，确定子类别损失。然后对主类别损失和子类别损失进行融合(比如，求和或加权求和)，得到对应的第一损失。

而对于任意的界面元素i，若其只具有主类别标签，那么可以根据主类别预测结果和主类别标签，确定主类别损失，并将主类别损失作为对应的第一损失。

在另一个示例中，如果利用分类器还可以确定样本图像的第一方向预测结果，那么还可以根据第一方向预测结果和方向标签，确定第二损失。然后对上述预测损失与第二损失进行融合(比如，求和或加权求和)，得到总损失。最后根据总损失，确定第一参数梯度，以及根据该第一参数梯度调整类别预测模型的参数。至此，类别预测模型的训练过程结束。

在一个例子中，可以根据如下公式确定总损失：

其中，loss_total为总损失，loss_{page_cls}为第二损失，loss_elementi为界面元素i(elementi)的第一损失，N为界面元素的数目。

需要说明，本说明书实施例中，通过加入上述第二损失，可以使得模型针对不包含文本内容的界面元素，也能进行准确识别。总之，本方案中通过加入第二损失，达到了辅助训练模型的目的。

在还一个示例中，在确定出上述预测损失或者总损失后，可以确定预测损失(或总损失)相对于各文本内容中各词的词向量的特征梯度。根据特征梯度，确定目标扰动量。在各词的词向量上分别叠加对应的目标扰动量，从而得到各扰动内容。

在一个例子中，上述根据特征梯度，确定目标扰动量可以包括：获取特征梯度的梯度符号，将梯度符号与预定值ε的乘积作为目标扰动量；或者，对特征梯度进行归一化，并将归一化的特征梯度与预定值ε的乘积作为目标扰动量。这里的预定值ε为超参数。

其中，上述特征梯度的梯度符号可以是利用符号函数获取的。

在得到各扰动内容之后，可以将样本图像和各扰动内容输入类别预测模型，以进行再一次的预测处理。

应理解，通过该再一次的预测处理，可以得到各界面元素的第二类别预测结果。此外，还可以得到样本图像的第二方向预测结果。之后，可以根据各界面元素的第二类别预测结果和各类别标签，得到各第三损失；以及根据样本图像的第二方向预测结果和方向标签，得到第四损失。在对各第三损失和第四损失进行融合之后，基于融合损失可以得到第二参数梯度。

需要说明，第三损失的计算方法可以参见上述公式1，第四损失的计算方法同上述第二损失的计算方法相类似。各第三损失和第四损失的融合损失的确定方法可以参见公式2，本说明书在此不复赘述。

在确定出第二参数梯度之后，可以将第一参数梯度和第二参数梯度融合(比如，求和或加权求和)，之后根据融合梯度，调整类别预测模型的参数。至此类别预测模型的训练过程结束。

需要说明，上述还一个示例中给出的模型训练方法，实际上是在正常的基于梯度下降的训练方法中加入了对抗训练。该训练过程具体可以总结如下：在将样本图像和各文本内容输入模型，计算得到前向损失后，并不直接基于该前向损失计算得到的参数梯度调整模型的参数，而是基于前向损失计算特征梯度，然后在该特征梯度上升的方向，对文本内容进行扰动，然后将样本图像和各扰动内容输入模型，再次计算前向损失，并再次计算参数梯度，最后将两次计算的参数梯度进行融合，并基于融合梯度调整模型的参数。

以下对加入对抗训练的原因进行说明：表单填写时，会出现一些高频词(比如账号、用户等等)，导致模型快速收敛，并在训练集上过拟合，为此需要加入对抗训练，以增加模型对噪声的抗干扰能力。此外，不规范网站的表单中通常会包含错别字，这些错别字通常会影响模型的准确性。本方案中，通过加入对抗训练，可以减少错别字对模型准确性的影响，也即可以提升模型的鲁棒性。

图4示出在一个实施例中的类别预测模型的训练方法示意图。图4中，对于当前的样本图像，可以通过两条链路进行两种不同的处理。

其中，第一种处理包括：将样本图图像输入特征提取器，以提取图像特征。这里的图像特征经处理(铺平和压缩等)后可以包括49个特征图，表示为V1-V49。之后，可以将各特征图及其顺序编号0-48，以及各特征图在样本图像中的位置信息Box_V1-Box_V49，输入第二编码器进行编码处理。

第二种处理包括：获取样本图像中各界面元素包含的各文本内容。针对每个文本内容，将其中的各词的词向量t1-t4及其顺序编号1-4输入第一编码器，得到对应的特征向量，分别表示为：T1-T6。之后，可以将各文本内容的特征向量及其顺序编号1-6，以及对应界面元素的位置信息Box_T1-Box_T6输入第二编码器进行编码处理。

第二编码器对各特征图的嵌入向量以及各文本内容的嵌入向量加以不同的权重，得到各界面元素的综合特征表示。此外，还可以得到样本图像的综合特征表示。最后利用分类器基于各综合特征表示，可以得到各界面元素的主类别预测结果L1和子类别预测结果L2，以及样本图像的第一方向预测结果label。根据各界面元素的L1和L2以及类别标签，和样本图像的label以及方向标签，可以训练类别预测模型。具体训练过程可以参见步骤208中的后两种示例，本说明书在此不复赘述。

综合以上，本说明书实施例提供的类别预测模型的训练方法，可以基于样本图像的图像特征，以及样本图像所包含的各界面元素的各文本内容，来训练类别预测模型。也就是说，可以基于视觉和文本等多种信息，来训练类别预测模型，由此可以大大提升模型精度。此外，本方案在预测处理时，先利用第一编码器获取各文本内容的特征向量，然后再将其输入到第二编码器的方法，使得第二编码器在确定界面元素的综合特征表示时，可以关注各文本内容之间的关联性，而不仅仅关注单个字之间的关联性，这可以提升界面元素的特征表示的准确性，进而可以提升类别预测结果的准确性。

应理解，在训练好类别预测模型之后，可以基于该类别预测模型对界面元素的类别进行识别，以下描述具体的识别过程。

图5示出根据一个实施例的界面元素类别的识别方法流程图。可以理解，该方法可以通过任何具有计算、处理能力的装置、设备、平台、设备集群来执行。如图5所示，该识别过程至少包括以下步骤。

步骤502，获取目标图像，该目标图像包含目标界面元素。

这里的目标图像例如可以为表单图像。上述目标界面元素可以为提示语、输入框、按钮或者其它。

步骤504，获取目标界面元素中包含的目标内容。

在一个示例中，可以利用OCR技术对目标图像进行文本识别，得到目标界面元素中包含的文本内容以及对应的边界框。

步骤506，获取类别预测模型。

该类别预测模型可以是通过图2示出的各方法步骤训练得到。如前所述，该类别预测模型可以包括：特征提取器、第一编码器、第二编码器和分类器。

步骤508，将目标图像以及目标内容输入类别预测模型进行预测处理，得到目标界面元素的目标类别。

该预测处理具体可以包括：利用特征提取器从目标图像中提取目标图像特征。利用第一编码器基于目标内容中各词的词向量，确定目标内容的特征向量。利用第二编码器基于目标图像特征和目标内容的特征向量，确定目标界面元素的目标特征表示。利用分类器基于目标特征表示，确定目标界面元素的目标类别。

上述目标界面元素的目标类别可以包括主类别和子类别。其中主类别可以包括以下中的任一项：提示语、输入框、按钮或者其它。对于主类别为输入框或提示语的界面元素，其对应的子类别可以包括以下中的任一项：账号、密码、手机号、姓名以及验证码等等。

与上述类别预测模型的训练方法对应地，本说明书一个实施例还提供的一种类别预测模型的训练装置，如图6所示，该装置可以包括：

获取单元602，用于获取样本图像，该样本图像包含若干界面元素，各界面元素具有对应的各类别标签。

获取单元602，还用于获取各界面元素中包含的各文本内容。

预测处理单元604，用于将样本图像以及各文本内容，输入类别预测模型进行预测处理。类别预测模型包括特征提取器、第一编码器、第二编码器以及分类器。预测处理包括：利用特征提取器从样本图像中提取图像特征，利用第一编码器基于各文本内容中各词的词向量，确定各文本内容的特征向量，利用第二编码器基于图像特征和所述各文本内容的特征向量，确定各界面元素的综合特征表示，利用分类器基于各综合特征表示，确定各界面元素的第一类别预测结果。

其中，预测处理单元604具体用于：

将各文本内容中，预设比例的文本内容用预设短语进行遮蔽，得到遮蔽处理后的各文本内容；

将样本图像以及遮蔽处理后的各文本内容，输入类别预测模型。

其中，各界面元素包括输入框；

预测处理单元604还具体用于：

将各文本内容中对应于非输入框的各候选内容中，预设比例的候选内容，替换为输入框的文本内容，得到替换处理后的各文本内容；

将样本图像以及替换处理后的各文本内容，输入类别预测模型。

训练单元606，用于至少根据各界面元素的第一类别预测结果和各类别标签，训练类别预测模型。

其中，训练单元606包括：

确定模块6062，用于至少根据各界面元素的第一类别预测结果和各类别标签，确定第一参数梯度。

扰动模块6064，用于对各文本内容进行扰动，生成各扰动内容。

扰动模块6064具体用于：

确定预测损失相对于各词的词向量的特征梯度，预测损失至少根据第一类别预测结果和各类别标签确定；

根据特征梯度，确定目标扰动量；

在各词的词向量上分别叠加目标扰动量，从而得到各扰动内容。

扰动模块6064还具体用于：

获取特征梯度的梯度符号，将梯度符号与预定值的乘积作为目标扰动量；或者，

对特征梯度进行归一化，并将归一化的特征梯度与预定值的乘积作为目标扰动量。

输入模块6066，用于将样本图像以及各扰动内容，输入类别预测模型进行预测处理，得到各界面元素的第二类别预测结果。

确定模块6062，还用于至少根据各界面元素的第二类别预测结果和各类别标签，确定第二参数梯度。

调整模块6068，用于对第一参数梯度和第二参数梯度融合，并基于融合梯度，调整类别预测模型的参数。

可选地，上述样本图像还具有方向标签，该方向标签指示样本图像的版面方向；

预测处理单元604还用于，利用分类器确定样本图像的第一方向预测结果。

训练单元606具体用于：

根据各界面元素的第一类别预测结果和各类别标签，确定各第一损失，以及根据第一方向预测结果和方向标签，确定第二损失；

根据各第一损失和第二损失，得到总损失；

根据总损失，调整类别预测模型的参数。

可选地，上述各界面元素包括输入框，输入框的第一类别预测结果包括主类别预测结果和子类别预测结果，输入框对应的类别标签包括主类别标签和子类别标签；

训练单元606还具体用于：

根据输入框的主类别预测结果和主类别标签，确定主类别损失，以及根据输入框的子类别预测结果和子类别标签，确定子类别损失；

对主类别损失与子类别损失融合，得到对应于输入框的第一损失。

可选地，上述第一编码器包括第一嵌入层和第一注意力层；

预测处理单元604具体用于：

在第一嵌入层，基于各文本内容中各词的词向量以及对应的顺序编号，得到各词的嵌入向量；

在第一注意力层，对同一文本内容中各词的嵌入向量加以不同的权重，得到各文本内容的特征向量。

可选地，上述图像特征包括N个特征图，第二编码器包括第二嵌入层和第二注意力层；

预测处理单元604具体用于：

在第二嵌入层，基于各特征图及其顺序编号，以及各特征图在样本图像中的位置信息，得到各特征图的嵌入向量，以及基于各文本内容的特征向量及其顺序编号，以及对应界面元素的位置信息，得到各文本内容的嵌入向量；

在第二注意力层，对各特征图的嵌入向量以及各文本内容的嵌入向量加以不同的权重，得到各界面元素的综合特征表示。

其中，各特征图在样本图像中的位置信息是在对样本图像进行N等分后，基于N个等分区域的坐标信息确定的。

其中，界面元素的位置信息是通过对样本图像进行文本识别得到的。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的类别预测模型的训练装置，可以同时关注图像的图像特征以及图像中所包含的各界面元素的文本内容之间的关联性，从而可以更准确地识别界面元素的类别。

与上述界面元素类别的识别方法对应地，本说明书一个实施例还提供的一种界面元素类别的识别装置，如图7所示，该装置可以包括：

获取单元702，用于获取目标图像，该目标图像包含目标界面元素。

获取单元702，还用于获取目标界面元素中包含的目标内容。

获取单元702，还用于获取类别预测模型，其中，类别预测模型根据如图2示出的各方法步骤训练得到。

预测处理单元704，用于将目标图像以及目标内容，输入类别预测模型进行预测处理，得到目标界面元素的目标类别。

本说明书一个实施例提供的界面元素类别的识别装置，可以准确地识别界面元素的类别。

根据另一方面的实施例，还提供一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行结合图2、图4或图5所描述的方法。

根据再一方面的实施例，还提供一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现结合图2、图4或图5所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种类别预测模型的训练方法，包括：

获取各界面元素中包含的各文本内容；

2.根据权利要求1所述的方法，其中，所述至少根据所述各界面元素的第一类别预测结果和所述各类别标签，训练所述类别预测模型，包括：

至少根据所述各界面元素的第一类别预测结果和所述各类别标签，确定第一参数梯度；

对所述各文本内容进行扰动，生成各扰动内容；

将所述样本图像以及所述各扰动内容，输入所述类别预测模型进行所述预测处理，得到所述各界面元素的第二类别预测结果；

至少根据所述各界面元素的第二类别预测结果和所述各类别标签，确定第二参数梯度；

对所述第一参数梯度和第二参数梯度融合，并基于融合梯度，调整所述类别预测模型的参数。

3.根据权利要求2所述的方法，其中，所述对所述各文本内容进行扰动，包括：

确定预测损失相对于所述各词的词向量的特征梯度，所述预测损失至少根据所述第一类别预测结果和所述各类别标签确定；

根据所述特征梯度，确定目标扰动量；

在所述各词的词向量上分别叠加所述目标扰动量，从而得到所述各扰动内容。

4.根据权利要求3所述的方法，其中，所述根据所述特征梯度，确定目标扰动量，包括：

获取所述特征梯度的梯度符号，将所述梯度符号与预定值的乘积作为所述目标扰动量；或者，

对所述特征梯度进行归一化，并将归一化的特征梯度与所述预定值的乘积作为所述目标扰动量。

5.根据权利要求1所述的方法，其中，所述样本图像还具有方向标签，所述方向标签指示所述样本图像的版面方向；

所述预测处理还包括，利用所述分类器确定所述样本图像的第一方向预测结果；

所述训练所述类别预测模型，包括：

根据所述各界面元素的第一类别预测结果和所述各类别标签，确定各第一损失，以及根据所述第一方向预测结果和方向标签，确定第二损失；

根据所述各第一损失和所述第二损失，得到总损失；

根据所述总损失，调整所述类别预测模型的参数。

6.根据权利要求5所述的方法，其中，所述各界面元素包括输入框；所述输入框的第一类别预测结果包括主类别预测结果和子类别预测结果；所述输入框对应的类别标签包括主类别标签和子类别标签；

所述根据所述各界面元素的第一类别预测结果和所述各类别标签，确定各第一损失，包括：

根据所述输入框的主类别预测结果和主类别标签，确定主类别损失，以及根据所述输入框的子类别预测结果和子类别标签，确定子类别损失；

对所述主类别损失与所述子类别损失融合，得到对应于所述输入框的第一损失。

7.根据权利要求1所述的方法，其中，所述将所述样本图像以及所述各文本内容，输入类别预测模型，包括：

将所述各文本内容中，预设比例的文本内容用预设短语进行遮蔽，得到遮蔽处理后的各文本内容；

将所述样本图像以及遮蔽处理后的各文本内容，输入所述类别预测模型。

8.根据权利要求1所述的方法，其中，所述各界面元素包括输入框；

所述将所述样本图像以及各文本内容，输入类别预测模型，包括：

将所述各文本内容中对应于非输入框的各候选内容中，预设比例的候选内容，替换为所述输入框的文本内容，得到替换处理后的各文本内容；

将所述样本图像以及替换处理后的各文本内容，输入所述类别预测模型。

9.根据权利要求1所述的方法，其中，所述第一编码器包括第一嵌入层和第一注意力层；

所述确定所述各文本内容的特征向量，包括：

在所述第一嵌入层，基于所述各文本内容中各词的词向量以及对应的顺序编号，得到各词的嵌入向量；

在所述第一注意力层，对同一文本内容中各词的嵌入向量加以不同的权重，得到所述各文本内容的特征向量。

10.根据权利要求1所述的方法，其中，所述图像特征包括N个特征图；所述第二编码器包括第二嵌入层和第二注意力层；

所述确定所述各界面元素的综合特征表示，包括：

在所述第二嵌入层，基于各特征图及其顺序编号，以及各特征图在所述样本图像中的位置信息，得到所述各特征图的嵌入向量，以及基于所述各文本内容的特征向量及其顺序编号，以及对应界面元素的位置信息，得到所述各文本内容的嵌入向量；

在所述第二注意力层，对所述各特征图的嵌入向量以及所述各文本内容的嵌入向量加以不同的权重，得到所述各界面元素的综合特征表示。

11.根据权利要求10所述的方法，其中，所述各特征图在所述样本图像中的位置信息是在对所述样本图像进行N等分后，基于N个等分区域的坐标信息确定的。

12.根据权利要求10所述的方法，其中，所述界面元素的位置信息是通过对所述样本图像进行文本识别得到的。

13.一种界面元素类别的识别方法，包括：

获取目标图像，所述目标图像包含目标界面元素；

获取所述目标界面元素中包含的目标内容；

14.一种类别预测模型的训练装置，包括：

15.根据权利要求14所述的装置，其中，所述训练单元包括：

确定模块，用于至少根据所述各界面元素的第一类别预测结果和所述各类别标签，确定第一参数梯度；

扰动模块，用于对所述各文本内容进行扰动，生成各扰动内容；

输入模块，用于将所述样本图像以及所述各扰动内容，输入所述类别预测模型进行所述预测处理，得到所述各界面元素的第二类别预测结果；

所述确定模块，还用于至少根据所述各界面元素的第二类别预测结果和所述各类别标签，确定第二参数梯度；

调整模块，用于对所述第一参数梯度和第二参数梯度融合，并基于融合梯度，调整所述类别预测模型的参数。

16.根据权利要求15所述的装置，其中，所述扰动模块具体用于：

根据所述特征梯度，确定目标扰动量；

17.根据权利要求14所述的装置，其中，所述样本图像还具有方向标签，所述方向标签指示所述样本图像的版面方向；

所述预测处理单元还用于，利用所述分类器确定所述样本图像的第一方向预测结果；

所述训练单元具体用于：

根据所述各第一损失和所述第二损失，得到总损失；

根据所述总损失，调整所述类别预测模型的参数。

18.根据权利要求17所述的装置，其中，所述各界面元素包括输入框；所述输入框的第一类别预测结果包括主类别预测结果和子类别预测结果；所述输入框对应的类别标签包括主类别标签和子类别标签；

所述训练单元还具体用于：

19.根据权利要求14所述的装置，其中，所述预测处理单元具体用于：

20.根据权利要求14所述的装置，其中，所述各界面元素包括输入框；

所述预测处理单元还具体用于：

21.根据权利要求14所述的装置，其中，所述第一编码器包括第一嵌入层和第一注意力层；

所述预测处理单元具体用于：

22.根据权利要求14所述的装置，其中，所述图像特征包括N个特征图；所述第二编码器包括第二嵌入层和第二注意力层；

所述预测处理单元具体用于：

23.一种界面元素类别的识别装置，包括：

24.一种计算机可读存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-13中任一项所述的方法。

25.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-13中任一项所述的方法。