CN114360038A

CN114360038A - 基于深度学习的弱监督rpa元素识别方法及系统

Info

Publication number: CN114360038A
Application number: CN202210279499.9A
Authority: CN
Inventors: 王庆庆; 孙林春
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-04-15
Anticipated expiration: 2042-03-22
Also published as: CN114360038B

Abstract

本发明属于RPA元素识别技术领域，具体涉及基于深度学习的弱监督RPA元素识别方法及系统。包括步骤：S1，对有监督数据，从每个类别的样本中不放回的采样若干个元素图像样本；对无监督数据，从每个类别的样本中不放回的随机采样若干个元素图像样本；S2，对各个元素图像样本进行多次数据增强处理，得到多个处理后的元素图像样本；S3，提取获得的元素图像样本的特征，并分别通过配准学习、度量学习、表征学习、自监督学习和聚类学习的方式对元素图像样本的特征进行识别。本发明具有能基于少量人工标注数据，学习难分样本，并结合元素大数据分布规律，提升泛化能力，实现高效、鲁棒的元素识别功能的特点。

Description

基于深度学习的弱监督RPA元素识别方法及系统

技术领域

本发明属于RPA元素识别技术领域，具体涉及基于深度学习的弱监督RPA元素识别方法及系统。

背景技术

RPA（机器人流程自动化，Robotic Process Automation）是一种当前快速发展的计算机软件自动化技术。元素拾取是RPA的重要组成功能，包括元素检测与识别。识别元素的常用操作有分类、匹配，以及识别元素中的内容（如文本元素）等。元素分类是对元素按特定的分类规则将元素划分为不同的类别的过程；元素匹配是对给定的模版元素找出相同或相似元素的过程，或者是对给定元素找出相同或相似模版的过程（此时相当于对元素进行分类操作）；识别元素中的内容主要针对文本类元素，采用文字识别技术达到识别元素内容的目的。

现有的RPA元素识别方法存在以下缺点：

1.基于目标检测和分类算法的元素识别需要大量带标注样本数据：

为获得更高的目标检测精度，现有技术基本上是采用深度学习目标检测算法。而使用深度学习的前提之一则是需要大量带有标注的样本数据提供训练，标注的格式一般是将页面图片上的各个元素，如按钮、文本框、功能图标以矩形框的形式标出。这种带标注的数据本身需要大量的图片素材和人力标注成本，对于浏览器页面或常见办公软件尚且可以通过自动合成的方式构造；然而一些商用软件或客户自己开发的系统并无法提供大量的图片素材，因此目标检测的效果在这类场景下会大打折扣。同时，因为分类算法不能识别类别外，在页面样式和元素形态随浏览器、软件版本发生变更的情况下，重新标注和训练的时间会相对较长。

2.传统的图像配准技术匹配效果不稳定：

传统的图像配准能解决开放类别元素识别的问题，然而，传统的图像配准过去依赖图像的浅层特征，如基于特征的配准技术需要提取图像的角度、边缘或纹理的特征，这些特征受分辨率、对比度等影响巨大；基于变换域的配准方法对图像的重合度有要求等，使得基于传统的图像配准技术难以达到较精确，较稳定的匹配效果；基于互信息的匹配算法的目标函数存在多极值，容易陷入局部最优

基于上述问题，设计一种能够基于少量人工标注数据，学习难分样本，并结合元素大数据分布规律，提升泛化能力，实现高效、鲁棒的元素识别功能的基于深度学习的弱监督RPA元素识别方法及系统，就显得十分重要。

例如，申请号为CN202011126611.2的中国专利文献描述的结合RPA和AI的软件界面元素的识别方法与装置，方法包括：提取当前软件界面中的界面元素；基于目标元素的结构模式及所述界面元素，进行相似度运算；根据相似度运算结果，确定所述目标元素在当前软件界面上的分布信息。虽然可以提升机器人流程自动化过程中结合RPA和AI的对软件界面上的界面元素的匹配准确度，实现方式简单，效果稳定可靠，但是其缺点在于，由于仍采用的是图像配准技术，仍然存在用于分类学习所需的样本巨大，需要付出较多的人力成本的问题。

发明内容

本发明是为了克服现有技术中，现有的RPA元素识别方法存在需要付出较多的人力成本，且识别不精确，不稳定，鲁棒性差，使RPA运行结果有较大不确定性的问题，提供了一种能够基于少量人工标注数据，学习难分样本，并结合元素大数据分布规律，提升泛化能力，实现高效、鲁棒的元素识别功能的基于深度学习的弱监督RPA元素识别方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于深度学习的弱监督RPA元素识别方法，包括如下步骤；

S1，对有监督数据，从每个类别的样本中不放回的采样若干个元素图像样本；对无监督数据，从每个类别的样本中不放回的随机采样若干个元素图像样本；

S2，对各个元素图像样本进行多次数据增强处理，得到多个处理后各不相同的元素图像样本；

S3，提取步骤S2中获得的元素图像样本的特征，并分别通过配准学习、度量学习、表征学习、自监督学习和聚类学习的方式对元素图像样本的特征进行识别。

作为优选，步骤S2中所述数据增强处理包括对元素图像样本进行裁剪、模糊、缩放，调整颜色、亮度以及加入噪声的操作。

作为优选，步骤S3包括如下步骤：

配准学习：

S311，输入数据增强处理后的成对的元素图像样本，根据获得的对应的元素图像样本的特征，通过计算获得成对的元素图像样本之间的相似度，并以加权求和的相似度作为配准学习的输出值；所述输出值表示为预测的配准得分；

所述配准学习为二分类学习任务，采用二值交叉熵损失作为损失函数。

作为优选，步骤S3包括如下步骤；

度量学习：

S321，输入获得的元素图像样本的特征，并采用triplet损失作为损失函数，获得元素图像样本特征间的相似距离度量；所述Triplet损失的目标是使特征间的类间距离比类内距离至少大于给定的阈值，具体函数式如下：

其中

表示第i个元素anchor；

表示与anchor同类别的正样本元素；

表示与anchor不同类别的负样本元素；

表示类内距离，即anchor与正样本的欧式距离；

表示类间距离，即anchor与负样本的欧式距离；

是类内距离与类间距离之差的下限；+表示当

大于0时，则取计算输出值，若小于0时，则取0。

作为优选，步骤S3包括如下步骤：

表征学习：

S331，输入获得的元素图像样本的特征，将获得的元素图像样本的特征映射为类别ID，并输出元素图像样本属于各个类别ID的得分，取得分最大的类别ID作为预测的类别；

所述类别ID为元素图像样本特征类别的数字符号；所述表征学习使用交叉熵作为目标损失函数。

作为优选，步骤S3包括如下步骤：

自监督学习：

S341，输入获得的元素图像样本的特征，通过在线更新网络和延后更新网络的进行表征预测，输出元素图像样本的表征；

所述元素图像样本的表征为元素图像样本特征的一串向量表示。

作为优选，步骤S3包括如下步骤：

聚类学习：

S351，对获得的元素图像样本的特征进行聚类，得到每个元素图像样本特征的伪标签，并根据伪标签匹配记忆单元中对应类别的聚类中心特征，同时求出元素图像样本特征与对应类别的聚类中心特征之间的距离损失，并将损失梯度反向传播，优化聚类学习过程。

本发明还提供了基于深度学习的弱监督RPA元素识别系统，包括：

采样模块，用于对有监督数据，从每个类别的样本中不放回的采样若干个元素图像样本；对无监督数据，从每个类别的样本中不放回的随机采样若干个元素图像样本；

特征提取模块，用于提取元素图像样本的特征，并将所述特征传递给配准学习、度量学习、表征学习、自监督学习和聚类学习的预测分支；

配准学习模块，用于输入数据增强处理后的成对的元素图像样本，根据获得的对应的元素图像样本的特征，通过计算获得成对的元素图像样本之间的相似度，并以加权求和的相似度作为配准学习的输出值；

度量学习模块，用于输入获得的元素图像样本的特征，并采用triplet损失作为损失函数，获得元素图像样本特征间的相似距离度量；

表征学习模块，用于输入获得的元素图像样本的特征，将获得的元素图像样本的特征映射为类别ID，并输出元素图像样本属于各个类别ID的得分，取得分最大的类别ID作为预测的类别；

自监督学习模块，用于输入获得的元素图像样本的特征，通过在线更新网络和延后更新网络的进行表征预测，输出元素图像样本的表征；

聚类学习模块，用于对获得的元素图像样本的特征进行聚类，得到每个元素图像样本特征的伪标签，并根据伪标签匹配记忆单元中对应类别的聚类中心特征，同时求出元素图像样本特征与对应类别的聚类中心特征之间的距离损失，并将损失梯度反向传播，优化聚类学习过程。

作为优选，基于深度学习的弱监督RPA元素识别方法系统还包括：

数据增强模块，用于对各个元素图像样本进行多次数据增强处理，得到多个处理后各不相同的元素图像样本；

所述数据增强处理包括对元素图像样本进行裁剪、模糊、缩放，调整颜色、亮度以及加入噪声的操作。

本发明与现有技术相比，有益效果是：（1）本发明通过神经网络提取特征，将提取的特征在不同的分析维度，进行表征学习、度量学习、自监督学习、配准学习和聚类学习，联合优化所有学习任务的损失，发挥了协同效应，使得模型既能对已有的元素类别，直接进行分类，又能通过度量学习和配准学习，进行匹配；（2）本发明还采用了有监督和无监督相结合的方法，既能通过增加有监督的难分样本来优化模型，又能使用无监督样本而节约人力，权衡了收益与成本；（3）本发明方法学习出来的模型，预测效果更加精确、鲁棒，同时，也具备一定的可解释性。

附图说明

图1为本发明中基于深度学习的弱监督RPA元素识别方法的一种流程图；

图2为本发明中基于深度学习的弱监督RPA元素识别系统的一种训练过程示意图；

图3为本发明实施例所提供的微信图标与模型的注意力的一种特征示意图；

图4为本发明中特征提取模块的一种模型示意图；

图5为本发明中自监督学习模块的一种网络结构示意图；

图6为本发明实施例所提供的企业微信图标配准的一种示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本发明提供了基于深度学习的弱监督RPA元素识别方法，包括如下步骤；

本发明采用深度学习图像配准技术，借鉴行人重识别和人脸识别中的表征学习和度量学习的思想，结合有监督学习和无监督学习。在有监督数据集上使用表征学习和度量学习技术，分别学习元素分类和元素特征之间的距离，同时，使用配准学习技术，学习成对元素之间的匹配得分，在无监督数据集上使用聚类学习，学习元素图片聚类；同时在所有数据上进行自监督学习，优化特征提取的质量。

有监督数据的制作是通过人工对元素图标进行类别分类得到的，比如按邮箱、微信、关闭等图标类别来分类，人工标注的数据可以专注在易错元素图标（即难样本）上。而无监督数据的制作无需人工参与分类，也无需知道元素图标的类别，任意元素图标均可作为无监督数据的组成部分。

进一步的，步骤S2中所述数据增强处理包括对元素图像样本进行裁剪、模糊、缩放，调整颜色、亮度以及加入噪声的操作。

在配准学习和度量学习中，需要对正负样本进行组合配对，在配准学习中需要对成对样本进行得分评估，在度量学习中，需要对正样本对、负样本对之间的特征距离进行度量。采样模块的作用是按配准学习和度量学习的需要，在读取数据时，完成样本的选取。在其他学习任务中，样本可以通过随机读取，不用设置特定的采样规则。

数据增强是指对图像进行变换，如裁剪、模糊、缩放，调整颜色、亮度，加入各种噪声等操作。数据增强可以扩充样本，增加识别难度，提升模型的鲁棒性。数据增强在自监督学习中，发挥了非常重要的作用，通过对同一张元素图像进行多次数据增强，得到了不同的图像，自监督学习模块将对这些图像的特征进行相似学习。

特征提取模块的作用是提取元素图像的特征，并将这些特征传递给配准学习、度量学习、聚类等预测分支，这些预测分支共享一个特征提取网络提取的特征。

配准学习模块以成对的图像为输入，既可以在有监督数据上学习，也可以在有监督和无监督数据上，对同一张元素图像的两次数据增强得到的图像进行配准学习。类别相同的图像将需要预测较高的配准得分，反之，将预测较低的配准得分。对类别相同的不同元素图像，配准模块将学习两者的相似度，而同一张元素图像的两次数据增强得到的图像，配准学习模块将学习两者的配准得分，此时，配准学习模块发挥的作用和传统的图像配准是一致的，不同的是，本发明的配准学习模块是可学习、可优化的配准算法。

度量学习的目标就是学习一个变换函数，把数据从原始的向量空间映射到一个新的向量空间，在新的向量空间里类内的距离更近，类间的距离更远，帮助实现对样本空间的特征学习。常见的度量学习包括两个样本之间的对比学习，三元组样本（三个样本）之间的对比学习，和四元组样本之间的对比学习。基于不同比较思想，常见的度量学习目标损失函数有triplet损失、arcface损失、circle损失等。本发明采用triplet损失。

表征学习模块的作用是对元素特征进行分类，根据人工标注的元素类别学习元素种类的划分。

自监督学习模块直接从无标注的数据自行学习，其核心在于如何自动为数据产生标签。例如：输入一张元素图片，把图片分割成3x3的小图，每个小图单独进行数据增强，并其小图的顺序打乱，以正确的排列顺序作为标签，这种标签完全无需人工参与。自监督学习的目的在于让模型学习如何提取好的特征，让模型具备更强的泛化能力。

通过自监督学习，模型能学习到元素的重要特征，捕获到元素图标的重要的信息，如图3所示，左图是微信图标图片，右边是随机选取的模型学习到的注意力特征图，亮度表示模型关注的程度，可以看到模型关注了微信图标的底纹，以及两个对话圈和对话圈的一对眼睛，这些共同构成了微信图标元素区别于其他图标元素的界线。

良好的特征提取结果和图像之间具有相似性是聚类学习发挥作用的前提，聚类学习通过对提取的元素图像特征进行聚类，得到每个元素图像特征的伪标签，每个类别的中心特征将通过记忆单元保存并不断更新；聚类学习将使元素图像特征与记忆单元中保存的该类别的特征差异最小化。

基于本发明的技术方案，本发明具体实施流程如下：。

1.采样

对有监督数据，每个类别的样本将不放回地采样四张，对无监督类别的样本采用不放回随机采样。

2.特征提取

本发明采用了如图4所示的视觉转换器（Vision Transformer）模型作为特征提取网络，其核心操作包括图像分片、图像特征变换并拉平、transformer encoder层三个部分。transformer encoder层则由编码模块和多个norm、Multihead Attention和MLP组合结构构成，并使用了在ImageNet数据集上预训练过的模型权重作为初始化参数。

3.配准学习

输入数据增强处理后的成对的元素图像样本，根据获得的对应的元素图像样本的特征，通过计算获得成对的元素图像样本之间的相似度，并以加权求和的相似度作为配准学习的输出值；所述输出值表示为预测的配准得分；

4.度量学习

输入获得的元素图像样本的特征，并采用triplet损失作为损失函数，获得元素图像样本特征间的相似距离度量；所述Triplet损失的目标是使特征间的类间距离比类内距离至少大于给定的阈值，具体函数式如下：

其中

表示第i个元素anchor；

表示与anchor同类别的正样本元素；

表示与anchor不同类别的负样本元素；

表示类内距离，即anchor与正样本的欧式距离；

表示类间距离，即anchor与负样本的欧式距离；

是类内距离与类间距离之差的下限；+表示当

大于0时，则取计算输出值，若小于0时，则取0。

5.表征学习

输入获得的元素图像样本的特征，将获得的元素图像样本的特征映射为类别ID，并输出元素图像样本属于各个类别ID的得分，取得分最大的类别ID作为预测的类别；

表征学习由两个全链接层实现，作用是将图像特征映射为类别ID，类别ID是元素类别的数字符号，因为有监督的数据都有人工标注元素所属的类别，为此这部分数据将可以进行表征学习。表征学习的输入是特征提取模块提取的图片特征，输出是图片属于各个类别的得分，取得分最大的类别作为模型预测的类别。

6.自监督学习

输入获得的元素图像样本的特征，通过在线更新网络和延后更新网络的进行表征预测，输出元素图像样本的表征；

自监督学习有两个网络构成，如图5所示，一个是在线更新网络，其参数在每次迭代后，都可以根据损失梯度反向传播得到优化；另一个是延后更新网络，其参数和在线更新网络基本一样，且参数不可学习，参数更新根据在线更新网络的参数，通过指数移动平均得到。在线网络组成包括特征提取网络和自监督网络层，自监督网络层由若干个多层感知机网络构成。自监督学习分支的输出是元素图像的表征，是元素特征的一串向量表示。

7.聚类学习

对获得的元素图像样本的特征进行聚类，得到每个元素图像样本特征的伪标签，并根据伪标签匹配记忆单元中对应类别的聚类中心特征，同时求出元素图像样本特征与对应类别的聚类中心特征之间的距离损失，并将损失梯度反向传播，优化聚类学习过程。

在模型每轮训练开始前，将对元素图像进行聚类，提取元素图像特征之后，使用DBSCAN算法。这时，所有的元素图像特征都将有一个聚类标签，将聚类标签为-1的结果（无聚类类别）去除，然后将每个聚类类别的聚类中心特征存储在记忆单元中，在模型训练开始后，聚类分支将输入的特征，根据每轮训练开始前DBSCAN聚类得到伪标签，匹配记忆单元中对应类别的聚类中心特征，然后求两个特征之间距离损失，并将损失梯度反向传播，优化聚类学习分支。

在本发明方法中，有四个识别分支能直接对元素进行识别，第一个是表征学习分支，能直接预测元素类别；第二个是度量学习分支，能给定模版进行元素匹配；第三个是配准学习分支，能计算元素与给定模版的匹配得分，并建立匹配关键点；第四个是聚类学习分支，能对批量元素进行聚类，得到同类元素。

以配准学习为例，可以根据模版和匹配图像间的特征相似关系，得到如下配准关系，如图6所示。

本发明独创性的采用一种基于深度学习的，有监督和无监督相结合的，多任务端到端的元素识别方法，将度量学习、自监督学习、配准学习和聚类学习等相融合，协同提升RPA元素识别的精度、同时具备一定的可解释性。

本发明既可以在有监督数据学习，有可以在无监督数据上学习，利用无监督的大数据集搜集的低成本优势，让模型自发地从大数据集中发现规律、学习规律，让标注数据的工作集中到难样本上来。无需标注的数据容易收集，设计无监督学习方法将这批数据加入元素识别模型训练，避免模型因为学习数据量过小陷入过拟合，能提升模型的泛化能力。同时，本发明借鉴了人脸比对技术、图像配准技术和聚类算法，实现成图像的相似性配对，减少直接对元素分类学习面临的数据长尾效应问题，又解决了开放类别的元素识别的问题。

本发明基于深度神经网络提取的元素图像的深层特征，克服浅层特征的易受干扰性，并基于这些特征建立全图的配准关系，避免噪声信号对配准结果的影响。

本发明在深度特征的基础上，结合图像配准技术，实现了可学习的配准技术，建立了成对图像特征间的配准关键点，使元素间的相似关系变得更为直观。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。