CN113469294B - 一种rpa机器人中图标检测方法及其系统 - Google Patents

一种rpa机器人中图标检测方法及其系统 Download PDF

Info

Publication number
CN113469294B
CN113469294B CN202111023897.6A CN202111023897A CN113469294B CN 113469294 B CN113469294 B CN 113469294B CN 202111023897 A CN202111023897 A CN 202111023897A CN 113469294 B CN113469294 B CN 113469294B
Authority
CN
China
Prior art keywords
button
icon
detection
data
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111023897.6A
Other languages
English (en)
Other versions
CN113469294A (zh
Inventor
王凯
欧阳小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202111023897.6A priority Critical patent/CN113469294B/zh
Publication of CN113469294A publication Critical patent/CN113469294A/zh
Application granted granted Critical
Publication of CN113469294B publication Critical patent/CN113469294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0481Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance
    • G06F3/04817Interaction techniques based on graphical user interfaces [GUI] based on specific properties of the displayed interaction object or a metaphor-based environment, e.g. interaction with desktop elements like windows or icons, or assisted by a cursor's changing behaviour or appearance using icons
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种RPA机器人中图标检测方法及其系统,获取标注好的页面图片中的按钮图标、并擦除按钮图标生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;将原始标注好的训练数据和新生成的生成数据,分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;根据新的训练数据对深度神经网络训练,获得按钮检测模型;输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的位置信息,再通过合并重新生成相对于输入的页面图片的位置信息,得到最终的按钮位置信息。

Description

一种RPA机器人中图标检测方法及其系统
技术领域
本发明涉及RPA机器人技术领域,特别涉及一种RPA机器人中图标检测方法及其系统。
背景技术
伴随我国人口红利的逐渐消失,国家经济进入“新稳态”,众多企业将降低人力成本,提高人员效率作为核心发展诉求,利用智能化、自动化技术赋能改造现有的企业经营、管理和办公模式,将简单工作交由机器来做,成为新的趋势,并将给经济社会的发展带来新的动能。RPA(机器人流程自动化)技术是一种流程自动化技术,通过RPA软件提供的流程编辑器,可以设计和配置出能够自动执行的业务操作流程,并封装成“软件机器人”或“虚拟机器人”的形态,部署到生产环境和业务系统上执行,模拟人在计算机上的一系列操作,例如鼠标移动、鼠标点击、键盘输入、打开网页、获取页面信息、创建文件、输入文件内容、保存文件、删除文件等等,基于上述原子化的操作,实现跨系统的数据集成、汇总和分析,从而替代企业中普遍存在的大量简单、繁琐、重复的工作,并且能够在不进行大规模系统改造的情况下,解决不同部门、不同系统间的数据隔离和业务隔离现象,进一步提高流程处理效率、提高业务操作准确性、降低流程处理成本,最终满足企业的降本增效和业务转型的诉求。
现有的传统RPA技术是通过对界面布局和代码的解析,来实现和业务系统的交互,例如通过一些桌面应用自动化工具提供的API(Application Programming Interface,应用程序接口)接口实现操作系统中的鼠标键盘各类操作;通过解析浏览器页面的CSS(Cascading Style Sheets,层叠演示表)结构和JavaScript(一种开发网页页面的脚本语言)代码等实现浏览器页面元素,如按钮、输入框、文本行等的定位和操作;通过分析办公软件的源代码实现软件界面中元素的定位和操作。这种技术对操作对象的可见性和开放性有较高的要求,需要能通过接口或源码获取操作对象的位置和属性信息,从而执行相应操作。
但在一些应用场景下会存在问题,例如对于远程桌面、虚拟系统、部分客户自己开发的办公软件等操作对象而言,所能获取的往往只是一张页面图片,并不能通过API接口或源码解析的方式进行定位和操作。这种情况下需要利用AI(Artificial Intelligence,人工智能)领域的计算机视觉技术,进行操作元素的匹配、定位和操作。举例来说,远程桌面上的一个「提交」按钮,由于无法通过传统解析的方式进行定位,因而需要利用目标检测或图像比对的方式先定位到该按钮在整张页面图片中的位置,再配合鼠标的移动和点击操作完成「提交」动作。当前,在处理远程桌面等对象的元素定位方面,领域内的通用方法分为目标检测和模板匹配两种方式。
目标检测:把页面中的各个元素视为图片中的目标物体,利用机器学习或深度学习中的目标检测算法进行处理,得到一个定位元素的矩形检测框,从而获得待操作元素的位置。该方法的不足之处,在于深度学习方法需要有大量带有检测框标注的样例图片才能有较高的定位准确率。对于网页或常见的办公软件来说,尚可通过合成的方式自动构造大量样本数据;然而对一些客户自己开发的或比较少见的业务软件,由于带有标注的样本数据获取困难,且深度学习模型之前没有学习过类似样例,元素检测和定位的效果并不理想。
模板匹配:把页面中的各个元素视为一个图片模板,在整张页面图片中进行搜索和比对,并最终定位到匹配程度最高的位置,这里的匹配指的是图片模板和整张页面图片的部分区域的匹配。但这种方案存在的问题:一是传统的、单一的基于图片像素值或「特征点」的匹配方式,匹配的效果并不理想;二是随着应用场景的扩展,需要匹配的页面元素即模板的数量会越来越多,如果不采用合理的检索结构,会造成模板查询和匹配的速度慢,影响使用。模板匹配会存在匹配不到的现象,从而影响最终的元素定位效果。
基于上述现有技术,现有的RPA机器人图标按钮拾取方式和相关技术存在以下缺点:
1、远程桌面、虚拟系统等场景下图标按钮无法定位
传统RPA技术定位拾取的元素对象主要包括以下三类:系统应用程序、浏览器页面和客户端软件。系统应用程序中的元素一般通过桌面应用自动化工具提供的API进行定位,如基于MFC框架开发的程序可使用这种方案抓取句柄并执行各类操作;浏览器页面一般通过CSS解析的方式进行元素定位;客户端软件则借助软件开发语言(如Java)提供的各类插件进行图标按钮定位。无论是上述哪种方式,在面对远程桌面、虚拟系统等场景时,均将失效,原因在于这类场景中,展示给RPA软件的仅仅是一张图片,无法获取其API接口或原始代码,因此只能借助计算机视觉技术来进行处理。
2、传统目标检测无法定位小图标按钮
基于现有的检测方法,基于深度学习目标检测的元素定位技术需要大量标注样本的问题,即一个好的目标检测器需要大量的标注数据和昂贵的学习成本,并且不能够解决小目标漏检和误检的难题。
3、模板匹配技术匹配效果不稳定
模板匹配技术将待匹配元素作为模板图片,在整张页面图片上进行从左至右、从上至下的窗口滑动,并且与整张页面图片上每一块和模板图片尺寸相同的区域进行比对,最终找到比对成功的子图及其位置,即为待定位元素的位置。模板匹配存在匹配不到和小图标无法匹配的情况,无法完全解决实际生产中遇到的问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种RPA机器人中按钮图标自动检测方法,能够有效解决通用目标检测方法存在的诸多不足,同时利用少量样本即可实现按钮图标的精准检测。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种RPA机器人中图标检测方法,包括以下步骤:
步骤1,获取标注好的训练数据中每一张页面图片的按钮图标、并擦除页面图片中的按钮图标以生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;
步骤2,将原始标注好的训练数据和步骤1中新生成的生成数据,采用重叠切分方式分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;
步骤3,根据新的训练数据对深度神经网络训练,获得按钮检测模型;
步骤4,输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的检测结果,检测结果包含有每个切块图像上按钮图标的位置信息,将每个切块图像的检测结果采用合并算法,重新生成相对于输入的页面图片的位置信息,得到最终的按钮图标位置信息。
进一步优选为,所述步骤1具体包括以下步骤:
步骤1.1,将页面图片上标注好的按钮图标进行裁剪并保存为单独的文件以形成标注文件;
步骤1.2,将页面图片上标注好的按钮图标用按钮图标周围的像素进行填充,将原先带有按钮图标的页面图片转化成没有按钮图标的软件背景图;
步骤1.3,将获取到的按钮图标随机贴到软件背景图上,随机生成新的页面图片。
进一步优选为,标注文件内保存按钮图标,按钮图标一部分来自于页面图片的标注提取,另外一部分来自于网络上各种免费的按钮设计图标。
进一步优选为,所述步骤4具体包括以下步骤:
步骤4.1,输入需检测的页面图片采用切分算法切分成多个固定切分尺寸和重叠量的切块图像;
步骤4.2,对每个切块图像进行归一化预处理,具体将每个切块图像0-255的像素值归一到0-1;
步骤4.3,利用训练好的按钮检测模型对预处理后的切块图像进行检测,得到每个切块图像上按钮图标的位置信息;
步骤4.4,对每个切块图像上的按钮图标进行非极大值抑制处理,去掉无效的检测框,输出有效的检测结果;
步骤4.5,将多个切块图像上按钮图标的检测结果通过合并算法得到最终有效的按钮检测框,根据切块图像在切分时的偏移量,将按钮检测框映射成输入的页面图片上的按钮图标位置信息,得到最终的按钮图标位置信息。
进一步优选为,步骤4.1的切分算法具体通过按照水平和垂直两个方向,采用重叠切分的方法对输入的页面图片进行切分。
进一步优选为,步骤4.5的合并算法通过对所有切块图像重叠区域内的检测框计算两两之间的交并比,交并比作为衡量两个检测框重叠度的指标,并通过合并规则进行合并得到最终有效的按钮检测框。
本申请的另外一个目的是提供一种RPA机器人中图标检测系统,用于执行上述图标检测方法,包括数据生成模块、模型训练模块和按钮图标检测模块;
数据生成模块,将原始数据通过图标随机生成算法和数据切分算法生成新的训练数据;
模型训练模块,获取生成的新的训练数据,对深度神经网络训练以获得按钮检测模型;
按钮图标检测模块,将输入的需检测的页面图片,通过按钮检测模型的检测获取按钮图标的初步位置信息,接着对初步位置信息的进行结果预处理获取按钮图标的准确位置信息。
进一步优选为,所述数据生成模块包括随机生成模块和数据切分模块,分别对应设有图标随机生成算法和数据切分算法。
进一步优选为,所述模型训练模块包括数据预处理模块和训练模块,数据预处理模块对新的训练数据进行图像预处理实现输入数据的随机变化,提高图像输入的多样性;训练模块采用深度神经网络进行训练,得到按钮检测模型。
进一步优选为,所述按钮图标检测模块包括图像预处理模块、推理模块和结果处理模块,图像预处理模块将输入的需检测的页面图片切分成多个固定大小的切块图像,推理模块包含训练得到的按钮检测模型,按钮检测模块对多个切块图像进行检测得到每个切块图像上按钮图标的位置信息;结果处理模块将每个切块图像的位置信息进行合并重新生成相对于输入的页面图片的位置信息,得到最终的按钮位置信息。
综上所述,本发明对比于现有技术的有益效果为:
1、对于远程桌面等传统RPA技术无法定位、拾取元素的场景,通过按钮图标检测,能够实现准确的定位;
2、相对于传统的RPA技术,本方法能够做到通用的按钮图标定位,避免了传统方法对模板或者是特定使用环境的依赖,本方法只需要提供一张软件截图即可获取上面所有的按钮图标,实现了端到端的一步推理,大大提高了鲁棒性,应用的效率和元素拾取的准确性;
3、实际应用场景存在很多小于100像素面积的小图标,传统的方法不能够精准的对其进行元素定位,通过本方法,可以实现小目标的快速精准定位,解决实际使用过程中遇到的小图标无法定位的问题;
4、本方法不受限于软件种类,能够适用于各种软件中按钮的自动拾取和定位,有利于提高RPA机器人的智能程度,最大限度地实现RPA机器人的智能化。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为实施例中按钮图标检测部分的流程图;
图2为实施例中合并情况3的示意图;
图3为实施例中图标检测系统的整体流程图;
图4为实施例中具体实施方式的流程示意图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式,也可表示一些实施例或一些实施方式的情况。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开申请内容可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种RPA机器人中图标检测方法及其系统。
需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
下面对本发明中所涉及的技术术语进行简单描述,以便相关人员更好地理解本方案。
非极大值抑制(NMS),顾名思义就是抑制不是极大值的元素,可以理解为局部最大搜索。这个局部代表的是一个邻域,邻域有两个参数可变,一是邻域的维数,二是邻域的大小。这里不讨论通用的NMS算法(参考论文《Efficient Non-Maximum Suppression》对1维和2维数据的NMS实现),而是用于目标检测中提取分数最高的窗口的。例如在行人检测中,滑动窗口经提取特征,经分类器分类识别后,每个窗口都会得到一个分数。但是滑动窗口会导致很多窗口与其他窗口存在包含或者大部分交叉的情况。这时就需要用到NMS来选取那些邻域里分数最高(是行人的概率最大),并且抑制那些分数低的窗口。
深度神经网络(以下简称DNN)是深度学习的基础,神经网络是基于感知机的扩展,而DNN可以理解为有很多隐藏层的神经网络。多层神经网络和深度神经网络DNN其实也是指的一个东西,DNN有时也叫做多层感知机(MLP)。从DNN按不同层的位置划分,DNN内部的神经网络层可以分为三类,输入层、隐藏层和输出层,一般来说第一层是输入层,最后一层是输出层,而中间的层数都是隐藏层。层与层之间是全连接的,也就是说,第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。
所谓神经网络问题的训练本质,就是:已知y1,y2,……,yn,已知x1,x2,……,xm,求解每个连接的权值和每个神经元上的偏差值。对单层的激活函数为RELU的神经网络而言就是,y=max(sum(w*x)+b,0),已知y和x,求解w和b。
本申请内容的背景在于以远程桌面、虚拟/云系统为代表的应用程序,由于其元素解析的困难性给RPA元素拾取、流程编辑和实际应用带来了巨大挑战,如何高效、准确、鲁棒的进行元素定位和拾取是RPA应用到这些场景亟需解决的问题,也是影响RPA技术广泛应用的关键瓶颈,由此本申请内容独创性地构建了一套通用的按钮图标检测方法。
一种RPA机器人中图标检测方法,具体包括以下步骤:
步骤11,获取标注好的训练数据中每一张页面图片的按钮图标、并擦除页面图片中的按钮图标以生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;
步骤12,将原始标注好的训练数据和步骤11中新生成的生成数据,采用重叠切分方式分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;
步骤13,根据新的训练数据对深度神经网络训练,获得按钮检测模型;
步骤14,输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的检测结果,检测结果包含有每个切块图像上按钮图标的位置信息,将每个切块图像的检测结果采用合并算法,重新生成相对于输入的页面图片的位置信息,得到最终的按钮图标位置信息。
总的来说,主要包括数据生成、模型训练、按钮图标检测三个部分,现对这三个部分根据实际应用情况进行展开介绍。
一、数据生成
为了应对目标检测需要大量的标注数据和不能够解决小目标漏检和误检的难题,本申请内容在数据生成部分结合了两种方法,分别是图标随机生成方法和数据切分方法。
图标随机生成方法,包括以下步骤:
步骤21,将标注好的训练数据上的所有按钮图标擦除,生成软件背景图,按钮图标擦除方法:利用按钮图标的四周像素信息来填充按钮图标区域,以达到按钮图标擦除的目的,同时擦除后按钮图标区域又可以和背景区域很好的融合;
步骤22,标注好的训练数据为标注好的页面图片,首先获取标注好的页面图片中的所有按钮图标,其次从网络上获取各种免费的按钮设计图标;
步骤23,将获取到的按钮图标随机贴到生成的软件背景图上,生成新的训练图和标注文件。
优点:生成各种各样的模拟应用程序页面图片,有效地增加了训练数据量和样本的丰富性,能够在有限资源下获取更多的训练数据,有利于提高模型的鲁棒性。
数据切分方法,将标注好的训练数据,通过重叠切分算法,将一张标注数据(标注好的页面图片)生成N张可用于训练的数据并自动生成相应的标注文本。对于标注好的训练数据,可为原始标注数据和图标随机生成方法形成的生成数据。
重叠切分算法,具体通过按照水平和垂直两个方向,采用固定切分尺寸和重叠量的重叠切分的方法对输入的页面图片进行切分。
优点:有效解决了传统目标检测训练中图像被过度缩小引起的小图标漏检和误检的问题。
二、模型训练
采用自热训练结合余弦模拟退火方法,利用深度神经网络结合自定义的区域候选方法,对增广后的数据(增广后的数据由数据生成部分生成)进行训练生成按钮检测模型。
在深度神经网络训练的时候一般都需要采用预训练模型来初始化训练模型参数,已达到快速收敛的目的。此时的预训练模型一般从ImageNet图像数据集得到。ImageNet是根据WordNet层次结构组织的图像数据集,由于ImageNet图像数据集有120万的训练数据,训练周期长,且网络通道数发生变化时,又需要重新训练来获取特定预训练模型,此方法需要大量的训练资源,不利于网络结构的自主设计。
本申请方案采用自热训练来代替预训练模型,并采用余弦模拟退火方法(通过余弦函数来降低学习率)作为学习率衰减策略,保证了整个训练过程的稳定性和收敛的快速性,能够更快的使网络收敛,获得更好更稳定的检测模型。
自热训练:采用0.001的学习率作为初始学习率,采用随机初始化对神经网络权重进行初始化,训练5个Epoch(时期),一个Epoch就是将所有训练样本训练一次的过程,然后将学习率调整为0.1继续训练。
三、按钮图标检测
参照图1所示,将输入的应用程序的页面图片,按照设置的固定切分尺寸和重叠量进行切分,得到多块大小一致的切块图像,然后将切块图像用训练好的按钮检测模型进行检测,即特征提取,输出每个切块图像的检测结果,即每个切块图像中按钮图标的目标定位的相关信息。
由于切块之间存在一定范围的重叠度,同一个按钮图标可能被切分在不同的切块图像中,造成检测结果中,同一个按钮图标存在多个检测框的情况,需要对获取到的定位信息进行处理,具体通过合并算法,实现检测框的去重和合并,最终得到页面图片上按钮图标的准确位置信息,供RPA后续处理使用。
合并算法包含检测框去重和合并,检测框去重通过对所有切块图像重叠区域内的检测框计算两两之间的交并比(IOU),交并比是一种衡量两个矩形框重叠度的指标,交并比越高说明两个框重叠度越高,说明为同一个目标的概率就越大,并通过合并规则进行合并。
交并比(IOU)的计算公式为:
Figure 801602DEST_PATH_IMAGE001
其中计算公式中的A和B为两个检测框,上述公式左右两侧分别计算两个检测框的交集面积和并集面积。
根据合并规则进行合并主要分为以下三种情况:
情况1,对于交并比(IOU)大于设定的阈值时,即认为为同一个目标,去除掉面积小的检测区域;
情况2,当检测框包含时,根据按钮的特性,我们选择去掉被包含的检测框;
情况3,当交并比(IOU)大于零同时又小于一定的阈值,则认为发生了1个按钮被切分为2个按钮的情况,此时我们取2个矩形的最小外接矩形作为当前按钮的真实区域,情况3如下图2所示,图2左侧按钮上有两个框为来着两个切块图像的检测框,图2右侧为合并后的检测框。
检测框合并通过将去重后的所有检测框按照图像的相对位置关系映射到原始输入的页面图片,最终实现输入的页面图片上所有按钮图标的检测。
综上,本发明内容:
1、提供了完整的按钮图标检测方法;从数据生成,数据训练到模型推理的完备解决方案;
2、有效地解决了传统目标检测对于按钮图标检测存在的问题,主要包括小目标漏检和误检;
3、提出了RPA中按钮图标检测的全新方法,能够利用有限的数据获得更好更优秀的按钮图标预测模型,为RPA基础服务提供了强大的支撑。
基于上述内容,本申请内容还提供一种用于实现上述图标检测方法的图标检测系统,参照图3所示,包括三个主要模块,分别为数据生成模块、模型训练模块和按钮图标检测模块;
数据生成模块,将原始数据通过图标随机生成算法和数据切分算法生成新的训练数据;
模型训练模块,获取生成的新的训练数据,对深度神经网络训练以获得按钮检测模型;
按钮图标检测模块,将输入的需检测的页面图片,通过按钮检测模型的检测获取按钮图标的初步位置信息,接着对初步位置信息的进行结果预处理获取按钮图标的准确位置信息。
现对数据生成模块、模型训练模块和按钮图标检测模块三个模块进行具体介绍。
数据生成模块,包括图标随机生成模块和数据切分模块。
图标随机生成模块和数据切分模块采用基础的图像处理方法,主要流程包括以下几步:
步骤31,将应用程序的页面图片上标注好的按钮图标,裁剪并保存为单独的文件;
步骤32,页面图片上标注好的按钮图标用按钮图标周围的像素进行填充,将带按钮图标的页面图片转化成没有按钮图标的软件背景图;
步骤33,通过梯度直方图、颜色直方图、形状匹配以及相似度计算等方法,去除步骤31中重复的按钮图标;
步骤34,将步骤33中生成的按钮图标,进行随机颜色变化,随机选取多个按钮图标(如30个按钮图标)贴到软件背景图上,每一张软件背景图随机生成多张新的软件截图(如生成10张新的软件截图);
步骤35,将原始数据和步骤34形成的生成数据,采用重叠切分算法,分割成固定大小的小图,并生成相应的标注文件,构成最终新的训练数据。
模型训练模块,包括图像预处理模块和训练模块,主要流程包括以下几步:
步骤31,采用减均值、归一化、颜色扰动、水平翻转、垂直翻转、图像混合等技术进行图像预处理,实现输入数据的随机变化,提高图像输入的多样性;
步骤32,对预处理后的图像采用深度神经网络进行训练,得到按钮检测模型。
按钮图标检测模块,包括图像预处理模块、推理模块和结果处理模块三部分,主要流程包括以下几步:
步骤41,输入的页面图片进行预处理:输入的页面图片(软件截图)首先采用切分算法切分成多个600*600像素的小块图像,然后对每块小块图像进行归一化预处理,最后送入按钮检测模型,得到每块小块图像上按钮图标的检测结果,即位置信息;
步骤42,采用非极大值抑制方法去掉按钮图标检测中多余重复的检测框;
步骤43,将每块小块图像的检测结果采用去重和合并算法,重新生成相对于输入图像的位置信息,最终得到输入的页面图片上按钮图标的检测结果。
现根据上述内容,以企业微信应用软件中图标检测为例,具体流程如图4所示,包括以下步骤:
步骤51,从RPA机器人中获取企业微信的软件截图;
步骤52,将获取N*N像素大小的软件界面截图,采用切分算法(按照水平和垂直两个方向,采用重叠切分的方法对输入的页面图片进行切分),切分为m块大小为600*600像素的图像;
步骤53,将600*600像素的图像进行归一化处理,即将0-255的像素值归一化到0-1;
步骤54,将步骤53产生的归一化图像,使用训练好的按钮检测模型进行检测,得到每块图像上按钮图标的位置信息;
步骤55,对每块图像上的按钮图标进行非极大值抑制处理,去掉无效的检测框,输出有效的检测结果;
步骤56,将m块图像上按钮图标的检测结果通过合并算法(参照前面的方法描述)得到最终有效的按钮检测框,根据图像的偏移量信息,将检测框映射成N*N输入的页面图片上的按钮图标位置信息;
步骤57,将N*N输入的页面图片上的按钮图标位置信息传递给应用层,让RPA机器人能够自动拾取为企业微信上的图标按钮,最终配合PRA机器人实现流程自动化。
本发明的技术关键点和保护点如下:
1、图标检测数据生成方法为独创;
2、图标检测模型预测中,预测方法和后处理方法为独创;
3、能够对小于100像素面积的小图标进行精准检测,保证RPA实施过程中可以对实施流程进行精细化操作。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。

Claims (8)

1.一种RPA机器人中图标检测方法,其特征在于,包括以下步骤:
步骤1,获取标注好的训练数据中每一张页面图片的按钮图标、并擦除页面图片中的按钮图标以生成软件背景图,将获取到的按钮图标随机贴到软件背景图上以生成新的页面图片和标注文件;
步骤1.1,将页面图片上标注好的按钮图标进行裁剪并保存为单独的文件以形成标注文件;
步骤1.2,将页面图片上标注好的按钮图标用按钮图标周围的像素进行填充,将原先带有按钮图标的页面图片转化成没有按钮图标的软件背景图;
步骤1.3,将获取到的按钮图标随机贴到软件背景图上,随机生成新的页面图片;
步骤2,将原始标注好的训练数据和步骤1中新生成的生成数据,采用重叠切分方式分割成多张用于训练的固定大小的小图,并自动生成相应的标注文件,构成最终新的训练数据;
步骤3,根据新的训练数据对深度神经网络训练,获得按钮检测模型;模型训练部分采用自热训练结合余弦模拟退火方法,利用深度神经网络结合自定义的区域候选方法,对增广后的数据进行训练生成按钮检测模型;
步骤4,输入需检测的页面图片,按照设置的固定切分尺寸和重叠量切分成多个切块图像,经过按钮检测模型检测输出每个切块图像上按钮图标的检测结果,检测结果包含有每个切块图像上按钮图标的位置信息,将每个切块图像的检测结果采用合并算法,重新生成相对于输入的页面图片的位置信息,得到最终的按钮图标位置信息;
步骤4.1,输入需检测的页面图片采用切分算法切分成多个固定切分尺寸和重叠量的切块图像;
步骤4.2,对每个切块图像进行归一化预处理,具体将每个切块图像0-255的像素值归一到0-1;
步骤4.3,利用训练好的按钮检测模型对预处理后的切块图像进行检测,得到每个切块图像上按钮图标的位置信息;
步骤4.4,对每个切块图像上的按钮图标进行非极大值抑制处理,去掉无效的检测框,输出有效的检测结果;
步骤4.5,将多个切块图像上按钮图标的检测结果通过合并算法得到最终有效的按钮检测框,根据切块图像在切分时的偏移量,将按钮检测框映射成输入的页面图片上的按钮图标位置信息,得到最终的按钮图标位置信息。
2.根据权利要求1所述的一种RPA机器人中图标检测方法,其特征在于,标注文件内保存按钮图标,按钮图标一部分来自于页面图片的标注提取,另外一部分来自于网络上各种免费的按钮设计图标。
3.根据权利要求1所述的一种RPA机器人中图标检测方法,其特征在于,步骤4.1的切分算法具体通过按照水平和垂直两个方向,采用重叠切分的方法对输入的页面图片进行切分。
4.根据权利要求1所述的一种RPA机器人中图标检测方法,其特征在于,步骤4.5的合并算法通过对所有切块图像重叠区域内的检测框计算两两之间的交并比,交并比作为衡量两个检测框重叠度的指标,并通过合并规则进行合并得到最终有效的按钮检测框。
5.一种RPA机器人中图标检测系统,用于执行如权利要求1所述的图标检测方法,其特征在于,包括数据生成模块、模型训练模块和按钮图标检测模块;
数据生成模块,将原始数据通过图标随机生成算法和数据切分算法生成新的训练数据;
模型训练模块,获取生成的新的训练数据,对深度神经网络训练以获得按钮检测模型;
按钮图标检测模块,将输入的需检测的页面图片,通过按钮检测模型的检测获取按钮图标的初步位置信息,接着对初步位置信息的进行结果预处理获取按钮图标的准确位置信息。
6.根据权利要求5所述的一种RPA机器人中图标检测系统,其特征在于,所述数据生成模块包括随机生成模块和数据切分模块,分别对应设有图标随机生成算法和数据切分算法。
7.根据权利要求5所述的一种RPA机器人中图标检测系统,其特征在于,所述模型训练模块包括数据预处理模块和训练模块,数据预处理模块对新的训练数据进行图像预处理实现输入数据的随机变化,提高图像输入的多样性;训练模块采用深度神经网络进行训练,得到按钮检测模型。
8.根据权利要求5所述的一种RPA机器人中图标检测系统,其特征在于,所述按钮图标检测模块包括图像预处理模块、推理模块和结果处理模块,图像预处理模块将输入的需检测的页面图片切分成多个固定大小的切块图像,推理模块包含训练得到的按钮检测模型,按钮检测模块对多个切块图像进行检测得到每个切块图像上按钮图标的位置信息;结果处理模块将每个切块图像的位置信息进行合并重新生成相对于输入的页面图片的位置信息,得到最终的按钮位置信息。
CN202111023897.6A 2021-09-02 2021-09-02 一种rpa机器人中图标检测方法及其系统 Active CN113469294B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111023897.6A CN113469294B (zh) 2021-09-02 2021-09-02 一种rpa机器人中图标检测方法及其系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111023897.6A CN113469294B (zh) 2021-09-02 2021-09-02 一种rpa机器人中图标检测方法及其系统

Publications (2)

Publication Number Publication Date
CN113469294A CN113469294A (zh) 2021-10-01
CN113469294B true CN113469294B (zh) 2022-05-03

Family

ID=77867340

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111023897.6A Active CN113469294B (zh) 2021-09-02 2021-09-02 一种rpa机器人中图标检测方法及其系统

Country Status (1)

Country Link
CN (1) CN113469294B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114035726B (zh) * 2021-10-19 2023-12-22 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统
CN115097987A (zh) * 2022-07-13 2022-09-23 上海弘玑信息技术有限公司 图形界面弹窗处理方法及电子设备
CN115033740A (zh) * 2022-08-09 2022-09-09 杭州实在智能科技有限公司 一种rpa流程视频关键帧抽取和元素定位方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800698A (zh) * 2019-01-11 2019-05-24 北京邮电大学 基于深度网络的图标检测方法
CN111191570A (zh) * 2019-12-26 2020-05-22 国网北京市电力公司 图像识别方法和装置
CN113011390A (zh) * 2021-04-23 2021-06-22 电子科技大学 一种基于图像分区的道路行人小目标检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112162930B (zh) * 2020-10-21 2022-02-08 腾讯科技(深圳)有限公司 一种控件识别的方法、相关装置、设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109800698A (zh) * 2019-01-11 2019-05-24 北京邮电大学 基于深度网络的图标检测方法
CN111191570A (zh) * 2019-12-26 2020-05-22 国网北京市电力公司 图像识别方法和装置
CN113011390A (zh) * 2021-04-23 2021-06-22 电子科技大学 一种基于图像分区的道路行人小目标检测方法

Also Published As

Publication number Publication date
CN113469294A (zh) 2021-10-01

Similar Documents

Publication Publication Date Title
CN113469294B (zh) 一种rpa机器人中图标检测方法及其系统
US20230202513A1 (en) Systems and Methods for Graph-Based AI Training
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
WO2021093435A1 (zh) 语义分割网络结构的生成方法、装置、设备及存储介质
US20180247126A1 (en) Method and system for detecting and segmenting primary video objects with neighborhood reversibility
CN111027563A (zh) 一种文本检测方法、装置及识别系统
EP3843004A1 (en) Portrait segmentation method, model training method and electronic device
CN111488873B (zh) 一种基于弱监督学习的字符级场景文字检测方法和装置
CN113344206A (zh) 融合通道与关系特征学习的知识蒸馏方法、装置及设备
CN112966088B (zh) 未知意图的识别方法、装置、设备及存储介质
CN114287005A (zh) 用于增强图像分类的负采样算法
Zhang et al. Multiple adverse weather conditions adaptation for object detection via causal intervention
CN112257665A (zh) 图像内容的识别方法、图像识别模型的训练方法及介质
CN113869138A (zh) 多尺度目标检测方法、装置及计算机可读存储介质
CN116049397A (zh) 基于多模态融合的敏感信息发现并自动分类分级方法
Asri et al. A real time Malaysian sign language detection algorithm based on YOLOv3
CN115115740A (zh) 思维导图识别方法、装置、设备、介质及程序产品
CN113269089A (zh) 基于深度学习的实时手势识别方法及系统
Bankar et al. Real time sign language recognition using deep learning
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
Beltaief et al. Deep fcn for Arabic scene text detection
Singh et al. Surface automation-interacting with applications using Black box approach
Hu et al. Mathematical formula detection in document images: A new dataset and a new approach
CN111768214A (zh) 产品属性的预测方法、系统、设备和存储介质
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant