CN115455227B - 图形界面的元素搜索方法及电子设备、存储介质 - Google Patents
图形界面的元素搜索方法及电子设备、存储介质 Download PDFInfo
- Publication number
- CN115455227B CN115455227B CN202211145565.XA CN202211145565A CN115455227B CN 115455227 B CN115455227 B CN 115455227B CN 202211145565 A CN202211145565 A CN 202211145565A CN 115455227 B CN115455227 B CN 115455227B
- Authority
- CN
- China
- Prior art keywords
- interface
- pixel
- feature map
- image
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/55—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/761—Proximity, similarity or dissimilarity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/02—Recognising information on displays, dials, clocks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种图形界面的元素搜索方法及电子设备、存储介质,该方法包括:通过提取元素图像的多个尺度的元素特征图和界面图像的多个尺度的界面特征图,可以适应不同分辨率的变化,在多个尺度的界面特征图中搜索多个尺度的元素特征图,相比直接在尺寸较大的界面图像中搜索元素图像,大幅降低了计算量,提高了搜索效率。该方案可以适用于不同设计方法的软件,快速定位软件界面中待操作的元素位置,扩大RPA技术的适用范围。
Description
技术领域
本申请涉及计算机视觉技术领域,特别涉及一种图形界面的元素搜索方法、电子设备及计算机可读存储介质。
背景技术
RPA(Robotic Process Automation,机器流程自动化)技术中,需要识别用户操作的元素,之后自动模拟操作该元素。常用的技术是基于操作系统底层的解析,但是不同的软件设计方法是不一样的,因此操作系统底层解析方案是无法统一的,也有可能无法进行解析。如果为每种软件开发一套解析方案,势必增加了开发成本。
发明内容
本申请实施例提供了一种图形界面的元素搜索方法,可以适用于不同的软件。
本申请实施例提供了一种图形界面的元素搜索方法,包括:
接收元素图像和界面图像;
提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图;
在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置;
根据所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置。
在一实施例中,所述提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图,包括:
通过全卷积神经网络提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图。
在一实施例中,所述在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置,包括:
针对任一尺度的元素特征图和任一尺度的界面特征图,若所述元素特征图的每个像素的通道数与所述界面特征图的每个像素的通道数相同,将所述元素特征图在所述界面特征图上逐个像素滑动;
计算所述元素特征图滑动到不同像素时,与所述界面特征图上的覆盖区域之间的相似度;
找出所述相似度大于阈值时,所述元素特征图在所述界面特征图上所处的目标位置。
在一实施例中,若所述元素特征图的每个像素的通道数与所述界面特征图的每个像素的通道数不相同,在将所述元素特征图在所述界面特征图上逐个像素滑动之前,所述方法还包括:
将所述元素特征图与所述界面特征图映射到相同的通道数。
在一实施例中,所述计算所述元素特征图滑动到不同像素时,与所述界面特征图上的覆盖区域之间的相似度,包括:
计算所述元素特征图滑动到不同像素时,所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度;
根据所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度,计算所有像素点的像素相似度的平均值,作为所述元素特征图与所述覆盖区域之间的相似度。
在一实施例中,所述计算所述元素特征图滑动到不同像素时,所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度,包括:
在所述元素特征图滑动到不同像素时,针对所述元素特征图内的每个像素点,计算所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值;
根据所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值,计算所有通道的像素差值的平均值,作为所述像素点与所述覆盖区域内相应像素点之间的像素相似度。
在一实施例中,所述找出所述相似度大于阈值时,所述元素特征图在所述界面特征图上所处的目标位置,包括:
找出所述相似度大于阈值时,所述元素特征图的中心点在所述界面特征图上所处的目标位置。
在一实施例中,所述根据所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置,包括:
根据所述元素特征图在所述界面特征图中的目标位置,以及所述界面特征图与所述界面图像之间的缩放比例,对所述目标位置按照所述缩放比例进行还原,得到所述元素图像在所述界面图像中的元素位置。
本申请实施例还提供了一种图形界面的元素搜索装置,该装置包括:
图像接收模块,用于接收元素图像和界面图像;
特征提取模块,用于提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图;
位置确定模块,用于在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置;
位置还原模块,用于根据所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置。
本申请实施例还提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述图形界面的元素搜索方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述图形界面的元素搜索方法。
本申请上述实施例提供的技术方案,通过提取元素图像的多个尺度的元素特征图和界面图像的多个尺度的界面特征图,可以适应不同分辨率的变化,在多个尺度的界面特征图中搜索多个尺度的元素特征图,相比直接在尺寸较大的界面图像中搜索元素图像,大幅降低了计算量,提高了搜索效率。该方案可以适用于不同设计方法的软件,快速定位软件界面中待操作的元素位置,扩大RPA技术的适用范围。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请一实施例提供的电子设备的结构示意图;
图2是本申请实施例提供的一种图形界面的元素搜索方法的流程示意图;
图3本申请实施例提供的一个保存控件的元素图像;
图4本申请实施例提供的界面图像的部分示意图;
图5是图2对应实施例中步骤S230的细节流程图;
图6是图5对应实施例中步骤S232的细节流程图;
图7是本申请实施例提供的界面图像中搜索到元素图像的结果示意图;
图8是本申请实施例提供的图形界面的元素搜索装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
机器流程自动化(Robotic Process Automation,RPA)技术可以模拟员工在日常工作中通过键盘、鼠标对计算机的操作,可以代替人类执行登录系统、操作软件、读写数据、下载文件、读取邮件等操作。以自动化机器人作为企业的虚拟劳动力,可以将员工从重复、低价值的工作中解放出来,将精力投入到高附加值的工作上,从而可以使企业在数字化智能化转型的同时又做到降低成本、增加效益。
RPA是一种使用软件机器人取代业务流程中的人工任务,并且像人一样与计算机的前端系统进行交互,因此RPA可以看作是一种运行在个人PC机或服务器中的软件型程序机器人,通过模仿用户在电脑上进行的操作来替代人类自动重复这些操作,例如检索邮件、下载附件、登录系统、数据加工分析等活动,快速、准确、可靠。虽然和传统的物理机器人一样都是通过设定的具体规则来解决人类工作中速度和准确度的问题,但是传统的物理机器人是软硬件结合的机器人,需要在特定的硬件支持下配合软件才能执行工作;而RPA机器人是纯软件层面的,只要安装了相应的软件,就可以部署到任意一台PC机和服务器中来完成规定的工作。
也就是说,RPA是一种利用“数字员工”代替人进行业务操作的一种方式及其相关的技术。本质上RPA是通过软件自动化技术,模拟人实现计算机上系统、软件、网页和文档等对象的无人化操作,获取业务信息、执行业务动作,最终实现流程自动化处理、人力成本节约和处理效率提升。从描述可知,RPA的核心技术之一就是在图形界面上搜索元素图像,举例来说,当需要模拟人进行按钮点击动作,前提就是图形界面中找到该按钮元素。
图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的图形界面的元素搜索方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本申请下述实施例提供的图形界面的元素搜索方法。
所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的图形界面的元素搜索方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
在一实施例中,图1示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
在一实施例中,用于实现本申请实施例的图形界面的元素搜索方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
在一实施例中,用于实现本申请实施例的图形界面的元素搜索方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、服务器、车载设备等智能终端。
图2是本申请实施例提供的一种图形界面的元素搜索方法的流程示意图。如图2所示,该方法包括以下步骤S210-步骤S240。
步骤S210:接收元素图像和界面图像。
图形界面(简称GUI)是指采用图形方式显示的计算机操作用户界面。界面图像是指该图形界面的图像。元素图像是指图形界面中的界面元素对应的图像,举例来说,界面元素可以有图形界面中的控件、输入框等。例如,图3是一个保存控件的元素图像,图4是界面图像的部分示意图。
步骤S220:提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图。
其中,多个尺度是指多个不同尺寸。元素特征图用于表征元素图像的特征。界面特征图用于表征界面图像的特征。
在一实施例中,元素特征图的尺寸可以是元素图像的1/k1,k1表示降采样倍率,k1可以是4、8。举例来说,假设元素图像的高为h1,宽为w1,则元素特征图的尺寸为(h3=h1/k1,w3=w1/k1)。元素特征图中每个像素点的通道数为c1,c1=128、256或512。
在一实施例中,界面特征图的尺寸可以是界面图像的1/k2,k2可以是4、8、16、32、64。举例来说,假设界面图像的高为h2,宽为w2,则界面特征图的尺寸为(h4=h2/k2,w4=w2/k2)。界面特征图中每个像素点的通道数为c2,c2=128、256或512。
具体的,可以通过全卷积神经网络提取元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图。全卷积神经网络是指全是卷积层的神经网络,全卷积神经网络的权重值可以提前训练得到,具体的,可以利用已知元素位置的界面图像和元素图像(即训练样本),训练用于提取元素特征和界面特征的全卷积神经网络。
在另一实施例中,元素特征图可以是元素图像的HOG(方向梯度直方图)特征。界面特征图可以是界面图像的HOG特征。图像中HOG特征的提取方式可以参照现有技术实现,在此不再赘述。
步骤S230:在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置。
具体的,可以遍历所有尺度的界面特征图和所有尺度的元素特征,在每种尺度的界面特征图中搜索每种尺度的元素特征图。目标位置是指任意一种尺度的元素特征图在任意一种尺度的界面特征图中所处的位置。
在一实施例中,如图5所示,上述步骤S230具体包括:步骤S231-步骤S233。
步骤S231:针对任一尺度的元素特征图和任一尺度的界面特征图,若所述元素特征图的每个像素的通道数与所述界面特征图的每个像素的通道数相同,将所述元素特征图在所述界面特征图上逐个像素滑动。
举例来说,任一尺度的元素特征图可能是k1=4时,任一尺度的界面特征图可能是k2=16时。元素特征图的每个像素的通道数与界面特征图的每个像素的通道数相同,是指c1=c2。元素特征图在所述界面特征图上逐个像素滑动可以是将元素特征图的左上点与界面特征图的左上点重叠,然后将元素特征图向右或向下逐个像素滑动。
在一实施例中,如果元素特征图的每个像素的通道数与界面特征图的每个像素的通道数不相同,即c1不等于c2时,可以先将元素特征图与所述界面特征图映射到相同的通道数,然后再将元素特征图在所述界面特征图上逐个像素滑动。
具体的,将元素特征图与所述界面特征图映射到相同的通道数是指使元素特征图和界面特征图每个像素点包含的特征维度相同。举例来说,当元素特征图每个像素点包含的通道数是128,界面特征图每个像素点包含的通道数是256时,可以通过对界面特征图进行降维,使界面特征图每个像素点的通道数也变成128。降维的算法有很多,比如奇异值分解(SVD)、主成分分析(PCA)、因子分析(FA)、独立成分分析(ICA)等。
步骤S232:计算所述元素特征图滑动到不同像素时,与所述界面特征图上的覆盖区域之间的相似度。
需要说明的是,元素特征图每滑动一个像素的距离,界面特征图上都会形成一个新的覆盖区域。覆盖区域是指元素特征图在界面特征图上覆盖的区域。元素特征图每滑动一个像素的距离,就可以计算出元素特征图与新形成的覆盖区域之间的相似度。
假设元素特征图的尺寸为(h3,w3,c1),界面特征图的尺寸为(h4,w4,c2),则元素特征图可以逐像素移动,界面特征图上可以形成(h4-h3)*(w4-w3)种覆盖区域,为了降低计算量,因此要尽量减少h4,w4,减小界面特征图的尺寸。
在一实施例中,如图6所示,上述步骤S232具体包括:步骤S2321-步骤S2322。
步骤S2321:计算所述元素特征图滑动到不同像素时,所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度。
其中,对于元素特征图中的某个像素点M,该像素点M在界面特征图上覆盖的像素点就是该像素点M在覆盖区域内相应的像素点N。像素点M和像素点N的相似度可以称为像素相似度。
在一实施例中,由于像素点M和像素点N均具有多个通道数(例如c个通道数),则像素点M的像素值可以用一个c维特征向量x1表示,像素点N的像素值可以用一个c维特征向量x2表示,故像素相似度可以是特征向量x1和特征向量x2之间的余弦距离或欧式距离。
在另一实施例中,在所述元素特征图滑动到不同像素时,可以针对所述元素特征图内的每个像素点,计算所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值;根据所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值,计算所有通道的像素差值的平均值,作为所述像素点与所述覆盖区域内相应像素点之间的像素相似度。
举例来说,假设元素特征图的像素点M和覆盖区域的像素点N是相对应像素点,均具有c个通道。像素差值可以是像素点M的第一通道的像素值与像素点N的第一通道的像素值之差的绝对值,也可以是差的平方值或差的绝对值开根号。以此类推,可以计算出第二通道的像素差值、第三通道的像素差值……第c个通道的像素差值。之后,可以计算出所有通道的像素差值的平均值,作为元素特征图中像素点M与覆盖区域中相应像素点N之间的像素相似度。依次类推,针对元素特征图中每个像素点均可计算得到与覆盖区域中相应像素点之间的像素相似度。
步骤S2322:根据所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度,计算所有像素点的像素相似度的平均值,作为所述元素特征图与所述覆盖区域之间的相似度。
举例来说,假设元素特征图具有3000个像素点,针对每个像素点,均计算得到与覆盖区域内相应像素点之间的像素相似度,由此可以得到3000个像素相似度。元素特征图与覆盖区域之间的相似度可以是这3000个像素相似度的平均值。
步骤S233:找出所述相似度大于阈值时,所述元素特征图在所述界面特征图上所处的目标位置。
由于元素特征图每滑动一个像素的距离,界面特征图上都会形成一个新的覆盖区域。所以可以找出元素特征图与覆盖区域之间的相似度大于阈值时,覆盖区域的位置,也就是目标位置。
在一实施例中,可以找出所述相似度大于阈值时,所述元素特征图的中心点在所述界面特征图上所处的目标位置。
也就是说,目标位置可以是元素特征图在界面特征图上的覆盖区域的中心点位置。在其他实施例,目标位置也可以是覆盖区域的四个顶点的位置。
步骤S240:根据所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置。
其中,元素位置是指元素图像在界面图像中的位置坐标。具体的,根据界面特征图和界面图像之间的坐标映射关系,可以将界面特征图中的目标位置,映射得到在界面图像中的元素位置。
在一实施例中,根据所述元素特征图在所述界面特征图中的目标位置,以及所述界面特征图与所述界面图像之间的缩放比例,可以对所述目标位置按照所述缩放比例进行还原,得到所述元素图像在所述界面图像中的元素位置。
举例来说,假设界面特征图的尺寸是界面图像的1/k2,k2可以称为缩放比例。假设目标位置的坐标是(x0,y0),按照缩放比例进行还原,可以是将目标位置的坐标乘以缩放比例,得到元素位置的坐标为(k2*x0,k2*y0)。如图7所示,采用本申请实施例提供的方法,可以获得待搜索的元素图像的元素位置,从而可以在界面图像中准确定位待操作的元素。
本申请上述实施例提供的技术方案,通过提取元素图像的多个尺度的元素特征图和界面图像的多个尺度的界面特征图,可以适应不同分辨率的变化,在多个尺度的界面特征图中搜索多个尺度的元素特征图,相比直接在尺寸较大的界面图像中搜索元素图像,大幅降低了计算量,提高了搜索效率,进一步的,利用全卷积神经网络提取特征,提高了搜索准确性。该方案可以适用于不同设计方法的软件,快速定位软件界面中待操作的元素位置。
下述为本申请装置实施例,可以用于执行本申请上述图形界面的元素搜索方法实施例。对于本申请装置实施例中未披露的细节,请参照本申请图形界面的元素搜索方法实施例。
图8为本申请一实施例示出的一种图形界面的元素搜索装置的框图,如图8所示,该装置包括:
图像接收模块810,用于接收元素图像和界面图像;
特征提取模块820,用于提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图;
位置确定模块830,用于在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置;
位置还原模块840,用于根据所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置。
上述装置中各个模块的功能和作用的实现过程具体详见上述图形界面的元素搜索方法中对应步骤的实现过程,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
Claims (9)
1.一种图形界面的元素搜索方法,其特征在于,包括:
接收元素图像和界面图像;
提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图;
在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置;
根据所述界面特征图与所述界面图像之间的映射关系以及所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置;
其中,所述在所述多个尺度的界面特征图中搜索所述多个尺度的元素特征图,确定所述元素特征图在所述界面特征图中的目标位置,包括:
针对任一尺度的元素特征图和任一尺度的界面特征图,若所述元素特征图的每个像素的通道数与所述界面特征图的每个像素的通道数相同,将所述元素特征图在所述界面特征图上逐个像素滑动;
计算所述元素特征图滑动到不同像素时,与所述界面特征图上的覆盖区域之间的相似度;
找出所述相似度大于阈值时,所述元素特征图在所述界面特征图上所处的目标位置。
2.根据权利要求1所述的方法,其特征在于,所述提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图,包括:
通过全卷积神经网络提取所述元素图像的多个尺度的元素特征图和所述界面图像的多个尺度的界面特征图。
3.根据权利要求1所述的方法,其特征在于,若所述元素特征图的每个像素的通道数与所述界面特征图的每个像素的通道数不相同,在将所述元素特征图在所述界面特征图上逐个像素滑动之前,所述方法还包括:
将所述元素特征图与所述界面特征图映射到相同的通道数。
4.根据权利要求1所述的方法,其特征在于,所述计算所述元素特征图滑动到不同像素时,与所述界面特征图上的覆盖区域之间的相似度,包括:
计算所述元素特征图滑动到不同像素时,所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度;
根据所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度,计算所有像素点的像素相似度的平均值,作为所述元素特征图与所述覆盖区域之间的相似度。
5.根据权利要求4所述的方法,其特征在于,所述计算所述元素特征图滑动到不同像素时,所述元素特征图内每个像素点与所述覆盖区域内相应像素点之间的像素相似度,包括:
在所述元素特征图滑动到不同像素时,针对所述元素特征图内的每个像素点,计算所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值;
根据所述像素点的每个通道与所述覆盖区域内相应通道之间的像素差值,计算所有通道的像素差值的平均值,作为所述像素点与所述覆盖区域内相应像素点之间的像素相似度。
6.根据权利要求1所述的方法,其特征在于,所述找出所述相似度大于阈值时,所述元素特征图在所述界面特征图上所处的目标位置,包括:
找出所述相似度大于阈值时,所述元素特征图的中心点在所述界面特征图上所处的目标位置。
7.根据权利要求1所述的方法,其特征在于,所述根据所述界面特征图与所述界面图像之间的映射关系以及所述元素特征图在所述界面特征图中的目标位置,映射得到所述元素图像在所述界面图像中的元素位置,包括:
根据所述元素特征图在所述界面特征图中的目标位置,以及所述界面特征图与所述界面图像之间的缩放比例,对所述目标位置按照所述缩放比例进行还原,得到所述元素图像在所述界面图像中的元素位置。
8.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的图形界面的元素搜索方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的图形界面的元素搜索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145565.XA CN115455227B (zh) | 2022-09-20 | 2022-09-20 | 图形界面的元素搜索方法及电子设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211145565.XA CN115455227B (zh) | 2022-09-20 | 2022-09-20 | 图形界面的元素搜索方法及电子设备、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115455227A CN115455227A (zh) | 2022-12-09 |
CN115455227B true CN115455227B (zh) | 2023-07-18 |
Family
ID=84304899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211145565.XA Active CN115455227B (zh) | 2022-09-20 | 2022-09-20 | 图形界面的元素搜索方法及电子设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115455227B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563767A (zh) * | 2018-04-19 | 2018-09-21 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110532414A (zh) * | 2019-08-29 | 2019-12-03 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
CN110727819A (zh) * | 2019-10-10 | 2020-01-24 | 北京航空航天大学 | 一种尺度自适应病理全切片图像数据库检索方法 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175609B (zh) * | 2019-04-22 | 2023-02-28 | 创新先进技术有限公司 | 界面元素检测方法、装置及设备 |
CN110780965B (zh) * | 2019-10-24 | 2023-10-20 | 深圳前海微众银行股份有限公司 | 基于视觉的流程自动化方法、设备及可读存储介质 |
CN110825904B (zh) * | 2019-10-24 | 2022-05-06 | 腾讯科技(深圳)有限公司 | 一种图像匹配方法、装置、电子设备和存储介质 |
CN112749602A (zh) * | 2019-10-31 | 2021-05-04 | 北京市商汤科技开发有限公司 | 目标查询方法、装置、设备及存储介质 |
CN112231032A (zh) * | 2019-12-10 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa与ai的软件界面元素的访问方法及装置 |
CN112231033A (zh) * | 2019-12-23 | 2021-01-15 | 北京来也网络科技有限公司 | 结合rpa与ai的软件界面元素的匹配方法及装置 |
CN112749081B (zh) * | 2020-03-23 | 2023-09-22 | 腾讯科技(深圳)有限公司 | 用户界面测试方法及相关装置 |
US20210349430A1 (en) * | 2020-05-11 | 2021-11-11 | UiPath, Inc. | Graphical element search technique selection, fuzzy logic selection of anchors and targets, and/or hierarchical graphical element identification for robotic process automation |
EP3916637A1 (en) * | 2020-05-29 | 2021-12-01 | Vodafone Group Services Limited | Apparatus and method for detecting elements of an assembly |
CN111767228B (zh) * | 2020-06-30 | 2024-02-06 | 深圳赛安特技术服务有限公司 | 基于人工智能的界面测试方法、装置、设备和介质 |
CN113297641A (zh) * | 2020-11-26 | 2021-08-24 | 阿里巴巴集团控股有限公司 | 印花处理方法、内容元素处理方法、装置、设备及介质 |
CN112329888B (zh) * | 2020-11-26 | 2023-11-14 | Oppo广东移动通信有限公司 | 图像处理方法、装置、电子设备以及存储介质 |
CN112465050B (zh) * | 2020-12-04 | 2024-02-09 | 广东拓斯达科技股份有限公司 | 一种图像模板选择方法、装置、设备及存储介质 |
CN113282215A (zh) * | 2021-05-24 | 2021-08-20 | 湖南大学 | 一种rpa系统中基于目标检测技术的ui元素拾取方法和系统 |
CN115061685B (zh) * | 2022-06-30 | 2023-07-21 | 上海弘玑信息技术有限公司 | 软件客户端的界面元素定位方法及电子设备、存储介质 |
CN115061769B (zh) * | 2022-08-08 | 2022-11-11 | 杭州实在智能科技有限公司 | 用于支持跨分辨率的自迭代rpa界面元素匹配方法及系统 |
-
2022
- 2022-09-20 CN CN202211145565.XA patent/CN115455227B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108563767A (zh) * | 2018-04-19 | 2018-09-21 | 深圳市商汤科技有限公司 | 图像检索方法及装置 |
CN109947963A (zh) * | 2019-03-27 | 2019-06-28 | 山东大学 | 一种基于深度学习的多尺度哈希检索方法 |
CN110532414A (zh) * | 2019-08-29 | 2019-12-03 | 深圳市商汤科技有限公司 | 一种图片检索方法及装置 |
CN110727819A (zh) * | 2019-10-10 | 2020-01-24 | 北京航空航天大学 | 一种尺度自适应病理全切片图像数据库检索方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115455227A (zh) | 2022-12-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109961009B (zh) | 基于深度学习的行人检测方法、系统、装置及存储介质 | |
CN111523414B (zh) | 人脸识别方法、装置、计算机设备和存储介质 | |
CN108256479B (zh) | 人脸跟踪方法和装置 | |
CN111328396A (zh) | 用于图像中的对象的姿态估计和模型检索 | |
CN110136198B (zh) | 图像处理方法及其装置、设备和存储介质 | |
AU2018202767B2 (en) | Data structure and algorithm for tag less search and svg retrieval | |
US11842514B1 (en) | Determining a pose of an object from rgb-d images | |
CN111160288A (zh) | 手势关键点检测方法、装置、计算机设备和存储介质 | |
CN111612822B (zh) | 对象跟踪方法、装置、计算机设备和存储介质 | |
JP2012160047A (ja) | 対応参照画像検索装置及び方法、コンテンツ重畳装置、システム、及び方法、並びにコンピュータプログラム | |
CN111476271B (zh) | 图标识别的方法、装置、系统、计算机设备和存储介质 | |
CN111680678A (zh) | 目标区域识别方法、装置、设备及可读存储介质 | |
CN113255915A (zh) | 基于结构化实例图的知识蒸馏方法、装置、设备和介质 | |
CN114638960A (zh) | 模型的训练方法、图像描述生成方法和装置、设备、介质 | |
US11568631B2 (en) | Method, system, and non-transitory computer readable record medium for extracting and providing text color and background color in image | |
CN113793370B (zh) | 三维点云配准方法、装置、电子设备及可读介质 | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN113343981A (zh) | 一种视觉特征增强的字符识别方法、装置和设备 | |
CN115265545A (zh) | 基于决策分析的地图匹配导航方法、装置、设备及存储介质 | |
CN110633733A (zh) | 图像智能匹配方法、装置及计算机可读存储介质 | |
CN111797862A (zh) | 任务处理方法、装置、存储介质和电子设备 | |
CN116361502B (zh) | 一种图像检索方法、装置、计算机设备及存储介质 | |
CN112488126A (zh) | 特征图处理方法、装置、设备以及存储介质 | |
CN115455227B (zh) | 图形界面的元素搜索方法及电子设备、存储介质 | |
CN109213515B (zh) | 多平台下埋点归一方法及装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |