CN115082717B

CN115082717B - 基于视觉感知的动态目标识别和情景记忆认知方法及系统

Info

Publication number: CN115082717B
Application number: CN202211003635.8A
Authority: CN
Inventors: 沈伟; 吴怀谷; 张楠欣
Original assignee: Chengdu Bufan Intelligent Technology Co ltd
Current assignee: Chengdu Bufan Intelligent Technology Co ltd
Priority date: 2022-08-22
Filing date: 2022-08-22
Publication date: 2022-11-08
Anticipated expiration: 2042-08-22
Also published as: CN115082717A

Abstract

本发明公开了基于视觉感知的动态目标识别和情景记忆认知方法及系统，方法利用机器人对当前用户界面进行视觉感知；对视觉感知结果进行场景空间特征处理，构建当前用户界面的空间特征；根据空间特征锁定用户界面中的可视目标元素并对其进行目标轮廓特征处理，提取出轮廓特征；对界面元素进行特征匹配识别，利用界面元素对应的概念来构建情景记忆，在情景记忆上对每一个概念元素对象在某个时间窗口内的表现完成它曾经和当前的状态、变化的趋势和轮廓等信息的感知，以实现对用户界面表象所蕴含的内在知识进行认知，来提升机器人通过用户界面实施业务操作的精准度和质量。

Description

基于视觉感知的动态目标识别和情景记忆认知方法及系统

技术领域

本发明涉及机器人流程自动化技术领域，尤其涉及一种基于视觉感知的动态目标识别和情景记忆认知方法及系统。

背景技术

机器人流程自动化（Robotic process automation，简称RPA）是以软件机器人及人工智能（AI）为基础的业务过程自动化科技。在传统的工作流自动化技术工具中，会由程序员产生自动化任务的动作列表，并且会用内部的应用程序接口或是专用的脚本语言作为和后台系统之间的界面。机器人流程自动化会监视使用者在应用软件中图形用户界面（GUI）所进行的工作，并且直接在GUI上自动重复这些工作。因此可以减少产品自动化的阻碍，因此有些软件可能没有这类用途的API。

机器人流程自动化工具在技术上类似图形用户界面测试工具。这些工具也会自动的和图形用户界面上互动，而且会由使用者示范其流程，再用示范性编程来实现。机器人流程自动化工具的不同点是这类系统会允许资料在不同应用程序之间交换。例如接收电子邮件可能包括接收付款单、取得其中资料，输入到簿记系统中。如果一个利用视觉作业的机器人不能准确识别应用场景中的可视元素，那么这个机器人就不可能执行准确的业务操作，所以，能够准确识别应用场景中的，特别是变化的可视元素，对视觉机器人的操作作业来说是至关重要的。利用计算机视觉实现对动态目标实施识别和追踪，是构建视觉认知的基本保障，也是利用计算机视觉实现对感知目标进行及时有效操作的保障，它也是计算机视觉走向作业场景认知智能化的基础。

现有的目标识别技术存在以下缺点：现有技术在对界面元素进行识别时，对动态的、非固定的可视界面元素识别效果差，不具备情景记忆功能业务操作精准度不高，完成质量较差。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于视觉感知的动态目标识别和情景记忆认知方法及系统，通过计算机视觉从应用界面（场景）上识别出动态的、非固定的可视界面元素，通过已知概念化的元素特征，对界面元素进行特征匹配识别，利用界面元素对应的概念来构建情景记忆，在情景记忆上对每一个概念元素对象在某个时间窗口内的表现完成它曾经和当前的状态、变化的趋势和轮廓等信息的感知，以实现对用户界面表象所蕴含的内在知识进行认知，来提升机器人通过用户界面（场景）实施业务操作的精准度和质量。

本发明的目的是通过以下技术方案来实现的：

基于视觉感知的动态目标识别和情景记忆认知方法，包括以下步骤：

步骤一：利用机器人对当前用户界面进行视觉感知；

步骤二：对视觉感知结果进行场景空间特征处理，构建当前用户界面的空间特征；

步骤三：根据当前用户界面的空间特征，利用滑动窗口锁定用户界面中的可视目标元素；

步骤四：对锁定的可视目标元素进行目标轮廓特征处理，提取出可视目标元素的轮廓特征；

步骤五：从视觉情景记忆中搜索与可视目标元素的轮廓特征相似的目标，若搜索到相似目标且相似目标发生状态变化时，则将可视目标元素的新状态与相似目标进行记忆关联；若未搜索到相似目标，则从知识库中获取可视目标元素的概念标签，将概念标签的目标及其状态存入视觉情景记忆中；

步骤六：以定时和目标状态变化触发方式从视觉情景记忆中提取可视目标元素的状态变化信息，根据当前场景状态S_i下每个可视目标元素的状态变化信息调整每个可视目标元素所对应的滑动窗口，实现对用户界面中的可视目标快速识别和有效跟踪。

具体的，步骤二具体包括以下子步骤：

S201，背景区域处理，根据视觉感知结果，将用户界面的背景区域中静止不动的界面区域设定为背景，同时将背景区域中被遮挡目标的部分区域也设定为背景；

S202，前景区域处理，将用户界面的前景区域中动态变化且未被遮挡的界面区域设定为前景；

S203，目标遮挡识别，从用户界面的背景区域中识别出属于被遮挡目标的部分区域，作为被遮挡目标的跟踪区域；

S204，目标遮挡关联，结合用户界面的前景和被遮挡目标的跟踪区域，检测出前景与被遮挡目标的关联关系。

具体的，步骤四具体包括以下子步骤：

S401，前景目标捕获，根据场景空间特征处理提供的前景区域，从前景区域中捕获所有已知空间特征的目标，捕获过程如下式所示：

；

式中，特征匹配（区域_前景，特征_目标i）是实现扫描区域_前景，寻找与特征_目标i相似度满足要求的目标区域；

S402，目标切图，根据步骤S401捕获识别出来的目标，按照各个目标对应的目标区域，从前景区域中完成目标区域的切图，切图过程为：选择目标_i，在视域中提取能完整包含目标_i轮廓的左上角边界坐标和右下角边界坐标；依据左上角边界坐标和右下角边界坐标进行矩形切图，形成关于目标_i的切图

；

S403，目标轮廓形成，选择目标_i的切图，灰度化切图

，计算出切图

的亮度梯度；设定梯度阈值，按照梯度阈值提取出目标_i的连续轮廓；按照连续轮廓从切图

中提取出目标_i的独立完整的灰度图片

：

S404，轮廓特征提取，利用图像形态学方法，对灰度图片

进行先腐蚀再膨胀计算，模糊灰度图片

的轮廓细节，突出灰度图片

的边缘：利用角度梯度计算表示法计算出灰度图片

边缘角点，根据边缘角点形成目标_i的轮廓特征

；

S405，轮廓特征匹配识别，用所提取的目标_i的轮廓特征

，从已知目标轮廓特征库中进行比对寻找，若找到相似目标轮廓特征，则将目标进行已知目标概念的标注；若未找到相似目标轮廓特征，则将目标_i标注为未知目标。

具体的，步骤六具体为：通过表象感知技术以定时和目标状态变化触发方式从视觉情景记忆中提取当前用户界面状态下可视目标元素的状态变化信息，状态变化信息包括可视目标元素的空间特征和轮廓特征；将提取出所有可视目标元素的状态变化信息整理形成可视目标元素列表，向识别成果库输出当前用户界面状态下包含的可视目标元素列表；根据当前场景状态S_i下每个可视目标元素的状态变化信息调整每个可视目标元素所对应的滑动窗口，实现对用户界面中的可视目标快速识别和有效跟踪。

一种采用上述基于视觉感知的动态目标识别和情景记忆认知方法实现的基于视觉感知的动态目标识别和情景记忆认知系统，系统包括目标轮廓特征处理模块、场景空间特征处理模块、视觉情景记忆模块、目标表象库、表象感知模块、注意移动模块和识别成果库；目标轮廓特征处理模块用于捕获可视目标元素的轮廓特征；场景空间特征处理模块用于提取用户界面中的空间特征；视觉情景记忆模块用于存储可视目标元素的视觉情景记忆，包含背景和前景元素，及可视目标元素在指定时间窗口内各时间片的状态和变化情况；目标表象库用于存储已知概念化的目标表象；表象感知模块用于在有限状态机下进行状态目标识别；识别成果库用于存储用户界面当前场景状态S_i及其包含的可视概念元素；注意移动模块用于锁定场景中发生位置变化的目标元素，并跟踪目标元素的位置。

具体的，提取用户界面中的空间特征过程具体包括以下子步骤：

具体的，捕获可视目标元素的轮廓特征过程具体包括以下子步骤：

；

S402，目标切图，根据步骤S401捕获识别出来的目标，按照各个目标对应的目标区域，从前景区域中完成目标区域的切图，切图过程为：选择目标_i，在视域中提取能完整包含目标i轮廓的左上角边界坐标和右下角边界坐标；依据左上角边界坐标和右下角边界坐标进行矩形切图，形成关于目标_i的切图

；

S403，目标轮廓形成，选择目标i的切图，灰度化切图

，计算出切图

中提取出目标_i的独立完整的灰度图片

：

S404，轮廓特征提取，利用图像形态学方法，对灰度图片

进行先腐蚀再膨胀计算，模糊灰度图片

的轮廓细节，突出灰度图片

的边缘：利用角度梯度计算表示法计算出灰度图片

边缘角点，根据边缘角点形成目标i的轮廓特征

；

S405，轮廓特征匹配识别，用所提取的目标_i的轮廓特征

本发明的有益效果：本发明通过计算机视觉从应用界面（场景）上识别出动态的、非固定的可视界面元素，通过已知概念化的元素特征，对界面元素进行特征匹配识别，利用界面元素对应的概念来构建情景记忆，在情景记忆上对每一个概念元素对象在某个时间窗口内的表现完成它曾经和当前的状态、变化的趋势和轮廓等信息的感知，以实现对用户界面表象所蕴含的内在知识进行认知，来提升机器人通过用户界面（场景）实施业务操作的精准度和质量。本发明的系统可基于计算机视觉，构造针对各种应用视觉场景的视觉感知、识别和情景记忆认知能力，把计算机视觉用于机器人对用户界面（场景）可视元素识别，并按已知概念进行情景在时间窗口内的有限状态记忆，提高了系统的界面元素动态识别能力，可实现对目标的快速识别和有效跟踪。

附图说明

图1是本发明的方法步骤流程图；

图2是系统架构示意图。

具体实施方式

为了对本发明的技术特征、目的和有益效果有更加清楚的理解，现对本发明的技术方案精选以下详细说明。显然，所描述的实施案例是本发明一部分实施例，而不是全部实施例，不能理解为对本发明可实施范围的限定。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的其他所有实施例，都属于本发明的保护范围。

实施例一：

本实施例中，如图1所示，一种基于视觉感知的动态目标识别和情景记忆认知方法，包括以下步骤：

步骤一：利用机器人对当前用户界面进行视觉感知；

本实施例中，步骤二具体包括以下子步骤：

本实施例中，步骤四具体包括以下子步骤：

；

式中，特征匹配（区域_前景，特征_目标i）是实现扫描区域_前景，寻找与特征_目标i相似度满足要求的目标区域。

。其中，视域是指通过机器视觉在用户界面中所能看见的区域。

S403，目标轮廓形成，选择目标i的切图，灰度化切图

，计算出切图

中提取出目标_i的独立完整的灰度图片

。

S404，轮廓特征提取，利用图像形态学方法，对灰度图片

进行先腐蚀再膨胀计算，模糊灰度图片

的轮廓细节，突出灰度图片

的边缘：利用角度梯度计算表示法计算出灰度图片

边缘角点，根据边缘角点形成目标i的轮廓特征

。

其中，先腐蚀再膨胀计算操作是图像处理的一种技术，腐蚀类似 '领域被蚕食' ,将图像中的高亮区域或白色部分进行缩减细化,其运行结果图比原图的高亮区域更小。

形态学转换主要针对的是二值图像（0或1）。图像腐蚀类似于“领域被蚕食”，将图像中的高亮区域或白色部分进行缩减细化，其运行结果图比原图的高亮区域更小。其主要包括两个输入对象：(1)二值图像；(2)卷积核。

膨胀类似与“领域扩张”，将图像的高亮区域或白色部分进行扩张，其运行结果图比原图的高亮区域更大。

图像膨胀是腐蚀的逆过程，往往先通过腐蚀使图片线条变窄，然后腐蚀可以去除噪声。图像膨胀的处理过程：

a.图像二值化，将图像的灰度值根据阈值进行0，1处理得到的图像；

b.卷积核，对应信号处理中的高低频滤波器。常用numpy去设置，np.ones((m,n),np.uint8) 表示指定m*n的卷积核；

c.图像的腐蚀，cv2.dilate(二值化图像, 卷积核, 迭代次数)。

S405，轮廓特征匹配识别，用所提取的目标_i的轮廓特征

本实施例中，步骤六具体为：通过表象感知技术以定时和目标状态变化触发方式从视觉情景记忆中提取当前用户界面状态下可视目标元素的状态变化信息，即感知可视目标元素的空间特征和轮廓特征的变化情况，此处的可视目标可能有多个。将提取出所有可视目标元素的状态变化信息后形成可视目标元素列表，列表中包含每个可视目标元素的类型、空间特征和轮廓特征。然后向识别成果库输出当前用户界面状态下包含的可视目标元素列表；根据当前场景状态S_i下每个可视目标元素的状态变化信息调整每个可视目标元素所对应的滑动窗口，实现对用户界面中的可视目标快速识别和有效跟踪。

其中，表象感知技术是一种通过机器人视觉来感知识别应用场景中可视元素的技术，其技术原理是利用现有的计算机视觉技术来对用户界面中内容进行识别，如文字、图形等等，而计算机视觉技术的具体原理在现有技术中已有记载，在此不做详述。

本发明通过计算机视觉从应用界面（场景）上识别出动态的、非固定的可视界面元素，通过已知概念化的元素特征，对界面元素进行特征匹配识别，利用界面元素对应的概念来构建情景记忆，在情景记忆上对每一个概念元素对象在某个时间窗口内的表现完成它曾经和当前的状态、变化的趋势和轮廓等信息的感知，以实现对用户界面表象所蕴含的内在知识进行认知，来提升机器人通过用户界面（场景）实施业务操作的精准度和质量。

实施例二：

本实施例中，在实施例一提供的方法基础上还提供了一种基于视觉感知的动态目标识别和情景记忆认知系统，系统包括目标轮廓特征处理模块、场景空间特征处理模块、视觉情景记忆模块、目标表象库、表象感知模块、注意移动模块和识别成果库；目标轮廓特征处理模块用于捕获可视目标元素的轮廓特征；场景空间特征处理模块用于提取用户界面中的空间特征；视觉情景记忆模块用于存储可视目标元素的视觉情景记忆，包含背景和前景元素，及可视目标元素在指定时间窗口内各时间片的状态和变化情况；目标表象库用于存储已知概念化的目标表象；表象感知模块用于在有限状态机下进行状态目标识别；识别成果库用于存储用户界面当前场景状态S_i及其包含的可视概念元素；注意移动模块，是把关注（即所谓“注意”）点集中在目标移动（即变化）上，用以锁定场景中发生位置变化的目标，并跟踪它。

如图2所示，本实施例给出了系统的架构，图2中，场景用于视觉切片缓冲。滑动窗口用于对场景选定区域产生注意效果的窗口。

H1表示目标轮廓特征处理模块，该模块的具体应用流程如下：

（1）前景目标捕获，根据H2提供的前景区域，从这个区域中捕获所有已知特征的目标：

；

（2）目标切图，根据（1）步骤识别出来的目标，按照它们各自的目标区域，从前景区域中完成目标区域的切图。具体的切图过程为：选择目标_i，在视域中提取能完整包含目标i 轮廓的左上角边界坐标和右下角边界坐标；依据左上角边界坐标和右下角边界坐标进行矩形切图，形成关于目标_i的切图

。

（3）目标轮廓形成，从

中把目标i的外轮廓从背景中提取出来，形成它的轮廓图片。具体为选择目标i的切图，灰度化切图

，计算出切图

中提取出目标_i的独立完整的灰度图片

：

（4）轮廓特征提取，轮廓特征提取，利用图像形态学方法，对灰度图片

进行先腐蚀再膨胀计算，模糊灰度图片

的轮廓细节，突出灰度图片

的边缘：利用角度梯度计算表示法计算出灰度图片

边缘角点，以此作为它的轮廓特征点。最后根据边缘角点形成目标i的轮廓特征

。

（5）轮廓特征匹配识别，用所提取的目标_i的轮廓特征

，从已知目标轮廓特征库中进行比对，1）找到相似特征，则将目标进行已知目标概念的标注；2）若未找到相似特征，则将目标标注为未知。

H2表示场景空间特征处理模块，该模块的具体应用流程如下：

1)背景区域处理，处理过程包括：（1）把场景中始终静止不动部分设定为背景；（2）把场景中被遮挡目标的部分区域设定为背景；

2)前景区域处理，把场景中动态的且未被遮挡的部分设定为前景；

3)目标遮挡识别，从场景的背景区域中识别出属于被遮挡目标的部分区域，作为被遮挡目标的跟踪区域；

4)目标遮挡关系关联检测，结合前景和被遮挡目标的跟踪区域，检测出前景与被遮挡目标的关联关系。

M1表示视觉情景记忆模块，该模块用于存储可视目标元素的视觉情景记忆，包含背景和前景元素，及可视目标元素在指定时间窗口内各时间片的状态和变化情况。

K1指代已知的概念化的目标表象库，目标表象库具体表示为：

H3指代表象感知模块，用于在有限状态机下进行状态目标识别。H4指代注意移动模块。

R1表示识别成果库，用于存储当前场景状态

及其包含的可视概念元素：

。

本实施例中，系统的应用流程具体如下：

1)场景的视觉感知

2)利用H2构建该时刻场景的空间特征

3)借助当前场景的空间特征，通过移动窗口锁定可视目标元素

4)利用H1捕获可视目标元素的轮廓特征

5)从M1记忆搜索与该轮廓相似的目标，若搜索到相似目标且发生状态变化时，则将新状态与其进行记忆关联；若没有相似目标，则从知识库中获取本目标的概念标签，将概念标注的目标及其状态存入记忆中

6)利用H3以定时和目标状态变化触发方式从M1记忆中提取信息，判断每一个动态元素的状态变化情况，向R1输出当前场景状态S_i下包含的可视概念元素列表，向H4输出当前场景状态S_i下每个元素的变化情况

7)H4根据H3提供的当前场景状态S_i下每个元素的变化情况，来调整每个元素所对应的移动窗口，实现对目标的快速识别和有效跟踪。

本发明把计算机视觉用于机器人对用户界面（场景）可视元素识别，并按已知概念进行情景在时间窗口内的有限状态记忆，利用本系统，可基于计算机视觉，构造针对各种应用视觉场景的视觉感知、识别和情景记忆认知能力。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护的范围由所附的权利要求书及其等效物界定。

Claims

1.基于视觉感知的动态目标识别和情景记忆认知方法，其特征在于，包括以下步骤：

步骤一：利用机器人对当前用户界面进行视觉感知；

步骤二：对视觉感知结果进行场景空间特征处理，构建当前用户界面的空间特征；具体包括以下子步骤：

S201，背景区域处理，根据视觉感知结果，将用户界面的背景区域中静止不动的界面区域设定为背景，同时将背景区域中被遮挡目标的部分也设定为背景；

S204，目标遮挡关联，结合用户界面的前景和被遮挡目标的跟踪区域，检测出前景与被遮挡目标的关联关系；

步骤六：以定时和目标状态变化触发方式从视觉情景记忆中提取可视目标元素的状态变化信息，根据当前场景状态S_i下每个可视目标元素的状态变化信息调整每个可视目标元素所对应的滑动窗口，实现对用户界面中的可视目标识别与跟踪。

2.根据权利要求1所述的基于视觉感知的动态目标识别和情景记忆认知方法，其特征在于，所述步骤四具体包括以下子步骤：

；

；

S403，目标轮廓形成，选择目标i的切图，灰度化切图

，计算出切图

中提取出目标_i的独立完整的灰度图片

：

S404，轮廓特征提取，利用图像形态学方法，对灰度图片

进行先腐蚀再膨胀计算，模糊灰度图片

的轮廓细节，突出灰度图片

的边缘：利用角度梯度计算表示法计算出灰度图片

边缘角点，根据边缘角点形成目标i的轮廓特征

；

S405，轮廓特征匹配识别，用所提取的目标i的轮廓特征

，从已知目标轮廓特征库中进行比对寻找，若找到相似目标轮廓特征，则将目标进行已知目标概念的标注；若未找到相似目标轮廓特征，则将目标i标注为未知目标。

3.根据权利要求1所述的基于视觉感知的动态目标识别和情景记忆认知方法，其特征在于，所述步骤六具体为：通过表象感知技术以定时和目标状态变化触发方式从视觉情景记忆中提取当前用户界面状态下可视目标元素的状态变化信息，状态变化信息包括可视目标元素的空间特征和轮廓特征；将提取出所有可视目标元素的状态变化信息整理形成可视目标元素列表，向识别成果库输出当前用户界面状态下包含的可视目标元素列表；根据当前场景状态S_i下每个可视目标元素的状态变化信息调整每个可视目标元素所对应的滑动窗口，实现对用户界面中的可视目标快速识别和有效跟踪。

4.一种采用上述权利要求1~3任意一项所述的基于视觉感知的动态目标识别和情景记忆认知方法实现的基于视觉感知的动态目标识别和情景记忆认知系统，其特征在于，包括目标轮廓特征处理模块、场景空间特征处理模块、视觉情景记忆模块、目标表象库、表象感知模块、注意移动模块和识别成果库；目标轮廓特征处理模块用于捕获可视目标元素的轮廓特征；场景空间特征处理模块用于提取用户界面中的空间特征；视觉情景记忆模块用于存储可视目标元素的视觉情景记忆，包含背景和前景元素，及可视目标元素在指定时间窗口内各时间片的状态和变化情况；目标表象库用于存储已知概念化的目标表象；表象感知模块用于在有限状态机下进行状态目标识别；识别成果库用于存储用户界面当前场景状态S_i及其包含的可视概念元素；注意移动模块用于锁定场景中发生位置变化的目标元素，并跟踪目标元素的位置。

5.根据权利要求4所述的基于视觉感知的动态目标识别和情景记忆认知系统，其特征在于，所述提取用户界面中的空间特征过程具体包括以下子步骤：

6.根据权利要求4所述的基于视觉感知的动态目标识别和情景记忆认知系统，其特征在于，所述捕获可视目标元素的轮廓特征过程具体包括以下子步骤：