CN116664078B

CN116664078B - 基于语意特征向量的rpa对象识别方法

Info

Publication number: CN116664078B
Application number: CN202310906524.6A
Authority: CN
Inventors: 李亚磊; 李阳; 吴杨凯; 翁文勇; 罗曼蒂克; 陈新
Original assignee: Hangzhou Sosi Interconnection Technology Co ltd
Current assignee: Hangzhou Sosi Interconnection Technology Co ltd
Priority date: 2023-07-24
Filing date: 2023-07-24
Publication date: 2023-10-10
Anticipated expiration: 2043-07-24
Also published as: CN116664078A

Abstract

本发明提出了一种基于语意特征向量的RPA对象识别方法，包括：步骤S1，将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型；步骤S2，根据当前操作界面的图像快照抽取几何形体的特征向量，生成树状数据结构；步骤S3，根据复合对象的特征值，从树状数据结构中进行对象拟合，查找相似度最高的对象，执行相应的原子操作动作。本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法，实现了无需人工定义和人为操作自动化流程模拟，不仅可以快速有效的模拟的人工操作的动作，而且可以抽象描述对象的特征，不需要特别具体的说明就可实现大概率匹配到用户的需求。

Description

基于语意特征向量的RPA对象识别方法

技术领域

本发明涉及计算机技术领域，特别涉及一种基于语意特征向量的RPA对象识别方法。

背景技术

ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过理解和学习人类的语言来进行对话，还能根据聊天的上下文进行互动，能完成撰写邮件、视频脚本、文案、翻译、代码，写论文等任务。

RPA（RoboticProcessAutomation，机器人流程自动化）是使用软件自动化来实现原本由人类操作的计算机完成的操作，通过软件机器人自动处理大量重复的、基于规则的工作流程任务。

当前RPA机器人的自动化流程，只能复制真人操作的流程、或者根据人工定义的一系列逻辑操作进行模拟。但是当每次出现新的任务或者修改任务的逻辑流程时，都需要大量人工时间，导致无法实现高效率的自动化任务定义。

发明内容

本发明的目的旨在至少解决所述技术缺陷之一。

为此，本发明的目的在于提出一种基于语意特征向量的RPA对象识别方法。

为了实现上述目的，本发明的实施例提供一种基于语意特征向量的RPA对象识别方法，包括如下步骤：

步骤S1，将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型；

步骤S2，根据当前操作界面的图像快照抽取几何形体的特征向量，生成树状数据结构；

步骤S3，根据复合对象的特征值，从树状数据结构中进行对象拟合，查找相似度最高的对象，执行相应的原子操作动作。

进一步，在所述步骤S1中，将用户的语音数据描述通过ChatGPT转换成基本对象和原子操作模型。

进一步，将用户的语音数据通过语音识别方法转换成文本，再通过ChatGPT转换成由形式化语言描述的对象序列数据模型，所述对象序列数据模型通过数组表示动作前后关系,是通过基本对象BO组成的复合对象CO和原子操作动作action的序列化形式数据模型。

进一步，通过ChatGPT定义语意模型的知识集合，以大语言模型的GeneratedKnowledge Prompting方法，通过QA学习模式进行已有知识的训练，并且计算出形式化序列seqModal。

进一步，在所述步骤S2中，将当前操作界面的图像数据快照通过人工智能的模式识别算法，识别并分析计算图像中包含的图像对象属性集合。

进一步，在所述步骤S2中，将当前操作界面的目标图像快照转换为黑白图片，通过OCR识别函数将文本对象替换成多边形；根据ContourDetect算法识别图像中的元素，并且采样位置、形状、曲率的图像对象属性，建立树状数据结构TreeSnap；

利用MatchShape算法，根据所述形式化序列seqModal和所述树状数据结构TreeSnap，计算出操作序列operationList。

进一步，所述ContourDetect算法包括如下步骤：

将当前操作界面的图像快照转换成灰度阈值，并且根据阈值差别查找出所有的轮廓对象；对于每个轮廓对象，首先将其拟合成多边形，并且计算每个多边形的曲率，根据多边形的边数量进行判断：

a)边数=4并且曲率在[0.95，1.05]之间作为圆形保存到树状结构；

b)边数=4并且曲率不在[0.95，1.05]之间作为矩形保存到树状结构；

c)边数在[5,10]区间作为多边形保存到树结构；

d)边数>10作为圆形保存到树结构。

进一步，所述MatchShape算法包括如下步骤：

遍历序列化模型SeqModal中的每一个复合对象CO与其动作Action，取出该复合对象中的每个基本对象BO，从树结构TreeSnap中查找：

a)如果节点EL的位置和形状都相同，并且是第一次找到，则将该节点EL的深度保存到Depth；

b)如果节点EL的位置和形状都相同，并且是第N次找到,如果当前节点EL与上次节点深度相同，递增查找标志Find；否则重置查找标志Find=0，并且将当前深度保存到Depth；如果复合对象CO中的基本对象BO数量与节点Find相同，说明该复合对象CO与节点EL具有相同的形状，并且子对象数量相同，即是需要操作的目标对象，则保存到操作序列operationList，其中，N>1。

进一步，在所述步骤S3中，根据语意特征向量算法，将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合，并且为每个图形对象匹配原子操作，生成逻辑操作流程。

进一步，所述原子操作动作包括：点击鼠标Click、等待Wait、鼠标双击DClick、鼠标拖动Drag和键盘输入PressKey。

根据本发明实施例的基于语意特征向量的RPA对象识别方法，具有以下有益效果：（1）自动流程：直接通过语音完成整个逻辑流程的定义，不需要手工去设置RPA的工作过程；（2）节省时间：通过ChatGPT将音频数据转换成语意模型，比传统的人工设置效率高。

本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法，实现了无需人工定义和人为操作自动化流程模拟，不仅可以快速有效的模拟的人工操作的动作，而且可以抽象描述对象的特征，不需要特别具体的说明就可实现大概率匹配到用户的需求。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本发明实施例的基于语意特征向量的RPA对象识别方法的流程图；

图2为根据本发明实施例的序列化模型生成逻辑的示意图；

图3为根据本发明实施例的chatGPT定义语意模型的QA学习模式训练图；

图4a为根据本发明实施例的矩形基本对象位置关系图；

图4b为根据本发明实施例的圆形基本对象位置关系图；

图4c为根据本发明实施例的多边形基本对象位置关系图；

图5为根据本发明实施例的复合对象的位置关系图；

图6为根据本发明实施例的操作类型分类图；

图7为根据本发明实施例的快照图像色彩黑白化的界面图；

图8为根据本发明实施例的利用OCR识别函数将文本对象替换成多边形的示意图；

图9为根据本发明实施例的识别图像中元素后的界面图；

图10为根据本发明实施例的树状快照生成逻辑图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

本发明提供一种种基于语意特征向量的RPA对象识别方法，采用结合ChatGPT人工智能的语意转换和RPA图像模式识别技术的RPA自动化流程定义方法，根据操作对象的图像和自然语言描述，自动生成软件任务流程进行执行。

如图1所示，本发明实施例的基于语意特征向量的RPA对象识别方法，包括如下步骤：

步骤S1，将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型。

具体的，如图2所示，将用户的语音数据通过语音识别方法转换成文本，再通过ChatGPT转换成由形式化语言描述的对象序列数据模型，该序列通过数组表示动作前后关系，通过基本对象BO组成的复合对象 CO和原子操作Action的序列化形式数据模型。即，将用户自然语言描述通过 ChatGPT转换成基本对象和原子操作模型。

参考图2，每个复合对象 CO可以包括一个或多个数量的基本对象BO。同时，每个复合对象 CO中的基本对象BO的形状类型也可以不同。

如图3所示，通过 chatGPT 定义语意模型的知识集合，以大语言模型的GeneratedKnowledge Prompting方法，通过 QA 学习模式进行已有知识的训练，并且计算出形式化序列seqModal，即图3中的回答A部分(Answer)。在本发明的实施例中， area表示操作范围，target 表示操作目标，shape 表示对象形状，pos 表示位置，action表示动作类型。

具体来说，训练提示要求将下面内容作为知识要点：

Knowledge: shape = set[rect, round, mult]

Knowledge: pos = set[left, right, top, bottom, center, in, cross]

Knowledge: action= set[click,dClick, rClick, wait]

Knowledge: attr = set[area,shape, action, pos, target]

训练对象的形式化描述格式如下：

shot{shape: si, pos:pi, target: { shape:si, pos:pi, action:ai, child:{shape: si}}}。

如图4a至图4c所示，目前语意模型支持的基本对象包括三种类型，矩形R、圆形C和多边形M,正方形、长方形和圆角长方形属于矩形，圆形包括正圆形和椭圆形，多边形包括各种边数超过四条的对象，比如文本也属于多边形。需要说明的是，由于在语意中不支持其他对象的描述，只能识别上述对象，因此上述提到的语意模型支持的基本对象可以应对90%的场景。

如图5所示，复合对象是由多个基本对象组成的，它们之间的位置关系包括内in、外out、交叉cross、左left、右right、顶部top、底部bottom、中心center；可以用形式化语言定义复合对象如下：

CO{BO1:{shape:R, pos:in},BO2:{shape:M, pos:bottom}, ..., BOn:{shape:C, pos:center}}

如图6所示，原子操作集合包括点击鼠标 Click、等待 Wait、鼠标双击 DClick、鼠标拖动 Drag和键盘输入PressKey。需要说明的是，因为目前90%以上的操作都是鼠标点击和少量键盘输入，上述原子操作可以覆盖了大部分应用场景需求。

步骤S2，根据当前操作界面的图像快照抽取几何形体的特征向量，生成树状数据结构。

在本步骤中，将当前操作界面的图像快照Snap（即，操作界面的屏幕画面截图）通过人工智能的模式识别算法，抽取画面中的元素，识别并分析计算图像中包含的图像对象属性集合，主要过程如下：

（1）如图7所示，将当前操作界面的图像快照的色彩进行黑白化；

（2）如图8所示，通过 OCR 识别函数将文本对象替换成多边形（例如，梯形）；

（3）如图9所示，根据ContourDetect 算法识别图像中的元素，并且采样位置 pos、形状type、曲率aspectRatio 属性，建立树状数据结构TreeSnap。

下面对ContourDetect算法描述如下：

首先，将当前快照image转换成灰度阈值，并且根据阈值差别查找出所有的轮廓对象contours。其中，阈值是邻域值的高斯加权总和。

其次，对于每个轮廓对象contour，计算该轮廓对象的具体参数。首先将其拟合逼近成多边形approx，并且计算每个多边形的曲率(width/height)，然后根据approx的边数量进行判断：

1）边数=4并且曲率在[0.95，1.05]之间作为圆形保存到树结构；

2）边数=4并且曲率不在[0.95，1.05]之间作为矩形保存到树结构；

3）边数在[5,10]区间作为多边形保存到树结构；

4）边数>10作为圆形保存到树结构。

此处需要说明的是，出现3的情况说明图像识别数据错误，不进行处理。

（4）如图10所示，根据MatchShape算法，根据形式化序列seqModal、快照的树状数据结构TreeSnap，计算出操作序列operationList。

下面对MatchShape算法描述如下：

首先，遍历序列化模型SeqModal中的每一个复合对象 CO与其对应的动作Action。

然后，取出该复合对象中的每个简单对象 BO，从树结构 TreeSnap 中查找：

如果节点 EL的位置和形状都相同，并且是第一次找到，则将该节点 EL的深度保存到深度 Depth;

b) 如果节点 EL的位置和形状都相同，并且是第N次找到（N>1）,如果当前节点EL与上次对象位于树节点的相同深度，则递增查找标志 Find；否则重置查找标志 Find=0，并且将当前深度保存到Depth。

如果复合对象CO中的子对象BO数量与节点Find 相同，说明该复合对象CO与节点EL 具有相同的形状，并且子对象数量BO，即 Find相同，即是需要操作的目标对象，则保存到操作序列operationList。

步骤S3，根据复合对象的特征值，从树状数据结构中进行对象拟合，查找相似度最高的对象，执行相应的原子操作动作Action。

具体的，根据语意特征向量算法，将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合，并且为每个图形对象匹配原子操作，从而生成逻辑操作流程。通过软件解析该操作流程，执行整个命令过程。

根据本发明实施例的基于语意特征向量的RPA对象识别方法，具有以下有益效果：（1）自动流程：直接通过语音完成整个逻辑流程的定义，不需要手工去设置RPA的工作过程；（2）节省时间：通过ChatGPT将音频数据转换成语意模型，比传统的人工设置效率高。本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法，实现了无需人工定义和人为操作自动化流程模拟，不仅可以快速有效的模拟的人工操作的动作，而且可以抽象描述对象的特征，不需要特别具体的说明就可实现大概率匹配到用户的需求。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。

Claims

1.一种基于语意特征向量的RPA对象识别方法，其特征在于，包括如下步骤：

步骤S1，将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型；其中，将用户的语音数据生成的描述通过ChatGPT转换成基本对象和原子操作模型，包括：将用户的语音数据通过语音识别方法转换成文本，再通过ChatGPT转换成由形式化语言描述的对象序列数据模型，所述对象序列数据模型通过数组表示动作前后关系,是通过基本对象BO组成的复合对象CO和原子操作动作action的序列化形式数据模型；

步骤S2，根据当前操作界面的图像快照抽取几何形体的特征向量，生成树状数据结构；其中，将当前操作界面的图像数据快照通过人工智能的模式识别算法，识别并分析计算图像中包含的图像对象属性集合，包括：

将当前操作界面的目标图像快照转换为黑白图片，通过OCR识别函数将文本对象替换成多边形；根据ContourDetect算法识别图像中的元素，并且采样位置、形状、曲率的图像对象属性，建立树状数据结构TreeSnap；

利用MatchShape算法，根据形式化序列seqModal和树状数据结构TreeSnap，计算出操作序列operationList；

其中，所述ContourDetect算法包括如下步骤：

c)边数在[5,10]区间作为多边形保存到树结构；

d)边数>10作为圆形保存到树结构；

2.如权利要求1所述的基于语意特征向量的RPA对象识别方法，其特征在于，通过ChatGPT定义语意模型的知识集合，以大语言模型的Generated Knowledge Prompting方法，通过QA学习模式进行已有知识的训练，并且计算出形式化序列seqModal。

3.如权利要求1所述的基于语意特征向量的RPA对象识别方法，其特征在于，所述MatchShape算法包括如下步骤：

4.如权利要求1所述的基于语意特征向量的RPA对象识别方法，其特征在于，在所述步骤S3中，

根据语意特征向量算法，将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合，并且为每个图形对象匹配原子操作，生成逻辑操作流程。

5.如权利要求4所述的基于语意特征向量的RPA对象识别方法，其特征在于，所述原子操作动作包括：点击鼠标Click、等待Wait、鼠标双击DClick、鼠标拖动Drag和键盘输入PressKey。