CN116664078B - 基于语意特征向量的rpa对象识别方法 - Google Patents
基于语意特征向量的rpa对象识别方法 Download PDFInfo
- Publication number
- CN116664078B CN116664078B CN202310906524.6A CN202310906524A CN116664078B CN 116664078 B CN116664078 B CN 116664078B CN 202310906524 A CN202310906524 A CN 202310906524A CN 116664078 B CN116664078 B CN 116664078B
- Authority
- CN
- China
- Prior art keywords
- rpa
- tree
- image
- semantic feature
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000013598 vector Substances 0.000 title claims abstract description 23
- 239000002131 composite material Substances 0.000 claims abstract description 28
- 230000009471 action Effects 0.000 claims abstract description 24
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000013499 data model Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 238000005070 sampling Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 6
- 230000000875 corresponding effect Effects 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000013515 script Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000002087 whitening effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1822—Parsing for meaning understanding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9027—Trees
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9035—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Quality & Reliability (AREA)
- General Business, Economics & Management (AREA)
- Tourism & Hospitality (AREA)
- Operations Research (AREA)
- Software Systems (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明提出了一种基于语意特征向量的RPA对象识别方法,包括:步骤S1,将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型;步骤S2,根据当前操作界面的图像快照抽取几何形体的特征向量,生成树状数据结构;步骤S3,根据复合对象的特征值,从树状数据结构中进行对象拟合,查找相似度最高的对象,执行相应的原子操作动作。本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法,实现了无需人工定义和人为操作自动化流程模拟,不仅可以快速有效的模拟的人工操作的动作,而且可以抽象描述对象的特征,不需要特别具体的说明就可实现大概率匹配到用户的需求。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种基于语意特征向量的RPA对象识别方法。
背景技术
ChatGPT是人工智能技术驱动的自然语言处理工具,它能够通过理解和学习人类的语言来进行对话,还能根据聊天的上下文进行互动,能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。
RPA(RoboticProcessAutomation,机器人流程自动化)是使用软件自动化来实现原本由人类操作的计算机完成的操作,通过软件机器人自动处理大量重复的、基于规则的工作流程任务。
当前RPA机器人的自动化流程,只能复制真人操作的流程、或者根据人工定义的一系列逻辑操作进行模拟。但是当每次出现新的任务或者修改任务的逻辑流程时,都需要大量人工时间,导致无法实现高效率的自动化任务定义。
发明内容
本发明的目的旨在至少解决所述技术缺陷之一。
为此,本发明的目的在于提出一种基于语意特征向量的RPA对象识别方法。
为了实现上述目的,本发明的实施例提供一种基于语意特征向量的RPA对象识别方法,包括如下步骤:
步骤S1,将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型;
步骤S2,根据当前操作界面的图像快照抽取几何形体的特征向量,生成树状数据结构;
步骤S3,根据复合对象的特征值,从树状数据结构中进行对象拟合,查找相似度最高的对象,执行相应的原子操作动作。
进一步,在所述步骤S1中,将用户的语音数据描述通过ChatGPT转换成基本对象和原子操作模型。
进一步,将用户的语音数据通过语音识别方法转换成文本,再通过ChatGPT转换成由形式化语言描述的对象序列数据模型,所述对象序列数据模型通过数组表示动作前后关系,是通过基本对象BO组成的复合对象CO和原子操作动作action的序列化形式数据模型。
进一步,通过ChatGPT定义语意模型的知识集合,以大语言模型的GeneratedKnowledge Prompting方法,通过QA学习模式进行已有知识的训练,并且计算出形式化序列seqModal。
进一步,在所述步骤S2中,将当前操作界面的图像数据快照通过人工智能的模式识别算法,识别并分析计算图像中包含的图像对象属性集合。
进一步,在所述步骤S2中,将当前操作界面的目标图像快照转换为黑白图片,通过OCR识别函数将文本对象替换成多边形;根据ContourDetect算法识别图像中的元素,并且采样位置、形状、曲率的图像对象属性,建立树状数据结构TreeSnap;
利用MatchShape算法,根据所述形式化序列seqModal和所述树状数据结构TreeSnap,计算出操作序列operationList。
进一步,所述ContourDetect算法包括如下步骤:
将当前操作界面的图像快照转换成灰度阈值,并且根据阈值差别查找出所有的轮廓对象;对于每个轮廓对象,首先将其拟合成多边形,并且计算每个多边形的曲率,根据多边形的边数量进行判断:
a)边数=4并且曲率在[0.95,1.05]之间作为圆形保存到树状结构;
b)边数=4并且曲率不在[0.95,1.05]之间作为矩形保存到树状结构;
c)边数在[5,10]区间作为多边形保存到树结构;
d)边数>10作为圆形保存到树结构。
进一步,所述MatchShape算法包括如下步骤:
遍历序列化模型SeqModal中的每一个复合对象CO与其动作Action,取出该复合对象中的每个基本对象BO,从树结构TreeSnap中查找:
a)如果节点EL的位置和形状都相同,并且是第一次找到,则将该节点EL的深度保存到Depth;
b)如果节点EL的位置和形状都相同,并且是第N次找到,如果当前节点EL与上次节点深度相同,递增查找标志Find;否则重置查找标志Find=0,并且将当前深度保存到Depth;如果复合对象CO中的基本对象BO数量与节点Find相同,说明该复合对象CO与节点EL具有相同的形状,并且子对象数量相同,即是需要操作的目标对象,则保存到操作序列operationList,其中,N>1。
进一步,在所述步骤S3中,根据语意特征向量算法,将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合,并且为每个图形对象匹配原子操作,生成逻辑操作流程。
进一步,所述原子操作动作包括:点击鼠标Click、等待Wait、鼠标双击DClick、鼠标拖动Drag和键盘输入PressKey。
根据本发明实施例的基于语意特征向量的RPA对象识别方法,具有以下有益效果:(1)自动流程:直接通过语音完成整个逻辑流程的定义,不需要手工去设置RPA的工作过程;(2)节省时间:通过ChatGPT将音频数据转换成语意模型,比传统的人工设置效率高。
本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法,实现了无需人工定义和人为操作自动化流程模拟,不仅可以快速有效的模拟的人工操作的动作,而且可以抽象描述对象的特征,不需要特别具体的说明就可实现大概率匹配到用户的需求。
本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为根据本发明实施例的基于语意特征向量的RPA对象识别方法的流程图;
图2为根据本发明实施例的序列化模型生成逻辑的示意图;
图3为根据本发明实施例的chatGPT定义语意模型的QA学习模式训练图;
图4a为根据本发明实施例的矩形基本对象位置关系图;
图4b为根据本发明实施例的圆形基本对象位置关系图;
图4c为根据本发明实施例的多边形基本对象位置关系图;
图5为根据本发明实施例的复合对象的位置关系图;
图6为根据本发明实施例的操作类型分类图;
图7为根据本发明实施例的快照图像色彩黑白化的界面图;
图8为根据本发明实施例的利用OCR识别函数将文本对象替换成多边形的示意图;
图9为根据本发明实施例的识别图像中元素后的界面图;
图10为根据本发明实施例的树状快照生成逻辑图。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
本发明提供一种种基于语意特征向量的RPA对象识别方法,采用结合ChatGPT人工智能的语意转换和RPA图像模式识别技术的RPA自动化流程定义方法,根据操作对象的图像和自然语言描述,自动生成软件任务流程进行执行。
如图1所示,本发明实施例的基于语意特征向量的RPA对象识别方法,包括如下步骤:
步骤S1,将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型。
具体的,如图2所示,将用户的语音数据通过语音识别方法转换成文本,再通过ChatGPT转换成由形式化语言描述的对象序列数据模型,该序列通过数组表示动作前后关系,通过基本对象BO组成的复合对象 CO和原子操作Action的序列化形式数据模型。即,将用户自然语言描述通过 ChatGPT转换成基本对象和原子操作模型。
参考图2,每个复合对象 CO可以包括一个或多个数量的基本对象BO。同时,每个复合对象 CO中的基本对象BO的形状类型也可以不同。
如图3所示,通过 chatGPT 定义语意模型的知识集合,以大语言模型的GeneratedKnowledge Prompting方法,通过 QA 学习模式进行已有知识的训练,并且计算出形式化序列seqModal,即图3中的回答A部分(Answer)。在本发明的实施例中, area表示操作范围,target 表示操作目标,shape 表示对象形状,pos 表示位置,action表示动作类型。
具体来说,训练提示要求将下面内容作为知识要点:
Knowledge: shape = set[rect, round, mult]
Knowledge: pos = set[left, right, top, bottom, center, in, cross]
Knowledge: action= set[click,dClick, rClick, wait]
Knowledge: attr = set[area,shape, action, pos, target]
训练对象的形式化描述格式如下:
shot{shape: si, pos:pi, target: { shape:si, pos:pi, action:ai, child:{shape: si}}}。
如图4a至图4c所示,目前语意模型支持的基本对象包括三种类型,矩形R、圆形C和多边形M,正方形、长方形和圆角长方形属于矩形,圆形包括正圆形和椭圆形,多边形包括各种边数超过四条的对象,比如文本也属于多边形。需要说明的是,由于在语意中不支持其他对象的描述,只能识别上述对象,因此上述提到的语意模型支持的基本对象可以应对90%的场景。
如图5所示,复合对象是由多个基本对象组成的,它们之间的位置关系包括内in、外out、交叉cross、左left、右right、顶部top、底部bottom、中心center;可以用形式化语言定义复合对象如下:
CO{BO1:{shape:R, pos:in},BO2:{shape:M, pos:bottom}, ..., BOn:{shape:C, pos:center}}
如图6所示,原子操作集合包括点击鼠标 Click、等待 Wait、鼠标双击 DClick、鼠标拖动 Drag和键盘输入PressKey。需要说明的是,因为目前90%以上的操作都是鼠标点击和少量键盘输入,上述原子操作可以覆盖了大部分应用场景需求。
步骤S2,根据当前操作界面的图像快照抽取几何形体的特征向量,生成树状数据结构。
在本步骤中,将当前操作界面的图像快照Snap(即,操作界面的屏幕画面截图)通过人工智能的模式识别算法,抽取画面中的元素,识别并分析计算图像中包含的图像对象属性集合,主要过程如下:
(1)如图7所示,将当前操作界面的图像快照的色彩进行黑白化;
(2)如图8所示,通过 OCR 识别函数将文本对象替换成多边形(例如,梯形);
(3)如图9所示,根据ContourDetect 算法识别图像中的元素,并且采样位置 pos、形状type、曲率aspectRatio 属性,建立树状数据结构TreeSnap。
下面对ContourDetect算法描述如下:
首先,将当前快照image转换成灰度阈值,并且根据阈值差别查找出所有的轮廓对象contours。其中,阈值是邻域值的高斯加权总和。
其次,对于每个轮廓对象contour,计算该轮廓对象的具体参数。首先将其拟合逼近成多边形approx,并且计算每个多边形的曲率(width/height),然后根据approx的边数量进行判断:
1)边数=4并且曲率在[0.95,1.05]之间作为圆形保存到树结构;
2)边数=4并且曲率不在[0.95,1.05]之间作为矩形保存到树结构;
3)边数在[5,10]区间作为多边形保存到树结构;
4)边数>10作为圆形保存到树结构。
此处需要说明的是,出现3的情况说明图像识别数据错误,不进行处理。
(4)如图10所示,根据MatchShape算法,根据形式化序列seqModal、快照的树状数据结构TreeSnap,计算出操作序列operationList。
下面对MatchShape算法描述如下:
首先,遍历序列化模型SeqModal中的每一个复合对象 CO与其对应的动作Action。
然后,取出该复合对象中的每个简单对象 BO,从树结构 TreeSnap 中查找:
如果节点 EL的位置和形状都相同,并且是第一次找到,则将该节点 EL的深度保存到深度 Depth;
b) 如果节点 EL的位置和形状都相同,并且是第N次找到(N>1),如果当前节点EL与上次对象位于树节点的相同深度,则递增查找标志 Find;否则重置查找标志 Find=0,并且将当前深度保存到Depth。
如果复合对象CO中的子对象BO数量与节点Find 相同,说明该复合对象CO与节点EL 具有相同的形状,并且子对象数量BO,即 Find相同,即是需要操作的目标对象,则保存到操作序列operationList。
步骤S3,根据复合对象的特征值,从树状数据结构中进行对象拟合,查找相似度最高的对象,执行相应的原子操作动作Action。
具体的,根据语意特征向量算法,将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合,并且为每个图形对象匹配原子操作,从而生成逻辑操作流程。通过软件解析该操作流程,执行整个命令过程。
根据本发明实施例的基于语意特征向量的RPA对象识别方法,具有以下有益效果:(1)自动流程:直接通过语音完成整个逻辑流程的定义,不需要手工去设置RPA的工作过程;(2)节省时间:通过ChatGPT将音频数据转换成语意模型,比传统的人工设置效率高。本发明采用通过语音进行快速的RPA逻辑操作流程建模的方法,实现了无需人工定义和人为操作自动化流程模拟,不仅可以快速有效的模拟的人工操作的动作,而且可以抽象描述对象的特征,不需要特别具体的说明就可实现大概率匹配到用户的需求。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。本发明的范围由所附权利要求及其等同限定。
Claims (5)
1.一种基于语意特征向量的RPA对象识别方法,其特征在于,包括如下步骤:
步骤S1,将用户的语音命令的描述逻辑转换成由复合对象的操作序列模型;其中,将用户的语音数据生成的描述通过ChatGPT转换成基本对象和原子操作模型,包括:将用户的语音数据通过语音识别方法转换成文本,再通过ChatGPT转换成由形式化语言描述的对象序列数据模型,所述对象序列数据模型通过数组表示动作前后关系,是通过基本对象BO组成的复合对象CO和原子操作动作action的序列化形式数据模型;
步骤S2,根据当前操作界面的图像快照抽取几何形体的特征向量,生成树状数据结构;其中,将当前操作界面的图像数据快照通过人工智能的模式识别算法,识别并分析计算图像中包含的图像对象属性集合,包括:
将当前操作界面的目标图像快照转换为黑白图片,通过OCR识别函数将文本对象替换成多边形;根据ContourDetect算法识别图像中的元素,并且采样位置、形状、曲率的图像对象属性,建立树状数据结构TreeSnap;
利用MatchShape算法,根据形式化序列seqModal和树状数据结构TreeSnap,计算出操作序列operationList;
其中,所述ContourDetect算法包括如下步骤:
将当前操作界面的图像快照转换成灰度阈值,并且根据阈值差别查找出所有的轮廓对象;对于每个轮廓对象,首先将其拟合成多边形,并且计算每个多边形的曲率,根据多边形的边数量进行判断:
a)边数=4并且曲率在[0.95,1.05]之间作为圆形保存到树状结构;
b)边数=4并且曲率不在[0.95,1.05]之间作为矩形保存到树状结构;
c)边数在[5,10]区间作为多边形保存到树结构;
d)边数>10作为圆形保存到树结构;
步骤S3,根据复合对象的特征值,从树状数据结构中进行对象拟合,查找相似度最高的对象,执行相应的原子操作动作。
2.如权利要求1所述的基于语意特征向量的RPA对象识别方法,其特征在于,通过ChatGPT定义语意模型的知识集合,以大语言模型的Generated Knowledge Prompting方法,通过QA学习模式进行已有知识的训练,并且计算出形式化序列seqModal。
3.如权利要求1所述的基于语意特征向量的RPA对象识别方法,其特征在于,所述MatchShape算法包括如下步骤:
遍历序列化模型SeqModal中的每一个复合对象CO与其动作Action,取出该复合对象中的每个基本对象BO,从树结构TreeSnap中查找:
a)如果节点EL的位置和形状都相同,并且是第一次找到,则将该节点EL的深度保存到Depth;
b)如果节点EL的位置和形状都相同,并且是第N次找到,如果当前节点EL与上次节点深度相同,递增查找标志Find;否则重置查找标志Find=0,并且将当前深度保存到Depth;如果复合对象CO中的基本对象BO数量与节点Find相同,说明该复合对象CO与节点EL具有相同的形状,并且子对象数量相同,即是需要操作的目标对象,则保存到操作序列operationList,其中,N>1。
4.如权利要求1所述的基于语意特征向量的RPA对象识别方法,其特征在于,在所述步骤S3中,
根据语意特征向量算法,将步骤S1生成的基本对象与步骤S2生成的图形对象集合进行拟合,并且为每个图形对象匹配原子操作,生成逻辑操作流程。
5.如权利要求4所述的基于语意特征向量的RPA对象识别方法,其特征在于,所述原子操作动作包括:点击鼠标Click、等待Wait、鼠标双击DClick、鼠标拖动Drag和键盘输入PressKey。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906524.6A CN116664078B (zh) | 2023-07-24 | 2023-07-24 | 基于语意特征向量的rpa对象识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310906524.6A CN116664078B (zh) | 2023-07-24 | 2023-07-24 | 基于语意特征向量的rpa对象识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116664078A CN116664078A (zh) | 2023-08-29 |
CN116664078B true CN116664078B (zh) | 2023-10-10 |
Family
ID=87712101
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310906524.6A Active CN116664078B (zh) | 2023-07-24 | 2023-07-24 | 基于语意特征向量的rpa对象识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116664078B (zh) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366395A (zh) * | 2013-07-06 | 2013-10-23 | 北京航空航天大学 | 一种基于gpu加速的体数据非真实感绘制方法 |
WO2021135548A1 (zh) * | 2020-06-05 | 2021-07-08 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN113255614A (zh) * | 2021-07-06 | 2021-08-13 | 杭州实在智能科技有限公司 | 一种基于视频分析的rpa流程自动生成方法与系统 |
CN113377962A (zh) * | 2021-06-18 | 2021-09-10 | 西安石油大学 | 一种基于图像识别和自然语言处理的智能过程模拟方法 |
CN115048407A (zh) * | 2022-05-20 | 2022-09-13 | 长威信息科技发展股份有限公司 | 一种基于自然语言问句的关系型数据库查询方法及终端 |
CN115878003A (zh) * | 2022-11-28 | 2023-03-31 | 中科曙光南京研究院有限公司 | 一种基于Transformer的RPA网页操作自动化方法及系统 |
CN116117834A (zh) * | 2023-04-11 | 2023-05-16 | 佛山宜视智联科技有限公司 | 可交互的机器人变色系统 |
CN116403583A (zh) * | 2023-04-12 | 2023-07-07 | 中国第一汽车股份有限公司 | 语音数据处理方法和装置、非易失性存储介质及车辆 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2756804A1 (en) * | 2013-01-22 | 2014-07-23 | Agfa Healthcare | Method, apparatus and system for identifying a specific part of a spine in an image |
US11544948B2 (en) * | 2020-09-28 | 2023-01-03 | Sap Se | Converting handwritten diagrams to robotic process automation bots |
-
2023
- 2023-07-24 CN CN202310906524.6A patent/CN116664078B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103366395A (zh) * | 2013-07-06 | 2013-10-23 | 北京航空航天大学 | 一种基于gpu加速的体数据非真实感绘制方法 |
WO2021135548A1 (zh) * | 2020-06-05 | 2021-07-08 | 平安科技(深圳)有限公司 | 语音的意图识别方法、装置、计算机设备及存储介质 |
CN113377962A (zh) * | 2021-06-18 | 2021-09-10 | 西安石油大学 | 一种基于图像识别和自然语言处理的智能过程模拟方法 |
CN113255614A (zh) * | 2021-07-06 | 2021-08-13 | 杭州实在智能科技有限公司 | 一种基于视频分析的rpa流程自动生成方法与系统 |
CN115048407A (zh) * | 2022-05-20 | 2022-09-13 | 长威信息科技发展股份有限公司 | 一种基于自然语言问句的关系型数据库查询方法及终端 |
CN115878003A (zh) * | 2022-11-28 | 2023-03-31 | 中科曙光南京研究院有限公司 | 一种基于Transformer的RPA网页操作自动化方法及系统 |
CN116117834A (zh) * | 2023-04-11 | 2023-05-16 | 佛山宜视智联科技有限公司 | 可交互的机器人变色系统 |
CN116403583A (zh) * | 2023-04-12 | 2023-07-07 | 中国第一汽车股份有限公司 | 语音数据处理方法和装置、非易失性存储介质及车辆 |
Non-Patent Citations (1)
Title |
---|
王洪伟 等.面向语义检索应用的本体模型结构设计.系统工程与电子技术.2010,第32卷(第01期),第166-174页. * |
Also Published As
Publication number | Publication date |
---|---|
CN116664078A (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Andriluka et al. | Fluid annotation: a human-machine collaboration interface for full image annotation | |
CN112101357B (zh) | 一种rpa机器人智能元素定位拾取方法及系统 | |
CN111915540B (zh) | 拓片甲骨文字符图像增广方法、系统、计算机设备及介质 | |
Lin et al. | Deep structured scene parsing by learning with image descriptions | |
CN110569033A (zh) | 一种数字化交易类智能合约基础代码生成方法 | |
US20220044451A1 (en) | Method and device for image generation and colorization | |
CN116152267A (zh) | 基于对比性语言图像预训练技术的点云实例分割方法 | |
CN113379399B (zh) | 一种基于状态转移概率模型的rpa组件推荐方法 | |
CN116719911B (zh) | 自动化流程生成方法、装置、设备及存储介质 | |
CN113448843B (zh) | 基于缺陷分析的图像识别软件测试数据增强方法及装置 | |
CN113010683B (zh) | 基于改进图注意力网络的实体关系识别方法及系统 | |
Shi et al. | A benchmark and baseline for language-driven image editing | |
CN113657267A (zh) | 一种半监督行人重识别模型、方法和装置 | |
CN116664078B (zh) | 基于语意特征向量的rpa对象识别方法 | |
CN114417872A (zh) | 一种合同文本命名实体识别方法及系统 | |
CN115908608A (zh) | 基于约束循环生成对抗网络的人脸个性化剪纸生成方法 | |
CN115455510A (zh) | 一种自动化绘图方法、电子设备及存储介质 | |
CN115546465A (zh) | 一种用于定位界面上元素位置的方法、介质及电子设备 | |
CN114627312A (zh) | 零样本图像分类方法、系统、设备及存储介质 | |
CN112329389B (zh) | 一种基于语义分割与禁忌搜索的汉字笔画自动提取方法 | |
CN114463543A (zh) | 基于级联决策和交互标注自提升的弱监督语义分割方法 | |
JPWO2005043271A1 (ja) | ソフトウェア生成方法 | |
Kazangirler et al. | UIBee: An improved deep instance segmentation and classification of UI elements in wireframes | |
CN116758557B (zh) | 一种基于浅层图神经网络的联机手写笔画分类方法 | |
Mulya | Classification of Hijaiyah Letters Using Hybrid CNN-CatBoost |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |