CN113255614A - 一种基于视频分析的rpa流程自动生成方法与系统 - Google Patents

一种基于视频分析的rpa流程自动生成方法与系统 Download PDF

Info

Publication number
CN113255614A
CN113255614A CN202110760829.1A CN202110760829A CN113255614A CN 113255614 A CN113255614 A CN 113255614A CN 202110760829 A CN202110760829 A CN 202110760829A CN 113255614 A CN113255614 A CN 113255614A
Authority
CN
China
Prior art keywords
video
key frame
module
picture
robot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110760829.1A
Other languages
English (en)
Inventor
欧阳小刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Real Intelligence Technology Co ltd
Original Assignee
Hangzhou Real Intelligence Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Real Intelligence Technology Co ltd filed Critical Hangzhou Real Intelligence Technology Co ltd
Priority to CN202110760829.1A priority Critical patent/CN113255614A/zh
Publication of CN113255614A publication Critical patent/CN113255614A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Library & Information Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于视频分析的RPA流程自动生成方法与系统,应用有视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、元素图片检索模块、机器人流程自动化组件匹配模块,采用关键帧抽取技术和操作日志相结合的方式,定位到包含核心操作步骤的视频关键帧;采用目标检测、光学字符识别和图像检索技术相结合的方式,对关键帧图像上的各类界面元素进行定位、识别和分类,得到每一个核心操作步骤对应的操作对象和操作行为;采用基于机器学习的分类模型构建<操作对象,操作行为>二元组到机器人流程自动化组件的映射关系,从而最终生成可执行的流程脚本。

Description

一种基于视频分析的RPA流程自动生成方法与系统
技术领域
本发明涉及机器人流程自动化技术领域,特别涉及一种基于视频分析的RPA流程自动生成方法与系统。
背景技术
企业的数字化转型和降本增效成为一种共识,机器人流程自动化技术(RoboticProcess Automation,RPA)是一种用于企业规则化、重复性工作替代的有效技术,目前广泛应用在包括财务、税务、审批、风控、运营等在内的各个场景中。机器人流程自动化技术提供了可视化的流程编辑器,开发人员可以在编辑器上设计和配置出能够在业务系统上自动执行的流程脚本;实际执行过程中,脚本通过模拟键鼠操作、调用系统接口、分析网页结构等,实现文件创建、网页切换、按钮点击、信息录入、逻辑判断等动作,进而完成以往需要人工来完成的操作;将人力从大量简单、重复的工作中解放出来,投入更具价值的创造性工作中。另外,借助机器人流程自动化技术,可以不用对业务系统底层做大范围的改造,或者开发各类系统间数据互通的大量接口,因此,能够在很短的时间内实现企业业务流程的自动化,投入产出比更高。
如上所述,应用或实施一个机器人流程自动化场景的一般步骤是:专业流程开发人员需要先到企业现场,了解业务人员、财务人员、审核人员等在完成日常工作时的大致流程,记录人工需要操作的软件、网页和界面等,掌握操作过程的页面跳转顺序、点击路径以及逻辑判断规则等;如果涉及到数据提取,还需要明确数据的获取、检查和审核方式。完成上述调研后,开发人员开始在流程编辑器上将人工执行流程转化为一个个原子操作,例如打开某某网页、输入某某信息、点击某某按钮等,最终经过反复调试形成能够实际执行的脚本。这个过程中,如果涉及图片信息的读取,可能还需要借助光学字符识别(OpticalCharacter Recognition,OCR)技术来获取图片文字信息。可以看出,机器人流程自动化场景的实施往往需要专业开发人员参与,但在一些简单场景例如业务流程只涉及少数几个网页的点击和录入,那么实际上企业希望可以更高效地实现流程脚本的生成,甚至不需要开发人员参与。目前,业内在这块的通用做法是让业务人员一步步选择需要操作哪些网页、按钮和文字,以及如何操作,最终形成一段脚本。这种方式的弊病很明显:只能原封不动地模拟人的每一步操作动作,一旦页面分辨率变化或者按钮位置调整后,这种完全复制人工操作的方式就会失效。
现有无论是通过专业开发人员进行机器人流程自动化场景实施,还是业内现在应用的所谓“流程录制”的方式,都不可避免存在以下问题:
1、传统机器人流程自动化场景实施需要专业人员,成本较高
传统机器人流程自动化场景需要专业开发人员和企业业务人员进行反复沟通确认,了解业务详情之后进行流程开发和调试,这种模式在复杂的业务场景下是有必要的,因为涉及到一系列操作逻辑和业务逻辑的判断,过程中需要补充各种条件判断组件和异常处理机制;但是在大部分简单场景下,这种模式还需要专业开发人员的人力和时间投入,成本较高;
对于一些场景例如登录企业信用查询网站,获取并汇总企业信用信息这一场景,操作过程比较简单:打开浏览器,输入相关查询网站网址,输入企业名称并点击搜索,获取对应页面信息并复制粘贴到表格中;过程不涉及复杂的逻辑判断,因此专业开发人员参与其中的必要性不大,完全有可能自动化地生成一个流程脚本来自动执行这个简单操作流程,从而减少实施成本。
2、现有流程生成技术仍需人工操作
业界现行的流程生成技术是通过业务人员的一步步操作,由系统记录操作对象和操作动作来复现整个操作流程的。这种方式仍然需要业务人员的参与,并且需要他们了解机器人流程自动化的含义,比如每一个组件(组件:指机器人流程自动化软件中用来编制整个流程的基本单元,对应某个具体动作,例如打开网页、点击按钮都是一个组件)对应哪一步操作;过程中如果系统生成的组件对操作对象和操作动作的记录有误,还需业务人员逐个修改,过程耗时耗力;
另外,这种流程生成方式不能充分利用企业内部历史存储的操作视频。因此如果有一种流程自动生成技术,能够基于业务人员操作过程的录屏直接生成可执行的流程脚本,将大大简化业务人员的操作,并且在一些简单的场景下完全可以实现无人工介入;业务人员只需在日常工作中录制一个操作视频,后续交由机器人流程自动化软件自动生成流程即可。
3、现有流程生成技术生成的流程稳定性差
现实使用场景会出现一种情况是:系统界面上的按钮、控件、文本内容等经常发生位置上的偏移和颜色、样式上的微调,这一方面可能是不同电脑的分辨率变化造成,另一方面可能是系统的改版升级或页面优化所导致,而现有流程生成技术,往往只简单记录了操作对象的位置坐标和键盘、鼠标动作,在页面元素位置变化时,基于坐标的操作将完全失效;另外,即使有些技术保存了当前按钮、控件的图标图片,也不能很好地应对系统升级所带来的样式、颜色等方面的变化。
基于上述现有技术存在的问题,本申请方案所要解决的技术问题包括:
1、针对传统的机器人流程自动化场景实施过程中,无论场景难易均需要专业开发人员参与;以及现有的流程生成技术仍需业务人员操作的问题;
2、针对从业务操作视频中提取核心的每一步操作对象和操作行为的问题;
3、针对如何从操作对象和操作行为映射到机器人流程自动化编辑器组件库中各个组件的问题;
4、针对现有流程生成技术中存在的无法应对界面元素位置、样式变动的问题。
发明内容
针对现有技术存在的不足,本发明的目的在于提供一种基于视频分析的RPA流程自动生成方法与系统,采用视频分析技术来构建操作视频和流程脚本间的映射关系,从而将上传的操作视频解析并生成可实际执行的流程脚本。
首先,参照图1所示,从流程生成的思想上,区别于传统流程录制中业务人员需要一步步模拟操作来生成流程组件,并且需要视情况逐个调整组件的方式,本发明提出的基于视频分析的自动流程生成方法是一种更完全、更彻底的流程脚本自动化生成模式:企业业务人员只需要在日常工作中正常完成业务操作并录制好视频,同时过程中打开本发明提供的日志采集器;而后将整段视频和采集日志上传到机器人流程自动化系统上,即可一键生成一段完整的流程脚本,其中包含自动生成的n个流程组件,最后视情况进行细微调整即可直接运行。
发明中利用视频分析技术,提取整段操作视频中的关键帧,并进行关键帧图像中界面元素的检测、识别和归类;同时结合操作日志和视频动作中的鼠标跟踪,识别操作行为,由此可以
整个生成过程借助视频分析技术,解析操作视频中的关键帧,并进行关键帧图像的界面元素目标检测和识别,定位并归类具体的操作对象;同时结合操作日志和视频鼠标跟踪,判断操作行为;由此完成从视频中提取每一步操作对象和操作行为的过程。关键帧图像的界面元素识别过程中,会应用到光学字符识别技术来定位和识别文字类信息,同时图像检索技术用于界面上某些不常见图标和已知图标类型的匹配,目的是将这类图标归类到某一类别(按钮、搜索框、单选框等)中。在得到了一个操作对象和操作行为的序列之后,应用机器学习算法,将每一个<操作对象,操作行为>二元组与机器人流程自动化编辑器中的流程组件进行匹配,最后得到一串流程组件,该流程组件串即构成可执行的流程脚本。
针对现有技术的不足,本发明方案具体通过以下内容进行解决。
1、针对传统的机器人流程自动化场景实施过程中,无论场景难易均需要专业开发人员参与;以及现有的流程生成技术仍需业务人员操作的问题;本发明采用了一种全新的基于视频分析的技术来自动生成流程脚本,在简单场景下实现完全的自动化生成而无需人工参与。
2、针对从业务操作视频中提取核心的每一步操作对象和操作行为的问题,本发明采用关键帧提取技术与日志采集器采集操作日志相结合的方式,定位视频中包含核心操作步骤的帧,并采用基于深度学习的目标检测技术,对帧图像上的系统界面元素进行检测、识别和分类,从而解析得到当前步骤具体操作的对象(按钮、链接、搜索框还是其他)和操作的行为(点击、输入、复制还是其他)。借助关键帧提取技术和目标检测技术,将操作视频转化为一系列有顺序的<操作对象,操作行为>二元组,抽象出业务人员的每步操作行为。
3、针对如何从操作对象和操作行为映射到机器人流程自动化编辑器组件库中各个组件的问题,本发明采用基于机器学习的分类算法,以操作对象、操作行为所包含的属性作为特征,以组件类型作为类别进行训练学习,最终得到一个<操作对象,操作行为>二元组到流程组件的映射关系,实现生成流程脚本的关键步骤。
4、最后,针对现有流程生成技术中存在的无法应对界面元素位置、样式变动的问题,本发明在界面元素的检测、识别和定位上采用目标检测+光学字符识别相结合的技术,对文字类信息采用光学字符识别技术定位和识别文本,其本质上对文字内容的匹配,从而避免了简单的记录位置坐标所带来的不稳定性。同样对非文字类元素如图标等,采用目标检测技术进行定位、识别和分类,从而将每次操作的对象抽象为固定的某几种类别,以便于后续与流程组件的映射,另外采用目标检测技术是基于元素的语义进行定位,也避免了位置坐标易受界面布局变动的影响,和单纯图像匹配易受元素样式调整的影响。另外,图像检索技术也被应用于解决元素样式变动或新类型元素出现情况下,将其分类到指定类别的问题。
本发明的上述技术目的是通过以下技术方案得以实现的:
一种基于视频分析的RPA流程自动生成方法,应用有视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、机器人流程自动化组件匹配模块,具体包括以下步骤:
将业务人员提交的操作视频和采集的操作日志输入至视频转写和日志解析模块中,输出经过编码转换和统一后的视频流文件和经过标准化解析的操作日志文件;
视频读取和关键帧抽取模块将视频转写和日志解析模块输出的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取;
关键帧元素提取模块在关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志文件信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组,操作对象为系统界面上的元素信息,操作行为指具体的操作动作;
机器人流程自动化组件匹配模块将提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本下发到流程机器人进行执行。
进一步优选为,将操作日志文件的信息按照时间顺序和视频时间轴进行对齐,在视频文件不同时间节点上标定操作日志文件中的操作动作;另外考虑到对齐误差问题,将操作动作节点前后几帧也一并抽取。
进一步优选为,元素信息包括文字类元素和非文字类元素,文字类元素采用光学字符识别技术进行提取,包括文字检测、文字识别两个步骤,生成以字符串形式表征的文本内容;非文字类元素事先设定不同类别,采用基于深度学习技术的目标检测算法进行定位和分类,将各类非文字类元素划归到不同类别中。
进一步优选为,文字类元素具体提取步骤如下:
文字检测采用基于分割的深度学习算法,通过像素点级图片区域分类得到包含文字信息的图片区域,并将其切出作为文字识别步骤的输入;
文字识别同样采用基于深度学习的文字识别算法,以文字检测得到的切图作为输入,利用深度卷积神经网络实现特征提取,深度循环神经网络实现字符序列信息处理,联接时序分类进行特征解码,最终生成以字符串形式表征的切图中的文本内容。
进一步优选为,非文字类元素具体处理步骤如下:
将实现标注了元素位置、大小和范围的界面图片作为训练数据,通过检测框回归和框内目标分类,学习到非文字类元素的形态样式,进而在预测时能够将系统界面上所包含的各类非文字类元素准确检测,并通过分类模型划归到不同类别中。
进一步优选为,对于部分通过目标检测算法无法归类的非文字类元素,预先设置包含一个存储各类界面图标的图片库的元素图片检索模块,待分类的元素图片在该图片库中进行检索,找到最相似的图标,以其类别作为待分类元素图片的分类。
进一步优选为,<操作对象,操作行为>二元组是一个在时间上有先后顺序和关联关系的操作事件流,所要生成的可执行的流程脚本包括一系列与二元组匹配的机器人流程自动化组件,具体通过采用基于机器学习分类算法模型的方式,构建操作事件流到机器人流程自动化组件流的映射关系,最终得到可执行的机器人流程自动化脚本。
本发明申请的另外一个目的是提供一种基于视频分析的RPA流程自动生成系统,包括视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、机器人流程自动化组件匹配模块;
视频转写和日志解析模块,用于将业务员提交的操作视频和日志采集器所采集的操作日志作为输入,输出经过编码转换和统一后的视频流文件和经过标准化解析的操作日志文件;
视频读取和关键帧抽取模块,将视频转写和日志解析模块输出的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取;
关键帧元素提取模块,在关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志文件信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组,操作对象为系统界面上的元素信息,操作行为指具体的操作动作;
机器人流程自动化组件匹配模块,将提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本下发到流程机器人进行执行。
进一步优选为,RPA流程自动生成系统还包括元素图片检索模块,元素信息包括文字类元素和非文字类元素,元素图片检索模块包含一个存储各类界面图标的图片库,对于部分通过目标检测算法无法归类的非文字类元素,元素图片检索模块将待分类的元素图片在该图片库中进行检索,找到最相似图标,以其类别作为待分类元素图片的分类。
综上所述,本发明对比于现有技术的有益效果为:
传统的机器人流程自动化场景实施需要专业开发人员参与,并与业务人员有大量的沟通交互工作,完成业务调研后还需要投入较多的开发调试时间;对一些流程相对简单的场景来说,这种开发模式成本太高,周期太长,不利于发挥机器人流程自动化技术的快速、低成本的优势;也制约了其在中小企业,以及一些简单场景的应用。
为此,本发明独创性地提出一种基于视频分析的RPA流程自动化生成方法与系统,实现从操作视频直接生成可执行的机器人流程自动化脚本,进而减少开发、业务人员的参与,降低实施成本,提高应用效率。本发明中,借助视频分析技术和关键帧抽取技术,从操作视频中抽取与核心操作动作相关的片段,实现高效的视频解析和动作定位;通过深度学习目标检测技术和光学字符识别技术,从关键帧图像提取元素类别和信息,实现系统界面上元素完整、准确的解析,并且经过大量样本充分训练的深度学习模型,能够更稳定地定位界面元素并分类,避免传统流程生成方案中基于图像匹配方法在分辨率变化、样式调整等情况下的匹配失效问题;采用图像检索技术对未能正确分类的元素图片进行二次解析,进一步提高元素分类的准确率;最后基于机器学习分类模型实现操作事件流到RPA组件流的映射,最终生成可执行的流程脚本。综上,整个过程可以实现完全自动化、高效的流程实施,并实现更准确、更稳定的流程执行。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
图1为发明内容中本发明与现有流程录制方式的区别示意图;
图2为实施例的系统功能架构图;
图3为实施例中视频关键帧抽取示意图;
图4为实施例中机器人流程自动化组件匹配流程图;
图5为实施例中具体实施流程图。
具体实施方式
下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明,而并非以任何方式限制本发明的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。说明书中的“实施例”或“实施方式”既可表示一个实施例或一种实施方式,也可表示一些实施例或一些实施方式的情况。
本领域技术人员知道,本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。
根据本发明的实施方式,提出了一种基于视频分析的RPA流程自动生成方法与系统。
需要说明的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。
一种基于视频分析的RPA流程自动生成方法与系统,应用有视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、机器人流程自动化组件匹配模块,具体包括以下步骤:
将业务人员提交的操作视频和采集的操作日志输入至视频转写和日志解析模块中,输出经过编码转换和统一后的视频流文件和经过标准化解析的操作日志文件;
视频读取和关键帧抽取模块将视频转写和日志解析模块输出的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取;
关键帧元素提取模块在关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志文件信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组,操作对象为系统界面上的元素信息,操作行为指具体的操作动作;
机器人流程自动化组件匹配模块将提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本下发到流程机器人进行执行。
上述内容的核心是采用视频分析技术来构建操作视频和流程脚本间的映射关系,从而将上传的操作视频解析并生成可实际执行的流程脚本。具体来说:采用关键帧抽取技术和操作日志相结合的方式,定位到包含核心操作步骤的视频关键帧;采用目标检测、光学字符识别和图像检索技术相结合的方式,对关键帧图像上的各类界面元素进行定位、识别和分类,得到每一个核心操作步骤对应的操作对象和操作行为;采用基于机器学习的分类模型构建<操作对象,操作行为>二元组到机器人流程自动化组件的映射关系,从而最终生成可执行的流程脚本。
本发明所提出的系统功能架构图如图2所示,主要包括:视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、元素图片检索模块、机器人流程自动化组件匹配模块。
上述5个模块,具体内容如下:
视频转写和日志解析模块:模块的输入是业务人员提交的操作视频和日志采集器所采集的操作日志,操作日志中会包含鼠标行为、键盘行为、坐标信息和元素截图等;该模块的输出一是编码转换和统一后的视频流文件,便于后续模块读取;二是标准化解析的操作日志文件,按照时间顺序和视频时间轴进行对齐。
视频读取和关键帧抽取模块:视频读取功能将统一编码后的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取,考虑到业务操作视频中包含较多的冗余信息,例如鼠标点击元素前在页面的滑动过程等,因此需要从大段视频流中抽取出核心操作的关键帧或关键帧片段,抽取示意图如图3所示。
本发明还将操作日志和视频流进行时间点对齐,在视频流不同时间节点上标定操作日志中的点击、滚动、键入等动作;另外考虑到对齐误差问题,节点前后几帧也一并抽取。
关键帧元素提取模块:关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志等信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组。本对文字类元素和非文字类元素采取不同的元素提取方式。
文字类元素是指类似文字链接、网页新闻内容、包含文字的按钮等,可以通过文字信息进行标识和定位,从而在机器人流程自动化中应用诸如“移动到指定文本”等操作组件进行操作。
本发明采用光学字符识别技术进行文字类元素提取,包括文字检测、文字识别两个步骤:文字检测采用基于分割的深度学习算法,通过像素点级图片区域分类得到包含文字信息的图片区域,并将其切出作为文字识别步骤的输入。文字识别同样采用基于深度学习的文字识别算法,以文字检测得到的切图作为输入,利用深度卷积神经网络实现特征提取,深度循环神经网络实现字符序列信息处理,联接时序分类(Connectionist TemporalClassification,CTC模型专门用于时序分类任务的建模,也可以说是用于处理这样的一种序列标注问题,这种序列标注数据输入和输出之间的没有一一对齐)进行特征解码,最终生成以字符串形式表征的切图中的文本内容。
非文字类元素指不包含文字信息的图标、按钮、下拉框、搜索框等元素。本发明采用基于深度学习技术的目标检测算法进行定位和分类,类别为事先指定如按钮、搜索框、下拉框等。
具体来说,将实现标注了元素位置、大小和范围的界面图片作为训练数据,通过检测框回归和框内目标分类,学习到非文字类元素的形态样式,进而在预测时能够将系统界面上所包含的各类图标元素准确检测,并通过分类模型划归到不同类别中。
元素图片检索模块:部分通过目标检测无法归类的非文字类元素,将通过元素图片检索模块进行“二次提取和分类”。具体地,能够在关键帧元素提取模块进行定位和分类的文字类和非文字类元素可直接生成<操作对象,操作行为>二元组,其余不能判断为是何种元素类型的,将进入图片检索模块。
图片检索模块包含一个存储各类界面图标的图片库,待分类的元素图片在该图片库中进行检索,找到最相似的图标,以其类别作为待分类元素图片的分类。例如,某个不能判断是何种类别的元素经过检索后,发现和浏览器的“刷新”图标最为相似,则认为该元素属于“浏览器页面刷新按钮”这一类别。
通过采用基于内容的图片检索技术,图标库中图片和待检索元素图片经过相同的特征向量计算方法转化为特征向量,本发明采用深度卷积神经网络作为特征提取器,将图像三通道颜色特征转换为包含语义信息的数字化向量特征;然后采用基于距离度量的搜索引擎计算待检索图片向量和图片库中每个图片向量的相似度,例如余弦距离等,最终计算得到距离最近的特征向量,进一步找到最相似的图标图片。
机器人流程自动化组件匹配模块:模块将之前步骤提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本可下发到流程机器人进行执行。
视频流解析得到的多个<操作对象,操作行为>二元组是一个在时间上有先后顺序和关联关系的操作事件流,其中操作对象指系统界面上的元素,而操作行为指具体的操作动作,如鼠标点击、滚轮滚动、键盘输入、键盘删除等;同时,所要生成的可执行脚本包括一系列与二元组匹配的机器人流程自动化组件,举例来说,业务人员做了一个操作,“点击系统界面的某按钮”,对应的机器人流程自动化组件可以是“元素点击”。
因此,本发明采用基于机器学习分类算法模型的方式,构建操作事件流到机器人流程自动化组件流的映射关系。具体如图4所示。以每个<操作对象,操作行为>二元组包含的元素类别、元素所属应用程序、元素包含的文字内容等,以及鼠标操作行为、键盘操作行为等作为特征变量,以机器人流程自动化组件名称作为类别变量,训练得到一个将操作事件序列转化为机器人流程自动化组件序列的映射模型,并最终得到可执行的机器人流程自动化脚本。
参照图5所示,以下阐述从业务操作视频到最终生成可执行脚本的过程,具体落地实施流程如下:
1、业务人员录制日常工作中的系统操作视频,同时利用日志采集器(一个简单的日志收集工具)收集操作日志,主要是鼠标、键盘等操作动作的记录;
2、业务人员将操作视频和操作日志上传至机器人流程自动化系统,其中提供流程自动生成功能,将以服务调用的方式调用流程自动生成方法;
3、本发明的方法和系统对视频进行转写,解析日志并提取视频中的关键帧片段;
4、利用深度学习目标检测技术和光学字符识别技术定位、识别和分类关键帧上的元素;
5、若第4步中存在未能准确分类的元素,则利用图片检索技术查找和待分类元素最相似的图标,并以该图标作为元素的分类;
6、关键帧元素提取或经过元素图片检索后生成的<操作对象,操作行为>二元组序列(即操作事件序列)将利用基于机器学习的分类算法映射到机器人流程自动化组件序列;
7、若生成的机器人流程自动化序列存在问题,则进行微调后再下发系统执行;
8、自动生成的或经过微调后的流程脚本将下发到系统自动执行,完成自动业务操作。
本发明独创性地采用一种基于视频分析的RPA流程自动生成方法与系统,结合视频分析和关键帧抽取技术、深度学习目标检测技术、光学字符识别技术和图像检索技术,实现了RPA流程实施的无人工参与,大大降低了应用机器人流程自动化技术的门槛和成本,扩展了机器人流程自动化技术的应用边界和场景。
本发明的技术关键点和保护点如下:
1、创新性地提出了基于视频分析的RPA流程自动生成技术,区别于传统需要开发人员参与的RPA实施方式,以及业界现有的需要业务人员一步步操作和选择的流程生成模式,能够基于业务操作视频实现流程脚本的完全自动化生成,本发明提出的流程生成方式和技术架构为独创。
2、采用图像检索技术实现元素的二次识别和分类,以最相似图标的分类作为待检索图片的分类,从而提高生成流程的可用性和稳定性,该技术在RPA流程生成领域为首创。
3、采用基于机器学习的分类算法,实现视频提取出的操作事件序列到RPA组件序列的映射,从而完成视频信息到机器人流程自动化组件信息的转换,最终自动生成可实际执行的流程脚本,该项技术在机器人流程自动化领域为首创。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。

Claims (9)

1.一种基于视频分析的RPA流程自动生成方法,其特征在于,应用有视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、机器人流程自动化组件匹配模块,具体包括以下步骤:
将业务人员提交的操作视频和采集的操作日志输入至视频转写和日志解析模块中,输出经过编码转换和统一后的视频流文件和经过标准化解析的操作日志文件;
视频读取和关键帧抽取模块将视频转写和日志解析模块输出的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取;
关键帧元素提取模块在关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志文件信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组,操作对象为系统界面上的元素信息,操作行为指具体的操作动作;
机器人流程自动化组件匹配模块将提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本下发到流程机器人进行执行。
2.根据权利要求1所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,将操作日志文件的信息按照时间顺序和视频时间轴进行对齐,在视频文件不同时间节点上标定操作日志文件中的操作动作;另外考虑到对齐误差问题,将操作动作节点前后几帧也一并抽取。
3.根据权利要求1所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,元素信息包括文字类元素和非文字类元素,文字类元素采用光学字符识别技术进行提取,包括文字检测、文字识别两个步骤,生成以字符串形式表征的文本内容;非文字类元素事先设定不同类别,采用基于深度学习技术的目标检测算法进行定位和分类,将各类非文字类元素划归到不同类别中。
4.根据权利要求3所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,文字类元素具体提取步骤如下:
文字检测采用基于分割的深度学习算法,通过像素点级图片区域分类得到包含文字信息的图片区域,并将其切出作为文字识别步骤的输入;
文字识别同样采用基于深度学习的文字识别算法,以文字检测得到的切图作为输入,利用深度卷积神经网络实现特征提取,深度循环神经网络实现字符序列信息处理,联接时序分类进行特征解码,最终生成以字符串形式表征的切图中的文本内容。
5.根据权利要求3所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,非文字类元素具体处理步骤如下:
将实现标注了元素位置、大小和范围的界面图片作为训练数据,通过检测框回归和框内目标分类,学习到非文字类元素的形态样式,进而在预测时能够将系统界面上所包含的各类非文字类元素准确检测,并通过分类模型划归到不同类别中。
6.根据权利要求3或5所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,对于部分通过目标检测算法无法归类的非文字类元素,预先设置包含一个存储各类界面图标的图片库的元素图片检索模块,待分类的元素图片在该图片库中进行检索,找到最相似的图标,以其类别作为待分类元素图片的分类。
7.根据权利要求1所述的一种基于视频分析的RPA流程自动生成方法,其特征在于,<操作对象,操作行为>二元组是一个在时间上有先后顺序和关联关系的操作事件流,所要生成的可执行的流程脚本包括一系列与二元组匹配的机器人流程自动化组件,具体通过采用基于机器学习分类算法模型的方式,构建操作事件流到机器人流程自动化组件流的映射关系,最终得到可执行的机器人流程自动化脚本。
8.一种基于视频分析的RPA流程自动生成系统,用于执行如权利要求1所述的RPA流程自动生成方法,其特征在于,包括视频转写和日志解析模块、视频读取和关键帧抽取模块、关键帧元素提取模块、机器人流程自动化组件匹配模块;
视频转写和日志解析模块,用于将业务员提交的操作视频和日志采集器所采集的操作日志作为输入,输出经过编码转换和统一后的视频流文件和经过标准化解析的操作日志文件;
视频读取和关键帧抽取模块,将视频转写和日志解析模块输出的视频流文件读入,然后结合操作日志文件信息进行关键帧抽取;
关键帧元素提取模块,在关键帧抽取之后需对图片上的元素信息进行提取,结合操作日志文件信息,还原出每个时间节点上客户的真实操作轨迹,最终生成<操作对象,操作行为>二元组,操作对象为系统界面上的元素信息,操作行为指具体的操作动作;
机器人流程自动化组件匹配模块,将提取和分析得到的<操作对象,操作行为>二元组转换为机器人流程自动化编辑器中的各个组件,进而形成一串操作组件序列,组件之间具有先后关系,该组件序列作为可执行的流程脚本下发到流程机器人进行执行。
9.根据权利要求8所述的一种基于视频分析的RPA流程自动生成系统,其特征在于,系统还包括元素图片检索模块,元素信息包括文字类元素和非文字类元素,元素图片检索模块包含一个存储各类界面图标的图片库,对于部分通过目标检测算法无法归类的非文字类元素,元素图片检索模块将待分类的元素图片在该图片库中进行检索,找到最相似的图标,以其类别作为待分类元素图片的分类。
CN202110760829.1A 2021-07-06 2021-07-06 一种基于视频分析的rpa流程自动生成方法与系统 Pending CN113255614A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110760829.1A CN113255614A (zh) 2021-07-06 2021-07-06 一种基于视频分析的rpa流程自动生成方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110760829.1A CN113255614A (zh) 2021-07-06 2021-07-06 一种基于视频分析的rpa流程自动生成方法与系统

Publications (1)

Publication Number Publication Date
CN113255614A true CN113255614A (zh) 2021-08-13

Family

ID=77190780

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110760829.1A Pending CN113255614A (zh) 2021-07-06 2021-07-06 一种基于视频分析的rpa流程自动生成方法与系统

Country Status (1)

Country Link
CN (1) CN113255614A (zh)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038261A (zh) * 2019-12-25 2021-06-25 浙江宇视科技有限公司 一种视频生成方法、装置、设备、系统及存储介质
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统
CN114064157A (zh) * 2021-11-09 2022-02-18 中国电力科学研究院有限公司 基于页面元素识别的自动化流程实现方法、系统、设备及介质
CN114398022A (zh) * 2022-01-11 2022-04-26 广东电力信息科技有限公司 基于行为分析的流程挖掘系统
CN114817584A (zh) * 2022-06-29 2022-07-29 阿里巴巴(中国)有限公司 信息处理方法、计算机可读存储介质以及电子设备
CN115033740A (zh) * 2022-08-09 2022-09-09 杭州实在智能科技有限公司 一种rpa流程视频关键帧抽取和元素定位方法
CN115345600A (zh) * 2022-10-13 2022-11-15 天聚地合(苏州)科技股份有限公司 一种rpa流程的生成方法和装置
CN115858049A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 Rpa流程组件化编排方法、装置、设备和介质
CN115878003A (zh) * 2022-11-28 2023-03-31 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及系统
CN116664078A (zh) * 2023-07-24 2023-08-29 杭州所思互连科技有限公司 基于语意特征向量的rpa对象识别方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2366502A1 (en) * 2010-02-26 2011-09-21 Honda Research Institute Europe GmbH Robot with hand-object movement correlations for online temporal segmentation of movement tasks
CN111203878A (zh) * 2020-01-14 2020-05-29 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN113034095A (zh) * 2021-01-29 2021-06-25 北京来也网络科技有限公司 结合rpa和ai的人机互动方法、装置、存储介质及电子设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2366502A1 (en) * 2010-02-26 2011-09-21 Honda Research Institute Europe GmbH Robot with hand-object movement correlations for online temporal segmentation of movement tasks
CN111203878A (zh) * 2020-01-14 2020-05-29 北京航空航天大学 一种基于视觉模仿的机器人序列任务学习方法
CN111890357A (zh) * 2020-07-01 2020-11-06 广州中国科学院先进技术研究所 一种基于动作演示示教的智能机器人抓取方法
CN112101357A (zh) * 2020-11-03 2020-12-18 杭州实在智能科技有限公司 一种rpa机器人智能元素定位拾取方法及系统
CN113034095A (zh) * 2021-01-29 2021-06-25 北京来也网络科技有限公司 结合rpa和ai的人机互动方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
许文胜 等: "《大数据时代云端翻转课堂模式下的口译教学探索》", 30 November 2016, 上海:同济大学出版社 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113038261A (zh) * 2019-12-25 2021-06-25 浙江宇视科技有限公司 一种视频生成方法、装置、设备、系统及存储介质
CN114035726A (zh) * 2021-10-19 2022-02-11 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统
CN114035726B (zh) * 2021-10-19 2023-12-22 四川新网银行股份有限公司 一种机器人流程自动化页面要素识别过程的方法及系统
CN114064157B (zh) * 2021-11-09 2023-09-15 中国电力科学研究院有限公司 基于页面元素识别的自动化流程实现方法、系统、设备及介质
CN114064157A (zh) * 2021-11-09 2022-02-18 中国电力科学研究院有限公司 基于页面元素识别的自动化流程实现方法、系统、设备及介质
CN114398022A (zh) * 2022-01-11 2022-04-26 广东电力信息科技有限公司 基于行为分析的流程挖掘系统
CN114817584A (zh) * 2022-06-29 2022-07-29 阿里巴巴(中国)有限公司 信息处理方法、计算机可读存储介质以及电子设备
CN115033740A (zh) * 2022-08-09 2022-09-09 杭州实在智能科技有限公司 一种rpa流程视频关键帧抽取和元素定位方法
CN115345600A (zh) * 2022-10-13 2022-11-15 天聚地合(苏州)科技股份有限公司 一种rpa流程的生成方法和装置
CN115878003A (zh) * 2022-11-28 2023-03-31 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN115878003B (zh) * 2022-11-28 2024-02-23 中科曙光南京研究院有限公司 一种基于Transformer的RPA网页操作自动化方法及系统
CN115858049A (zh) * 2023-03-04 2023-03-28 北京神州光大科技有限公司 Rpa流程组件化编排方法、装置、设备和介质
CN116052193A (zh) * 2023-04-03 2023-05-02 杭州实在智能科技有限公司 Rpa界面动态表格的拾取和匹配方法及系统
CN116664078A (zh) * 2023-07-24 2023-08-29 杭州所思互连科技有限公司 基于语意特征向量的rpa对象识别方法
CN116664078B (zh) * 2023-07-24 2023-10-10 杭州所思互连科技有限公司 基于语意特征向量的rpa对象识别方法

Similar Documents

Publication Publication Date Title
CN113255614A (zh) 一种基于视频分析的rpa流程自动生成方法与系统
CN112101357B (zh) 一种rpa机器人智能元素定位拾取方法及系统
CN110275834B (zh) 用户界面自动化测试系统及方法
CN113391871B (zh) 一种rpa元素智能融合拾取的方法与系统
CN112232352B (zh) 一种智能识别pcb图纸自动计价系统和方法
CN113138920B (zh) 基于知识图谱与语义角色标注的软件缺陷报告分派方法及装置
CN112149663A (zh) 结合rpa和ai的图像文字的提取方法、装置及电子设备
CN111191429A (zh) 数据表格自动填充的系统和方法
CN117648093A (zh) 基于大模型和自定制需求模板的rpa流程自动化生成方法
CN115982005A (zh) 基于人工智能的自动化测试方法和装置
CN115952298A (zh) 供应商履约风险分析方法及相关设备
Sun et al. Ui components recognition system based on image understanding
US10929159B2 (en) Automation tool
CN117435505B (zh) 一种性能测试脚本可视化生成方法
CN116932499B (zh) 一种dwg格式文件批量修改标注的方法
CN117520561A (zh) 直升机装配领域知识图谱构建的实体关系抽取方法及系统
CN112685374B (zh) 日志分类方法、装置及电子设备
CN113918165A (zh) 文字描述式流程说明编译为应用自动操作脚本方法及系统
CN114064157B (zh) 基于页面元素识别的自动化流程实现方法、系统、设备及介质
CN114066402B (zh) 一种基于文字识别的自动化流程实现方法及系统
US20230282013A1 (en) Automated key-value pair extraction
US11507728B2 (en) Click to document
US11693757B2 (en) Requirement gathering in process automation
US20230305863A1 (en) Self-Supervised System for Learning a User Interface Language
CN117786245A (zh) 一种基于机器人流程自动化的专利信息检索系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210813

RJ01 Rejection of invention patent application after publication