CN116052193A

CN116052193A - Rpa界面动态表格的拾取和匹配方法及系统

Info

Publication number: CN116052193A
Application number: CN202310340292.2A
Authority: CN
Inventors: 朱天一
Original assignee: Hangzhou Real Intelligence Technology Co ltd
Current assignee: Hangzhou Real Intelligence Technology Co ltd
Priority date: 2023-04-03
Filing date: 2023-04-03
Publication date: 2023-05-02
Anticipated expiration: 2043-04-03
Also published as: CN116052193B

Abstract

本发明属于RPA技术领域，具体涉及RPA界面动态表格的拾取和匹配方法及系统。方法包括S1，输入图片，对图片进行特征提取，得到仅包含文字的图片，并序列化后输出为文本行内容；S2，对输入图片中的表格区域进行定位并判断表格有无线框；S3，通过不同方式将有线框表格和对无线框表格，输出为表格行列结构；S4，将文本行内容填入到表格行列结构中，输出可用表格结构文件。系统包括光学字符识别模块，流程控制模块，表格识别模块，文字表格适配模块。本发明具有综合应用RPA技术、OCR技术、表格识别技术和版面分析技术，以提供更高效的页面表格信息获取功能的特点。

Description

RPA界面动态表格的拾取和匹配方法及系统

技术领域

本发明属于RPA技术领域，具体涉及RPA界面动态表格的拾取和匹配方法及系统。

背景技术

随着我国政企数字化、智能化的转型，一种流程自动化技术RPA（Robotic ProcessAutoma-tion，机器人流程自动化）逐渐进入广大群众视野。RPA软件可以通过编辑器为大多数可执行、可重复的业务场景提供设计、配置自动执行的流程脚本并以软件机器人的形式部署到计算机业务系统上实现一定程度上的自动化生产替代人工的功能。RPA软件通过模拟人工在计算机上的操作如鼠标移动点击、键盘输入、打开网页文件等方式实现系统信息获取、分析、修改、分发，可以在标准化的业务流程中代替人工完成大量可重复性的工作，提高工作效率、降低人力成本，实现政企降本增效、数字智能化转型的需求。而软件表格则是RPA流程中十分常见的信息存取格式，亦是业务场景中实用可靠的工具。

传统RPA的技术通过调用软件API（Application Programming Interface, 应用程序接口）、解析网页布局CSS（Cascading Style Sheets, 层叠演示表）和JavaScript（一种开发网页页面的脚本语言）代码，来实现系统信息的获取，再通过按钮、输入框等界面元素实现信息的修改、交互。软件表格如EXCEL（一种由微软公司开发的办公电子制表软件）就可以通过传统RPA技术进行获取、操作，实现数据统计筛查等实用业务功能。

然而传统RPA的技术具有一定的局限性，在API接口不开放、无法解析源码的场景，如定制化办公软件、远程桌面等，便无法直接获取相关的系统信息仅能获取到界面截图。此时就需要使用AI（Artificial Intelligence，人工智能）计算机视觉技术来帮助实现传统RPA无法完成的任务。而类似场景的软件表格就需要用到计算机视觉相关的OCR（OpticalCharacter Recognition, 光学字符识别模块）技术、表格识别技术以及版面分析技术来实现智能表格定位与表格信息获取。

现有的RPA机器人表格定位拾取方式和相关技术存在以下缺点：

1.远程桌面、虚拟系统、定制化办公软件等场景下表格元素难以定位和分析；

2.单一模式的表格识别技术精度不足或适用场景范围较小；

3.常规OCR、表格识别技术只能获取静态图片的表格信息，无法应对表格结构、大小、位置的变化；

4.软件界面复杂干扰项多，影响表格区域定位；

5.常规表格识别系统复杂，系统资源占用高，运行速度慢；

基于上述问题，设计一种综合应用RPA技术、OCR技术、表格识别技术和版面分析技术，以提供更高效的页面表格信息获取功能的RPA界面动态表格的拾取和匹配方法及系统，就显得十分重要。

发明内容

本发明是为了克服现有技术中，传统RPA技术具有的局限性，在API接口不开放、无法解析源码的场景，无法直接获取相关的系统信息仅能获取到界面截图以及无法实现智能表格定位与表格信息获取的问题，提供了一种综合应用RPA技术、OCR技术、表格识别技术和版面分析技术，以提供更高效的页面表格信息获取功能的RPA界面动态表格的拾取和匹配方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

RPA界面动态表格的拾取和匹配方法，包括如下步骤；

S1，输入图片，对图片进行特征提取，对图片中文字所处的位置、大小、方向信息进行检测，得到仅包含文字的图片，并将仅包含文字的图片序列化并输出为文本行内容；

S2，对输入图片中的表格区域进行定位并判断表格有无线框；

S3，将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构；对无线框表格，将无线框表格中的内容信息进行行列分组获得表格行列结构，并根据表格行列结构画出虚拟表格线，得到最终的表格行列结构；

S4，将步骤S1中所述文本行内容填入到步骤S3获得的表格行列结构中，输出可用表格结构文件。

作为优选，步骤S1包括如下步骤：

S11，通过卷积神经网络提取图片特征，并将图片中文字所在处的特征与非文字区域的背景特征区分开，通过是/非文字区域的掩膜图实现对训练数据的标准化标注以及完成OCR检测识别模型的训练过程；

S12，通过卷积神经网络提取图片特征，并使用循环神经网络将仅包含文字的图片序列化，并利用联接时序分类的方式对序列化的仅包含文字的图片进行解码，得到最终的文本行内容。

作为优选，步骤S2包括如下步骤：

S21，通过目标检测或图像分割将输入图片中的标题、正文、插图、表格的不同区域划分出来并赋予标签，并对输入图片中的表格区域进行定位；

S22，使用锚点来进行辅助定位：

将表格第一行作为表头锚点，表格周边最近的若干元素作为辅助定位锚点；在RPA流程执行过程中先对全局进行锚点匹配，剔除掉异常锚点后，在多数锚点能够匹配到的情况下通过各个锚点预存的目标表格相对位置进行判断，并确定目标表格所处的区块；最后进行表头字段锚点的一对一匹配，并获得表格区域。

作为优选，当步骤S2过程执行异常时，通过软件窗口信息在对应窗口的原始相对坐标进行掩码截图；

所述软件窗口信息包括窗口缩放比、屏幕分辨率。

作为优选，步骤S3包括如下步骤：

S31，针对有线框表格，通过两个unet编解码结构并联，对有线框表格的横竖框线进行提取，并通过计算机视觉图像处理技术对表格线框检测模型的输出结构进行残缺补齐和过滤无效线条，最终得到目标图片区域中有线框表格的完整框线结构，再采用图像联通域算法得到有线框表格中每一个单元格的具体位置和大小；

S32，对无线框表格，使用yolov4目标检测模型检测每一个单元格，再使用GNN网络对于单元格行列排布进行初步预测，最终通过计算机视觉投影切分的方法对GNN网络获得的初步预测结果进行修正，得到每个单元格行列位置信息，并组合成为最终的表格输出结果；

其中，所述通过计算机视觉投影切分的方法对GNN网络获得的初步预测结果进行修正的过程如下：

将每一行或列的单元格位置区域绘制到纯色背景图上做横或竖向投影；

根据投影分布计算行或列中心位置以及有效宽度；

将不符合设定要求的单元格剔除出去，添加符合设定要求的行或列区间的单元格。

作为优选，步骤S4包括如下步骤：

S41，通过切分OCR文本行的方式将每个单元格与每个单元格中相对应的文字内容关联起来，获得完整的表格结构信息。

本发明还提供了RPA界面动态表格的拾取和匹配系统，包括：

光学字符识别模块，用于输入图片，对图片进行特征提取，对图片中文字所处的位置、大小、方向信息进行检测，得到仅包含文字的图片，并将仅包含文字的图片序列化并输出为文本行内容；

流程控制模块，用于对输入图片中的表格区域进行定位并判断表格有无线框；

表格识别模块，用于将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构；对无线框表格，将无线框表格中的内容信息进行行列分组获得表格行列结构，并根据表格行列结构画出虚拟表格线，得到最终的表格行列结构；

文字表格适配模块，用于将文本行内容填入到最终获得的表格行列结构中，输出可用表格结构文件。

作为优选，所述光学字符识别模块包括：

文字检测模块，用于输入图片，对图片进行特征提取，对图片中文字所处的位置、大小、方向信息进行检测，得到仅包含文字的图片；

文字识别模块，用于将仅包含文字的图片序列化并输出为文本行内容。

作为优选，所述表格识别模块包括；

有线框表格识别模块，用于将有线框表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构；

非线框表格识别模块，用于对无线框表格，将无线框表格中的内容信息进行行列分组获得表格行列结构，并根据表格行列结构画出虚拟表格线，得到最终的表格行列结构。

作为优选，所述表格识别模块还包括：

基于传统计算机视觉技术的表格识别模块，用于对有线框表格结构进行残缺补齐和过滤无效线条以及用于对虚拟表格线查漏补缺。

本发明与现有技术相比，有益效果是：（1）本发明独创性地将OCR、表格识别、版面分析、传统图像处理等技术与RPA表格元素定位拾取相结合。首先对定制化软件、远程桌面、虚拟系统等传统RPA技术拾取元素困难的场景采用OCR、表格识别等技术实现无差别、无障碍的界面表格拾取能力；其次针对常规OCR、表格识别技术对于有无线框表格的识别能力、范围、精度不足或不够全面的问题开发了有线框和无线框识别相融合，实现多策略、并行的页面表格高效拾取系统；同时，对于RPA流程中目标表格的大小、位置、结构发生变化的场景采用了版面分析技术，辅以锚点定位的方式，可以大幅缩减表格区域搜索范围，提高表格识别准确度、实现动态的表格拾取和识别；最后采用了深度学习模型轻量化技术，多模块并发执行的方案，解决了系统、相关技术资源消耗大、运行速度慢的问题；（2）通过本发明技术方案，可以实现RPA在全场景下的快速、准确的表格定位与拾取。

附图说明

图1为本发明RPA界面动态表格的拾取和匹配方法的一种流程图；

图2为本发明中对表格定位和表格线框判断过程的一种流程图；

图3为本发明中对表格进行残缺补齐和过滤无效线条的一种示意图；

图4为本发明中GNN网络的一种结构示意图；

图5为本发明中无线框表格处理的一种流程图；

图6为本发明实施例所提供的以RPA机器人拾取某电商软件数据表为例进行RPA界面动态表格的拾取和匹配方法的一种流程图；

图7为对表格进行表头锚点匹配的一种示意图；

图8为对某电商软件数据表区域执行表格线检测的一种结果示意图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

如图1所示，本发明提供了RPA界面动态表格的拾取和匹配方法，包括如下步骤；

进一步的，步骤S1包括如下步骤：

本发明的所采用的文字检测技术是一种基于图像分割的AI深度学习技术。此外，为了减少系统的资源开销以及降低耗时，本发明采用了轻量化模型技术，缩小了模型网络结构，降低了模型推理时间和系统内存占用。

传统的文字识别技术是将字符单独切分出来后进行字符分类，而本发明采用的是基于深度学习的文字识别方法。为了减少系统的资源开销以及降低耗时，本发明同样使用了更轻量化的深度神经网络结构，减少模型推理时间。

进一步的，步骤S2包括如下步骤：

S22，使用锚点来进行辅助定位：

版面分析是一种人工智能深度学习的应用，在文档等图像中通过目标检测或图像分割的技术将标题、正文、插图、表格等不同区域划分出来并赋予其合适的标签。在本发明中，将版面分析技术应用于软件及网页场景，可以有效的将界面干扰元素排除，缩小目标表格的检索范围。本发明采用基于深度学习的图像实例分割技术LayoutLM来实现版面分析。LayoutLM是一项融合图像、文字信息、文字布局等特征的多模态信息提取技术，通过在文档场景的大规模预训练，其在一些下游任务中取得了新的高水平结果，包括表格理解、票据解析、文本分类等。而本发明中在其基础上进行场景迁移，完成了软件界面场景的文字图标布局预训练。本发明将软件界面按不同的功能区块划分为各个搜索空间，RPA执行流程中会优先对于标签为表格的区块进行搜索从而实现目标表格匹配精度以及运行效率的提升。

同时，本发明还使用自动锚点匹配来进行辅助定位，在RPA流程编辑中通过表格拾取功能划选目标表格区域，本系统会将表格第一行作为表头锚点，表格周边最近的若干元素作为辅助定位锚点。在RPA流程执行过程中首先对全局进行锚点匹配，剔除掉异常锚点后多数锚点能够匹配到的情况下通过各锚点预存的目标表格相对位置进行判断，确定目标表格所处的区块。最后进行表头字段锚点一对一匹配获得精确的表格区域，此项技术可以对于形态、大小发生变化的表格进行配准。

在以上方法均执行异常的情况下会通过软件窗口信息在该窗口的原始相对坐标进行掩码截图，可以保证绝大多数场景的表格匹配准确度，所述软件窗口信息包括窗口缩放比、屏幕分辨率。具体流程如图2所示，首先对页面做版面分析和锚点匹配，并在异常的情况下使用原坐标区域进行表格区域定位，最后执行表格解析过程。

进一步的，步骤S3包括如下步骤：

有线框表格识别是指对图像中表格的可见单元格边框进行检测解析、并将框线结构转化为表格行列结构的技术。本发明采用基于深度学习图像分割的技术UNet-cascade进行图像中表格横竖框线的提取。通过两个基础unet编解码结构并联可以将图像表征进一步的加强，从而得到更加稳定、连续的表格线分割特征图。其中在经过第一层unet结构时可以依据特征分布得到目标区域的边界，进行特征图分割从而降低资源占用、提高运行速度，同时也能对表格目标区域做进一步的细粒度分割修正，提高后续流程的准确度。

再通过传统计算机视觉图像处理技术对深度模型的输出结构进行残缺补齐、过滤无效线条等操作，最终得到目标图像区域中表格的完整框线结构，最后采用计算机视觉中图像联通域算法得到每一个单元格的具体位置、大小。如图3所示，对于边界缺失或是因图像质量问题导致的表格线特征断连，本发明会通过霍夫变换直线检测、形态学开闭操作将断连直线进行修补，再通过表格横竖线的边界差异推测表格真实边界是否缺失并补齐。

其中，如图5所示，通过计算机视觉投影切分的方法对GNN网络获得的初步预测结果进行修正的过程如下：

根据投影分布计算行或列中心位置以及有效宽度；

线框无关的表格识别技术是指忽略图像中的表格框线，仅依靠表格内单元格内容排布、单元格之间的邻接关系，实现对任意表格图像识别的方案，可以应用于有线框表格以及无线框表格，但现有技术在有线框表格的场景下往往精度会低于基于表格线的有线框表格识别技术，因此本发明中主要应用于无线框表格识别。在本发明中，对于预判为无线框的表格采用了基于深度学习图神经网络与传统计算机视觉图像处理技术相结合的方法，即使用yolov4检测每一个单元格，再使用如图4所示的GNN网络对单元格行列排布进行初步预测，最终通过传统计算机视觉投影切分的方法对GNN网络的结果进行修正，得到每个单元格行列位置信息，组合成为最终的表格输出结果。

进一步的，步骤S4包括如下步骤：

S41，基于最大IOU（交并比）配准，并以表格结构为准，通过切分OCR文本行的方式将每个单元格与每个单元格中相对应的文字内容关联起来，获得完整的表格结构信息。

文字表格适配是指表格结构通过上述技术获取到后，需要将OCR技术得到的文本信息填入到对应的表格结构中，最终输出计算机可存取、可操作的数据结构如EXCEL文件。

本发明还提供了RPA界面动态表格的拾取和匹配系统，包括：

进一步的，所述光学字符识别模块包括：

进一步的，所述表格识别模块包括；

进一步的，所述表格识别模块还包括：

基于本发明的技术方案，在具体实施和操作过程中，以RPA机器人拾取某电商软件货品品牌数据表说明本发明具体实施流程。

如图6所示，具体实施流程如下：

1.首先输入待解析的标准页面图片，以某电商软件的货品品牌数据表为例，需要对其表格区域进行人工框选目标表格区域，同时对全图并行执行OCR流程，即检测文字区域再执行文本识别得到图像中文本的位置与内容。

2.对选定的表格区域收集保存周边锚点、表头锚点。

RPA流程执行阶段：

3.与步骤1一致，全图执行OCR处理，得到页面上所有文字及其坐标。

4.对整个页面执行版面分析处理，得到页面各功能区域的位置信息，位置信息包括菜单栏、显示区、表格1、表格2以及其他区块。

5.筛选出RPA流程编辑阶段所存储的定位锚点一致的文字内容后定位目标表格所在的区块。

6.在定位到的区块内部进行表头锚点匹配，如图7所示，图7中上半部分为目标表格所在区块的局部区域，图7中下半部分为进行表头锚点匹配后，与图7上半部分对应的局部区域图，显然通过表头锚点匹配，得到了准确的表格区域边界，即图7中下半部分用虚线框框住的区域，同时将此区域分割出来。

7.对确定的表格区域执行表格线检测，如图8所示，得到了目标表格线框，即某电商软件的货品品牌数据表的线框。

8.如果目标表格图像存在完整线框则执行有线框表格识别流程，若不存在线框或线框不全，则进入无线框表格识别流程。

9.若表格识别模块出现异常则通过掩码分割出原表所在区域截图重复步骤7、8以保证系统稳定，减少匹配错误带来的风险。

10.尝试对表格识别流程的结果进行格式转换，得到完整的单元格列表。

11.将OCR结果与表格单元格列表输入文字表格适配模块，执行该流程完成将文字填入相应的单元格的功能，得到计算机可存取、可操作的表格数据格式。

12.根据业务逻辑对表格数据进行存取、删改等操作。

本发明独创性的提出一种结合OCR、多种表格识别技术、版面分析技术以及传统图像处理和深度表格识别模型相结合的动态表格拾取和还原方法，用以解决现有RPA上表格识别技术难以覆盖的动态表格场景和容易匹配失准的问题。

本发明的创新点如下：

1.本发明创新性的结合多种计算机视觉技术将有线框表格和无线框表格处理流程相结合，采用结合目标检测+图神经网络+传统图像投影切分的方法实现软件界面的无线框表格识别用以快速高效解决任意格式表格图像的表格识别；

2.本发明在表格定位过程中采用版面分析对页面进行分区从而排除掉复杂的页面干扰信息，得到相对精确的表格区域；

3.流程运行过程中的表格重新配准采用了自动锚点匹配技术，结合屏幕分辨率、窗口缩放比等信息的方式，在RPA流程编辑过程中自动提取相应的定位锚点以及表头锚点，在RPA流程执行过程中将锚点进行一对一精确匹配从而获取到可能发生动态变化的表格的实际状态。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.RPA界面动态表格的拾取和匹配方法，其特征在于，包括如下步骤；

2.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法，其特征在于，步骤S1包括如下步骤：

3.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法，其特征在于，步骤S2包括如下步骤：

S22，使用锚点来进行辅助定位：

4.根据权利要求3所述的RPA界面动态表格的拾取和匹配方法，其特征在于，当步骤S2过程执行异常时，通过软件窗口信息在对应窗口的原始相对坐标进行掩码截图；

所述软件窗口信息包括窗口缩放比、屏幕分辨率。

5.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法，其特征在于，步骤S3包括如下步骤：

根据投影分布计算行或列中心位置以及有效宽度；

6.根据权利要求1所述的RPA界面动态表格的拾取和匹配方法，其特征在于，步骤S4包括如下步骤：

7.RPA界面动态表格的拾取和匹配系统，用于实现权利要求1-6任一项所述的RPA界面动态表格的拾取和匹配方法，其特征在于，所述RPA界面动态表格的拾取和匹配系统包括：

8.根据权利要求7所述的RPA界面动态表格的拾取和匹配系统，其特征在于，所述光学字符识别模块包括：

9.根据权利要求7所述的RPA界面动态表格的拾取和匹配系统，其特征在于，所述表格识别模块包括：

10.根据权利要求7所述的RPA界面动态表格的拾取和匹配系统，其特征在于，所述表格识别模块还包括：