CN111814443A - 结合rpa和ai的表格生成方法及装置、计算设备、存储介质 - Google Patents
结合rpa和ai的表格生成方法及装置、计算设备、存储介质 Download PDFInfo
- Publication number
- CN111814443A CN111814443A CN202010706500.2A CN202010706500A CN111814443A CN 111814443 A CN111814443 A CN 111814443A CN 202010706500 A CN202010706500 A CN 202010706500A CN 111814443 A CN111814443 A CN 111814443A
- Authority
- CN
- China
- Prior art keywords
- row
- cells
- column
- data
- cell
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000004590 computer program Methods 0.000 claims description 13
- 238000013473 artificial intelligence Methods 0.000 description 24
- 238000010586 diagram Methods 0.000 description 6
- 238000004801 process automation Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Document Processing Apparatus (AREA)
Abstract
本说明书实施例公开一种结合RPA和AI的表格生成方法及装置、计算设备、存储介质。该方法包括:S1:获取表格识别结果的表格数据;S2:根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;S3:根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
Description
技术领域
本说明书涉及RPA领域,具体而言,涉及一种结合RPA和AI的表格生成方法及装置、计算设备、存储介质。
背景技术
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
RPA的具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI(Artificial Intelligence)技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Hand work+Head work,正在极大的改变劳动力的价值。
目前表格识别主要通过OCR识别直接获取,但OCR识别的表格结果无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题。
因此,为获取到原表格的表格内容以及表格格式,结合RPA和AI开发一种通过表格识别结果还原相同格式的可编辑表格文件的方法。
发明内容
本说明书实施例提供一种结合RPA和AI的表格生成方法及装置、计算设备、存储介质,用以克服现有技术中存在的至少一个技术问题。
根据本说明书实施例的第一方面,提供一种结合RPA和AI的表格生成方法,包括:
S1:获取表格识别结果的表格数据;
S2:根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
S3:根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
可选地,所述S1的具体步骤为:
S11:基于OCR识别,获取所述表格识别结果;
S12:从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。
可选地,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列,所述S2的具体步骤为:
S21:将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;
S22:将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;
S23:将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行;
S24:将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列。
可选地,所述S3的具体步骤为:
S31:根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;
S32:根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;
S33:记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;
S34:记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;
S35:将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;
S36:根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。
根据本说明书实施例的第一方面,提供一种结合RPA和AI的表格生成装置,包括:
数据模块,被配置为获取表格识别结果的表格数据;
位置模块,被配置为根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
表格模块,被配置为根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
可选地,所述数据模块包括:
识别单元,被配置为基于OCR识别,获取所述表格识别结果;
数据单元,被配置为从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。
可选地,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列,所述位置模块包括:
列数单元,被配置为将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;
行数单元,被配置为将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;
所属列单元,被配置为将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列;
所属行单元,被配置为将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行。
可选地,所述表格模块包括:
确定单元,被配置为根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;
生成单元,被配置为根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;
第一记录单元,被配置为记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;
第二记录单元,被配置为记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;
合并单元,被配置为将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;
表格单元,被配置为根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。
根据本说明书实施例的第三方面,提供一种计算设备,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算设备执行时实现所述结合RPA和AI的表格生成方法的步骤。
根据本说明书实施例的第四方面,提供一种存储介质,其存储有上述计算设备中所使用的计算机程序,该计算机程序被处理器执行时实现所述结合RPA和AI的表格生成方法的步骤。
本说明书实施例的有益效果如下:
本方法通过OCR识别获取表格识别结果,再从表格识别结果的数据格式中获取表格数组,在OCR进行表格识别过程中,只要表格的行列没有对齐,都会被识别成单独的行列,且将表格的中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据存储到对应的表格数据格式的表格数组中,可根据表格数据格式,直接获取对应的表格数组。表格数组包括多组表格数据,每组表格数据代表一个表格的数据。本方法通过表格数据获取对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,根据单元格所属的开始行、结束行、开始列、结束列,得到单元格在对应表格中的具体位置。本方法通过已获取到的单元格在对应表格中的具体位置,按照所属同一行单元格的列顺序,生成该行表格,当该行表格的单元格的列数等于表格的列数时,切换到该行表格的下一行,继续生成下一行的表格,直到生成整体表格。如果其中有些单元格是跨行单元格,则将跨越的单元格进行单元合并。按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,解决了现有技术中通过OCR识别无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题,提高了表格文件的识别准确率,提高了工作人员的工作效率。
本说明书实施例的创新点包括:
1、本方法通过已获取到的单元格在对应表格中的具体位置,按照所属同一行单元格的列顺序,生成该行表格,当该行表格的单元格的列数等于表格的列数时,切换到该行表格的下一行,继续生成下一行的表格,直到生成整体表格。如果其中有些单元格是跨行单元格,则将跨越的单元格进行单元合并。按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,解决了现有技术中通过OCR识别无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题,提高了表格文件的识别准确率,提高了工作人员的工作效率,是本说明书实施例的创新点之一。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍显而易见地下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成方法的应用场景图;
图2是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成方法的流程示意图;
图3是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成装置的模块示意图;
图4是示出了根据本说明书实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本说明书保护的范围。
需要说明的是,本说明书实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本说明书实施例公开了一种结合RPA和AI的表格生成方法及装置、计算设备、存储介质。以下分别进行详细说明。
机器人流程自动化(Robotic Process Automation)简称RPA,是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
人工智能(Artificial Intelligence,AI)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。
图1是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成方法的应用场景图。其中,表格生成是指将客户上传到服务器端的表格文件进行识别,并在前端生成与表格文件的表格格式相同的可编辑表格文件。如图1所示,客户将表格图片上传到服务器,服务器端通过OCR解析出表格的数据结构,获取到表格中每个单元格的开始行、结束行、开始列、结束列,并根据每个单元格的开始行、结束行、开始列、结束列,得到每个单元格的rowspan和colspan。然后服务器返回给前端表格图片的数据结构,数据结构中包括每个单元格的rowspan和colspan。在前端生成对应表格时,通过rowspan和colspan去设定单元格所跨多少行列,tr代表每一行,td为每一行内每一个单元格。通过生成一个rowReduce数组,该rowReduce数组长度为表格的列数,记录每一行的当前所被占用的列数,当该行格数等于表格列数时,证明该换行了。因此,根据服务器端返回的数据结构,通过前端代码生成一个可视化的与原表格格式相同的表格。
图2是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成方法的流程示意图。如图2所示,该方法具体包括以下步骤:
S210:获取表格识别结果的表格数据;
在一个具体实施例中,基于OCR识别,获取所述表格识别结果;从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。本实施例通过OCR识别获取表格识别结果,再从表格识别结果的数据格式中获取表格数组,在OCR进行表格识别过程中,只要表格的行列没有对齐,都会被识别成单独的行列,且将表格的中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据存储到对应的表格数据格式的表格数组中,可根据表格数据格式,直接获取对应的表格数组。表格数组包括多组表格数据,每组表格数据代表一个表格的数据。
S220:根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
在一个具体实施例中,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列。将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行;将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列。本实施例通过表格数据获取对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,根据单元格所属的开始行、结束行、开始列、结束列,得到单元格在对应表格中的具体位置。
S230:根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
在一个具体实施例中,根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。本实施例通过已获取到的单元格在对应表格中的具体位置,按照所属同一行单元格的列顺序,生成该行表格,当该行表格的单元格的列数等于表格的列数时,切换到该行表格的下一行,继续生成下一行的表格,直到生成整体表格。如果其中有些单元格是跨行单元格,则将跨越的单元格进行单元合并。按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,解决了现有技术中通过OCR识别无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题,提高了表格文件的识别准确率,提高了工作人员的工作效率。
在总的实施例中,在通过OCR识别获取表格结果后,从表格识别结果的数据格式中获取表格数组,在OCR进行表格识别过程中,只要表格的行列没有对齐,都会被识别成单独的行列,且将表格的中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据存储到对应的表格数据格式的表格数组中,可根据表格数据格式,直接获取对应的表格数组。表格数组包括多组表格数据,每组表格数据代表一个表格的数据。通过表格数据获取对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,根据单元格所属的开始行、结束行、开始列、结束列,得到单元格在对应表格中的具体位置。通过已获取到的单元格在对应表格中的具体位置,按照所属同一行单元格的列顺序,生成该行表格,当该行表格的单元格的列数等于表格的列数时,切换到该行表格的下一行,继续生成下一行的表格,直到生成整体表格。如果其中有些单元格是跨行单元格,则将跨越的单元格进行单元合并。按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,解决了现有技术中通过OCR识别无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题,提高了表格文件的识别准确率,提高了工作人员的工作效率。
图3是示出了根据本说明书实施例提供的一种结合RPA和AI的表格生成装置的模块示意图。如图3所示,本说明书实施例提供的一种结合RPA和AI的表格生成装置,可以包括:
数据模块310,被配置为获取表格识别结果的表格数据;
在一个具体实施例中,所述数据模块包括:
识别单元,被配置为基于OCR识别,获取所述表格识别结果;
数据单元,被配置为从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。
位置模块320,被配置为根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
在一个具体实施例中,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列,所述位置模块包括:
列数单元,被配置为将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;
行数单元,被配置为将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;
所属列单元,被配置为将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列;
所属行单元,被配置为将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行。
表格模块330,被配置为根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
在一个具体实施例中,所述表格模包括:
确定单元,被配置为根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;
生成单元,被配置为根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;
第一记录单元,被配置为记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;
第二记录单元,被配置为记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;
合并单元,被配置为将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;
表格单元,被配置为根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。
由上述内容可知,该装置通过OCR识别获取表格识别结果,再从表格识别结果的数据格式中获取表格数组,在OCR进行表格识别过程中,只要表格的行列没有对齐,都会被识别成单独的行列,且将表格的中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据存储到对应的表格数据格式的表格数组中,可根据表格数据格式,直接获取对应的表格数组。表格数组包括多组表格数据,每组表格数据代表一个表格的数据。该装置通过表格数据获取对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,根据单元格所属的开始行、结束行、开始列、结束列,得到单元格在对应表格中的具体位置。该装置通过已获取到的单元格在对应表格中的具体位置,按照所属同一行单元格的列顺序,生成该行表格,当该行表格的单元格的列数等于表格的列数时,切换到该行表格的下一行,继续生成下一行的表格,直到生成整体表格。如果其中有些单元格是跨行单元格,则将跨越的单元格进行单元合并。按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,解决了现有技术中通过OCR识别无法获取到原表格的格式,表格的行列会产生错乱,表格的内容发生改变,导致工作人员在后续使用到表格结果时,出现结果错误的问题,提高了表格文件的识别准确率,提高了工作人员的工作效率。
图4是示出了根据本说明书实施例提供的一种计算设备的结构示意图。如图4所示,提供计算设备400,包括存储设备410以及处理器420,所述存储设备410用于存储计算机程序,所述处理器420运行所述计算机程序以使所述计算设备400执行所述结合RPA和AI的表格生成方法的步骤。
本说明书实施例,提供一种存储介质,其存储有上述计算设备400中所使用的计算机程序,该计算机程序被处理器执行时实现所述结合RPA和AI的表格生成方法的步骤。
综上所述,本说明书实施例提供一种结合RPA和AI的表格生成方法及装置、计算设备、存储介质,通过已获取到的单元格在对应表格中的具体位置,按照行顺序依次生成完整的表格,将内容数据填入对应的单元格中,得到与原表格格式相同的可编辑表格文件,提高了表格文件的识别准确率。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本说明书所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本说明书的技术方案,而非对其限制;尽管参照前述实施例对本说明书进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本说明书实施例技术方案的精神和范围。
Claims (10)
1.一种结合RPA和AI的表格生成方法,其特征在于,包括:
S1:获取表格识别结果的表格数据;
S2:根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
S3:根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
2.根据权利要求1所述的方法,其特征在于,所述S1的具体步骤为:
S11:基于OCR识别,获取所述表格识别结果;
S12:从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。
3.根据权利要求2所述的方法,其特征在于,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列,所述S2的具体步骤为:
S21:将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;
S22:将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;
S23:将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行;
S24:将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列。
4.根据权利要求3所述的方法,其特征在于,所述S3的具体步骤为:
S31:根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;
S32:根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;
S33:记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;
S34:记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;
S35:将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;
S36:根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。
5.一种结合RPA和AI的表格生成装置,其特征在于,包括:
数据模块,被配置为获取表格识别结果的表格数据;
位置模块,被配置为根据所述表格数据,获取所述表格识别结果中每一单元格的行列位置;
表格模块,被配置为根据所述单元格的行列位置以及对应的单元格中的内容数据,生成可编辑表格文件。
6.根据权利要求5所述的装置,其特征在于,所述数据模块包括:
识别单元,被配置为基于OCR识别,获取所述表格识别结果;
数据单元,被配置为从所述表格识别结果的数据格式中获取表格数组;其中,所述表格数组的一个元素代表一组表格数据,一组表格数据代表一个表格的数据。
7.根据权利要求6所述的装置,其特征在于,所述表格数据包括对应表格中每个单元格所属的开始行、结束行、开始列、结束列以及每个单元格中的内容数据,其中,单元格的行列没有对齐就会被识别成单独的行列,所述位置模块包括:
列数单元,被配置为将所述表格数据中的最小开始列和最大结束列进行对比,得到所述表格数据对应的表格的列数;
行数单元,被配置为将所述表格数据中的最小开始行和最大结束行进行对比,得到所述表格数据对应的表格的行数;
所属列单元,被配置为将所述表格数据中的每个单元格的开始列和结束列进行对比,得到每个所述单元格的所属列;其中,所述单元格所属一列或跨越多列;
所属行单元,被配置为将所述表格数据中的每个单元格的开始行和结束行进行对比,得到每个所述单元格的所属行;其中,所述单元格所属一行或跨越多行。
8.根据权利要求7所述的装置,其特征在于,所述表格模块包括:
确定单元,被配置为根据每个所述单元格的所属行,确定所属同一行的单元格;其中,所属一行的单元格与跨越多行的单元格中的其中一行相同,确定两者所属同一行;
生成单元,被配置为根据所述所属同一行的单元格,获取该行单元格中每一单元格的所属列,并对应生成该行表格;
第一记录单元,被配置为记录该行单元格中每一单元格的所属列,当该行单元格中每一单元格的所属列的总和等于所述表格数据对应的表格的列数时,切换到该行单元格的下一行,继续生成下一行的表格;
第二记录单元,被配置为记录每行单元格的所属行,当每行单元格的所属行的总和等于所述表格数据对应的表格的行数时,生成整体表格;
合并单元,被配置为将跨越多行的单元格中的子单元格进行单元合并,得到对应的单元格,生成完整的表格;
表格单元,被配置为根据每个所述单元格的所属行和所属列,将所述单元格对应的内容数据填入所述完整的表格中,得到所述可编辑表格文件。
9.一种计算设备,其特征在于,包括存储设备以及处理器,所述存储设备用于存储计算机程序,所述处理器运行所述计算机程序以使所述计算设备执行根据权利要求1-4中任一项所述的方法的步骤。
10.一种存储介质,其特征在于,其存储有权利要求9所述的计算设备中所使用的计算机程序,该计算机程序被处理器执行时实现权利要求1-4中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706500.2A CN111814443A (zh) | 2020-07-21 | 2020-07-21 | 结合rpa和ai的表格生成方法及装置、计算设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010706500.2A CN111814443A (zh) | 2020-07-21 | 2020-07-21 | 结合rpa和ai的表格生成方法及装置、计算设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111814443A true CN111814443A (zh) | 2020-10-23 |
Family
ID=72861520
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010706500.2A Pending CN111814443A (zh) | 2020-07-21 | 2020-07-21 | 结合rpa和ai的表格生成方法及装置、计算设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111814443A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183511A (zh) * | 2020-12-01 | 2021-01-05 | 江西博微新技术有限公司 | 一种图像导出表格的方法、系统、存储介质及设备 |
CN113177397A (zh) * | 2021-04-21 | 2021-07-27 | 平安消费金融有限公司 | 表格的调整方法、装置、设备以及存储介质 |
CN115658778A (zh) * | 2022-07-27 | 2023-01-31 | 重庆忽米网络科技有限公司 | 用于可视化应用创建的基于Excel数据源的数据处理方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1128372A (zh) * | 1994-09-16 | 1996-08-07 | 国际商业机器公司 | 表中的剪贴方法与数据处理系统 |
CN105302788A (zh) * | 2015-11-10 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 用于编辑表格的方法及装置 |
US20160259770A1 (en) * | 2015-03-02 | 2016-09-08 | Canon Kabushiki Kaisha | Information processing system, server apparatus, control method, and storage medium |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN110399878A (zh) * | 2019-06-14 | 2019-11-01 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN111310426A (zh) * | 2020-01-22 | 2020-06-19 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
-
2020
- 2020-07-21 CN CN202010706500.2A patent/CN111814443A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1128372A (zh) * | 1994-09-16 | 1996-08-07 | 国际商业机器公司 | 表中的剪贴方法与数据处理系统 |
US20160259770A1 (en) * | 2015-03-02 | 2016-09-08 | Canon Kabushiki Kaisha | Information processing system, server apparatus, control method, and storage medium |
CN105302788A (zh) * | 2015-11-10 | 2016-02-03 | 百度在线网络技术(北京)有限公司 | 用于编辑表格的方法及装置 |
CN110399878A (zh) * | 2019-06-14 | 2019-11-01 | 南京火眼锐视信息科技有限公司 | 表格版式恢复方法,计算机可读介质以及计算机 |
CN110390269A (zh) * | 2019-06-26 | 2019-10-29 | 平安科技(深圳)有限公司 | Pdf文档表格提取方法、装置、设备及计算机可读存储介质 |
CN111310426A (zh) * | 2020-01-22 | 2020-06-19 | 平安科技(深圳)有限公司 | 基于ocr的表格版式恢复方法、装置及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183511A (zh) * | 2020-12-01 | 2021-01-05 | 江西博微新技术有限公司 | 一种图像导出表格的方法、系统、存储介质及设备 |
CN113177397A (zh) * | 2021-04-21 | 2021-07-27 | 平安消费金融有限公司 | 表格的调整方法、装置、设备以及存储介质 |
CN115658778A (zh) * | 2022-07-27 | 2023-01-31 | 重庆忽米网络科技有限公司 | 用于可视化应用创建的基于Excel数据源的数据处理方法 |
CN115658778B (zh) * | 2022-07-27 | 2023-09-12 | 重庆忽米网络科技有限公司 | 用于可视化应用创建的基于Excel数据源的数据处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814443A (zh) | 结合rpa和ai的表格生成方法及装置、计算设备、存储介质 | |
CN108805764B (zh) | 一种作业进度监控方法、装置、终端及可读介质 | |
CN109978356A (zh) | 标注任务分配方法、装置、介质和计算机设备 | |
CN108509591B (zh) | 信息问答交互方法及系统、存储介质、终端、智能知识库 | |
CN111917878A (zh) | 消息处理方法、装置、设备及存储介质 | |
CN116127899B (zh) | 芯片设计系统、方法、电子设备和存储介质 | |
CN111753846A (zh) | 一种基于rpa和ai的网站验证方法、装置、设备及存储介质 | |
CN105786693A (zh) | 一种自测试执行系统及方法以及移动终端 | |
CN112383734A (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN115858049A (zh) | Rpa流程组件化编排方法、装置、设备和介质 | |
US20120208152A1 (en) | Systems and Methods to Define and Monitor a Scenario of Conditions | |
CN110659348A (zh) | 一种基于知识推理的集团企业全域风险融合分析方法及系统 | |
CN114691903A (zh) | 一种智能课程测试方法及系统、电子设备、存储介质 | |
CN111176624B (zh) | 一种流式计算指标的生成方法及装置 | |
CN113160009A (zh) | 信息推送方法、相关装置、以及计算机介质 | |
CN111783391A (zh) | 一种在线人工文本标记系统及方法 | |
CN113553395A (zh) | 结合rpa和ai的信息方法、装置、设备及存储介质 | |
CN113778893B (zh) | 对话机器人测试用例生成方法、装置、设备及存储介质 | |
CN111369005A (zh) | 众包标记系统 | |
CN111950753A (zh) | 一种景区客流预测的方法及装置 | |
CN117056238B (zh) | 验证部署框架下模型转换正确性的方法及计算设备 | |
CN116108757B (zh) | 试训环境中多级仿真时间推进方法、服务器及存储介质 | |
CN116433082B (zh) | 一种评价报告的生成方法、装置、电子设备及存储介质 | |
Postolache et al. | Knowledge acquisition and structuring for diagnosis in complex virtual systems | |
CN114860824A (zh) | 数据传输方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |