CN113836096A - 基于rpa和ai的文件比对方法、装置、设备、介质及系统 - Google Patents
基于rpa和ai的文件比对方法、装置、设备、介质及系统 Download PDFInfo
- Publication number
- CN113836096A CN113836096A CN202111136129.1A CN202111136129A CN113836096A CN 113836096 A CN113836096 A CN 113836096A CN 202111136129 A CN202111136129 A CN 202111136129A CN 113836096 A CN113836096 A CN 113836096A
- Authority
- CN
- China
- Prior art keywords
- comparison
- file
- text
- page
- client
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 78
- 230000001960 triggered effect Effects 0.000 claims abstract description 20
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 13
- 238000012015 optical character recognition Methods 0.000 claims description 33
- 238000012986 modification Methods 0.000 claims description 22
- 230000004048 modification Effects 0.000 claims description 22
- 238000012217 deletion Methods 0.000 claims description 14
- 230000037430 deletion Effects 0.000 claims description 14
- 238000004801 process automation Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 4
- 238000013473 artificial intelligence Methods 0.000 description 33
- 238000005516 engineering process Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 6
- 238000012795 verification Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开一种基于RPA和AI的文件比对方法、装置、设备、介质及系统。方法包括:S1、服务器获取客户端发送的参考文件和比对文件,所述参考文件和所述比对文件为RPA机器人触发所述客户端发送的文件;S2、获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;S3、将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;S4、利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;S5、根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
Description
技术领域
本发明实施例涉及流程自动化技术领域,具体而言,涉及一种基于RPA和AI的文件比对方法、装置、设备、介质及系统。
背景技术
RPA(Robotic Process Automation,机器人流程自动化),是通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。
AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。
RPA具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA+AI=Hand work+Head work,正在极大的改变劳动力的价值。
在日常工作中,常常需要对两个版本的合同、法条等文件进行比对,以确定新产生的文件相对于原始文件发生了哪些变化。然而,目前在进行文件比对时,需要人工获取待比对的两个文件,然后进行人工比对和人工标记差异性。当需要比对的文件较多或者待对比文件页数较多时,就需要工作人员做重复性高、价值低的文件比对劳动,从而占用大量工作时间,工作效率较低。
发明内容
本发明实施例提供一种基于RPA和AI的文件比对方法、装置、设备、介质及系统,能够自动化实现文件比对工作,从而不仅可以省去人力,还可以提高文件比对的效率。
第一方面,本发明实施提供了一种基于RPA和AI的文件比对方法,所述方法应用于服务器,所述方法包括:
S1、获取客户端发送的参考文件和比对文件,所述参考文件和/或所述比对文件为多页文件,所述参考文件和所述比对文件为RPA机器人触发所述客户端发送的文件;
S2、获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;
S3、将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;
S4、利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;
S5、根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
可选的,所述S4包括:
S401、按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果;
S402、针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。
可选的,所述S5包括:
S501、若所述差异性比对结果包括内容删除,则对所述参考文件中被所述比对文件删除的文本内容添加差异性标记;
S502、若所述差异性比对结果包括内容增加,则对所述比对文件中相对于所述参考文件增加的文本内容添加差异性标记;
S503、若所述差异性比对结果包括内容修改时,则对所述参考文件中修改前的文本内容和所述比对文件中修改后的文本内容分别添加差异性标记。
可选的,所述S2包括:
利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
可选的,在所述S2之前,所述方法还包括:
S6、对所述客户端的用户信息进行鉴权;
S7、若鉴权通过,则将所述参考文件和所述比对文件的文件格式转换为光学字符识别OCR能够识别的格式;
S8、将针对所述参考文件和所述比对文件的比对任务添加到比对任务队列中,并将所述比对任务和所述比对任务的任务状态记录到任务数据库中;
S9、从所述比对任务队列中获取所述比对任务;
所述方法还包括:
S10、当所述比对任务的任务状态发生变化时,更新所述任务数据库中所述比对任务的任务状态。
可选的,所述方法还包括:
S11、当接收所述RPA机器人触发所述客户端发送的比对结果查询指令时,将包含差异性标记的参考文件和/或比对文件反馈给所述客户端;
S12、当接收所述RPA机器人触发所述客户端发送的比对任务状态查询指令时,从所述任务数据库中查询所述比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。
第二方面,本发明实施例还提供了一种基于RPA和AI的文件比对方法,所述方法应用于RPA机器人,所述方法包括:
S13、登录客户端,并将参考文件和比对文件上传至所述客户端,所述参考文件和/或所述比对文件为多页文件;
S14、触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
可选的,所述方法还包括:
S15、触发所述客户端向所述服务器发送比对结果查询指令,以使得所述服务器向所述客户端反馈包含差异性标记的参考文件和/或比对文件。
和/或,S16、触发所述客户端向所述服务器发送比对任务状态查询指令,以使得所述服务器向所述客户端反馈比对任务的任务状态。
第三方面,本发明实施例提供了一种基于RPA和AI的文件比对装置,所述装置应用于服务器,所述装置包括:
文件获取单元,用于获取客户端发送的参考文件和比对文件,所述参考文件和/或所述比对文件为多页文件,所述参考文件和所述比对文件为RPA机器人触发所述客户端发送的文件;
文本获取单元,用于获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;
拼接单元,用于将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;
比对单元,用于利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;
标记单元,用于根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
可选的,所述比对单元包括:
比对模块,用于按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果;
合并模块,用于针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。
可选的,所述标记单元包括:
第一标记添加模块,用于若所述差异性比对结果包括内容删除,则对所述参考文件中被所述比对文件删除的文本内容添加差异性标记;
第二标记添加模块,用于若所述差异性比对结果包括内容增加,则对所述比对文件中相对于所述参考文件增加的文本内容添加差异性标记;
第三标记添加模块,用于若所述差异性比对结果包括内容修改时,则对所述参考文件中修改前的文本内容和所述比对文件中修改后的文本内容分别添加差异性标记。
可选的,文本获取单元,用于利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
可选的,所述装置还包括:
鉴权单元,用于在获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本之前,对所述客户端的用户信息进行鉴权;
格式转换单元,用于若鉴权通过,则将所述参考文件和所述比对文件的文件格式转换为光学字符识别OCR能够识别的格式;
任务添加单元,用于将针对所述参考文件和所述比对文件的比对任务添加到比对任务队列中,并将所述比对任务和所述比对任务的任务状态记录到任务数据库中;
任务获取单元,用于从所述比对任务队列中获取所述比对任务;
更新单元,用于当所述比对任务的任务状态发生变化时,更新所述任务数据库中所述比对任务的任务状态。
可选的,所述装置还包括:
反馈单元,用于当接收所述RPA机器人触发所述客户端发送的比对结果查询指令时,将包含差异性标记的参考文件和/或比对文件反馈给所述客户端;当接收所述RPA机器人触发所述客户端发送的比对任务状态查询指令时,从所述任务数据库中查询所述比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。
第四方面,本发明实施例提供了一种一种基于RPA和AI的文件比对装置,所述装置应用于RPA机器人,所述装置包括:
登录上传单元,用于登录客户端,并将参考文件和比对文件上传至所述客户端,所述参考文件和/或所述比对文件为多页文件;
触发发送单元,用于触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
可选的,所述触发发送单元,还用于触发所述客户端向所述服务器发送比对结果查询指令,以使得所述服务器向所述客户端反馈包含差异性标记的参考文件和/或比对文件;和/或,触发所述客户端向所述服务器发送比对任务状态查询指令,以使得所述服务器向所述客户端反馈比对任务的任务状态。
第五方面,本发明实施例还提供了一种计算设备,所述计算设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述计算设备为服务器时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法;
当所述计算设备为终端时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第二方面所述的方法。
第六方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面或第二方面所述的方法。
第七方面,本发明实施例还提供了一种基于RPA和AI的文件比对系统,所述系统包括RPA机器人、客户端和服务器;
所述RPA机器人,用于登录所述客户端,并将参考文件和比对文件上传至所述客户端,触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对,所述参考文件和/或所述比对文件为多页文件;
所述服务器,用于获取所述客户端发送的所述参考文件和所述比对文件;获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
本发明实施例提供的基于RPA和AI的文件比对方法、装置、设备、介质及系统,能够通过RPA机器人自动登录客户端并触发客户端向服务器发送参考文件和比对文件,当服务器获取到参考文件和比对文件后,可以先从参考文件和比对文件中分别获取至少一页文本,并将参考文件的至少一页文本拼接为上下文连续的一页文本(可称为参考文本),将比对文件的至少一页文本拼接为上下文连续的一页文本(可称为比对文本),然后利用预设比对算法对参考文本和比对文本进行差异性比对,最后根据差异性比对结果对参考文件和/或比对文件进行差异性标记。由此可知,与现有技术中需要人工获取文件、比对文件,并进行人工标记差异性相比,本发明实施例不仅能够利用RPA机器人自动触发客户端发送两个待比对的文件给服务器进行自动比对,还可以由服务器自动标记差异性,从而不仅可以节省人力,让原本需要做文件比对的人员有时间去做更有价值的工作,还可以提高文件比对的效率。此外,由于本发明实施例将差异性标记添加到参考文件和/或比对文件当中,而不是在或者仅仅在独立于参考文件和比对文件的第三方区域描述差异性,从而可以提高差异性标记的可读性。在获取参考文件和比对文件的文本内容时,可以通过OCR技术自动识别出两个文件中的文本内容,而无需人工获取,从而可以提高文件比对的效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于RPA和AI的文件比对方法的流程图;
图2是本发明实施例提供的另一种基于RPA和AI的文件比对方法的流程图;
图3是本发明实施例提供的一种文件差异性比对结果的示例图;
图4是本发明实施例提供的一种基于RPA和AI的文件比对装置的组成框图;
图5是本发明实施例提供的另一种基于RPA和AI的文件比对装置的组成框图;
图6是本发明实施例提供的一种基于RPA和AI的文件比对系统架构图;
图7是本发明实施例提供的另一种基于RPA和AI的文件比对系统架构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在日常工作中,常常需要人工对不同版本的文件进行差异性比对,该工作不仅重复性强、难度低,还十分消耗时间,进而导致公司对自动化比对文件的需求越来越急迫。而RPA(Robotic Process Automation,机器人流程自动化)技术可以通过用户使用界面,智能理解所在电子设备的已有应用,将重复的、基于规则、大批量的常规操作自动化,如自动重复读取邮件、读取Office组件、操作数据库及网页、客户端软件等,采集数据并进行繁琐的计算,并批量生成所需的文件和报告,从而通过RPA技术能够大幅降低人力成本的投入,有效提高办公效率。AI(Artificial Intelligence,人工智能)技术可以突破固定规则,模拟人的思维、意识来自动化处理一些更复杂的应用场景。基于此,本发明实施例提供了一种结合RPA和AI两种技术来自动化比对文件,从而不仅可以省去人力,还可以提高文件比对的效率。
下面对本发明实施例进行详细说明。
在本发明实施例的描述中,术语“参考文件”是指在进行差异性比对时,被作为参考依据的文件,“比对文件”是指被比对的两个文件中除了作为参考依据以外的文件,在实际应用中,参考文件的版本往往低于比对文件,参考文件和比对文件可以为任何领域的文件,比如可以为合同文件、金融类文件、程序文件等。
在本发明实施例的描述中,术语“多页文件”是指大于或者等于两页文本内容的文件。
在本发明实施例的描述中,术语“OCR”是指光学字符识别(Optical CharacterRecognition),具体是指电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。在本发明实施例中,可以基于RPA机器人利用OCR技术将纸质文档中的文字转换成为黑白点阵的图像文件,再由服务器利用OCR技术从图像文件中识别出图像文件中包含的文本内容,也可以基于RPA机器人利用OCR技术从纸质文档中获取文本内容,生成包含文本内容的文本文件(即一种可编辑文件),再由服务器直接从文本文件中提取文本内容。
在本发明实施例的描述中,术语“客户端”是具有文件比对需求的业务系统前端,“服务器”是指具有文件比对需求的业务系统后端。“客户端”可以为业务系统对应的应用软件,也可以为浏览器,以便RPA机器人通过浏览器访问业务系统的网站。术语“RPA机器人”可以集成在客户端中,也可以以插件等形式嵌入客户端中,也可以与客户端相互独立,只要RPA机器人能够自动化访问客户端即可,本发明实施例对RPA机器人的具体形式不做限定。
在本发明实施例的描述中,术语“NLP”是指自然语言处理(Natural LanguageProcessing),其以语言为对象,利用计算机技术来分析、理解和处理自然语言的一门学科,即把计算机作为语言研究的强大工具,在计算机的支持下对语言信息进行定量化的研究,并提供可供人与计算机之间能共同使用的语言描写。
在本发明实施例的描述中,术语“拼接”是指将待拼接的文本连接在一起,而不改变文本内容。即可以在保留原有文本内容排列顺序的基础上,让多页文本内容无缝衔接。
在本发明实施例的描述中,术语“预设比对算法”是指确定比对文本相对于参考文本所存在差异的具体比对方法,可以按照预设比对单元对参考文本和比对文本分批次进行比对,直至比对完成,具体比对过程可参见S130的详解。其中,术语“预设比对单元”是指每次被比对的文本的大小,具体可以根据实际情况而定,可以为一个词组、一个句子或一个段落等。
在本发明实施例的描述中,术语“差异性比对”是指对比参考文本和比对文本之间存在哪些差异。术语“差异性比对结果”是指在将参考文本和比对文本进行差异性比对后,获得包含多个比对子结果,每个比对子结果包括差异类型和差异类型对应差异内容,差异类型包括内容相同、内容增加、内容删除和内容修改。术语“差异性标记”是一种能够突显出参考文件和比对文件具体存在哪些差异的标记,差异性标记包括不限于以下一种或多种的组合:加粗字体、更换字体颜色、增加字体底色、加亮字体、增大字体、更换为斜体、增加下划线等。
在本发明实施的描述中,术语“鉴权”是指验证发送参考文件和比对文件的客户端是否具有进行文件比对的权限,具体可以通过验证客户端的用户信息是否满足该权限要求来实现鉴权。
图1是本发明实施例提供的一种基于RPA和AI的文件比对方法,该方法主要应用于服务器,具体包括:
S100、获取客户端发送的参考文件和比对文件。
其中,所述参考文件和/或所述比对文件为多页文件,即参考文件和比对文件中至少有一个是多页文件。所述参考文件和所述比对文件为RPA机器人触发所述客户端发送的文件,即由PRA机器人先登录客户端,再在对应页面触发客户端发送参考文件和比对文件。RPA机器人触发所述客户端向服务器发送参考文件和比对文件的具体实现方式可以参见下述以RPA机器人为执行主体的方法实施例,在此不再赘述。
可选的,服务器获取到客户端发送的参考文件和比对文件后,可以先对客户端的用户信息进行鉴权,以验证用户是否具有文件比对权限;若鉴权通过,则将所述参考文件和所述比对文件的文件格式转换为OCR能够识别的格式,将针对所述参考文件和所述比对文件的比对任务添加到比对任务队列中,并将所述比对任务和所述比对任务的任务状态记录到任务数据库中,以便后续从所述比对任务队列中获取所述比对任务,并执行所述比对任务,实现对所述比对任务中待比对的参考文件和比对文件进行差异性比对;若鉴权未通过,则服务器不会对参考文件和比对文件进行差异性比对,并且可以向客户端反馈没有比对权限的提醒信息。
其中,用户信息可以为客户端账号,可以为与该客户端账号绑定的手机号,还可以为用户等级或者其他信息,本发明实施对用户信息的具体内容不做限定,可以根据具体情况而定。对用户信息鉴权的方法可以有多种,包含但不限于以下两种:(1)将该用户信息与具有权限的用户列表进行匹配,若匹配成功,则确定该用户信息对应的用户有权限,即鉴权通过,若匹配失败,则确定该用户信息对应的用户没有权限,即鉴权失败;(2)判断该用户信息中的用户等级是否超过预设等级,若超过预设等级,则鉴权通过,若未超过预设等级,则鉴权失败。
OCR能够识别的格式包括但不限于图像格式、pdf格式等,当参考文件和/或比对文件不是OCR能够识别的格式时,可以将参考文件和/或比对文件转换为OCR能够识别的格式,以便后续可以利用OCR识别出参考文件和/或比对文件中的文本内容,例如当参考文件和/或比对文件为docx格式时,可以将docx格式转换成pdf格式。
当所述比对任务的任务状态发生变化时,服务器可以更新所述任务数据库中所述比对任务的任务状态。当比对任务未被执行时,任务状态可以是未处理,当比对任务正在被执行时,任务状态可以是处理中,当比对任务执行完成时(即已进行差异性标记),任务状态可以为已完成。
S110、获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
在S100中提及,可以将参考文件和比对文件的文件格式转换为OCR能够识别的格式,所以本步骤可以利用OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
S120、将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本。
在实际应用中,若直接将参考文件的至少一页文本与比对文件的至少一页文本进行单页比对,即将参考文件的第N页与比对文件的第N页进行比对,而不关注各页之间的关联关系,则很容易发生比对结果不准确的情况。例如,参考文件包括两页文本,比对文件在参考文件的第一页文本和第二页文本之间添加了一页文本,从而构成三页文本,若采用单页比对的方法对这两个文件进行比对,则比对结果为参考文件第二页文本与比对文件的第二页文本内容不同,参考文件没有第三页文本,使得比对结果为比对文件的第三页文本在参考文件中不存在,也就是说,采用单页比对的方法,会导致整体比对结果为两个文件除了第一页文本相同外,其他均不相同。
为了避免发生比对结果不准确的问题,本发明实施例在对参考文件和比对文件进行差异性比对之前,先将参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本,然后再将参考文本与比对文本进行差异性比对,即将参考文件中的文本内容和比对文件中的文本内容分别作为一个整体进行比对,从而可以避免因没有考虑各页关联关系而导致比对结果不准确的问题。
其中,上下文连续是指保持原有文字的先后顺序。将参考文件或者比对文件的至少一页文本拼接为上下文连续的一页文本的具体方法可以为按照参考文件或者比对文件的页面顺序,将至少一页文本依次进行拼接,从而获得上下文连续的一页文本。
具体的,将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,包括:当所述参考文件为包含多页文本的文件时,将所述参考文件的多页文本拼接为上下文连续的一页文本,获得参考文本;当所述参考文件为包含单页文本的文件时,从所述参考文件中获取单页文本作为参考文本。将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本,包括:当所述比对文件为包含多页文本的文件时,将所述比对文件的多页文本拼接为上下文连续的一页文本,获得比对文本;当所述比对文件为包含单页文本的文件时,从所述比对文件中获取单页文本作为比对文本。
S130、利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果。
具体的,可以按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果。在按照预设比对单元对参考文本和比对文本进行比对的过程中,若确定正在比对的参考子文本(预设比对单元的参考文本)与比对子文本(预设比对单元的比对文本)内容相同,则将对应的比对子结果确定为内容相同;若确定正在比对的参考子文本在比对文本中不存在,则将对应的比对子结果确定为内容删除;若确定正在比对的比对子文本在参考文本中不存在,则将对应的比对子结果确定为内容增加。在实际应用中,两个文本之间的差异除了包括内容相同、内容删除和内容增加外,还应该包括内容修改。因此,为了让用户能够更直观地看出比对文本相对于参考文本的区别,可以针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。其中,预设比对单元的大小可以根据实际情况而定,可以为一个词组、一个句子、一个段落等。
需要补充的是,在对两个文本进行比对时,除了简单地判断文本内容本身使用的字符或文字是否相同外,还可以结合NLP技术对参考子文本与比对子文本进行语义分析,当所述参考子文本与所述比对子文本的含义相同但使用的字符或文字不同时,可以确定对应的比对子结果为内容相同。另外,本发明实施例还可以支持自定义过滤规则,忽略无意义的差异,即当参考子文本和比对子文本之间的差异中存在满足预设过滤规则的差异时,忽略所述满足预设过滤规则的差异。例如,可以设定一个句子有无助词“的”不影响比对结果。
S140、根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
具体的,若所述差异性比对结果包括内容删除,则对所述参考文件中被所述比对文件删除的文本内容添加差异性标记;若所述差异性比对结果包括内容增加,则对所述比对文件中相对于所述参考文件增加的文本内容添加差异性标记;若所述差异性比对结果包括内容修改时,则对所述参考文件中修改前的文本内容和所述比对文件中修改后的文本内容分别添加差异性标记。
差异性标记包括不限于以下一种或多种的组合:加粗字体、更换字体颜色、增加字体底色、加亮字体、增大字体、更换为斜体、增加下划线等。当差异性比对结果包括多种类型的比对子结果时,不同比对子结果对应的差异性标记的表现形式可以相同,也可以不同。
可选的,在将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本时,可以根据参考文本的文本内容在参考文件中的位置信息,生成参考文件的位置信息配置文件,在将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本时,可以根据比对文本的文本内容在比对文件中的位置信息,生成比对文件的位置信息配置文件,以便后续在根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记时,可以根据所述差异性比对结果、位置信息配置文件,对所述参考文件和/或所述比对文件进行差异性标记。其中,位置信息包括文本内容在对应文件中的页码、在所述页码对应页面的所在行和所在列;位置信息配置文件包括文本内容和所述文本内容的位置信息。
具体的,若所述差异性比对结果包括内容删除,则根据参考文件的位置信息配置文件,确定所述参考文件中被所述比对文件删除的文本内容在所述参考文件中的位置信息,并在确定的位置信息处添加差异性标记;若所述差异性比对结果包括内容增加,则根据比对文件的位置信息配置文件,确定所述比对文件中相对于所述参考文件增加的文本内容在所述比对文件中的位置信息,并在确定的位置信息处添加差异性标记;若所述差异性比对结果包括内容修改时,则根据参考文件的位置信息配置文件,确定所述参考文件中修改前的文本内容在所述参考文件中的位置信息,根据比对文件的位置信息配置文件,确定所述比对文件中修改后的文本内容在所述比对文件中的位置信息,并分别在针对参考文件和比对文件确定的位置信息处添加差异性标记。
可选的,当服务器接收所述RPA机器人触发所述客户端发送的比对结果查询指令时,将包含差异性标记的参考文件和/或比对文件反馈给所述客户端,还可以将差异性比对结果反馈给客户端,从而不仅可以让用户直观地在参考文件和/或比对文件中看到差异,还可以看到单独汇总的差异。当服务器接收所述RPA机器人触发所述客户端发送的比对任务状态查询指令时,从所述任务数据库中查询所述比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。
本发明实施例提供的基于RPA和AI的文件比对方法,能够通过RPA机器人自动登录客户端并触发客户端向服务器发送参考文件和比对文件,当服务器获取到参考文件和比对文件后,可以先从参考文件和比对文件中分别获取至少一页文本,并将参考文件的至少一页文本拼接为上下文连续的一页文本(可称为参考文本),将比对文件的至少一页文本拼接为上下文连续的一页文本(可称为比对文本),然后利用预设比对算法对参考文本和比对文本进行差异性比对,最后根据差异性比对结果对参考文件和/或比对文件进行差异性标记。由此可知,与现有技术中需要人工获取文件、比对文件,并进行人工标记差异性相比,本发明实施例不仅能够利用RPA机器人自动触发客户端发送两个待比对的文件给服务器进行自动比对,还可以由服务器自动标记差异性,从而不仅可以节省人力,让原本需要做文件比对的人员有时间去做更有价值的工作,还可以提高文件比对的效率。此外,由于本发明实施例将差异性标记添加到参考文件和/或比对文件当中,而不是在或者仅仅在独立于参考文件和比对文件的第三方区域描述差异性,从而可以提高差异性标记的可读性。在获取参考文件和比对文件的文本内容时,可以通过OCR技术自动识别出两个文件中的文本内容,而无需人工获取,从而可以提高文件比对的效率。
基于上述方法实施例,本发明的另一个实施例还提供了一种基于RPA和AI的文件比对方法,所述方法应用于RPA机器人,如图2所示,所述方法包括:
S200、登录客户端,并将参考文件和比对文件上传至所述客户端。
所述参考文件和/或所述比对文件为多页文件。具体的,可以在能够登录客户端的电子设备中配置RPA程序(可以集成或嵌入客户端,也可以独立于客户端),以使电子设备可以按照RPA程序中设定的规则,模拟用户的鼠标键盘操作自动登录客户端,并通过访问客户端触发客户端生成包括参考文件和比对文件的文件比对请求,向服务器发送该文件比对请求,以便服务器对参考文件和比对文件进行差异性比对。其中,在登录客户端时,客户端可以弹出包含验证码图像的登录界面,这种情况下RPA机器人可以对验证码图像进行OCR识别,获得验证码图像中的验证码内容,并将验证码内容输入到对应的编辑框,从而成功登录客户端。
S210、触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
参考文件和比对文件可以存储在客户端中,也可以存储在电子设备的其他存储空间,也可以是纸质文件。当存储在电子设备的其他存储空间时,RPA机器人可以从所述其他存储空间查找参考文件和比对文件,并将参考文件和比对文件上传到客户端,例如通过点击上传按钮的方式将这两个文件上传到客户端,也可以通过拖拽的方式将这两个文件拖到指定区域以实现文件上传,也可以为其他上传方式。当参考文件和/或比对文件为纸质文件时,RPA机器人可以利用OCR技术先将纸质文件转换为图像文件或者转换为文本文件(即纸质文件中的文本内容构成的可编辑文件),然后再利用上述方法上传到客户端。
此外,RPA机器人还可以触发所述客户端向所述服务器发送比对结果查询指令,以使得所述服务器向所述客户端反馈包含差异性标记的参考文件和/或比对文件,并输出显示包含差异性标记的参考文件和/或比对文件;和/或,还可以触发所述客户端向所述服务器发送比对任务状态查询指令,以使得所述服务器从任务数据库中查询比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。RPA机器人触发客户端发送比对结果查询指令或者比对任务状态查询指令的具体实现方式包括但不限于RPA机器人通过点击客户端上的比对结果查询按钮或比对任务状态查询按钮的方式触发客户端生成并发送对应的指令。
示例性的,图3是参考文件和比对文件的部分文本内容,可以直接在参考文件和比对文件中显示差异性(加粗加斜文本是指在比对文件中增加的文本,加下划线文本是指在比对文件中删除的文本,加粗加大的文本是指发生修改的文本),并且还展示了差异性汇总内容(见图中右侧部分)。
基于服务器侧的方法实施例,本发明的另一个实施例还提供了一种基于RPA和AI的文件比对装置,所述装置应用于服务器,如图4所示,所述装置包括:
文件获取单元30,用于获取客户端发送的参考文件和比对文件,所述参考文件和/或所述比对文件为多页文件,所述参考文件和所述比对文件为RPA机器人触发所述客户端发送的文件;
文本获取单元32,用于获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;
拼接单元34,用于将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;
比对单元36,用于利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;
标记单元38,用于根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
可选的,所述比对单元36包括:
比对模块,用于按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果;
合并模块,用于针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。
可选的,所述标记单元38包括:
第一标记添加模块,用于若所述差异性比对结果包括内容删除,则对所述参考文件中被所述比对文件删除的文本内容添加差异性标记;
第二标记添加模块,用于若所述差异性比对结果包括内容增加,则对所述比对文件中相对于所述参考文件增加的文本内容添加差异性标记;
第三标记添加模块,用于若所述差异性比对结果包括内容修改时,则对所述参考文件中修改前的文本内容和所述比对文件中修改后的文本内容分别添加差异性标记。
可选的,文本获取单元32,用于利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
可选的,所述装置还包括:
鉴权单元,用于在获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本之前,对所述客户端的用户信息进行鉴权;
格式转换单元,用于若鉴权通过,则将所述参考文件和所述比对文件的文件格式转换为光学字符识别OCR能够识别的格式;
任务添加单元,用于将针对所述参考文件和所述比对文件的比对任务添加到比对任务队列中,并将所述比对任务和所述比对任务的任务状态记录到任务数据库中;
任务获取单元,用于从所述比对任务队列中获取所述比对任务;
更新单元,用于当所述比对任务的任务状态发生变化时,更新所述任务数据库中所述比对任务的任务状态。
可选的,所述装置还包括:
反馈单元,用于当接收所述RPA机器人触发所述客户端发送的比对结果查询指令时,将包含差异性标记的参考文件和/或比对文件反馈给所述客户端;当接收所述RPA机器人触发所述客户端发送的比对任务状态查询指令时,从所述任务数据库中查询所述比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。
基于RPA机器人侧的方法实施例,本发明的另一个实施例还提供了基于RPA和AI的文件比对装置,所述装置应用于RPA机器人,如图5所示,所述装置包括:
登录上传单元40,用于登录客户端,并将参考文件和比对文件上传至所述客户端,所述参考文件和/或所述比对文件为多页文件;
触发发送单元42,用于触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
可选的,所述触发发送单42元,还用于触发所述客户端向所述服务器发送比对结果查询指令,以使得所述服务器向所述客户端反馈包含差异性标记的参考文件和/或比对文件;和/或,触发所述客户端向所述服务器发送比对任务状态查询指令,以使得所述服务器向所述客户端反馈比对任务的任务状态。
基于上述方法实施例,本发明的另一个实施例还提供了一种计算设备,所述计算设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述计算设备为服务器时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的任一应用于服务器的基于RPA和AI的文件比对方法;
当所述计算设备为终端时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的任一应用于RPA机器人的基于RPA和AI的文件比对方法。
基于服务器侧的实施例,本发明的另一个实施例还提供了一种服务器,所述服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的任一应用于服务器的基于RPA和AI的文件比对方法。其中,处理器与存储装置相耦合。
基于RPA机器人侧的实施例,本发明的另一个实施例还提供了一种终端,所述终端包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上所述的任一应用于RPA机器人的基于RPA和AI的文件比对方法。其中,处理器与存储装置相耦合。
基于上述方法实施例,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的方法。
基于上述实施例,本发明实施例还提供了一种基于RPA和AI的文件比对系统,所述系统包括RPA机器人50、客户端52和服务器54。如图6所示,RPA机器人50可以与客户端52相互独立,如图7所示,RPA机器人50可以是客户端52的一部分。
所述RPA机器人50,用于登录所述客户端52,并将参考文件和比对文件上传至所述客户端52,触发所述客户端52将所述参考文件和所述比对文件发送给服务器54进行差异性比对,所述参考文件和/或所述比对文件为多页文件;
所述服务器54,用于获取所述客户端52发送的所述参考文件和所述比对文件;利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本;将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得比对结果;根据所述比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
本领域普通技术人员可以理解:附图只是一个实施例的示意图,附图中的模块或流程并不一定是实施本发明所必须的。
本领域普通技术人员可以理解:实施例中的装置中的模块可以按照实施例描述分布于实施例的装置中,也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围。
Claims (13)
1.一种基于RPA和AI的文件比对方法,所述方法应用于服务器,其特征在于,所述方法包括:
S1、获取客户端发送的参考文件和比对文件,所述参考文件和/或所述比对文件为多页文件,所述参考文件和所述比对文件为机器人流程自动化RPA机器人触发所述客户端发送的文件;
S2、获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;
S3、将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;
S4、利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;
S5、根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
2.根据权利要求1所述的方法,其特征在于,所述S4包括:
S401、按照预设比对单元对所述参考文本和所述比对文本进行比对,获得针对每个预设比对单元的比对子结果;
S402、针对不相邻的第一比对子结果和第二比对子结果,若第一比对子结果和第二比对子结果均为内容相同,且所述第一比对子结果和所述第二比对子结果之间的比对子结果包括内容删除和内容增加,而不包括内容相同,则将所述第一比对子结果和所述第二比对子结果之间的比对子结果合并为一个比对子结果,且合并后的比对子结果为内容修改。
3.根据权利要求1所述的方法,其特征在于,所述S5包括:
S501、若所述差异性比对结果包括内容删除,则对所述参考文件中被所述比对文件删除的文本内容添加差异性标记;
S502、若所述差异性比对结果包括内容增加,则对所述比对文件中相对于所述参考文件增加的文本内容添加差异性标记;
S503、若所述差异性比对结果包括内容修改时,则对所述参考文件中修改前的文本内容和所述比对文件中修改后的文本内容分别添加差异性标记。
4.根据权利要求1-3中任一项所述的方法,其特征在于,所述S2包括:
利用光学字符识别OCR对所述参考文件和所述比对文件进行识别,获得所述参考文件的至少一页文本以及所述比对文件的至少一页文本。
5.根据权利要求4所述的方法,其特征在于,在所述S2之前,所述方法还包括:
S6、对所述客户端的用户信息进行鉴权;
S7、若鉴权通过,则将所述参考文件和所述比对文件的文件格式转换为光学字符识别OCR能够识别的格式;
S8、将针对所述参考文件和所述比对文件的比对任务添加到比对任务队列中,并将所述比对任务和所述比对任务的任务状态记录到任务数据库中;
S9、从所述比对任务队列中获取所述比对任务;
所述方法还包括:
S10、当所述比对任务的任务状态发生变化时,更新所述任务数据库中所述比对任务的任务状态。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
S11、当接收所述RPA机器人触发所述客户端发送的比对结果查询指令时,将包含差异性标记的参考文件和/或比对文件反馈给所述客户端;
S12、当接收所述RPA机器人触发所述客户端发送的比对任务状态查询指令时,从所述任务数据库中查询所述比对任务状态查询指令对应的比对任务的任务状态,并将查询到的任务状态反馈给所述客户端。
7.一种基于RPA和AI的文件比对方法,所述方法应用于机器人流程自动化RPA机器人,其特征在于,所述方法包括:
S13、登录客户端,并将参考文件和比对文件上传至所述客户端,所述参考文件和/或所述比对文件为多页文件;
S14、触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
S15、触发所述客户端向所述服务器发送比对结果查询指令,以使得所述服务器向所述客户端反馈包含差异性标记的参考文件和/或比对文件;
和/或,S16、触发所述客户端向所述服务器发送比对任务状态查询指令,以使得所述服务器向所述客户端反馈比对任务的任务状态。
9.一种基于RPA和AI的文件比对装置,所述装置应用于服务器,其特征在于,所述装置包括:
文件获取单元,用于获取客户端发送的参考文件和比对文件,所述参考文件和/或所述比对文件为多页文件,所述参考文件和所述比对文件为机器人流程自动化RPA机器人触发所述客户端发送的文件;
文本获取单元,用于获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;
拼接单元,用于将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;
比对单元,用于利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;
标记单元,用于根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
10.一种基于RPA和AI的文件比对装置,所述装置应用于机器人流程自动化RPA机器人,其特征在于,所述装置包括:
登录上传单元,用于登录客户端,并将参考文件和比对文件上传至所述客户端,所述参考文件和/或所述比对文件为多页文件;
触发发送单元,用于触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对。
11.一种计算设备,其特征在于,所述计算设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述计算设备为服务器时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法;
当所述计算设备为终端时,所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求7-8中任一所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的方法。
13.一种基于RPA和AI的文件比对系统,其特征在于,所述系统包括机器人流程自动化RPA机器人、客户端和服务器;
所述RPA机器人,用于登录所述客户端,并将参考文件和比对文件上传至所述客户端,触发所述客户端将所述参考文件和所述比对文件发送给服务器进行差异性比对,所述参考文件和/或所述比对文件为多页文件;
所述服务器,用于获取所述客户端发送的所述参考文件和所述比对文件;获取所述参考文件的至少一页文本以及所述比对文件的至少一页文本;将所述参考文件的至少一页文本拼接为上下文连续的一页文本,获得参考文本,以及将所述比对文件的至少一页文本拼接为上下文连续的一页文本,获得比对文本;利用预设比对算法对所述参考文本和所述比对文本进行差异性比对,获得所述比对文本相对于所述参考文本的差异性比对结果;根据所述差异性比对结果,对所述参考文件和/或所述比对文件进行差异性标记。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136129.1A CN113836096A (zh) | 2021-09-27 | 2021-09-27 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
PCT/CN2021/131818 WO2023045056A1 (zh) | 2021-09-27 | 2021-11-19 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111136129.1A CN113836096A (zh) | 2021-09-27 | 2021-09-27 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113836096A true CN113836096A (zh) | 2021-12-24 |
Family
ID=78970895
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111136129.1A Pending CN113836096A (zh) | 2021-09-27 | 2021-09-27 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113836096A (zh) |
WO (1) | WO2023045056A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023045053A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337443A1 (en) * | 2014-11-06 | 2017-11-23 | Achiav KOLTON | Location based optical character recognition (ocr) |
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
CN110162509A (zh) * | 2019-04-26 | 2019-08-23 | 平安普惠企业管理有限公司 | 文件比对方法、装置、计算机设备及存储介质 |
CN111460763A (zh) * | 2020-03-02 | 2020-07-28 | 南京南瑞继保电气有限公司 | 文件差异的标注方法、装置、设备及计算机可读存储介质 |
CN111753517A (zh) * | 2020-06-30 | 2020-10-09 | 北京来也网络科技有限公司 | 基于rpa及ai的文档对比方法、装置、设备及介质 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN112084748A (zh) * | 2020-09-19 | 2020-12-15 | 神思电子技术股份有限公司 | 一种文本比对方法 |
CN112882947A (zh) * | 2021-03-15 | 2021-06-01 | 深圳市腾讯信息技术有限公司 | 一种界面测试方法、装置、设备及存储介质 |
CN113407665A (zh) * | 2021-05-25 | 2021-09-17 | 北京有竹居网络技术有限公司 | 文本比对方法、装置、介质及电子设备 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10108590B2 (en) * | 2013-05-03 | 2018-10-23 | International Business Machines Corporation | Comparing markup language files |
CN108805098A (zh) * | 2018-06-21 | 2018-11-13 | 云城(北京)数据科技有限公司 | 纸面文档与电子文档的比对方法、装置和系统 |
CN111752900A (zh) * | 2020-06-30 | 2020-10-09 | 北京来也网络科技有限公司 | 基于rpa及ai的文件存储方法、装置、设备和介质 |
CN113434798B (zh) * | 2021-06-21 | 2023-05-23 | 湖南大学 | 一种无代码rpa自动化流程文件的生成方法和系统 |
-
2021
- 2021-09-27 CN CN202111136129.1A patent/CN113836096A/zh active Pending
- 2021-11-19 WO PCT/CN2021/131818 patent/WO2023045056A1/zh unknown
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170337443A1 (en) * | 2014-11-06 | 2017-11-23 | Achiav KOLTON | Location based optical character recognition (ocr) |
CN109543614A (zh) * | 2018-11-22 | 2019-03-29 | 厦门商集网络科技有限责任公司 | 一种全文本差异比对方法及设备 |
CN110162509A (zh) * | 2019-04-26 | 2019-08-23 | 平安普惠企业管理有限公司 | 文件比对方法、装置、计算机设备及存储介质 |
CN111914597A (zh) * | 2019-05-09 | 2020-11-10 | 杭州睿琪软件有限公司 | 一种文档对照识别方法、装置、电子设备和可读存储介质 |
CN111460763A (zh) * | 2020-03-02 | 2020-07-28 | 南京南瑞继保电气有限公司 | 文件差异的标注方法、装置、设备及计算机可读存储介质 |
CN111753517A (zh) * | 2020-06-30 | 2020-10-09 | 北京来也网络科技有限公司 | 基于rpa及ai的文档对比方法、装置、设备及介质 |
CN112084748A (zh) * | 2020-09-19 | 2020-12-15 | 神思电子技术股份有限公司 | 一种文本比对方法 |
CN112882947A (zh) * | 2021-03-15 | 2021-06-01 | 深圳市腾讯信息技术有限公司 | 一种界面测试方法、装置、设备及存储介质 |
CN113407665A (zh) * | 2021-05-25 | 2021-09-17 | 北京有竹居网络技术有限公司 | 文本比对方法、装置、介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023045053A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2023045056A1 (zh) | 2023-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10067931B2 (en) | Analysis of documents using rules | |
US8990202B2 (en) | Identifying and suggesting classifications for financial data according to a taxonomy | |
CN107392143B (zh) | 一种基于svm文本分类的简历精确解析方法 | |
US11914968B2 (en) | Official document processing method, device, computer equipment and storage medium | |
CN110991163B (zh) | 一种文档比对分析方法、装置、电子设备及存储介质 | |
GB2487600A (en) | System for extracting data from an electronic document | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
EP3757881A1 (en) | Documentation determination device and documentation determination program | |
CN115794225A (zh) | 一种基于自然语言处理业务流程的方法 | |
US10643022B2 (en) | PDF extraction with text-based key | |
CN113836096A (zh) | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 | |
CN113723063A (zh) | 一种rtf转html并在pdf文件实现效果的方法 | |
RU2398276C2 (ru) | Альтернативы анализа в контекстных деревьях | |
CN113791860B (zh) | 一种信息转换方法、装置和存储介质 | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
WO2019028249A1 (en) | AUTOMATED REPORT SYSTEM | |
CN114549177A (zh) | 保函审查方法、装置、系统与计算机可读存储介质 | |
CN111581971B (zh) | 词库的更新方法、装置、终端及存储介质 | |
CN114626341A (zh) | 文档转换方法、装置及存储介质 | |
WO2023045053A1 (zh) | 基于rpa和ai的文件比对方法、装置、设备及存储介质 | |
CN111611779A (zh) | 辅助文本标注方法、装置、设备及其存储介质 | |
CN117034864B (zh) | 可视化标注方法、装置、计算机设备以及存储介质 | |
CN113515587B (zh) | 一种标的物信息提取方法、装置、计算机设备及存储介质 | |
CN113761906B (zh) | 解析文档的方法、装置、设备和计算机可读介质 | |
CN112651725B (zh) | 电子发票解析方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |