CN114511858A

CN114511858A - 基于ai和rpa的公文文件处理方法、装置、设备和介质

Info

Publication number: CN114511858A
Application number: CN202210108111.9A
Authority: CN
Inventors: 张翼
Original assignee: Laiye Technology Beijing Co Ltd
Current assignee: Laiye Technology Beijing Co Ltd
Priority date: 2022-01-28
Filing date: 2022-01-28
Publication date: 2022-05-17

Abstract

本公开提出一种基于AI和RPA的公文文件处理方法、装置、设备和介质，涉及AI和RPA领域，其中，方法包括：控制RPA机器人对公文文件进行字符识别，以得到公文内容；针对公文内容中的任意一个源语句，获取与源语句语义匹配的至少一个候选语句；确定源语句中多个词语之间的第一匹配度，及各候选语句中多个词语之间的第二匹配度；根据第一匹配度和第二匹配度，从源语句与各候选语句中确定目标语句；在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，以提示对源语句进行修改。由此，通过RPA机器人自动对公文文件的公文内容进行审核，可降低审核难度及人工参与量，提高公文文件审核的时效性。

Description

基于AI和RPA的公文文件处理方法、装置、设备和介质

技术领域

本公开涉及人工智能(Artificial Intelligence，简称AI)和机器人流程自动化(Robotic Process Automation，简称RPA)领域，尤其涉及一种基于AI和RPA的公文文件处理方法、装置、设备和介质。

背景技术

RPA是通过特定的“机器人软件”，模拟人在计算机上的操作，按规则自动执行流程任务。

AI是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。

相关技术中，通过人工阅读公文文件，来实现对公文文件进行审核并纠错。然而人工审核的方式，不仅效率较低，而且还易出错。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开提出一种基于AI和RPA的公文文件处理方法、装置、设备和介质，以实现通过RPA机器人自动对公文文件的公文内容进行审核，可以降低审核难度及人工参与量，提高公文文件的审核效率，提升公文文件审核的时效性和准确性。并且，通过RPA机器人对公文文件进行审核，可以释放人力资源，降低人力成本。此外，在目标语句与源语句存在差异的情况下，根据差异生成并发送提示信息，可以提醒相关人员根据差异对公文文件中的源语句进行修改，提高公文文件的准确性，提升该方法的灵活性和适用性。

本公开第一方面实施例提出了一种基于AI和RPA的公文文件处理方法，包括：

控制RPA机器人获取公文文件，并对所述公文文件进行字符识别，以得到公文内容；

针对所述公文内容中的任意一个源语句，控制所述RPA机器人获取与所述源语句语义匹配的至少一个候选语句；

控制所述RPA机器人确定所述源语句中多个词语之间的第一匹配度，以及确定各所述候选语句中多个词语之间的第二匹配度；

控制所述RPA机器人根据所述源语句的第一匹配度和各所述候选语句对应的第二匹配度，从所述源语句与各所述候选语句中确定目标语句；

在所述目标语句和所述源语句存在差异的情况下，控制所述RPA机器人根据所述差异，生成并发送所述源语句对应的第一提示信息，其中，所述第一提示信息用于提示根据所述差异对所述公文文件中的所述源语句进行修改。

本公开第二方面实施例提出了一种基于AI和RPA的公文文件处理装置，包括：

第一识别模块，用于控制RPA机器人获取公文文件，并对所述公文文件进行字符识别，以得到公文内容；

第一获取模块，用于针对所述公文内容中的任意一个源语句，控制所述RPA机器人获取与所述源语句语义匹配的至少一个候选语句；

第一确定模块，用于控制所述RPA机器人确定所述源语句中多个词语之间的第一匹配度，以及确定各所述候选语句中多个词语之间的第二匹配度；

第二确定模块，用于控制所述RPA机器人根据所述源语句的第一匹配度和各所述候选语句对应的第二匹配度，从所述源语句与各所述候选语句中确定目标语句；

第一处理模块，用于在所述目标语句和所述源语句存在差异的情况下，控制所述RPA机器人根据所述差异，生成并发送所述源语句对应的第一提示信息，其中，所述第一提示信息用于提示根据所述差异对所述公文文件中的所述源语句进行修改。

本公开第三方面实施例提出了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如本公开上述第一方面实施例所述的方法。

本公开第四方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如本公开上述第一方面实施例所述的方法。

本公开第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现如本公开上述第一方面实施例所述的方法。

本公开实施例所提供的技术方案包含如下的有益效果：

通过控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容；针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句；控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各候选语句中多个词语之间的第二匹配度；控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句；在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对所述公文文件中的源语句进行修改。由此，可以实现通过RPA机器人自动对公文文件的公文内容进行审核，可以降低审核难度及人工参与量，提高公文文件的审核效率，提升公文文件审核的时效性和准确性。并且，通过RPA机器人对公文文件进行审核，可以释放人力资源，降低人力成本。此外，在目标语句与源语句存在差异的情况下，根据差异生成并发送提示信息，可以提醒相关人员根据差异对公文文件中的源语句进行修改，保证公文文件的准确性，提升该方法的灵活性和适用性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图2为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图3为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图4为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图5为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图6为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图；

图7为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的实现原理图；

图8为本公开实施例所提供的一种基于AI和RPA的公文文件处理装置的结构示意图；

图9示出了适于用来实现本公开实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

目前，公文文件处理步骤较为繁琐和复杂，需要人工投入大量的时间和精力来核对公文内容，反复核对公文内容的准确性，给人工带来了巨大的工作量，且人工审核的方式，需人工录入众多数据项、并进行核对，耗费时间过长，且容易录入错误、审核出错，人工成本较高，此外，人工需逐一处理公文内容中每个数据项的错误信息和校验结果，操作性强、且重复工作、价值较低，无法实现公文文件审批的自动化，阻碍了企业工作的效率和业务开展。

针对上述问题，本公开提出了一种基于AI和RPA的公文文件处理方法、装置、设备和介质。

下面参考附图描述本公开实施例的基于AI和RPA的公文文件处理方法、装置、设备和介质。在具体描述本公开实施例之前，为了便于理解，首先对常用技术词进行介绍：

“公文文件”，又称为公务文书或公务文件，是法定机关与组织在公务活动中，按照特定的体式、经过一定的处理程序形成和使用的书面材料。

“困惑度(perplexity，简称ppl)”，是使用在自然语言处理(Natural LanguageProcessing，简称NLP)领域中，衡量语言模型好坏的指标。困惑度越小，表明语句中各个词语之间的契合程度越好。

“光学字符识别(Optical Character Recognition，简称OCR)”，是指电子设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。

“预设短语库”，是指预先设置的包含有公文领域中的短语的数据库，例如，该预设短语库中可以包括短语纠错白名单，其中，短语纠错白名单中可以包含有大量经过人工修正之后的公文内容所属领域对应的短语。

“预设词典”，是指预先设置的词典，比如该预设词典可以包括公文领域的专业词典、行政词典、专业术语词典、常规的汉语词典等等。

“预设公文语料库”，是指经科学取样和加工，例如经过自动分词、词语标注等处理的大规模电子文本库。预设公文语料库中存放的公文语料可以为公文语言在实际使用中真实出现过的语言材料。

“修改例句库”，是指包含有大量经过人工修改之后得到的公文例句的数据库。

“公文要素”，可以包括份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、印章、附注、附件、抄送机关、印发机关和印发日期、页码。

图1为本公开实施例所提供的一种基于AI和RPA的公文文件处理方法的流程示意图。

本公开实施例提供的基于AI和RPA的公文文件处理方法，可应用于本公开实施例的基于AI和RPA的公文文件处理装置，该装置可被配置于电子设备中。其中，该电子设备可以是个人电脑、移动终端等，移动终端例如为手机、平板电脑、个人数字助理等具有各种操作系统的硬件设备。

如图1所示，该基于AI和RPA的公文文件处理方法可以包括以下步骤：

步骤101，控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容。

在本公开实施例的一种可能的实现方式中，公文文件可以存储于公文处理系统中，可以控制RPA机器人登录公文处理系统，以从公文处理系统中获取待处理的公文文件。其中，公文文件通常以可携带文档格式(Portable Document Format，简称PDF)或者影印文件的形式存储于公文处理系统中，RPA机器人在获取公文文件后，可以基于人工智能(Artificial Intelligence，简称AI)技术中的OCR技术，对公文文件进行字符识别，以得到公文内容。比如，可以基于OCR组件扫描公文文件，得到公文文件的公文内容。

在本公开实施例的另一种可能的实现方式中，也可以通过人工上传或发送公文文件至RPA机器人所在的设备，此时，RPA机器人可以获取业务人员上传或发送的公文文件。RPA机器人在获取公文文件后，同样可以基于OCR技术，对公文文件进行字符识别，以得到公文内容。

步骤102，针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句。

在本公开实施例中，针对公文内容中的任意一个源语句，可以控制RPA机器人获取与该源语句语义匹配的至少一个候选语句。

在本公开实施例的第一种可能的实现方式中，针对公文内容中的任意一个源语句，可以控制RPA机器人根据预设短语库，生成与该源语句语义匹配的至少一个候选语句。

比如，针对源语句中的任一短语，可以从预设短语库中获取与该任一短语之间的文本相似度较高的至少一个候选短语，并利用候选短语替换源语句中的上述任一短语，以生成至少一个候选语句。

在本公开实施例的第二种可能的实现方式中，针对公文内容中的任意一个源语句，可以控制RPA机器人根据预设词典，生成与源语句语义匹配的至少一个候选语句。

比如，针对源语句中的任一词语，可以从预设词典中获取与该任一词语之间的文本相似度较高的至少一个候选词语，并利用候选词语替换源语句中的上述任一词语，以生成至少一个候选语句。

在本公开实施例的第三种可能的实现方式中，针对公文内容中的任意一个源语句，可以控制RPA机器人从预设公文语料库中，获取与源语句语义匹配的至少一个候选语句。

比如，可以计算预设公文语料库中各公文语料与源语句之间的文本相似度，选取文本相似度较高的至少一个公文语料，作为候选语句。

或者，可以对源语句进行关键词提取，得到至少一个关键词，从预设公文语料库中的各公文语料中，获取与上述至少一个关键词匹配的公文语料，作为候选语句。

在本公开实施例的第四种可能的实现方式中，针对公文内容中的任意一个源语句，可以控制RPA机器人从修改例句库中，获取与源语句语义匹配的至少一个候选语句。

比如，可以计算修改例句库中的各公文例句与源语句之间的文本相似度，选取文本相似度较高的至少一个公文例句，作为候选语句。

或者，可以对源语句进行关键词提取，得到至少一个关键词，从修改例句库中的各公文例句中，获取与上述至少一个关键词匹配的公文例句，作为候选语句。

需要说明的是，上述仅以根据一种方式，获取与源语句语义匹配的候选语句进行示例，实际应用时，还可以同时结合上述四种方式中的多种方式，来获取与源语句语义匹配的候选语句，本公开对此并不做限制。

还需说明的是，上述仅是示例性实施例，本公开并不限于此，还包括本领域已知的其他语义匹配方法，只要能够得到与源语句语义匹配的候选语句即可。

步骤103，控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各候选语句中多个词语之间的第二匹配度。

在本公开实施例中，可以控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定每个候选语句中多个词语之间的第二匹配度。

例如，第一匹配度可以由源语句的困惑度来表征，源语句的困惑度越小，第一匹配度越高，即第一匹配度与源语句的困惑度成反向关系，同理，第二匹配度可以由对应候选语句的困惑度来表征，对应候选语句的困惑度越小，第二匹配度越高，即第二匹配度与对应候选语句的困惑度成反向关系。

步骤104，控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。

在本公开实施例中，RPA机器人可以根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。比如，可以从第一匹配度和各第二匹配度中确定最大匹配度，将最大匹配度对应的语句，作为目标语句。

步骤105，在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对公文文件中的源语句进行修改。

在本公开实施例中，在目标语句不同于源语句的情况下，可以控制RPA机器人根据目标语句和源语句之间的差异，生成源语句对应的第一提示信息，并发送该第一提示信息，其中，第一提示信息用于提示根据目标语句和源语句之间的差异对公文文件中的源语句进行修改。

举例而言，当源语句为“经部门1同意，…”，目标语句为“经部门2同意，…”时，则生成的第一提示信息，可以用于提示相关人员将源语句中的“部门1”替换为“部门2”。

本公开实施例的基于AI和RPA的公文文件处理方法，通过控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容；针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句；控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各候选语句中多个词语之间的第二匹配度；控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句；在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对所述公文文件中的源语句进行修改。由此，可以实现通过RPA机器人自动对公文文件的公文内容进行审核，可以降低审核难度及人工参与量，提高公文文件的审核效率，提升公文文件审核的时效性和准确性。并且，通过RPA机器人对公文文件进行审核，可以释放人力资源，降低人力成本。此外，在目标语句与源语句存在差异的情况下，根据差异生成并发送提示信息，可以提醒相关人员根据差异对公文文件中的源语句进行修改，提高公文文件的准确性，提升该方法的灵活性和适用性。

为了清楚说明本公开任一实施例中RPA机器人是如何确定源语句的第一匹配度和各候选语句对应的第二匹配度的，本公开还提出一种基于AI和RPA的公文文件处理方法。

图2为本公开实施例所提供的另一种基于AI和RPA的公文文件处理方法的流程示意图。

如图2所示，该基于AI和RPA的公文文件处理方法可以包括以下步骤：

步骤201，控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容。

步骤202，针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句。

步骤201至202的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤203，控制RPA机器人基于NLP技术，对源语句进行分词处理，得到源语句中的各子词。

在本公开实施例中，RPA机器人可以基于NLP技术对源语句进行分词处理，得到源语句中的各个词语，本公开中将源语句中的词语记为子词。

步骤204，针对各子词中的任意一个目标子词，控制RPA机器人根据源语句中位于目标子词之前的各候选子词，确定目标子词的条件概率，或者，根据设定子词，确定目标子词的条件概率。

在本公开实施例中，针对各子词中的任意一个目标子词，在该目标子词不为源语句中的首个位置的词语时，可以根据源语句中位于目标子词之前的各候选子词，确定该目标子词的条件概率。而在该目标子词为源语句中的首个位置的词语时，可以根据设定子词，确定该目标子词的条件概率，或者，也可以将该目标子词的条件概率设置为定值，本公开对此不做限制。

例如，针对源语句中的第i个位置的目标子词w_i，则该目标子词的条件概率可以为：p(w_i|w₁w₂…w_i-1)。

步骤205，控制RPA机器人根据各子词的条件概率，确定源语句的第一匹配度。

在本公开实施例中，RPA机器人可以根据源语句中各子词的条件概率，确定该源语句的第一匹配度。

作为一种示例，可以根据各子词的条件概率，确定源语句的困惑度，例如，可以根据下述公式，确定源语句的困惑度：

其中，S表示源语句，PP(S)表示源语句的困惑度，N表示源语句包含的子词个数，P(w_i)表示源语句中的第i个位置的子词w_i的概率，p(w_i|w₁w₂…w_i-1)表示子词w_i的条件概率。

在确定源语句的困惑度后，可以根据源语句的困惑度，确定该源语句的第一匹配度，其中，第一匹配度与源语句的困惑度成反向关系，即困惑度越小，第一匹配度越大，反之，困惑度越大，第一匹配度越小。

步骤206，控制RPA机器人确定各候选语句中多个词语之间的第二匹配度。

同理，针对每个候选语句，RPA机器人可以基于NLP技术，对该候选语句进行分词处理，得到该候选语句中的各个子词，针对该候选语句中的各子词中的任意一个目标子词，控制RPA机器人根据该候选语句中位于该目标子词之前的各候选子词，确定该目标子词的条件概率，或者，根据设定子词，确定目标子词的条件概率，从而可以根据候选语句中的各子词的条件概率，确定该候选语句的第二匹配度。

步骤207，根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。

步骤208，在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对公文文件中的源语句进行修改。

步骤207至208的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的基于AI和RPA的公文文件处理方法，通过控制RPA机器人基于自然语言处理NLP技术，对源语句进行分词处理，得到源语句中的各子词；

针对各子词中的任意一个目标子词，控制RPA机器人根据源语句中位于目标子词之前的各候选子词，确定目标子词的条件概率，或者，根据设定子词，确定目标子词的条件概率；控制RPA机器人根据各子词的条件概率，确定源语句的第一匹配度。由此，可以实现根据源语句中的各子词，有效确定各子词的条件概率，从而可以根据各子词的条件概率，有效确定源语句的第一匹配度；同理，可以通过上述方式，有效确定各候选语句对应的第二匹配度，从而可以实现根据第一匹配度和第二匹配度，有效确定用于对源语句进行纠错的目标语句。

在本公开实施例的一种可能的实现方式中，RPA机器人在获取到各候选语句后，为了提升源语句修改结果的准确性，可以对各候选语句进行筛选，以使筛选后的候选语句与源语句在公文内容中的上下文信息的语义匹配。下面结合图3，对上述过程进行详细说明。

图3为本公开实施例所提供的另一种基于AI和RPA的公文文件处理方法的流程示意图。

如图3所示，该基于AI和RPA的公文文件处理方法可以包括以下步骤：

步骤301，控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容。

步骤302，针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句。

步骤301至302的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤303，控制RPA机器人以源语句为中心，从公文内容中截取设定窗口长度内的目标文本信息。

在本公开实施例中，设定窗口长度为预先设置的，比如，设定窗口长度可以为k个语句的长度。其中，k为正整数。

在本公开实施例中，RPA机器人可以以源语句为中心，采用设定窗口长度的滑动窗口，从公文内容中截取设定窗口长度内的目标文本信息。

步骤304，基于目标文本信息，确定源语句与各候选语句之间的相似度。

在本公开实施例中，针对每个候选语句，RPA机器人可以基于目标文本信息，确定源语句与该候选语句之间的相似度。例如，标记源语句为orig，候选语句为sub，目标文本信息为context，则源语句与候选语句之间的相似度可以为Sim(orig,context,sub)。

步骤305，根据各候选语句的相似度，筛选并保留相似度高于设定相似度阈值的候选语句。

在本公开实施例中，RPA机器人可以根据各候选语句的相似度，对各候选语句进行筛选，仅包括相似度高于设定相似度阈值的候选语句。

步骤306，控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各保留的候选语句中多个词语之间的第二匹配度。

步骤307，控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。

步骤308，在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示对公文文件中的源语句进行修改。

步骤306至308的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的基于AI和RPA的公文文件处理方法，通过控制RPA机器人以源语句为中心，从公文内容中截取设定窗口长度内的目标文本信息；基于目标文本信息，确定源语句与各候选语句之间的相似度；根据各候选语句的相似度，筛选并保留相似度高于设定相似度阈值的候选语句。由此，根据公文内容中的源语句的上下文信息，对各候选语句进行筛选，仅保留与源语句相似度较高，且与源语句的上下文信息语义匹配的候选语句，可以提升后续源语句修改结果的准确性。

为了清楚说明本公开上述实施例中是如何基于目标文本信息，确定源语句与各候选语句之间的相似度的，本公开还提出一种基于AI和RPA的公文文件处理方法。

图4为本公开实施例所提供的另一种基于AI和RPA的公文文件处理方法的流程示意图。

如图4所示，该基于AI和RPA的公文文件处理方法可以包括以下步骤：

步骤401，控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容。

步骤402，针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句。

步骤403，控制RPA机器人以源语句为中心，从公文内容中截取设定窗口长度内的目标文本信息。

步骤401至403的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

步骤404，针对任意一个候选语句，确定候选语句与目标文本信息中各语句之间的关联度。

在本公开实施例中，针对任意一个候选语句，RPA机器人可以计算该候选语句与目标文本信息中各语句之间的关联度。

例如，标记目标文本信息中的任一语句为S_i，则RPA机器人可以根据LLR(S_i,sub)，确定该语句S_i和候选语句sub之间的关联度，其中，LLR是指对数似然比(log-likelihoodratio)，用于衡量两个语句之间词语的搭配强度。其中，i为正整数，且i小于或者等于目标文本信息所包含的语句个数。

步骤405，从目标文本信息中的各语句中，确定关联度高于设定关联度阈值的关联语句。

在本公开实施例中，RPA机器人可以根据目标文本信息中的各语句的关联度，从各语句中确定关联度高于设定关联度阈值的关联语句。

例如，标记关联语句为S_r，则S_r＝argmaxLLR(S_i,sub)。

步骤406，基于关联语句，确定源语句与候选语句之间的相似度。

在本公开实施例中，RPA机器人可以基于关联语句，确定源语句与候选语句之间的相似度。例如，源语句orig与候选语句sub之间的相似度Sim(orig,S_r,sub)。

作为一种可能的实现方式，可以根据下述公式，确定源语句orig与候选语句sub之间的相似度：

Sim(orig,S_r,sub)＝click/(display-click)； (2)

其中，display是指目标文本信息中各语句发送提示信息的次数，其中，各语句的提示信息，是在采用步骤102至105，确定各语句对应的目标语句与对应语句存在差异的情况下生成的。

click是指提示信息的采纳次数，即人工或RPA机器人采纳该提示信息，以根据提示信息，修改对应语句。(display-click)，是指提示信息的忽略次数。

需要解释的是，上述可能的实现方式，是在源语句存在上下文信息时实现的。相对应的，当源语句没有上下文信息，或者，display-click＝0时，作为一种可能的实现方式，可以将设定取值，作为源语句与候选语句之间的相似度。

作为另一种可能的实现方式，当源语句没有上下文信息，或者，display-click＝0时，可以根据RPA机器人历史处理记录，确定源语句与候选语句之间的相似度，即可以查询RPA机器人已处理过的各语句对应的提示信息的历史展现次数display'，以及各语句的历史采纳次数click'，根据历史展现次数display'和历史采纳次数click'，基于公式(3)，确定源语句orig与候选语句sub之间的相似度：

Sim(orig,sub)＝click'/(display'-click')； (3)

可以理解的是，人工或RPA机器人采纳包含修改信息的提示信息后，可以对对应语句进行修改，此时，可以根据目标文本信息中各语句的修改次数，以及提示信息的采纳次数，对click进行修正。比如，可以将修改次数和采纳次数进行加权求和，得到click。

步骤407，根据各候选语句的相似度，筛选并保留相似度高于设定相似度阈值的候选语句。

步骤408，控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各保留的候选语句中多个词语之间的第二匹配度。

步骤409，控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。

步骤410，在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示对公文文件中的源语句进行修改。

步骤407至410的执行过程可以参见本公开任一实施例的执行过程，在此不做赘述。

本公开实施例的基于AI和RPA的公文文件处理方法，通过针对任意一个候选语句，确定候选语句与目标文本信息中各语句之间的关联度；从目标文本信息中各语句中，确定关联度高于设定关联度阈值的关联语句；基于关联语句，确定源语句与候选语句之间的相似度。由此，根据候选语句与目标文本信息中的各语句之间的关联度，确定与该候选语句关联度较高的关联语句，从而根据关联语句，确定该候选语句与源语句之间的相似度，可以提升相似度计算结果的准确性，从而可以提升后续源语句修改结果的准确性。

在本公开实施例的一种可能的实现方式中，RPA机器人还可以识别公文内容是否存在缺失的公文要素，若存在，则提示相关人员对公文文件进行修改。下面结合图5，对上述过程进行详细说明。

图5为本公开实施例所提供的另一种基于AI和RPA的公文文件处理方法的流程示意图。

如图5所示，在上述任一实施例的基础上，该基于AI和RPA的公文文件处理方法还可以包括以下步骤：

步骤501，控制RPA机器人识别公文内容的目标公文要素。

应当理解的是，公文文件具有设定的公文格式，每个公文要素在公文文件中特定的位置处，因此本公开中，RPA机器人可以根据公文文件的公文格式，识别公文内容的目标公文要素。

步骤502，根据预设参考公文要素和目标公文要素，确定公文内容中是否存在缺失的公文要素。

在本公开实施例中，参考公文要素是根据公文格式确定的，比如，参考公文要素可以包括份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、主送机关、正文、附件说明、发文机关署名、成文日期、印章、附注、附件、抄送机关、印发机关和印发日期、页码这十八项公文要素。

在本公开实施例中，可以将目标公文要素与参考公文要素进行比对，以确定公文内容中是否存在缺失的公文要素。例如，在参考公文要素中包括的某一公文要素，未包含在目标文本要素中，则可以确定公文内容中存在缺失的公文要素。

即，本公开中，可以确定包含在参考公文要素中，且未包含在目标公文要素中的子公文要素，将该子公文要素作为公文内容中缺失的公文要素。

步骤503，响应于公文内容中存在缺失的公文要素，生成并发送第二提示信息，其中，第二提示信息，用于提示公文文件中缺失的公文要素。

在本公开实施例中，在公文内容中存在缺失的公文要素的情况下，可以控制RPA机器人根据公文内容中缺失的公文要素，生成第二提示信息，并发送该第二提示信息，以提示相关人员该公文文件中存在缺失的公文要素，从而可以由相关人员对公文文件进行修改。

举例而言，参考公文要素中包括18项公文要素，而目标公文要素中包括17项公文要素，将目标公文要素与参考公文要素进行比对，确定公文内容中缺失的公文要素为“抄送机关”，则RPA机器人生成的提示信息可以为“公文文件中缺少抄送机关”。

本公开实施例的基于AI和RPA的公文文件处理方法，通过控制RPA机器人识别公文内容的目标公文要素；根据预设参考公文要素和目标公文要素，确定公文内容中是否存在缺失的公文要素；响应于公文内容中存在缺失的公文要素，生成并发送第二提示信息，其中，第二提示信息，用于提示公文文件中缺失的公文要素。由此，可以通过RPA机器人自动识别公文文件的公文内容中是否存在缺失的公文要素，并在公文内容中存在缺失的公文要素的情况下，提示相关人员，从而可以由相关人员对公文文件进行修改，以保证公文文件的准确性和完整性。

在本公开实施例的一种可能的实现方式中，RPA机器人还可以识别公文内容是否存在字词错误、标点使用错误等错误类型，若存在，则提示相关人员对公文文件进行修改。下面结合图6，对上述过程进行详细说明。

图6为本公开实施例所提供的另一种基于AI和RPA的公文文件处理方法的流程示意图。

如图6所示，在上述任一实施例的基础上，该基于AI和RPA的公文文件处理方法还可以包括以下步骤：

步骤601，控制RPA机器人识别公文内容的错误类型，其中，错误类型包括：字词错误、标点使用错误、序号使用错误、字体使用错误、字号使用错误、段落格式错误、重复类型错误、排序不当、语句不通、用词不当、语录引用错误和附件标题错误中的至少一项。

其中，字词错误可以包括：谐音字词错误、混淆音字词错误、形似字错误、字词缺少和语法错误等。比如，“一幅画”的谐音字词为“一副画”，“亲爱的”的混淆音字词为“亲奈的”，“已经”的形似字为“己经”，“每逢佳节”缺少字词后为“逢佳节”，“出人意料”的语法错误为“意料出人”。

在本公开实施例中，RPA机器人可以对公文内容进行分词处理，得到各字词，并将各字词与预设文本库中的各个字词进行匹配，以确定公文内容中是否存在字词错误，比如识别成语、常用词、专名(机构、人名等)、专业术语等是否存在错别字。其中，预设文本库中可以包括各个字词的正确读音、各个字词的正确书写和各个字词间的正确语法等。

在本公开实施例中，RPA机器人可以对公文内容中的每个段落进行标点识别，若在段落的起始位置存在结束标点，则该段落的起始位置的标点使用错误；若在段落的结束位置存在非结束标点，则该段落的结束位置的标点使用错误；若段落中存在连续标点，则段落中的标点使用错误。

举例而言，若在段落的起始位置存在问号、句号、感叹号等结束标点，则该段落的起始位置的标点使用错误。又比如，若段落的结束位置存在逗号、顿号等非结束标点，则该段落的结束位置的标点使用错误。又比如，若段落中存在多个相同或不同的连续标点，则该段落中的标点使用错误。

在本公开实施例中，序号使用错误可以包括序号重复错误、序号不连续错误。RPA机器人可以对公文内容中的各序号进行比对，以确定序号是否重复、序号是否不连续。

在本公开实施例中，RPA机器人可以识别公文文件中公文内容的字体，并将识别的字体与公文文件对应的设定字体进行比对，在识别的字体与设定字体不匹配的情况下，可以确定字体使用错误。

在本公开实施例中，RPA机器人可以识别公文文件中公文内容的字号，并将识别的字号与公文文件对应的设定字号进行比对，在识别的字号与设定字号不匹配的情况下，可以确定字号使用错误。

在本公开实施例中，RPA机器人可以识别公文文件中公文内容中各段落的段落格式，并将识别得到的段落格式与公文文件对应的设定段落格式进行比对，在识别得到的段落格式与设定段落格式不匹配的情况下，可以确定段落格式错误，比如未首行缩进。

在本公开实施例中，重复类型错误可以包括段落重复错误、句子重复错误、标题重复错误。RPA机器人可以对公文内容中不同段落进行字符串比对，以确定不同段落中是否存在重复的段落。比如，RPA机器人可以确定不同段落中的相同字符串的长度。若相同字符串的长度大于预设阈值，则确定不同段落中包含重复句子，此时，公文内容的错误类型包括重复类型错误。

举例而言，在对不同段落进行比对的过程中，可以标识不同段落间重复字符串的起始位置和结束位置，根据起始位置和结束位置，确定重复字符串的长度，若重复字符串的长度大于20，则确定段落包括重复类型错误。

同理，RPA机器人可以对不同段落进行字符串比对，以确定不同段落中是否存在重复的句子，或者，RPA机器人可以对同一段落中各句子进行比对，以确定同一段落中是否存在重复的句子。并且，RPA机器人可以对公文内容中的同级标题进行比对，以确定标题中是否存在重复的标题。

在本公开实施例中，排序不当可以包括人名、机构等名称排序不当。即，各名称具有对应的优先级，可以按照优先级，将各名称进行依次排列。RPA机器人可以识别公文内容中各名称的优先级，判断各名称是否按照对应的优先级排列，若否，则确定公文内容的错误类型包括排序不当。

在本公开实施例中，RPA机器人可以识别公文内容中各语句的语法，根据各语句的语法，确定各语句是否不通顺，在确定某个语句不通顺的情况下，可以确定公文内容的错误类型包括语句不通。

在本公开实施例中，RPA机器人可以识别公文内容中各语句的语义，根据各语句的语义，确定各语句中是否存在用词不当，在确定某个语句用词不当的情况下，可以确定公文内容的错误类型包括用词不当。

举例而言，语句中包括“A耐心地向B请教问题”，根据该语句的语义，可以确定“耐心”用词不当，应该为“虚心”。

在本公开实施例中，可以预先建立名人语句库，该名人语句库中包括名人和经典语录之间的对应关系，从而本公开中，RPA机器人可以将公文内容中引用的语录与名人语句库中的经典语录进行匹配，以确定公文内容中是否存在语录引用错误。

需要说明的是，一般情况下，公文文件的附件标题与公文文件中公文内容的标题之间具有一定的相关度，即附件标题与公文内容的标题之间的文本相似度应高于设定阈值，比如，附件标题和公文内容的标题可以属于同一事件。因此，本公开实施例中，RPA机器人可以根据附件标题和公文内容的标题之间的文本相似度，来确定公文内容的错误类型是否包括附件标题错误。

步骤602，控制RPA机器人根据错误类型生成并发送第三提示信息，其中，第三提示信息，用于提示根据错误类型对公文文件进行纠正处理。

在本公开实施例中，可以控制RPA机器人识别公文内容的错误类型，并根据错误类型，生成第三提示信息，并发送该第三提示信息，以提示相关人员公文文件中存在的错误类型，从而可以由相关人员根据错误类型对公文文件进行对应修改。

作为一种示例，RPA机器人可以识别公文内容中是否存在字词错误，比如，公文内容中包括词语“追塑”，RPA机器人识别该公文内容的错误类型为字词错误，可以生成并发送提示信息，例如，提示信息可以为“【追塑】中有错别字，应该是【追溯】”。

作为一种示例，RPA机器人可以识别公文内容中是否存在标点使用错误，比如，公文内容中包括语句“踏上新的征程，迈入新的历史阶段，。”，RPA机器人识别该语句中的句尾存在重复标点，则RPA机器人可以确定该公文内容的错误类型为标点使用错误，可以生成并发送提示信息，例如，提示信息可以为“【，。】标点使用错误，应该是【。】”。

作为一种示例，RPA机器人可以对公文内容的上下文信息进行对比，以识别公文内容中是否存在序号使用错误，比如，公文内容中包括“1.用于控制成本；3.用于提高生产效率”。RPA机器人识别该公文内容的错误类型为序号使用错误，可以生成并发送提示信息，例如，提示信息可以为“【1.用于…；3.用于…】序号使用错误，应该是【1.用于…；2.用于…】”。

作为一种示例，RPA机器人可以识别公文内容字体，当存在语句或字词的字体与设定字体不符的情况下，RPA机器人可以确定公文内容对应的错误类型为字体使用错误，比如，公文内容中的“现代化”字体为宋体，公文内容对应的设定字体为楷体，则RPA机器人可以生成并发送提示信息，例如，提示信息可以为“【现代化】字体为宋体，是否修改为楷体”。

作为一种示例，RPA机器人可以识别公文内容字号，当存在语句或字词字号与设定字号不符的情况下，RPA机器人可以确定公文内容对应的错误类型为字号使用错误，比如，公文内容中“现代化”字号为三号，公文内容对应的设定字号为四号，则RPA机器人可以生成并发送提示信息，例如，提示信息可以为“【现代化】字号为三号，是否修改为四号字号”。

作为一种示例，RPA机器人可以识别公文内容中各段落格式，当存在段落格式与设定的段落格式不匹配的情况，RPA机器人可以确定公文内容对应的错误类型为段落格式错误。比如，公文内容中段落“机遇与危险共存的机制下，…”中，段首未首行缩进，则RPA机器人可以生成并发送提示信息，例如，提示信息可以为“【机遇与…】段首没有缩进”。

作为一种示例，RPA机器人可以识别公文内容中是否存在重复类型错误，当公文内容存在段落重复错误时，可以生成并发送提示信息，比如，提示信息可以为“【xxxxxxxxx】段落重复”；或者，当公文内容存在句子重复错误时，可以生成并发送提示信息，比如，提示信息可以为“【xxxxxxxx】语句重复”；同理，当公文内容存在标题重复错误时，可以生成并发送提示信息，比如，提示信息可以为“【xxxxxx】标题重复”。

作为一种示例，RPA机器人可以识别公文内容中是否存在排序不当的名称，比如，公文内容中“部门1、部门2、部门3”存在名称排序不当。RPA机器人识别各部门名称的优先级别，判断各部门的名称没有按优先级排列，则可以生成并发送提示信息，比如，提示信息可以为“【部门1、部门2、部门3】排序不当，应该是【部门1、部门3、部门2】”。

作为一种示例，RPA机器人可以识别公文内容中各语句的语法，当存在语句不通时，则可以生成并发送提示信息，比如，提示信息可以为“【xxx…】语句不通”。

作为一种示例，RPA机器人可以识别公文内容中各语句的语义，当存在用词不当时，比如，公文内容中包括语句“A耐心地向B请教问题”，RPA机器人识别到“耐心”应该是“虚心”后，可以生成并发送提示信息，比如，提示信息可以为“【A耐心地向B请教问题】用词不当，可将【耐心】修改为【虚心】”。

作为一种示例，RPA机器人可以识别公文内容中引用的语录，将公文内容中引用的语录与名人语句库中的经典语录进行匹配，当引用的语录与经典语录不匹配时，即存在语录引用错误后，可以生成并发送提示信息，比如，提示信息可以为“【xxxxxxxx】语录引用错误，应该是【xxxxx】”。

作为一种示例，当RPA机器人确定附件标题与公文内容的标题之间的文本相似度低于设定阈值时，RPA机器人可以确定存在附件标题错误，可以生成并发送提示信息，比如，提示信息可以为“【xxxxxxxx】附件标题错误”。

同理，RPA机器人识别到其他的错误类型后，可以生成相应的提示信息，并发送该提示信息，以提醒相关人员该公文内容中存在错误类型，并提出对应的修改建议，在此不做赘述。

需要说明的是，本公开上述生成并发送的提示信息，以及错误类型仅是示例性的，但本公开并不限于此，在实际应用时，生成并发送的提示信息内容也可以与上述例子提出的提示信息内容不同，错误类型也可以包括其他错误。

本公开实施例的基于AI和RPA的公文文件处理方法，通过控制RPA机器人识别公文内容的错误类型，其中，错误类型包括：字词错误、标点使用错误、序号使用错误、字体使用错误、字号使用错误、段落格式错误、重复类型错误、排序不当、语句不通、用词不当、语录引用错误和附件标题错误中的至少一项；控制RPA机器人根据错误类型生成并发送第三提示信息，其中，第三提示信息，用于提示根据错误类型对公文文件进行纠正处理。由此，可以由RPA机器人自动识别公文内容的错误类型，降低人工审核公文文件的难度，提高公文文件的审核效率。并且，根据公文内容对应的错误类型，生成并发送提示信息，可以提醒相关人员及时对公文文件进行修改，保证修改后的公文文件中公文内容的准确性。

作为一种示例，本公开的实现原理可以如图7所示，RPA机器人可以接收人工完成拟稿的公文文件，识别公文内容，并逐级完成对整篇公文内容的审核。

如图7所示，第一级，控制RPA机器人进行公文内容的篇章级错误检测。比如，检测公文内容是否存在缺失的公文要素，各章节序号是否使用错误等等。

第二级，控制RPA机器人进行公文内容的段落级错误检测。在控制RPA机器人完成第一级篇章错误检测以后，可以进入第二级的错误检测，比如，检测公文内容各段落是否存在段首未缩进，各段落序号是否使用错误等等。

第三级，控制RPA机器人抽取语句，并检测抽取的各语句是否存在各错误类型对应的错误。在控制RPA机器人完成第二级篇章错误检测以后，可以进入第三级的错误检测，依次抽取公文内容中的各语句，检测各语句是否存在各错误类型对应的错误。其中，在检测各语句是否存在各错误类型对应的错误的过程中，可以分步完成检测。

例如，如图7所示，第一步，从公文内容中抽取语句，在本公开中，将抽取的语句记为源语句。比如，抽取的源语句为公文内容中的第i个语句，语句[i]“经部门1同意，…”。

第二步，纠错候选生成。在抽取语句后，RPA机器人可以提取该语句中的关键词，并从短语纠错白名单(在本公开中记为预设短语库)或从专业术语(在本公开中记为预设词典)、机构/领导名称(在本公开中记为预设词典)、领导语录(在本公开中记为预设公文语料)中，获取与“部门1”文本相似度较高的“部门2”，和/或，“部门3”等等，生成比如“经部门2同意，…”，并将生成的语句作为候选语句。

第三步，关键词检索。可以对抽取的语句提取关键词“部门1”，从修改例句库中的各公文例句中，获取至少一个与关键词“部门1”匹配的公文例句，比如，“经部门3同意，…”，并将该公文例句作为候选语句。其中，修改例句库可以包括从问题公文库抽取的语句，和/或，从修改记录中获取的语句，和/或，从优秀公文库/政策公文库抽取的语句，并对从优秀公文库/政策公文库抽取的语句进行关键词随机替换(比如，“追塑”替换“追溯”)，生成的新语句。

第四步，通过语言模型输出各语句(包括源语句和各候选语句)的ppl(即困惑度)，并根据困惑度对各语句进行排序，比如，可以按照困惑度的取值，由小至大地对各语句进行排序。即，本公开中，可以对抽取的源语句以及获取的各候选语句中的任一语句，利用ppl的计算公式(1)，计算抽取的源语句以及获取的各候选语句对应的ppl值：

其中，S表示上述任一语句，PP(S)表示该任一语句的困惑度，N表示该任一语句包含的子词个数，P(w_i)表示该任一语句中的第i个位置的子词w_i的概率，p(w_i|w₁w₂…w_i-1)表示子词w_i的条件概率。

在计算出各语句对应的ppl值后，可以选取ppl值最小(即匹配度最大)的语句。比如，语句“经部门1同意，…”对应的ppl值为59.01，语句“经部门2同意，…”对应的ppl值为34.59，语句“经部门3同意，…”对应的ppl值为121.29，则可以选取ppl值最小的语句“经部门2同意，…”，作为目标语句。

并且，考虑到上述两步获取的候选语句中，可能存在大量不精确的候选语句等因素，为了提升源语句修改结果的准确性，可以先对源语句对应的各候选语句进行筛选，通过源语句所在的上下文语句之间的关联度，确定与任一候选语句关联度较高的关联语句，从而根据关联语句，确定该候选语句与源语句之间的相似度，之后，可筛选并保留相似度高于设定相似度阈值的候选语句。

比如，当抽取的源语句存在上下文信息时，可以以抽取的源语句为中心，截取设定窗口长度内的目标文本信息，即截取设定窗口长度的上下文。将源语句中提取的关键词或短语记为orig，将各候选短语中与该orig匹配的任一短语，记为候选短语sub，标记目标文本信息中的任一短语记为S_i，则RPA机器人可以根据LLR(S_i,sub)，确定该短语S_i和候选短语sub之间的关联度。其中，LLR是指对数似然比(log-likelihood ratio)，用于衡量两个词语的搭配强度。i为正整数，且i小于或者等于目标文本信息所包含的短语个数。在确定候选短语sub与目标文本信息中各短语之间的关联度后，可以选取关联度高于设定阈值的关联短语S_r，则S_r＝argmaxLLR(S_i,sub)。基于关联短语S_r，计算orig与候选短语sub之间的相似度Sim(orig,S_r,sub)，例如，可以利用步骤406中公式(2)，计算orig与sub之间的相似度：

Sim(orig,S_r,sub)＝click/(display-click)； (2)

其中，display是指目标文本信息中各短语发送提示信息的次数，其中，各短语的提示信息，是在采用步骤102至105，确定各短语对应的目标短语与对应短语存在差异的情况下生成的。

click是指提示信息的采纳次数，即人工或RPA机器人采纳该提示信息，以根据提示信息，修改对应短语。(display-click)，是指提示信息的忽略次数。

当orig没有上下文信息，或者，display-click＝0时，可以将设定取值，作为orig与sub之间的相似度。

或者，当orig没有上下文信息，或者，display-click＝0时，可以根据RPA机器人历史处理记录，确定orig与sub之间的相似度，即可以查询RPA机器人已处理过的各短语对应的提示信息的历史展现次数display'，以及各短语的历史采纳次数click'，根据历史展现次数display'和历史采纳次数click'，基于公式(3)确定orig与候选短语sub之间的相似度。

Sim(orig,sub)＝click'/(display'-click')； (3)

或者，也可以根据目标文本信息中各短语的修改次数，以及提示信息的采纳次数，对click进行修正。比如，可以将修改次数和采纳次数进行加权求和，得到click。

如此，可筛选出与orig相似度高于设定阈值的候选短语，从而可以利用相似度较高的候选短语替换源语句中的orig，生成候选语句。

第五步，生成修改建议。在计算出抽取的源语句与各候选语句对应的ppl值，并根据各语句的ppl值，对各语句进行排序后，可以选取排序在前的ppl值最小(即匹配度最大)的语句，作为源语句的目标语句，并判断目标语句与源语句之间是否存在差异，若是，则根据目标语句和源语句之间的差异，生成源语句对应的修改建议。

RPA机器人在生成修改建议并发送该修改建议的情况下，人工或者RPA机器人可采纳或忽略该修改建议。

第六步，采纳或忽略。人工或者RPA机器人在采纳修改建议后，RPA机器人可对公文内容作对应修改，并且，可以将此次修改后的源语句存入修改记录，将修改后的源语句存入问题公文库，以建立修改例句库；人工或者RPA机器人在忽略修改建议后，候选短语被淘汰，即纠错候选退场，将候选短语存入短语纠错白名单(本公开记为预设短语库)。

由此，基于本公开实施例的方法，通过控制RPA机器人，可以快速完成对公文文件的审核。

考虑到不同公司生成公文的规则不一、生成各个公司的公文数据不一样的情况，人工审核公文文件时，需要跟各个公司公文数据进行核对，反复切换对比，带来了巨大的工作量；且，人工审核公文文件时，可能涉及多个系统/平台，需要反复切换系统/平台，过程繁琐，使得审核人员(或者业务员，或者工作人员)体验不佳；而且，当公文文件需修改的数据项较多时，需要人工逐一处理众多数据项，并将错误信息与校验结果反复核对，耗费时间过长，而且容易录入错误，对公文文件的审核操作性强、处理工作重复、价值较低。

而本公开中，通过RPA机器人自动识别公文文件，并根据不同规则、不同公文数据库，完成公文文件的自动审核，可以极大的解放人力劳动，降低人工处理公文内容的负担和人工审核的难度，且无需人工处理低价值、无效的工作，可以减轻审核人员的工作压力，也提高了公文文件的审核效率。此外，通过RPA机器人审核的方式，还可以提升公文内容审核结果的准确性、一致性、完整性，可以将核对无误的数据提供给审核人员(或者业务员，或者工作人员)直接使用，保证公文文件审核的时效性。

与上述图1至图7实施例提供的基于AI和RPA的公文文件处理方法相对应，本公开还提供一种基于AI和RPA的公文文件处理装置，由于本公开实施例提供的基于AI和RPA的公文文件处理装置与上述图1至图7实施例提供的基于AI和RPA的公文文件处理方法相对应，因此在基于AI和RPA的公文文件处理方法的实施方式也适用于本公开实施例提供的基于AI和RPA的公文文件处理装置，在本公开实施例中不再详细描述。

图8为本公开实施例提供的一种基于AI和RPA的公文文件处理装置的结构示意图。

如图8所示，该基于AI和RPA的公文文件处理装置800可以包括：第一识别模块801、第一获取模块802、第一确定模块803、第二确定模块804及生成模块805。

其中，第一识别模块801，用于控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容。

第一获取模块802，用于针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句。

第一确定模块803，用于控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各候选语句中多个词语之间的第二匹配度。

第二确定模块804，用于控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句。

第一处理模块805，用于在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对公文文件中的源语句进行修改。

在本公开实施例的一种可能的实现方式中，第一确定模块803，用于：控制RPA机器人基于自然语言处理NLP技术，对源语句进行分词处理，得到源语句中的各子词；针对各子词中的任意一个目标子词，控制RPA机器人根据源语句中位于目标子词之前的各候选子词，确定目标子词的条件概率，或者，根据设定子词，确定目标子词的条件概率；控制RPA机器人根据各子词的条件概率，确定源语句的第一匹配度。

在本公开实施例的一种可能的实现方式中，第一获取模块802，用于：控制RPA机器人根据预设短语库和/或预设词典，生成与源语句语义匹配的至少一个候选语句；和/或，控制RPA机器人从预设公文语料库中，获取与源语句语义匹配的至少一个候选语句；和/或，控制RPA机器人从修改例句库中，获取与源语句语义匹配的至少一个候选语句。

在本公开实施例的一种可能的实现方式中，该基于AI和RPA的公文文件处理方法装置800还可以包括：

截取模块，用于控制RPA机器人以源语句为中心，从公文内容中截取设定窗口长度内的目标文本信息。

第三确定模块，用于基于目标文本信息，确定源语句与各候选语句之间的相似度。

第二获取模块，用于根据各候选语句的相似度，筛选并保留相似度高于设定相似度阈值的候选语句。

在本公开实施例的一种可能的实现方式中，第三确定模块，用于：针对任意一个候选语句，确定候选语句与目标文本信息中各语句之间的关联度；从目标文本信息中的各语句中，确定关联度高于设定关联度阈值的关联语句；基于关联语句，确定源语句与候选语句之间的相似度。

第二识别模块，用于控制RPA机器人识别公文内容的目标公文要素。

第四确定模块，用于根据预设参考公文要素和目标公文要素，确定公文内容中是否存在缺失的公文要素。

第二处理模块，用于响应于公文内容中存在缺失的公文要素，生成并发送第二提示信息，其中，第二提示信息，用于提示公文文件中缺失的公文要素。

第三识别模块，用于控制RPA机器人识别公文内容的错误类型，其中，错误类型包括：字词错误、标点使用错误、序号使用错误、字体使用错误、字号使用错误、段落格式错误、重复类型错误、排序不当、语句不通、用词不当、语录引用错误和附件标题错误中的至少一项。

第三处理模块，用于控制RPA机器人根据错误类型生成并发送第三提示信息，其中，第三提示信息，用于提示根据错误类型对公文文件进行纠正处理。

本公开实施例的基于AI和RPA的公文文件处理装置，通过控制RPA机器人获取公文文件，并对公文文件进行字符识别，以得到公文内容；针对公文内容中的任意一个源语句，控制RPA机器人获取与源语句语义匹配的至少一个候选语句；控制RPA机器人确定源语句中多个词语之间的第一匹配度，以及确定各候选语句中多个词语之间的第二匹配度；控制RPA机器人根据源语句的第一匹配度和各候选语句对应的第二匹配度，从源语句与各候选语句中确定目标语句；在目标语句和源语句存在差异的情况下，控制RPA机器人根据差异，生成并发送源语句对应的第一提示信息，其中，第一提示信息用于提示根据差异对所述公文文件中的源语句进行修改。由此，可以实现通过RPA机器人自动对公文文件的公文内容进行审核，可以降低审核难度及人工参与量，提高公文文件的审核效率，提升公文文件审核的时效性和准确性。并且，通过RPA机器人对公文文件进行审核，可以释放人力资源，降低人力成本。此外，在目标语句与源语句存在差异的情况下，根据差异生成并发送提示信息，可以提醒相关人员根据差异对公文文件中的源语句进行修改，保证公文文件的准确性，提升该方法的灵活性和适用性。

为了实现上述实施例，本公开实施例还提出一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如前述任一方法实施例所述的基于AI和RPA的公文文件处理方法。

为了实现上述实施例，本公开实施例还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如前述任一方法实施例所述的基于AI和RPA的公文文件处理方法。

为了实现上述实施例，本公开实施例还提出一种计算机程序产品，当所述计算机程序产品中的指令处理器执行时，实现如前述任一方法实施例所述的基于AI和RPA的公文文件处理方法。

图9示出了适于用来实现本公开实施方式的示例性电子设备的框图。图9显示的电子设备12仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备12以通用计算设备的形式表现。电子设备12的组件可以包括但不限于：一个或者多个处理器或者处理单元16，系统存储器28，连接不同系统组件(包括存储器28和处理单元16)的总线18。

总线18表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture；以下简称：ISA)总线，微通道体系结构(Micro Channel Architecture；以下简称：MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics StandardsAssociation；以下简称：VESA)局域总线以及外围组件互连(Peripheral ComponentInterconnection；以下简称：PCI)总线。

电子设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备12访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储器28可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory；以下简称：RAM)30和/或高速缓存存储器32。电子设备12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示，通常称为“硬盘驱动器”)。尽管图9中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘(例如：光盘只读存储器(Compact Disc Read OnlyMemory；以下简称：CD-ROM)、数字多功能只读光盘(Digital Video Disc Read OnlyMemory；以下简称：DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本公开各实施例的功能。

具有一组(至少一个)程序模块42的程序/实用工具40，可以存储在例如存储器28中，这样的程序模块42包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本公开所描述的实施例中的功能和/或方法。

电子设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信，还可与一个或者多个使得用户能与该电子设备12交互的设备通信，和/或与使得该电子设备12能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且，电子设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(Local Area Network；以下简称：LAN)，广域网(Wide Area Network；以下简称：WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器20通过总线18与电子设备12的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备12使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

处理单元16通过运行存储在存储器28中的程序，从而执行各种功能应用以及数据处理，例如实现前述实施例中提及的方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种基于人工智能AI和机器人流程自动化RPA的公文文件处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述控制所述RPA机器人确定所述源语句中多个词语之间的第一匹配度，包括：

控制所述RPA机器人基于自然语言处理NLP技术，对所述源语句进行分词处理，得到所述源语句中的各子词；

针对各所述子词中的任意一个目标子词，控制所述RPA机器人根据所述源语句中位于所述目标子词之前的各候选子词，确定所述目标子词的条件概率，或者，根据设定子词，确定所述目标子词的条件概率；

控制所述RPA机器人根据各所述子词的条件概率，确定所述源语句的第一匹配度。

3.根据权利要求1所述的方法，其特征在于，所述控制RPA机器人获取与所述源语句语义匹配的至少一个候选语句，包括：

控制所述RPA机器人根据预设短语库和/或预设词典，生成与所述源语句语义匹配的至少一个候选语句；

和/或，

控制所述RPA机器人从预设公文语料库中，获取与所述源语句语义匹配的至少一个候选语句；

和/或，

控制所述RPA机器人从修改例句库中，获取与所述源语句语义匹配的至少一个候选语句。

4.根据权利要求3所述的方法，其特征在于，所述控制RPA机器人获取与所述源语句语义匹配的至少一个候选语句之后，所述方法还包括：

控制所述RPA机器人以所述源语句为中心，从所述公文内容中截取设定窗口长度内的目标文本信息；

基于所述目标文本信息，确定所述源语句与各所述候选语句之间的相似度；

根据各所述候选语句的相似度，筛选并保留所述相似度高于设定相似度阈值的所述候选语句。

5.根据权利要求4所述的方法，其特征在于，所述基于所述目标文本信息，确定所述源语句与各所述候选语句之间的相似度，包括：

针对任意一个所述候选语句，确定所述候选语句与所述目标文本信息中各语句之间的关联度；

从所述目标文本信息中的各语句中，确定关联度高于设定关联度阈值的关联语句；

基于所述关联语句，确定所述源语句与所述候选语句之间的相似度。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

控制所述RPA机器人识别所述公文内容的目标公文要素；

根据预设参考公文要素和所述目标公文要素，确定所述公文内容中是否存在缺失的公文要素；

响应于所述公文内容中存在缺失的公文要素，生成并发送第二提示信息，其中，所述第二提示信息，用于提示所述公文文件中缺失的公文要素。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

控制所述RPA机器人识别所述公文内容的错误类型，其中，所述错误类型包括：字词错误、标点使用错误、序号使用错误、字体使用错误、字号使用错误、段落格式错误、重复类型错误、排序不当、语句不通、用词不当、语录引用错误和附件标题错误中的至少一项；

控制所述RPA机器人根据所述错误类型生成并发送第三提示信息，其中，所述第三提示信息，用于提示根据所述错误类型对所述公文文件进行纠正处理。

8.一种基于人工智能AI和机器人流程自动化RPA的公文文件处理装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块，用于：

10.根据权利要求8所述的装置，其特征在于，所述第一获取模块，用于：

和/或，

11.根据权利要求10所述的装置，其特征在于，所述装置还包括：

截取模块，用于控制所述RPA机器人以所述源语句为中心，从所述公文内容中截取设定窗口长度内的目标文本信息；

第三确定模块，用于基于所述目标文本信息，确定所述源语句与各所述候选语句之间的相似度；

第二获取模块，用于根据各所述候选语句的相似度，筛选并保留所述相似度高于设定相似度阈值的所述候选语句。

12.根据权利要求11所述的装置，其特征在于，所述第三确定模块，用于：

13.一种电子设备，其特征在于，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-7中任一所述的方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1-7中任一所述的方法。

15.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。