CN111680634A

CN111680634A - 公文文件处理方法、装置、计算机设备及存储介质

Info

Publication number: CN111680634A
Application number: CN202010523793.0A
Authority: CN
Inventors: 金晓辉; 阮晓雯; 徐亮
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-06-10
Filing date: 2020-06-10
Publication date: 2020-09-18
Anticipated expiration: 2040-06-10
Also published as: WO2021121158A1; US11914968B2; US20220414345A1; CN111680634B

Abstract

本发明属于大数据领域，尤其涉及一种公文文件处理方法、装置、计算机设备及存储介质。所述方法包括：对待评审公文文件进行格式解析后，获取标准文件类型的待评审公文文件，并识别标准文件类型的待评审公文文件中的所有文件成分内容；通过预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后，获取格式检测结果、内容检测结果和版式检测结果；通过格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与检测错误内容对应的标准写作规则，将检测错误内容和标准写作规则标注在待评审公文文件中。本发明还涉及区块链技术，所述标准写作规则存储于区块链中。通过本发明能提高公文文件的评审效率。

Description

公文文件处理方法、装置、计算机设备及存储介质

技术领域

本发明涉及大数据的数据分析领域，尤其涉及一种公文文件处理方法、装置、计算机设备及存储介质。

背景技术

目前，在将要发布公文文件时，首先需要对公文文件的规范进行评审，在现有技术中，需要人工对公文文件的文面格式和要求等进行详尽的评审，在人工评审公文文件的过程中，要求评审人员对《党政机关公文处理工作条例》的15类公文文种中不同组成要素的各个评审规范都了如指掌，但目前各机关部门的公文文件产出量大，若采用人工针对每次不同的公文文件去进行逐字逐句的评审，耗时耗力，而且极易出现评审规范点遗漏的问题。因此本领域人员亟需寻找一种可自动对公文文件进行精准评审的方法以解决上述提到的问题。

发明内容

基于此，有必要针对上述技术问题，提供一种公文文件处理方法、装置、计算机设备及存储介质，用于自动化对公文文件进行评审处理，以提高公文文件的评审效率和评审精准度。

一种公文文件处理方法，包括：

接收用户发送的包含待评审公文文件的评审请求，对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后，获取标准文件类型的所述待评审公文文件，并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容；

通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后，获取格式检测结果、内容检测结果和版式检测结果；所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果；所述文本内容检测包括对所述文件成分内容进行内容检测后，获取内容检测结果；所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，获取版式检测结果；

通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

一种公文文件处理装置，包括：

识别模块，用于接收用户发送的包含待评审公文文件的评审请求，对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后，获取标准文件类型的所述待评审公文文件，并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容；

获取模块，用于通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后，获取格式检测结果、内容检测结果和版式检测结果；所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果；所述文本内容检测包括对所述文件成分内容进行内容检测后，获取内容检测结果；所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，获取版式检测结果；

发送模块，用于通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述公文文件处理方法。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述公文文件处理方法。

上述公文文件处理方法、装置、计算机设备及存储介质，通过分布式框架构建的预设文本处理模型同时实现待评审公文文件多种规范化要求的评审 (包括对待评审公文文件的文本格式、文本内容和框架版式的评审处理)，不仅无需借助人力，而且可快速精准完成一篇待评审公文文件的评审，能确保文件评审规范点不被遗漏，可见能提高评审效率和评审精准度；且每一种规范化要求的评审是单独存在并不互相影响，并以批注方式将检测错误内容和标准写作规则标注在待评审公文文件中的预设位置，从而用户可直接根据批注内容对待评审公文文件进行修改。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例中公文文件处理方法的一应用环境示意图；

图2是本发明一实施例中公文文件处理方法的一流程图；

图3是本发明一实施例中公文文件处理装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的公文文件处理方法，可应用在如图1的应用环境中，其中，客户端通过网络与服务器进行通信。其中，客户端可以但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一实施例中，如图2所示，提供一种公文文件处理方法，以该方法应用在图1中的服务器为例进行说明，包括如下步骤：

S10，接收用户发送的包含待评审公文文件的评审请求，对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后，获取标准文件类型的所述待评审公文文件，并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容；

可理解地，待评审公文文件可为各种机关和机构中待审查规范的公文文件，其中，每一种待评审公文文件至少存在一个以上的标准公文文件所具备的规范化要求，该规范化要求可包括但不限于文件格式、文件内容、文件文字格式和文件排版等，具体地，用户可在显示设备选择出待评审公文文件的评审要求后由该显示设备发出该评审请求，其中，该评审要求是可对待评审公文文件中所有的规范化要求进行检测；识别标准文件类型的待评审公文文件是将结构化的文本数据(待评审公文文件)转换为有意义的文本数据而进行文本解析的过程，该过程结束之后可以得到各种结构成分的文件成分内容，其中，识别过程中可使用语言、统计和机器学习模型等多种解析技术，在本实施例中主要是从待评审公文文件中分析、挖掘和识别出所有文件成分内容，其中，本实施例提到的文件成分内容包括文件文号、文件标题、文件主送单位、文件正文、文件落款、文件附件和文件公文附注等；预设bert模型是一种可用于对待评审公文文件的文件成分内容进行分析的语言表征模型，该bert 模型具体的训练过程为：首先需要训练待评审公文文件中的文件成分内容进行标注，接着对bert模型进行建模，且在对bert模型训练之前可根据待评审公文文件中已标注成功的文件成分内容对bert模型中已有的词向量进行增强训练，以令词向量表征的分布更贴合于待评审公文文件，且在对bert模型训练时可通过bert-base的基础上对bert模型不断进行微调以令词向量分布更加合理，最后对所有的词向量训练完成后，可从bert模型输出位置获取待评审公文文件的文件成分内容分类(一种类别可代表一个文件成分内容)的分类结果，该分类结果输出的形式为待评审公文文件中不同文件成分内容所对应的概率，将分类结果中的各个概率与其预设阈值进行对比后，就可确定出该分类结果所对应的文件成分内容。本实施例中，服务器上设置了一个接口来专门接收用户在发出评审请求时而同时上传的待评审公文文件，但用户上传的待评审公文文件可能存在多种文件类型，其中，文件类型包括但不限于.docx 或.doc或.pdf等，因此为了统一且快速识别出待评审公文文件，可通过该服务器中的文件类型转换模块来将待评审公文文件的文件类型转换成所需的标准文件类型，标准文件类型可为.docx或.doc或.pdf中的任意一种，且本实施例也通过预设bert模型从结构化的待评审公文文件中识别和确认出各种结构的文件成分内容，从而方便于后续对其中一个或多个文件成分内容进行数据处理。

S20，通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后，获取格式检测结果、内容检测结果和版式检测结果；所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果；所述文本内容检测包括对所述文件成分内容进行内容检测后，获取内容检测结果；所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，获取版式检测结果；

可理解地，格式检测结果是通过规则引擎来完成，其中，规则引擎具体执行主要分为接受数据输入，解释预设规则和根据预设规则做出规则决策过程，具体地，本实施例是通过格式检测规则来对待评审公文文件的文件成分内容进行文件格式检测，主要是在规则引擎的运行过程通过关键词检索技术别对各文件成分内容执行与其对应的格式检测规则，可见，各种成分内容对应的格式检测规则并不一致，因此一种成分内容至少对应一种格式检测规则，比如，在待评审公文文件为公文文件时，其中公文文件存在一个文件文号，而文件文号是由发文单位代字+年份+序号组成的格式条，此时通过规则引擎中的关键词检索技术提取该待评审公文文件中的文件文号所对应的文本格式关键词，并判断该文本格式关键词是否与文件文号对应的格式检测规则(格式条所要求的文本格式关键词)一致，从而来确定出待评审公文文件中的文件成分内容中的文件文号的文件格式是正确或错误的检测结果(上述提到的一致可确定出该文件成分内容的文件格式是正确，反之亦然，其他文件成分内容同理检测)。本实施例利用规则引擎来对待评审公文文件的文件格式进行检测，是因为规则引擎是可基于预设规则去执行检测，无需进行编码，方便对格式检测规则进行修改而适应待评审公文文件的格式检测规则的变化，且利用规则引擎可提升检测速度，并可将规则引擎输出且与各种文件成分内容关联的格式检测结果在规则引擎中集中记录以便于导出使用。

内容检测结果是通过NLP算法引擎来完成，其中，NLP(natural languageprocessing,NLP)算法引擎为自然语言处理算法引擎，其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系(在此中的句子存在各种文件成分内容中)，在本实施例中NLP算法引擎的运行任务可总结为错别字识别、俚语识别、人名识别和词性标注，具体地，本实施例中的NLP算法引擎是通过与其对应的错别字识别、俚语识别、人名识别和词性标注模型来检测待评审公文文件的文件内容的表述、组合及标点的正确与错误，其中，表述错误包括但不限于错别字、文字重复、俚语或网络用语等，比如，在“统计信息中心中心健康医疗大数据”中，“中心”二字重复出现，则为上述提到的表述错误中的文字错误，在“打这儿开始收集健康医疗数据”中，“打这儿” 为俚语，则为上述提到的表述错误中的俚语，组合错误主要为一些词语与词语的搭配应当不予出现在特定的场景的待评审公文文件中，比如在会议纪要的场景对应的待评审公文文件中，一般人民不直接与动词进行搭配，标点错误包括常规标点错误和固定搭配点错误，比如，小标题“一”后面要加“、”， “科技+金融”中引号和加号的使用。本实施例利用NLP算法引擎对文本解析后的文件成分内容进行文件内容的检测，能基于人类的思维和语言的习惯来较准确检测出内容检测结果，并提升检测的效率。

版式检测结果是通过NLP算法引擎来完成，其中，OCR(Optical CharacterRecognition)算法引擎为光学字符识别算法引擎，其通过图像处理和模式识别技术对光学字符进行识别，具体地，本实施例中的OCR算法引擎主要是将标准文件类型的待评审公文文件转换为预设文件类型的待评审公文文件以实现对预设文件类型的待评审公文文件进行框架版式检测(其中，框架版式包括文字格式和排版)，并以待评审公文文件中的一页文件的任意两边为坐标轴，解析待评审公文文件中的各个文本块后得到各个文本块中的光学字符的坐标信息，并通过光学字符的坐标信息确定出待评审公文文件的文字格式和排版是否与文字格式和排版要求的一致以确定文字格式和排版的正确与错误，比如，待评审公文文件中的文件落款要求与结束语空2行，落款靠右，待评审公文文件中的所有的页码需要求设成奇偶页不同，页码字体用宋体小四号，奇数页码在右边，并右缩进一个字符，偶数页码在左边并左缩进一个字符，并分别在奇偶页码的左右两边加上一条横线“—”，若通过光学字符的坐标信息识别出来的文字格式或/和排版不与上述文字格式和排版要求的一致，则可确定待评审公文文件的文字格式或/和排版存在错误，反之亦然。本实施例利用OCR算法引擎对标准文件类型的待评审公文文件的框架版式进行检测，是因为该OCR算法引擎对待评审公文文件中的光学字符的误识率低和识别速度高，并借用该光学字符来进一步确定出待评审公文文件的文字格式和排版的正确与错误。

S30，通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

可理解地，上述的格式检测结果、内容检测结果和版式检测结果是可通过预设文本处理模型获取，其中，预设文本处理模型中包括执行格式检测的规则引擎(对应格式检测结果)、执行文件内容检测的NLP算法引擎(对应内容检测结果)和执行框架版式检测的OCR算法引擎(对应版式检测结果)，且三种引擎分别部署在分布式框架中；检测错误内容包含了所有的格式检测结果、内容检测结果和版式检测结果中错误的检测结果，其中，检测错误内容中一个错误的检测结果至少对应一个标准写作规则；预设位置是待评审公文文件中与检测错误内容和标准写作规则对应的位置，也即是待评审公文文件中出现错误的位置。本实施例将检测错误内容和标准写作规则标注在待评审公文文件中的预设位置中，一方面是为了让用户清楚观察到错误结果和错误原因，另一方面是便于用户后续根据标准写作规则更改待评审公文文件中的检测错误内容。

进一步地，所述标准写作规则存储于区块链中，所述通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置，还包括：

将所述格式检测结果、内容检测结果和版式检测结果输入至预设评分模型进行评分，获取所述预设评分模型输出的所述待评审公文文件的评分结果；

通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容、所述评分结果和所述标准写作规则标注在所述待评审公文文件中的预设位置中，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

可理解地，预设评分模型中已预设设置了各种检测结果对应的评分分数的评分表，该预设评分模型通过查询评分表中的各维度中与检测结果对应的评分分数，并将各检测结果(格式检测结果、内容检测结果和版式检测结果) 的评分分数汇总得到待评审公文文件的评分结果(该评分结果包括总评分情况也包括单独一项检测结果对应的评分情况)，其中，评分表对应的评分分数可根据需求自行设置评分规则，比如，评分规则为待评审公文文件中出现一次错别字及错别标点符号则扣2分，并在扣满10分为止。

另外需要强调的是，为进一步保证上述标准写作规则的私密和安全性，上述标准写作规则还可以存储于一区块链的节点中。其中，本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。区块链提供的去中心化的完全分布式DNS服务通过网络中各个节点之间的点对点数据传输服务就能实现域名的查询和解析，可用于确保某个重要的基础设施的操作系统和固件没有被篡改，可以监控软件的状态和完整性，发现不良的篡改，并确保所传输的数据没用经过篡改，将标准写作规则存储在区块链中，能够确保标准写作规则的私密和安全性。

进一步地，所述文件成分内容包括文件标题；所述调用与每一个所述文件成分内容对应的格式检测规则，包括：

根据所述待评审公文文件的所述文件标题确定所述待评审公文文件的文件文种；

在所述文件文种属于预设文种时，利用所述规则引擎调用与各所述文件成分内容对应的格式检测规则；

在所述文件文种不属于预设文种时，提示所述待评审公文文件不属于公文文件。

可理解地，在评审文件为公文文件时，可通过评审文件的文件成分内容中的文件标题确定待评审公文文件的文件文种，因为公文写作要求在文件标题中体现出15种公文文种名称，而不属于15类公文文种的内容将被判定为其他文件文种。本实施例主要是为了判定待评审公文文件是否属于预设文种，从而可进一步地对预设文种的待评审公文文件进行下一步处理。

进一步地，所述对所述待评审公文文件进行格式解析之后，还包括：

在所述待评审公文文件中不存在文件内容时，提示所述用户重新上传所述待评审公文文件并驳回当前所述评审请求。

可理解地，本实施例中的待评审公文文件是用户自行上传的，在用户上传的待评审公文文件不存在文件内容时，无需对待评审公文文件进行评审，本实施例主要是用来排除不存在文件内容的待评审公文文件，避免增加服务器的工作量。其中，待评审公文文件中是否存在文件内容可通过随机在待评审公文文件中的任意区域中进行复制，并查看是否存在粘贴的内容来进行确定或者通过文字数字识别模型来进行识别确定。

进一步地，所述调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果，包括：

利用规则引擎调用与每一个所述文件成分内容对应的格式检测规则；一个所述格式检测规则中包含至少一种数据类型及各所述数据类型的组合形式的格式条；

通过所述规则引擎的关键词搜索技术提取所述文件成分内容中的文本格式关键词，并确定所述文本格式关键词是否和与其对应的所述格式检测规则中的格式条一致；一个所述文件成分内容对应至少一个所述文本格式关键词；

在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条一致时，获取所述文件成分内容的文件格式正确的所述格式检测结果；

在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条并不一致时，获取所述文件成分内容的文件格式错误的所述格式检测结果。

具体地，一个文件成分内容对应一个格式检测规则，文件文号对应发文单位代字+年份+序号(平保发〔201X〕X号)的格式检测规则，文件落款的日期对应数字年+数字月+数字日(201X年XX月XX日)的格式检测规则，其中，发文单位代字、年份、序号和数字都为数据类型，而发文单位代字+年份+序号和数字年+数字月+数字日为数据类型的组合形式的格式条，从而本实施例首先利用规则引擎调用出与每一个文件成分内容对应的格式检测规则，也即确定出各文件成分内容的格式条；接着利用规则引擎的关键词搜索技术检测各个文件成分内容中的文本格式关键词是否和与其对应的格式检测规则中的格式条一致，比如文件落款的日期中的数字年+数字月+数字日的格式条中的数字是否为阿拉伯数字等；最后通过比较一致来确定出格式检测结果以实现对待评审公文文件的文件格式正确和错误的检测。

进一步地，所述获取标准文件类型的所述待评审公文文件之后，还包括：

在检测到所述待评审公文文件中存在表格时，对所述表格进行解析，将解析之后的所述表格中的各个表格内容分别记录为所述文件成分内容。

可理解地，由于本实施例中的待评审公文文件可能存在表格或者图表等不为常规的文件成分内容，此时可通过解析表格或者图表的内容，并将表格或者图表转换为常规的文件成分内容，从而保证待评审公文文件各文件成分内容在评审过程中的完整性。

进一步地，所述对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，包括：

将标准文件类型的所述待评审公文文件转化成预设文件类型，得到预设文件类型的所述待评审公文文件；

利用OCR算法引擎将预设文件类型的所述待评审公文文件，输入与所述待评审公文文件的文本文种关联的文件块划分模型，接收所述文件快划分模型输出的划分文本块，提取所述划分文本块的坐标信息；所述坐标信息表征了所述划分文本块的大小和位置；

根据所述坐标信息对标准文件类型的所述待评审公文文件的文字格式和排版进行框架版式检测。

可理解地，待评审公文文件要很好被OCR算法引擎进行识别检测，可首先将标准文件类型的待评审公文文件转化成预设文件类型的待评审公文文件 (比如PDF文件类型的待评审公文文件)，从而保证识别检测过程中的稳定性；文件块划分模型是为了将预设文件类型的待评审公文文件划分成多个可便于识别的文本块，其中，每个文本块存在至少一个光学字符，每个光学字符可对应至少一个坐标信息，也通过该坐标信息确定出文本块中的光学字符的大小和位置，因此最后可通过该文本块中的光学字符的坐标信息确定出文本块文字格式和排版是否与文字格式和排版要求的一致以实现对待评审公文文件的文字格式和排版的检测。

综上所述，上述提供了一种公文文件处理方法，通过分布式框架构建的预设文本处理模型同时实现待评审公文文件多种规范化要求的评审(包括对待评审公文文件的文本格式、文本内容和框架版式的评审处理)，不仅无需借助人力，而且可快速精准完成一篇待评审公文文件的评审，能确保文件评审规范点不被遗漏，可见能提高评审效率和评审精准度；且每一种规范化要求的评审是单独存在并不互相影响，并以批注方式将检测错误内容和标准写作规则标注在待评审公文文件中的预设位置，从而用户可直接根据批注内容对待评审公文文件进行修改。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，提供一种公文文件处理装置，该公文文件处理装置与上述实施例中公文文件处理方法一一对应。如图3所示，该公文文件处理装置包括识别模块11、获取模块12和发送模块13。各功能模块详细说明如下：

识别模块11，用于接收用户发送的包含待评审公文文件的评审请求，对所述待评审公文文件进行格式解析并获取所述待评审公文文件的文件类型后，获取标准文件类型的所述待评审公文文件，并通过预设bert模型识别标准文件类型的所述待评审公文文件中的所有文件成分内容；

获取模块12，用于通过基于分布式框架构建的预设文本处理模型同步执行文本格式检测、文本内容检测以及框架版式检测之后，获取格式检测结果、内容检测结果和版式检测结果；所述文本格式检测包括调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果；所述文本内容检测包括对所述文件成分内容进行内容检测后，获取内容检测结果；所述框架版式检测包括对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，获取版式检测结果；

发送模块13，用于通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

进一步地，所述标准写作规则存储于区块链中，所述发送模块包括：

第一获取子模块，用于将所述格式检测结果、内容检测结果和版式检测结果输入至预设评分模型进行评分，获取所述预设评分模型输出的所述待评审公文文件的评分结果；

发送子模块，用于通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容、所述评分结果和所述标准写作规则标注在所述待评审公文文件中的预设位置中，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置。

进一步地，所述获取模块包括：

第一确定子模块，用于根据所述待评审公文文件的所述文件标题确定所述待评审公文文件的文件文种；

第一调用子模块，用于在所述文件文种属于预设文种时，利用所述规则引擎调用与各所述文件成分内容对应的格式检测规则；

提示子模块，用于在所述文件文种不属于预设文种时，提示所述待评审公文文件不属于公文文件。

进一步地，所述公文文件处理装置还包括：

驳回模块，用于在所述待评审公文文件中不存在文件内容时，提示所述用户重新上传所述待评审公文文件并驳回当前所述评审请求。

进一步地，所述获取模块包括：

第二调用子模块，用于利用规则引擎调用与每一个所述文件成分内容对应的格式检测规则；一个所述格式检测规则中包含至少一种数据类型及各所述数据类型的组合形式的格式条；

第二确定子模块，用于通过所述规则引擎的关键词搜索技术提取所述文件成分内容中的文本格式关键词，并确定所述文本格式关键词是否和与其对应的所述格式检测规则中的格式条一致；一个所述文件成分内容对应至少一个所述文本格式关键词；

第二获取子模块，用于在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条一致时，获取所述文件成分内容的文件格式正确的所述格式检测结果；

第三获取子模块，用于在所述文件成分内容中的文本格式关键词和与其对应的所述格式检测规则中的格式条并不一致时，获取所述文件成分内容的文件格式错误的所述格式检测结果。

进一步地，所述公文文件处理装置还包括：

记录模块，用于在检测到所述待评审公文文件中存在表格时，对所述表格进行解析，将解析之后的所述表格中的各个表格内容分别记录为所述文件成分内容。

进一步地，所述获取模块包括：

转化子模块，用于将标准文件类型的所述待评审公文文件转化成预设文件类型，得到预设文件类型的所述待评审公文文件；

提取子模块，用于利用OCR算法引擎将预设文件类型的所述待评审公文文件，输入与所述待评审公文文件的文本文种关联的文件块划分模型，接收所述文件快划分模型输出的划分文本块，提取所述划分文本块的坐标信息；所述坐标信息表征了所述划分文本块的大小和位置；

检测子模块，用于根据所述坐标信息对标准文件类型的所述待评审公文文件的文字格式和排版进行框架版式检测。

关于公文文件处理装置的具体限定可以参见上文中对于公文文件处理方法的限定，在此不再赘述。上述公文文件处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储公文文件处理方法中涉及到的数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种公文文件处理方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述实施例中公文文件处理方法的步骤，例如图2所示的步骤S10至步骤 S30。或者，处理器执行计算机程序时实现上述实施例中公文文件处理装置的

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述实施例中公文文件处理方法的步骤，例如图2所示的步骤S10至步骤S30。或者，计算机程序被处理器执行时实现上述实施例中公文文件处理装置的各模块/单元的功能，例如图3所示模块11 至模块13的功能。为避免重复，这里不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM (SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种公文文件处理方法，其特征在于，包括：

2.根据权利要求1所述的公文文件处理方法，其特征在于，所述通过所述格式检测结果、内容检测结果和版式检测结果生成检测错误内容，调用出与所述检测错误内容对应的标准写作规则，将所述检测错误内容和所述标准写作规则标注在所述待评审公文文件中的预设位置，并将已标注成功的所述待评审公文文件根据所述用户指定的存放路径发送至预设接收位置，包括：

3.根据权利要求1所述的公文文件处理方法，其特征在于，所述调用与每一个所述文件成分内容对应的格式检测规则，包括：

4.根据权利要求1所述的公文文件处理方法，其特征在于，对所述待评审公文文件进行格式解析之后，还包括：

5.根据权利要求1所述的公文文件处理方法，其特征在于，所述调用与每一个所述文件成分内容对应的格式检测规则，提取所述文件成分内容中的文本格式关键词，根据所述文本格式关键词以及与其对应的所述格式检测规则中的格式条获取格式检测结果，包括：

6.根据权利要求1所述的公文文件处理方法，其特征在于，所述获取标准文件类型的所述待评审公文文件之后，还包括：

7.根据权利要求1所述的公文文件处理方法，其特征在于，所述对标准文件类型的所述待评审公文文件进行坐标信息的划分，并根据划分的所述坐标信息以对所述待评审公文文件进行框架版式检测，包括：

8.一种公文文件处理装置，其特征在于，包括：

9.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述公文文件处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述公文文件处理方法。