CN114782029A

CN114782029A - 文档审核方法、系统、计算机设备及存储介质

Info

Publication number: CN114782029A
Application number: CN202210695048.3A
Authority: CN
Inventors: 黄勇; 李勇成; 张清久
Original assignee: Beijing Shengborun High Tech Co ltd
Current assignee: Beijing Shengborun High Tech Co ltd
Priority date: 2022-06-20
Filing date: 2022-06-20
Publication date: 2022-07-22

Abstract

本申请涉及文件审批系统的领域，尤其是涉及一种文档审核方法、系统、计算机设备及存储介质，包括获取后缀名，判断后缀名是否与预设后缀名数据相符；若判断结果为是，判断目标文件的文字信息中是否存在关键信息；若判断结果为是，则提取目标文件的格式参数；判断目标文件的格式参数是否与预设的格式参数相符；若判断结果为否，则将目标文件的格式参数替换为预设的格式参数，并根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正；若判断结果为是，则根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。本发明能够而实现文档的自动审核，减少文档审核所需的人力并减少审核过程出现的失误。

Description

文档审核方法、系统、计算机设备及存储介质

技术领域

本申请涉及文件审批系统的领域，尤其是涉及一种文档审核方法、系统、计算机设备及存储介质。

背景技术

在一些用于申请审批的流程中，时常会遇到需要对说明材料等相关文档进行初步审核的情况。这种审核一般需要对文件的类型进行审核，以免在后续审批程序中遇到无法打开的情况；还需要检查文件是否包括要求的特定内容，以免因为信息遗漏而无法进行审核；同时为了便于审批人进行阅读，提高审批人的处理效率，还需要对文件的格式及错别字进行审核，并对不符合要求的格式和错别字进行修改。虽然目前的审批流程多采用电子化，但相关文档的初步审核仍由人工进行，在审核量较大的情况下，不但需要较多人力，而且容易出现失误。

发明内容

为了减少审核文档所需的人力并减少审核过程出现的失误，本申请提供一种文档审核方法、系统、计算机设备及存储介质。

第一方面，本申请提供一种文档审核方法，采用如下的技术方案：

一种文档审核方法，所述方法包括：

获取关键信息；

获取目标文件的后缀名，判断所述后缀名是否与预设的后缀名数据相符，得到第一判断结果；

若第一判断结果为否，则向使用者发出第一不合规提示信息；

若第一判断结果为是，判断目标文件的文字信息中是否存在所述关键信息，得到第二判断结果；

若第二判断结果为否，则向使用者发出第二不合规提示信息；

若第二判断结果为是，则提取目标文件的格式参数；

判断目标文件的格式参数是否与预设的格式参数相符，得到第三对比结果；

若第三判断结果为否，则将目标文件的格式参数替换为预设的格式参数，并根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正；

若第三判断结果为是，则根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。

通过采用上述技术方案，能够自动获取目标文件的类型并对目标文件是否存在关键信息进行判断，同时能够在目标文件格式有误时进行相应修改，并在存在错别字时进行相应替换，从而实现文档的自动审核，减少文档审核所需的人力并减少审核过程出现的失误。

可选的，所述获取关键信息步骤还包括：向使用者发出信息获取请求；

基于使用者响应所述信息获取请求而输入的信息，得到所述关键信息。

通过采用上述技术方案，使得审核的关键信息可以由使用者进行自定义，以便适应不同的审批程序。

可选的，若使用者没有响应所述信息获取请求，则基于预设的关键数据库得到所述关键信息。

通过采用上述技术方案，使得审批程序能够在使用者没有设置特定关键信息时，按照预设的数据进行关键信息识别，从而保障审批程序在没有人工介入的情况下亦能顺利运行。

可选的，所述方法还包括发出审批模式选择请求；基于使用者响应所述审批模式选择请求而作出的选择，形成所述预设的后缀名数据和/或所述预设的格式参数。

通过采用上述技术方案，使得审批程序能够根据使用者的审批目的选择相应的审批模板，以便适应不同的审批流程，使得审批程序更为灵活及实用。

可选的，所述格式参数包括文档章节字号参数、字体参数、段间距参数以及章节格式参数中的一个或多个。

可选的，所述根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正的步骤包括：

根据预设的分词模型将目标文件的文字内容映射为目标字向量集合；

通过统计语言模型计算目标字向量集合中各个字向量在目标文件文字内容中的出现概率；

若字向量的出现概率低于预设阈值，则识别字向量对应的文字内容为错别字；

基于预设的对应关系生成所述错别字的纠正字集合；

根据预设的分词模型将纠正字集合中的文字内容映射为纠正字向量集合；

通过统计语言模型计算纠正字向量集合中各个字向量在目标文件文字内容中的出现概率；

选取出现概率最高的纠正字向量对应的文字内容替换所述错别字。

通过采用上述技术方案，能够根据特定的模型对文档中的文字内容进行分词，在分词后进行错别字的识别并自动对错别字进行修改，从而提高文档审核中，错别字识别及修改的效率。

可选的，所述方法还包括：根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正后，在目标文件中加入基于修正情况的标记信息。

通过采用上述技术方案，能够令使用者知悉文档内进行了错别字修改的地方，便于使用者对错别字修改进行复核，减少修改错误的情况发生。

第二方面，本申请提供一种文档审核系统，采用如下的技术方案：

一种文档审核系统，所述系统包括：

关键信息获取模块，用于获取关键信息；

第一判断模块，用于响应应于使用者发出的审批请求获取目标文件的后缀名，并判断所述后缀名是否与预设的后缀名数据相符以得到第一判断结果；

第一提示模块，用于在第一判断结果为否时向使用者发出第一不合规提示信息；

第二判断模块，用于判断目标文件的文字信息中是否存在所述关键信息以得到第二判断结果；

第二提示模块，用于在第二判断结果为否时向使用者发出第二不合规提示信息；

格式参数提取模块，用于在第二判断结果为是时提取目标文件的格式参数；

第三判断模块，用于判断目标文件的格式参数是否与预设的格式参数相符以得到第三判断结果；

格式替换模块，用于在第三判断结果为否时将目标文件的格式参数替换为预设的格式参数；

错别字修正模块，用于在第三判断结果为是时或在将目标文件的格式参数替换为预设的格式参数后，根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。

通过采用上述技术方案，利用第一判断模块判断目标文件的文件类型、利用第二判断模块判断目标文件是否存在关键信息、利用第三判断模块判断目标文件的格式是否符合要求、利用错别字修正模块识别错别字并对错别字进行修正，实现自动审核文件的类型、关键信息、格式以及错别字的，从而达到减少审核文档所需的人力并减少审核过程出现的失误的效果。

第三方面，本申请提供一种计算机设备，采用如下的技术方案：

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述文档审核方法的步骤。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读储存介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述文档审核方法的步骤。

综上所述，本申请包括以下至少一种有益技术效果：

1.自动获取目标文件的类型并对目标文件是否存在关键信息进行判断，同时能够在目标文件格式有误时进行相应修改，并在存在错别字时进行相应替换，从而实现文档的自动审核，减少文档审核所需的人力并减少审核过程出现的失误；

2.便于使用者对审核的关键信息进行自定义，以便适应不同的审批程序；

3.审批程序能够根据使用者的审批目的选择相应的审批模板，以便适应不同的审批流程，使得审批程序更为灵活及实用。

附图说明

图1是本发明其中一个实施例的文档审核方法中步骤S1至步骤S4的流程示意图。

图2是本发明其中一个实施例的文档审核方法中步骤S4至步骤S6的流程示意图。

图3是本发明其中一个实施例的文档审核方法中步骤S6至步骤S8的流程示意图。

图4是本发明其中一个实施例的文档审核方法中步骤S71至步骤S76的流程示意图。

图5是本发明其中一个实施例的文档审核方法中步骤S76至步骤S77的流程示意图。

图6是本发明其中一个实施例的文档审核系统的结构示意图。

附图标记说明：1、关键信息获取模块；2、第一判断模块；3、第一提示模块；4、第二判断模块；5、第二提示模块；6、格式参数提取模块；7、第三判断模块；8、格式替换模块；9、错别字修正模块。

具体实施方式

以下结合附图对本申请作进一步详细说明。

实施例1

本实施例公开一种文档审核方法，该文档审核方法能够应用于申请审批的系统中。参照图1-图5，所述方法包括以下步骤：

S1：响应于使用者发出的审批请求，发出审批模式选择请求；基于使用者响应所述审批模式选择请求而作出的选择，形成后缀名数据和/或格式参数，以供后续步骤使用。

使用者提出审批请求后，上传目标文件。目标文件为证明文档等需要进行审批的资料。审批系统向使用者的终端发出信息，使得使用者的终端通过弹窗或者文字的方式提示使用者进行审批模式的选择。使用者选择审批模式后，审批系统的服务器根据所选的审批模式确定后续步骤中用于作为模板的后缀名数据和格式参数。使用者的终端具体可为使用者的电子设备或计算机设备。

S2：获取关键信息。

为了在后续步骤能够通过对比审核目标文件是否包含关键信息，事先获取关键信息的模板。为了支持关键信息的自定义，可进行步骤S21：向使用者发出信息获取请求；基于使用者响应所述信息获取请求而输入的信息，得到所述关键信息。即审批系统的服务器向使用者的终端发送消息，使得使用者的终端通过弹窗或文字提示使用者输入关键信息。此处的使用人，既可以是审批请求的发起人，也可以是审批系统的管理员。

在不需要进行自定义的情况下，可进行步骤S22：若使用者没有响应所述信息获取请求，则基于预设的关键数据库得到所述关键信息。即在没有接收到关键信息的情况下，采用预设的数据作为对比的模板。

S3：获取目标文件的后缀名，判断所述后缀名是否与预设的后缀名数据相符，得到第一判断结果。

文件的后缀名能够表示文件的类型，因此可通过判断文件的后缀名是否与预设的后缀名数据相符来确定目标文件的类型是否符合要求。如，要求目标文件为word文档，则可通过判断目标文件的后缀名是否为doc来判断文件是否符合格式要求。

S4：若第一判断结果为否，则向使用者发出第一不合规提示信息；

若第一判断结果为是，判断目标文件的文字信息中是否存在所述关键信息，得到第二判断结果。

当第一判断结果为否，则表明目标文件的格式不符合要求，审核流程无法前往下一节点。审批系统的服务器通过终端向使用者发出第一不合规提示消息。其中第一不合规提示消息除了告知使用者审核没有通过，还可告知适应者因目标文档的格式不符合要求而导致审核不通过。

当第一判断结果为是，则表明目标文件的格式符合要求，审核流程正常前往下一节点，并判断目标文字中是否存在后续审批所需的关键信息。如，后续审批需要审核地址，则关键信息为“省”“市”。使用者可在步骤S2中直接输入 “省”“市”，以便审批系统的服务器审核目标文件的文字内容中有无相关文字信息。

S5：若第二判断结果为否，则向使用者发出第二不合规提示信息；

若第二判断结果为是，则提取目标文件的格式参数。

S6：判断目标文件的格式参数是否与预设的格式参数相符，得到第三对比结果。

若第二判断结果为否，则表明目标文件的内容中不存在关键信息，无法用于后续审批，审核流程无法前往下一节点。审核系统的服务器通过终端向使用者发出第二不合规提示信息，以使使用者获知审批被退回。

若第二判断结果为是，审核流程前往下一节点，进行目标文件内容格式的审核。提取目标文件格式参数并与预设格式参数进行对比的具体步骤为：将目标文件转换为xml文件，遍历xml文件找到相应的格式语句，在格式语句的对应位置上提取文件格式参数。如xml文件中，具有语句<w:sz w:val="144"/>，可知“w:sz”语句用于定义字号，“144”表示字体尺寸，则遍历至w:sz时，提取到字号参数为“144”。其他字体参数、段间距参数等格式参数的提取原理类似。将字号参数为“144”与预设的字号参数进行对比。假设预设的字号参数为“144”，则表明字号参数一致；若预设的字体参数为其他，则字体参数与预设值不符，需将字体参数替换为预设值。

所述格式参数包括文档章节字号参数、字体参数、段间距参数以及章节格式参数中的一个或多个。

S7：若第三判断结果为否，则将目标文件的格式参数替换为预设的格式参数，并根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正；若第三判断结果为是，则根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。

将字体参数替换为预设值后，将xml文件转换回目标文档的原始类型，并进行错别字的识别和修正，从而减少目标文件中的错别字，便于后续审批人的阅读。在进行错别字识别时，具体通过以下步骤实现：

S71：根据预设的分词模型将目标文件的文字内容映射为目标字向量集合。

所述分词模型为bert模型。文字内容在计算机中为一段字符，计算机无法自动识别哪一串字符对应一个中文字，因此需要先进行分词，以将字符串与单个文字一一对应。Bert模型中，利用BasicTokenizer分词器将整篇的文字内容切分成一个个的字。随后，利用one-hot编码的原则对每个字进行Word Embedding，以将其映射为多维向量。但此时的多维向量之间失去了语义关系。比如按照常识，“和”字与“同”字的意思具有相似性，但将这两个字分别映射成多维向量后，两个多维向量之间的向量积为0，而“和”字与“大”字的字义不同，其向量积也为0，这显然是字与字之间失去了语义关系。。因此，Bert模型进一步利用CBOW及Skip-Gram算法来优化多维向量，使得每个多维向量，即字向量之间具有与字义相似的关系。其中，CBOW的全称是continuous bag of words（连续词袋模型），其本质是通过背景词（字）来预测一个词（字）是否中心词（字）。Skip-Gram算法则是在给定中心词（字）的情况下，预测一个单词（字）是否是它的上下文。

S72：通过统计语言模型计算目标字向量集合中各个字向量在目标文件文字内容中的出现概率。

S73: 若字向量的出现概率低于预设阈值，则识别字向量对应的文字内容为错别字。

所述统计语言模型为ngram模型，它是一个基于概率判别的模型，应用方式是向其中输入一句话，ngram模型会输出这句话的概率，即这句话中的单词联合出现的概率。ngram模型由大量正确的、没有错别字的语料进行训练，当语句中带有错别字时，ngram模型计算出的单词联合的概率较低。因此当统计语言模型计算出的概率值较低时，可以认为语句中有错别字。

S74：基于预设的对应关系生成所述错别字的纠正字集合。

所述对应关系主要指读音相似以及字形相似。如与“是”字读音相似的字有“时”“事”“使”“四”“斯”等，与“是”字字形相似的有“足”等，则“是”字的纠正字集合包含“时”“事”“使”“四”“斯”“斯” “足”。应当注意的是，读音相似不单包含拼音相同但拼音音标不同的字，还包括声母相似的字，如声母为“s”和声母为“sh”的字亦可视为相似。

S75：根据预设的分词模型将纠正字集合中的文字内容映射为纠正字向量集合。

同步骤S71的原理。将纠正字集合中的内容放入与S71相同的分词模型中进行分词及字向量的转换，以便后续进行概率的计算。

S76：通过统计语言模型计算纠正字向量集合中各个字向量在目标文件文字内容中的出现概率。

S77：选取出现概率最高的纠正字向量对应的文字内容替换所述错别字。

当计算出的纠正字向量的出现概率较高时，则纠正字向量对应的文字内容有较高概率为正确的内容，利用纠正字向量对应的文字替换错别字即可实现错别字的修正。如检测在句子“我去办些是情”中，检测到错别字为“是”。“是”字的纠正字集合包含“时”“事”“使”“四”“斯”“斯” “足”。将“时”“事”“使”“四”“斯”“斯” “足”对应的字向量分别代入统计语言模型中进行计算，得出“事”的出现概率最高，则利用该“事”替换“是”，完成错别字的修正。

为了进一步提高修正的准确率，可在步骤S76和步骤S77之间进一步包含步骤S761：选取出现概率最高的纠正字向量，判断纠正字向量的出现概率是否高于所述错别字对应的字向量的出现概率，若纠正字向量的出现概率高于所述错别字对应的字向量的出现概率，则进行步骤S77；若纠正字向量的出现概率低于所述错别字对应的字向量的出现概率，则不进行错别字的替换。从而减少修正错误的情况发生。

S8：在目标文件中加入基于修正情况的标记信息。

为了便于使用者在后续审核错别字是否被正确地修正，目标文件中可加入修正情况的标记信息。如在句子“我去办些是情”中，检测到错别字为“是”，并将“是”替换为“事”后，可通过对 “事”字进行加粗、斜体或下划线等方式进行标记，以提示使用者“事”字进行过修改。

实施例二

如图6所示，本申请实施例提供与实施例一所述的文档审核方法对应的文档审核系统。

所述系统包括关键信息获取模块1、第一判断模块2、第一提示模块3、第二判断模块4、第二提示模块5、格式参数提取模块6、第三判断模块7、格式替换模块8以及错别字修正模块9。各功能模块详细说明如下：

关键信息获取模块1：用于获取关键信息。

第一判断模块2，用于响应应于使用者发出的审批请求获取目标文件的后缀名：并判断所述后缀名是否与预设的后缀名数据相符以得到第一判断结果。

第一提示模块3：用于在第一判断结果为否时向使用者发出第一不合规提示信息。

第二判断模块4：用于判断目标文件的文字信息中是否存在所述关键信息以得到第二判断结果。

第二提示模块5：用于在第二判断结果为否时向使用者发出第二不合规提示信息。

格式参数提取模块6：用于在第二判断结果为是时提取目标文件的格式参数。

第三判断模块7：用于判断目标文件的格式参数是否与预设的格式参数相符以得到第三判断结果。

格式替换模块8：用于在第三判断结果为否时将目标文件的格式参数替换为预设的格式参数。

错别字修正模块9：用于在第三判断结果为是时或在将目标文件的格式参数替换为预设的格式参数后，根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。

关于文档审核系统的具体限定可以参见上文中对于文档审核方法的限定，在此不再赘述。上述文档审核系统的各个模块可全部或部分通过软件、硬件及其组合实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备的存储器中，以便于处理器调用执行以上各个模块对应的操作。

实施例三

在本实施例中，提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现实施例一所述的文档审核方法的步骤。

实施例四

在本实施例中，提供一种计算机可读存储介质，所述计算机可读储存介质存储有计算机程序，所述计算机程序被处理器执行时实现实施例一所述的文档审核方法的步骤。

以上均为本申请的较佳实施例，并非依此限制本申请的保护范围，故：凡依本申请的原理所做的等效变化，均应涵盖于本申请的保护范围之内。

Claims

1.一种文档审核方法，其特征在于，所述方法包括：

获取关键信息；

若第二判断结果为是，则提取目标文件的格式参数；

2.根据权利要求1所述的一种文档审核方法，其特征在于，所述获取关键信息步骤还包括：

向使用者发出信息获取请求；

3.根据权利要求2所述的一种文档审核方法，其特征在于，若使用者没有响应所述信息获取请求，则基于预设的关键数据库得到所述关键信息。

4.根据权利要求1所述的一种文档审核方法，其特征在于，所述方法还包括发出审批模式选择请求；

基于使用者响应所述审批模式选择请求而作出的选择，形成所述预设的后缀名数据和/或所述预设的格式参数。

5.根据权利要求1所述的一种文档审核方法，其特征在于，所述格式参数包括文档章节字号参数、字体参数、段间距参数以及章节格式参数中的一个或多个。

6.根据权利要求1所述的一种文档审核方法，其特征在于，所述根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正的步骤包括：

基于预设的对应关系生成所述错别字的纠正字集合；

7.根据权利要求1所述的一种文档审核方法，其特征在于，所述方法还包括：

根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正后，在目标文件中加入基于修正情况的标记信息。

8. 一种文档审核系统，其特征在于，所述系统包括：

关键信息获取模块(1)，用于获取关键信息；

第一判断模块(2)，用于响应应于使用者发出的审批请求获取目标文件的后缀名，并判断所述后缀名是否与预设的后缀名数据相符以得到第一判断结果；

第一提示模块(3)，用于在第一判断结果为否时向使用者发出第一不合规提示信息；

第二判断模块(4)，用于判断目标文件的文字信息中是否存在所述关键信息以得到第二判断结果；

第二提示模块(5)，用于在第二判断结果为否时向使用者发出第二不合规提示信息；

格式参数提取模块(6)，用于在第二判断结果为是时提取目标文件的格式参数；

第三判断模块(7)，用于判断目标文件的格式参数是否与预设的格式参数相符以得到第三判断结果；

格式替换模块(8)，用于在第三判断结果为否时将目标文件的格式参数替换为预设的格式参数；

错别字修正模块(9)，用于在第三判断结果为是时或在将目标文件的格式参数替换为预设的格式参数后，根据预设的错别字纠正规则对目标文件进行错别字识别并对识别到的错别字进行修正。

9.一种计算机设备，其特征在于，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7任一项所述的文档审核方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读储存介质存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7任一项所述的文档审核方法的步骤。