CN112633852A

CN112633852A - 一种业务文档的审查系统

Info

Publication number: CN112633852A
Application number: CN202011624108.XA
Authority: CN
Inventors: 杜斌; 魏焱; 刘嘉宁; 林斌; 曾凯文; 张飞; 曹彦朝; 廖鹏; 刘振国; 周昉昉
Original assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Current assignee: Electric Power Dispatch Control Center of Guangdong Power Grid Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09
Anticipated expiration: 2040-12-30
Also published as: CN112633852B

Abstract

本发明公开了一种业务文档的审查系统，通过新词发现模块将从待审查文档中确定并剔除专业新词，得到剔除后的文档，通过错别字纠正模块纠正所述剔除后的文档中的错误文本部分，得到纠正后的文档，通过第三方单位实体从所述纠正后的文档中识别并剔除外协单位，得到二次剔除后的文档，通过识别所述二次剔除后的文档中的图像信息，得到解析后的文档，以及通过查重模块利用相似度评分规则，对所述解析后的文档进行相似度评分。从而提高业务文档审查的效率，提高审查的信息化和数字化程度。

Description

一种业务文档的审查系统

技术领域

本发明涉及一种文档处理技术领域，尤其涉及一种业务文档的审查系统。

背景技术

现阶段，对于公司可能存在的工作项目立项评审环节、提交材料检查环节、项目执行过程审查环节，以及对项目成果评判环节等，都需要人工对大量的文档进行审查。

这种审查方式存在效率低、浪费人力的问题，且容易受审查人员的主观影响，因此，提出一种文档审查系统用于对公司的业务文档进行自动化审查，具有重大意义。

发明内容

本发明提供了一种业务文档的审查系统，通过新词发现模块、错别字纠正模块、第三方单位识别识别模块、图像解析模块、查重模块和控制中心对的联合作用，能够提高业务文档审查的效率，提高审查的信息化和数字化程度。

本发明提供的一种业务文档的审查系统，包括：

新词发现模块，与控制中心双向连接，用于从待审查文档中确定并剔除专业新词，得到剔除后的文档，所述待审查文档为所示控制中心获取；

错别字纠正模块，与所述控制中心连接，用于接收所述控制中心发送的所述剔除后的文档；纠正所述剔除后的文档中的错误文本部分，得到纠正后的文档；

第三方单位实体识别模块，与所述控制中心连接，用于接收所述控制中心发送的纠正后的文档；从所述纠正后的文档中识别并剔除外协单位，得到二次剔除后的文档；

图像解析模块，与所述控制中心连接，用于接收所述控制中心发送的所述二次剔除后的文档；识别所述二次剔除后的文档中的图像信息，得到解析后的文档；

查重模块，与所述控制中心连接，用于接收所述控制中心发送的所述解析后的文档；利用相似度评分规则，对所述解析后的文档进行相似度评分；根据所述相似度评分确定所述待审查文档的查重结果。

可选地，述新词发现模块具体用于：

从所述待审查文档中确定多个所述目标潜在词及对应的自由运用程度和凝固度；根据每个所述目标潜在词的自由运用程度和凝固度，确定并剔除所述待评价文档中的所有所述专业新词，得到所述剔除后的文档。

可选地，所述新词发现模块包括：

词频统计单元，用于对所述待审查文档进行词频统计，得到统计结果；基于所述统计结果确定目标潜在词；

左右熵计算单元，用于采用熵计算模型，分别计算所有所述目标潜在词的左熵和右熵；以同一个目标潜在词对应的左熵和右熵中的较小值，作为所述目标潜在词的自由运用程度；

凝固度计算单元，用于采用凝固度计算模型，计算所有所述目标潜在词的凝固度。

可选地，所述错别字纠正模块包括：

错误检测单元，用于将所述剔除后的文档中的每个字的自向量输入RNN 序列模型和条件随机场CRF模型，得到多个错误文本部分；将所述错误文本部分组成错误候选集；

错误纠正单元，用于根据所述错误候选集，从数据库中匹配得到替换候选集；利用所述替换候选集中的候选文本部分替换对应的错误文本部分，并输入预先训练好的语言模型中，得到候选分数值；将最大候选分数值对应的候选文本对所述错误文本部分进行纠正，得到纠正后的文档。

可选地，所述第三方单位实体识别模块具体用于：

采用序列标注模型对所述纠正后的文档的上下文关系进行识别，确定并剔除所述带协单位。

可选地，所述图像信息包括文档图像信息和印章图像信息；所述图像解析模块包括：

图像识别单元，用于对所述二次剔除后的文档进行文档图像识别，确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置；对所述文档图像信息进行识别，得到文档图像信息对应的文本信息；

印章识别单元，用于通过HSV颜色通道提取所述印章图像信息中的红色部分；利用霍夫变换，基于所述红色部分查找所述印章图像信息的圆形轮廓；检测所述圆形轮廓的圆心和半径，得到所述圆形轮廓的极坐标；转换所述极坐标，得到所述印章图像信息对应的文本信息。

可选地，述印章识别单元还用于：

当所述利用霍夫变换查找所述印章图像信息的圆形轮廓的步骤失败时，通过图像的形态学变换方法确定所述圆形轮廓；重新检测所述圆形轮廓的圆心和半径。

可选地，所述查重模块具体用于：

对所述解析后的文档进行分句处理，通过TF-IDF机制过滤常用语句，得到多个待评分语句；从预置的语句数据库中获取与所述带评分语句相关联的相似语句，采用相似度评分模型对所述所有所述待评分语句进行相似度评分；判断所否相似度评分是否小于预设阈值，若是，则定义所述待审查文档具备原创性；若否，则定义所述待审查文档不具备原创性。

可选地，所述熵计算模型具体为：

其中，entropy为熵值，N为目标潜在词邻字出现的次数，m为邻字中不同字的种类数，n_i为第i种字作为邻字出现的次数，i为1到m中的任意自然数。

可选地，所述相似度评分模型具体为：

sim(sent1，sent2)＝dist(sent1，sent2)/max(len(sent1)，len(sent2))

其中，sent1为待评分语句，sent2为相似语句，sim(sent1，sent2)为待评分语句的相似度，len(sent1)为待评分语句的语句长度，len(sent2)为相似语句的语句长度，dist(sent1，sent2)为待评分语句和相似语句的字词差别长度。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过新词发现模块，与控制中心双向连接，用于从待审查文档中确定并剔除专业新词，得到剔除后的文档，所述待审查文档为所示控制中心获取，从而避免由于大量的专业新词影响后续的模块对于文档的处理。

错别字纠正模块，与所述控制中心连接，用于接收所述控制中心发送的所述剔除后的文档；纠正所述剔除后的文档中的错误文本部分，得到纠正后的文档，通过找出剔除专业新词后的文档中出现的如混淆字音、字词顺序颠倒等情况，从而大大减少文档错别字、。

第三方单位实体识别模块，与所述控制中心连接，用于接收所述控制中心发送的纠正后的文档；从所述纠正后的文档中识别并剔除外协单位，得到二次剔除后的文档，通过检测出外协单位名称并对其进行剔除，从而减少工作人员检测外协单位名称的麻烦、。

图像解析模块，与所述控制中心连接，用于接收所述控制中心发送的所述二次剔除后的文档；识别所述二次剔除后的文档中的图像信息，得到解析后的文档，实现通过对待处理文档中的图像信息进行识别，从而获取所有图像信息中的文字信息。

查重模块，与所述控制中心连接，用于接收所述控制中心发送的所述解析后的文档；利用相似度评分规则，对所述解析后的文档进行相似度评分；根据所述相似度评分确定所述待审查文档的查重结果，从而实现高效准确的查重效果。

通过新词发现模块、错别字纠正模块、第三方单位实体识别模块、图像解析模块和查重模块间的协同作用，提高审查业务文档的效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图；

图1为本发明的一种业务文档的审查系统的结构框图；

图2为本发明的一种业务文档的审查系统的可选实施例中待审查文档的处理路径；

图3为本发明的一种业务文档的审查系统的可选实施例中剔除后的文档的处理路径；

图4为本发明的一种业务文档的审查系统的可选实施例中二次剔除后的文档的处理路径。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明，本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等，如果该特定姿态发生改变时，则该方向性指示也相应地随之改变。

另外，在本发明中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本发明要求的保护范围之内。

本发明实施例提供了一种业务文档的审查系统，通过新词发现模块、错别字纠正模块、第三方单位识别识别模块、图像解析模块、查重模块和控制中心对的联合作用，能够提高业务文档审查的效率，提高审查的信息化和数字化程度。

请参阅图1，图1为本发明的一种业务文档的审查系统的结构框图，在本发明的一种业务文档的审查系统实施例中，包括：

新词发现模块101，与控制中心102双向连接，用于从待审查文档中确定并剔除专业新词，得到剔除后的文档，所述待审查文档为所示控制中心102 获取；

错别字纠正模块103，与所述控制中心102连接，用于接收所述控制中心102发送的所述剔除后的文档；纠正所述剔除后的文档中的错误文本部分，得到纠正后的文档；

第三方单位实体识别模块104，与所述控制中心102连接，用于接收所述控制中心102发送的纠正后的文档；从所述纠正后的文档中识别并剔除外协单位，得到二次剔除后的文档；

图像解析模块105，与所述控制中心102连接，用于接收所述控制中心 102发送的所述二次剔除后的文档；识别所述二次剔除后的文档中的图像信息，得到解析后的文档；

查重模块106，与所述控制中心102连接，用于接收所述控制中心102发送的所述解析后的文档；利用相似度评分规则，对所述解析后的文档进行相似度评分；根据所述相似度评分确定所述待审查文档的查重结果。

在本发明的业务文档的审查系统的可选实施例中，所述新词发现模块具体用于：

请查阅图2，图2为本发明的一种业务文档的审查系统的可选实施例中待审查文档的处理路径，在本发明的业务文档的审查系统的可选实施例中，所述新词发现模块101包括：

词频统计单元1011，用于对所述待审查文档进行词频统计，得到统计结果；基于所述统计结果确定目标潜在词；

左右熵计算单元1012，用于采用熵计算模型，分别计算所有所述目标潜在词的左熵和右熵；以同一个目标潜在词对应的左熵和右熵中的较小值，作为所述目标潜在词的自由运用程度；

所述熵计算模型具体为：

其中，entropy为熵值，N为目标潜在词邻字出现的次数，m为邻字中不同字的种类数，n_i为第i种字作为邻字出现的次数，i为1到m中的任意自然数；

凝固度计算单元1013，用于采用凝固度计算模型，计算所有所述目标潜在词的凝固度。

在具体实现中，控制中心102将待审查文档发送至新词发现模块101，然后新词发现模块101将待审查文档首先发送至词频统计单元1011，通过词频统计单元1011对待审查文档进行词频统计，并根据词频统计结果确定目标潜在词；然后分别将目标潜在词的相关信息，包括目标潜在词的左(右)邻字出现的种类和此处等信息输入到熵计算模型当中，分别计算计算得到目标潜在词的左熵和右熵，并以吗，每一个目标潜在词的左熵和右熵的较小值作为目标潜在词的自由运用程度。

同时还要计算目标潜在词的凝固度，以目标潜在词“abc”为例，该目标潜在词的凝固度计算为：

其中aggregation(abc)为abc的凝固度。P(abc)为“abc”出现的概率， p(ab)为以“ab”出现的概率，p(bc)为以“bc”出现的概率。

在本发明实施例中，当目标潜在词的词频统计结果、自由运用程度和凝固度都到达了用户或系统预先设定的阈值，且目标潜在词不在现有的词典当中，则可认为这个目标潜在词是新词，在确定了所有的新词之后，为了方便待审查文档的处理，将待审查文档中的所有新词进行剔除，得到剔除后的

请查阅图3，图3为为本发明的一种业务文档的审查系统的可选实施例中剔除后的文档的处理路径，在本发明的业务文档的审查系统的可选实施例中，所述错别字纠正模块103包括：

错误检测单元1031，用于将所述剔除后的文档中的每个字的自向量输入 RNN序列模型和条件随机场CRF模型，得到多个错误文本部分；将所述错误文本部分组成错误候选集；

错误纠正单元1032，用于根据所述错误候选集，从数据库中匹配得到替换候选集；利用所述替换候选集中的候选文本部分替换对应的错误文本部分，并输入预先训练好的语言模型中，得到候选分数值；将最大候选分数值对应的候选文本对所述错误文本部分进行纠正，得到纠正后的文档。

在具体实现中，错别字纠正模块103包括错误检测单元1031和错误纠正单元1032，控制中心102将剔除后的文档发送至错别字纠正模块103，然后错别字纠正模块103将剔除后的文档发送至错误检测单元1031，用于将剔除后的文档中的每个字的自向量输入预先训练好的RNN序列模型和条件随机场 CRF模型，得到多个错误文本部分，进而得到错误候选集，然后通过错误纠正单元1032，将作物候选集中的错误文本部分进行替换，得到纠正后的文档。

在本发明的业务文档的审查系统的可选实施例中，所述第三方单位实体识别模块104具体用于：

请参阅图4，图4为本发明的一种业务文档的审查系统的可选实施例中二次剔除后的文档的处理路径，在本发明的业务文档的审查系统的可选实施例中，所述图像信息包括文档图像信息和印章图像信息；所述图像解析模块105 包括：

图像识别单元1051，用于对所述二次剔除后的文档进行文档图像识别，确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置；对所述文档图像信息进行识别，得到文档图像信息对应的文本信息；

印章识别单元1052，用于通过HSV颜色通道提取所述印章图像信息中的红色部分；利用霍夫变换，基于所述红色部分查找所述印章图像信息的圆形轮廓；检测所述圆形轮廓的圆心和半径，得到所述圆形轮廓的极坐标；转换所述极坐标，得到所述印章图像信息对应的文本信息。

在具体实现中，控制中心1002将二次剔除后的文档发送至图像解析模块 105，然后图像解析模块105将二次剔除后的文档发送至图像识别单元1051，用于对所述二次剔除后的文档进行文档图像识别，确定所述二次剔除后的文档中的文档图像信息和印章图像信息的位置和文本信息，然后将通过印章识别单元1052获取印章图像，并得到印章图像信息对应的文本信息。

在本发明的业务文档的审查系统的可选实施例中，所述印章识别单元还用于：

在具体实现中，对于未能准确检测出圆的图像，先通过图像的形态学变换定位圆的大致位置，再重新检测，根据检测出的圆心位置和半径长度，对图像坐标进行极坐标转换，将圆展开，得到包含印章文字信息的文本行图片。

在本发明的业务文档的审查系统的可选实施例中，所述查重模块106具体用于：

对所述解析后的文档进行分句处理，通过TF-IDF机制过滤常用语句，得到多个待评分语句；从预置的语句数据库中获取与所述带评分语句相关联的相似语句，采用相似度评分模型对所述所有所述待评分语句进行相似度评分；判断所否相似度评分是否小于预设阈值，若是，则定义所述待审查文档具备原创性；若否，则定义所述待审查文档不具备原创性；

所述相似度评分模型具体为：

sim(sent1，sent2)＝dist(sent1，sent2)/max(len(sent1)，len(sent2))

在具体实现中，若从预置得出语句数据库中获取到与所有需查重的句子相似度评分超过用户或系统设定的评分阈值时，则定义待审查文档具备原创性，具体地，对所有需查重的句子相似度按照相似度评分模型进行评分，得到所有需查重句子的相似度，然后根据所有需查重句子的相似度，确定需查重句子是否为问题句，并根据问题句在待审查文档中的比例，确定待审查文档是否具备原创性。

在本发明的一种务文档的审查系统实施例中，通过在业务文档的审查系统中配置新词发现模块101，与控制中心102双向连接，用于从待审查文档中确定并剔除专业新词，得到剔除后的文档，所述待审查文档为所示控制中心 102获取；错别字纠正模块103，与所述控制中心102连接，用于接收所述控制中心102发送的所述剔除后的文档；纠正所述剔除后的文档中的错误文本部分，得到纠正后的文档；第三方单位实体识别模块104，与所述控制中心 102连接，用于接收所述控制中心102发送的纠正后的文档；从所述纠正后的文档中识别并剔除外协单位，得到二次剔除后的文档；图像解析模块105，与所述控制中心102连接，用于接收所述控制中心102发送的所述二次剔除后的文档；识别所述二次剔除后的文档中的图像信息，得到解析后的文档；查重模块106，与所述控制中心102连接，用于接收所述控制中心102发送的所述解析后的文档；利用相似度评分规则，对所述解析后的文档进行相似度评分；根据所述相似度评分确定所述待审查文档的查重结果。

以上所述仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是在本发明的发明构思下，利用本发明说明书及附图内容所作的等效结构变换，或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。

Claims

1.一种业务文档的审查系统，其特征在于，包括：

2.根据权利要求1所述的业务文档的审查系统，其特征在于，所述新词发现模块具体用于：

3.根据权利要求2所述的业务文档的审查系统，其特征在于，所述新词发现模块包括：

4.根据权利要求1-3中任一所述的业务文档的审查系统，其特征在于，所述错别字纠正模块包括：

错误检测单元，用于将所述剔除后的文档中的每个字的自向量输入RNN序列模型和条件随机场CRF模型，得到多个错误文本部分；将所述错误文本部分组成错误候选集；

5.根据权利要求1-4中任一所述的业务文档的审查系统，其特征在于，所述第三方单位实体识别模块具体用于：

6.根据权利要求1-5中任一所述的业务文档的审查系统，其特征在于，所述图像信息包括文档图像信息和印章图像信息；所述图像解析模块包括：

7.根据权利要求6所述的业务文档的审查系统，其特征在于，所述印章识别单元还用于：

8.根据权利要求1-7中任一所述的业务文档的审查系统，其特征在于，所述查重模块具体用于：

9.根据权利要求3-8中任一所述的业务文档的审查系统，其特征在于，所述熵计算模型具体为：

10.根据权利要求8-9中任一所述的业务文档的审查系统，其特征在于，所述相似度评分模型具体为：

sim(sent1，sent2)＝dist(sent1，sent2)/max(len(sent1)，len(sent2))