CN114049645A

CN114049645A - 公文识别方法、装置、计算机设备和存储介质

Info

Publication number: CN114049645A
Application number: CN202111122098.4A
Authority: CN
Inventors: 朱细智
Original assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Current assignee: Qax Technology Group Inc; Secworld Information Technology Beijing Co Ltd
Priority date: 2021-09-24
Filing date: 2021-09-24
Publication date: 2022-02-15

Abstract

本申请涉及一种公文识别方法、装置、计算机设备和存储介质。该方法包括：获取待识别文件；提取待识别文件中的文本信息；将文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，其中，第一公文要素集是由文本信息中与参考公文要素匹配成功的第一公文要素构成的；若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。采用本方法可实现公文的自动识别，有利于提高公文的识别效率。

Description

公文识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及自然语言处理技术领域，特别是涉及一种公文识别方法、装置、计算机设备和存储介质。

背景技术

在互联网应用普及和对互联网依赖背景之下，各种电子文件在不同的设备上存储、传输及使用。其中可能存在一些涉密文件，而公文作为党政机关在公务活动中的重要文件，是涉密文件的主要来源。然而，由于内部人员的非技术手段(内部人员泄密、非有意识泄密等)或者外部不法分子通过技术手段(包括黑客入侵、软件漏洞等)导致涉密文件泄漏，因此为应对电子公文面临的内外部威胁，对在不同的设备上存储、传输及使用的电子文件中识别出电子公文刻不容缓。

传统技术中，公文识别方法是通过人工通篇阅读的方式来实现对公文的识别。但是，采用传统技术，公文的识别效率较低。

发明内容

基于此，有必要针对上述技术问题，提供一种能够提高公文识别效率的公文识别方法、装置、计算机设备和存储介质。

一种公文识别方法，所述方法包括：

获取待识别文件；

提取所述待识别文件中的文本信息；

将所述文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，其中，所述第一公文要素集是由所述文本信息中与所述参考公文要素匹配成功的第一公文要素构成的；

若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文。

在其中一个实施例中，所述方法还包括：

若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配失败，则判定所述待识别文件为非公文。

在其中一个实施例中，所述若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文，包括：

获取所述第一公文要素在所述待识别文件中的位置信息；

根据所述位置信息，确定所述第一公文要素之间的位置关系；

从所述第一公文要素集中，选取所述位置关系满足参考位置关系的目标第一公文要素；

若所述目标第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文。

在其中一个实施例中，所述方法还包括：

若所述第一公文要素集中，不存在所述位置关系满足参考位置关系的目标第一公文要素，则判定所述待识别文件为非公文。

在其中一个实施例中，所述第一公文要素包括份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、成文日期、抄送机关和印发日期，所述位置信息包括页码和行号；

所述份号对应的页码＝所述密级和保密期限对应的页码＝所述紧急程度对应的页码＝所述发文机关标志对应的页码＝所述发文字号对应的页码＝所述签发人对应的页码＝所述标题对应的页码，且所述份号对应的行号<所述密级和保密期限对应的行号<所述紧急程度对应的行号<所述发文机关标志对应的行号<所述发文字号对应的行号<所述签发人对应的行号<所述标题对应的行号；

所述标题对应的页码＝所述成文日期对应的页码＝所述抄送机关对应的页码＝所述印发日期对应的页码，且所述标题对应的行号<所述成文日期对应的行号<所述抄送机关对应的行号<所述印发日期对应的行号；

或者，

所述标题对应的页码<所述成文日期对应的页码＝所述抄送机关对应的页码＝所述印发日期对应的页码，且所述成文日期对应的行号<所述抄送机关对应的行号<所述印发日期对应的行号。

在其中一个实施例中，所述将所述文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，包括：

获取与参考公文要素集中的参考公文要素相对应的正则表达式；

将所述文本信息与所述正则表达式进行匹配，得到第一公文要素集。

在其中一个实施例中，所述正则表达式是基于公文模板中，提取的公文要素特征及与所述公文要素特征匹配的可伸缩性信息构建的。

在其中一个实施例中，所述若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文之后，还包括：

从所述待识别文件中，提取与所述参考公文要素组合匹配成功的第一公文要素，并发送至上层业务系统，以指示所述上层业务系统显示所述与参考公文要素组合匹配成功的第一公文要素。

一种公文识别装置，所述装置包括：

文件获取模块，用于获取待识别文件；

文本提取模块，用于提取所述待识别文件中的文本信息；

要素匹配模块，用于将所述文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，其中，所述第一公文要素集是由所述文本信息中与所述参考公文要素匹配成功的第一公文要素构成的；

公文判定模块，用于若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取待识别文件；

提取所述待识别文件中的文本信息；

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取待识别文件；

提取所述待识别文件中的文本信息；

上述公文识别方法、装置、计算机设备和存储介质，首先通过待识别文件中的文本信息与参考公文要素之间的匹配确定第一公文要素，然后在第一公文要素的组合与参考公文要素组合匹配成功时，判定待识别文件为公文。如此可实现公文的自动识别，有利于提高公文的识别效率。

附图说明

图1为一个实施例中公文识别方法的流程示意图；

图2为另一个实施例中公文识别方法的流程示意图；

图3为一个实施例中公文识别装置的结构框图；

图4为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

在一个实施例中，如图1所示，提供了一种公文识别方法，本实施例以该方法应用于服务器进行举例说明，可以理解的是，该方法也可以应用于终端，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。本实施例中，该方法包括以下步骤：

步骤S102，获取待识别文件。

其中，待识别文件是指待识别的电子文件。该电子文件可以是公文。

具体地，服务器获取待识别文件。该待识别文件可以包含排版信息，例如OfficeWord文档、pdf、rtf和ofd等格式文件；也可以不包含排版信息，例如Office Excel和PowerPoint文档、CHM和TXT等格式文件。

步骤S104，提取待识别文件中的文本信息。

具体地，服务器提取待识别文件中的文本信息。可选地，服务器采用文字识别技术例如光学字符识别技术识别出待识别文件中的文本信息。

步骤S106，将文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集。

其中，第一公文要素集是由文本信息中与参考公文要素匹配成功的第一公文要素构成的。

其中，参考公文要素集是由至少一个参考公文要素构成的集合。

具体地，服务器将文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集。可选地，若文本信息中包含某参考公文要素，则文本信息与该参考公文要素匹配成功，并将文本信息中匹配的公文要素确定为第一公文要素。可选地，该参考公文要素对应有正则表达式模式匹配规则。在一个实施例中，服务器获取与参考公文要素集中的参考公文要素相对应的正则表达式，并将文本信息与正则表达式进行匹配，得到第一公文要素集。可选地，正则表达式是基于公文模板中，提取的公文要素特征及与公文要素特征匹配的可伸缩性信息构建的。其中，可伸缩性用于反映公文要素特征匹配过程中的可用能力。

步骤S108，若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

其中，第一公文要素的组合可以是第一公文要素集中部分公文要素的组合，也可以是第一公文要素集中全部公文要素的组合。

其中，参考公文要素组合集是由至少一个参考公文要素组合构成的集合。参考公文要素组合是将多个参考公文要素组合在一起得到的。

具体地，服务器组合第一公文要素集中的第一公文要素，并将该第一公文要素组合与参考公文要素组合集中的参考公文要素组合进行匹配，若匹配成功，则判定待识别文件为公文。可选地，若第一公文要素组合与某参考公文要素组合相同，则第一公文要素组合与该参考公文要素组合匹配成功。可选地，若第一公文要素组合包含某参考公文要素组合，则第一公文要素组合与该参考公文要素组合匹配成功。

上述公文识别方法中，首先通过待识别文件中的文本信息与参考公文要素之间的匹配确定第一公文要素，然后在第一公文要素的组合与参考公文要素组合匹配成功时，判定待识别文件为公文。如此可实现公文的自动识别，有利于提高公文的识别效率。

在一个实施例中，该方法还包括以下步骤：

步骤S109，若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配失败，则判定待识别文件为非公文。

具体地，服务器组合第一公文要素集中的第一公文要素，并将该第一公文要素组合与参考公文要素组合集中的参考公文要素组合进行匹配，若匹配失败，则判定待识别文件为非公文。可选地，若第一公文要素组合与任一参考公文要素组合都不相同，则第一公文要素组合与参考公文要素组合匹配失败。可选地，若第一公文要素组合都不包含任一参考公文要素组合，则第一公文要素组合与参考公文要素组合匹配失败。

本实施例中，将与参考公文要素组合匹配失败的待识别文件判定为非公文，实现了非公文的准确识别。

在一个实施例中，涉及上述步骤S108“若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文”的一种可能的实现方式。在上述实施例的基础上，步骤S108具体可以通过以下步骤实现：

步骤S1082，获取第一公文要素在待识别文件中的位置信息；

步骤S1084，根据位置信息，确定第一公文要素之间的位置关系；

步骤S1086，从第一公文要素集中，选取位置关系满足参考位置关系的目标第一公文要素；

步骤S1088，若目标第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

具体地，服务器获取第一公文要素在待识别文件中的位置信息。可选地，位置信息包括行号或页码中的一种或多种。在一个实施例中，位置信息包括行号和页码。可选地，位置信息可以表示为以待识别文件为基准构建的坐标系中的坐标。

然后，服务器根据位置信息，确定第一公文要素之间的位置关系。以行号和页码为例，若公文要素“份号”的页码为Px，行号为Lx，公文要素“紧急程度”的页码为Py，行号为Ly。服务器通过比较Px与Py的大小，判断“份号”与“紧急程度”是否位于同一页。若Px＝Py，则表明“份号”与“紧急程度”位于同一页；若Px≠Py，则表明“份号”与“紧急程度”不在同一页。服务器通过比较Lx与Ly的大小，判断“份号”与“紧急程度”所在行的先后关系。若Lx〉Ly，则表明“紧急程度”在前，“份号”在后；若Lx＝Ly，则表明“份号”与“紧急程度”位于同一行；若Lx〈Ly，则表明“份号”在前，“紧急程度”在后。

之后，服务器从第一公文要素集中，选取位置关系满足参考位置关系的目标第一公文要素。其中，参考位置关系是在公文模板中，根据公文要素的先后关系确定的。可选地，若位置关系与参考位置关系相同，则位置关系满足参考位置关系。

最后，服务器组合目标第一公文要素，并将该目标第一公文要素组合与参考公文要素组合集中的参考公文要素组合进行匹配，若匹配成功，则判定待识别文件为公文。可选地，若目标第一公文要素组合与某参考公文要素组合相同，则目标第一公文要素组合与该参考公文要素组合匹配成功。可选地，若目标第一公文要素组合包含某参考公文要素组合，则目标第一公文要素组合与该参考公文要素组合匹配成功。

本实施例中，通过过滤无效位置关系的公文要素，减少了公文判定的数据量以及有利于提高公文判定的准确性。

在一个实施例中，第一公文要素包括份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、成文日期、抄送机关或印发日期中的至少一种。在一个实施例中，位置信息包括页码或行号中的至少一种。

基于此，在一个实施例中，份号对应的页码＝密级和保密期限对应的页码＝紧急程度对应的页码＝发文机关标志对应的页码＝发文字号对应的页码＝签发人对应的页码＝标题对应的页码，且份号对应的行号<密级和保密期限对应的行号<紧急程度对应的行号<发文机关标志对应的行号<发文字号对应的行号<签发人对应的行号<标题对应的行号。

标题对应的页码＝成文日期对应的页码＝抄送机关对应的页码＝印发日期对应的页码，且标题对应的行号<成文日期对应的行号<抄送机关对应的行号<印发日期对应的行号；或者，标题对应的页码<成文日期对应的页码＝抄送机关对应的页码＝印发日期对应的页码，且成文日期对应的行号<抄送机关对应的行号<印发日期对应的行号。

在一个实施例中，该方法还包括以下步骤：

步骤S107，若第一公文要素集中，不存在位置关系满足参考位置关系的目标第一公文要素，则判定待识别文件为非公文。

具体地，若所有第一公文要素之间的位置关系都不满足参考位置关系，则判定待识别文件为非公文。可选地，若位置关系与参考位置关系不相同，则位置关系不满足参考位置关系。

本实施例中，将所有第一公文要素之间的位置关系都不满足参考位置关系的待识别文件判定为非公文，实现了非公文的准确识别。

在一个实施例中，该方法还包括以下步骤：

步骤S110，从待识别文件中，提取与参考公文要素组合匹配成功的第一公文要素，并发送至上层业务系统，以指示上层业务系统显示与参考公文要素组合匹配成功的第一公文要素。

具体地，服务器将与参考公文要素组合匹配成功的第一公文要素发送至上层业务系统。上层业务系统通过显示器显示该第一公文要素。

下面结合一个具体的应用场景来介绍本申请的一个实施例，具体参见图2所示，该方法包括如下步骤：

步骤S202，获取待识别文件。

具体地，服务器获取待识别文件。

步骤S204，提取内容并生成对应的位置信息。

具体地，服务器通过文本及位置提取技术，对步骤S202中的待识别文件进行文本内容的按行提取，然后对提取出的每行文本内容生成对应的位置信息，例如可以是该行文本内容的行号和所在页的页码，记作(P,L)。其中，P表示页码，L表示行号。

步骤S206，匹配公文要素并获取其对应的位置信息。

具体地，服务器利用预先构建的公文要素模式匹配规则库，该公文要素模式匹配规则库存储有至少一个参考公文要素构成参考公文要素集对应的公文要素模式匹配规则，采用开源的正则表达式匹配引擎对步骤S204中的文本内容进行公文要素模式匹配。若公文要素匹配成功，则记录匹配成功的公文要素及其对应的位置信息。否则，公文判定结束，说明该待识别文件不是公文文件，不提取公文要素。

步骤S208，过滤已匹配公文要素的位置信息。

具体地，服务器利用预先构建的公文要素位置过滤规则集，该公文要素位置信息过滤规则集存储有参考位置关系，对步骤S206中匹配成功的公文要素对应的位置信息进行过滤，保留其中位置信息有效的公文要素，并舍弃位置信息无效的公文要素，若匹配成功的公文要素对应的位置信息均无效，则公文判定结束，说明该待识别文件不是公文文件，不提取公文要素。

步骤S210，判定已匹配公文要素的出现组合。

具体地，服务器利用预先构建的公文要素出现组合判定规则集，该公文要素出现组合的公文判定规则集存储有至少一个参考公文要素组合构成的参考公文要素组合集，对步骤S208中过滤后得到的所有公文要素进行出现组合的规则判定，若满足公文要素出现组合的判定规则，则判定该待识别文件为公文文件，否则该待识别文件不是公文文件，不提取公文要素。

步骤S212，提取已匹配公文要素。

具体地，若步骤S210中判定该识别文件为公文文件，则将步骤S208中过滤后得到的所有公文要素提取到公文要素结构体的相应字段，并发送公文要素结构体到上层业务系统，供上层业务使用。

在一个实施例中，如表1所示，列出现有15种公文格式(文种)及其说明。

表1

在一个实施例中，涉及公文要素模式匹配规则库的构建过程。具体地，首先，选取多个例如10个可应用模式识别的参考公文要素作为公文的判定特征。如表2所示，该10个参考公文特征例如可以是份号、密级与保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、成文日期、抄送机关和印发日期。

表2公文格式各要素的编排规则

然后，确定上述10个参考公文要素独有的特征及其可伸缩性，如表3所示。

表3有独有特征的公文要素及其匹配规则的可伸缩性

之后，根据参考公文要素的公文要素特征及与公文要素特征匹配的可伸缩性信息，确定参考公文要素对应的正则表达式模式匹配规则，并对每条模式匹配规则进行编号并利用开源的正则表达式匹配引擎生成公文要素模式匹配规则库，以便通过规则匹配筛选得到第一公文要素集。

在一个实施例中，涉及公文要素位置过滤规则集的构建过程，具体包括：

2.1若已匹配第一公文要素其中之一为“份号”，其位置记作(Px,Lx)，且：

2.1.1若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.2若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.3若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.4若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.5若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.1.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.1.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.1.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.2若已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Px,Lx)，且：

2.2.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.2.2若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.2.3若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.2.4若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.2.5若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.2.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.2.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.2.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.2.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.3若已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Px,Lx)，且：

2.3.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.3.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.3.3若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.3.4若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.3.5若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.3.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.3.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.3.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.3.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.4若已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Px,Lx)，且：

2.4.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.4.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.4.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.4.4若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.4.5若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.4.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly；

2.4.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.4.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.4.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.5若已匹配第一公文要素其中之一为“发文字号”，其位置记作(Px,Lx)，且：

2.5.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.5.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.5.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.5.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.5.5若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<＝Ly；

2.5.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|<5；

2.5.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.5.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.5.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.6若已匹配第一公文要素其中之一为“签发人”，其位置记作(Px,Lx)，且：

2.6.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.6.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.6.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.6.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.6.5若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>＝Ly；

2.6.6若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|<5；

2.6.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.6.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.6.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.7若已匹配第一公文要素其中之一为“标题”，其位置记作(Px,Lx)，且：

2.7.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.7.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.7.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.7.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.7.5若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|<5；

2.7.6若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|<5；

2.7.7若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.7.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py；

2.7.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px<Py。

2.8若已匹配第一公文要素其中之一为“成文日期”，其位置记作(Px,Lx)，且：

2.8.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.5若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.6若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.7若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.8.8若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly,或者(Px+1)<＝Py；

2.8.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly,或者(Px+1)<＝Py。

2.9若已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Px,Lx)，且：

2.9.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.5若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.6若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.7若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.9.8若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.9.9若剩余已匹配第一公文要素其中之一为“印发日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx<Ly,或者(Px+1)<＝Py。

2.10若已匹配第一公文要素其中之一为“印发日期”，其位置记作(Px,Lx)，且：

2.10.1若剩余已匹配第一公文要素其中之一为“份号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.2若剩余已匹配第一公文要素其中之一为“密级和保密期限”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.3若剩余已匹配第一公文要素其中之一为“紧急程度”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.4若剩余已匹配第一公文要素其中之一为“发文机关标志”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.5若剩余已匹配第一公文要素其中之一为“发文字号”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.6若剩余已匹配第一公文要素其中之一为“签发人”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.7若剩余已匹配第一公文要素其中之一为“标题”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且|Lx-Ly|>5,或者Px>Py；

2.10.8若剩余已匹配第一公文要素其中之一为“成文日期”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly；

2.10.9若剩余已匹配第一公文要素其中之一为“抄送机关”，其位置记作(Py,Ly)，则应有：Px＝＝Py并且Lx>Ly。

在一个实施例中，涉及公文要素出现组合判定规则集的构建过程，具体包括：

3.1若同时出现公文要素“发文机关标志”和“标题”，则满足判定规则；

3.2若同时出现公文要素“发文字号”和(“发文机关标志”或“标题”)2者中的任意1个，则满足判定规则；

3.3若同时出现公文要素“密级和保密期限”和“成文日期”和“印发日期”，则满足判定规则；

3.4若同时出现公文要素(“发文机关标志”或“标题”)2者中的任意1个和(“密级和保密期限”或“成文日期”或“印发日期”)3者中的任意2个，则满足判定规则；

3.5若同时出现公文要素“发文字号”和(“密级和保密期限”或“成文日期”或“印发日期”)3者中的任意1个，则满足判定规则；

3.6若同时出现公文要素“份号”和“紧急程度”和“签发人”和“抄送机关”，则满足判定规则；

3.7在3.1的基础上，还出现其他的公文要素，必定满足判定规则；

3.9在3.2的基础上，还出现其他的公文要素，必定满足判定规则；

3.10在3.3的基础上，还出现其他的公文要素，必定满足判定规则；

3.11在3.4的基础上，还出现其他的公文要素，必定满足判定规则；

3.12在3.5的基础上，还出现其他的公文要素，必定满足判定规则；

3.13在3.6的基础上，还出现其他的公文要素，必定满足判定规则。

本申请实施例中，利用可伸缩的正则表达式模式匹配规则对公文要素特征进行匹配，并根据公文要素的位置过滤规则和出现组合判定规则判断待识别文件是否为公文文件，如果判定结果是公文文件，则从公文文件中提取公文要素。该方法不仅简单实用，更提高了准确度和验证效率，有效地解决了传统技术耗时又耗力，效率低下的问题。

应该理解的是，虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-2中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图3所示，提供了一种公文识别装置，包括：

文件获取模块，用于获取待识别文件；

文本提取模块，用于提取待识别文件中的文本信息；

要素匹配模块，用于将文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，其中，第一公文要素集是由文本信息中与参考公文要素匹配成功的第一公文要素构成的；

公文判定模块，用于若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

上述公文识别装置中，首先通过待识别文件中的文本信息与参考公文要素之间的匹配确定第一公文要素，然后在第一公文要素的组合与参考公文要素组合匹配成功时，判定待识别文件为公文。如此可实现公文的自动识别，有利于提高公文的识别效率。

在一个实施例中，还包括：

非公文判定模块，用于若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配失败，则判定待识别文件为非公文。

在一个实施例中，公文判定模块具体用于获取第一公文要素在待识别文件中的位置信息；根据位置信息，确定第一公文要素之间的位置关系；从第一公文要素集中，选取位置关系满足参考位置关系的目标第一公文要素；若目标第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

在一个实施例中，还包括：

非公文判定模块，用于若第一公文要素集中，不存在位置关系满足参考位置关系的目标第一公文要素，则判定待识别文件为非公文。

在一个实施例中，要素匹配模块具体用于获取与参考公文要素集中的参考公文要素相对应的正则表达式；将文本信息与正则表达式进行匹配，得到第一公文要素集。

在一个实施例中，还包括：

要素提取模块，用于从待识别文件中，提取与参考公文要素组合匹配成功的第一公文要素，并发送至上层业务系统，以指示上层业务系统显示与参考公文要素组合匹配成功的第一公文要素。

关于公文识别装置的具体限定可以参见上文中对于公文识别方法的限定，在此不再赘述。上述公文识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种公文识别方法。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取待识别文件；

提取待识别文件中的文本信息；

将文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，其中，第一公文要素集是由文本信息中与参考公文要素匹配成功的第一公文要素构成的；

若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

上述计算机设备中，首先通过待识别文件中的文本信息与参考公文要素之间的匹配确定第一公文要素，然后在第一公文要素的组合与参考公文要素组合匹配成功时，判定待识别文件为公文。如此可实现公文的自动识别，有利于提高公文的识别效率。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

若第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配失败，则判定待识别文件为非公文。

获取第一公文要素在待识别文件中的位置信息；根据位置信息，确定第一公文要素之间的位置关系；从第一公文要素集中，选取位置关系满足参考位置关系的目标第一公文要素；若目标第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定待识别文件为公文。

若第一公文要素集中，不存在位置关系满足参考位置关系的目标第一公文要素，则判定待识别文件为非公文。

获取与参考公文要素集中的参考公文要素相对应的正则表达式；将文本信息与正则表达式进行匹配，得到第一公文要素集。

从待识别文件中，提取与参考公文要素组合匹配成功的第一公文要素，并发送至上层业务系统，以指示上层业务系统显示与参考公文要素组合匹配成功的第一公文要素。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取待识别文件；

提取待识别文件中的文本信息；

上述计算机可读存储介质中，首先通过待识别文件中的文本信息与参考公文要素之间的匹配确定第一公文要素，然后在第一公文要素的组合与参考公文要素组合匹配成功时，判定待识别文件为公文。如此可实现公文的自动识别，有利于提高公文的识别效率。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种公文识别方法，其特征在于，所述方法包括：

获取待识别文件；

提取所述待识别文件中的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，所述若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文，包括：

获取所述第一公文要素在所述待识别文件中的位置信息；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求3或4所述的方法，其特征在于，所述第一公文要素包括份号、密级和保密期限、紧急程度、发文机关标志、发文字号、签发人、标题、成文日期、抄送机关和印发日期，所述位置信息包括页码和行号；

或者，

6.根据权利要求1-4所述的方法，其特征在于，所述将所述文本信息与参考公文要素集中的参考公文要素进行匹配，得到第一公文要素集，包括：

7.根据权利要求6所述的方法，其特征在于，所述正则表达式是基于公文模板中，提取的公文要素特征及与所述公文要素特征匹配的可伸缩性信息构建的。

8.根据权利要求1所述的方法，其特征在于，所述若所述第一公文要素集中的第一公文要素的组合与参考公文要素组合集中的参考公文要素组合匹配成功，则判定所述待识别文件为公文之后，还包括：

9.一种公文识别装置，其特征在于，所述装置包括：

文件获取模块，用于获取待识别文件；

文本提取模块，用于提取所述待识别文件中的文本信息；

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

11.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。