CN113657373A

CN113657373A - 一种文书自动编目方法

Info

Publication number: CN113657373A
Application number: CN202110513618.8A
Authority: CN
Inventors: 魏政; 曹瑾; 陈国�; 杨凤玲
Original assignee: Nanjing Aerospace Technology Co ltd
Current assignee: Nanjing Aerospace Technology Co ltd
Priority date: 2021-05-11
Filing date: 2021-05-11
Publication date: 2021-11-16

Abstract

本发明涉及文书编目技术领域，且公开了一种文书自动编目方法，包括以下步骤：S1：扫描文件，把标准文书和非标准文书均进行扫描，生成扫描件；S2：上传文件，首先在电脑上点击解析文件，然后把S1中的扫描件上传到OCR中；S3：编目，在上传文书后，针对标准文书，通过OCR进行文本、标题识别后，对于人名、份数发送至自然语言处理模块，进行关键字提炼，最终识别成标准化的文书名称。本发明把标准文书和非标准文书进行区分识别，能够提高识别效率，而且针对非标准文书识别的效果较好，遇到不能识别的文字时进行标记，而非简单的识别出相似的文字，防止因为识别出相似的文字，导致校正环节难以发现纠错，影响效率。

Description

一种文书自动编目方法

技术领域

本发明涉及文书编目技术领域，具体为一种文书自动编目方法。

背景技术

在一些机关工作中，文书编目工作属于其中重要组成部分，主要的作用就是将一些机关扫描的文书文件集合至一个统一的标准目录下，供人们审查阅卷等。

目前，对于一些机关文书的编目工作，一般是通过人工编目的方法进行，随着案件数据的不断增加，对于编目者来说，编目任务越来越繁重，使得编目工作愈加繁琐，这种情况下，自动编目方法应运而生，但是一些编目软件对一些手写的文字识别方法不够好，影响工作效率，不能满足人们的要求。

发明内容

(一)解决的技术问题

针对现有技术的不足，本发明提供了一种文书自动编目方法，解决了现有的编目软件对一些手写的文字识别方法不够好，影响工作效率，不能满足人们的要求的问题。

(二)技术方案

为实现上述目的，本发明提供如下技术方案：

一种文书自动编目方法，包括以下步骤：

S1：扫描文件，把标准文书和非标准文书均进行扫描，生成扫描件；

S2：上传文件，首先在电脑上点击解析文件，然后把S1中的扫描件上传到OCR中；

S3：编目，在上传文书后，针对标准文书，通过OCR进行文本、标题识别后，对于人名、份数发送至自然语言处理模块，进行关键字提炼，最终识别成标准化的文书名称，对于非标准文书，采用目录识别的方式进行编目，在上传文书之后，指定属于上传的目录的图片，点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别；

S4：校正，在识别后，针对不能识别被标记的文字进行校正；

S5：推送，确认识别完成的目录没有问题后，点击推送，至统一业务系统，供工作人员查看。

作为本发明再进一步的方案，所述S1中标准文书指的是电脑生成打印的文字文书，非标准文书为手写的文书。

进一步的，所述S3中针对非标准文书进行识别目录时，遇到不能识别的文字时进行标记，而非简单的识别出相似的文字。

在前述方案的基础上，所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。

进一步的，所述S3中针对上传的目录图片进行分类，然后提取其特征，进行识别。

在前述方案的基础上，所述S3中OCR识别技术包括了图像输入，图像前处理，预识别，图像切分，特征提取，匹配及模型训练，识别后处理。

本发明再进一步的方案，所述S5中提供导出导入功能，进行相似文书导出导入操作，不需要重复进行编目。

(三)有益效果

与现有技术相比，本发明提供了一种文书自动编目方法，具备以下有益效果：

1、本发明对于非标准文书，采用目录识别的方式进行编目，在上传文书之后，指定属于上传的目录的图片，点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别，把标准文书和非标准文书进行区分识别，能够提高识别效率，而且针对非标准文书识别的效果较好。

2、本发明中，通过针对非标准文书进行识别目录时，遇到不能识别的文字时进行标记，而非简单的识别出相似的文字，防止因为识别出相似的文字，导致校正环节难以发现纠错，影响效率。

3、本发明通过OCR识别技术，可以自动判断、拆分、识别和还原各种通用型表格提高识别效率。

4、本发明提供导出导入功能，可进行相似文书导出导入操作，不需要重复进行编目。

附图说明

图1为本发明提出的一种文书自动编目方法的流程结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

参照图1，一种文书自动编目方法，包括以下步骤：

S1：扫描文件，把标准文书和非标准文书均进行扫描，生成扫描件，方便上传；

S3：编目，在上传文书后，针对标准文书，通过OCR进行文本、标题识别后，对于人名、份数发送至自然语言处理模块，进行关键字提炼，最终识别成标准化的文书名称，对于非标准文书，采用目录识别的方式进行编目，在上传文书之后，指定属于上传的目录的图片，点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别，把标准文书和非标准文书进行区分识别，能够提高识别效率，而且针对非标准文书识别的效果较好；

本发明的S1中标准文书指的是电脑生成打印的文字文书，非标准文书为手写的文书，S3中针对非标准文书进行识别目录时，遇到不能识别的文字时进行标记，而非简单的识别出相似的文字，防止因为识别出相似的文字，导致校正环节难以发现纠错，影响效率，S3中标记可以为圆圈、红线、叉号、红色的一种或多种。

需要特别说明的是，S3中针对上传的目录图片进行分类，然后提取其特征，进行识别，S3中OCR识别技术包括了图像输入，图像前处理，预识别，图像切分，特征提取，匹配及模型训练，识别后处理，可以自动判断、拆分、识别和还原各种通用型表格提高识别效率，S5中提供导出导入功能，可进行相似文书导出导入操作，不需要重复进行编目。

在该文中的描述中，需要说明的是，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种方法、物品或者设备所固有的要素。

Claims

1.一种文书自动编目方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种文书自动编目方法，其特征在于，所述S1中标准文书指的是电脑生成打印的文字文书，非标准文书为手写的文书。

3.根据权利要求1所述的一种文书自动编目方法，其特征在于，所述S3中针对非标准文书进行识别目录时，遇到不能识别的文字时进行标记，而非简单的识别出相似的文字。

4.根据权利要求3所述的一种文书自动编目方法，其特征在于，所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。

5.根据权利要求1所述的一种文书自动编目方法，其特征在于，所述S3中针对上传的目录图片进行分类，然后提取其特征，进行识别。

6.根据权利要求5所述的一种文书自动编目方法，其特征在于，所述S3中OCR识别技术包括了图像输入，图像前处理，预识别，图像切分，特征提取，匹配及模型训练，识别后处理。

7.根据权利要求1所述的一种文书自动编目方法，其特征在于，所述S5中提供导出导入功能，进行相似文书导出导入操作，不需要重复进行编目。