CN113657373A - 一种文书自动编目方法 - Google Patents

一种文书自动编目方法 Download PDF

Info

Publication number
CN113657373A
CN113657373A CN202110513618.8A CN202110513618A CN113657373A CN 113657373 A CN113657373 A CN 113657373A CN 202110513618 A CN202110513618 A CN 202110513618A CN 113657373 A CN113657373 A CN 113657373A
Authority
CN
China
Prior art keywords
document
standard document
cataloguing
identifying
uploading
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110513618.8A
Other languages
English (en)
Inventor
魏政
曹瑾
陈国�
杨凤玲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Aerospace Technology Co ltd
Original Assignee
Nanjing Aerospace Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Aerospace Technology Co ltd filed Critical Nanjing Aerospace Technology Co ltd
Priority to CN202110513618.8A priority Critical patent/CN113657373A/zh
Publication of CN113657373A publication Critical patent/CN113657373A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及文书编目技术领域,且公开了一种文书自动编目方法,包括以下步骤:S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称。本发明把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率。

Description

一种文书自动编目方法
技术领域
本发明涉及文书编目技术领域,具体为一种文书自动编目方法。
背景技术
在一些机关工作中,文书编目工作属于其中重要组成部分,主要的作用就是将一些机关扫描的文书文件集合至一个统一的标准目录下,供人们审查阅卷等。
目前,对于一些机关文书的编目工作,一般是通过人工编目的方法进行,随着案件数据的不断增加,对于编目者来说,编目任务越来越繁重,使得编目工作愈加繁琐,这种情况下,自动编目方法应运而生,但是一些编目软件对一些手写的文字识别方法不够好,影响工作效率,不能满足人们的要求。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种文书自动编目方法,解决了现有的编目软件对一些手写的文字识别方法不够好,影响工作效率,不能满足人们的要求的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种文书自动编目方法,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
作为本发明再进一步的方案,所述S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书。
进一步的,所述S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字。
在前述方案的基础上,所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
进一步的,所述S3中针对上传的目录图片进行分类,然后提取其特征,进行识别。
在前述方案的基础上,所述S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理。
本发明再进一步的方案,所述S5中提供导出导入功能,进行相似文书导出导入操作,不需要重复进行编目。
(三)有益效果
与现有技术相比,本发明提供了一种文书自动编目方法,具备以下有益效果:
1、本发明对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别,把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好。
2、本发明中,通过针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率。
3、本发明通过OCR识别技术,可以自动判断、拆分、识别和还原各种通用型表格提高识别效率。
4、本发明提供导出导入功能,可进行相似文书导出导入操作,不需要重复进行编目。
附图说明
图1为本发明提出的一种文书自动编目方法的流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种文书自动编目方法,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件,方便上传;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别,把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
本发明的S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书,S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率,S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
需要特别说明的是,S3中针对上传的目录图片进行分类,然后提取其特征,进行识别,S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理,可以自动判断、拆分、识别和还原各种通用型表格提高识别效率,S5中提供导出导入功能,可进行相似文书导出导入操作,不需要重复进行编目。
在该文中的描述中,需要说明的是,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种方法、物品或者设备所固有的要素。

Claims (7)

1.一种文书自动编目方法,其特征在于,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
2.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书。
3.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字。
4.根据权利要求3所述的一种文书自动编目方法,其特征在于,所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
5.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S3中针对上传的目录图片进行分类,然后提取其特征,进行识别。
6.根据权利要求5所述的一种文书自动编目方法,其特征在于,所述S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理。
7.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S5中提供导出导入功能,进行相似文书导出导入操作,不需要重复进行编目。
CN202110513618.8A 2021-05-11 2021-05-11 一种文书自动编目方法 Pending CN113657373A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110513618.8A CN113657373A (zh) 2021-05-11 2021-05-11 一种文书自动编目方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110513618.8A CN113657373A (zh) 2021-05-11 2021-05-11 一种文书自动编目方法

Publications (1)

Publication Number Publication Date
CN113657373A true CN113657373A (zh) 2021-11-16

Family

ID=78476923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110513618.8A Pending CN113657373A (zh) 2021-05-11 2021-05-11 一种文书自动编目方法

Country Status (1)

Country Link
CN (1) CN113657373A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995087A (zh) * 2023-03-23 2023-04-21 杭州实在智能科技有限公司 基于融合视觉信息的文档目录智能生成方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052870A (zh) * 2007-02-13 2014-09-17 谷歌公司 模块式无线通信器
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN110232046A (zh) * 2019-05-27 2019-09-13 武汉市润普网络科技有限公司 一种电子卷宗随案生产方法
CN112668581A (zh) * 2020-12-29 2021-04-16 北京声智科技有限公司 一种文书标题识别方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104052870A (zh) * 2007-02-13 2014-09-17 谷歌公司 模块式无线通信器
CN106250830A (zh) * 2016-07-22 2016-12-21 浙江大学 数字图书结构化分析处理方法
CN110232046A (zh) * 2019-05-27 2019-09-13 武汉市润普网络科技有限公司 一种电子卷宗随案生产方法
CN112668581A (zh) * 2020-12-29 2021-04-16 北京声智科技有限公司 一种文书标题识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115995087A (zh) * 2023-03-23 2023-04-21 杭州实在智能科技有限公司 基于融合视觉信息的文档目录智能生成方法及系统

Similar Documents

Publication Publication Date Title
CN108960223B (zh) 基于票据智能识别自动生成凭证的方法
US20070033118A1 (en) Document Scanning and Data Derivation Architecture.
CN107423732A (zh) 基于Android平台的车辆VIN识别方法
EP2092463A1 (en) Automated generation of form definitions from hard-copy forms
CN110705515A (zh) 一种基于ocr文字识别的医院纸质档案归档方法及系统
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CN111444793A (zh) 基于ocr的票据识别方法、设备、存储介质及装置
CN109684957A (zh) 一种自动按照纸质表单展现系统数据的方法及系统
Surana et al. Text Extraction and Detection from Images using Machine Learning Techniques: A Research Review
CN111859885A (zh) 一种法律判决书自动生成方法及系统
CN114912417A (zh) 业务数据处理方法、装置、设备及存储介质
CN113657373A (zh) 一种文书自动编目方法
CN112508000B (zh) 一种用于ocr图像识别模型训练数据生成的方法及设备
Kumar Garai et al. A novel method for image to text extraction using tesseract-OCR
CN112464907A (zh) 一种文档处理系统及方法
Almohri et al. A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T
CN116343210A (zh) 档案数字化的管理方法及装置
CN115543915A (zh) 人事档案目录自动化建库方法及系统
CN115774805A (zh) 一种基于数字化处理的档案智能查询方法及系统
CN113935296A (zh) 一种使用滑动模板技术进行纸质银行流水信息提取的方法
CN111241955B (zh) 一种票据信息提取方法及系统
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
CN112149654B (zh) 基于深度学习的发票文本信息识别方法
CN115203474A (zh) 一种数据库自动分类提取技术
CN1426017A (zh) 一种校对多个电子文件的方法及其系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination