CN113657373A - 一种文书自动编目方法 - Google Patents
一种文书自动编目方法 Download PDFInfo
- Publication number
- CN113657373A CN113657373A CN202110513618.8A CN202110513618A CN113657373A CN 113657373 A CN113657373 A CN 113657373A CN 202110513618 A CN202110513618 A CN 202110513618A CN 113657373 A CN113657373 A CN 113657373A
- Authority
- CN
- China
- Prior art keywords
- document
- standard document
- cataloguing
- identifying
- uploading
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012015 optical character recognition Methods 0.000 claims abstract description 22
- 238000004458 analytical method Methods 0.000 claims abstract description 4
- 238000003058 natural language processing Methods 0.000 claims abstract description 4
- 238000007670 refining Methods 0.000 claims abstract description 4
- 230000006870 function Effects 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 238000003709 image segmentation Methods 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 2
- 238000012937 correction Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 abstract description 3
- 230000008676 import Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及文书编目技术领域,且公开了一种文书自动编目方法,包括以下步骤:S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称。本发明把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率。
Description
技术领域
本发明涉及文书编目技术领域,具体为一种文书自动编目方法。
背景技术
在一些机关工作中,文书编目工作属于其中重要组成部分,主要的作用就是将一些机关扫描的文书文件集合至一个统一的标准目录下,供人们审查阅卷等。
目前,对于一些机关文书的编目工作,一般是通过人工编目的方法进行,随着案件数据的不断增加,对于编目者来说,编目任务越来越繁重,使得编目工作愈加繁琐,这种情况下,自动编目方法应运而生,但是一些编目软件对一些手写的文字识别方法不够好,影响工作效率,不能满足人们的要求。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种文书自动编目方法,解决了现有的编目软件对一些手写的文字识别方法不够好,影响工作效率,不能满足人们的要求的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:
一种文书自动编目方法,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
作为本发明再进一步的方案,所述S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书。
进一步的,所述S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字。
在前述方案的基础上,所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
进一步的,所述S3中针对上传的目录图片进行分类,然后提取其特征,进行识别。
在前述方案的基础上,所述S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理。
本发明再进一步的方案,所述S5中提供导出导入功能,进行相似文书导出导入操作,不需要重复进行编目。
(三)有益效果
与现有技术相比,本发明提供了一种文书自动编目方法,具备以下有益效果:
1、本发明对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别,把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好。
2、本发明中,通过针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率。
3、本发明通过OCR识别技术,可以自动判断、拆分、识别和还原各种通用型表格提高识别效率。
4、本发明提供导出导入功能,可进行相似文书导出导入操作,不需要重复进行编目。
附图说明
图1为本发明提出的一种文书自动编目方法的流程结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
参照图1,一种文书自动编目方法,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件,方便上传;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别,把标准文书和非标准文书进行区分识别,能够提高识别效率,而且针对非标准文书识别的效果较好;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
本发明的S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书,S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字,防止因为识别出相似的文字,导致校正环节难以发现纠错,影响效率,S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
需要特别说明的是,S3中针对上传的目录图片进行分类,然后提取其特征,进行识别,S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理,可以自动判断、拆分、识别和还原各种通用型表格提高识别效率,S5中提供导出导入功能,可进行相似文书导出导入操作,不需要重复进行编目。
在该文中的描述中,需要说明的是,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种方法、物品或者设备所固有的要素。
Claims (7)
1.一种文书自动编目方法,其特征在于,包括以下步骤:
S1:扫描文件,把标准文书和非标准文书均进行扫描,生成扫描件;
S2:上传文件,首先在电脑上点击解析文件,然后把S1中的扫描件上传到OCR中;
S3:编目,在上传文书后,针对标准文书,通过OCR进行文本、标题识别后,对于人名、份数发送至自然语言处理模块,进行关键字提炼,最终识别成标准化的文书名称,对于非标准文书,采用目录识别的方式进行编目,在上传文书之后,指定属于上传的目录的图片,点击目录识别将目录的图片信息送至OCR进行文书名和页码的识别;
S4:校正,在识别后,针对不能识别被标记的文字进行校正;
S5:推送,确认识别完成的目录没有问题后,点击推送,至统一业务系统,供工作人员查看。
2.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S1中标准文书指的是电脑生成打印的文字文书,非标准文书为手写的文书。
3.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S3中针对非标准文书进行识别目录时,遇到不能识别的文字时进行标记,而非简单的识别出相似的文字。
4.根据权利要求3所述的一种文书自动编目方法,其特征在于,所述S3中标记可以为圆圈、红线、叉号、红色的一种或多种。
5.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S3中针对上传的目录图片进行分类,然后提取其特征,进行识别。
6.根据权利要求5所述的一种文书自动编目方法,其特征在于,所述S3中OCR识别技术包括了图像输入,图像前处理,预识别,图像切分,特征提取,匹配及模型训练,识别后处理。
7.根据权利要求1所述的一种文书自动编目方法,其特征在于,所述S5中提供导出导入功能,进行相似文书导出导入操作,不需要重复进行编目。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513618.8A CN113657373A (zh) | 2021-05-11 | 2021-05-11 | 一种文书自动编目方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110513618.8A CN113657373A (zh) | 2021-05-11 | 2021-05-11 | 一种文书自动编目方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113657373A true CN113657373A (zh) | 2021-11-16 |
Family
ID=78476923
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110513618.8A Pending CN113657373A (zh) | 2021-05-11 | 2021-05-11 | 一种文书自动编目方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657373A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115995087A (zh) * | 2023-03-23 | 2023-04-21 | 杭州实在智能科技有限公司 | 基于融合视觉信息的文档目录智能生成方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104052870A (zh) * | 2007-02-13 | 2014-09-17 | 谷歌公司 | 模块式无线通信器 |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN110232046A (zh) * | 2019-05-27 | 2019-09-13 | 武汉市润普网络科技有限公司 | 一种电子卷宗随案生产方法 |
CN112668581A (zh) * | 2020-12-29 | 2021-04-16 | 北京声智科技有限公司 | 一种文书标题识别方法和装置 |
-
2021
- 2021-05-11 CN CN202110513618.8A patent/CN113657373A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104052870A (zh) * | 2007-02-13 | 2014-09-17 | 谷歌公司 | 模块式无线通信器 |
CN106250830A (zh) * | 2016-07-22 | 2016-12-21 | 浙江大学 | 数字图书结构化分析处理方法 |
CN110232046A (zh) * | 2019-05-27 | 2019-09-13 | 武汉市润普网络科技有限公司 | 一种电子卷宗随案生产方法 |
CN112668581A (zh) * | 2020-12-29 | 2021-04-16 | 北京声智科技有限公司 | 一种文书标题识别方法和装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115995087A (zh) * | 2023-03-23 | 2023-04-21 | 杭州实在智能科技有限公司 | 基于融合视觉信息的文档目录智能生成方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108960223B (zh) | 基于票据智能识别自动生成凭证的方法 | |
US20070033118A1 (en) | Document Scanning and Data Derivation Architecture. | |
CN107423732A (zh) | 基于Android平台的车辆VIN识别方法 | |
EP2092463A1 (en) | Automated generation of form definitions from hard-copy forms | |
CN110705515A (zh) | 一种基于ocr文字识别的医院纸质档案归档方法及系统 | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
CN111444793A (zh) | 基于ocr的票据识别方法、设备、存储介质及装置 | |
CN109684957A (zh) | 一种自动按照纸质表单展现系统数据的方法及系统 | |
Surana et al. | Text Extraction and Detection from Images using Machine Learning Techniques: A Research Review | |
CN111859885A (zh) | 一种法律判决书自动生成方法及系统 | |
CN114912417A (zh) | 业务数据处理方法、装置、设备及存储介质 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
CN112508000B (zh) | 一种用于ocr图像识别模型训练数据生成的方法及设备 | |
Kumar Garai et al. | A novel method for image to text extraction using tesseract-OCR | |
CN112464907A (zh) | 一种文档处理系统及方法 | |
Almohri et al. | A real-time DSP-based optical character recognition system for isolated Arabic characters using the TI TMS320C6416T | |
CN116343210A (zh) | 档案数字化的管理方法及装置 | |
CN115543915A (zh) | 人事档案目录自动化建库方法及系统 | |
CN115774805A (zh) | 一种基于数字化处理的档案智能查询方法及系统 | |
CN113935296A (zh) | 一种使用滑动模板技术进行纸质银行流水信息提取的方法 | |
CN111241955B (zh) | 一种票据信息提取方法及系统 | |
CN112348022B (zh) | 一种基于深度学习的自由格式文档识别方法 | |
CN112149654B (zh) | 基于深度学习的发票文本信息识别方法 | |
CN115203474A (zh) | 一种数据库自动分类提取技术 | |
CN1426017A (zh) | 一种校对多个电子文件的方法及其系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |