CN115116082B

CN115116082B - 一种基于ocr识别算法的一键成档系统

Info

Publication number: CN115116082B
Application number: CN202210214603.6A
Authority: CN
Inventors: 杨建福
Original assignee: Hangzhou Jingsheng Hangxing Technology Co ltd
Current assignee: Hangzhou Jingsheng Hangxing Technology Co ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2023-09-01
Anticipated expiration: 2042-03-04
Also published as: CN115116082A

Abstract

本发明属于教育管理领域，涉及OCR识别技术，用于解决现有的档案生成系统在档案调取时调取手段单一，调取效率低下的技术问题，具体是一种基于OCR识别算法的一键成档系统，包括处理器，处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块，扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像，采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果，OCR识别结果至少包括文字信息；本发明是通过特征提取模块对档案文字信息中的关键词进行提取，同时在关键词提取完成之后对关键词库进行重复分析，保证通过关键词提取档案的有效性。

Description

一种基于OCR识别算法的一键成档系统

技术领域

本发明属于教育管理领域，涉及OCR识别技术，具体是一种基于OCR识别算法的一键成档系统。

背景技术

学术界关于档案的定义还不统一，一般档案是指人们在各项社会活动中直接形成的各种形式的具有保存价值的原始记录，原始记录性是它的本质属性；且现有的档案生成系统不能够在扫描的同时对档案的特征进行调取，导致档案的调取仅能够通过输入编号完成，然而档案的编号字符数通常都很多，在输入时错误率高，导致档案调取效率低下；

针对上述技术问题，本申请提出一种可通过多种调取方式对档案进行调取的一键成档系统。

发明内容

本发明的目的在于提供一种基于OCR识别算法的一键成档系统，用于解决现有的档案生成系统在档案调取时调取手段单一，调取效率低下的技术问题；

本发明需要解决的技术问题为：如何提供一种可通过多种调取方式对档案进行调取的一键成档系统。

本发明的目的可以通过以下技术方案实现：

一种基于OCR识别算法的一键成档系统，包括处理器，所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块；

所述扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像，采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果，OCR识别结果至少包括文字信息；

编号生成模块用于对档案进行编号并将得到的标号与档案进行匹配；

所述特征提取模块包括关键提取单元、图形提取单元；

关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配，在关键词提取完成后对关键词库进行重复分析；

所述图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形，将关键图形与文字信息进行匹配并将关键图形发送至存储模块；

将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征，在档案调取时通过输入关键特征对档案进行调取；

档案调取模块用于通过关键特征对档案进行调取，档案调取模块包括特征调取单元与编号调取单元。

进一步地，编号生成模块对档案进行编号的具体过程包括：获取文字信息中的坐标信息，获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组，获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取，将扫描时间的年份、月份以及日期进行组合得到时间字符组，获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组，由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码，将档案的编码与档案进行匹配并将档案的编码发送至存储模块。

进一步地，关键词提取的过程包括：将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列，将字符中的标点符号进行删除后，将得到的字符标记为i，i＝1，2，…，n，n为正整数，对字符进行组词得到n-1个词组A，词组A中的第一个词语由第一个字符与第二个字符组成，词组A中的第二个词语由第二个字符与第三个字符组成，以此类推，将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词；对字符进行组词得到n-2个词组B，词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成，词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成，以此类推，将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词，将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库。

进一步地，对关键词库进行重复分析的具体过程包括：通过存储模块获取重复阈值，将关键词库中重复次数不小于重复阈值的关键词进行删除，删除完成后，若文字信息中的关键词全部从关键词库中删除，则对文字信息重新进行关键词提取，将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词，将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词，将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中，对关键词库再次进行重复分析，直至重复分析完成后，文字信息中的关键词还存在于关键词库中，将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配；若文字信息中的关键词没有全部从关键词库中删除，则将关键词库中剩余的文字信息的关键词与文字信息相匹配。

进一步地，特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找，判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形，若存在，则对与关键词或关键图形相匹配的档案进行调取；若不存在，则调取失败。

进一步地，编号调取单元用于通过用户输入的编号在存储模块中进行查找，判定存储模块中是否存在与用户输入的编号相同的编号，若存在，则对与编号相匹配的档案进行调取，若不存在，则调取失败。

本发明具备下述有益效果：

1、通过特征提取模块可以对档案文字信息中的关键词进行提取，同时在关键词提取完成之后对关键词库进行重复分析，对提取得到的关键词关联的档案数量进行限制，避免了关键提取单元对多数档案中均存在的无效关键词进行提取，保证通过关键词提取档案的有效性；

2、通过图形提取单元可以对档案中的图形进行提取，将得到的图形与档案相匹配，因此，通过关键图形与关键词构成关键特征集合，用户在调取档案时，可输入档案编号或输入关键特征集合，由于关键词由二至三个字符组成，关键图形通过复制输入，从而大大降低了档案调取的错误率，提高了档案调取效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明原理框图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种基于OCR识别算法的一键成档系统，包括处理器，处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块。

扫描模块用于对纸质文件进行图像拍摄并将拍摄到的图像标记为分析图像，采用OCR识别接口对分析图像进行OCR识别得到OCR识别结果，OCR文字识别软件，是一种利用OCR(Optical Character Recognition，光学字符识别)技术，将图片、照片上的文字内容，直接转换为可编辑文本的软件，OCR识别结果至少包括文字信息。

编号生成模块用于对档案进行编号：获取文字信息中的坐标信息，获取坐标信息中的省、市、县名称并将省、市、县名称的首字母进行组合得到坐标字符组，获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取，将扫描时间的年份、月份以及日期进行组合得到时间字符组，获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组，由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码，将档案的编码与档案进行匹配并将档案的编码发送至存储模块。

特征提取模块包括关键提取单元、图形提取单元；

关键提取单元用于对文字信息进行关键词提取并将提取得到的关键词与文字信息进行匹配，关键词提取的过程包括：将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列，将字符中的标点符号进行删除后，将得到的字符标记为i，i＝1，2，…，n，n为正整数，对字符进行组词得到n-1个词组A，词组A中的第一个词语由第一个字符与第二个字符组成，词组A中的第二个词语由第二个字符与第三个字符组成，以此类推，将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词；对字符进行组词得到n-2个词组B，词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成，词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成，以此类推，将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词，将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库。对关键词库进行重复分析：通过存储模块获取重复阈值，将关键词库中重复次数不小于重复阈值的关键词进行删除，删除完成后，若文字信息中的关键词全部从关键词库中删除，则对文字信息重新进行关键词提取，将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词，将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词，将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中，对关键词库再次进行重复分析，直至重复分析完成后，文字信息中的关键词还存在于关键词库中，将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配；若文字信息中的关键词没有全部从关键词库中删除，则将关键词库中剩余的文字信息的关键词与文字信息相匹配；通过重复分析对提取得到的关键词关联的档案数量进行限制，避免了关键提取单元对多数档案中均存在的无效关键词进行提取，保证通过关键词提取档案的有效性。

图形提取单元用于通过图像处理技术对分析图像中的图形进行提取并将提取得到的图形标记为关键图形，图像处理技术是用计算机对图像信息进行处理的技术。主要包括图像数字化、图像增强和复原、图像数据编码、图像分割和图像识别等。将关键图形与文字信息进行匹配并将关键图形发送至存储模块。将与文字信息完成匹配的关键图形与关键词的集合标记为关键特征，在档案调取时通过输入关键特征对档案进行调取，用户在调取档案时，可输入档案编号或输入关键特征集合，由于关键词由二至三个字符组成，关键图形通过复制输入，从而大大降低了档案调取的错误率，提高了档案调取效率。

档案调取模块用于通过关键特征对档案进行调取，档案调取模块包括特征调取单元与编号调取单元；

特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找，判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形，若存在，则对与关键词或关键图形相匹配的档案进行调取；若不存在，则调取失败。

编号调取单元用于通过用户输入的编号在存储模块中进行查找，判定存储模块中是否存在与用户输入的编号相同的编号，若存在，则对与编号相匹配的档案进行调取，若不存在，则调取失败。

一种基于OCR识别算法的一键成档系统，工作时，通过扫描模块对纸质文件进行得到档案的文字信息，编号生成模块通过坐标信息、时间信息以及名称信息生成档案的编号；关键提取单元对文字信息中的关键词进行提取，图形提取单元对档案中的关键图形进行提取，将关键词与关键图形进行组合得到关键特征，在调取时可通过编号与关键特征对档案进行调取。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于OCR识别算法的一键成档系统，包括处理器，其特征在于，所述处理器通信连接有扫描模块、编号生成模块、特征提取模块、档案调取模块以及存储模块；

所述特征提取模块包括关键提取单元、图形提取单元；

编号生成模块对档案进行编号的具体过程包括：获取文字信息中的坐标信息，获取坐标信息中的省、市、县名称并将省、市、县名称的首字母建立坐标字符组，获取档案的扫描时间并将扫描时间中的年份、月份以及日期进行提取，将扫描时间的年份、月份以及日期进行组合得到时间字符组，获取档案归属人的姓名并将档案归属人姓名的首字母进行组合得到名称字符组，由坐标字符组、时间字符组以及名称字符组进行组合得到档案的编码，将档案的编码与档案进行匹配并将档案的编码发送至存储模块；

关键词提取的过程包括：将文字信息进行字符拆解并将拆解后的字符按照拆解顺序进行排列，将字符中的标点符号进行删除后，将得到的字符标记为i，i＝1，2，…，n，n为正整数，对字符进行组词得到n-1个词组A，词组A中的第一个词语由第一个字符与第二个字符组成，词组A中的第二个词语由第二个字符与第三个字符组成，以此类推，将词组A中出现次数最多与第二多的两个词语分别标记为第一关键词与第二关键词；对字符进行组词得到n-2个词组B，词组B中的第一个词语由第一个字符、第二个字符以及第三个字符组成，词组B中的第二个词语由第二个字符、第三个字符以及第四个字符组成，以此类推，将词组B中出现次数最多与第二多的两个词语分别标记为第三关键词与第四关键词，将第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库；

对关键词库进行重复分析的具体过程包括：通过存储模块获取重复阈值，将关键词库中重复次数不小于重复阈值的关键词进行删除，删除完成后，若文字信息中的关键词全部从关键词库中删除，则对文字信息重新进行关键词提取，将词组A中出现第三多与第四多的两个词语分别标记为第一关键词与第二关键词，将词组B中出现第三多与第四多的两个词语分别标记为第三关键词与第四关键词，将重新提取的第一关键词、第二关键词、第三关键词以及第四关键词发送至关键词库中，对关键词库再次进行重复分析，直至重复分析完成后，文字信息中的关键词还存在于关键词库中，将重复分析完成之后还存在于关键词库中的关键词与文字信息相匹配；若文字信息中的关键词没有全部从关键词库中删除，则将关键词库中剩余的文字信息的关键词与文字信息相匹配。

2.根据权利要求1所述的一种基于OCR识别算法的一键成档系统，其特征在于，特征调取单元用于通过用户输入的关键特征在存储模块或关键词库中进行查找，判定存储模块或关键词库中是否存在与用户输入的关键特征相同的关键词或关键图形，若存在，则对与关键词或关键图形相匹配的档案进行调取；若不存在，则调取失败。

3.根据权利要求2所述的一种基于OCR识别算法的一键成档系统，其特征在于，编号调取单元用于通过用户输入的编号在存储模块中进行查找，判定存储模块中是否存在与用户输入的编号相同的编号，若存在，则对与编号相匹配的档案进行调取，若不存在，则调取失败。