CN112990022A

CN112990022A - 一种ocr文字识别提取方法

Info

Publication number: CN112990022A
Application number: CN202110292789.2A
Authority: CN
Inventors: 黄志春; 张定国; 伍宇文; 李韧; 康文静
Original assignee: Guangzhou Weihong Intelligent Technology Co ltd
Current assignee: Guangzhou Weihong Intelligent Technology Co ltd
Priority date: 2021-03-18
Filing date: 2021-03-18
Publication date: 2021-06-18

Abstract

本发明公开了一种OCR文字识别提取方法，所述OCR文字识别提取方法包括如下步骤：扫描文件；颜色分离；用户确认后发送至服务器端；图片分隔处理并作出备注；文字提取识别；用户确认并反馈；排版后完成文字提取。本发明的有益效果是：本方法通过颜色处理模块将数字图片文件中颜色分离，按颜色将图片分成多个数据图片文件，用户选择一张到多张主体图片文件，主机端将选择的一张多张图片整合，然后将确认后的图片文件发送至服务端，实现了用户与服务器端的交互沟通，减少了识别错误可能，提高了图片的转换效率，减少了文字提取错误的可能性，使用便捷，后期检查更为便捷，节省了检查时间，同时建立个人数据库，保存个人书写习惯，方便用户使用。

Description

一种OCR文字识别提取方法

技术领域

本发明涉及OCR文字识别提取，具体为一种OCR文字识别提取方法，属于OCR文字识别技术领域。

背景技术

OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。对于一些书写文件，通过OCR文字识别能减少大量工作时间，但是现有的OCR文字识别提取方法存在以下缺陷：

现有的OCR文字识别在提取文字时遇到图片颜色较多时，准确率较低，识别难度较大；现有的OCR文字识别在提取文字时字体存在颠倒和扭曲时识别率较低，出现识别错误时，交互性差，并没有在后续文档中标识出来，导致在对比检查时容易疏漏，非常不便。

发明内容

本发明的目的就在于为了解决上述问题而提供一种OCR文字识别提取方法。

本发明通过以下技术方案来实现上述目的，一种OCR文字识别提取方法，所述OCR文字识别提取方法包括如下步骤：

(1)用户使用扫描仪将图片文件变成数字图片文件。

(2)通过颜色处理模块将数字图片文件中颜色分离，按颜色将图片分成多个数据图片文件。

(3)用户选择一张到多张主体图片文件，主机端将选择的一张多张图片整合，然后将确认后的图片文件发送至服务端。

(4)服务器端中的文字识别模块对主体图片文件进行识别转换，文字识别模块包括以下步骤：

S1测量文档放置的倾斜角。

S2对文档进行版面分析。

S3对选出的文字域进行排版确认。

S4对横、竖排版的文字行进行切分。

S5对标点符号的判别，存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注。

(5)服务器端通过文字转换模块对处理后文字图片进行文字转换，不改变文字的格式信息，然后将转换后的文字储存以文档的形式发送给主机端。

(6)用户通过主机端接收文档并确认备注是否正确，主机端将用户反馈发送至服务器端并更新数据库。

(7)用户确认后将主机端通过排版模块刷新文字排版格式，完成对图片文件的文字识别提取。

优选的，所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件，保证文字清楚、特征不丢失。

优选的，所述步骤(2)中的颜色处理模块，包括对图像净化处理，去掉原始图像中的显见噪声，按颜色系列分离图片。

优选的，所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片，也可以通过颜色筛选模块自动选择主体图片文件。

优选的，所述步骤S5中作出备注的方式采用特殊颜色显示。

优选的，所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字，对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。

优选的，所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认。

优选的，所述步骤(6)中将用户确认后的文字档保存发送至服务器端，服务器端保存用户的反馈信息，更新用户的个人数据库。

优选的，所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符。

本发明的有益效果是：

(1)本方法通过颜色处理模块将数字图片文件中颜色分离，按颜色将图片分成多个数据图片文件，用户选择一张到多张主体图片文件，主机端将选择的一张多张图片整合，然后将确认后的图片文件发送至服务端，实现了用户与服务器端的交互沟通，减少了识别错误可能，提高了图片的转换效率，减少了文字提取错误的可能性；

(2)本方法中文字识别模块将存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注，用户通过主机端接收文档并确认备注是否正确，主机端将用户反馈发送至服务器端并更新数据库，大大减少了错误率，用户使用便捷，后期检查更为便捷，节省了检查时间，同时上传数据至建立的个人数据库，保存个人书写习惯，方便用户使用。

附图说明

图1为本发明的方法流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供的一种实施例：一种OCR文字识别提取方法，所述OCR文字识别提取方法包括如下步骤：

(1)用户使用扫描仪将图片文件变成数字图片文件。

S1测量文档放置的倾斜角。

S2对文档进行版面分析。

S3对选出的文字域进行排版确认。

S4对横、竖排版的文字行进行切分。

具体的，所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件，保证文字清楚、特征不丢失，图片扫描质量是OCR软件正确识别的前提条件，恰当地选择扫描分辨率及相关参数，是保证文字清楚、特征不丢失的关键，文档尽可能地放置端正，以保证预处理检测的倾斜角小。

具体的，所述步骤(2)中的颜色处理模块，包括对图像净化处理，去掉原始图像中的显见噪声，按颜色系列分离图片，按不同颜色系列分离图片，减少OCR文字识别提取的后期工作量，大大提高提取文字的效率。

具体的，所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片，也可以通过颜色筛选模块自动选择主体图片文件。

具体的，所述步骤S5中作出备注的方式采用特殊颜色显示，通过设置备注采用特殊颜色显示，方便用直观查看并确认。

具体的，所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字，对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。

具体的，所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认，通过设置文字链接窗口供用户选择确认修改更为便捷，节省查验时间。

具体的，所述步骤(6)中将用户确认后的文字档保存发送至服务器端，服务器端保存用户的反馈信息，更新用户的个人数据库，通过设置个人数据库便于更具个人书写习惯，方便下次识别和用户使用。

具体的，所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符，通过设置排版模块使得文档修改更加美观，减少后期查验工作量。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

Claims

1.一种OCR文字识别提取方法，其特征在于：所述OCR文字识别提取方法包括如下步骤：

(1)用户使用扫描仪将图片文件变成数字图片文件；

(2)通过颜色处理模块将数字图片文件中颜色分离，按颜色将图片分成多个数据图片文件；

(3)用户选择一张到多张主体图片文件，主机端将选择的一张多张图片整合，然后将确认后的图片文件发送至服务端；

S1测量文档放置的倾斜角；

S2对文档进行版面分析；

S3对选出的文字域进行排版确认；

S4对横、竖排版的文字行进行切分；

S5对标点符号的判别，存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注；

(5)服务器端通过文字转换模块对处理后文字图片进行文字转换，不改变文字的格式信息，然后将转换后的文字储存以文档的形式发送给主机端；

(6)用户通过主机端接收文档并确认备注是否正确，主机端将用户反馈发送至服务器端并更新数据库；

2.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件，保证文字清楚、特征不丢失。

3.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(2)中的颜色处理模块，包括对图像净化处理，去掉原始图像中的显见噪声，按颜色系列分离图片。

4.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片，也可以通过颜色筛选模块自动选择主体图片文件。

5.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤S5中作出备注的方式采用特殊颜色显示。

6.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字，对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。

7.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认。

8.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(6)中将用户确认后的文字档保存发送至服务器端，服务器端保存用户的反馈信息，更新用户的个人数据库。

9.根据权利要求1所述的一种OCR文字识别提取方法，其特征在于：所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符。