CN112990022A - 一种ocr文字识别提取方法 - Google Patents
一种ocr文字识别提取方法 Download PDFInfo
- Publication number
- CN112990022A CN112990022A CN202110292789.2A CN202110292789A CN112990022A CN 112990022 A CN112990022 A CN 112990022A CN 202110292789 A CN202110292789 A CN 202110292789A CN 112990022 A CN112990022 A CN 112990022A
- Authority
- CN
- China
- Prior art keywords
- user
- character recognition
- characters
- extraction method
- picture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种OCR文字识别提取方法,所述OCR文字识别提取方法包括如下步骤:扫描文件;颜色分离;用户确认后发送至服务器端;图片分隔处理并作出备注;文字提取识别;用户确认并反馈;排版后完成文字提取。本发明的有益效果是:本方法通过颜色处理模块将数字图片文件中颜色分离,按颜色将图片分成多个数据图片文件,用户选择一张到多张主体图片文件,主机端将选择的一张多张图片整合,然后将确认后的图片文件发送至服务端,实现了用户与服务器端的交互沟通,减少了识别错误可能,提高了图片的转换效率,减少了文字提取错误的可能性,使用便捷,后期检查更为便捷,节省了检查时间,同时建立个人数据库,保存个人书写习惯,方便用户使用。
Description
技术领域
本发明涉及OCR文字识别提取,具体为一种OCR文字识别提取方法,属于OCR文字识别技术领域。
背景技术
OCR文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。对于一些书写文件,通过OCR文字识别能减少大量工作时间,但是现有的OCR文字识别提取方法存在以下缺陷:
现有的OCR文字识别在提取文字时遇到图片颜色较多时,准确率较低,识别难度较大;现有的OCR文字识别在提取文字时字体存在颠倒和扭曲时识别率较低,出现识别错误时,交互性差,并没有在后续文档中标识出来,导致在对比检查时容易疏漏,非常不便。
发明内容
本发明的目的就在于为了解决上述问题而提供一种OCR文字识别提取方法。
本发明通过以下技术方案来实现上述目的,一种OCR文字识别提取方法,所述OCR文字识别提取方法包括如下步骤:
(1)用户使用扫描仪将图片文件变成数字图片文件。
(2)通过颜色处理模块将数字图片文件中颜色分离,按颜色将图片分成多个数据图片文件。
(3)用户选择一张到多张主体图片文件,主机端将选择的一张多张图片整合,然后将确认后的图片文件发送至服务端。
(4)服务器端中的文字识别模块对主体图片文件进行识别转换,文字识别模块包括以下步骤:
S1测量文档放置的倾斜角。
S2对文档进行版面分析。
S3对选出的文字域进行排版确认。
S4对横、竖排版的文字行进行切分。
S5对标点符号的判别,存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注。
(5)服务器端通过文字转换模块对处理后文字图片进行文字转换,不改变文字的格式信息,然后将转换后的文字储存以文档的形式发送给主机端。
(6)用户通过主机端接收文档并确认备注是否正确,主机端将用户反馈发送至服务器端并更新数据库。
(7)用户确认后将主机端通过排版模块刷新文字排版格式,完成对图片文件的文字识别提取。
优选的,所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件,保证文字清楚、特征不丢失。
优选的,所述步骤(2)中的颜色处理模块,包括对图像净化处理,去掉原始图像中的显见噪声,按颜色系列分离图片。
优选的,所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片,也可以通过颜色筛选模块自动选择主体图片文件。
优选的,所述步骤S5中作出备注的方式采用特殊颜色显示。
优选的,所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字,对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。
优选的,所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认。
优选的,所述步骤(6)中将用户确认后的文字档保存发送至服务器端,服务器端保存用户的反馈信息,更新用户的个人数据库。
优选的,所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符。
本发明的有益效果是:
(1)本方法通过颜色处理模块将数字图片文件中颜色分离,按颜色将图片分成多个数据图片文件,用户选择一张到多张主体图片文件,主机端将选择的一张多张图片整合,然后将确认后的图片文件发送至服务端,实现了用户与服务器端的交互沟通,减少了识别错误可能,提高了图片的转换效率,减少了文字提取错误的可能性;
(2)本方法中文字识别模块将存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注,用户通过主机端接收文档并确认备注是否正确,主机端将用户反馈发送至服务器端并更新数据库,大大减少了错误率,用户使用便捷,后期检查更为便捷,节省了检查时间,同时上传数据至建立的个人数据库,保存个人书写习惯,方便用户使用。
附图说明
图1为本发明的方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供的一种实施例:一种OCR文字识别提取方法,所述OCR文字识别提取方法包括如下步骤:
(1)用户使用扫描仪将图片文件变成数字图片文件。
(2)通过颜色处理模块将数字图片文件中颜色分离,按颜色将图片分成多个数据图片文件。
(3)用户选择一张到多张主体图片文件,主机端将选择的一张多张图片整合,然后将确认后的图片文件发送至服务端。
(4)服务器端中的文字识别模块对主体图片文件进行识别转换,文字识别模块包括以下步骤:
S1测量文档放置的倾斜角。
S2对文档进行版面分析。
S3对选出的文字域进行排版确认。
S4对横、竖排版的文字行进行切分。
S5对标点符号的判别,存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注。
(5)服务器端通过文字转换模块对处理后文字图片进行文字转换,不改变文字的格式信息,然后将转换后的文字储存以文档的形式发送给主机端。
(6)用户通过主机端接收文档并确认备注是否正确,主机端将用户反馈发送至服务器端并更新数据库。
(7)用户确认后将主机端通过排版模块刷新文字排版格式,完成对图片文件的文字识别提取。
具体的,所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件,保证文字清楚、特征不丢失,图片扫描质量是OCR软件正确识别的前提条件,恰当地选择扫描分辨率及相关参数,是保证文字清楚、特征不丢失的关键,文档尽可能地放置端正,以保证预处理检测的倾斜角小。
具体的,所述步骤(2)中的颜色处理模块,包括对图像净化处理,去掉原始图像中的显见噪声,按颜色系列分离图片,按不同颜色系列分离图片,减少OCR文字识别提取的后期工作量,大大提高提取文字的效率。
具体的,所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片,也可以通过颜色筛选模块自动选择主体图片文件。
具体的,所述步骤S5中作出备注的方式采用特殊颜色显示,通过设置备注采用特殊颜色显示,方便用直观查看并确认。
具体的,所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字,对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。
具体的,所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认,通过设置文字链接窗口供用户选择确认修改更为便捷,节省查验时间。
具体的,所述步骤(6)中将用户确认后的文字档保存发送至服务器端,服务器端保存用户的反馈信息,更新用户的个人数据库,通过设置个人数据库便于更具个人书写习惯,方便下次识别和用户使用。
具体的,所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符,通过设置排版模块使得文档修改更加美观,减少后期查验工作量。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
Claims (9)
1.一种OCR文字识别提取方法,其特征在于:所述OCR文字识别提取方法包括如下步骤:
(1)用户使用扫描仪将图片文件变成数字图片文件;
(2)通过颜色处理模块将数字图片文件中颜色分离,按颜色将图片分成多个数据图片文件;
(3)用户选择一张到多张主体图片文件,主机端将选择的一张多张图片整合,然后将确认后的图片文件发送至服务端;
(4)服务器端中的文字识别模块对主体图片文件进行识别转换,文字识别模块包括以下步骤:
S1测量文档放置的倾斜角;
S2对文档进行版面分析;
S3对选出的文字域进行排版确认;
S4对横、竖排版的文字行进行切分;
S5对标点符号的判别,存在模糊、颠倒和扭曲的字符对照数据库识别后并做出备注;
(5)服务器端通过文字转换模块对处理后文字图片进行文字转换,不改变文字的格式信息,然后将转换后的文字储存以文档的形式发送给主机端;
(6)用户通过主机端接收文档并确认备注是否正确,主机端将用户反馈发送至服务器端并更新数据库;
(7)用户确认后将主机端通过排版模块刷新文字排版格式,完成对图片文件的文字识别提取。
2.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(1)中用户对比扫描后的数字图片文件与源图片文件,保证文字清楚、特征不丢失。
3.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(2)中的颜色处理模块,包括对图像净化处理,去掉原始图像中的显见噪声,按颜色系列分离图片。
4.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(3)中的用户也可以通过反选的方式手动去除多余的颜色系图片,也可以通过颜色筛选模块自动选择主体图片文件。
5.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤S5中作出备注的方式采用特殊颜色显示。
6.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(5)中的文字转换模块根据文字的笔画、特征点、投影信息、点的区域分布进行分析并得出最接近的文字,对于图片存在模糊、颠倒和扭曲的字符将分析结果均作出备注。
7.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(6)中用户点击备注文字后会出现多种文字链接窗口供用户选择确认。
8.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(6)中将用户确认后的文字档保存发送至服务器端,服务器端保存用户的反馈信息,更新用户的个人数据库。
9.根据权利要求1所述的一种OCR文字识别提取方法,其特征在于:所述步骤(7)中排版模块通过对比原图文件对文字进行分段并除去多余空格字符。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292789.2A CN112990022A (zh) | 2021-03-18 | 2021-03-18 | 一种ocr文字识别提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110292789.2A CN112990022A (zh) | 2021-03-18 | 2021-03-18 | 一种ocr文字识别提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112990022A true CN112990022A (zh) | 2021-06-18 |
Family
ID=76333016
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110292789.2A Pending CN112990022A (zh) | 2021-03-18 | 2021-03-18 | 一种ocr文字识别提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112990022A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020039439A1 (en) * | 2000-08-16 | 2002-04-04 | Nacken Peter Franciscus Marie | Interpretation of coloured documents |
JP2002236921A (ja) * | 2001-02-07 | 2002-08-23 | Ricoh Co Ltd | 文書画像認識方法、文書画像認識装置及び記録媒体 |
CN101122953A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字分割的方法 |
CN104699663A (zh) * | 2013-12-05 | 2015-06-10 | 中兴通讯股份有限公司 | 一种信息输入方法及装置 |
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN107358184A (zh) * | 2017-06-30 | 2017-11-17 | 中国科学院自动化研究所 | 文档文字的提取方法及提取装置 |
CN107451582A (zh) * | 2017-07-13 | 2017-12-08 | 安徽声讯信息技术有限公司 | 一种图文识别系统及其识别方法 |
CN109670507A (zh) * | 2018-11-27 | 2019-04-23 | 维沃移动通信有限公司 | 图片处理方法、装置及移动终端 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110188762A (zh) * | 2019-04-23 | 2019-08-30 | 山东大学 | 中英文混合商户门店名称识别方法、系统、设备及介质 |
CN112001312A (zh) * | 2020-08-21 | 2020-11-27 | 深圳传音控股股份有限公司 | 文档拼接方法、设备及存储介质 |
-
2021
- 2021-03-18 CN CN202110292789.2A patent/CN112990022A/zh active Pending
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020039439A1 (en) * | 2000-08-16 | 2002-04-04 | Nacken Peter Franciscus Marie | Interpretation of coloured documents |
JP2002236921A (ja) * | 2001-02-07 | 2002-08-23 | Ricoh Co Ltd | 文書画像認識方法、文書画像認識装置及び記録媒体 |
CN101122953A (zh) * | 2007-09-21 | 2008-02-13 | 北京大学 | 一种图片文字分割的方法 |
CN104699663A (zh) * | 2013-12-05 | 2015-06-10 | 中兴通讯股份有限公司 | 一种信息输入方法及装置 |
CN107358227A (zh) * | 2017-06-29 | 2017-11-17 | 努比亚技术有限公司 | 一种标记识别方法、移动终端以及计算机可读存储介质 |
CN107358184A (zh) * | 2017-06-30 | 2017-11-17 | 中国科学院自动化研究所 | 文档文字的提取方法及提取装置 |
CN107451582A (zh) * | 2017-07-13 | 2017-12-08 | 安徽声讯信息技术有限公司 | 一种图文识别系统及其识别方法 |
CN109670507A (zh) * | 2018-11-27 | 2019-04-23 | 维沃移动通信有限公司 | 图片处理方法、装置及移动终端 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110188762A (zh) * | 2019-04-23 | 2019-08-30 | 山东大学 | 中英文混合商户门店名称识别方法、系统、设备及介质 |
CN112001312A (zh) * | 2020-08-21 | 2020-11-27 | 深圳传音控股股份有限公司 | 文档拼接方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10339378B2 (en) | Method and apparatus for finding differences in documents | |
US9922247B2 (en) | Comparing documents using a trusted source | |
RU2651144C2 (ru) | Ввод данных с изображений документов с фиксированной структурой | |
CN107358232B (zh) | 基于插件的发票识别方法 | |
US8520889B2 (en) | Automated generation of form definitions from hard-copy forms | |
US20170011732A1 (en) | Low-vision reading vision assisting system based on ocr and tts | |
JPH0798765A (ja) | 方向検出方法および画像解析装置 | |
JP2014131277A (ja) | 文書画像圧縮方法及びその文書認証への適用 | |
JP2010055142A (ja) | 文書処理装置およびプログラム | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN112949471A (zh) | 基于国产cpu的电子公文识别复现方法及系统 | |
CN112861865A (zh) | 一种基于ocr技术的辅助审计方法 | |
CN111553334A (zh) | 问卷图像识别方法、电子装置及存储介质 | |
CN115600564A (zh) | 一种基于ocr识别技术的表单快速搭建方法 | |
RU2597163C2 (ru) | Сравнение документов с использованием достоверного источника | |
JP2010061471A (ja) | 文字認識装置およびプログラム | |
CN112990022A (zh) | 一种ocr文字识别提取方法 | |
WO2002003240A1 (en) | Proofreading system of chinese characters by means of one-to-one comparison | |
CN115457585A (zh) | 作业批改的处理方法、装置、计算机设备及可读存储介质 | |
CN1426017A (zh) | 一种校对多个电子文件的方法及其系统 | |
JPH10171920A (ja) | 文字認識装置、その文字認識方法およびその記録媒体 | |
CN113205527A (zh) | 一种试卷智能切割方法、系统及存储介质 | |
JP3435375B2 (ja) | 文字認識方法および装置 | |
JP2003046746A (ja) | 画像処理方法及び画像処理装置 | |
JP3122476B2 (ja) | 自動文書清書装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |