CN113139535A - 一种ocr文档识别方法 - Google Patents
一种ocr文档识别方法 Download PDFInfo
- Publication number
- CN113139535A CN113139535A CN202110498492.1A CN202110498492A CN113139535A CN 113139535 A CN113139535 A CN 113139535A CN 202110498492 A CN202110498492 A CN 202110498492A CN 113139535 A CN113139535 A CN 113139535A
- Authority
- CN
- China
- Prior art keywords
- image
- character
- ocr
- document
- deep learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 36
- 238000013136 deep learning model Methods 0.000 claims abstract description 23
- 238000013135 deep learning Methods 0.000 claims abstract description 13
- 238000007781 pre-processing Methods 0.000 claims abstract description 7
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 6
- 238000012545 processing Methods 0.000 claims description 17
- 238000001514 detection method Methods 0.000 claims description 13
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000000354 decomposition reaction Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 3
- 238000003708 edge detection Methods 0.000 claims description 3
- 238000013139 quantization Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 description 39
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Character Discrimination (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种OCR文档识别方法,包括以下步骤:1)OCR深度学习模型训练;2)图像获取;3)图像预处理;4)表格判断;5)表格交点检测;6)子图片文字识别。本发明属于文档识别技术领域,具体是提供了一种通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。
Description
技术领域
本发明属于文档识别技术领域,具体是指一种OCR文档识别方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)方法是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的电子文档,将电子文档中的字符串切分开,形成包含单个字符的小图片,然后使用一定的方法对切分后的文字进行识别。现有的OCR识别方法因为待识别图片中字符排版多样等因素,只能较为准确的识别身份证、银行卡等字符排版固定的图片,但是对其他文档的图片识别效果较差。随着资讯的发展,图文资料广泛传播,基于图像的文字识别得到了广泛应用。
现有技术中OCR文档识别主要通过深度学习或机器学习等方法,检测出图像中的文字区域,为后续的文字识别模块提供初始图像。但是现有技术在处理包含表格的文档时,表格中文字的识别准确率相对比较低,因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。
发明内容
为解决上述现有难题,本发明提供了一种通过对基于卷积神经网络模型的OCR深度学习模型进行训练学习,通过对文档图像进行多重预处理,识别表格中是否存在表格,能够有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。
本发明采用的技术方案如下:一种OCR文档识别方法,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
进一步地,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
进一步地,步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
进一步地,步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
进一步地,步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
进一步地,步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
采用上述方案本发明取得有益效果如下:本发明OCR文档识别方法,通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,对于存在表格的文档采用基于深度学习的物体检测方法对文档图像进行划分,有效提高OCR深度学习模型的准确度。
附图说明
图1为本发明一种OCR文档识别方法的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种OCR文档识别方法,其特征在于,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
其中,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (6)
1.一种OCR文档识别方法,其特征在于,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
2.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
3.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
4.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
5.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
6.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498492.1A CN113139535A (zh) | 2021-05-08 | 2021-05-08 | 一种ocr文档识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110498492.1A CN113139535A (zh) | 2021-05-08 | 2021-05-08 | 一种ocr文档识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139535A true CN113139535A (zh) | 2021-07-20 |
Family
ID=76816660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110498492.1A Pending CN113139535A (zh) | 2021-05-08 | 2021-05-08 | 一种ocr文档识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113139535A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936285A (zh) * | 2021-11-03 | 2022-01-14 | 重庆海创云链数字科技有限公司 | 一种ocr自动识别方法 |
CN115830620A (zh) * | 2023-02-14 | 2023-03-21 | 江苏联著实业股份有限公司 | 一种基于ocr的档案文本数据处理方法及系统 |
CN117423117A (zh) * | 2023-12-18 | 2024-01-19 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习技术的机构文档识别方法 |
-
2021
- 2021-05-08 CN CN202110498492.1A patent/CN113139535A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113936285A (zh) * | 2021-11-03 | 2022-01-14 | 重庆海创云链数字科技有限公司 | 一种ocr自动识别方法 |
CN115830620A (zh) * | 2023-02-14 | 2023-03-21 | 江苏联著实业股份有限公司 | 一种基于ocr的档案文本数据处理方法及系统 |
CN117423117A (zh) * | 2023-12-18 | 2024-01-19 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习技术的机构文档识别方法 |
CN117423117B (zh) * | 2023-12-18 | 2024-05-14 | 南京江北新区生物医药公共服务平台有限公司 | 一种基于深度学习技术的机构文档识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111814722B (zh) | 一种图像中的表格识别方法、装置、电子设备及存储介质 | |
CN110210413B (zh) | 一种基于深度学习的多学科试卷内容检测与识别系统及方法 | |
Gatos et al. | Automatic table detection in document images | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
US5410611A (en) | Method for identifying word bounding boxes in text | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
LeBourgeois | Robust multifont OCR system from gray level images | |
US20130208986A1 (en) | Character recognition | |
CN112966537B (zh) | 基于二维码定位的表单识别方法及系统 | |
CN112183038A (zh) | 一种表格识别套打方法、计算机设备及计算机可读存储介质 | |
CN103310211A (zh) | 一种基于图像处理的填注标记识别方法 | |
CN109784342A (zh) | 一种基于深度学习模型的ocr识别方法及终端 | |
CN112052852A (zh) | 一种基于深度学习的手写气象档案资料的字符识别方法 | |
CN110598566A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111626292B (zh) | 一种基于深度学习技术的楼宇指示标识的文字识别方法 | |
CN116071763B (zh) | 基于文字识别的教辅图书智能校编系统 | |
CN112364862B (zh) | 一种基于直方图相似度的扰动变形汉字图片匹配的方法 | |
CN114332865B (zh) | 一种证件ocr识别方法及系统 | |
CN112507782A (zh) | 文本图像的识别方法及装置 | |
CN113901952A (zh) | 一种基于深度学习的印刷体与手写体分开文字识别方法 | |
CN113723252A (zh) | 一种表格型文本图片的识别方法和系统 | |
CN110689003A (zh) | 低照度成像车牌识别方法、系统、计算机设备及存储介质 | |
CN109741273A (zh) | 一种手机拍照低质图像的自动处理与评分方法 | |
EP2545498B1 (en) | Resolution adjustment of an image that includes text undergoing an ocr process | |
WO2022121021A1 (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |