CN113139535A - 一种ocr文档识别方法 - Google Patents

一种ocr文档识别方法 Download PDF

Info

Publication number
CN113139535A
CN113139535A CN202110498492.1A CN202110498492A CN113139535A CN 113139535 A CN113139535 A CN 113139535A CN 202110498492 A CN202110498492 A CN 202110498492A CN 113139535 A CN113139535 A CN 113139535A
Authority
CN
China
Prior art keywords
image
character
ocr
document
deep learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110498492.1A
Other languages
English (en)
Inventor
李俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Chiyan Information Technology Co ltd
Original Assignee
Shanghai Chiyan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Chiyan Information Technology Co ltd filed Critical Shanghai Chiyan Information Technology Co ltd
Priority to CN202110498492.1A priority Critical patent/CN113139535A/zh
Publication of CN113139535A publication Critical patent/CN113139535A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种OCR文档识别方法,包括以下步骤:1)OCR深度学习模型训练;2)图像获取;3)图像预处理;4)表格判断;5)表格交点检测;6)子图片文字识别。本发明属于文档识别技术领域,具体是提供了一种通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。

Description

一种OCR文档识别方法
技术领域
本发明属于文档识别技术领域,具体是指一种OCR文档识别方法。
背景技术
光学字符识别(Optical Character Recognition,OCR)方法是指通过电子设备(例如扫描仪或数码相机)获得纸质文档的电子文档,将电子文档中的字符串切分开,形成包含单个字符的小图片,然后使用一定的方法对切分后的文字进行识别。现有的OCR识别方法因为待识别图片中字符排版多样等因素,只能较为准确的识别身份证、银行卡等字符排版固定的图片,但是对其他文档的图片识别效果较差。随着资讯的发展,图文资料广泛传播,基于图像的文字识别得到了广泛应用。
现有技术中OCR文档识别主要通过深度学习或机器学习等方法,检测出图像中的文字区域,为后续的文字识别模块提供初始图像。但是现有技术在处理包含表格的文档时,表格中文字的识别准确率相对比较低,因此如何进一步提高OCR文档的文字识别准确率成为本领域技术人员亟待解决的技术问题。
发明内容
为解决上述现有难题,本发明提供了一种通过对基于卷积神经网络模型的OCR深度学习模型进行训练学习,通过对文档图像进行多重预处理,识别表格中是否存在表格,能够有效提高文档识别结果精准度特别是提高表格文档识别精度的OCR文档识别方法。
本发明采用的技术方案如下:一种OCR文档识别方法,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
进一步地,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
进一步地,步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
进一步地,步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
进一步地,步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
进一步地,步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
采用上述方案本发明取得有益效果如下:本发明OCR文档识别方法,通过对样本文档图片进行采集并作为训练集进行深度学习训练,得到基于卷积神经网络模型的OCR深度学习模型,通过对文档图像进行多重预处理,识别表格中是否存在表格,对于存在表格的文档采用基于深度学习的物体检测方法对文档图像进行划分,有效提高OCR深度学习模型的准确度。
附图说明
图1为本发明一种OCR文档识别方法的流程图。
具体实施方式
下面将对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
一种OCR文档识别方法,其特征在于,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
其中,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (6)

1.一种OCR文档识别方法,其特征在于,包括以下步骤:
1)OCR深度学习模型训练:采集不同指定排版方式的样本文档图片,对样本文档图片进行去噪和二值化处理后保存建立第一字符图像训练样本集,对第一字符图像训练样本集中的字符信息进行整理并将每个字符形成字符图像,对字符图像进行变换,增加字符的字体种类,形成OCR字符识别训练样本集,通过OCR字符识别训练样本集进行深度学习训练,得到OCR深度学习模型;
2)图像获取:获取纸质文档的正投影视图图像,得文档图像;
3)图像预处理:通过OpenCV开源的代码库调节文档图像的亮度和对比度,并对图像进行去噪处理和二值化处理;计算图像的倾斜角度并对图像进行角度校正,使图像中的文字处于水平竖直状态得预处理图像;
4)表格判断:对预处理图像进行边缘检测得到边缘图像;计算所述边缘图像的边缘密集程度,根据边缘密集程度判断所述预处理图像中是否包括表格,若预处理图像中存在表格则执行步骤5),若预处理图像中不存在表格则执行步骤6);
5)表格交点检测:采用基于深度学习的物体检测方法对所述预处理图像中的表格的角点坐标进行检测,检测出所述预处理图像中的单元格,将各单元格中的内容作为一个整体切分出来,形成对应的子图片;
6)子图片文字识别:对子图片进行字符分割,然后采用OCR深度学习模型对子图片或预处理图像中的文字进行检测识别并输出识别结果。
2.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤1)所述通过OCR字符识别训练样本集对OCR深度学习模型进行深度学习训练,包括如下步骤:
11)获取OCR字符识别训练样本集的目标样本字符;
12)通过OCR学习模型对OCR字符识别训练样本集进行识别,得到样本字符;
13)对目标样本字符与样本字符进行收敛,以调整所述识别模型的参数,得到OCR深度学习模型。
3.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤2)所述去噪处理采用小波去噪法对图像进行去噪处理,保持图像细节,去噪处理包括如下步骤:
21)对图像信号进行小波分解;
22)对经过层次分解后的高频系统进行阈值量化;
23)利用二维小波重构图像信号。
4.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤2)所述二值化处理采用基于局部均值自适应的二值化算法,以像素点局部区域的均值作为阈值,将图像上点的灰度置为0或255,实现图像的二值化。
5.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤4)所述的OCR深度学习模型采用卷积神经网络模型。
6.根据权利要求1所述的一种OCR文档识别方法,其特征在于,步骤6)对字图片进行字符分割的具体过程为:
61)通过宽度为单像素大小的竖直的检测线从左向右扫描所述子图片,检测所述检测线上的像素点的数量并与第二阈值进行比较,若高于所述第二阈值,则认为为字符的中间部分,反之,则为非字符部分,依次对子图片上的字符进行分割;
62)判断经初步字符分割得到的字符宽度与字符高度,若字符宽度大于字符高度,则提高所述第二阈值,执行步骤61),直至字符宽度小于字符高度;
63)判断分割后的字符是否过分割,并对过分割的字符进行合并处理。
CN202110498492.1A 2021-05-08 2021-05-08 一种ocr文档识别方法 Pending CN113139535A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110498492.1A CN113139535A (zh) 2021-05-08 2021-05-08 一种ocr文档识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110498492.1A CN113139535A (zh) 2021-05-08 2021-05-08 一种ocr文档识别方法

Publications (1)

Publication Number Publication Date
CN113139535A true CN113139535A (zh) 2021-07-20

Family

ID=76816660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110498492.1A Pending CN113139535A (zh) 2021-05-08 2021-05-08 一种ocr文档识别方法

Country Status (1)

Country Link
CN (1) CN113139535A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936285A (zh) * 2021-11-03 2022-01-14 重庆海创云链数字科技有限公司 一种ocr自动识别方法
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统
CN117423117A (zh) * 2023-12-18 2024-01-19 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113936285A (zh) * 2021-11-03 2022-01-14 重庆海创云链数字科技有限公司 一种ocr自动识别方法
CN115830620A (zh) * 2023-02-14 2023-03-21 江苏联著实业股份有限公司 一种基于ocr的档案文本数据处理方法及系统
CN117423117A (zh) * 2023-12-18 2024-01-19 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法
CN117423117B (zh) * 2023-12-18 2024-05-14 南京江北新区生物医药公共服务平台有限公司 一种基于深度学习技术的机构文档识别方法

Similar Documents

Publication Publication Date Title
CN111814722B (zh) 一种图像中的表格识别方法、装置、电子设备及存储介质
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
Gatos et al. Automatic table detection in document images
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
US5410611A (en) Method for identifying word bounding boxes in text
CN113139535A (zh) 一种ocr文档识别方法
LeBourgeois Robust multifont OCR system from gray level images
US20130208986A1 (en) Character recognition
CN112966537B (zh) 基于二维码定位的表单识别方法及系统
CN112183038A (zh) 一种表格识别套打方法、计算机设备及计算机可读存储介质
CN103310211A (zh) 一种基于图像处理的填注标记识别方法
CN109784342A (zh) 一种基于深度学习模型的ocr识别方法及终端
CN112052852A (zh) 一种基于深度学习的手写气象档案资料的字符识别方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111626292B (zh) 一种基于深度学习技术的楼宇指示标识的文字识别方法
CN116071763B (zh) 基于文字识别的教辅图书智能校编系统
CN112364862B (zh) 一种基于直方图相似度的扰动变形汉字图片匹配的方法
CN114332865B (zh) 一种证件ocr识别方法及系统
CN112507782A (zh) 文本图像的识别方法及装置
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
CN113723252A (zh) 一种表格型文本图片的识别方法和系统
CN110689003A (zh) 低照度成像车牌识别方法、系统、计算机设备及存储介质
CN109741273A (zh) 一种手机拍照低质图像的自动处理与评分方法
EP2545498B1 (en) Resolution adjustment of an image that includes text undergoing an ocr process
WO2022121021A1 (zh) 一种身份证号码检测方法、装置、可读存储介质和终端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination