CN107301418A - 光学字符识别中的版面分析 - Google Patents
光学字符识别中的版面分析 Download PDFInfo
- Publication number
- CN107301418A CN107301418A CN201710508019.0A CN201710508019A CN107301418A CN 107301418 A CN107301418 A CN 107301418A CN 201710508019 A CN201710508019 A CN 201710508019A CN 107301418 A CN107301418 A CN 107301418A
- Authority
- CN
- China
- Prior art keywords
- character
- region
- text
- image
- width
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/30—Noise filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Input (AREA)
Abstract
版面分析是光学字符识别中至关重要的一步。版面分析为后续的字符分割奠定了基础。本发明主要通过三种类型的图像中介绍了版面分析的具体方法。对于简单版块的文本图像,主要通过投影分割法划分区域。对于多版块的文本图像,主要通过二分法划分区域。对于背景复杂、字符较少的文本图像,主要通过二值边缘法划分出字符图像。
Description
技术领域
本发明涉及的是一种图像处理技术领域的方法,具体是针对光学字符识别中多种文本图像的版面分析研究。
背景技术
伴随着信息化进程速度的不断加快,社会对信息量的要求不断增加,人们越来越少地用纸笔去记录信息,利用计算机等智能系统开展和大量信息有关的工作成为了当下的趋势。但是,信息产生的速度远远大于信息输入的速度,这种状态会耗费大量人力,且正确率也得不到保障。目前,依赖人工录入的方式存在的缺陷日益凸显,这种方法在经济效益和效率方面都存在不足。在人工成本日益攀升的情况下,人们迫切需要寻求一种高效低成本的方式来解决这一困境。光学字符识别能很好解决这一难题。在光学字符识别中,版面分析是至关重要的一步。但在众多研究中,光学字符识别的研究一般只针对一类文本图像,本发明针对简单排版的文本图像、多版块的文本图像和复杂背景的文本图像等做出了具体的分析和研究。
字符图像多种多样,对于单一版块的文本图像,其中只存在一段标准的字符,此时并不需要版面分析;但对于版块较多的报刊图像、插图的论文图像、背景复杂的标牌图像等,为了后续的字符分割,版面分析必不可少。本发明对三种类型的文本图像进行了版面分析的研究,简单排版的文本图像、多版块的文本图像和复杂背景的文本图像。版面分析后提取文本图像中的字符区域以进行光学字符识别中后续的字符分割的研究。
发明内容
针对现有技术存在的不足,本发明对三种类型的文本图像进行了版面分析的研究,简单排版的文本图像、多版块的文本图像和复杂背景的文本图像。
对于光学字符识别中版块较为简单的文本图像,它并没有表格、插画等的干扰,其中只含有横排或竖排字符。在这种情况下,版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析,大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手,对于简单图像版面分析的具体步骤如下:
第一步,首先对文本图像进行必要的处理,去除噪声的干扰,为后续操作打下基础。
第二步,在X方向上进行水平投影,在每行字符间会存在空白区域,此区域的宽度可能会大小不一;当然每行字符也会存在一定的宽度。若空白区域宽度大于临近的字符行区域宽度,则将其视为段落间距进行分割;若空白区域宽度小于临近的字符行区域宽度,则将其视为行间距,不进行分割。
第三步,在进行第二步的操作后,如果X方向上暂时无可分割处或者已完成X方向上的分割,则采取第二步中同样的思想,对Y方向进行投影及分割。直到完成整个投影分割法的版面划分过程。
对于光学字符识别中多版块文本图像,其中可能存在图像、表格、文本等多种信息。将图像、表格、文本等可以理解成不同的版块区域类,而对于此类文本图像的版面分析就是将不同的区域类尽可能的分开,并检测出文本信息进行后续的字符分割。若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合,版面分析的最终结果是将他们分成三类:图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚,即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开,然后逐步细分出各个区域类,算法总体流程如图1所示。具体步骤如下:
第一步,形态学处理,膨胀腐蚀,开运算闭运算,孔洞填充。
第二步,标记连通分量。
第三步,文本段的生成,通过简单图像版面分析的处理办法,进行x轴、y轴方向上的投影划分,实现二分法中文本区域类的处理。
第四步,图形区域处理,这部分模块是和文本段的生成模块相配合的,进一步利用形态学知识处理图像,实现二分法中图像区域类的处理。
第五步,表格区域中划分字符,通过纵向和横向投影搜索特征线可以对表格区域进行判定,即表格的框线;搜索出框线后,进而利用形态学知识判定表格中字符区域的位置并划分字符区域。
对于光学字符识别中复杂背景的文本图像,包含的字符较少且背景复杂,对后续的分割产生了极大的干扰。复杂背景区别与字符区域的不同之处就在于字符区域中字符之间存在的间隔是均匀的,字符和底色在灰度值上存在突变。因而,在复杂背景的文本图像的灰度上就会有一小块灰度密集震荡的区域。而字符本身与背景底色都有较均匀的灰度,所以在这个区域有着丰富的边缘存在。针对此类本文图像的特点,采取二值边缘化法进行版面分析,此算法的步骤如下:
第一步,二值化后,利用Canny算子进行边缘检测。
第二步,对边缘点进行统计分析,绘出边缘像素点统计直方图。
第三步,根据统计直方图,找出边缘像素点较多的区域。
第四步,对边缘像素点较多的区域,各个像素点的灰度值保持不变。
第五步,对边缘像素点较少的区域,各个像素点的灰度值置0。
第六步,找出字符区域后,对字符区域进行分割从而划分出字符区域。
附图说明
图1多版块文本图像版面分析流程图;
图2多版块文本图像;
图3标记连通域分量后的图像。
具体实施方式
下面对本发明的实施例作详细说明:本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和过程,但本发明的保护范围不限于下述的实施例。
对于光学字符识别中版块较为简单的文本图像,它并没有表格、插画等的干扰,其中只含有横排或竖排字符。在这种情况下,版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析,大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手,对于简单图像版面分析的具体步骤如下:
第一步,首先对文本图像进行必要的处理,去除噪声的干扰,为后续操作打下基础。
第二步,在X方向上进行水平投影,在每行字符间会存在空白区域,此区域的宽度可能会大小不一;当然每行字符也会存在一定的宽度。若空白区域宽度大于临近的字符行区域宽度,则将其视为段落间距进行分割;若空白区域宽度小于临近的字符行区域宽度,则将其视为行间距,不进行分割。
第三步,在进行第二步的操作后,如果X方向上暂时无可分割处或者已完成X方向上的分割,则采取第二步中同样的思想,对Y方向进行投影及分割。直到完成整个投影分割法的版面划分过程。
对于光学字符识别中多版块文本图像,其中可能存在图像、表格、文本等多种信息。以图2为例,若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合,版面分析的最终结果是将他们分成三类:图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚,即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开,然后逐步细分出各个区域类。具体步骤如下:
第一步,形态学处理,膨胀腐蚀,开运算闭运算,孔洞填充。
第二步,标记连通分量,处理结果如图3所示。
第三步,文本段的生成,通过简单图像版面分析的处理办法,进行x轴、y轴方向上的投影划分,实现二分法中文本区域类的处理。
第四步,图形区域处理,这部分模块是和文本段的生成模块相配合的,进一步利用形态学知识处理图像,实现二分法中图像区域类的处理.。
第五步,表格区域中划分字符,通过纵向和横向投影搜索特征线可以对表格区域进行判定,即表格的框线;搜索出框线后,进而利用形态学知识判定表格中字符区域的位置并划分字符区域。
对于光学字符识别中复杂背景的文本图像,包含的字符较少且背景复杂,对后续的分割产生了极大的干扰。复杂背景区别与字符区域的不同之处就在于字符区域中字符之间存在的间隔是均匀的,字符和底色在灰度值上存在突变。因而,在复杂背景的文本图像的灰度上就会有一小块灰度密集震荡的区域。而字符本身与背景底色都有较均匀的灰度,所以在这个区域有着丰富的边缘存在。针对此类本文图像的特点,采取二值边缘化法进行版面分析,此算法的步骤如下:
第一步,二值化后,利用Canny算子进行边缘检测。
第二步,对边缘点进行统计分析,绘出边缘像素点统计直方图。
第三步,根据统计直方图,找出边缘像素点较多的区域。
第四步,对边缘像素点较多的区域,各个像素点的灰度值保持不变。
第五步,对边缘像素点较少的区域,各个像素点的灰度值置0。
第六步,找出字符区域后,对字符区域进行分割从而划分出字符区域。
Claims (3)
1.对于光学字符识别中版块较为简单的文本图像,它并没有表格、插画等的干扰,其中只含有横排或竖排字符。在这种情况下,版面划分的主要目的是划分出横排或者竖排的文字。通过对文本图像的分析,大多数的文本段落的行间距的宽度都会小于文字行的宽度。从这方面着手,对于简单图像版面分析的具体步骤如下:
第一步,首先对文本图像进行一些必要的处理,去除噪声的干扰,为后续操作打下基础。
第二步,在X方向上进行水平投影,在每行字符间会存在空白区域,此区域的宽度可能会大小不一;当然每行字符也会存在一定的宽度。若空白区域宽度大于临近的字符行区域宽度,则将其视为段落间距进行分割;若空白区域宽度小于临近的字符行区域宽度,则将其视为行间距,不进行分割。
第三步,在进行第二步的操作后,如果X方向上暂时无可分割处或者已完成X方向上的分割,则采取第二步中同样的思想,对Y方向进行投影及分割。直到完成整个投影分割法的版面划分过程。
2.对于光学字符识别中多版块文本图像,其中可能存在图像、表格、文本等多种信息。将图像、表格、文本等可以理解成不同的版块区域类,而对于此类文本图像的版面分析就是将不同的区域类尽可能的分开,并检测出文本信息进行后续的字符分割。若将识别的文本图像中的所有连通区域视为一个完整的基本连通区域集合,版面分析的最终结果是将他们分成三类:图像区域类、表格区域类、文字区域类(包括横排和竖排文本)。显然将所有区域类一步到位地划分清楚,即使是针对简单版面而言也是是困难的。本发明首先利用形态学知识初步将所有区域类分开,然后逐步细分出各个区域类。在粗分各个区域类的过程中,有些区域类由于特征不明显而未作划分,有些区域类由于特征凸现而划分错误。因此,需对这两类情况做再次划分,从而确保划分结果的稳定性和正确性。
3.对于光学字符识别中复杂背景的文本图像,包含的字符较少且背景复杂,对后续的分割产生了极大的干扰。复杂背景区别与字符区域的不同之处就在于字符区域中字符之间存在的间隔是均匀的,字符和底色在灰度值上存在突变。因而,在复杂背景的文本图像的灰度上就会有一小块灰度密集震荡的区域。而字符本身与背景底色都有较均匀的灰度,所以在这个区域有着丰富的边缘存在。针对此类本文图像的特点,采取二值边缘化法进行版面分析,此算法的步骤如下:
第一步,二值化后,利用Canny算子进行边缘检测。
第二步,对边缘点进行统计分析,绘出边缘像素点统计直方图。
第三步,根据统计直方图,找出边缘像素点较多的区域。
第四步,对边缘像素点较多的区域,各个像素点的灰度值保持不变。
第五步,对边缘像素点较少的区域,各个像素点的灰度值置0。
第六步,找出字符区域后,对字符区域进行分割从而划分出字符区域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508019.0A CN107301418A (zh) | 2017-06-28 | 2017-06-28 | 光学字符识别中的版面分析 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710508019.0A CN107301418A (zh) | 2017-06-28 | 2017-06-28 | 光学字符识别中的版面分析 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107301418A true CN107301418A (zh) | 2017-10-27 |
Family
ID=60136198
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710508019.0A Pending CN107301418A (zh) | 2017-06-28 | 2017-06-28 | 光学字符识别中的版面分析 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107301418A (zh) |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108021900A (zh) * | 2017-12-18 | 2018-05-11 | 科大讯飞股份有限公司 | 版面分栏方法及装置 |
CN108399623A (zh) * | 2018-03-12 | 2018-08-14 | 山东超越数控电子股份有限公司 | 一种基于空白背景以及连通域的版面分析方法 |
CN108549643A (zh) * | 2018-04-08 | 2018-09-18 | 北京百度网讯科技有限公司 | 翻译处理方法和装置 |
CN109271910A (zh) * | 2018-09-04 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种文字识别、文字翻译方法和装置 |
CN109472257A (zh) * | 2017-09-07 | 2019-03-15 | 高德软件有限公司 | 一种字符版面确定方法及装置 |
CN109889729A (zh) * | 2019-03-21 | 2019-06-14 | 国网山东省电力公司经济技术研究院 | 一种电网通信设备拍照识别装置以及方法 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
WO2019227300A1 (zh) * | 2018-05-29 | 2019-12-05 | 优视科技新加坡有限公司 | 版面元素的处理方法、装置、存储介质及电子设备/终端/服务器 |
WO2022056875A1 (zh) * | 2020-09-18 | 2022-03-24 | 西门子股份公司 | 一种铭牌图像的分割方法、装置和计算机可读存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282492A1 (en) * | 2008-05-12 | 2009-11-12 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
US20150317531A1 (en) * | 2014-05-01 | 2015-11-05 | Konica Minolta, Inc. | Electronic document generation system, image forming apparatus and program |
CN106096592A (zh) * | 2016-07-22 | 2016-11-09 | 浙江大学 | 一种数字图书的版面分析方法 |
-
2017
- 2017-06-28 CN CN201710508019.0A patent/CN107301418A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090282492A1 (en) * | 2008-05-12 | 2009-11-12 | Canon Kabushiki Kaisha | Information processing apparatus, information processing method, and storage medium |
CN103186911A (zh) * | 2011-12-28 | 2013-07-03 | 北大方正集团有限公司 | 一种处理扫描书数据的方法及装置 |
US20150317531A1 (en) * | 2014-05-01 | 2015-11-05 | Konica Minolta, Inc. | Electronic document generation system, image forming apparatus and program |
CN106096592A (zh) * | 2016-07-22 | 2016-11-09 | 浙江大学 | 一种数字图书的版面分析方法 |
Non-Patent Citations (4)
Title |
---|
刘妍妍: "版面分析中图文分割方法研究及应用", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
周帆 等: "自适应版面分析方法研究", 《计算机光盘软件与应用》 * |
康东日: "《电脑打字实用教材》", 31 March 2000 * |
范玉凤: "基于复杂度的自适应中文版面分析方法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109472257B (zh) * | 2017-09-07 | 2021-01-29 | 阿里巴巴(中国)有限公司 | 一种字符版面确定方法及装置 |
CN109472257A (zh) * | 2017-09-07 | 2019-03-15 | 高德软件有限公司 | 一种字符版面确定方法及装置 |
CN108021900A (zh) * | 2017-12-18 | 2018-05-11 | 科大讯飞股份有限公司 | 版面分栏方法及装置 |
CN108021900B (zh) * | 2017-12-18 | 2022-05-17 | 科大讯飞股份有限公司 | 版面分栏方法及装置 |
CN108399623A (zh) * | 2018-03-12 | 2018-08-14 | 山东超越数控电子股份有限公司 | 一种基于空白背景以及连通域的版面分析方法 |
CN108549643A (zh) * | 2018-04-08 | 2018-09-18 | 北京百度网讯科技有限公司 | 翻译处理方法和装置 |
WO2019227300A1 (zh) * | 2018-05-29 | 2019-12-05 | 优视科技新加坡有限公司 | 版面元素的处理方法、装置、存储介质及电子设备/终端/服务器 |
CN109271910A (zh) * | 2018-09-04 | 2019-01-25 | 阿里巴巴集团控股有限公司 | 一种文字识别、文字翻译方法和装置 |
CN109889729A (zh) * | 2019-03-21 | 2019-06-14 | 国网山东省电力公司经济技术研究院 | 一种电网通信设备拍照识别装置以及方法 |
CN109933756A (zh) * | 2019-03-22 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
WO2020192391A1 (zh) * | 2019-03-22 | 2020-10-01 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN109933756B (zh) * | 2019-03-22 | 2022-04-15 | 腾讯科技(深圳)有限公司 | 基于ocr的图像转档方法、装置、设备及可读存储介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
WO2022056875A1 (zh) * | 2020-09-18 | 2022-03-24 | 西门子股份公司 | 一种铭牌图像的分割方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107301418A (zh) | 光学字符识别中的版面分析 | |
CN102663377B (zh) | 一种基于模板匹配的字符识别方法 | |
Babu et al. | Vehicle number plate detection and recognition using bounding box method | |
CN100527156C (zh) | 一种图片文字检测的方法 | |
Shivakumara et al. | Accurate video text detection through classification of low and high contrast images | |
CN102208023B (zh) | 基于边缘信息和分布熵的视频字幕识别设计方法 | |
CN104361336A (zh) | 一种水下视频图像的文字识别方法 | |
US20180330181A1 (en) | Method for line and word segmentation for handwritten text images | |
CN103226696B (zh) | 车牌的识别系统及方法 | |
CN101615252A (zh) | 一种自适应图像文本信息提取方法 | |
CN102831416A (zh) | 一种字符识别方法及相关装置 | |
CN101122953A (zh) | 一种图片文字分割的方法 | |
CN104966051A (zh) | 一种文档图像的版式识别方法 | |
CN104376318A (zh) | 在保留交叉字符笔划的同时去除文档图像中的下划线和表格线 | |
CN102799879A (zh) | 从自然场景图像中识别多言语、多字体文字的方法 | |
CN103310211A (zh) | 一种基于图像处理的填注标记识别方法 | |
Bijalwan et al. | Automatic text recognition in natural scene and its translation into user defined language | |
Chowdhury et al. | Segmentation of text and graphics from document images | |
CN110633635A (zh) | 一种基于roi的交通标志牌实时检测方法及系统 | |
CN107798355B (zh) | 一种基于文档图像版式自动分析与判断的方法 | |
Younes et al. | Segmentation of Arabic handwritten text to lines | |
CN103971376A (zh) | 应用程序执行方法和装置 | |
Wang et al. | A survey on video caption extraction technology | |
Mei et al. | A Chinese character segmentation algorithm for complicated printed documents | |
Bhowmick et al. | Bangla text recognition from video sequence: a new focus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171027 |