CN107798355A - 一种基于文档图像版式自动分析与判断的方法 - Google Patents

一种基于文档图像版式自动分析与判断的方法 Download PDF

Info

Publication number
CN107798355A
CN107798355A CN201711143809.XA CN201711143809A CN107798355A CN 107798355 A CN107798355 A CN 107798355A CN 201711143809 A CN201711143809 A CN 201711143809A CN 107798355 A CN107798355 A CN 107798355A
Authority
CN
China
Prior art keywords
file
picture
format
row
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711143809.XA
Other languages
English (en)
Other versions
CN107798355B (zh
Inventor
孙鑫
王长征
刘文晓
赵胜男
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Original Assignee
SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd filed Critical SHANXI TONGFANG ZHIWANG DIGITAL PUBLISHING TECHNOLOGY Co Ltd
Priority to CN201711143809.XA priority Critical patent/CN107798355B/zh
Publication of CN107798355A publication Critical patent/CN107798355A/zh
Application granted granted Critical
Publication of CN107798355B publication Critical patent/CN107798355B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于文档图像版式自动分析与判断的方法,包括:对图像进行预处理;对文档图像中文字区域水平方向进行自动检测;对文档图像中文字区域垂直方向进行自动检测;将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出一系列的决策与分类;根据行和列在算法上的决策与分类,判断文档图像中的版式。本发明通过文字区域自动检测、算法分析、横版竖版结果判断,以达到自动化处理的要求,将结果分为横版、竖版、无法判断三类,版式判断准确无误;其中,对于特殊图像给出无法判断的结果。版式分析为下一步文字识别提供了正确的识别条件和方向,提高了文字识别的正确率,增加了结果的准确性。

Description

一种基于文档图像版式自动分析与判断的方法
技术领域
本发明涉及图像识别和图像处理技术领域,尤其涉及一种基于文档图像版式自动分析与判断的方法。
背景技术
在纸质文档电子化的过程中,需要提取文档中的重要信息,该过程涉及到文字识别的技术领域,在文字识别的过程中,由于版式的不同,将决定识别的顺序不同。在文字识别前,确定文档中文字区域是属于横向排版还是竖向排版,成为文字识别中关键的步骤。
在对文档图像中文字识别的过程中,需要根据版式来选择识别顺序,若横向排版的文字被竖向识别,将会带来识别错误的结果,影响文字识别的正常使用。因此,在进行文字识别前,先对文档图像中文字的版式(横版或是竖版)作出判断,方便后续文字识别顺序,对于提高识别结果正确率等方面有着非常重要的作用。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于文档图像版式自动分析与判断的方法,该方法主要解决的技术问题是文档图像中文字区域自动检测、算法分析、横版竖版结果判断。
本发明的目的通过以下的技术方案来实现:
一种基于文档图像版式自动分析与判断的方法,包括:
A对图像进行预处理;
B对文档图像中文字区域水平方向进行自动检测;
C对文档图像中文字区域垂直方向进行自动检测;
D将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
E根据行和列在算法上的决策和分类,判断文档图像中的版式。
与现有技术相比,本发明的一个或多个实施例可以具有如下优点:
针对各类文档图像,包括含有背景图案、文字大小不一致、中文或外文、单行多行、单列多列等,可以达到自动判断版式的功能,并将结果分为横版、竖版、无法判断三类,确保其正确率,并单独标记无法判断的部分,本发明实现文档图像版式分析的自动化处理。
附图说明
图1是基于文档图像版式自动分析与判断的方法流程图;
图2是文档图像中文字区域以行或列为基准分类中的第一类情况下文档图像;
图3是文档图像中文字区域以行或列为基准分类中的第二类情况下文档图像;
图4是文档图像中文字区域以行或列为基准分类中的第三类情况下文档图像;
图5是文档图像中文字区域以行或列为基准分类中的第四类情况下文档图像;
图6是文档图像中文字区域以行或列为基准分类中特殊情况下的文档图像;
图7是文档图像中文字区域以行或列为基准分类中不能判断情况下的文档图像。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合实施例及附图对本发明作进一步详细的描述。
如图1所示,为基于文档图像版式自动分析与判断的方法流程,包括:
步骤10对图像进行预处理;
步骤20对文档图像中文字区域水平方向进行自动检测;
步骤30对文档图像中文字区域垂直方向进行自动检测;
步骤40将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
步骤50根据行和列在算法上的决策和分类,判断文档图像中的版式。
上述步骤10中对图像进行预处理包括:对图像去背景、纠偏、去噪声、灰度化、二值化。
上述步骤20具体包括:对文档图像做水平投影,并记录文字水平方向的属性特征。
上述文字水平方向的属性特征包括:文字区域上下边界LineNum,文字行高LineHeight,最大行高maxLineHeight,最小行高minLineHeight,行高的平均值aveLineHeight,文字行的行高总和tolLineHeight,版面中内容区域高度OCRheight,所有黑色像素水平投影区域行高总和tolLine,文字间水平空白间隙占内容区域的比例LineBlankPro,文字间水平方向空白间隙的均值LineBlank,文字行占版面中内容区域的比例LinePro。
上述步骤30具体包括:对文档图像做垂直投影,并记录文字垂直方向的属性特征。
上述文字垂直方向的属性特征包括:文字区域左右边界ColumnNum,文字列宽ColumnWidth,最大列宽maxColumnWidth,最小列宽minColumnWidth,列宽的平均值aveColumnWidth,文字列的列宽总和tolColumnWidth,版面中内容区域宽度OCRwidth,所有黑色像素垂直投影区域列宽总和tolColumn,文字间垂直空白间隙占内容区域的比例ColumnBlankPro,文字间垂直方向空白间隙的均值ColumnBlank,文字列占版面中内容区域的比例ColumnPro。
上述步骤40具体包括:
将文档图像中文字区域以三行或三列为基准进行分类,共分为四类,分别对这四类进行分析与横竖版式的判断。
第一类是指,多行(即大于三行);第二类是指,多列(即大于三列);第三类是指,三行及以下;第四类是指,三列及以下。
根据步骤20和步骤30中图像水平方向和垂直方向中自动检测结果,分析其属性特征,得出如下条件与关系式:
(1)同时满足aveColumnWidth>3×aveLineHeight和maxLineHeight<3.5×minLineHeight;
(2)同时满足aveLineHeight>3×aveColumnWidth和maxColumnWidth<3.5×minColumnWidth;
(3)(4)LinePro<ColumnPro;
(5)LinePro>ColumnPro;
(6)只有一列,且满足aveColumnWidth>3.2×aveLineHeight;
(7)有两列及以上,且满足maxColumnWidth>2×minColumnWidth或maxColumnWidth>10×maxLineHeight;
(8)有三列及以上,且满足且(maxColumnWidth-minColumnWidth)≥(maxLineHeight-minLineHeight)且LineBlankPro>ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(9)只有一行,且满足aveLineHeight>3.2×aveColumnWidth;
(10)有两行及以上,且满足maxLineHeight>2×minLineHeight或maxLineHeight>10×maxColumnWidth;
(11)有三行及以上,且满足且(maxColumnWidth-minColumnWidth)<(maxLineHeight-minLineHeight)且LineBlankPro<ColumnBlankPro且LineBlankPro>0且ColumnBlankPro>0且LineBlank<aveLineHeight且ColumnBlank<aveColumnWidth;
(12)只有一行,且满足abs(aveLineHeight-aveColumnWidth)<j和aveLineHeight<h,其中,j和h是两个常数,根据文档中文字的平均行高来决定;
(13)只有一列,且满足abs(aveLineHeight-aveColumnWidth)<k和aveColumnWidth<w,其中,k和w是两个常数,根据文档中文字的平均列宽来决定。
上述步骤50具体包括:根据行和列在算法上的决策和分类,得出文档图像中的版式是横版还是竖版。
对于第一类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(1)(6)或(1)(7),则判断该文档的版式为横版,如图2中(a);若满足条件(3)和(4),则判断该文档的版式为横版,如图2中(b);对于排列整齐的文字,即行高列宽近似相同,如图2中(c),若满足条件(8),则判断该文档的版式为横版。
对于第二类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(2)(9)或(2)(10),则判断该文档的版式为竖版,如图3中(a);若满足条件(3)和(5),则判断该文档的版式为竖版,如图3中(b);对于排列整齐的文字,即行高列宽近似相同,如图3中(c),若满足条件(11),则判断该文档的版式为竖版。
对于第三类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(1)(12),则判断该文档的版式为横版,如图4中(a);对于排列整齐的文字,即行高列宽近似相同,如图4中(b),若满足条件(8),则判断该文档的版式为横版。
对于第四类文档图像,若该文档图像中的文字投影结果满足具体步骤40中的条件(2)(13),则判断该文档的版式为竖版,如图5中(a);对于排列整齐的文字,即行高列宽近似相同,如图5中(b),若满足条件(11),则判断该文档的版式为竖版。
上述四类文档图像属于一般文档图像的情况,除此以外,会遇到一些特殊图像,如图6中(a)(b)(c)所示,该文字区域在一个框内或表格内,此时,根据需要,先去掉外边框或表格线后,进一步做一般情况下的判断。
对于依旧不能判断横竖版式的页面,例如背景画面复杂影响其投影结果或是艺术字手写字粘连不属于印刷规范格式等特例情况,给予标记,说明其不能判断,以保证所有文档图像判断的完整性,保证每一个图像的结果正确性,图7中(a)(b)(c)(d)(e)列出来部分不能判断版式的图像。
上述实施例将文档图像输出横版、竖版,对于特殊的图像,如背景画面复杂影响其投影结果或是艺术字手写字粘连不属于印刷规范格式等特例情况,会标记之,给出无法判断的结果。
上述实施例通过文字区域自动检测、算法分析、横版竖版结果判断,以达到自动化处理的要求,将结果分为横版、竖版、无法判断三类,版式判断准确无误;其中,对于特殊图像给出无法判断的结果。版式分析为下一步文字识别提供了正确的识别条件和方向,提高了文字识别的正确率,增加了结果的准确性。
虽然本发明所揭露的实施方式如上,但所述的内容只是为了便于理解本发明而采用的实施方式,并非用以限定本发明。任何本发明所属技术领域内的技术人员,在不脱离本发明所揭露的精神和范围的前提下,可以在实施的形式上及细节上作任何的修改与变化,但本发明的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (8)

1.一种基于文档图像版式自动分析与判断的方法,其特征在于,所述方法包括:
A对图像进行预处理;
B对文档图像中文字区域水平方向进行自动检测;
C对文档图像中文字区域垂直方向进行自动检测;
D将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向的属性检测,作出行和列在算法上的决策和分类;
E根据行和列在算法上的决策和分类,判断文档图像中的版式。
2.如权利要求1所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述步骤A中图像预处理包括对图像去背景色、纠偏、去噪声、图像灰度化、图像二值化。
3.如权利要求1所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述步骤B具体包括:对文档图像做水平投影,记录文字水平方向的属性特征。
4.如权利要求1所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述步骤C具体包括:对文档图像做垂直投影,记录文字垂直方向的属性特征。
5.如权利要求1所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述步骤D具体包括:将文档图像中文字区域以行或列的属性为基准,并根据水平方向和垂直方向属性检测,作出一系列的决策和分类。
6.如权利要求1所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述步骤E中版式包括横版和竖版。
7.如权利要求3所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述文字水平方向的属性特征包括:文字区域上下边界、文字行高、最大行高、最小行高、行高的平均值、文字行的行高总和、版面中内容区域高度、所有黑色像素水平投影区域行高总和、文字间水平空白间隙占内容区域的比例、文字间水平方向空白间隙的均值及文字行占版面中内容区域的比例。
8.如权利要求4所述的基于文档图像版式自动分析与判断的方法,其特征在于,所述文字垂直方向的属性特征包括:文字区域左右边界、文字列宽、最大列宽、最小列宽、列宽的平均值、文字列的列宽总和、版面中内容区域宽度、所有黑色像素垂直投影区域列宽总和、文字间垂直空白间隙占内容区域的比例、文字间垂直方向空白间隙的均值、文字列占版面中内容区域的比例。
CN201711143809.XA 2017-11-17 2017-11-17 一种基于文档图像版式自动分析与判断的方法 Active CN107798355B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711143809.XA CN107798355B (zh) 2017-11-17 2017-11-17 一种基于文档图像版式自动分析与判断的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711143809.XA CN107798355B (zh) 2017-11-17 2017-11-17 一种基于文档图像版式自动分析与判断的方法

Publications (2)

Publication Number Publication Date
CN107798355A true CN107798355A (zh) 2018-03-13
CN107798355B CN107798355B (zh) 2021-12-07

Family

ID=61535699

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711143809.XA Active CN107798355B (zh) 2017-11-17 2017-11-17 一种基于文档图像版式自动分析与判断的方法

Country Status (1)

Country Link
CN (1) CN107798355B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN114120323A (zh) * 2021-11-05 2022-03-01 北京量子之歌科技有限公司 一种支付账单的管理方法、装置、设备和存储介质
WO2023005813A1 (zh) * 2021-07-30 2023-02-02 广州视源电子科技股份有限公司 图像方向调整方法、装置、存储介质及电子设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09171556A (ja) * 1995-08-11 1997-06-30 Canon Inc 特徴抽出方法及び装置
JP2000003453A (ja) * 1998-06-15 2000-01-07 Omron Corp 書類の方向検知方法並びに装置及び画像処理装置
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN101882215A (zh) * 2009-05-25 2010-11-10 汉王科技股份有限公司 判断文本区域排版方向的方法
JP2011008770A (ja) * 2009-06-26 2011-01-13 Kyocera Mita Corp 原稿方向の検出方法及び装置
CN102567732A (zh) * 2011-12-28 2012-07-11 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN102831421A (zh) * 2012-08-29 2012-12-19 华东师范大学 一种基于标点符号的文档上下方向检测方法
CN104346615A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09171556A (ja) * 1995-08-11 1997-06-30 Canon Inc 特徴抽出方法及び装置
JP2000003453A (ja) * 1998-06-15 2000-01-07 Omron Corp 書類の方向検知方法並びに装置及び画像処理装置
CN101770575A (zh) * 2008-12-31 2010-07-07 汉王科技股份有限公司 名片图像倾斜角度的测量方法和装置
CN101882215A (zh) * 2009-05-25 2010-11-10 汉王科技股份有限公司 判断文本区域排版方向的方法
JP2011008770A (ja) * 2009-06-26 2011-01-13 Kyocera Mita Corp 原稿方向の検出方法及び装置
CN102567732A (zh) * 2011-12-28 2012-07-11 方正国际软件有限公司 一种文档排版类型的检测方法及系统
CN102831421A (zh) * 2012-08-29 2012-12-19 华东师范大学 一种基于标点符号的文档上下方向检测方法
CN104346615A (zh) * 2013-08-08 2015-02-11 北大方正集团有限公司 版式文档中复合图的提取装置和提取方法
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN104966051A (zh) * 2015-06-03 2015-10-07 中国科学院信息工程研究所 一种文档图像的版式识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
M. NAKAGAWA等: ""Online handwritten Japanese text recognition free from constrains on line direction and character orientation"", 《SEVENTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION》 *
王宇: ""中文版面分析与重构研究"", 《中国优秀硕士学位论文全文数据库·信息科技辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111353961A (zh) * 2020-03-12 2020-06-30 上海合合信息科技发展有限公司 一种文档曲面校正方法及装置
CN111353961B (zh) * 2020-03-12 2023-12-19 上海合合信息科技股份有限公司 一种文档曲面校正方法及装置
WO2023005813A1 (zh) * 2021-07-30 2023-02-02 广州视源电子科技股份有限公司 图像方向调整方法、装置、存储介质及电子设备
CN114120323A (zh) * 2021-11-05 2022-03-01 北京量子之歌科技有限公司 一种支付账单的管理方法、装置、设备和存储介质

Also Published As

Publication number Publication date
CN107798355B (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
CN107133622B (zh) 一种单词的分割方法和装置
CN101615252B (zh) 一种自适应图像文本信息提取方法
US8494273B2 (en) Adaptive optical character recognition on a document with distorted characters
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
JP6366024B2 (ja) 画像化された文書からテキストを抽出する方法及び装置
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
US20090148043A1 (en) Method for extracting text from a compound digital image
CN101599125A (zh) 复杂背景下图像处理的二值化方法
CN107977645B (zh) 一种视频新闻海报图的生成方法及装置
CN101122952A (zh) 一种图片文字检测的方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN107798355A (zh) 一种基于文档图像版式自动分析与判断的方法
CN113537227B (zh) 一种结构化文本识别方法及系统
CN112241730A (zh) 一种基于机器学习的表格提取方法和系统
CN114663904A (zh) 一种pdf文档布局检测方法、装置、设备及介质
CN105373790B (zh) 版面分析方法和装置
CN106033534A (zh) 基于直线检测的电子阅卷方法
CN101593278B (zh) 文档图像的语言判别方法和系统
US20120250985A1 (en) Context Constraints for Correcting Mis-Detection of Text Contents in Scanned Images
CN110619331A (zh) 一种基于颜色距离的彩色影像字段定位方法
CN112861861B (zh) 识别数码管文本的方法、装置及电子设备
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER
CN106372632B (zh) 一种基于ocr的漏识文字自动检测的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant