CN103106405B - 用于文档图像的行分割方法及系统 - Google Patents
用于文档图像的行分割方法及系统 Download PDFInfo
- Publication number
- CN103106405B CN103106405B CN201110351906.4A CN201110351906A CN103106405B CN 103106405 B CN103106405 B CN 103106405B CN 201110351906 A CN201110351906 A CN 201110351906A CN 103106405 B CN103106405 B CN 103106405B
- Authority
- CN
- China
- Prior art keywords
- pixel
- region
- space
- pixel column
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了用于文档图像的行分割方法和系统。该方法包括第一分割步骤,用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除步骤,用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割步骤,用于利用第二像素区域来进行文本行分割。
Description
技术领域
本发明涉及一种用于文档图像的行分割方法及行分割系统,并且尤其涉及用于具有复杂布局的文档图像或者其中存在噪声的文档图像的行分割方法以及行分割系统。
背景技术
在光学字符识别(OCR)领域,存在多种用于识别从原稿文档获得的文档图像以获得文档图像中包含的文本内容的技术。该多种技术中的一种技术是将文档图像中的文本块分割成文本行,此技术在下文被称为行分割方法。
一种用于文档图像的行分割的技术是基于图像的技术,尤其是基于像素投影的技术,并且这种技术的一种常用方法是仅依据各像素行的黑像素投影来执行行分割的方法。更具体来说,如图1所示,该方法主要包含计算文档图像的一个文本块中所包含的各像素行的黑像素投影值,根据黑像素投影值来检测所有的空格像素行,并且沿空格像素行划分该文本块以得到行分割结果。
一个像素行的黑像素投影值可为多种形式,其中的一种常用形式是一个像素行中的黑像素计数与该像素行的面积的比率,其中该面积可通过像素行的宽度乘以像素行的高度来计算。更具体来说,一个像素行的黑像素投影值为该像素行中的黑像素计数与该像素行的宽度的比率,这是因为一个像素行的高度通常为1。在此技术中,当一个像素行中的黑像素计数与该像素行的面积的比率小于通常为0或接近0的阈值时,该像素行将被认为是空格像素行,空格像素行通常被认为是不包含字符相关内容的像素行,并且将被用于文本块的行分割。
但是,此方法通常不能获得良好的行分割结果,在文档图像中存在噪声或者在文档图像具有复杂布局时尤其如此。
已经提出一些方法来应对这样的行分割问题,但是这些方法趋向于仅仅应对噪声文档图像或者仅仅应对复杂布局图像。
一种方法是在进行行分割之前删除噪声。该方法针对噪声文档图像,但是该方法费时,而且仅仅能应对“点噪声”等,该方法尤其不能解决复杂布局文档图像的行分割问题。
另一种方法是基于白像素行程长度(run-length),该白像素行程长度是像素行中的连续白像素序列的长度。在该方法中,各像素行的白像素行程长度被计算,并且具有长的白像素行程长度的像素行被视为可能的行分割位置、即空格像素行。该方法对于某些布局较不复杂的文档图像稍微有用,并且有时对于某些特定噪声文档图像也有用,其中两个文本行之间的某些噪声像素行可通过该方法被检测到。但是,该方法也具有如下的三个缺点。
首先,当文本行短时、尤其是当在相邻字符之间存在大的空格(space)(诸如标题行)时,由于这样的文本行中的像素行可能具有长的白像素行程长度,因此该文本行可能被错误地分割成若干文本行,如图2A所示。
其次,当该方法被应用于分割不能通过基于投影的方法被分开的两个文本行时,如果这两个文本行中的一个短而另一个长,则对于短的文本行中的像素行,空白区域将被视为像素行的白像素行程长度的一部分,并且一些字符像素行将被错误地视为是空格像素行。因此,当沿最可能的噪声像素行划分文本行区域时,短的文本行可能被错误地分割成若干文本行,如图2B所示。
可替换地,当通过直接删除所有噪声像素行来划分文本行时,短的文本行可能被视为文本行之间的空格区域的一部分,如图2C所示。
第三,对于噪声文档图像,只有在像素行中的噪声不分散的情况下,才能通过该方法找到噪声像素行。当在文档图像中噪声分散时,通过该方法并不能找到噪声像素行,并且不能将文本行分开,如图2D所示。
此外,具有复杂布局的其中噪声存在并且分散的文档图像也不能根据现有技术被准确地分割,如图2E所示。
从上述内容清楚地看到,目前不存在一种方法能够有效且准确地处理具有复杂布局的文档图像或者噪声存在并且分散的文档图像。
而且,不存在一种方法能够有效且准确地处理具有复杂布局并且其中噪声存在且分散的文档图像。
因此,考虑到前述现有技术中存在的技术问题,需要一种用于克服由现有技术导致的缺陷并且通过行分割从文档图像准确地获得文本行的技术。
发明内容
本发明的一个目的是准确地实现复杂布局文档图像的行分割。
本发明的另一个目的是准确地实现噪声文档图像的行分割,尤其是噪声分散的噪声文档图像的行分割。
本发明的还另一个目的是准确地实现具有复杂布局并且其中噪声存在且分散的文档图像的行分割。
在本发明的一个方面,提供了一种用于文档图像中的文本块的行分割的方法,所述方法包括第一分割步骤,用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除步骤,用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割步骤,用于利用第二像素区域来进行文本行分割。
在本发明的另一方面,提供了一种用于文档图像中的文本块的行分割的系统,所述系统包括第一分割单元,被配置用于对文本块进行分割,以得到包含至少一个像素区域的第一像素区域;空白区域去除单元,被配置用于检测所述第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为空白区域,以及将该空白区域从所述第一像素区域中的所述像素区域中去除,以得到第二像素区域;以及文本行分割单元,被配置用于利用第二像素区域来进行文本行分割。
从下文参考附图对示例性实施例的描述,本发明的其它特性特征和优点将变得清晰。
附图说明
并入说明书并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于解释本发明的原理。
图1是示意性示出现有技术中的基于黑像素投影的行分割的方法。
图2A至2E示意性地示出不能由现有技术方法准确分割的多种文档图像,其中图2A至2C示意性地示出被错误分割的具有复杂布局的文档图像,图2D示意性地示出不能被分割的其中分散有噪声的文档图像,并且图2E示意性示出不能被准确分割的具有复杂布局并且其中分散有噪声的文档图像。
图3示意性地解释了像素行的宽度和高度的含义。
图4是示出用于实施根据本发明的行分割系统的计算设备的布置的框图。
图5是根据本发明的行分割方法的第一实施例的流程图。
图6示意性地示出通过图5中的方法实现的像素区域的行分割结果的示例。
图7示意性地示出其中包含空白区域的像素区域。
图8是确定像素区域中的空白区域并且从该像素区域获得第二像素区域的流程图。
图9示意性地示出像素区域中的各像素行中的连续白像素序列的公共重叠部的示例。
图10A和10B示意性地示出像素区域中的空白区域检测的另一示例。
图11示意性地示出在空白区域已被检测到并去除的情况下像素区域中的像素行的参数。
图12A至12C是在行分割方法的第一实施例中的步骤S300中执行的示例性步骤的流程图。
图13A和13B分别示意性地示出通过现有技术实现的以及通过本发明的第一实施例实现的具有复杂布局的文档图像的行分割结果的比较。
图14是根据本发明的行分割方法的第二实施例中的步骤S300中的处理的流程图。
图15A至15C分别示意性地示出通过现有技术实现的以及通过本发明的第二实施例实现的其中噪声存在并且分散的文档图像的行分割结果的比较。
图16A和16B示意性地示出其中两个相邻文本行具有明显不同的长度的两种情况。
图17是根据本发明的行分割方法的第三实施例中的文本行分割步骤中的处理的流程图。
图18是第三实施例中的文本行分割步骤中的第一确定步骤中的处理的流程图。
图19示意性地示出第三字符行区域和确定的空格像素行之间的对应关系。
图20是第三实施例中的行分割方法的第二确定步骤中的处理的流程图。
图21A至21C示意性地示出对于其中文本块中的两个相邻文本行具有明显不同的长度的文档图像通过现有技术中的方法实现的以及通过第三实施例中的方法实现的行分割结果之间的比较。
图22A至22E示意性地示出具有复杂布局并且其中噪声存在且分散的文档图像的行分割的示例。
图23是示出行分割系统的总体配置的框图。
具体实施方式
下文将参照附图详细描述本发明的实施例。
为了有助于本发明的透彻且适当的理解,将首先解释本申请的说明书和权利要求中所使用的术语。
在本申请的说明书和权利要求中,尤其当用于文档图像时,术语“文本块”指的是包含文档图像中的一行或多行中的一个或多个词语并且可被分割成一个或多个像素区域的块。像素区域可由一个或多个文本行构成,并且可被分割以便获得各个文本行。文本行对应于一行文本,并且更具体地,对应于一行词语,并且可包括一个或多个像素行。像素行可以是包含与像素区域中的词语有关的信息的字符像素行,或者是基本不包含与词语有关的信息并且可被视为用于像素区域的行分割的分割位置的空格像素行。一个或多个字符像素行可被合并为一个字符行区域。
对于像素行或者文本行的方向,术语“水平”指的是基本水平,并且术语“垂直”指的是基本垂直。特别地,文档图像中使用的术语“水平”指的是基本与文档图像或者原稿图像中的文本行平行的方向。类似地,文档图像中的术语“垂直”指的是基本与文档图像或者原稿图像中的文本行垂直的方向。
在本申请的说明书和权利要求中,关于通常为沿水平方向的一个行的文档图像中的文本行,术语“高度”(由H指示)以及“宽度”(由W指示)分别指的是该文本行在垂直方向上的长度以及该文本行在水平方向上的长度。
当然,文本行并不局限于水平方向的行,并且其可以是垂直方向的行(也被称为文本列)。在此情况下,术语“水平”可指的是基本与文档图像或者原稿图像中的文本列垂直的方向,术语“垂直”可指的是基本与文档图像或者原稿图像中的文本列平行的方向,并且术语“高度”(由H指示)以及“宽度”(由W指示)分别指的是该文本列在水平方向上的长度以及该文本列在垂直方向上的长度。
图3示意性地示出上述两种情况。由于一个文本块和一个像素区域包括一个或多个文本行,并且一个文本行由一个或多个像素行构成,因此该“高度”和“宽度”的含义还等同地适用于文本块、像素区域及其子区域、像素行及其子区段中的任一个。鉴于此,文本块或像素区域的分割(即,行分割)将在其高度方向上进行。
在下文中,为了简化描述,除非另外说明,否则“高度”和“宽度”分别指的是沿垂直方向的长度和沿水平方向的长度,并且分割指的是在垂直方向上的分割。
在本发明的描述中,除非另外说明,否则所有尺寸(诸如长度或宽度)以“像素”为单位。
图4是示出用于实施根据本发明的行分割系统的计算设备的布置的框图。为了简化起见,该系统被示出为置于单个计算设备中。但是,不管该系统被置于单个计算设备中还是被置于作为网络系统的多个计算设备中,该系统都是有效的。
如图4所示,计算设备100用于实施行分割的处理。计算设备100可包括CPU 101、芯片组102、RAM 103、存储控制器104、显示控制器105、硬盘驱动器106、CD-ROM驱动器107、以及显示器108。计算设备100还可包括连接于CPU 101和芯片组102之间的信号线111、连接于芯片组102和RAM 103之间的信号线112、连接于芯片组102和各种外围设备之间的外围设备总线113、连接于存储控制器104和硬盘驱动器106之间的信号线114、连接于存储控制器104和CD-ROM驱动器107之间的信号线115、以及连接于显示控制器105和显示器108之间的信号线116。
客户设备120可直接或经由网络130连接到计算设备100。客户设备120可例如向计算设备100发送行分割的处理所需要的指令和/或参数,并且计算设备100可将信息返回给客户设备120或者在显示器108上显示信息。
[第一实施例]
下文,将参照图5描述根据本发明的行分割方法的第一实施例,并且图5是行分割方法的第一实施例的流程图。
在行分割方法的步骤S100(下文被称为第一分割步骤)中,对文档图像的文本块进行分割以获得粗略像素区域(下文被称为第一像素区域),其包含至少一个像素区域。在步骤S100的处理中,可采用现有技术的任何行分割方法(诸如上文所述的基于投影的方法),并且这里将省略其描述。
在步骤S200(下文被称为空白区域去除步骤)中,将第一像素区域的各像素区域中的各个像素行中的连续白像素序列的公共重叠部检测为第一像素区域的相应像素区域中的空白区域,并且从该第一像素区域的相应像素区域中去除该空白区域以获得在其中已去除了空白区域的像素区域(下文被称为第二像素区域)。通常,第一像素区域的各像素区域对应于一个第二像素区域。下文将详细描述步骤S200的处理。
在步骤S300(下文被称为文本行分割步骤)中,将第二像素区域用于文本行分割。例如,对于第一像素区域中的各像素区域,该像素区域中的行分割位置将通过利用其相应的第二像素区域被确定,并且然后将根据该行分割位置来分割该像素区域以得到行分割结果。如现有技术中已知的,行分割位置通常对应于一个或多个空格像素行。
图6示意性地示出通过图5中所示的方法实现的文本块中的一个像素区域的行分割结果的示例。如图所示,第一像素区域中包含的各像素区域可根据一个或多个空格像素行至少被分割成两部分。特别地,例如,如果像素区域中存在一个以上的连续且相邻的空格像素行,则这些空格像素行将被合并为空格像素行区域,并且被用于通过删除该空格像素行区域将该像素区域分割成至少两个更小的像素区域(也可被称为文本行区域)。
在一些情况下,行分割结果是可能需要被进一步分割的像素区域(即,文本行区域)。例如,如果文本行区域的高度大于可由操作员根据文本图像条件以及个人经验设定的一个阈值TH1(例如对于300dpi的图像为34),该文本行区域需要被进一步分割。
在该行分割方法中,需要考虑并且准确地获得多种参数,例如要被行分割的像素区域的宽度。特别地,如果如图7所示,像素区域包含一些空白区域,则必须检测到并且扣除像素区域中的空白区域,否则可能导致行分割错误,在文本行短时尤其如此。
下文将参照图8和9详细描述步骤S200中的处理。图8是确定像素区域中的空白区域并且从该像素区域获得第二像素区域的流程图。图9示意性地示出像素区域中的像素行的公共重叠部的示例。
在图8中的步骤S201中,像素区域中的各像素行中的所有连续白像素序列根据它们的长度被排序。
在步骤S202中,从最长的连续白像素序列开始,将接下来的各连续白像素序列依次重叠以生成像素区域中的各个像素行中的连续白像素序列的公共重叠部(对应于空白区域)。下文将详细描述步骤S202中的处理。
在步骤S203中,从像素区域去除空白区域,并且将剩余的字符区域分组成第二像素区域。
对于步骤S202中的处理,从第一连续白像素序列、即一个像素行中的最长连续白像素序列开始,将其余像素行中的接下来的各连续白像素序列依次与先前的一个或多个连续白像素序列进行重叠以生成一个公共空白部,直至被公共重叠的序列的数量、即重叠的像素行的数量达到预定数量。该预定数量可由操作员根据多种条件(诸如预期的准确度、图像的分辨率等)设定。该预定数量的常用设定是该预定数量为像素区域中的像素行的数量的至少70%。
在重叠处理中,如果正在重叠的连续白像素序列没有与通过组合先前的连续白像素序列而生成的空白区域重叠,则该正在重叠的连续白像素序列将被放弃,并且将尝试将下一连续白像素序列进行重叠。
最后,像素区域的与所获得的公共空白部的范围对应的部分被视为像素区域的公共重叠部、即像素区域的空白区域。该空白区域将被去除,并且在随后的行分割期间将利用该像素区域中的剩余字符区域(可被分组成第二像素区域)。
可替换地,上述用于检测公共重叠部的方法还可与用于利用黑像素计数来检测空白区域的另一方法相组合以检测空白区域。
更具体而言,如图10A所示,可首先将像素区域划分成若干子区域,并且计算各子区域的黑像素计数与其面积的比率以检测大的空白区域。如果该比率小于一个阈值TH4(例如,0.01),则该子区域将被视为空白子区域。如果该比率大于该阈值TH4(例如,0.01),则该子区域可能是字符子区域。下文,为了简化描述,除非另外说明,否则划分指的是在宽度方向上的划分。
然后,如图10B所示,对于字符子区域,可使用上述的用于检测公共重叠部的方法来检测字符子区域中的可能的小的空白子区域。
下文,将参照图11和图12A至12C来详细描述步骤S300中的处理。图11示意性地示出在空白区域已被检测到并去除的情况下的像素区域中的像素行的参数,诸如黑像素计数和连续白像素序列的长度。图12A至12C是行分割方法的第一实施例中的步骤S300中执行的示例性步骤的流程图。
在步骤S300中,如上所述,第二像素区域将被用于行分割。更具体而言,第二像素区域的参数以及正被检测的像素行的对应参数可被用于检测该像素行是字符像素行还是空格像素行。
第二像素区域的参数可包括例如第二像素区域的宽度,其可通过计算其中的字符区域的宽度的总和来得到。
像素行的对应参数可包括例如像素行的在第二像素区域中的黑像素计数、该像素行的连续白像素序列长度统计值,该统计值是该像素行的在第二像素区域中的最长连续白像素序列的长度、或者是该像素行的在第二像素区域中的最长连续白像素序列的长度与次最长连续白像素序列的长度之和,如图11所示。
利用第二像素区域以及正被检测的像素行的参数,步骤S300中的处理可被以不同方式执行以检测空格像素行。
图12A示出步骤S300中的处理,其中通过利用像素行的在第二像素区域中的黑像素计数与该第二像素区域的宽度的比率来检测空格像素行。
此处理的一种通常方式是将该比率与阈值进行比较以便检测该像素行是否为空格像素行。如果该比率小于阈值TH2(例如,0.01),则该像素行将被视为一个空格像素行。否则,该像素行将被视为一个字符像素行。
图12B示出步骤S300中的处理,其中通过利用像素行的连续白像素序列长度统计值与第二像素区域的宽度的比率来检测空格像素行,该比率即为该像素行的在第二像素区域中的最长连续白像素序列的长度与第二像素区域的宽度的比率、或者该像素行的在第二像素区域中的最长连续白像素序列的长度与次最长连续白像素序列的长度的总和与第二像素区域的宽度的比率。
此处理的一种通常方式是将这两个比率与阈值进行比较以便检测像素行是否为空格像素行。如果这两个比率中的任一个大于阈值TH3(例如,0.7),则该像素行将被视为一个空格像素行。否则,该像素行将被视为一个字符像素行。
图12C示出步骤S300中的处理,其中可组合分别在图12A和12B中所示的方法。例如,图12A和12B中分别示出的方法可被依次执行。应注意,图12C中的处理的顺序仅仅是一个示例,并且可利用其它的顺序。例如,图12B和12A中分别示出的方法可被依次执行。
上述处理的方式是用于通过利用第二像素区域实施空格像素行的检测的示例性的优选操作方式,并且还可使用其他方式。
空格像素行的检测可相对于第一像素区域中包含的像素区域中的所有像素行在水平布局中自上而下地执行,但是并不局限于此。例如,为了在几乎不降低检测准确度的情况下提高计算速度,空格像素行的检测可相对于在一个像素区域的中部的像素行执行,并且该中部的范围可由操作员任意确定。一种常用的选择是假定像素区域具有顶部边界“region_top”和底部边界“region_bottom”,并且中部即为在“region_top”+0.2×std_line_height与“region_bottom”-0.2×std_line_height之间的区域。std_line_height是依据文档图像的分辨率估计的。
在一个像素区域中,所有空格像素行可被一次性地检测,但是本发明并不局限于此。例如,可在水平布局中自上至下地扫描并检测各像素行。在找到一个空格像素行之后,一旦在其后的另一个像素行被判断为字符像素行,则该处理将结束。
[有利效果]
第一实施例的方法至少可有效并且准确地应用于具有复杂布局的文档图像,尤其可应用于包含标题行的文档图像,从而可提高用于这样的文档图像的行分割的性能。
图13A和13B示意性地示出分别通过现有技术以及本发明的第一实施例实现的具有复杂布局的文档图像的行分割结果的比较。该文档图像例如是文档中的标题行。如图13A所示,可见该标题行被现有技术的方法错误地分割。相反,利用根据本发明的第一实施例的解决方案,如图13B所示,在该标题行中将不会检测到空格像素行,从而该标题行不会被错误地分割。
[第二实施例]
下文将参照图14至15C详细描述本发明的第二实施例。除了文本行分割步骤之外,第二实施例基本与第一实施例相同,该文本行分割步骤进一步通过利用像素区域中的正在被检测的像素行之前的字符像素行、尤其利用从正在被检测的像素行之前的字符像素行导出的字符笔划宽度(stroke width)来检测该像素行是否是空格像素行。因此,第二实施例的与第一实施例中的那些步骤相似的步骤将被省略并且不被详细描述。
此空格像素行检测处理基于一个合理的推论,即当一个文本行包含两个以上的字符时,对于文本行区域中的各像素行,字符的至少一个字符笔划通过该像素行。字符笔划宽度指的是包含多个字符像素行的区域中的词语的至少一个字符笔划的平均宽度。上述推论和定义可适用于像素行以及像素区域处于水平方向的情况以及它们处于垂直方向的情况两者。在前一情况下,字符笔划将是垂直字符笔划,并且字符笔划宽度对应于垂直字符笔划的字符笔划宽度,而在后一情况下,字符笔划将是水平字符笔划并且字符笔划宽度对应于水平字符笔划的笔划宽度。
第二实施例中的空格像素行检测处理可与第一实施例中的那些处理以各种方式进行组合。在一个示例中,第二实施例中的文本行分割步骤中的上述处理可在第一实施例中的图12A至12C中任一个所示的处理之后并与其组合。
图14是根据本发明的行分割方法的第二实施例中的空格像素行检测处理的流程图。
在步骤S401中,检查第二像素区域是否包含至少两个字符。一种常用的检查方法是计算第二像素区域的宽度与其高度的比率。如果该比率大于2,则然后将第二像素区域视为包含至少两个字符,并且处理前进至步骤S402。可替换地,处理将结束并且等待下一个第二像素区域。
在步骤S402中,与正在被检测的像素行相邻且在其之前的所有检测到的字符像素行被合并为一个字符行区域。
在步骤S403中,估计字符行区域中的字符笔划宽度。下文将详细描述步骤S403的处理。
在步骤S404中,将正在被检测的像素行划分成若干子区段,并且搜索该若干子区段中的具有最大黑像素计数的子区段。
在步骤S405中,通过比较该最大黑像素计数与字符笔划宽度来检测正在被检测的像素行是否是空格像素行。例如,检查该最大黑像素计数是否小于字符笔划宽度,如果是,则正在被检测的像素行是一个空格像素行。否则,由于至少一个字符笔划可能通过该像素行,因此该像素行可能是一个字符像素行。
由此,空格像素行可利用第二实施例中的空格像素行检测方法被检测,并且然后被用于像素区域的行分割。
接下来,将详细描述字符笔划宽度的估计。
这里,可利用两种方法来估计字符笔划宽度,第一种方法基于合并后的字符行区域的高度和字符笔划宽度之间的关系,并且可获得字符笔划宽度的第一估计值,并且第二种方法是通过分析相邻的合并后的字符行区域上的黑像素分布来动态获取字符笔划宽度,并且可获得字符笔划宽度的第二估计值。在此基础上,可将第一和第二估计值中的较小值视为字符笔划宽度。
在第一估计方法中,合并后的字符行区域中的字符的字符笔划宽度的第一估计值仅根据合并后的字符行区域的高度被估计。第一估计方法是基于以下假设:字符笔划宽度超过字符高度的十分之一,并且字符高度和字符行区域的高度之间的差小。
第一估计值是通过下面的公式(1)得到的,
其中,StrokeWidth1指的是字符笔划宽度的第一估计值,并且HeightCharacterLine Re gion是合并后的字符行区域的高度。
在第二估计方法中,合并后的字符行区域中的字符的字符笔划宽度的第二估计值根据该字符行区域的黑像素分布被估计。
第二估计值是通过下面的公式(2)得到的,
其中,StrokeWidth2指的是字符笔划宽度的第二估计值,BlackPixelCountCharacter LineRegion是合并后的字符行区域中的黑像素计数,并且WidthCharacterLineRegion是合并后的字符行区域的宽度.
公式(2)可通过以下推导得到。
字符行区域的黑像素计数可通过以下公式(3)计算,
其中,CharacterAmountCharacterLineRegion指的是合并后的字符行区域中的字符量,StrokeWidth指的是字符笔划宽度。
其中,AverageStrokeAmountCharacter是一个字符中的平均笔划量,其在该字符行区域沿水平方向时可对应于一个字符中的平均垂直笔划量,并且在该字符行区域沿垂直方向时可对应于一个字符中的平均水平笔划量,并且AverageStrokeAmountCharacter可由操作员根据文档中的语言设定。
考虑到字符行区域内的字符量可通过下式得到,
并且,一个字符中的平均笔划量为例如,
然后,字符行区域的黑像素计数计算公式等于:
然后,可从公式(6)导出公式(2)。
尽管在上述描述中,第二实施例的处理基于第二像素区域、即已从中去除了空白区域的像素区域来检测空格像素行,但是本发明并不局限于此。换句话说,空白区域的去除对于第二实施例的处理不是必需的,因此对于第二实施例的处理所实现的效果不是支配性的。即使空白区域没有被从第一像素区域的像素区域中去除,并且第二实施例的处理基于未被去除空白区域的像素区域进行检测,第二实施例的处理仍可相对准确地检测并因而分割像素区域。
[有利效果]
除了上文描述的类似标题行的文档图像之外,第二实施例中的方法至少可进一步有效且准确地应用于其中具有噪声的文档图像,尤其是其中噪声存在且分散的文档图像,并因此可提高对于这种文档图像的行分割的性能。
图15A至15C分别示意性地示出了通过现有技术以及本发明的第二实施例实现的其中噪声存在且分散的文档图像的行分割结果的比较。在这些图中,确认的噪声像素行是通过第二实施例的处理检测到的空格像素行。
如图15A所示,可见尽管文档图像包含至少两个文本行并且应该被分割,但是该文档图像不能被现有技术的方法分割。相反,如图15B和15C所示,利用本发明的解决方案,可准确地检测到文档图像中的空格像素行、即确认的噪声像素行,由此可沿该空格像素行合适地分割文档图像,而不会受文档图像中的噪声影响。
[第三实施例]
下文将参照图16A至21C详细描述根据本发明的行分割方法的第三实施例。除了文本行分割步骤之外,第三实施例基本与第一和第二实施例中的任一个相同,在该文本行分割步骤中,进一步包括利用先前检测到的字符像素行来确定所检测到的空格像素行是否是最终空格像素行的确定步骤。因此,第三实施例中的与第一和第二实施例中的那些步骤类似的步骤将被省略并且不被详细描述。
该确定步骤旨在应对当文本块中的两个相邻文本行具有明显不同的长度时、即一个文本行的长度与相邻的另一个文本行的长度明显不同时现有技术的方法的缺点。
存在两种情况,一种情况(第一种情况)是如果一个像素区域中的自上至下的第一文本行短而第二文本行长,由于像素区域中的空白区域可能难以被检测到,并且文本行宽度、像素行的黑像素计数以及它们的连续白像素序列长度被错误地计算,则第一文本行内的底部的若干像素行可能被错误地认为是空格像素行,如图16A所示,这样将使得像素区域被错误地分割。另一种情况(第二种情况)是如果一个像素区域内的自上至下的第一文本行长而第二文本行短,由于空白区域难以被检测到,文本行宽度、像素行的黑像素计数以及它们的连续白像素序列长度被错误地计算,第二文本行内的顶部的若干像素行可能被错误地视为空格像素行,如图16B所示,这样也将导致像素区域被错误地分割。
第三实施例中的确定步骤包括从一个或多个检测到的空格像素行通过利用第二像素区域中的在该一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行确定一个或多个最终空格像素行,然后基于确定的一个或多个最终空格像素行执行文本行分割。在一个示例中,如下文将描述的,可通过分析检测到的空格像素行的黑像素分布以及连续白像素分布和所有检测到的相邻字符像素行之间的关系来实施该确定步骤。
第三实施例中的确定处理可以多种方式与第一和第二实施例中的任一个中的那些处理相组合。在一个示例中,第三实施例中的确定步骤可在第一和第二实施例各自的文本行分割步骤中的处理的任一个、即图12A至12C以及图14中的处理中的任一个之后并且与之组合。
下文将参照图17详细描述第三实施例中的确定步骤。
在步骤S701(下文被称为合并步骤)中,将一个或多个相邻的检测到的字符像素行合并为字符行区域(下文被称为第二字符行区域)。
在步骤S702(下文被称为第一确定步骤)中,从中去除了空白区域的字符行区域(下文被称为第三字符行区域)被从第二字符行区域获得,并且被用于确定一个或多个检测到的空格像素行中的各空格像素行是否是第二空格像素行。
在步骤S703(下文被称为第二确定步骤)中,确定在第一确定步骤中确定的第二空格像素行是否是最终空格像素行。
图18是第三实施例中的第一确定步骤中的处理的流程图。第一确定步骤可被应用于上述两种情况,并且优选地应用于第一种情况。
在步骤S801中,可通过检测第二字符行区域中的空白区域并且从第二字符行区域去除空白区域来获得第三字符行区域。剩余的字符行区域将构成第三字符行区域。
空白区域的检测可被以多种方式实施,例如将第二字符行区域划分成若干子区域并且通过计算各子区域的黑像素计数与其面积的比率来检测空白区域、类似于图8中所示的方法通过利用字符行区域中的连续白像素序列的公共重叠部来检测空白区域、或者类似于图10A~B中所示的方法通过使用上述两种方式的组合来检测空白区域等。因此,字符行区域中的空白区域的检测将不被详细描述。
在步骤S802中,第三字符行区域用于确定第二空格像素行。第二空格像素行的确定可被以多种方式实施。
在一个示例中,第三字符行区域的参数以及正被确定的空格像素行的对应参数可被用于确定该空格像素行是否是第二空格像素行。
第三字符行区域的参数可包括例如第三字符行区域的宽度,该宽度可通过计算其中的字符子区域的宽度的总和来得到。
空格像素行的对应参数是空格像素行的在其的与第三字符行区域对应的部分中的参数,并且可包括例如空格像素行的在该部分中的黑像素计数、该空格像素行的在该部分中的连续白像素序列长度统计值,该连续白像素序列长度统计值为空格像素行的在该部分中的最长连续白像素序列长度或空格像素行的在该部分中的最长白像素序列长度与次最长连续白像素序列长度之和,如图19所示。
空格像素行的一部分与第三字符行区域之间的对应关系通常指的是在与文本行垂直的方向上的对应关系,更具体而言,空格像素行中的与第三字符行区域对应的部分指的是空格像素行的如下这样的部分,该部分的宽度等于第三字符行区域并且该部分的沿水平方向的边缘与第三字符行区域的沿水平方向的边缘对齐。特别地,当第三字符行区域可包含若干字符子区域时,空格像素行中的该部分可包含若干子部分,若干子部分中的每一个在与文本行垂直的方向上与第三字符行区域中的若干字符子区域中的每一个对应。
通过第三字符行区域和正在被确定的空格像素行的参数,第二空格像素行可被以类似于图12A至12C所示的处理的多种方式确定。因此,步骤S802中的处理将被省略并且不被详细描述。
下文将参照图20描述第二确定步骤中的处理。第二确定步骤也可应用于上述两种情况,并且优选地应用于第二种情况。
在第二确定步骤中,第二空格像素行被划分成若干子区段,并且通过比较子区段中的黑像素计数与一个估计的黑像素计数上限值,确定该第二空格像素行是否是最终空格像素行(也被称为确认的空格像素行)。估计的黑像素计数上限值是第三字符行区域中的对应子区域中的黑像素计数的平均值。第二确定步骤基于一个合理的推论,即如果当前的第二空格像素行是字符像素行,则至少一个其子区段的黑像素计数大于字符像素行区域内的对应子区域中的平均黑像素计数。
图20是第三实施例中的第二确定步骤中的处理的流程图。
在步骤S1001中,第三字符行区域被划分成若干子区域,并且正被确定的第二空格像素行被相应地划分成若干子区段。
在步骤S1002中,选择正被确定的第二空格像素行中的该若干子区段中的其的黑像素计数是该若干子区段的黑像素计数的最大值的子区段。
在步骤S1003中,通过比较所选择的最大黑像素计数与上限值(也被称为黑像素计数上限值)来确定第二空格像素行是否是最终空格像素行,该上限值可被从第三字符行区域中的与所选择的子区段对应的子区域导出,并且该子区域的宽度与该子区段相同。然后,当最大黑像素计数小于该黑像素计数上限值时,第二空格像素行是最终空格像素行。
子区段的黑像素计数上限值可被通过下面的公式(7)计算。
其中,WidthSubRegion是第三字符行区域中的与该子区段对应的子区域的宽度。
公式(7)可来自以下的推论。
如果第二空格像素行是最终空格像素行,则该子区段的黑像素计数应小于
CharacterAmountSubRegion×AverageStrokeAmountCharacter×StrokeWidth (8)
其中CharacterAmountSubRegion指的是第三字符行区域中的子区域中的字符量。
其中,AverageStrokeAmountCharacter是一个字符中的平均笔划量,其当第三字符行区域是沿水平方向时可对应于一个字符中的平均垂直笔划量,并且当第三字符行区域沿垂直方向时可对应于平均水平比划量,并且AverageStrokeAmountCharacter可由操作员根据文档图像的语言设定。
考虑到子区域中的字符量可由下式得出
并且一个字符内的平均笔划量为
字符的笔划宽度可通过下式估计
然后,子区段的黑像素计数上限值计算公式可被简化为上述表述。
可替换地,作为当前第二空格像素行的补充,当前第二空格像素行的前一第二空格像素行以及当前第二空格像素行的下一第二空格像素行也可被用于确定当前第二空格像素行是否是最终空格像素行。更具体而言,确定前一第二空格像素行和后一第二空格像素行的子区段中的最大黑像素计数两者是否都小于它们相应的上限值,如果是的话,当前第二空格像素行应属于文本行之间的空格区域,并且其被标记为最终空格像素行。
尽管在上述描述中,第三实施例的处理基于从中去除了空白区域的第三字符行区域和第二像素区域来确定最终空格像素行,但是本发明并不局限于此。换句话说,空白区域的去除不是第三实施例的处理所必需的,因此对于第三实施例的处理所实现的效果不是支配性的。即使在第二像素区域和第三字符行区域中仍存在空白区域,第三实施例的处理仍可相对准确地检测并分割像素区域。
另外,请注意第三实施例中的处理的顺序仅是示例,并且可利用其他顺序。例如,第一确定步骤和第二确定步骤的顺序可被调换,并且第二确定步骤可在第一确定步骤之前被执行。在此情况下,检测到的空格像素行可首先被第二确定步骤(诸如图20中示出的处理)处理,以确定其是否是第二空格像素行,然后该第二空格像素行将被第一确定步骤(诸如图17和18中所示的处理,其也可不包含可能的空白区域的去除)处理,以确定最终空格像素行。
[有利效果]
除了作为类似于标题行的文档图像或者噪声分散文档图像的上述文档图像之外,第三实施例中的方法还至少可有效且准确地应用于具有复杂布局的文档图像,尤其是其中文本块中的两个相邻文本行具有明显不同的长度的文档图像,从而可提高对于这样的文档图像的行分割性能。
图21A至21C分别示意性地示出对于其中文本块中的两个相邻文本行具有明显不同的长度的文档图像通过现有技术的方法以及第三实施例中的方法所实现的行分割结果之间的比较。在这些图中,确认的噪声像素行对应于通过第三实施例中的方法确定的最终空格像素行。
如图21A和21B所示,可见在这样的文档图像中,当使用现有技术的方法时,短的文本行将被错误地分割。相反,如图21C所示,通过利用第三实施例中的处理,从该文档图像准确地分割出三个文本行。
另外,考虑到上述第一至第三实施例所实现的有利效果,通过利用第三实施例中的方法也可有效且准确地分割具有复杂布局并且其中噪声存在且分散的文档图像。
[示例1]
为了有助于本发明的解决方案的理解,将参照图22A至22E描述示例1。在示例1中,通过利用第一至第三实施例中的方法对具有复杂布局和分散的噪声的文档图像进行行分割。
如图22A所示,原稿文档图像是具有复杂布局(例如第一文本行明显短于第二文本行)并且其中噪声分散的图像。
如图22B所示,首先通过利用第一实施例和第二实施例中的解决方案检测该原稿文档图像以找到其中的空格像素行。此图中的噪声像素行假定对应于检测到的空格像素行。
如图22C所示,通过利用第三实施例中的第一确定步骤中的处理对文档图像中的检测到的空格像素行进行确定。在此图中的噪声像素行假定对应于确定的第二空格像素行。
如图22D所示,通过利用第三实施例中的第二确定步骤中的处理找到最终空格像素行。此图中的确认的噪声像素行假定对应于确定的最终空格像素行。
如图22E所示,沿确定的最终空格像素行,可将文档图像准确地分割成两个文本行。
图23是示出包含各模块装置的用于文档图像的行分割系统的总体配置的框图。
如图23所示,行分割系统200可包括第一分割单元201,用于对文本块进行分割以得到包含至少一个像素区域的第一像素区域,空白区域去除单元202,用于检测并去除所述第一像素区域中的每一像素区域中的空白区域以得到相应的第二像素区域;以及文本行分割单元203,用于对于第一像素区域中的各像素区域利用相应的第二像素区域来进行文本行分割。
空白区域去除单元202可优选地包括空白区域检测单元202-1,用于检测第一像素区域中的每一像素区域中的各个像素行中的连续白像素序列的公共重叠部作为像素区域中的空白区域;以及去除单元202-2,用于将该空白区域从该素区域中去除,以得到其相应的第二像素区域。
文本行分割单元203可优选地包括黑像素计数检测单元203-1,用于通过利用像素行在第二像素区域中的黑像素计数与该第二像素区域的宽度的比率,以检测该像素行为字符像素行还是空格像素行,并且文本行分割单元203可进一步优选地包括白像素序列检测单元203-2,用于通过利用像素行中的连续白像素序列长度统计值与第二像素区域的宽度的比率,检测该像素行为字符像素行还是空格像素行。
文本行分割单元203可进一步优选地包括字符笔划宽度检测单元203-3,用于利用与先前检测到的字符像素行有关的字符笔划宽度来检测像素行是否是空格像素行。字符笔划宽度检测单元203-3可优选地包括合并单元203-31,用于将在正被检测的像素行之前且相邻的所有检测到的字符像素行合并为字符行区域;估计单元203-32,用于估计所述字符行区域中的字符笔划宽度;搜索单元203-33,用于将正被检测的像素行划分成若干子区段,并且从若干子区段中搜索具有最大黑像素计数的子区段;以及比较单元203-34,用于通过比较所述最大黑像素计数与字符笔划宽度来检测空格像素行。
文本行分割单元203可进一步优选地包括确定单元203-4,用于通过利用第二像素区域中的在一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行,从一个或多个检测到的空格像素行确定一个或多个最终空格像素行。确定单元203-4可优选地包括合并单元203-41,用于将所述一个或多个相邻字符像素行合并为第二字符行区域;第一确定单元203-42,用于确定所述一个或多个检测到的空格像素行的各空格像素行是否是第二空格像素行;以及第二确定单元203-43,用于从第二空格像素行确定最终空格像素行。
第一确定单元203-42可优选地包括字符行区域获得单元203-421,用于通过检测并去除第二字符行区域中的空白区域以从第二字符行区域获得第三字符行区域;以及黑像素计数确定单元203-422,用于通过利用空格像素行中的在与第三字符行区域对应的部分中的黑像素计数与所述第三字符行区域的宽度的比率,确定空格像素行是否是第二空格像素行,并且第一确定单元203-42可进一步优选地包括白像素序列确定单元203-423,用于通过利用空格像素行中的与第三字符行区域对应的部分中的连续白像素序列长度统计值与第三字符行区域的宽度的比率,确定空格像素行是否是第二空格像素行。
第二确定单元203-43可优选地包括划分单元203-431,用于将第三字符行区域和第二空格像素行相应地划分成若干子区域和若干子区段;选择单元203-432,用于从第二空格像素行中的若干子区段中选择具有最大黑像素计数的子区段;上限值计算单元203-433,用于计算用于具有最大黑像素计数的子区段的上限值(也被称为黑像素计数上限值);以及比较单元203-434,用于通过比较最大黑像素计数与上限值来确定最终空格像素行。
上述装置是用于实施上文所述的处理的示例性优选模块。用于实施各个步骤的模块在上文没有被详尽地描述。但是,当存在用于执行特定处理的步骤时,存在用于实施相同处理的相应的功能模块或装置。
可采用多种方式来实行本发明的方法和系统。例如,可通过软件、硬件、固件或它们的任何组合来实行本发明的方法和系统。上文所述的该方法的步骤的顺序仅是说明性的,并且除非另外具体说明,否则本发明的方法的步骤不限于上文具体描述的顺序。此外,在一些实施例中,本发明还可具体化为记录介质中记录的程序,包括用于实施根据本发明的方法的机器可读指令。因此,本发明还涵盖了存储用于实施根据本发明的方法的程序的记录介质。
虽然已经参考示例实施例描述了本发明,应当理解,本发明不限于公开的示例实施例。下面的权利要求的范围将被给予最宽泛的解释,以便包含所有这些修改以及等同结构和功能。
Claims (30)
1.一种用于文档图像中的文本块的行分割的方法,所述方法包括以下步骤:
第一分割步骤,用于获得包含通过对文本块进行行分割获得的、位于彼此相邻的两个空格像素行之间的多个像素行的第一像素区域;
空白区域去除步骤,用于沿与所述第一像素区域中的所述多个像素行中的每个像素行垂直的方向检测其中连续地布置了白像素的部分作为空白区域,以及将该空白区域从所述第一像素区域中去除以得到第二像素区域;以及
文本行分割步骤,用于通过利用第二像素区域来将所述第一像素区域分割成各自具有大于所述多个像素行中的每个像素行的高度的高度的文本行。
2.根据权利要求1所述的方法,其中,所述空白区域去除步骤中的所述检测通过如下操作来执行:
将所有连续白像素序列依长度排序;以及
从最长的连续白像素序列开始,依次重叠各接下来的连续白像素序列,以生成由预定数量的连续白像素序列所共同覆盖的空白部确定的所述部分作为公共重叠部。
3.根据权利要求1或2所述的方法,其中,所述文本行分割步骤进一步包括:
通过利用所述第一像素区域中的每一像素区域中的各像素行在第二像素区域中的黑像素计数与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行。
4.根据权利要求1或2所述的方法,其中,所述文本行分割步骤进一步包括:
通过利用所述第一像素区域中的每一像素区域中的各像素行在所述第二像素区域中的连续白像素序列长度统计值与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行,
其中,所述连续白像素序列长度统计值为所述像素行在第二像素区域中的最长连续白像素序列长度、或所述像素行在第二像素区域中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
5.根据权利要求3所述的方法,其中,所述文本行分割步骤进一步包括:
将在正被检测的像素行之前且相邻的所有检测到的字符像素行合并为字符行区域;
估计所述字符行区域中的字符笔划宽度;
将正被检测的像素行划分成若干子区段,并且从所述若干子区段中搜索具有最大黑像素计数的子区段;以及
通过比较所述最大黑像素计数与字符笔划宽度来检测正被检测的像素行是否是空格像素行。
6.根据权利要求5所述的方法,其中,字符笔划宽度估计步骤进一步包括:
得到所述字符行区域的高度的十分之一作为字符笔划宽度的第一估计值;
通过使用如下表达式得到字符笔划宽度的第二估计值:
第二估计值=字符行区域中的黑像素计数/(字符行区域的宽度×平均笔划量);以及
使用第一估计值和第二估计值中的较小值作为字符笔划宽度,
其中,所述平均笔划量是依赖于文档中使用的语言的值。
7.根据权利要求3所述的方法,其中所述文本行分割步骤进一步包括:
确定步骤,用于通过利用第二像素区域中的在一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行,从一个或多个检测到的空格像素行确定一个或多个最终空格像素行,
其中,基于所确定的一个或多个最终空格像素行进行文本行分割。
8.根据权利要求7所述的方法,其中,所述确定步骤包括:
合并步骤,用于将所述一个或多个相邻字符像素行合并为第二字符行区域;
第一确定步骤,用于从所述第二字符行区域获得第三字符行区域,并且通过利用所述第三字符行区域来确定所述一个或多个检测到的空格像素行的各空格像素行是否是第二空格像素行;以及
第二确定步骤,用于确定所述第一确定步骤中所确定的第二空格像素行是否是最终空格像素行。
9.根据权利要求8所述的方法,其中从所述第二字符行区域获得第三字符行区域包括:
检测所述第二字符行区域中的空白区域,并且从所述第二字符行区域去除所述空白区域以获得所述第三字符行区域。
10.根据权利要求9所述的方法,其中,所述第一确定步骤进一步包括:
通过利用所述空格像素行中的在与所述第三字符行区域对应的部分中的黑像素计数与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行。
11.根据权利要求9-10中任一项所述的方法,其中,所述第一确定步骤进一步包括:
通过利用空格像素行中的连续白像素序列长度统计值与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行,
其中,所述连续白像素序列长度统计值为所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度或所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
12.根据权利要求8所述的方法,其中,所述第二确定步骤包括:
将所述第三字符行区域划分成若干子区域,并且相应地将所述第二空格像素行划分为若干子区段;
从所述第二空格像素行中的所述若干子区段中选择具有最大黑像素计数的子区段;以及
通过比较所述最大黑像素计数与来自所述第三字符行区域中的与所述子区段相应的子区域的上限值,来确定所述第二空格像素行是否是最终空格像素行;
其中,当所述最大黑像素计数小于所述上限值时,确定所述第二空格像素行是最终空格像素行。
13.根据权利要求12所述的方法,其中,
所述上限值是依据如下表达式计算的:
上限值=子区域中的字符量×平均笔划量×字符笔划宽度
其中,子区域中的字符量指的是所述子区域的宽度与所述子区域的高度的比率;
所述平均笔划量是基于文档中使用的语言的预定值;以及
所述字符笔划宽度为所述第三字符行区域的宽度的十分之一。
14.根据权利要求2所述的方法,其中,所述预定数量为像素区域中的像素行的数量的至少70%。
15.根据权利要求1所述的方法,其中,所述第一分割步骤是利用基于图像的分割方法执行的。
16.一种用于文档图像中的文本块的行分割的系统,所述系统包括以下单元:
第一分割单元,被配置用于获得包含通过对文本块进行行分割获得的、位于彼此相邻的两个空格像素行之间的多个像素行的第一像素区域;
空白区域去除单元,被配置用于沿与所述第一像素区域中的所述多个像素行中的每个像素行垂直的方向检测其中连续地布置了白像素的部分作为空白区域,以及将该空白区域从所述第一像素区域中去除以得到第二像素区域;以及
文本行分割单元,被配置用于通过利用第二像素区域来将第一像素区域分割成各自具有大于所述多个像素行中的每个像素行的高度的高度的文本行。
17.根据权利要求16所述的系统,其中,所述空白区域去除单元通过如下操作执行所述检测:
将所有连续白像素序列依长度排序;以及
从最长的连续白像素序列开始,依次重叠各接下来的连续白像素序列,以生成由预定数量的连续白像素序列所共同覆盖的空白部确定的所述部分作为公共重叠部。
18.根据权利要求16或17所述的系统,其中,所述文本行分割单元进一步包括:
黑像素计数检测单元,被配置用于通过利用所述第一像素区域中的每一像素区域中的各像素行在第二像素区域中的黑像素计数与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行。
19.根据权利要求16或17所述的系统,其中,所述文本行分割单元进一步包括:
白像素序列检测单元,被配置用于通过利用所述第一像素区域中的每一像素区域中的各像素行在所述第二像素区域中的连续白像素序列长度统计值与所述第二像素区域的宽度的比率,检测所述像素行是字符像素行还是空格像素行,
其中,所述连续白像素序列长度统计值为所述像素行在第二像素区域中的最长连续白像素序列长度、或所述像素行在第二像素区域中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
20.根据权利要求18所述的系统,其中,所述文本行分割单元进一步包括字符笔划宽度检测单元,所述字符笔划宽度检测单元被配置用于利用与先前检测到的字符像素行有关的字符笔划宽度来检测像素行是否是空格像素行,所述字符笔划宽度检测单元包括:
合并单元,被配置用于将在正被检测的像素行之前且相邻的所有检测到的字符像素行合并为字符行区域;
估计单元,被配置用于估计所述字符行区域中的字符笔划宽度;
搜索单元,被配置用于将正被检测的像素行划分成若干子区段,并且从所述若干子区段中搜索具有最大黑像素计数的子区段;以及
比较单元,被配置用于通过比较所述最大黑像素计数与字符笔划宽度来检测正被检测的像素行是否是空格像素行。
21.根据权利要求20所述的系统,其中,所述估计单元通过以下操作估计字符笔划宽度:
得到所述字符行区域的高度的十分之一作为字符笔划宽度的第一估计值;
通过使用如下表达式得到字符笔划宽度的第二估计值:
第二估计值=字符行区域中的黑像素计数/(字符行区域的宽度×平均笔划量);以及
使用第一估计值和第二估计值中的较小值作为字符笔划宽度,
其中,所述平均笔划量是依赖于文档中使用的语言的值。
22.根据权利要求18所述的系统,其中所述文本行分割单元进一步包括:
确定单元,被配置用于通过利用第二像素区域中的在一个或多个检测到的空格像素行之前且相邻的一个或多个相邻字符像素行,从一个或多个检测到的空格像素行确定一个或多个最终空格像素行,
其中,基于所确定的一个或多个最终空格像素行进行文本行分割。
23.根据权利要求22所述的系统,其中,所述确定单元包括:
合并单元,被配置用于将所述一个或多个相邻字符像素行合并为第二字符行区域;
第一确定单元,被配置用于从所述第二字符行区域获得第三字符行区域,并且通过利用所述第三字符行区域来确定所述一个或多个检测到的空格像素行的各空格像素行是否是第二空格像素行;以及
第二确定单元,被配置用于确定所述第一确定单元所确定的第二空格像素行是否是最终空格像素行。
24.根据权利要求23所述的系统,其中所述第一确定单元包括字符行区域获得单元,所述字符行区域获得单元被配置用于检测所述第二字符行区域中的空白区域并且从所述第二字符行区域去除所述空白区域以获得所述第三字符行区域。
25.根据权利要求24所述的系统,其中,所述第一确定单元进一步包括:
黑像素计数确定单元,被配置用于通过利用所述空格像素行中的在与所述第三字符行区域对应的部分中的黑像素计数与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行。
26.根据权利要求24-25中任一项所述的系统,其中,所述第一确定单元进一步包括:
白像素序列确定单元,被配置用于通过利用空格像素行中的连续白像素序列长度统计值与所述第三字符行区域的宽度的比率,确定所述空格像素行是否是所述第二空格像素行,
其中,所述连续白像素序列长度统计值为所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度、或所述空格像素行的在与所述第三字符行区域对应的部分中的最长连续白像素序列长度与次最长连续白像素序列长度之和。
27.根据权利要求23所述的系统,其中,所述第二确定单元包括:
划分单元,被配置用于将所述第三字符行区域划分成若干子区域,并且相应地将所述第二空格像素行划分为若干子区段;
选择单元,被配置用于从所述第二空格像素行中的所述若干子区段中选择具有最大黑像素计数的子区段;
上限值计算单元,被配置用于计算来自所述第三字符行区域中的与所述子区段相应的子区域的上限值;以及
比较单元,被配置用于通过比较所述最大黑像素计数与所述上限值,来确定所述第二空格像素行是否是最终空格像素行;
其中,当所述最大黑像素计数小于所述上限值时,确定所述第二空格像素行是最终空格像素行。
28.根据权利要求27所述的系统,其中,
所述上限值计算单元依据如下表达式计算所述上限值:
上限值=子区域中的字符量×平均笔划量×字符笔划宽度
其中,子区域中的字符量指的是所述子区域的宽度与所述子区域的高度的比率;
所述平均笔划量是基于文档中使用的语言的预定值;以及
所述字符笔划宽度为所述第三字符行区域的宽度的十分之一。
29.根据权利要求17所述的系统,其中,所述预定数量为像素区域中的像素行的数量的至少70%。
30.根据权利要求16所述的系统,其中,所述第一分割单元利用基于图像的分割方法执行分割。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110351906.4A CN103106405B (zh) | 2011-11-09 | 2011-11-09 | 用于文档图像的行分割方法及系统 |
JP2012243151A JP5523537B2 (ja) | 2011-11-09 | 2012-11-02 | 文書画像の行分割方法及び行分割システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201110351906.4A CN103106405B (zh) | 2011-11-09 | 2011-11-09 | 用于文档图像的行分割方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103106405A CN103106405A (zh) | 2013-05-15 |
CN103106405B true CN103106405B (zh) | 2017-05-03 |
Family
ID=48314253
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201110351906.4A Active CN103106405B (zh) | 2011-11-09 | 2011-11-09 | 用于文档图像的行分割方法及系统 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5523537B2 (zh) |
CN (1) | CN103106405B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033543A (zh) * | 2015-03-11 | 2016-10-19 | 株式会社理光 | 文档修改检测方法、文档原稿提供装置、文档复制件检测装置、以及文档修改检测系统 |
CN107092409A (zh) * | 2016-02-17 | 2017-08-25 | 上海连尚网络科技有限公司 | 用于获取无线接入点信息的方法与设备 |
CN111339341A (zh) * | 2018-12-19 | 2020-06-26 | 顺丰科技有限公司 | 模型的训练方法及装置、定位方法及装置、设备 |
CN114842477A (zh) * | 2021-01-14 | 2022-08-02 | 广州视源电子科技股份有限公司 | 文本行分割方法、装置及计算机可读存储介质 |
CN115545008B (zh) * | 2022-11-29 | 2023-04-07 | 明度智云(浙江)科技有限公司 | 一种谱图文件解析方法、装置、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928891A (zh) * | 2005-09-05 | 2007-03-14 | 富士通株式会社 | 指定文本行提取方法和装置 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
-
2011
- 2011-11-09 CN CN201110351906.4A patent/CN103106405B/zh active Active
-
2012
- 2012-11-02 JP JP2012243151A patent/JP5523537B2/ja active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1928891A (zh) * | 2005-09-05 | 2007-03-14 | 富士通株式会社 | 指定文本行提取方法和装置 |
CN101251892A (zh) * | 2008-03-07 | 2008-08-27 | 北大方正集团有限公司 | 一种字符切分方法和装置 |
Non-Patent Citations (1)
Title |
---|
中英文混排字符切分方法研究;安艳辉;《中国优秀硕士学位论文全文数据库(电子期刊)》;20070331;参见1.2节,3.1节,附图3-2 * |
Also Published As
Publication number | Publication date |
---|---|
JP5523537B2 (ja) | 2014-06-18 |
CN103106405A (zh) | 2013-05-15 |
JP2013101613A (ja) | 2013-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103106405B (zh) | 用于文档图像的行分割方法及系统 | |
CN103455814B (zh) | 用于文档图像的文本行分割方法和系统 | |
US8660373B2 (en) | PDF de-chunking and object classification | |
EP2742442B1 (en) | A method for detecting a copy of a reference video, corresponding apparatus for extracting a spatio-temporal signature from video data and corresponding computer readable storage medium | |
CN110781839A (zh) | 一种基于滑窗的大尺寸图像中小目标识别方法 | |
JP2008148298A (ja) | 画像における異なった内容の領域を識別する方法、画像における異なった内容の領域を識別する装置、および画像における異なった内容の領域を識別するコンピュータ・プログラムを具現するコンピュータ読み取り可能な媒体 | |
CN105426834B (zh) | 一种基于投影特征与结构特征进行表格图像检测的方法 | |
CN101515325A (zh) | 基于字符切分和颜色聚类的数字视频中的字符提取方法 | |
CN104573675B (zh) | 作业图像的展示方法和装置 | |
EP3617938B1 (en) | Lane line processing method and device | |
CN106937114A (zh) | 用于对视频场景切换进行检测的方法和装置 | |
CN103093185B (zh) | 字符识别装置、图像处理装置及其方法 | |
US20120242792A1 (en) | Method and apparatus for distinguishing a 3d image from a 2d image and for identifying the presence of a 3d image format by image difference determination | |
US20110026813A1 (en) | Relative threshold and use of edges in optical character recognition process | |
WO2024016632A1 (zh) | 亮点定位方法、亮点定位装置、电子设备及存储介质 | |
KR20120138635A (ko) | 영상 처리 방법, 영상 처리 장치 및 스캐너 | |
CN106295627A (zh) | 用于识别文字牛皮癣图片的方法及装置 | |
CN103985078A (zh) | 一种抗打印扫描图文混合的数字水印嵌入与提取方法 | |
CN113256608A (zh) | 工件缺陷检测方法和装置 | |
CN115631197B (zh) | 一种图像处理方法、装置、介质、设备及系统 | |
CN110264489A (zh) | 一种图像边界检测方法、装置及终端 | |
JP5424694B2 (ja) | 画像認識装置、及びプログラム | |
CN111445433B (zh) | 一种电子卷宗的空白页和模糊页的检测方法及装置 | |
JP4244692B2 (ja) | 文字認識装置及び文字認識プログラム | |
CN102915530B (zh) | 用于分割输入图像的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB03 | Change of inventor or designer information |
Inventor after: Xu Meifang Inventor before: Xu Meifang Inventor before: Maekawa Koji |
|
COR | Change of bibliographic data | ||
GR01 | Patent grant | ||
GR01 | Patent grant |