CN101840514B

CN101840514B - 图像对象分类装置及方法

Info

Publication number: CN101840514B
Application number: CN200910128883.3A
Authority: CN
Inventors: 白笛木; 李滔
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2009-03-19
Filing date: 2009-03-19
Publication date: 2014-12-31
Anticipated expiration: 2029-03-19
Also published as: CN101840514A

Abstract

本发明提供了一种图像对象分类方法，包括：划分步骤，将图像对象划分为多个单元格；概率分布计算步骤，计算所有单元格的概率分布；复杂度度量计算步骤，根据所述概率分布计算复杂度度量；分类步骤，根据计算的复杂度度量来确定图像对象的类别。本发明可以用于区分文档图像中的文字和表格。

Description

图像对象分类装置及方法

技术领域

本发明涉及一种图像对象分类方法及实施该方法的装置，更具体地说，涉及一种基于图像对象划分来对由扫描仪、传真机或是数码相机获取的数字文档图像对象进行标记分类的方法及实施该方法的装置。

背景技术

随着传真机、扫描仪等办公工具的使用，越来越多的纸质文档被转化为数字文档图像，造成对这些数字文档图像进行分析、索引和检索的需求日益增加。通常的对数字文档图像的处理包括对图像的二值化和倾斜校正、以及版面分割和对图像区域的分类(如文字、表格、图片等)。根据文档的类型，某些情况下会进一步地提取更高层次的信息以及使用OCR(光学字符识别)工具将原始的纸质文档转换为文本格式的数字文档，以更利于让用户编辑，并且节省存储空间和传输的带宽。

长时间以来，办公室职员是唯一使用OCR相关技术处理大量的扫描文档并从中获益的人。然而，随着文档数字化设备(例如，多功能打印机、平板扫描仪、数码相机、及带照相功能的手机)使用的普及，OCR技术有更多的用户采用，例如家庭用户、学者、以及知识员工。这种变化使得数字文档图像处理的重要性日益显著。

此外，大量的应用还涉及到提取电子化后的文档图像的一部分进行编辑(例如，提取打印的报表、网页、博客中的文字、公式、表格)。然而，在文档图像中并不直接表达这种高层次的图像的语义信息，以致需要对文档图像的不同区域进行分类，以明确各图像区域的属性以利于索引和检索。

专利文献1公开了一种将文档图像分为文字和非文字区域的方法，包括：计算每个区域的水平投影并规范化以得到一个概率分布；从该概率分布计算出一个熵的度量值，从而区分高熵值的非文字区域和低熵值的文字区域。该方法能有效地区分出字符，但由于文字和表格区域同样地具有不均匀的投影曲线，因此该方法不能区分文字和表格。

专利文献2公开了一种将文档图像分为文字、图片和图形区域的方法。该方法使用二维离散余弦变换，由于文字和图形的高频成分比图片更强，另外由于文字通常是规则排列的，因此与图形相比，文字区域的频域能量具有更小的方差。但该方法同样不能区分文字和表格，由于表格区域同样具有按列规则排列的特点，因此具有很高的频谱特性。

非专利文献1提出了一种基于熵度量的判断自然场景图像是否被准确聚焦的方法。该方法对图像作二维快速余弦变换，然后对得到的频域信号作规范化，从而得到每个像素点的频域值的概率分布。以均匀分布为基准，计算该概率分布的熵值，得到的规范化的熵可以用于评价图像的清晰程度(图像越清晰熵值越高)。

非专利文献2提出了一种将文档图像划分为几种不同类型的区域的方法，区域类型包括文字、表格、公式、图片、图形和直线。该方法提出了29种图像分类特征，其中游程(run-length)是最有效的区分出表格的特征，因为通常是通过直线将表格划分为行、列及表头等不同的块。然而，一部分的表格并不包含或者只包含很少的几条直线，基于游程的方法无法对这类表格作有效的识别。

【专利文献1】美国专利申请公开No.2006/0072830A1

【专利文献2】美国专利申请公开No.2003/0088825A1

【非专利文献1】M.Kristan，F..″Entropy Based Measure of CameraFocus″.Proceedings of the thirteenth Electrotechnical and Computer ScienceConference ERK，B：179-182，September 2004.

【非专利文献2】Y.Wang and I.T.Phillips and R.M.Haralick，“Documentzone content classification and its performance evaluation”，Pattern Recognition，39(1)，2006，pp.57-73.

【非专利文献3】K.Kise，A.Sato，and K.Matsumoto.“Document ImageSegmentation as Selection of Voronoi Edges”.In Proceedings of the 1997Workshop on Document Image Analysis(June 20-20，1997).DIA.IEEEComputer Society，Washington，DC，32.

【非专利文献4】Fortune，S.1986.A sweepline algorithm for Voronoidiagrams.In Proceedings of the Second Annual Symposium on ComputationalGeometry(Yorktown Heights，New York，United States，June 02-04，1986).SCG′86.ACM，New York，NY，313-322.DOI＝http://doi.acm.org/10.1145/10515.10549.

【非专利文献5】P.J.Green and R.Sibson，Computing Dirichlet tessellationsin the plane，Computer Journal vol.21n 2(1978)，p.168-173.

【非专利文献6】T.Nicholson，M.Sambridge，and O.Gudmundsson，“Onentropy and clustering in earthquake hypocentre distributions，”GeophysicalJournal International，vol.142，no.1，pp.37-51，2000.

发明内容

本发明公开了一种根据图像对象内容对文档图像区域分类(文字、表格、题目等)的方法。本发明可用于文档图像处理过程中版面分割后的处理，用来确定每个数字文档图像区域所表述的内容从而可以进一步选择最合适的数据提取方法。本发明还可以用于对文档图像的不同区域建立索引，以便于管理和检索。文字和表格是文档中最主要的信息载体，本发明可以用于区分文档图像中的文字和表格。

本发明提出一种新的分类方法以区分文档图像中的文字和表格区域。本发明利用了这两种区域中字符的不同空间分布，即表格中的各项是按列对齐的，因此其字符的排列往往比文字区域中的字符排列更有序。本发明根据图像对象中的字符来将该图像对象在空间上划分为多个单元格并以此确定该图像对象的属性。根据这些单元格的某些基本特征(如尺寸、形状等)的分布，可以得到概率分布并进一步计算出复杂度度量，从而表达图像对象中数据的无序的程度。

根据本发明的一个方面，提供了一种图像对象分类方法，包括：划分步骤，将图像对象划分为多个单元格；概率分布计算步骤，计算所有单元格的概率分布；复杂度度量计算步骤，根据所述概率分布计算复杂度度量；分类步骤，根据计算的复杂度度量来确定图像对象的类别。

根据本发明的另一个方面，提供了一种图像对象分类装置，包括：划分装置，将图像对象划分为多个单元格；概率分布计算装置，计算所有单元格的概率分布；复杂度度量计算装置，根据所述概率分布计算复杂度度量；分类装置，根据计算的复杂度度量来确定图像对象的类别。

本发明利用了文档图像对象中字符与字符之间的局部的空间关系，而这种关系是无法用投影的全局的方法建模的。由于表格中的字符往往是按列对齐的，因此根据本发明的对表格对象的二维划分将会得到一系列的在尺寸和形状上相似的单元格。相应地，尺寸和形状的概率分布将会集中在几个有限的状态下。相反，由于在文字区域中字符在垂直方向成随机分布(即没有按列对齐)，因此通过本发明的二维划分而得到的单元格将不会具有像表格那样的相似性，从而单元格的特征分布将会分散在多个概率状态上，形成典型的无序的特征。

由于本发明利用文字区域和表格区域中的字符的空间分布，并不依赖于表格线信息，因此可以处理没有表格线的表格，而这类表格是基于游程的方法无法处理的。此外，本发明不需要设置诸如阈值的参数并且计算复杂度低，可以很容易地应用到一些需要高可靠性、实时处理的情况。

在诸如专利文献1的基于投影的方法中，投影曲线用作对文档图像对象分类的特征。然而，这类方法对于局部有序的结构(例如表格，其中同一列中每一项的宽度都可能不同)将无效。在表格的情况下，在垂直方向的投影将会是和文字块类似的多噪声的、分散的特征，这样的特征将会增大错误分类的几率。在本发明中，划分的单元格是局部的特征，即使同一列中每个表格项的宽度不同，其产生的单元格的尺寸及形状都将是类似的。因此，即使在并非有序排列的表格的情况下，划分的单元格的形状及尺寸的分布仍体现出局部有序。

此外，不同于投影的方法需要对文档图像作倾斜校正，本发明具有旋转和尺寸变化的不变性，即不需要对图像作倾斜校正，并且对图像的分辨率变化不敏感。

本发明也是对诸如专利文献2的基于二维的频率分析的方法的改进。专利文献2的方法考虑对感兴趣的图像区域作二维频率变换(如FFT、DCT等)，这类变换不区分字符在水平和垂直方向的分布结构，因此不能有效区分文字区域和表格区域。而根据本发明，二维的图像对象划分同时考虑了字符的水平和垂直方向的坐标，能更有效的表述字符在二维空间中的局部关系，提高了文字和表格之间的区分度。

通过阅读结合附图考虑的以下本发明的优选实施例的详细描述，将更好地理解本发明的以上和其他目标、特征、优点和技术及工业重要性。

附图说明

图1示出了按照本发明实施例的对文档图像对象分类的总体流程图。

图2示出了图1所示的流程图中计算数字文档图像对象的复杂度度量的方法的流程图。

图3示出了文档图像中的表格的示例。

图4示出了对图3中的表格图像对象作字符分割所得的外接矩形的结果。

图5示出了使用增量式方法来在第p-1次迭代上计算Voronoi(维诺)划分的过程。

图6示出了图5所示的Voronoi划分过程的结果Vp。

图7示出了对一系列有序和均匀排列的种子点作Voronoi划分的结果。

图8示出了在有扰动的情况下对一系列有序和均匀排列的种子点的Voronoi划分的结果。

图9示出了基于图4所示的外接矩形进行Voronoi划分的结果。

图10示出了文档图像中的文字区域的示例。

图11示出了对图10所示的文字区域的字符进行分割所得的外接矩形的的结果。

图12示出了基于图11所示的外接矩形进行Voronoi划分的结果。

图13示出了对空间上有序且均匀分布的多个种子点在经过角度和尺度上的刚体变换后再作Voronoi划分的结果。

图14示出了本发明实施例中用于文字/表格分类的训练和测试中所使用的文字样本的数量。

图15示出了本发明实施例中用于文字/表格分类的训练和测试中所使用的表格样本的数量。

图16示出了在把本发明实施例与非专利文献1的方法分别用于图14及图15中所示数量的测试样本的情况下所得到的文字/表格分类的准确率的比较结果。

图17示出了根据本发明实施例的图像对象分类装置的框图。

具体实施方式

下面参考附图详细描述本发明的示例实施例。

图1示出了按照本发明实施例的对文档图像对象分类的总体流程图。在步骤S11，读入文档图像，文档图像包含文档图像区域，其中文档图像区域只包含一个单独的图像对象，在整个文档图像只包含一个单独的图像对象的情况下，该文档图像即为文档图像区域。在读入包含多个文档图像区域的文档图像的情况下，该文档图像区域可以用人工或自动的图像分割方法获得，也可以来自于电子文档(如Word、HTML文件)。图3和图10分别示出了表格和文字图像区域的例子。文档图像可以是单色图像，也可以是彩色图像，可以是多灰度级图像，也可以是二值图像，非二值图像可以在二值化后应用本发明，也可以直接应用本发明，本领域技术人员从后文的描述能够认识到，只要能够提取字符的外接矩形即可。

在步骤S12，计算图像对象的复杂度度量。在现有技术的文档图像分类技术领域，投影和频率分析均被用于提取图像的特征。基于频率分析的方法对于表格这种局部有序排列的结构往往无效，而基于投影的方法将图像向水平和垂直两个方向上作投影，同样无法检测局部上有序排列的图像。另一方面，二维频域变换的方法分别独立地从垂直和水平方向提取频域信息，没有考虑到字符之间在二维空间上的关系。

在本发明中，利用字符的外接矩形中的点作为种子点，把文档图像对象欧氏空间划分为多个单元格。这种划分考虑到了字符之间的位置关系，因此可以由此计算复杂度度量进而对图像对象进行更加可靠的分类。图像对象划分已经用于文档图像的分割(如非专利文献3等)，但尚未用于对象分类的目的。步骤S12输出的复杂度度量反映了文档图像区域中的字符排列的有序程度，即字符排列越有序，复杂度越低。因此，表格的复杂度度量一般要比文字区域低。图2示出了步骤S12中计算数字文档图像对象的复杂度度量的方法的流程图。

在步骤S13，复杂度度量被输入到训练好的分类器中。该分类器在事先利用一组类别标记已知的数据训练得到。在步骤S14，从分类器输出所输入的图像对象的分类结果即类别(例如文字区域或是表格)。分类器可以用机器学习的方法得到，例如最大似然、贝叶斯、支持向量机、及神经网络等方法。本发明提供了一种基于朴素高斯(Naive Gaussian)的有监督的分类方法。该方法在给定N个测量值之后选择一个具有最大的后验概率p_post的类别C_k(称之为最大后验决策)。考虑两种可能的类别(C_k＝0＝″文字″；C_k＝1＝″表格″)，并考虑复杂度度量m。根据贝叶斯规则，在给定测量值m下，选择类别C_k的后验概率p_post(C_k|m)_k＝0，1可以通过公式(1)求出。

p_{post} {(C_{k} | m)}_{k = 0,1} = \frac{p (C_{k}) p (m | C_{k})}{p (m)} - - - (1)

其中，p(C_k)是类别C_k的先验概率，p(m|C_k)是在类别C_k中观测到测量值m的概率，p(m)是观测到测量值m的概率，k为索引值。由于公式(1)中的分母并不影响类别的判别，因此可以忽略，从而得到最大化如下公式(2)。

p_post(C_k|m)_k＝0，1≈p(C_k)p(m|C_k) (2)

概率p(C_k)用类别C_k出现的相对频率估计，p(m|C_k)用高斯分布近似，分布的参数在分类器训练阶段用训练数据拟合。p(C_k)通过以下公式(3)求出。

则p(m|C_k)通过以下公式(4)求出。

p (m | C_{k}) = \frac{1}{\sqrt{2 π σ_{k}^{2}}} \exp (- \frac{{(m - μ_{k})}^{2}}{2 σ_{k}^{2}}) - - - (4)

其中μ_k和σ_k ²分别为类别C_k中样本测量值m的均值和方差。在得到测量值在文字和表格两种类别中的后验概率后，步骤S14中的分类结果decision可以按如下公式(5)确定，即p_post(C₀|m)＜p_post(C₁|m)的情况下，类别为表格，其它情况下类别为文字。

在有d个复杂度度量的情况下，测量值是d维向量

\overset{&RightArrow;}{m} = (m_{1}, . . ., m_{d}) .

这d个复杂度度量是条件独立的，则后验概率如公式(6)所示。

p_{post} {(C_{k} | \overset{&RightArrow;}{m})}_{k = 0,1} \approx p (C_{k}) Π_{i = 1}^{d} p (m_{i} | C_{k}) - - - (6)

其中p(m_i|C_k)是均值为μ_i，k，方差为σ_i，k ²的如公式(7)所示的正态分布：

p (m_{i} | C_{k}) = \frac{1}{\sqrt{2 π σ_{i, k}^{2}}} \exp (- \frac{{(m_{i} - μ_{i, k})}^{2}}{2 σ_{i, k}^{2}}) - - - (7)

决策规则由公式(8)确定，即

p_{post} (C_{0} | \overset{&RightArrow;}{m}) < p_{post} (C_{1} | \overset{&RightArrow;}{m})

的情况下，类别为表格，其它情况下类别为文字。

图2示出了图1所示的计算图像对象的复杂度度量的步骤S12的流程图。

在步骤S121，执行字符分割，在图像对象中提取字符的位置信息。字符分割是文档图像处理领域的已知方法，例如可以基于连通域分析并利用尺度滤波消除掉可能为噪声、图片和直线的连通域。在步骤S122，获得字符分割的结果，即字符的外接矩形。图4和图11分别示出了图3和图10中的表格和文字图像对象中的字符的外接矩形(为了显示的需要矩形内部被填成黑色)。

在步骤S123，从每个外接矩形中提取一个种子点以启动图像对象划分过程。种子点可以是相应外接矩形的一个角点或是其中心点。当所有字符的外接矩形的种子点确定以后，可以使用任意一种划分技术根据给定的距离度量(欧氏距离或者基于先验知识例如字体或尺寸而定制的距离)。在本实施例中，可以采用欧氏距离的Voronoi(维诺)划分，种子点例如选择为字符外接矩形的左上角。Voronoi划分可以得到两个种子点(代表文档图像对象中的两个字符)之间的交界线，且与相关字符的朝向和尺寸无关，因此是基于字符之间的相对位置来对图像对象进行划分的有效方法。下面简要描述本发明采用的Voronoi划分的计算过程、以及使用该划分方法的优点。

Voronoi划分是将包含N个种子点的图像平面划分为N个凸多边形，其中每个多边形包含且仅包含一个种子点，并且在一个给定的多边形内的任意一个点满足距离该多边形所包含的种子点比距离其它多边形的种子点更近的性质。换句话说，一个给定的Voronoi单元格的边界是由当前的Voronoi单元格的种子点和所有最近相邻的种子点的等分线构成。有多种算法可以用于计算Voronoi划分，包括增量式的方法、分而治之的方法、及线扫除方法等。在增量式方法中，Voronoi划分通过每次增加一个种子点而得到。该方法是较简单的方法，但是具有较高的时间复杂度(O(N*N))。在分而治之的方法中，种子点的集合被分为两个部分，递归地对每部分计算Voronoi划分，然后将两个划分结果合并。通过简单地划直线来将种子点分为两个部分即可得到待划分的两个区域。该方法的复杂之处在于合并的步骤。非专利文献4提出的线扫除方法是计算效率较高的一种方法。下面介绍非专利文献5提出的增量式方法，对于本领域技术人员来说，也可以采用非专利文献4公开的线扫除方法。

下面介绍增量式Voronoi划分的基本思想。在已经建立好对Vp-1个种子点的Voronoi划分(如图5所示)的情况下，加入一个新的种子点Sp。首先，找到种子点Si，它的Voronoi多边形V(Si)包含了Sp，然后作Sp和Si的垂直等分线，表示为B(Sp，Si)。垂直等分线B(Sp，Si)和种子点Si的Voronoi多边形V(Si)的交点表示为x1和x2。Sp位于矢量线段x1x2的左方。线段x1x2将Voronoi多边形V(Si)分为两块，左边的一块属于新的种子点Sp的Voronoi多边形。这样，在Si的Voronoi多边形的边界上得到一条Voronoi边。

从边x1x2开始，扩展Sp所属的Voronoi多边形的边界。等分线B(Sp，Si)和V(Si)的边界的交点为x2，然后进入相邻的Voronoi多边形V(Sj)，下一步作种子点Sp和Sj的垂直等分线B(Sp，Sj)，找到该等分线与V(Sj)的边界的另一交点x3。然后，依次找到Sp和相邻的种子点的垂直等分线直至到达起始点x1，设L为种子点Sp的多边形的相邻多边形的数目，从而得到一个等分线段序列(x1x2，x2x3，...，x(L-1)xL，xLx1)。该序列构成了这个新种子点Sp的Voronoi多边形的依逆时针的边界。最后，从Voronoi划分Vp-1中删除位于新的Voronoi多边形中的子结构，从而得到新的Voronoi划分Vp(见图6)。这个过程循环至所有的种子点都加入到划分。

采用Voronoi划分的方法考虑到了字符间的空间分布，而这种信息无法使用传统的投影方法获得。考虑图7中示出的从有序排列和均匀分布的字符中得到的种子点，得到的Voronoi单元格在尺寸和形状上也是有序的。图8示出了另一个种子点集合的Voronoi划分，与图7的区别在于，图8在原来的种子点的四周加入了一些干扰，即随机分布的种子点。注意到在图8中除了图像对象的边界区域外，中心区域的规则的Voronoi单元格分布并没有受到这些扰动的影响。这是因为Voronoi划分是基于最近的种子点对的局部关系得到的。因此，Voronoi划分考虑了文档图像中的局部有序的结构。在传统的投影方法中，投影时是对整个图像求和，因此得到的投影曲线表达的是一种全局的信息，容易受到噪声和干扰的影响。Voronoi划分对于表格这类局部而非全局有序的结构是有效的。

图9示出了图3所示的表格图像对象的Voronoi划分，对应的字符的外接矩形在图4中示出。在划分结果中，在同一列内存在大量的尺寸和形状上相似的单元格，对应于一种有序的模式。注意到，在不同列之间，由于列宽不同，因而单元格具有不同的形状和尺寸，这对应于一种带有噪声的Voronoi模式。这种效果尽管一定程度上造成度量结果的无序性，但是这种影响同列内的单元格的有序性的模式相比是不显著的。

图12示出了对图10所示的文字图像对象的Voronoi划分的结果，相应的字符外接矩形在图11中示出。可以发现，和表格的情况相比，对文字区域划分得到的单元格在形状和尺寸上的变化会更大。这是因为字符在文字区域中的空间分布要比在表格区域更加无序一些。因此，对应的Voronoi单元格的形状和尺寸的分布会更加分散，从而导致了更高的复杂度度量。

相对于整个图像，Voronoi单元格的形状和尺寸是对平移、旋转和尺寸变化不变的。对于从扫描仪或数码相机获取的文档图像而言，这是非常有利的特点。因为，实际上，数字图像通常都包含有一定的旋转倾角，并且可以以不同的分辨率获取，造成尺度差异。在本发明的实施例中，通过对Voronoi单元格的形状和尺寸的分布的分析，对于文档图像中对象的分类结果将避免受到图像获取时的几何变化的影响。因此更为通用和鲁棒。

Voronoi划分的计算的时间复杂度较低，时间复杂度最高为O(N*log(N))(非专利文献4)，另外空间复杂度最高为O(N)，其中N是种子点的数目，在本发明中对应于字符的数目。考虑到在文档图像对象中N的数目很少超过1000，因此这样的时间复杂度是较低的。

理论上，Voronoi划分是将图像对象划分为相互不重合的凸多边形。凸多边形面积的计算快于凹多边形，基于Voronoi单元格的后续处理具有很低的时间复杂度，可以实现实时运算。

而且，Voronoi划分完全由种子点确定，计算时不需要任何参数设置。避免参数设置将使本发明的方法更易于推广。

当根据种子点进行Voronoi划分，得到划分单元格之后，在步骤S124，可以根据划分单元格的形状分布得到概率分布。和形状分布有关的概率分布p_shape(k)可以由任何与形状特点相关的特征量得到(例如几何矩)。例如，可以利用整个划分中所有边的规范化的方向直方图来作为形状特征的概率分布。即，计算单元格每条边相对于某个给定的参考坐标系的角度，从而得到直方图hist_shape[k]，定义p_shape(k)为：

p_{shape} (k) = \frac{{hist}_{shape} [k]}{N_{edge} h_{edge}} - - - (9)

其中N_edge为图像对象划分中所有边的数目，k为索引量，h_edge为方向直方图中每列的宽度(即每列所代表的角度区间的大小)，hist_shape[k]为方向直方图中第k列的值。然后在步骤S125中，基于步骤S124中得到的形状的概率分布计算复杂度度量m₁。任意基于概率分布的复杂度度量都可以用于估计文档对象的无序的程度。复杂度度量的例子如标准熵S、及标准熵的衍生的熵，诸如相对熵S′(又称为库尔贝克和莱伯勒(Kullback-Leibler)散度)、Renyi熵S^R、Tsallis熵S^T。离散情况下，标准熵S计算公式(10)为：

S = - Σ_{k = 0}^{N - 1} p (k) \ln (p (k)) - - - (10)

其中p(k)为测量值的离散概率分布，k为索引量，N为直方图的列数目。离散情况下，相对熵S′的计算公式(11)为

S^{'} = - Σ_{k = 0}^{N - 1} p (k) \ln (\frac{p (k)}{q (k)}) - - - (11)

其中，p(k)为测量值的离散概率分布，k为索引量，N为直方图的列数目，q(k)为均匀分布的概率分布，可以为常数值q(k)＝1/N。不同于标准熵，相对熵表示数据分布和一个参考分布q(k)的相似度。因此，S′越接近0则数据越接近于随机分布(越无序)，比如说文字。相反，S′值越小则数据越有序，比如说表格。Renyi熵S^R和Tsallis熵S^T分别按照下列公式(12)及(13)所定义。

S^{R} = \frac{1}{1 - α} \ln (Σ_{k = 0}^{N - 1} p^{α} (k)) - - - (12)

S^{T} = \frac{c}{α - 1} (1 - Σ_{k = 0}^{N - 1} p^{α} (k)) - - - (13)

其中α和c为正的常数，例如，α＝0.5，c＝1，本领域技术人员可以认识到，只要α和c的取值使该公式能够成立即可。

在本实施例中，针对公式(9)定义的形状概率分布p_shape(k)，标准熵S_shape和相对熵S′_shape分别按公式(14)和(15)来定义。Renyi熵S^R _Shape和Tsallis熵S^T _Shape分别按照下列公式(16)及(17)所定义。

S_{shape} = \frac{\ln (N_{edge} h_{edge})}{h_{edge}} - \frac{1}{N_{edge} h_{edge}} Σ_{k = 1}^{N_{bins, shape}} {hist}_{shape} [k] \ln ({hist}_{shape} [k]) - - - (14)

{S^{'}}_{shape} = \ln (N_{edge}) - \ln (N_{bins, shape}) - \frac{1}{N_{edge}} Σ_{k = 1}^{N_{bins, shape}} {hist}_{shape} [k] \ln ({hist}_{shape} [k]) - - - (15)

{S^{R}}_{shape} = \frac{1}{1 - α} ((1 - α) \ln (h_{edge}) - α \ln (N_{edge}) + \ln (Σ_{k = 1}^{N_{bins, shape}} {hist}^{α}_{shape} [k])) - - - (16)

{S^{T}}_{shape} = \frac{c}{α - 1} (1 - \frac{{h^{1 - α}}_{edge}}{{N^{α}}_{edge}} Σ_{k = 1}^{N_{bins, shape}} {hist}^{α}_{shape} [k]) - - - (17)

其中，N_bins，shape是方向直方图中列的数目。

复杂度度量为m₁＝S_shape或m₁＝S′_shape或m₁＝S^R _shape或m₁＝S^T _shape。在图13中，示出了图7中的种子点在经过刚体变换(角度theta的旋转和尺度Sc的缩放)后的Voronoi划分。注意到，Voronoi单元格的形状并没有受到刚体变换的影响，所有边的方向在整体上旋转了theta角度，这在方向直方图hist_shape[k]上产生循环移位，并不影响在公式(14)和(15)中对直方图的求和以及在公式(16)和(17)中对直方图的求和作为结果，最终的熵值对于刚体变换保持不变。

在步骤S124，或者也可以计算划分单元格的尺寸特征的概率分布。关于尺寸的概率分布p_size(k)可以是任何尺度或者是比例上的度量(例如单元格的直径、面积等)。在本发明的实施例中，可以基于单元格的面积分布来计算p_size(k)。类似于计算p_shape(k)的过程，计算每个单元格的面积和整个Voronoi划分的总面积的比率并统计其直方图，规范化后得到概率分布p_size(k)，如公式(18)所定义。

p_{size} (k) = \frac{{hist}_{size} [k]}{N_{cell} h_{size}} - - - (18)

其中N_cell为图像对象划分中单元格的总数，即字符分割后得到的字符的数目，k为索引量，h_size是面积直方图中每列的宽度(即每列所代表的面积区间的大小)，hist_size[k]为面积直方图中第k列的值。

在步骤S125中，根据在步骤S124中得到的尺寸概率分布，来计算复杂度度量m₂。从概率分布中得到的任意复杂度度量都可以用于衡量文档对象的无序程度。可以使用分别在公式(10)～(13)中定义的标准熵、相对熵、Renyi熵和Tsallis熵来作为复杂度度量。

在本实施例中，针对公式(18)定义的尺寸概率分布p_size(k)，与面积相关的复杂度度量，即标准熵S_size和相对熵S′_size分别按公式(19)和(20)来定义，Renyi熵S^R _Shape和Tsallis熵S^T _Shape分别按公式(21)和(22)来定义。

S_{size} = \frac{\ln (N_{cell} h_{size})}{h_{size}} - \frac{1}{N_{ce 11} h_{size}} Σ_{k = 1}^{N_{bins, size}} {hist}_{size} [k] \ln ({hist}_{size} [k]) - - - (19)

{S^{'}}_{size} = \ln (N_{ce 11}) - \ln (N_{bins, size}) - \frac{1}{N_{cell}} Σ_{k = 1}^{N_{bins, size}} {hist}_{size} [k] \ln ({hist}_{size} [k]) - - - (20)

{S^{R}}_{size} = \frac{1}{1 - α} ((1 - α) \ln (h_{size}) - α \ln (N_{ce 11}) + \ln (Σ_{k = 1}^{N_{bins, size}} {hist}^{α}_{size} [k])) - - - (21)

{S^{T}}_{size} = \frac{c}{α - 1} (1 - \frac{{h^{1 - α}}_{size}}{{N^{α}}_{ce 11}} Σ_{k = 1}^{N_{bins, size}} {hist}^{α}_{size} [k]) - - - (22)

其中，N_bins，size是面积直方图中的总的列数。

图13示出了图7所示的种子点在经过刚体变换(角度theta的旋转和尺度Sc的缩放)后的Voronoi划分。注意到，相对于整个Voronoi划分的值，Voronoi单元格的相对面积并没有受到刚体变换的影响。在这样的情况下，Voronoi单元格的尺寸乘以一个因子“Sc”。定义公式(18)中面积直方图hist_size[k]中所统计的面积r_size[k]为如下的相对面积：

r_{size} [k] = \frac{area [cell (k)]}{Σ_{j = 1}^{N} area [cell (j)]}

其中N为直方图总列数，j为索引量，area[cell(k)]表示第k号单元格的面积。

如果所有的单元格都被缩放了一个尺度“Sc”，新的相对面积r′_size[k]为：

{r^{'}}_{size} [k] = \frac{Sc * area [cell (k)]}{Σ_{j = 1}^{N} Sc * area [cell (j)]} = \frac{Sc * area [cell (k)]}{Sc * Σ_{j = 1}^{N} area [cell (j)]} = \frac{area [cell (k)]}{Σ_{j = 1}^{N} area [cell (j)]} = r_{size} [k]

作为结果，直方图对尺度变换保持不变性，对旋转变换同样保持不变性，因为旋转并不影响尺寸，公式(18)的概率分布和公式(19)～(22)的熵度量同样保持不变。因此，公式(19)～(22)的熵值是对刚体变换不变的。

实际上，公式(20)中S′_size的定义可以替换为非专利文献6等提出的基于Voronoi单元格的面积的如公式(23)的定义。

{S^{'}}_{size} = \ln (N_{cell}) - \ln (A) + \frac{1}{N_{cell}} Σ_{k = 1}^{N_{cell}} \ln (a [k]) - - - (23)

其中A为所有Voronoi单元格的总面积，a[k]是第k个单元格的面积，N_cell为图像对象划分中单元格的总数。根据公式(19)～(23)，可以获得复杂度度量为m₂＝S_size或m₂＝S′_size或m₂＝S^R _size或m₂＝S^T _size。

可以根据步骤S124中得到的形状及面积的分布、及公式(9)和(18)，来计算两者的概率分布。在步骤S125，根据步骤S124得到的概率分布，计算得到复杂度向量

\overset{&RightArrow;}{m} = {m_{1}, m_{2}} .

根据划分单元格的形状分布所产生的概率分布来得到m₁，根据尺寸分布得到m₂。任意基于概率分布估计的复杂度度量都可以用于估计文档对象的无序程度。作为例子，考虑基于公式(10)和(11)的标准熵和相对熵、或基于公式(12)和(13)的Renyi熵及Tsallis熵。

在这种情况下，与形状信息相关的复杂度度量为m₁＝S_shape(公式(14))或m₁＝S′_shape(公式(15))或m₁＝S^R _shape(公式(16))或m₁＝S^T _shape(公式(17))，与尺寸相关的复杂度度量为m₂＝S_size(公式(19))或m₂＝S′_size(公式(20)或(23))或m₂＝S^R _size(公式(21))或m₂＝S^T _size(公式(22))。

图14到16将本发明的方法和现有的一些主要方法进行比较，以显示本发明的有效性。这里提供的实验结果利用图1的流程中的步骤S13中所使用的朴素高斯分类器而得到，并且利用公式(15)和(23)的复杂度度量。用于分类器训练和测试的文本和表格数据来源于多个数据库，包括日文、中文和英文。部分图像是二值的，其余是彩色的。图像采用了多个分辨率扫描得到。另有部分图像是演示文稿、网页或PDF文件的截屏图。图14示出了训练和测试阶段所使用的各种语言类型的文本对象的数目，包括文字块以及大字区域(如标题等)。图15中示出了训练和测试阶段使用的表格对象的数目。

图16比较了本发明和基于非专利文献1的熵方法的结果，后者通过字符的外接矩形的水平和垂直投影计算概率分布。如公式(24)，非专利文献1计算通过除以一个正态分布的熵值来作规范化的标准熵S_{KP，vert/horiz}。

S_{KP, vert / horiz} = \frac{1}{\ln (N)} (\ln ({SPE}_{tot}) - \frac{1}{{SPE}_{tot}} Σ_{k = 0}^{N / 2 - 1} | {\hat{P}}_{vert / horize} (k) | \ln (| {\hat{P}}_{vert / horiz} (k) |)) - - - (24)

其中，N是投影的长度，k是0到N/2-1之间的索引值，SPE_tot定义为

{SPE}_{tot} = Σ_{r = 0}^{N / 2 - 1} | {\hat{P}}_{vert / horiz} (r) |,

r是0到N/2-1之间的索引值，变量表示垂直/水平投影曲线P_vert/horiz(x)如公式(25)的离散余弦变换(DCT)，

{\hat{P}}_{vert / horiz} (k) = Σ_{x = 0}^{N - 1} P_{vert / horiz} (x) \exp (- \frac{2 πi}{N} x \cdot k) - - - (25)

其中，i是虚部单元，x是0到N-1之间的索引值。

根据图16的结果，注意到，本发明的方法对于文字和表格的分类均优于基于非专利文献1的方法(分别提高7.90％和34.73％)。尤其对于表格的分类，本发明所公开的基于Voronoi的方法与传统的基于投影的方法相比能大幅提高正确率。

根据本发明的一个实施例，本发明还可以实施为一种图像对象分类装置。图17示出了根据本发明实施例的图像对象分类装置的框图。如图17所示，图像对象分类装置20包括：划分装置21、概率分布计算装置22、复杂度度量计算装置23、分类装置24。图像对象分类装置20通过读入装置11执行前述步骤S11的操作以读入文档图像并确定图像对象，通过输出装置12执行前述步骤S14的操作以输出分类结果。

划分装置21、概率分布计算装置22、复杂度度量计算装置23用来执行前述步骤S12的操作，以获得图像对象的复杂度度量。其中该划分装置21用来将图像对象划分为多个单元格，包括外接矩形提取装置211、划分种子点确定装置212、单元格划分装置213。其中外接矩形提取装置211用来执行前述步骤S121和S122的操作，以执行字符分割，在图像对象中提取字符的位置信息，并获得字符分割的结果，即字符的外接矩形。划分种子点确定装置212和单元格划分装置213用来执行前述步骤S123的操作，从每个外接矩形中提取一个种子点以启动图像对象划分过程。划分种子点确定装置212用来确定所述外接矩形中的点作为划分种子点，而单元格划分装置213跟据划分种子点以及距离度量来将图像对象划分为多个单元格。

概率分布计算装置22用来执行前述步骤S124的操作，对于所划分的单元格，计算其形状和/或尺寸的规范化的直方图。复杂度度量计算装置23用来执行前述步骤S125的操作，基于步骤S124中得到的关于形状和/或尺寸的概率分布来计算复杂度度量。

分类装置24用来执行前述步骤S13的操作，根据计算的复杂度度量来确定图像对象的类别。

在说明书中说明的一系列操作能够通过硬件、软件、或者硬件与软件的组合来执行。当由软件执行该一系列操作时，可以把其中的计算机程序安装到内置于专用硬件的计算机中的存储器中，使得计算机执行该计算机程序。或者，可以把计算机程序安装到能够执行各种类型的处理的通用计算机中，使得计算机执行该计算机程序。

例如，可以把计算机程序预先存储到作为记录介质的硬盘或者ROM(只读存储器)中。或者，可以临时或者永久地存储(记录)计算机程序到可移动记录介质中，诸如软盘、CD-ROM(光盘只读存储器)、MO(磁光)盘、DVD(数字多功能盘)、磁盘、或半导体存储器。可以把这样的可移动记录介质作为封装软件提供。

本发明已经参考具体实施例进行了详细说明。然而，很明显，在不背离本发明的精神的情况下，本领域技术人员能够对实施例执行更改和替换。换句话说，本发明用说明的形式公开，而不是被限制地解释。要判断本发明的要旨，应该考虑所附的权利要求。

Claims

1.一种图像对象分类方法，包括：

划分步骤，将图像对象划分为多个单元格；

概率分布计算步骤，计算所有单元格的概率分布；

复杂度度量计算步骤，根据所述概率分布计算复杂度度量；

分类步骤，根据计算的复杂度度量来确定图像对象的类别，

所述划分步骤包含如下步骤：

外接矩形提取步骤，提取图像对象中字符的外接矩形；

划分种子点确定步骤，确定所述外接矩形中的点作为划分种子点；

单元格划分步骤，根据划分种子点以及距离度量来将图像对象划分为多个单元格，

其中，所述概率分布计算步骤包括：

对于所划分的单元格，计算其形状和/或尺寸的规范化的直方图，根据该规范化的直方图来计算所有单元格的概率分布。

2.根据权利要求1的图像对象分类方法，其中，在所述复杂度度量计算步骤中，

所述概率分布为所划分的单元格的形状和/或尺寸的概率分布。

3.根据权利要求1的图像对象分类方法，其中，所述划分种子点为相应外接矩形的任意一个角点或中心。

4.根据权利要求1的图像对象分类方法，其中，在所述单元格划分步骤中，采用基于给定的划分种子点和欧氏距离的维诺划分，来将图像对象划分为多个单元格。

5.根据权利要求1的图像对象分类方法，其中，在计算关于形状的规范化的直方图的情况下，计算所有的划分单元格的边的方向的直方图。

6.根据权利要求1的图像对象分类方法，其中，在计算关于尺寸的规范化的直方图的情况下，计算所有的划分单元格的面积的直方图。

7.根据权利要求2的图像对象分类方法，其中，所述复杂度度量为单元格的所述概率分布的标准熵或衍生的熵。

8.根据权利要求7的图像对象分类方法，其中，在所述复杂度度量采用衍生的熵的情况下，所述衍生的熵为单元格的所述概率分布的相对于参考概率分布的相对熵。

9.根据权利要求8的图像对象分类方法，其中，所述参考概率分布为随机信号。

10.根据权利要求1的图像对象分类方法，其中，所述分类步骤采用分类器来进行分类，并且其中

通过建立训练图像对象集，其中每个图像对象的类别已知，计算每个图像对象的复杂度度量来构造所述分类器。

11.根据权利要求1的图像对象分类方法，其中，所述类别包括文字和表格。

12.一种图像对象分类装置，包括：

划分装置，将图像对象划分为多个单元格；

概率分布计算装置，计算所有单元格的概率分布；

复杂度度量计算装置，根据所述概率分布计算复杂度度量；

分类装置，根据计算的复杂度度量来确定图像对象的类别，

其中，所述划分装置包括：

外接矩形提取装置，提取图像对象中字符的外接矩形；

划分种子点确定装置，确定所述外接矩形中的点作为划分种子点；

单元格划分装置，跟据划分种子点以及距离度量来将图像对象划分为多个单元格，

其中，所述概率分布计算装置对于所划分的单元格，计算其形状和/或尺寸的规范化的直方图，根据该规范化的直方图来计算所有单元格的概率分布。

13.根据权利要求12的图像对象分类装置，其中，

14.根据权利要求12的图像对象分类装置，其中，

所述划分种子点为相应外接矩形的任意一个角点或中心。

15.根据权利要求12的图像对象分类装置，其中，

所述单元格划分装置采用基于给定的划分种子点和欧氏距离的维诺划分，来将图像对象划分为多个单元格。

16.根据权利要求12的图像对象分类装置，其中，在计算关于形状的规范化的直方图的情况下，计算所有的划分单元格的边的方向的直方图。

17.根据权利要求12的图像对象分类装置，其中，在计算关于尺寸的规范化的直方图的情况下，计算所有的划分单元格的面积的直方图。

18.根据权利要求13的图像对象分类装置，其中，

所述复杂度度量为单元格的所述概率分布的标准熵或衍生的熵。

19.根据权利要求18的图像对象分类装置，其中，

在所述复杂度度量采用衍生的熵的情况下，所述衍生的熵为单元格的所述概率分布的相对于参考概率分布的相对熵。

20.根据权利要求19的图像对象分类装置，其中，

所述参考概率分布为随机信号。

21.根据权利要求12的图像对象分类装置，其中，

所述分类装置采用分类器来进行分类，并且其中

22.根据权利要求12的图像对象分类装置，其中，

所述类别包括文字和表格。