CN103383732B

CN103383732B - 图像处理方法和装置

Info

Publication number: CN103383732B
Application number: CN201210137925.1A
Authority: CN
Inventors: 孙俊; 潘屹峰; 直井聪
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2012-05-04
Filing date: 2012-05-04
Publication date: 2016-12-14
Anticipated expiration: 2032-05-04
Also published as: US9082181B2; EP2660753A2; US20130294696A1; JP6075190B2; CN103383732A; EP2660753A3; EP2660753B1; JP2013235581A

Abstract

提供了一种图像处理方法和装置。该方法包括：生成图像的第一尺度二值图，第一尺度小于图像原始尺度；基于第一尺度的二值图检测图像中的至少一个文本行；生成图像的第二尺度二值图，其中第二尺度大于第一尺度；针对每个文本行，计算第一尺度二值图中相应部分与第二尺度二值图中相应部分间的相似度，并将相似度低于预定水平的文本行作为噪声去除；针对未去除的文本行中的一个或更多个，对第二尺度的二值图中的相应部分进行OCR以确定相应文本行的文字取向；以及根据所确定的文字取向确定图像的取向。检测文本行的步骤包括检测水平文本行和竖直文本行，在其重叠的情况下检测重叠区域的文本块取向，并将与文本块取向不一致的文本行作为噪声去除。

Description

图像处理方法和装置

技术领域

本发明一般涉及图像处理，更具体地，涉及用于识别文档图像的取向的方法和装置。

背景技术

在对文档图像(诸如扫描页面)进行处理时，由于例如通过扫描仪、照相机等图像输入设备获取的文档图像有可能相对于其实际取向发生了旋转(例如，旋转了90°、180°、270°)，因此需要对文档图像进行取向识别。下列文献提供了文档图像取向识别的方法的示例：

Ranjith Unnikrishnan,“Combined Script and Page Orientation Estimationusing the Tesseract OCR engine”,ICDAR2009；

万鑫，“文本图像的校正方法”，CN 101833648 A；

Zhigang Fan,“Page orientation detection based on selective characterrecognition”，US 2009/0274392 A1。

发明内容

传统的方法所针对的对象主要是比较标准的文档图像，但如果待处理的文档图像是图文混杂，或者以图像为主的话，上面所列举的这些方法的处理效果就不佳了。

本发明提供一种对文档图像进行取向识别方法和装置，其能够快速地以高准确度判断整个文档图像的取向。

根据本发明的一个实施例，一种图像处理方法包括步骤：生成图像的第一尺度的二值图，其中第一尺度小于图像的原始尺度；基于第一尺度的二值图，检测图像中的至少一个文本行；生成图像的第二尺度的二值图，其中第二尺度大于第一尺度；针对每个文本行，计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度，并将相似度低于预定水平的文本行作为噪声去除；针对未被去除的文本行中的一个或更多个，对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向；以及根据所确定的文字取向确定图像的取向。基于第一尺度的二值图检测文本行的步骤包括：基于第一尺度的二值图，检测水平文本行和竖直文本行；以及在检测到的水平文本行和竖直文本行重叠的情况下，基于第一尺度的二值图检测重叠区域的文本块取向，并将与文本块取向不一致的文本行作为噪声去除。

根据本发明的另一个实施例，一种图像处理装置包括：第一尺度二值图生成部分，被配置为生成图像的第一尺度的二值图，其中第一尺度小于图像的原始尺度；文本行检测部分，被配置为基于第一尺度的二值图，检测图像中的至少一个文本行；第二尺度二值图生成部分，被配置为生成图像的第二尺度的二值图，其中第二尺度大于第一尺度；噪声去除部分，被配置为针对每个文本行，计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度，并将相似度低于预定水平的文本行作为噪声去除；光学字符识别部分，被配置为对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向；以及图像取向确定部分，被配置为根据所确定的文字取向确定图像的取向。文本行检测部分被配置为：基于第一尺度的二值图，检测水平文本行和竖直文本行；以及在检测到的水平文本行和竖直文本行重叠的情况下，基于第一尺度的二值图检测重叠区域的文本块取向，并将与文本块取向不一致的文本行作为噪声去除。

附图说明

参照以下结合附图对本发明实施例的说明，会更加容易地理解本发明的以上和其它目的、特点和优点。为了避免因不必要的细节而模糊了本发明，在附图中仅示出了与根据本发明的方案密切相关的装置结构和/或处理步骤，而省略了与本发明关系不大的其它细节。

图1是图解根据本发明实施例的图像处理方法的流程图；

图2a和图2b是示出文本行检测的示例的示意图；

图3a至图3c是示出在水平文本行和竖直文本行重叠的情况下，基于重叠部分的文本块的取向确定噪声文本行的示例的示意图；

图4a和图4b是分别示出利用基于二值图的像素投影和笔画投影来识别噪声文本行的示例的示意图；

图5是示出基于第一尺度二值图和第二尺度二值图的比较来确定噪声文本行的示例的示意图；

图6是图解根据本发明实施例的图像处理装置的配置示例的框图；以及

图7是示出实现本发明的方法和装置的计算机的示例性结构的框图。

具体实施方式

下面参照附图说明本发明的实施例。应当注意，为了清楚的目的，附图和说明中省略了与本发明无关的、本领域普通技术人员已知的部件和处理的表示和描述。

下面参照图1的流程图说明根据本发明实施例的图像处理方法的处理过程。

在步骤S110，生成图像的第一尺度的二值图，其中第一尺度小于图像的原始尺度。

这里，图像的尺度是指以像素为单位的图像尺寸，其中，大尺度对应于高分辨率，小尺度对应于低分辨率。可以通过对处理目标图像的灰度图像进行下采样和二值化来生成第一尺度二值图。其中，可以采用多种方式对图像进行下采样，例如，可以将图像缩小为其原尺度的1/N，或者将图像缩小到某个指定的尺度。另外，可以采用多种已有方法进行图像的二值化处理，例如：

Otsu方法(http://en.wikipedia.org/wiki/Otsu's_method)；或者

J.Sauvola,M.Pietikainen,“Adaptive document image binarization”,Pattern Recognition 33,2000,pp.225-236中所述的方法。

接下来，在步骤S120，基于第一尺度的二值图，检测图像中的至少一个文本行。

基于小尺度的二值图进行文本行检测的一个目的是提高文本行检测的速度。

可以采用本领域已知的多种方法基于二值图检测图像中的文本行。下面结合图2描述一种示例方式：

首先，通过连通部件(CC)分析找出二值图中的连通部件，可以利用连通部件的大小过滤掉一些明显不属于文字的连通部件。然后，基于经过滤的连通部件检测可能的水平文本行和竖直文本行。以检测水平文本行为例，如图2所示，可以选择某一连通部件作为初始连通部件，以初始连通部件的大小作为初始文本行的大小，分别向左和向右进行搜索。搜索的范围可以由当前文本行的高度决定，例如，搜索高度可以设置为初始连通部件的高度tl_h，搜索宽度可以设置为2×tl_h。如果在该搜索范围内存在目标连通部件，则比较该目标连通部件和当前文本行沿水平方向的投影的重合度(例如在图2b中，tl_h和cc_h沿水平方向的投影的重合部分的比例)，如果该重合度在预定的范围内，则将候选连通部件加入到当前文本行中，将文本行的范围进行更新，并继续向左或向右搜索，直到搜索范围内没有符合条件的连通部件为止。另外，竖直方向的文本行检测也可以通过类似方式实现。

应理解，本发明的方法和装置可采用的检测文本行的方式不限于上述具体方式，也可以采用本领域已知的其它方法，例如基于投影的方法、基于纹理的方法等。

另外，在基于第一尺度的二值图分别检测水平文本行和竖直文本行时，有可能出现这样的情况：某一区域内的联通部件既被检测为水平文本行的部分，又被检测为竖直文本行的部分，也就是说，检测出的某些水平文本行和竖直文本行彼此重叠。显然，在这种情况下，其中的一种文本行很可能是噪声文本行。

针对这种情况，根据本发明一个实施例的图像处理方法可以包括步骤：基于第一尺度的二值图检测重叠区域的文本块取向，并将与文本块取向不一致的文本行作为噪声去除。例如，如图3a至图3c所示，对于同一区域，分别通过水平文本行检测和竖直文本行检测得到了水平文本行H-1至H-4(如图3a所示)以及竖直文本行V-1和V-2(如图3b所示)，在这种情况下，可以利用已有的方法，例如基于投影的方法或者如CN102375988A中所述的方法来确定重叠区域(例如图3c所示)的文本块的取向(即，水平取向或竖直取向)，并将与该文本块的取向不一致的文本行作为噪声去除，在所示出的示例中，在确定图3c的文本块为水平取向的情况下，将图3b所示的竖直文本行V-1和V-2识别为噪声。

此外，除了上述水平文本行和竖直文本行重叠的情况之外，由于背景噪声等原因，还可能存在其它的噪声文本行。因此，根据本发明的一个实施例，基于第一尺度的二值图检测文本行的步骤还可以包括：基于第一尺度的二值图，利用基于纹理的方法和/或二值投影方法估计文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

其中，基于纹理的方法例如可以采用Xiangrong Chen,Alan L.Yuille:Detectingand Reading Text in Natural Scenes.CVPR(2)2004:366-373中所述的基于灰度图像的噪声文本去除方法，该方法利用灰度图像中的纹理特征来判断图像块中是文字还是背景噪声。另外，也可以采用其它方法，例如K.I.Kim,et,al."Texture-Based Approach for TextDetection in Images Using Support Vector Machines and Continuously AdaptiveMean Shift Algorithm",IEEE Transaction on Pattern Analysis and MachineIntelligence,v25,n12,2003,pp1631-1639或者Y.F.Pan,et,al."Text Localization inNatural Scene Images based on Conditional Random Field",InternationalConference on Document Analysis and Recognition,pp.6-10中所述的方法，基于纹理特征估计文本行的置信度。

另一方面，二值投影方法是基于二值图像进行的，该方法利用水平方向或竖直方向的像素投影和/或笔画投影来确定噪声文本行。图4a和图4b是分别示出利用基于二值图的像素投影和笔画投影来识别噪声文本行的示例的示意图。其中，图4a中所示的噪声文本行HF-1被错误地识别为单个文本行，而其实际上包含两行文字。在这种情况下，可以通过对文本行HF-1执行沿水平方向的黑像素投影，并根据黑像素分布特征(例如，对于HF-1，黑像素分布在其实际包含的两行文字之间会存在显著的波谷)来确定其是否为噪声文本行。另外，图4b中所示的噪声文本行HF-2被错误地识别为一个水平文本行，而其实际上包含多个竖直文本行，其中每个竖直文本行被错误地当成了单个文字。对于这种情况，可以利用沿竖直方向的笔画投影来统计平均的笔画个数，由于竖直文本行的笔画数量显著多于单个文字的笔画数量，因此可以根据由笔画投影得到的笔画数量去除由于文本行取向判断错误而产生的噪声文本行。

本领域技术人员能够明白，基于纹理的方法和/或二值投影方法确定噪声文本行的方式不限于以上所述的具体方式。

另外，为了进一步提高处理速度，可以不对检测出的全部文本行进行后续的处理，而是可以选取若干文本行作为候选文本行，并只对候选文本行进行后续处理。根据本发明的一个实施例，仅针对长宽比大于预定阈值的文本行中尺寸最大的N个文本行执行下面将要描述的基于第二尺度的二值图的步骤，其中N≥1。根据具体实施例，长宽比的阈值例如是3：1。另外，可以以水平文本行的高度或竖直文本行宽度作为文本行的尺寸。

下面，返回参照图1，在步骤S130，生成图像的第二尺度的二值图，其中第二尺度大于第一尺度。根据一个实施例，第二尺度是图像的原始尺度。生成第二尺度的二值图时所采用的二值化方法可以是与生成第一尺度二值图的方法相同或不同的方法。

另外，在生成第二尺度二值图之后，还可以基于第二尺度二值图对先前检测出的文本行进行进一步的去噪处理。类似地，基于第二尺度二值图的去噪处理也可以采用基于纹理的方法和/或二值投影方法。然而，由于基于纹理的方法需要较大计算量，为了进一步提高处理速度，对于第二尺度的二值图，可以只采用基于二值投影方法进行噪声文本行去除。因此，根据一个实施例，在生成第二尺度的二值图的步骤之后还可以包括步骤：基于第二尺度的二值图，利用二值投影方法估计所述文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

接下来，在步骤S140，针对每个文本行，计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度，并将相似度低于预定水平的文本行作为噪声去除。

该步骤主要基于对以下事实的认识：对于真正的文本行来说，小尺度和大尺度下的二值化结果具有较高的相似度，而对于噪声文本行来说，基于不同尺度、或者利用不同二值化方法得到的二值图像的区别通常较大。

例如，如图5所示，对于文本行而言，虽然其在第一尺度二值图和第二尺度二值图中的相应部分(例如图中所示的图中所示的文本行二值图1和文本行二值图2)的尺度不同，但其相似度(即形状匹配程度)较高。而对于背景图像部分而言，两个二值图中的相应部分(例如图中所示的背景二值图1和背景二值图2)之间的相似度较低。

因此，可以利用两个二值化结果的相似度来判断一个文本行是否是噪声文本行。

如本领域技术人员已知的，可以采用多种具体方式表征相似度，即形状匹配程度。例如，如以下参考文献所述：

K.Siddiqi,A.Shokoufandeh,"Shock graphs and shape matching",International Journal of Computer Vision,30,1,1999；

S.Belongie,J.Malik,J.Puzicha,"Shape context:a new descriptor forshape matching and object recognition",Neural Information Processing Systems(NISP),pp831-837,2000。

以下给出计算第一尺度的二值图与第二尺度的二值图中的相应部分之间的相似度，以及根据所计算的相似度确定相应文本行是否为噪声文本行的一个具体实施方式，当然，步骤S140的实施方式不限于此。

假设N_S代表第一尺度二值图中的黑像素点的个数，对于第一尺度二值图中的黑像素点中的每个，找到第二尺度二值图中的对应点，如果这个对应点也是黑像素，或者这个对应点的上下左右4个点中有一点是黑像素，那么在将计数器M_S的计数加1。其中，M_S代表第一尺度二值图的黑像素点中能够在第二尺度二值图中找到匹配点的点计数。

类似地，假设N_L代表第二尺度二值图中的黑像素点个数，对于第二尺度二值图中的黑像素点中的每个，找到第一尺度二值图中的对应点，如果这个点是黑像素，或者这个对应点的上下左右4个点中有一点是黑像素，那么在M_L这个计数器中增加1。M_L代表第二尺度二值图的黑像素点中能够在第一尺度二值图中找到匹配点的点计数。

如果M_S>r₁×N_S并且M_L>r₂×N_L，则相应文本行为真，否则将其作为噪声去除，其中例如r₁＝r₂＝0.9。

返回参考图1，在步骤S150，针对未被作为噪声去除的文本行中的一个或更多个，对第二尺度的二值图中的相应部分进行光学字符识别(OCR)以确定相应文本行的文字取向。

接下来，在步骤S160，根据所确定的文字取向确定图像的取向

为了提高处理速度，可以不根据所有文本行的文字取向，而仅根据部分文本行的文字取向确定整个图像的取向。另一方面，为了提高取向识别的准确度，应选取最有利于获得可靠的光学字符识别结果的文本行，并基于这些文本行的文字取向确定图像的取向。因此，根据一个实施例，在确定文字取向的步骤之前还包括步骤：基于第二尺度的二值图，根据以下因素中的一个或更多个确定文本行的优先级：文本行的尺寸；基于纹理确定的文本行置信度；以及文本行的灰度方差。其中：

文本行的尺寸可以是水平文本行的高度或竖直文本行的宽度。文本行的尺寸越大，越有利于光学字符识别，因此将尺寸较大的文本行赋予较高的优先级；

基于纹理确定的文本行置信度可以是如上所述作为去除噪声文本行的参考的利用基于纹理的方法估计的文本行置信度。该置信度通常是一个(-1，1)范围内的数，例如，该置信度越大代表越有可能是文本行，该置信度越小代表越有可能是背景噪声，因此将文本行置信度较高的文本行赋予较高的优先级；

文本行的灰度方差越大，意味着文本行中的字符的清晰程度越大，也就越有利于光学字符识别，因此将灰度方差较大的文本行赋予较高的优先级。

可以将这些要素中的一个或更多个通过相加或相乘等方式结合在一起，以综合地决定文本行的优先级。

从而，在确定文字取向的步骤中，可以按照所确定的优先级顺序依次确定文本行的文字取向。

另外，根据本发明的一个实施例，在根据文本行的文字取向确定图像的取向的步骤中，可以通过以下方式确定图像的取向：根据按照所确定的优先级的顺序依次确定的文字取向进行投票，并且当得票最多的取向的票数与得票第二多的取向的票数之差达到预定阈值时，将图像的取向确定为得票最多的取向，如果投票过程中未检测到票数之差达到该预定阈值，则将图像的取向确定为最终得票最多的取向。

例如，对于按照优先级排序的文本行，基于第二尺度二值图，对文本行图像旋转4个方向(0°，90°，180°，270°)后的图像分别进行光学字符识别。可以建立一个投票表，累计每个取向的投票数。对于每个文本行，将光学字符识别中的平均识别置信度最高的取向确定为该文本行的取向，并给对应取向投一票，将得票最多的取向识别为整个图像的取向。此外，为了进一步提高处理速度，可以实时监视票数最多的取向的票数和票数第二多的取向的票数的差值，当该差值大于预定数值(例如，2)时，可以不再进行后续的文本行识别，并将票数最多的取向确定为整个文档图像的取向识别的结果。如果根据所有文本行的取向进行了投票之后仍未检测到上述票数差值大于预定数值，则将最终得票最多的取向确定为整个文档图像的取向。

最后，在通过上述步骤没有检测到文本行的情况下，可以对图像进行反色处理，并进行同样的处理过程。

图6是图解根据本发明实施例的图像处理装置600的配置示例的框图。

图像处理装置600包括：第一尺度二值图生成部分610、文本行检测部分620、第二尺度二值图生成部分630、噪声去除部分640、光学字符识别部分650以及图像取向确定部分660。

第一尺度二值图生成部分610被配置为生成图像的第一尺度的二值图，其中第一尺度小于所述图像的原始尺度；

文本行检测部分620被配置为基于第一尺度的二值图，检测图像中的至少一个文本行；

第二尺度二值图生成部分630被配置为生成图像的第二尺度的二值图，其中第二尺度大于所述第一尺度；

噪声去除部分640被配置为针对每个文本行，计算第一尺度的二值图中的相应部分与第二尺度的二值图中的相应部分之间的相似度，并将相似度低于预定水平的文本行作为噪声去除；

光学字符识别部分650被配置为对第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向；

图像取向确定部分660被配置为根据文字取向确定所述图像的取向。

根据本发明的一个实施例，图像处理装置还包括优先级确定部分，被配置为基于第二尺度的二值图，根据以下因素中的一个或更多个确定文本行的优先级：

文本行的尺寸；

基于纹理确定的文本行置信度；以及

文本行的灰度方差，并且

光学字符识别部分按照所确定的优先级的顺序依次确定文本行的文字取向。

根据本发明的一个实施例，图像取向确定部分包括投票单元，被配置为根据光学字符识别部分依次确定的文字取向进行投票，并且图像取向确定部分被配置为当得票最多的取向的票数与得票第二多的取向的票数之差达到预定阈值时，将图像的取向确定为得票最多的取向，如果投票过程中未检测到票数之差达到预定阈值，则将图像的取向确定为最终得票最多的取向。

根据本发明的一个实施例，噪声去除部分还被配置为基于第一尺度的二值图，利用基于纹理的方法和/或二值投影方法估计文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

根据本发明的一个实施例，噪声去除部分还被配置为基于第二尺度的二值图，利用二值投影方法估计文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

根据本发明一个实施例的图像处理装置还包括文本行筛选部分，被配置为仅选取长宽比大于预定阈值的文本行中尺寸最大的N个文本行，并且图像处理装置仅针对文本行筛选部分选取的文本行执行与第二尺度的二值图有关的部分的处理。

根据本发明一个实施例的图像处理装置还包括文本块取向检测部分，被配置为在文本行检测部分检测到的水平文本行和竖直文本行重叠的情况下，基于第一尺度的二值图检测重叠区域的文本块取向，并且噪声去除部分还被配置为，将重叠的水平文本行和竖直文本行中与文本块取向不一致的文本行作为噪声去除。

利用根据本发明实施例的图像处理方法和装置，通过基于小尺度的二值图进行文本行检测，能够显著减小文本行检测所需的计算量，从而提高处理速度；另外，通过将小尺度二值图与大尺度二值图进行比较来去除噪声文本行，能够提高文本行检测的准确度，从而以更高的准确度识别整个文档图像的取向。

此外，通过按照优先级的顺序对所识别的文本行进行光学字符识别，并通过投票的方式根据文本行的取向确定图像的取向，能够在保证识别准确度的情况下进一步提高图像取向识别的速度。

所属技术领域的技术人员知道，本发明可以体现为装置、方法或计算机程序产品。因此，本发明可以具体实现为以下形式，即，可以是完全的硬件、完全的软件(包括固件、驻留软件、微代码等)、或者软件部分与硬件部分的组合。此外，本发明还可以采取体现在任何有形的表达介质中的计算机程序产品的形式，该介质中包含计算机可用的程序码。

可以使用一个或多个计算机可读介质的任何组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质，计算机可读存储介质例如可以是，但不限于，电的、磁的、光的、电磁的、红外线的、或半导体的系统、装置、器件或传播介质、或前述各项的任何适当的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或前述各项的任何适当的组合。在本文语境中，计算机可读存储介质可以是任何含有或存储供指令执行系统、装置或器件使用的或与指令执行系统、装置或器件相联系的程序的有形介质。

用于执行本发明的操作的计算机程序码，可以以一种或多种程序设计语言的任何组合来编写，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++之类，还包括常规的过程式程序设计语言—诸如”C”程序设计语言或类似的程序设计语言。程序码可以完全地在用户的计算机上执行、部分地在用户的计算机上执行、作为一个独立的软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户的计算机，或者，可以(例如利用因特网服务提供商来通过因特网)连接到外部计算机。

图7是示出实现本发明的设备和方法的计算机700的示例性结构的框图。

在图7中，中央处理单元(CPU)701根据只读存储器(ROM)702中存储的程序或从存储部分708加载到随机存取存储器(RAM)703的程序执行各种处理。在RAM 703中，也根据需要存储当CPU 701执行各种处理等等时所需的数据。

CPU 701、ROM 702和RAM 703经由总线704彼此连接。输入/输出接口705也连接到总线704。

下述部件连接到输入/输出接口705：输入部分706，包括键盘、鼠标等等；输出部分707，包括显示器，比如阴极射线管(CRT)、液晶显示器(LCD)等等，和扬声器等等；存储部分708，包括硬盘等等；和通信部分709，包括网络接口卡比如LAN卡、调制解调器等等。通信部分709经由网络比如因特网执行通信处理。

根据需要，驱动器710也连接到输入/输出接口705。可移除介质711比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器710上，使得从中读出的计算机程序根据需要被安装到存储部分708中。

在通过软件实现上述步骤和处理的情况下，从网络比如因特网或存储介质比如可移除介质711安装构成软件的程序。

本领域的技术人员应当理解，这种存储介质不局限于图7所示的其中存储有程序、与方法相分离地分发以向用户提供程序的可移除介质711。可移除介质711的例子包含磁盘、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD))和半导体存储器。或者，存储介质可以是ROM 702、存储部分708中包含的硬盘等等，其中存有程序，并且与包含它们的方法一起被分发给用户。

权利要求中的对应结构、操作以及所有功能性限定的装置或步骤的等同替换，旨在包括任何用于与在权利要求中具体指出的其它单元相组合地执行该功能的结构或操作。所给出的对本发明的描述其目的在于示意和描述，并非是穷尽性的，也并非是要把本发明限定到所表述的形式。对于所属技术领域的普通技术人员来说，在不偏离本发明范围和精神的情况下，显然可以作出许多修改和变型。对实施例的选择和说明，是为了最好地解释本发明的原理和实际应用，使所属技术领域的普通技术人员能够明了，本发明可以有适合所要的特定用途的具有各种改变的各种实施方式。

附记

附记1.一种图像处理方法，包括步骤：

生成图像的第一尺度的二值图，其中所述第一尺度小于所述图像的原始尺度；

基于所述第一尺度的二值图，检测所述图像中的至少一个文本行；

生成所述图像的第二尺度的二值图，其中所述第二尺度大于所述第一尺度；

针对每个所述文本行，计算所述第一尺度的二值图中的相应部分与所述第二尺度的二值图中的相应部分之间的相似度，并将所述相似度低于预定水平的文本行作为噪声去除；

针对未被去除的所述文本行中的一个或更多个，对所述第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向；以及

根据所述文字取向确定所述图像的取向。

附记2.如附记1所述的方法，在确定所述文字取向的步骤之前还包括步骤：基于所述第二尺度的二值图，根据以下因素中的一个或更多个确定所述文本行的优先级：

文本行的尺寸；

基于纹理确定的文本行置信度；以及

文本行的灰度方差，并且

在确定所述文字取向的步骤中，按照所述优先级的顺序依次确定所述文本行的文字取向。

附记3.如附记2所述的方法，在根据所述文字取向确定所述图像的取向的步骤中，通过以下方式确定所述图像的取向：

根据按照所述优先级的顺序依次确定的所述文字取向进行投票，并且

当得票最多的取向的票数与得票第二多的取向的票数之差达到预定阈值时，将所述图像的取向确定为所述得票最多的取向，如果投票过程中未检测到所述票数之差达到所述预定阈值，则将所述图像的取向确定为最终得票最多的取向。

附记4.如附记1所述的方法，其中，基于所述第一尺度的二值图检测文本行的步骤还包括：基于所述第一尺度的二值图，利用基于纹理的方法和/或二值投影方法估计所述文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

附记5.如附记1所述的方法，在生成所述第二尺度的二值图的步骤之后还包括步骤：

基于所述第二尺度的二值图，利用二值投影方法估计所述文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

附记6.如附记1-5中任一项所述的方法，其中，仅针对长宽比大于预定阈值的文本行中尺寸最大的N个文本行执行基于所述第二尺度的二值图的步骤，其中N≥1。

附记7.如附记1-5中任一项所述的方法，其中，基于所述第一尺度的二值图检测文本行的步骤包括：

基于所述第一尺度的二值图，检测水平文本行和竖直文本行；以及

在检测到的水平文本行和竖直文本行重叠的情况下，基于所述第一尺度的二值图检测重叠区域的文本块取向，并将与所述文本块取向不一致的文本行作为噪声去除。

附记8.一种图像处理装置，包括：

第一尺度二值图生成部分，被配置为生成图像的第一尺度的二值图，其中所述第一尺度小于所述图像的原始尺度；

文本行检测部分，被配置为基于所述第一尺度的二值图，检测所述图像中的至少一个文本行；

第二尺度二值图生成部分，被配置为生成所述图像的第二尺度的二值图，其中所述第二尺度大于所述第一尺度；

噪声去除部分，被配置为针对每个所述文本行，计算所述第一尺度的二值图中的相应部分与所述第二尺度的二值图中的相应部分之间的相似度，并将所述相似度低于预定水平的文本行作为噪声去除；

光学字符识别部分，被配置为针对未被去除的所述文本行中的一个或更多个，对所述第二尺度的二值图中的相应部分进行光学字符识别以确定相应文本行的文字取向；以及

图像取向确定部分，被配置为根据所述文字取向确定所述图像的取向。

附记9.如附记8所述的装置，还包括优先级确定部分，被配置为基于所述第二尺度的二值图，根据以下因素中的一个或更多个确定所述文本行的优先级：

文本行的尺寸；

基于纹理确定的文本行置信度；以及

文本行的灰度方差，并且

所述光学字符识别部分按照所述优先级的顺序依次确定所述文本行的文字取向。

附记10.如附记9所述的装置，其中，所述图像取向确定部分包括投票单元，被配置为根据所述光学字符识别部分依次确定的所述文字取向进行投票，并且

所述图像取向确定部分被配置为：当得票最多的取向的票数与得票第二多的取向的票数之差达到预定阈值时，将所述图像的取向确定为所述得票最多的取向，如果投票过程中未检测到所述票数之差达到所述预定阈值，则将所述图像的取向确定为最终得票最多的取向。

附记11.如附记8所述的装置，其中，所述噪声去除部分还被配置为基于所述第一尺度的二值图，利用基于纹理的方法和/或二值投影方法估计所述文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

附记12.如附记8所述的装置，其中，所述噪声去除部分还被配置为：

附记13.如附记8-12中任一项所述的装置，还包括文本行筛选部分，被配置为选取长宽比大于预定阈值的文本行中尺寸最大的N个文本行，其中N≥1，并且所述图像处理装置被配置为仅针对所述筛选部分选取的文本行执行基于所述第二尺度的二值图的处理。

附记14.如附记8-12中任一项所述的装置，还包括：

文本块取向检测部分，被配置为在所述文本行检测部分检测到的水平文本行和竖直文本行重叠的情况下，基于所述第一尺度的二值图检测重叠区域的文本块取向，并且

所述噪声去除部分还被配置为，将重叠的水平文本行和竖直文本行中与所述文本块取向不一致的文本行作为噪声去除。

Claims

1.一种图像处理方法，包括步骤：

根据所述文字取向确定所述图像的取向，

其中，基于所述第一尺度的二值图检测文本行的步骤包括：

2.如权利要求1所述的方法，在确定所述文字取向的步骤之前还包括步骤：基于所述第二尺度的二值图，根据以下因素中的一个或更多个确定所述文本行的优先级：

文本行的尺寸；

基于纹理确定的文本行置信度；以及

文本行的灰度方差，并且

3.如权利要求2所述的方法，在根据所述文字取向确定所述图像的取向的步骤中，通过以下方式确定所述图像的取向：

4.如权利要求1所述的方法，其中，基于所述第一尺度的二值图检测文本行的步骤还包括：基于所述第一尺度的二值图，利用基于纹理的方法和/或二值投影方法估计所述文本行的置信度，并将置信度低于预定水平的文本行作为噪声去除。

5.如权利要求1所述的方法，在生成所述第二尺度的二值图的步骤之后还包括步骤：

6.如权利要求1-5中任一项所述的方法，其中，仅针对长宽比大于预定阈值的文本行中尺寸最大的N个文本行执行基于所述第二尺度的二值图的步骤，其中N≥1。

7.一种图像处理装置，包括：

图像取向确定部分，被配置为根据所述文字取向确定所述图像的取向，

其中，所述文本行检测部分被配置为：

8.如权利要求7所述的装置，还包括优先级确定部分，被配置为基于所述第二尺度的二值图，根据以下因素中的一个或更多个确定所述文本行的优先级：

文本行的尺寸；

基于纹理确定的文本行置信度；以及

文本行的灰度方差，并且

9.如权利要求8所述的装置，其中，所述图像取向确定部分包括投票单元，被配置为根据所述光学字符识别部分依次确定的所述文字取向进行投票，并且