CN104899586A

CN104899586A - 对图像中包含的文字内容进行识别方法及装置

Info

Publication number: CN104899586A
Application number: CN201410075157.0A
Authority: CN
Inventors: 陈宇; 张洪明; 茹新峰
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2014-03-03
Filing date: 2014-03-03
Publication date: 2015-09-09
Anticipated expiration: 2034-03-03
Also published as: CN104899586B

Abstract

本申请公开了对图像中包含的文字内容进行识别方法及装置，其中，所述方法包括：获得待分析的目标图像；对所述目标图像中的像素进行颜色识别；根据颜色相似性对像素进行分类；将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；在各个图像层内进行文本识别；输出文本识别结果。通过本申请，降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。

Description

对图像中包含的文字内容进行识别方法及装置

技术领域

本申请涉及文本识别技术领域，特别是涉及对图像中包含的文字内容进行识别方法及装置。

背景技术

随着科技的发展，图像在信息传播方面起到极大的作用。为了更好地起到宣传等作用，越来越多的图像中被添加入文字。例如，在电子商务交易平台中，卖家用户抓住图像信息比文本信息更直观，更容易快速吸引买家的注意力，而文字信息更具体更详细的特点，把介绍商品的文字放在商品图中。从而产生了越来越多的对这类图像内文字进行自动分析的需求。自动分析的任务包括：分析图像中是否被添加文字、添加了多少的文字、文字在图像里的位置、图像中文字的内容等。这些都依赖于对图像中的文字进行准确定位。

目前绝大多数文字定位技术通常只适用于规则的文本图像。其技术实现流程一般如下：首先根据对文本图像中较为规则的颜色（文字颜色与背景色），文字栏之间规则的间隙等信息进行版面分析，如定位图像中版面样式（如单栏，或双栏版面）；然后根据对文字行间的规则间隙对文字行进行定位；最后根据同行文字内规则的文字间隙大小和对文字连通域的分析对文字逐个进行定位。

但是，在实际应用场景的图像中，存在复杂多样的图像内容，商品图像或很多自然图像中的文字，通常受到不规则的图像背景内容的影响，这些背景包含多种图像内容并通过复杂多样的颜色呈现。所以，不同于普通文本图像中的文字可以通过对较为规则的颜色信息（如白纸黑字）的分析进行精确定位，图像中的文字定位受到复杂背景内容的干扰。

现有技术中最常用的针对图像中的文字侦测技术是基于SWT（StrokeWidth Transform，笔画宽度变换）技术对图像文字进行侦测。该方法的主要思想是基于文字笔画的宽度一致的假设，即文字笔画的宽度在某一字符内保持基本一致。但是，在实际图像里，因为图像内容的复杂，很难做到对文字边缘的准确检测。同时SWT的方法对于图像中与笔画相似的景物（如树枝，条状纹理等）会产生难以避免的误检。

因此，如何提高对图像中包含的文字内容进行识别的准确度，就成为迫切需要本领域技术人员解决的技术问题。

发明内容

本申请提供了对图像中包含的文字内容进行识别方法及装置，降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。

本申请提供了如下方案：

一种对图像中包含的文字内容进行识别方法，包括：

获得待分析的目标图像；

对所述目标图像中的像素进行颜色识别；

根据颜色相似性对像素进行分类；

将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；

在各个图像层内进行文本识别；

输出文本识别结果。

一种对图像中包含的文字内容进行识别装置，包括：

图像获得单元，用于获得待分析的目标图像；

颜色识别单元，用于对所述目标图像中的像素进行颜色识别；

像素分类单元，用于根据颜色相似性对像素进行分类；

图像拆分单元，用于将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；

文本识别单元，用于在各个图像层内进行文本识别；

结果合并单元，用于输出文本识别结果。

根据本申请提供的具体实施例，本申请公开了以下技术效果：

通过本申请实施例，把目标图像里颜色不相近的像素点分层展现，在颜色分类后，每一图像层显示颜色相近的图像内容，屏蔽其它颜色内容，避免了对原始图像颜色的改动，而在同一图像层内进行文字侦测时，由于图像层内包含的颜色被简化，同一区域的文字在字间距、行间距、字符大小上体现的规律被明显的体现出来，因此降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。并且本申请实施例的方法不依赖边缘检测和经验参数，所以对于图像，特别是有宣传性的商品图像上的文字检测，具有通用性和鲁棒性。

当然，实施本申请的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的方法的流程图；

图2-1是本申请实施例中原始输入的目标图像的示意图；

图2-2、2-3是本申请实施例中对图2-1所示的图像进行拆分后得到的图像层示意图；

图3是本申请实施例提供的装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例中，考虑到一些图像中的文字定位之所以会比较复杂，主要是由于背景图片的干扰过于严重造成的，然而，另一方面，在这种图像中，特别是具有宣传或描述性文字的商品图中，为了能让观众关注到，文字大多醒目，所以虽然一张图中可能会出现不同颜色和位置的文字，但是绝大部分文字在颜色上与其相应背景有比较大的差距，同时同一区域的文字（例如，位于图像一角，一端的位置接近的文字）的颜色一般保持一致。因此，提供的技术方案是，通过对图像颜色的分析，将图像颜色进行分层过滤，从而自动使普通图像里文字的背景内容被最大程度地减少甚至屏蔽，并且每一层保留的图像内容与原始图像的相同位置上的内容是一样的，然后再进行分层的文字识别，最终可以通过融合各层的识别结果，得到对整个图像的文字识别结果。

换言之，经过本申请实施例的颜色分层过滤，在每一颜色层所在的图像上，同一区域内的文字部分因为颜色相近会同时呈现，同时颜色相差较大的其它图像内容会被极大的减除。而同一区域的文字（例如，在图像一角，一端的文字行，列区域）一般有比较规则的字间距、行间距、字符大小等规律，因此，这种将同一区域内颜色相近文字同时呈现的方式，可以使得每一颜色层上呈现的文字会有相对规则的排版布局。因此，这种方式使处理图像里文字信息变得更加准确可靠，使得图像特别是商品图像里的文字信息可以被自动提取和分析，进而补充了一种重要的获取商品信息、描述信息和宣传信息的途径。从技术实现的角度讲，本申请实施例提供的技术方案包括两个阶段，第一个阶段是按照图像颜色进行图层分离，第二个阶段是颜色分层过滤后的文字定位。下面对具体的实现方式进行详细地介绍。

参见图1，本申请实施例首先提供了一种对图像中包含的文字内容进行识别方法，该方法可以包括以下步骤：

S101：获得待分析的目标图像；

具体实现时，输入的目标图像可以是任意格式（包括但不限于JPG、PNG、TIF、BMP等）、任意大小的彩色图像。在这些图像中，对于含有后期添加的有广告/宣传性文字的图像的文字定位有更好的效果，这些图像包括电子商务交易平台网站上的商品主图、细节图、画报封面图、广告图等等。图像的获得方式可以是从相关的电子商务网站中获得，也可以是手机或照相机等具有拍照功能的终端设备拍照获得，等等。

在实际应用中，获得了目标图像之后，还可以首先对图像进行降噪和/或大小调整。其中，图像降噪处理对某些噪音大的图像获得较好的结果。尺寸调整主要是对较大的图像进行缩小，以加快处理速度，例如，对照相机或手机拍摄得的大尺寸图像（2000×3000）缩小到较小的尺寸例如（400×600），之后再进行后续的处理。其中，具体如何对图像进行降噪处理，以及大小调整，可以参照已有技术中的实现方式，这里不再详述。

S102：对所述目标图像中的像素进行颜色识别；

在获得了目标图像之后，就可以进入前述的第一个阶段，也即，按照图像颜色进行图层分离，而进行图层分离的第一步就是要先识别出目标文本图像中各个像素的颜色。具体的，颜色描述可以是多种颜色空间中的一种，这些颜色空间包括但不限于RGB（红绿蓝三原色）、YcrCb（即YUV，Y表示亮度，U、V表示色度）、CMYK（作印刷色彩模式，包括青色Cyan、品红色Magenta、黄色Yellow、只使用黑墨的印刷版Key Plate）、HSV（色调Hue,饱和度Saturation,亮度Value）、LAB（L表示亮度，a和b表示颜色对立维度）、CIELAB（重定向自LAB）等。

S103：根据颜色相似性对像素进行分类；

对目标图像中的像素点根据颜色分类，就是根据选定的颜色空间和维度，把相似的颜色分为一类。其中，所用的分类方法可以是K均值(Kmeans)聚类、K均值聚类的其他改进或变形版本，以及其它数据聚类方法和分类方法，均可使用，这里不进行限定。

S104：将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；

图层分离过程中，通过对图像的所有像素根据颜色进行分类，之后就可以根据颜色分类的结果，将图像分层为多个图像层，每个图像层相当于是原始图像的一个子图像，每个子图像中呈现该层子图像的特定颜色类所对应的像素；其它像素则可以用某种特定颜色给出。关于其他像素使用的颜色，可以通过多种方式来确定，例如，最简单的，可以是任选的一种与当前需呈现的像素颜色反差比较大的颜色。或者，关于其他像素使用的颜色，还可以根据原始目标图像的整体主色调而定。具体的，可以在分别识别出各个像素的颜色之后，将包含像素数量最多的颜色分类确定为背景的主色调，进而在生成各个图像层时，除了该图像层内主要需要呈现的颜色的像素之外，其他像素就可以显示为该主色调对应的颜色。例如，参见图2-1所示，其为一张原始输入的目标图像。其中，图像的背景是一个手机的图片，包含的文字有“1699”、“抢！！！”、“大陆行货”、“全新未拆封”、“全国联保”、“国行8g7月产”、“送12大礼包”、“返现100元”、“现货抢购”。其中，“1699”的字体颜色为红色，“抢！！！”、“大陆行货”、“国行8g7月产”、“现货抢购”的字体颜色为黄色，“全新未拆封”、“全国联保”、、“送12大礼包”、“返现100元”的颜色为白色，整幅图像背景的主色调为黑色。这样，假设在其中一个图像层中，需要显示红色类别的所有像素，则就可以将归类到红色的像素点在其所在的位置出呈现出来，其他像素显示为黑色，最终该图像层显示的结果如图2-2所示。可见，其中除了包含“1699”字样外，还显示有其他的图像，这是因为，在原来的原始图像中，该图样对应的像素点的颜色也被归类到红色类别中。类似的，在另一个图像层中，需要显示白色类别的所有像素，则显示的效果如图2-3所示。可见，每个图像层中显示的内容都被大大简化了，在基于这种被简化后的图像进行文字定位识别时，会更容易，并且出错的概率也被降低。

需要说明的是，由于原始输入的目标图像中包含的像素点的颜色可能会非常丰富，这样在对像素的颜色进行分类时，可能会划分出非常多的类别，同时对应着非常多个图像层，这样在分别对各个图像层进行文字侦测，工作量会非常大。并且，其中有部分图像层中可能根本就不包含文字，对其进行文字侦测的结果也是未检测到文字，因此，会存在计算资源浪费的情况。

为此，在本申请实施例中，可以采用两种方式来节省计算资源，提高侦测的速度。

其中一种方式下，可以是在得到各个图像层之后，首先将一些明显不包含文字内容的图像层过滤掉，仅对剩余的图像层进行文字侦测，这样，就会降低文字侦测的工作量，节省计算资源。其中，在对明显不包含文字内容的图像层进行识别时，可以有多种方式，例如，其中一种方式可以是先对图像进行边缘检测，然后对图像中边缘点的连通域的大小，以及在图像中分布的情况进行判断。这里连通域是指连续的边缘点所围成的图像局部区域。如果对于找不到连通域，或者连通域范围过大或过小，或者连通域的排列没有规律（例如，不成行，或不成列），则不对该图像层进行文字侦测。使用图像层过滤后，可以去除不可能出现文字的图层，从而加快文字侦测的速度。

另一种实现方式下，也是在生成具体的图像层之前，通过某种方式预测出该目标图像中包含的文字内容的颜色是什么颜色的，这样，可以仅将原始输入图像中该颜色所属类别的像素点提取出来，生成像素层。例如，对于图2-1中的原始输入图像，如果在拆分图像层之前，可以预测出该图像中包含的字体颜色只有三种，分别为红色、白色以及黄色，则在在拆分图像层时，就可以仅生成红色所属类别的像素点组成的图像层，黄色所属类别的像素点组成的图像层，以及白色所属类别的像素点组成的图像层。这样，后续仅需要对这三个图像层进行文字侦测即可，而对于其他颜色类别的像素则可以不再进行分析侦测工作。通过这些方法，从而减少生成的图层数目，加速处理速度。其中，对文字颜色进行预测可以根据SWT或者OCR（Optical Character Recognition，光学字符识别）结果的信心值或者经验信息等方法来获得。

S105：在各个图像层内进行文本识别；

在将原始输入的图像拆分成多个图像层之后，就可以分别在各个图像层内进行文本识别。其中，由于对于每一张图像层而言内容被过滤过，每层图像上显示的内容会被最大程度的简化，从而使得图像中的文字比较容易被定位，一般的传统文字侦测算法都可以获得比较不错的侦测结果。

例如，其中一种文字侦测方法就是SWT（Stroke Width Transform，笔画宽度变换），在同一图像层中，可以先对图像进行边缘检测。然后对每一张输入图像进行水平投影找出文字行，即对于图像中的每一像素行(水平方向)，查找边缘点，对于经过文字行的像素行，边缘点会比较多，对于不经过文字行的区域，边缘点会比少。如果疑似经过文字行的像素行是连续的，则可以根据含有较多边缘点的连续像素行的数目估计文字行的高度。文字行高度在设定阈值内的可以认为是候选文字行。对于文字行，可以对该预测文字行图像带进行垂直投射，例如，从上至下找垂直方向上像素列含有边缘点的数量。在候选文字行里，像素列经过文字所在的区域会包含比较多边缘点，经过文字中的间隙会包含比较少的边缘点。文字的宽度可以根据含有较多边缘点的连续像素列的数目确定文字的宽度。根据文字宽度，以及文字行内文字出现的规律可以进一步判定文字行与文字的定位。最终，文字的宽度和高度以及位置就确定了。

另外一种可以使用的文字侦测技术是基于分类器的方法，该种方法可以是先对图像文字区域粗略定位，用阈值分割方法和数学形态学中膨胀、腐蚀技术对连通域进行分析，文字行进行分割后并通过剔除规则定位候选文字区域。然后采用harr特征训练adaboost分类器，利用adaboost分类器检测候选文字区域内是否有文字。

此外，基于特征匹配的方法、或者基于连通域的方法等文字侦测方法，均可以达到良好的检测效果，这里不再详述。

S106：输出文本识别结果。

由于本申请实施例将每张原始输入的图像分层显示为多张图像层，因此，在输出文本识别结果时，还可以对生成的多张图像层的文字定位结果进行合并，然后输出。具体在进行合并时，还可以根据检测出的文字在图像层中的位置信息，将识别出的文本按照从上到下、从左到右等顺序进行排序，这样，可以使得最终得到的识别结果更接近文字内容在图像中的显示情况。关于输出的文本识别结果，可以是从各个图像层中识别出的文本内容的相关信息（包括添加了多少的文字、文字在图像里的位置、图像中文字的具体内容等），或者，在其他实施例中，也可以输出除了文本内容之外的内容信息（例如，将识别出的文本内容对应的像素除掉，或者进行其他处理，保留文本内容之外的其他图像内容）。也就是说，在实际应用中，对图像中包含的文字内容进行识别的目的，可能是从图像中提取出文本内容，还可能是将图像中的文字内容清除，保留其中的非文本内容，本申请实施例对于上述各种目的都可以实现。

总之，通过本申请实施例，把目标图像里颜色不相近的像素点分层展现，在颜色分类后，每一图像层显示颜色相近的图像内容，屏蔽其它颜色内容；这样避免了对原始图像颜色的改动，而在同一图像层内进行文字侦测时，由于图像层内包含的颜色被简化，同一区域的文字在字间距、行间距、字符大小上体现的规律被明显的体现出来，因此降低了文字侦测的难度，使处理图像里文字信息变的更加准确可靠。并且本申请实施例的方法不依赖边缘检测和经验参数，所以对于图像，特别是有宣传性的商品图像上的文字检测，具有通用性和鲁棒性。

与本申请实施例提供的对图像中包含的文字内容进行识别方法相对应，本申请实施例还提供了一种对图像中包含的文字内容进行识别装置，参见图3，该装置可以包括：

图像获得单元301，用于获得待分析的目标图像；

颜色识别单元302，用于对所述目标图像中的像素进行颜色识别；

像素分类单元303，用于根据颜色相似性对像素进行分类；

图像拆分单元304，用于将所述目标图像拆分为多个不同的图像层，其中，同一图像层用于呈现同一颜色类别的像素；

文本识别单元305，用于在各个图像层内进行文本识别；

结果输出单元306，用于输出文本识别结果。

其中，在将目标图像拆分成多个不同的图像层的过程中，可以保持同一图像层中呈现出的各个像素的位置与在原始目标图像中的位置相同，以便保证文本识别的准确性。

为了对于大噪声的图像获得更好的识别效果，或者提高识别的效率，该装置还可以包括：

图像处理单元，用于在对所述目标图像中的像素进行颜色识别之前，对所述目标图像进行降噪和/或尺寸调整。

为了降低文本识别阶段的工作量，该装置还可以包括：

识别单元，用于在分别在各个图像层内进行文本识别之前，识别明显不包含文本内容的图像层；

过滤单元，用于将所识别出的明显不包含文本内容的图像层过滤掉。

具体实现时，识别单元可以包括：

边缘检测子单元，用于对图像层进行边缘检测；

判断子单元，用于根据图像中边缘点的连通域的大小和/或在图像中分布的情况判断该图像层中是否包含文本内容。

或者，在另一种实现方式下，该装置还可以包括：

文字颜色预测单元，用于对所述目标图像中包含的文字的颜色进行预测；

所述图像拆分单元具体用于：

根据预测出的颜色所属类别的像素生成至少一个图像层。

在具体实现时，该装置还可以包括：

其他像素设置单元，用于在同一图像层内，将该图像层需呈现的像素之外的其他像素显示为同一指定颜色。

具体的，其他像素设置单元可以包括：

主颜色获取子单元，用于获取所述目标图像背景图像的主颜色；

显示子单元，用于将所述其他像素显示为所述主颜色。

其中，所述主颜色确定子单元具体可以包括：

类别像素数统计子单元，用于统计各个颜色类别中包含的像素总数；

确定子单元，用于根据包含像素总数最多的颜色类别，确定所述主颜色。

具体实现时，结果输出单元306具体可以用于各个图像层中的文本识别结果进行合并，得到所述目标图像的文本识别结果，并输出。

其中，结果输出单元306具体可以输出识别出的文本内容的相关信息，或者输出除了文本内容之外的其他内容的信息。

通过本申请实施例，把目标图像里颜色不相近的像素点分层展现，在颜色分类后，每一图像层显示颜色相近的图像内容，屏蔽其它颜色内容；这样避免了对原始图像颜色的改动，而在同一图像层内进行文字侦测时，由于图像层内包含的颜色被简化，同一区域的文字在字间距、行间距、字符大小上体现的规律被明显的体现出来，因此降低了文字侦测的难度，使处理图像里文字信息变得更加准确可靠。并且本申请实施例的方法不依赖边缘检测和经验参数，所以对于图像，特别是有宣传性的商品图像上的文字检测，具有通用性和鲁棒性。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或系统实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的系统及系统实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上对本申请所提供的对图像中包含的文字内容进行识别方法及装置，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种对图像中包含的文字内容进行识别方法，其特征在于，包括：

获得待分析的目标图像；

对所述目标图像中的像素进行颜色识别；

根据颜色相似性对像素进行分类；

在各个图像层内进行文本识别；

输出文本识别结果。

2.根据权利要求1所述的方法，其特征在于，同一图像层中呈现出的各个像素的位置与在原始目标图像中的位置相同。

3.根据权利要求1所述的方法，其特征在于，在各个图像层内进行文本识别之前，还包括：

识别明显不包含文本内容的图像层；

将所识别出的明显不包含文本内容的图像层过滤掉。

4.根据权利要求3所述的方法，其特征在于，所述识别明显不包含文本内容的图像层，包括：

对图像层进行边缘检测；

根据图像中边缘点的连通域的大小和/或在图像中分布的情况判断该图像层中是否包含文本内容。

5.根据权利要求1所述的方法，其特征在于，还包括：

对所述目标图像中包含的文字的颜色进行预测；

所述将所述目标图像拆分为多个不同的图像层，包括：

根据预测出的颜色所属类别的像素生成至少一个图像层。

6.根据权利要求1所述的方法，其特征在于，还包括：

在同一图像层内，将该图像层需呈现的像素之外的其他像素显示为同一指定颜色。

7.根据权利要求6所述的方法，其特征在于，所述将该图像层需呈现的像素之外的其他像素显示为同一指定颜色，包括：

获取所述目标图像背景图像的主颜色；

将所述其他像素显示为所述主颜色。

8.根据权利要求7所述的方法，其特征在于，所述获取所述目标图像背景图像的主颜色，包括：

统计各个颜色类别中包含的像素总数；

根据包含像素总数最多的颜色类别，确定所述主颜色。

9.根据权利要求1至8任一项所述的方法，其特征在于，所述输出文本识别结果，包括：

将各个图像层中的文本识别结果进行合并，得到所述目标图像的文本识别结果，并输出。

10.根据权利要求1至8任一项所述的方法，其特征在于，所述输出文本识别结果，包括：

输出识别出的文本内容的相关信息，或者输出除了文本内容之外的其他内容的信息。

11.一种对图像中包含的文字内容进行识别装置，其特征在于，包括：

图像获得单元，用于获得待分析的目标图像；

像素分类单元，用于根据颜色相似性对像素进行分类；

文本识别单元，用于在各个图像层内进行文本识别；

结果输出单元，用于输出文本识别结果。