CN106845473B - 用于确定图像是否为带地址信息的图像的方法和装置 - Google Patents
用于确定图像是否为带地址信息的图像的方法和装置 Download PDFInfo
- Publication number
- CN106845473B CN106845473B CN201510882749.8A CN201510882749A CN106845473B CN 106845473 B CN106845473 B CN 106845473B CN 201510882749 A CN201510882749 A CN 201510882749A CN 106845473 B CN106845473 B CN 106845473B
- Authority
- CN
- China
- Prior art keywords
- image
- address information
- text
- original image
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种确定图像是否为带地址信息的图像的方法和装置。该方法包括:对原始图像进行二值化得到二值化图像并提取二值化图像中的连通部件;对连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;对新的二值化图像进行行投影得到多个行;根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定原始图像是否为带地址信息的图像;如果未将原始图像确定为不带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定原始图像是否为带地址信息的图像。
Description
技术领域
本发明涉及图像处理领域,更具体地涉及一种用于确定图像是否为带地址信息的图像的方法和装置。
背景技术
针对现在的一些网络应用,例如地图导航等,用户可以方便地使用网页中的目标地点的地址。然而,基于安全考虑,地址通常被包括在图片中。
因为网页含有多幅图片,因此利用传统OCR(Optical Character Recognition,光学字符识别)方法进行文本检测定位和识别过程常常非常耗时,对网络应用造成了巨大负担。
期望能够提供一种能够快速有效地对网页图像进行文本类和非文本类进行分类的方法和装置。
发明内容
在下文中给出关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
本发明的一个主要目的在于,提供了一种确定图像是否为带地址信息的图像的方法,包括:对原始图像进行二值化得到二值化图像并提取二值化图像中的连通部件;对连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;对新的二值化图像进行行投影得到多个行;根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定原始图像是否为带地址信息的图像;如果未将原始图像确定为不带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定原始图像是否为带地址信息的图像。
根据本发明的一个方面,提供一种确定图像是否为带地址信息的图像的装置,包括:预处理单元,被配置为对原始图像进行二值化得到二值化图像并提取二值化图像中的连通部件;滤噪及融合单元,被配置为对连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;行投影单元,被配置为对新的二值化图像进行行投影得到多个行;地址图像确定单元,被配置为:根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定原始图像是否为带地址信息的图像;如果确定原始图像是带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定原始图像是否为带地址信息的图像。
另外,本发明的实施例还提供了用于实现上述方法的计算机程序。
此外,本发明的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。
通过以下结合附图对本发明的最佳实施例的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
参照下面结合附图对本发明实施例的说明,会更加容易地理解本发明的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。
图1A-图1B示出了网络中不同类型的图片的例子;
图2示出了根据本发明的一个实施例的用于确定图像是否为带地址信息的图像的方法200的示例性过程的流程图;
图3示出了一个cc连接;
图4A至图4C示出了不同类型的连通部件;
图5示出了cc边界像素的滤除效果;
图6A-6C示出了基于颜色来确定图像是否为带地址信息的图像的一个示例;
图7是示出根据本发明的一个实施例的用于确定图像是否为带地址信息的图像的装置700的示例性配置的框图;
图8是示出图7中的地址图像确定单元708的一种示例性配置的框图;
图9是示出可以用于实施本发明的用于确定图像是否为带地址信息的图像的方法和装置的计算设备的示例性结构图。
具体实施方式
在下文中将结合附图对本发明的示范性实施例进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施例的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,在附图中仅仅示出了与根据本发明的方案密切相关的设备结构和/或处理步骤,而省略了与本发明关系不大的其他细节。
本发明提出了一种快速地对网页图像进行文本类和非文本类进行分类的方法,再基于此,确定图像是否为带地址信息的图像。
在本发明的方法中,基于应用,提出处理的目标类型如下:背景颜色单一;不同行间的文本颜色可能不同。如图1A示出了较为常用的一类图片,其被归为本发明的目标图片,即被确定为带有地址信息的图像,而图1B示出了不常用的类型的图片,本发明对这些图片暂不处理。
针对上述目标,本文提出了一种图像分类算法:首先,进行预处理,如二值化和cc(连通部件)提取,然后滤噪后建立新的二值化图;其次,利用行投影对文本行进行聚类;再次,在每行中对cc进行重新排列校验;最终输出图像的标签:带地址信息或不带地址信息的图像。
和传统方法相比,本方法具有如下优势:
1、按行对cc进行排列,并重组合;
2、多种特征被采用:如连接线的特征,每组cc之间的颜色差异等;
3、利用一种新的抗噪方法对cc边缘的色散像素进行滤除,保留cc主要颜色,基于此提出一种新的颜色相似度度量方法。
下面结合附图详细说明根据本发明的实施例的用于确定图像是否为带地址信息的图像的方法和装置。下文中的描述按如下顺序进行:
1.用于确定图像是否为带地址信息的图像的方法
2.用于确定图像是否为带地址信息的图像的装置
3.用以实施本申请的方法和装置的计算设备
[1.用于确定图像是否为带地址信息的图像的方法]
图2示出了根据本发明的一个实施例的用于确定图像是否为带地址信息的图像的方法200的示例性过程的流程图。
首先,在步骤S202中,对原始图像进行预处理。具体地,对原始图像进行二值化得到二值化图像并提取二值化图像中的连通部件。
接着,在步骤S204中,对连通部件进行滤噪,并且对滤噪后的连通部件中的重叠的连通部件进行融合,建立新的二值化图像。
在一个示例中,对连通部件进行滤噪可以包括通过连通部件的几何性质来过滤边框cc、直线cc以及小尺寸cc等。
几何性质可以为:例如,连通部件的占空比、连通部件的面积以及连通部件的变化率。
连通部件的占空比为连通部件的像素数目与连通部件的面积之比。
连通部件的变化率R可以定义如下。
这里以x方向为例,先计算前景连通部件的x方向直方图H,令V=∑|H(i)–H(i+1)|>0,i∈{0,…,W-1},即,从连通部件的第1个像素开始,如果相邻的两个像素的直方图之差的绝对值大于0,则对其进行加和,直至第W个像素(W为连通部件的宽度),则变化率R=V/W。y方向的计算与x方向类似,在此不再赘述。根据边框cc、直线cc等的变化率特性,可以过滤掉边框cc、直线cc。
对滤噪后的连通部件中的重叠的连通部件进行融合具体为:如果两个连通部件具有重叠区域,则将其融合为单个连通部件,对此步骤进行迭代直到不存在重叠的连通部件。
基于滤噪后的连通部件可以建立新的二值化图像。
接着,在步骤S206中,对新的二值化图像进行行投影得到多个行。
因为包含地址信息的图像会包含直方图的波谷,因此可以检测图像的直方图是否存在波谷,如果存在波谷,则可以判断图像为可能的带地址信息的图像,否则将其滤除,不再进行处理。对于可能的带地址信息的图像,可以认为每个投影聚类为一行,则多个投影则代表多个行。
接下来,在多个行中,验证图像是否满足带地址信息的图像的特征。
在一个示例中,首先对多个行中的连通部件进行重排列。
具体地,对于每一行,检查一列中邻近的连通部件的高度的和是否小于一行的高度;如果是,则将这些连通部件进行融合;然后对融合之后的每一行的连通部件重新进行排列。
接着,按照以下各个步骤来验证行是否满足地址文本的特征。
步骤S208,根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行。步骤S208包括以下子步骤:
S2081.首先,连接邻近的连通部件。
S2082.根据连接线的倾斜度确定此连接线是否为文本行。如果倾斜度小于预定阈值,且连接的连通部件的个数大于该行中的连通部件的总数的预定比例,例如一半以上,则确定该行是文本行,否则不是文本行。如果原始图像中存在文本行,则继续执行下面的步骤S210,否则直接将此图像滤除,认为其为不带地址信息的图像。
图3示出了一个cc连接。其中,302示出了灰度图,304示出了行投影,306示出了提取的cc,308示出了cc连接。
步骤S210:根据每行中的连通部件的笔画宽度和颜色分布来确定原始图像是否为带地址信息的图像。
这里,首先需要将连通部件分类为文本连通部件(text cc)和非文本连通部件(non-text cc),而非文本连通部件又分为类文本连通部件(text-like cc)和不类文本连通部件(non-text-like cc)。
步骤S210包括以下子步骤:
S2101.对一行执行笔画宽度变换,来确定该行中的非文本连通部件和文本连通部件。
S2102.对于文本连通部件,计算其笔画宽度,如果一行中的文本连通部件的笔画宽度的种类超过预定种类,例如两种,则认为原始图像为不带地址信息的图像。
S2103.对于非文本连通部件,检查其颜色分布,如果该连通部件具有多于预定种类的颜色,例如大于一种颜色,则认为该连通部件为不类文本连通部件,否则为类文本连通部件。
S2104.如果存在不类文本连通部件,则可以确定原始图像为不带地址信息的图像,否则对下一行执行以上S2101-S2104的步骤。
图4A至图4C示出了上述不同类型的连通部件。如图4A中的图像具有相同的笔画宽度,则认为其是text cc;图4B中的图像具有两种不同的笔画宽度,则认为其是non-textcc;对于图4C中的上下两个图像都为non-text cc,由于上部的图像只有一种颜色,则认为其为text-like cc,而下部的图像有两种以上的颜色,则认为其为non-text-like cc。
如果在步骤S210中未将原始图像确定为不带地址信息的图像,则继续执行步骤S212。
步骤S212:根据每一行中的连通部件的H通道颜色来确定原始图像是否为带地址信息的图像。
在该步骤中,利用HSV图像中的H通道进行颜色相似度判断,可以将H通道划分为15个格子直方图(12种颜色加黑白灰三色),然后统计每个格子计数进行连通部件的颜色描述。具体地,步骤S212包括以下子步骤:
S2121.使用直方图统计每一行中的每个连通部件的H通道颜色,来确定每个连通部件的前L个主要颜色(即直方图中最多的L维),其中L为大于或等于2的预定整数。
由于背景的H通道颜色会影响连通部件的边界像素,优选地,可以计算背景的H通道颜色,然后对于连通部件的边界像素,删掉其中颜色更接近于背景的像素,也即用背景的H通道颜色擦除前景的连通部件中与背景邻近的、其H通道颜色与背景的H通道颜色接近的像素。图5示出了cc边界像素的滤除效果。图5中最右侧的图是对边界像素进行滤除之后的二进制图,可以看到在该图中图像的边界更加清晰。
然后,在子步骤S2122中,统计在一行中连通部件的颜色描述的数目。颜色描述的定义为:对于一行中的任意两个连通部件,如果它们具有K个相同的主要颜色,则认为它们具有相同的颜色描述,其中K为大于0且小于L的整数。
最后,在子步骤S2123中,如果在一行中的连通部件的颜色描述的数目多于预定数目,则确定原始图像为不带地址信息的图像。
下面的表一给出了一个颜色分布示例,在该示例中,定义如果两个连同部件至少有一个主要颜色一致,则可以认为二者的颜色相近,即,他们具有相同的颜色描述。当一行中的连通部件的颜色描述的数目多于2时认为原始图像为不带地址信息的图像。
CC索引 | 1 | 2 | 3 | 4 | 5 | 6 |
主颜色 | 色彩1 | 色彩2 | 色彩1 | 色彩4 | 色彩1 | .. |
次颜色 | 色彩2 | 色彩1 | 色彩3 | 色彩5 | 色彩4 | .. |
表一
在表1中,cc1、cc2和cc3为颜色相近的cc,而cc4与cc1、cc2、cc3颜色不相近,cc5包括色彩1和色彩4,与cc1、cc2和cc3以及cc4都颜色相近,因此这一行中共有两种颜色描述。可以认为原始图像为带地址信息的图像。
通过上述步骤,最后留下来的图像被认为是带地址信息的图像。
图6A-6C示出了基于颜色来确定图像是否为带地址信息的图像的一个示例。
图6A是原始图像,图6B中的图片是提取了其中的连通部件,并且在对该图片执行的步骤S208和步骤S210的处理中都未被确定为不带地址信息的图片,然后在步骤S212的处理中,确定其中的连通部件具有三种颜色描述,即图6C中由三个椭圆形分别圈出来的连通部件具有不同的颜色描述,因此,该图像被认为是不带地址信息的图像。
[2.用于确定图像是否为带地址信息的图像的装置]
图7是示出根据本发明的一个实施例的用于确定图像是否为带地址信息的图像的装置700的示例性配置的框图。
如图7所示,确定图像是否为带地址信息的图像的装置700包括预处理单元702、滤噪及融合单元704、行投影单元706和地址图像确定单元708。
其中,预处理单元702被配置为对原始图像进行二值化得到二值化图像并提取二值化图像中的连通部件。
滤噪及融合单元704被配置为对连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像。
行投影单元706被配置为对新的二值化图像进行行投影得到多个行。
地址图像确定单元708被配置为:根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定原始图像是否为带地址信息的图像;如果确定原始图像是带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定原始图像是否为带地址信息的图像。
其中,滤噪及融合单元704进一步被配置为:使用连通部件的占空比、连通部件的面积以及连通部件的变化率中的至少一项来过滤边框连通部件、直线连通部件以及小尺寸连通部件中的至少一项。
其中,滤噪及融合单元704进一步被配置为:如果两个连通部件具有重叠区域,则将其融合为单个连通部件;进行迭代直到不存在重叠的连通部件。
图8是示出图7中的地址图像确定单元708的一种示例性配置的框图。地址图像确定单元708包括:基于几何分布的确定子单元7082、基于笔画宽度的确定子单元7084和基于颜色的确定子单元7086。
其中,基于几何分布的确定子单元7082被配置为:连接邻近的连通部件;确定连接线的倾斜度是否小于预定阈值以及连接的连通部件的个数是否大于该行中的连通部件的总数的预定比例;如果是,则确定该行是文本行。
其中,基于笔画宽度的确定子单元7084被配置为:对一行执行笔画宽度变换,来确定该行中的非文本连通部件和文本连通部件;对于文本连通部件,计算其笔画宽度,如果一行中的文本连通部件的笔画宽度的种类大于N,则认为原始图像为不带地址信息的图像,其中N为第一预定整数;对于非文本连通部件,检查其颜色分布,如果该连通部件具有多于M种颜色,则认为该连通部件为不类文本连通部件,否则为类文本连通部件,其中,M为第二预定整数;如果存在不类文本连通部件,则确定原始图像为不带地址信息的图像,否则对下一行执行从执行笔画宽度变换开始的上述步骤。
其中,基于颜色的确定子单元7086被配置为:使用直方图统计每一行中的每个连通部件的H通道颜色,来确定每个连通部件的前L个主要颜色,其中L为大于或等于2的预定整数;统计在一行中连通部件的颜色描述的数目,其中对于一行中的任意两个连通部件,如果它们具有K个相同的主要颜色,则认为它们具有相同的颜色描述,其中K为大于0且小于L的整数;如果在一行中的连通部件的颜色描述的数目多于预定数目,则确定原始图像为不带地址信息的图像。
基于颜色的确定子单元7086进一步被配置为:计算原始图像的背景的H通道颜色;以及用背景的H通道颜色擦除前景的连通部件中与背景邻近的、其H通道颜色与背景的H通道颜色接近的像素。
其中,行投影单元706进一步被配置为:检测新的二值化图像的直方图是否存在波谷,如果不存在波谷,则确定原始图像为不带地址信息的图像,否则,认为每个投影聚类为一行。
其中,地址图像确定单元708进一步被配置为:对于每一行,检查一列中邻近的连通部件的高度的和是否小于一行的高度;如果是,则将这些连通部件进行融合;以及对融合之后的每一行的连通部件重新进行排列。
关于用于确定图像是否为带地址信息的图像的装置700的各个部分的操作和功能的细节可以参照结合图1-6描述的本发明的用于确定图像是否为带地址信息的图像的方法的实施例,这里不再详细描述。
在此需要说明的是,图7-8所示的装置及其组成单元的结构仅仅是示例性的,本领域技术人员可以根据需要对图7-8所示的结构框图进行修改。
本发明提出一种用于确定图像是否为带地址信息的图像的方法和装置。和传统方法相比,本方法具有如下优势:
1、按行对cc进行排列,并重组合;
2、多种特征被采用:如连接线的特征,每组cc之间的颜色差异等;
3、利用一种新的抗噪方法对cc边缘的色散像素进行滤除,保留cc主要颜色,基于此提出一种新的颜色相似度度量方法。
[3.用以实施本申请的方法和装置的计算设备]
以上结合具体实施例描述了本发明的基本原理,但是,需要指出的是,对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。
在通过软件和/或固件实现本发明的实施例的情况下,从存储介质或网络向具有专用硬件结构的计算机,例如图9所示的通用计算机900安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等等。
在图9中,中央处理单元(CPU)901根据只读存储器(ROM)902中存储的程序或从存储部分908加载到随机存取存储器(RAM)903的程序执行各种处理。在RAM 903中,也根据需要存储当CPU 901执行各种处理等等时所需的数据。CPU 901、ROM 902和RAM 903经由总线904彼此链路。输入/输出接口905也链路到总线904。
下述部件链路到输入/输出接口905:输入部分906(包括键盘、鼠标等等)、输出部分907(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分908(包括硬盘等)、通信部分909(包括网络接口卡比如LAN卡、调制解调器等)。通信部分909经由网络比如因特网执行通信处理。根据需要,驱动器910也可链路到输入/输出接口905。可拆卸介质911比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器910上,使得从中读出的计算机程序根据需要被安装到存储部分908中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可拆卸介质911安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图9所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质911。可拆卸介质911的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 902、存储部分908中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出一种存储有机器可读取的指令代码的程序产品。指令代码由机器读取并执行时,可执行上述根据本发明实施例的方法。
相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
本领域的普通技术人员应理解,在此所例举的是示例性的,本发明并不局限于此。
在本说明书中,“第一”、“第二”以及“第N个”等表述是为了将所描述的特征在文字上区分开,以清楚地描述本发明。因此,不应将其视为具有任何限定性的含义。
作为一个示例,上述方法的各个步骤以及上述设备的各个组成模块和/或单元可以实施为软件、固件、硬件或其组合,并作为相应设备中的一部分。上述装置中各个组成模块、单元通过软件、固件、硬件或其组合的方式进行配置时可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。
作为一个示例,在通过软件或固件实现的情况下,可以从存储介质或网络向具有专用硬件结构的计算机(例如图9所示的通用计算机900)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示出的特征可以以相同或类似的方式在一个或更多个其他实施方式中使用,与其他实施方式中的特征相组合,或替代其他实施方式中的特征。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其他特征、要素、步骤或组件的存在或附加。
此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
本发明及其优点,但是应当理解在不超出由所附的权利要求所限定的本发明的精神和范围的情况下可以进行各种改变、替代和变换。而且,本发明的范围不仅限于说明书所描述的过程、设备、手段、方法和步骤的具体实施例。本领域内的普通技术人员从本发明的公开内容将容易理解,根据本发明可以使用执行与在此的相应实施例基本相同的功能或者获得与其基本相同的结果的、现有和将来要被开发的过程、设备、手段、方法或者步骤。因此,所附的权利要求旨在在它们的范围内包括这样的过程、设备、手段、方法或者步骤。
基于以上的说明,可知公开至少公开了以下技术方案:
1、一种确定图像是否为带地址信息的图像的方法,包括:
对原始图像进行二值化得到二值化图像并提取所述二值化图像中的连通部件;
对所述连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;
对所述新的二值化图像进行行投影得到多个行;
根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;
如果不存在文本行,则确定所述原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像;
如果未将所述原始图像确定为不带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像。
2、根据附记1所述的方法,其中,对所述连通部件进行滤噪包括:
使用连通部件的占空比、连通部件的面积以及连通部件的变化率中的至少一项来过滤边框连通部件、直线连通部件以及小尺寸连通部件中的至少一项。
3、根据附记1所述的方法,其中,对滤噪后的连通部件中的重叠的连通部件进行融合包括:
如果两个连通部件具有重叠区域,则将其融合为单个连通部件;
进行迭代直到不存在重叠的连通部件。
4、根据附记1所述的方法,其中,根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行包括:
连接邻近的连通部件;
确定连接线的倾斜度是否小于预定阈值以及连接的连通部件的个数是否大于该行中的连通部件的总数的预定比例;
如果是,则确定该行是文本行。
5、根据附记1所述的方法,其中,根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像包括:
对一行执行笔画宽度变换,来确定该行中的非文本连通部件和文本连通部件;
对于文本连通部件,计算其笔画宽度,如果一行中的文本连通部件的笔画宽度的种类大于N,则认为所述原始图像为不带地址信息的图像,其中N为第一预定整数;
对于非文本连通部件,检查其颜色分布,如果该连通部件具有多于M种颜色,则认为该连通部件为不类文本连通部件,否则为类文本连通部件,其中,M为第二预定整数;
如果存在不类文本连通部件,则确定所述原始图像为不带地址信息的图像,否则对下一行执行从执行笔画宽度变换开始的上述步骤。
6、根据附记1所述的方法,其中,根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像包括:
使用直方图统计每一行中的每个连通部件的H通道颜色,来确定每个连通部件的前L个主要颜色,其中L为大于或等于2的预定整数;
统计在一行中连通部件的颜色描述的数目,其中对于一行中的任意两个连通部件,如果它们具有K个相同的主要颜色,则认为它们具有相同的颜色描述,其中K为大于0且小于L的整数;
如果在一行中的连通部件的颜色描述的数目多于预定数目,则确定所述原始图像为不带地址信息的图像。
7、根据附记6所述的方法,其中,使用直方图统计每一行中的每个连通部件的H通道颜色之后还包括:
计算所述原始图像的背景的H通道颜色;以及
用背景的H通道颜色擦除前景的连通部件中与背景邻近的、其H通道颜色与背景的H通道颜色接近的像素。
8、根据附记1所述的方法,其中,对所述新的二值化图像进行行投影得到多个行包括:
检测所述新的二值化图像的直方图是否存在波谷,如果不存在波谷,则确定所述原始图像为不带地址信息的图像,否则,认为每个投影聚类为一行。
9、根据附记1所述的方法,其中,对所述二值化图像进行行投影得到多个行之后还包括:
对于每一行,检查一列中邻近的连通部件的高度的和是否小于一行的高度;
如果是,则将这些连通部件进行融合;以及
对融合之后的每一行的连通部件重新进行排列。
10、一种确定图像是否为带地址信息的图像的装置,包括:
预处理单元,被配置为对原始图像进行二值化得到二值化图像并提取所述二值化图像中的连通部件;
滤噪及融合单元,被配置为对所述连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;
行投影单元,被配置为对所述新的二值化图像进行行投影得到多个行;以及
地址图像确定单元,被配置为:根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定所述原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像;如果确定所述原始图像是带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像。
11、根据附件10所述的装置,其中,所述滤噪及融合单元进一步被配置为:
使用连通部件的占空比、连通部件的面积以及连通部件的变化率中的至少一项来过滤边框连通部件、直线连通部件以及小尺寸连通部件中的至少一项。
12、根据附件10所述的装置,其中,所述滤噪及融合单元进一步被配置为:如果两个连通部件具有重叠区域,则将其融合为单个连通部件;
进行迭代直到不存在重叠的连通部件。
13、根据附记10所述的装置,其中,所述地址图像确定单元进一步包括基于几何分布的确定子单元,所述基于几何分布的确定子单元被配置为:
连接邻近的连通部件;
确定连接线的倾斜度是否小于预定阈值以及连接的连通部件的个数是否大于该行中的连通部件的总数的预定比例;
如果是,则确定该行是文本行。
14、根据附记10所述的装置,其中,所述地址图像确定单元进一步包括基于笔画宽度的确定子单元,所述基于笔画宽度的确定子单元被配置为:
对一行执行笔画宽度变换,来确定该行中的非文本连通部件和文本连通部件;
对于文本连通部件,计算其笔画宽度,如果一行中的文本连通部件的笔画宽度的种类大于N,则认为所述原始图像为不带地址信息的图像,其中N为第一预定整数;
对于非文本连通部件,检查其颜色分布,如果该连通部件具有多于M种颜色,则认为该连通部件为不类文本连通部件,否则为类文本连通部件,其中,M为第二预定整数;
如果存在不类文本连通部件,则确定所述原始图像为不带地址信息的图像,否则对下一行执行从执行笔画宽度变换开始的上述步骤。
15、根据附记10所述的装置,其中,所述地址图像确定单元进一步包括基于颜色的确定子单元,所述基于颜色的确定子单元被配置为:
使用直方图统计每一行中的每个连通部件的H通道颜色,来确定每个连通部件的前L个主要颜色,其中L为大于或等于2的预定整数;
统计在一行中连通部件的颜色描述的数目,其中对于一行中的任意两个连通部件,如果它们具有K个相同的主要颜色,则认为它们具有相同的颜色描述,其中K为大于0且小于L的整数;
如果在一行中的连通部件的颜色描述的数目多于预定数目,则确定所述原始图像为不带地址信息的图像。
16、根据附记15所述的装置,其中,所述基于颜色的确定子单元进一步被配置为:
计算所述原始图像的背景的H通道颜色;以及
用背景的H通道颜色擦除前景的连通部件中与背景邻近的、其H通道颜色与背景的H通道颜色接近的像素。
17、根据附记10所述的装置,其中,所述行投影单元进一步被配置为:
检测所述新的二值化图像的直方图是否存在波谷,如果不存在波谷,则确定所述原始图像为不带地址信息的图像,否则,认为每个投影聚类为一行。
18、根据附记10所述的装置,其中,所述地址图像确定单元进一步被配置为:
对于每一行,检查一列中邻近的连通部件的高度的和是否小于一行的高度;
如果是,则将这些连通部件进行融合;以及
对融合之后的每一行的连通部件重新进行排列。
Claims (10)
1.一种确定图像是否为带地址信息的图像的方法,包括:
对原始图像进行二值化得到二值化图像并提取所述二值化图像中的连通部件;
对所述连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;
对所述新的二值化图像进行行投影得到多个行;
根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;
如果不存在文本行,则确定所述原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像;
如果未将所述原始图像确定为不带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像。
2.根据权利要求1所述的方法,其中,对所述连通部件进行滤噪包括:
使用连通部件的占空比、连通部件的面积以及连通部件的变化率中的至少一项来过滤边框连通部件、直线连通部件以及小尺寸连通部件中的至少一项,
其中,所述连通部件的占空比为连通部件的像素数目与连通部件的面积之比,并且
其中,所述连通部件的变化率R的定义如下:R=V/W,V=∑|H(i)–H(i+1)|>0,i∈{0,…,W-1},H表示连通部件的直方图,i表示连通部件的像素编号,V表示从连通部件的第1个像素开始直至第W个像素,如果相邻的两个像素的直方图之差的绝对值大于0,则对其进行加和,W为连通部件的宽度。
3.根据权利要求1所述的方法,其中,对滤噪后的连通部件中的重叠的连通部件进行融合包括:
如果两个连通部件具有重叠区域,则将其融合为单个连通部件;
进行迭代直到不存在重叠的连通部件。
4.根据权利要求1所述的方法,其中,根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行包括:
连接邻近的连通部件;
确定连接线的倾斜度是否小于预定阈值以及连接的连通部件的个数是否大于该行中的连通部件的总数的预定比例;
如果是,则确定该行是文本行。
5.根据权利要求1所述的方法,其中,根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像包括:
对一行执行笔画宽度变换,来确定该行中的非文本连通部件和文本连通部件;
对于文本连通部件,计算其笔画宽度,如果一行中的文本连通部件的笔画宽度的种类大于N,则认为所述原始图像为不带地址信息的图像,其中N为第一预定整数;
对于非文本连通部件,检查其颜色分布,如果该连通部件具有多于M种颜色,则认为该连通部件为不类文本连通部件,否则为类文本连通部件,其中,M为第二预定整数;
如果存在不类文本连通部件,则确定所述原始图像为不带地址信息的图像,否则对下一行执行从执行笔画宽度变换开始的上述步骤。
6.根据权利要求1所述的方法,其中,根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像包括:
使用直方图统计每一行中的每个连通部件的H通道颜色,来确定每个连通部件的前L个主要颜色,其中L为大于或等于2的预定整数;
统计在一行中连通部件的颜色描述的数目,其中对于一行中的任意两个连通部件,如果它们具有K个相同的主要颜色,则认为它们具有相同的颜色描述,其中K为大于0且小于L的整数;
如果在一行中的连通部件的颜色描述的数目多于预定数目,则确定所述原始图像为不带地址信息的图像。
7.根据权利要求6所述的方法,其中,使用直方图统计每一行中的每个连通部件的H通道颜色之后还包括:
计算所述原始图像的背景的H通道颜色;以及
用背景的H通道颜色擦除前景的连通部件中与背景邻近的、其H通道颜色与背景的H通道颜色接近的像素。
8.根据权利要求1所述的方法,其中,对所述新的二值化图像进行行投影得到多个行包括:
检测所述新的二值化图像的直方图是否存在波谷,如果不存在波谷,则确定所述原始图像为不带地址信息的图像,否则,认为每个投影聚类为一行。
9.根据权利要求1所述的方法,其中,对所述二值化图像进行行投影得到多个行之后还包括:
检查一列中邻近的连通部件的高度的和是否小于一行的高度;
如果是,则将这些连通部件进行融合;以及
对融合之后的每一行的连通部件重新进行排列。
10.一种确定图像是否为带地址信息的图像的装置,包括:
预处理单元,被配置为对原始图像进行二值化得到二值化图像并提取所述二值化图像中的连通部件;
滤噪及融合单元,被配置为对所述连通部件进行滤噪,对滤噪后的连通部件中的重叠的连通部件进行融合,并且建立新的二值化图像;
行投影单元,被配置为对所述新的二值化图像进行行投影得到多个行;
地址图像确定单元,被配置为:根据每一行中的连通部件的几何分布来确定原始图像中是否存在文本行;如果不存在文本行,则确定所述原始图像为不带地址信息的图像,否则,进一步根据每行中的连通部件的笔画宽度和颜色分布来确定所述原始图像是否为带地址信息的图像;如果确定所述原始图像是带地址信息的图像,则再进一步根据每一行中的连通部件的H通道颜色来确定所述原始图像是否为带地址信息的图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882749.8A CN106845473B (zh) | 2015-12-03 | 2015-12-03 | 用于确定图像是否为带地址信息的图像的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510882749.8A CN106845473B (zh) | 2015-12-03 | 2015-12-03 | 用于确定图像是否为带地址信息的图像的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845473A CN106845473A (zh) | 2017-06-13 |
CN106845473B true CN106845473B (zh) | 2020-06-02 |
Family
ID=59149721
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510882749.8A Active CN106845473B (zh) | 2015-12-03 | 2015-12-03 | 用于确定图像是否为带地址信息的图像的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845473B (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3867512B2 (ja) * | 2000-06-29 | 2007-01-10 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
CN101599124A (zh) * | 2008-06-03 | 2009-12-09 | 汉王科技股份有限公司 | 一种从视频图像中分割字符的方法和装置 |
CN101777124A (zh) * | 2010-01-29 | 2010-07-14 | 北京新岸线网络技术有限公司 | 一种提取视频文本信息的方法及装置 |
CN102024138A (zh) * | 2009-09-15 | 2011-04-20 | 富士通株式会社 | 字符识别方法和字符识别装置 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN102375988A (zh) * | 2010-08-17 | 2012-03-14 | 富士通株式会社 | 文件图像处理方法和设备 |
JP5015195B2 (ja) * | 2008-05-23 | 2012-08-29 | シャープ株式会社 | デジタル画像内の数字を検知する方法 |
CN103034854A (zh) * | 2011-09-30 | 2013-04-10 | 富士通株式会社 | 图像处理装置和方法 |
CN103208004A (zh) * | 2013-03-15 | 2013-07-17 | 北京英迈杰科技有限公司 | 票据信息区域自动识别和提取方法及设备 |
CN103839062A (zh) * | 2014-03-11 | 2014-06-04 | 东方网力科技股份有限公司 | 一种图像文字定位方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
-
2015
- 2015-12-03 CN CN201510882749.8A patent/CN106845473B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3867512B2 (ja) * | 2000-06-29 | 2007-01-10 | 富士ゼロックス株式会社 | 画像処理装置および画像処理方法、並びにプログラム |
CN101520851A (zh) * | 2008-02-29 | 2009-09-02 | 富士通株式会社 | 字符信息识别装置和方法 |
JP5015195B2 (ja) * | 2008-05-23 | 2012-08-29 | シャープ株式会社 | デジタル画像内の数字を検知する方法 |
CN101599124A (zh) * | 2008-06-03 | 2009-12-09 | 汉王科技股份有限公司 | 一种从视频图像中分割字符的方法和装置 |
CN102024138A (zh) * | 2009-09-15 | 2011-04-20 | 富士通株式会社 | 字符识别方法和字符识别装置 |
CN101777124A (zh) * | 2010-01-29 | 2010-07-14 | 北京新岸线网络技术有限公司 | 一种提取视频文本信息的方法及装置 |
CN102375988A (zh) * | 2010-08-17 | 2012-03-14 | 富士通株式会社 | 文件图像处理方法和设备 |
CN102156865A (zh) * | 2010-12-14 | 2011-08-17 | 上海合合信息科技发展有限公司 | 手写文本行字符切分方法、识别方法 |
CN103034854A (zh) * | 2011-09-30 | 2013-04-10 | 富士通株式会社 | 图像处理装置和方法 |
CN103208004A (zh) * | 2013-03-15 | 2013-07-17 | 北京英迈杰科技有限公司 | 票据信息区域自动识别和提取方法及设备 |
CN103839062A (zh) * | 2014-03-11 | 2014-06-04 | 东方网力科技股份有限公司 | 一种图像文字定位方法及装置 |
Non-Patent Citations (3)
Title |
---|
Segmentation and recognition of characters in scene images using selective binarization in color space and gat correlation;M. Yokobayashi 等;《Eighth International Conference on Document Analysis and Recognition》;20060116;第167-171页 * |
一种网页图像文字分割方法;柳培忠 等;《计算机工程与应用》;20140531;第50卷(第10期);第180-183页 * |
基于连通域特征的维吾尔手写文本行分割;易晓芳 等;《计算机工程与应用》;20140930;第50卷(第18期);第142-146页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106845473A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10943105B2 (en) | Document field detection and parsing | |
US9070035B2 (en) | Document processing apparatus, document processing method and scanner | |
CN106503703B (zh) | 使用终端设备来识别信用卡号码和到期日期的系统和方法 | |
US9235756B2 (en) | Table grid detection and separation | |
US9449222B2 (en) | Image processing device and method | |
JP5492205B2 (ja) | 印刷媒体ページの記事へのセグメント化 | |
US9965695B1 (en) | Document image binarization method based on content type separation | |
US9275030B1 (en) | Horizontal and vertical line detection and removal for document images | |
US20180330181A1 (en) | Method for line and word segmentation for handwritten text images | |
JP2010205277A (ja) | 画像内容を比較する方法及びコンピュータシステム | |
US10169673B2 (en) | Region-of-interest detection apparatus, region-of-interest detection method, and recording medium | |
CN107305682B (zh) | 用于对图像进行拼接的方法和装置 | |
Jung et al. | A new approach for text segmentation using a stroke filter | |
Kumar et al. | MAPS: Midline analysis and propagation of segmentation | |
US9965678B2 (en) | Method for recognizing table and flowchart in document images | |
JP6102417B2 (ja) | 画像処理装置、画像処理方法及び画像処理デバイス | |
US20120033887A1 (en) | Image processing apparatus, computer readable medium storing program, and image processing method | |
CN106845473B (zh) | 用于确定图像是否为带地址信息的图像的方法和装置 | |
Nasiri et al. | A new binarization method for high accuracy handwritten digit recognition of slabs in steel companies | |
Arai et al. | Text extraction from TV commercial using blob extraction method | |
Ramana Murthy et al. | An approach to divide pre-detected Devanagari words from the scene images into characters | |
Banerjee et al. | A robust approach to extraction of texts from camera captured images | |
Chang et al. | Caption analysis and recognition for building video indexing systems | |
Berriche et al. | Seam carving-based Arabic handwritten sub-word segmentation | |
Lamsaf et al. | Lines segmentation and word extraction of Arabic handwritten text |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |