CN100527156C - 一种图片文字检测的方法 - Google Patents

一种图片文字检测的方法 Download PDF

Info

Publication number
CN100527156C
CN100527156C CNB2007101221552A CN200710122155A CN100527156C CN 100527156 C CN100527156 C CN 100527156C CN B2007101221552 A CNB2007101221552 A CN B2007101221552A CN 200710122155 A CN200710122155 A CN 200710122155A CN 100527156 C CN100527156 C CN 100527156C
Authority
CN
China
Prior art keywords
outline map
edge
image
picture
character area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007101221552A
Other languages
English (en)
Other versions
CN101122952A (zh
Inventor
易剑
彭宇新
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CNB2007101221552A priority Critical patent/CN100527156C/zh
Publication of CN101122952A publication Critical patent/CN101122952A/zh
Application granted granted Critical
Publication of CN100527156C publication Critical patent/CN100527156C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明提供了一种图片文字检测的方法,包括以下步骤:(1)合并原图在各个颜色分量上的边缘图,得到累积边缘图;(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,定位图片中的文字区域。本发明在获取原图的累积边缘图之后,利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图,使子边缘图中的边缘得到简化,从而使图片文字区域的检测较为简单和准确。

Description

一种图片文字检测的方法
技术领域
本发明属于图像处理和检索技术领域,具体涉及一种图片文字检测的方法。
背景技术
随着互联网技术和多媒体技术的快速发展,互联网上的图片内容呈现爆炸性增长趋势,如何在这海量的图片内容中快速检索到想要的图片,成为了一个急需解决的关键问题。现有的方法主要基于图片对应网页中的文字描述信息,而没有深入到图片内容的分析中去。这种方法存在以下缺点:(1)如何在网页中找到能够准确描述图片内容的文字信息本身就是一件很困难的事情;(2)大量的图片没有对应的网页信息。
另一方面,大量的图片中含有文字信息,这些文字信息一般能准确描述图片的内容,如果能识别这些文字,用这些文字信息对图片进行索引和检索,必将大大推动互联网图片搜索技术的发展。因此,图片文字检测和识别技术具有十分重要的研究和应用价值。图片中的文字区域具有两个明显的特征:密集的边缘和一致的颜色。现有的图片文字检测方法主要考虑了这两个特征中的一个,而没有把这两个特征结合起来。如果能同时考虑这两个特征,把它们结合起来使用,将能更为有效地检测图片中的文字。
2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection,localization,and extraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254),提出了一种基于边缘的视频文字检测方法。该文献先从视频中抽取视频帧,即视频内容的图片,然后把图片转换成边缘强度图,并通过水平和垂直投影的方式找出可能的文字区域。这种方法只用到了文字区域的边缘特征,而没有充分利用文字区域颜色信息,因此不能很好的定位文字区域,文字检测结果有待提高。
发明内容
针对现有技术的不足,本发明的目的是提供一种更为有效的检测图片文字的方法,用于检测互联网图片中的文字信息。
为达到以上目的,本发明采用的技术方案如下:
一种图片文字检测的方法,包括以下步骤:
(1)合并原图在多个颜色分量上的边缘图,得到累积边缘图;
(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,从而定位图片中的文字区域;
进一步,上述步骤(3)之后过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。
进一步,上述的一种图片文字检测的方法,所述步骤(1)中的累积边缘图由在图片的YUV各个分量上用多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
进一步,上述的一种图片文字检测的方法,所述步骤(1)中,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
进一步,上述的一种图片文字检测的方法,所述步骤(2)中只对累积边缘图中强度值大于阈值T(0<T<255)的边缘点进行处理,把这些边缘点置为它们在原图中的相应颜色,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。
进一步,上述的一种图片文字检测的方法,所述步骤(3)中的具体方法为:需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
进一步,上述的一种图片文字检测的方法,所述步骤(3)中,区域分割的具体方法为:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘点的水平投影图做分割;水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
进一步,上述的一种图片文字检测的方法,所述的过滤文字区域中包括的错误判断的文字区域,是采用基于SVM(support vectormachine)分类器的方法,该方法分为训练和判断两个过程:训练过程是预先进行的,在训练过程中,选取了大量的文字区域正负样本,输入SVM分类器进行训练;在判断过程中,把步骤(3)中检测到的文字区域输入SVM分类器进行判断,把文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉。
本发明的效果在于:与现有方法相比,本发明可以取得更高的图片文字区域查全率和查准率,有利于更好的识别图片中的文字,从而充分发挥图片文字信息在图像检索中的巨大作用。
本发明之所以具有上述发明效果,其原因在于,图片文字区域具有两个显著特征,即密集的边缘和一致的颜色,现有技术只单独考虑了这两个特征的其中一个,而没有把它们结合起来使用,因此不能足够有效地检测图片中的文字。针对现有技术的问题,本发明综合考虑了文字区域的以上两个特征,首先生成原图的累积边缘图,然后把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图。这样做的好处在于,背景边缘与文字边缘,以及不同颜色的文字边缘被分离在不同的子边缘图中,每张边缘图中的边缘情况更为简单,从而使得文字检测较为简单和准确,因此,本发明能够取得更好的图片文字检测结果。经过本发明检测出文字区域之后,可以利用OCR软件识别文字区域的二值图片,从而最终获取图片的文字信息。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
如图1所示,本发明的一种图片文字检测的方法具体包括以下步骤:
(1)合并原图在多个颜色分量上的边缘图,得到累积边缘图。
累积边缘图由在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
在上述过程中,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测到的,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
(2)对于累积边缘图中强度值大于阈值T(0<T<255)的边缘点,把这些边缘点置为它们在原图中的相应颜色,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。在本具体实施例中,阈值T取为50,每张累积边缘图被分解成了3张子边缘图。
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行分割,从而定位图片中的文字区域,具体方法如下。
需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。
对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A0...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
在上述过程中,区域分割的具体方法为:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘点的水平投影图做分割;水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
(4)在步骤(3)中定位到的文字区域中包括了错误判断的文字区域,利用基于SVM(support vector machine)分类器的方法过滤掉这些误判的文字区域,具体方法分为训练和判断两个过程:训练过程是预先进行的,在训练过程中,选取了大量的文字区域正负样本,输入SVM分类器进行训练;在判断过程中,把步骤(3)中检测到的文字区域输入SVM分类器进行判断,文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉,在本实施例中,具体过程如下。
训练过程:把文字区域样本缩放到统一高度H,然后用一个窗口Z从左到右扫描样本,步长为F。每次移动窗口时,提取窗口内的24维特征向量来对SVM分类器进行训练。在本实施例中,H取为24,F取为12。
判断过程:样本同样被缩放到统一高度H,然后用窗口Z从左到右扫描。每次移动窗口时,提取窗口内的24维特征向量作为SVM分类器的输入特征进行判断。SVM分类器的输出记为G(Z),G(Z)的取值可能是1(判断为文字特征),或者-1(判断为非文字特征)。当窗口滑动完成时,如果G(Z)的累加值大于0,则判断样本是一个正确的文字区域,否则是一个错误的文字区域,将被过滤掉。
上述特征提取的详细做法如下:首先,对原图求其在4个方向(0度,45度,90度和135度)上的彩色边缘强度图。我们采取的办法是分别在RGB三个通道上进行处理,对于点(x,y),在每个通道可以分别得到4个方向的微分: &PartialD; &Psi; &PartialD; x , &PartialD; &Psi; &PartialD; xy , &PartialD; &Psi; &PartialD; y , &PartialD; &Psi; &PartialD; yx ( &Psi; = R , G , B ) . 然后得到点(x,y)在各个方向的变化率,也就是彩色边缘强度,如下所示:
0度方向: G x = ( | &PartialD; R &PartialD; x | 2 + | &PartialD; G &PartialD; x | 2 + | &PartialD; B &PartialD; x | 2 ) 1 2
45度方向: G xy = ( | &PartialD; R &PartialD; xy | 2 + | &PartialD; G &PartialD; xy | 2 + | &PartialD; B &PartialD; xy | 2 ) 1 2
90度方向: G x = ( | &PartialD; R &PartialD; y | 2 + | &PartialD; G &PartialD; y | 2 + | &PartialD; B &PartialD; y | 2 ) 1 2
135度方向: G yx = ( | &PartialD; R &PartialD; yx | 2 + | &PartialD; G &PartialD; yx | 2 + | &PartialD; B &PartialD; yx | 2 ) 1 2
然后,在这4个彩色边缘强度图上相应窗口Z的位置各计算6个特征,总共得到24维的特征,6个特征分别为:均值、方差、能量、熵、惯量和局部同次性。
对于采用本发明的上述图片文字检测方法检测到的文字区域图片,本具体实施方法中,进一步按照如下方法把文字区域图片转换成二值图片,并利用OCR软件获取文字识别结果:
(1)对文字区域图片进行颜色分量选择,在所选择颜色分量上,文字最为清晰。
如公式一所示,分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},则选择在YUV颜色空间中的α分量上进行二值化。CY、CU和CV的值由公式二求得,分别为边缘强度图EY、EU和EV的中央部分的边缘强度累加值,代表了文字区域图片在YUV各个颜色分量上的对比度;EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}
公式二:
C Y = &Sigma; w / 3 &le; x &le; w &times; 2 / 3 h / 3 &le; y &le; h &times; 2 / 3 E Y ( i , j ) , C U = &Sigma; w / 3 &le; x &le; w &times; 2 / 3 h / 3 &le; y &le; h &times; 2 / 3 E U ( i , j ) , C V = &Sigma; w / 3 &le; x &le; w &times; 2 / 3 h / 3 &le; y &le; h &times; 2 / 3 E V ( i , j )
(2)对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有利于对图片进行统一的处理。判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
(3)在(1)中选择的颜色分量上,把文字区域图片二值化为前景和背景,前景用黑色表示,背景用白色表示。
对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。在本实施例中,k1的值取为-0.2,Tσ的值取为文字区域图片中所有像素灰度值的标准方差。
公式三:Tr(x)=μr(x)+k1×σr(x)
公式四:r(x)=min(r,σr(x)>Tσ)
(4)对步骤(3)中得到的二值图片进行去噪。
去噪的具体方法主要包括三个部分:连通分量分析、灰度一致性分析和基于颜色的聚类。
a.用连通分量分析去除噪声,把满足下列条件之一的连通分量当作噪声去除掉:
(1)同文字区域的边界相连;
(2)连通分量所占的像素数目小于一个文字笔画所占的最少像
素数目;
(3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。
b.用灰度一致性分析来去除噪声:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。
公式五: | o p - m | st > k 2
公式五中,k2是一个常数,op是连通分量P中像素的灰度值。本具体实施例中,k2取为2,当P中满足公式五的像素数目多于总像素数目的2/3的时候,P被认为是一个噪声而除去。
c.用基于颜色聚类的方法去除噪声:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。在本实施例中,对于C中的每个连通分量P,我们首先计算P中所有像素的平均颜色值c(P),然后用基于连通分量平均颜色值的k-means聚类方法把C分为两类:所占像素较多的一类被认为是文字笔画而保留;所占像素较少的一类被认为是噪声而除去。
最后把处理后的文字区域二值化图片输入给OCR软件进行识别,以得到图片文字识别结果。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的文字区域检测查全率和查准率,从而充分发挥图片文字信息在图像检索中的巨大作用。
本实施例中建立的数据库包含了1000张含有文字的Web图片,这些图片是从互联网上随机抓取下来的,大多含有复杂的背景,以及大小、颜色、分辨率和对比度均不相同的文字,能够反映互联网上文字图片的真实情况,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。经过人工统计,这1000张图片中共含有1621个文字区域。
在本实施例中,上述1000张图片被送给图片文字检测模块进行处理,得到文字区域定位的结果。为了证明本发明在图片文字检测方面的有效性,我们测试了以下3种方法作为实验对比:
I.本发明的具体实施例;
II.Lyu的方法:2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254)。该文献首先利用边缘检测算子求得视频帧的边缘图,然后用分析边缘投影图的波峰和波谷的方法来找到可能的文字区域。
III.HWDavid的方法:2003年参加了ICDAR Robust ReadingCompetition,方法记载在文献“ICDAR 2003 Robust ReadingCompetitions”上(作者是S.M.Lucas,A.Panaretos等)。该方法首先利用边缘检测和形态学的方法形成初始连通分量,然后用连通分量分析的方法把初始连通分量合并成为文字区域。
实验采用了在ICDAR 2003 Competition Evaluation中使用的三个指标来评价图片文字检测的结果,三个指标分别是:Recall(r),Precison(p)和f。Recall表示的是找到相关文字区域的能力;Precison表示的是准确找到相关文字区域的能力;f是Recall与Precison的综合评价。这三个指标能全面评价图片文字检测的结果,它们的值在0到1之间,是一个小数,都是越高越好。f的定义如下,其中α是一个常量:
f = 1 &alpha; / p + ( 1 - &alpha; ) / r
表1 实验结果对比
Figure C200710122155D00132
从表1中可以看出,本发明在上述三个指标上,都取得了比其他两种方法更好的结果,这主要是因为:本发明综合考虑了文字区域的两个特征,即密集的边缘和一致的颜色。在获取原图的累积边缘图之后,本发明利用基于颜色的聚类方法把累积边缘图分解成若干张子边缘图,使子边缘图中的边缘得到简化,从而使图片文字区域的检测较为简单和准确。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1、一种图片文字检测的方法,其特征在于,包括以下步骤:
(1)合并原图在各个颜色分量上的边缘图,得到累积边缘图;
(2)把累积边缘图中的边缘点置为其在原图中的相应颜色,根据边缘点颜色的不同,用聚类的方法把累积边缘图分解成若干张子边缘图,每张子边缘图中包含了颜色相近的边缘点;
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,定位图片中的文字区域。
2、如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(3)之后进一步过滤掉所述步骤(3)定位得到的文字区域中所包括的误判文字区域。
3、如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图采用公式一合并得到:
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
4、如权利要求1或3所述的图片文字检测的方法,其特征在于,所述步骤(1)中的累积边缘图是由在图片的YUV各个分量上的多个边缘图合并得到,在图片的YUV分量上的边缘图是采用改进的Sobel边缘检测算子按照公式二检测得到:
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
其中,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
5、如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(2)中,只对累积边缘图中强度值大于阈值T的边缘点进行处理,其中0<T<255,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。
6、如权利要求1所述的图片文字检测的方法,其特征在于,所述步骤(3)的具体方法为:
需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止;
其中,对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的区域分割;如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的区域分割;如果A0在垂直方向可以分割,则将A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的区域分割,对于A1,A2...An中的任何一个区域Ai,其中1≤i≤n,如果区域Ai根据其垂直投影图不能再进行水平方向的区域分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
7、如权利要求1或6所述的图片文字检测的方法,其特征在于,区域分割的具体方法为:对于一个待分割的区域,垂直方向分割的方法是从下往上扫描边缘点的水平投影图做分割;水平方向分割的方法是从左往右扫描边缘点的垂直投影图做分割;所述水平方向和垂直方向的分割,在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值,如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行,当扫描行的强度值大于一个阈值时开始一个新的组;当扫描到最后一行时,对这个区域的分割就完成了。
8、如权利要求2所述的图片文字检测的方法,其特征在于,所述过滤是采用基于SVM分类器的方法,分为训练和判断两个过程:预先选取大量的文字区域正负样本,输入SVM分类器进行训练;然后把所述步骤(3)中检测到的文字区域输入SVM分类器进行判断,把文字区域分为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉。
CNB2007101221552A 2007-09-21 2007-09-21 一种图片文字检测的方法 Expired - Fee Related CN100527156C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNB2007101221552A CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007101221552A CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Publications (2)

Publication Number Publication Date
CN101122952A CN101122952A (zh) 2008-02-13
CN100527156C true CN100527156C (zh) 2009-08-12

Family

ID=39085283

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007101221552A Expired - Fee Related CN100527156C (zh) 2007-09-21 2007-09-21 一种图片文字检测的方法

Country Status (1)

Country Link
CN (1) CN100527156C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10062001B2 (en) 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101661559B (zh) * 2009-09-16 2013-03-06 中国科学院计算技术研究所 一种数字图像训练和检测方法
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN101770645A (zh) * 2010-02-10 2010-07-07 中国农业大学 高分辨率棉花异性纤维彩色图像的快速分割方法与系统
CN102208023B (zh) * 2011-01-23 2013-05-08 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN103095966B (zh) * 2011-10-28 2016-04-27 浙江大华技术股份有限公司 一种视频抖动量化方法及装置
CN102630043B (zh) * 2012-04-01 2014-11-12 北京捷成世纪科技股份有限公司 一种基于对象的视频转码方法和装置
CN102915438B (zh) * 2012-08-21 2016-11-23 北京捷成世纪科技股份有限公司 一种视频字幕的提取方法及装置
CN103632159B (zh) * 2012-08-23 2017-05-03 阿里巴巴集团控股有限公司 训练分类器、图像中文字区域检测的方法及系统
CN104239880A (zh) * 2013-06-06 2014-12-24 北京物资学院 一种基于投影算子的古籍文档图像处理算法
CN103996055B (zh) * 2014-06-13 2017-06-09 上海珉智信息科技有限公司 基于影像档案电子资料识别系统中分类器的识别方法
CN104200209B (zh) * 2014-08-29 2017-11-03 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN106033528A (zh) * 2015-03-09 2016-10-19 富士通株式会社 从彩色文档图像中提取特定区域的方法和设备
CN104715253A (zh) * 2015-04-02 2015-06-17 北京贞观雨科技有限公司 一种获取试题解析信息的方法及服务器
CN108171104B (zh) * 2016-12-08 2022-05-10 腾讯科技(深圳)有限公司 一种文字检测方法及装置
CN107657230A (zh) * 2017-09-27 2018-02-02 安徽硕威智能科技有限公司 一种银行自助机器人文字识别装置
CN107888707B (zh) * 2017-12-08 2021-04-20 北京奇艺世纪科技有限公司 一种图片传输方法、装置及电子设备
CN108460385A (zh) * 2018-03-02 2018-08-28 山东超越数控电子股份有限公司 一种文本图像分割方法与装置
CN109242776B (zh) * 2018-09-11 2023-04-07 江苏君英天达人工智能研究院有限公司 一种基于视觉系统的双车道线检测方法
CN109409377B (zh) * 2018-12-03 2020-06-02 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583949A (en) * 1989-03-03 1996-12-10 Hewlett-Packard Company Apparatus and method for use in image processing
CN1542697A (zh) * 2003-11-06 2004-11-03 上海交通大学 基于相邻边缘点距离统计的文字图象分割方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5583949A (en) * 1989-03-03 1996-12-10 Hewlett-Packard Company Apparatus and method for use in image processing
CN1542697A (zh) * 2003-11-06 2004-11-03 上海交通大学 基于相邻边缘点距离统计的文字图象分割方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A Comprehensive Method for Multilingual Video Text Detection, Localization, and Extraction. Michael R.Lyu, Jiqiang Song, Min Cai.IEEE Transactions on Circuits and Systems for Video Technology,Vol.15 No.2. 2005 *
用于文本区域提取的边缘像素聚类方法. 付慧,刘峡壁,贾云得.计算机辅助设计与图形学学报,第18卷第5期. 2006 *
用小波变换及颜色聚类提取的视频图像内中文字幕. 黄晓东,周源华.计算机工程,第29卷第1期. 2003 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10062001B2 (en) 2016-09-29 2018-08-28 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US20180330181A1 (en) * 2016-09-29 2018-11-15 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images
US10643094B2 (en) * 2016-09-29 2020-05-05 Konica Minolta Laboratory U.S.A., Inc. Method for line and word segmentation for handwritten text images

Also Published As

Publication number Publication date
CN101122952A (zh) 2008-02-13

Similar Documents

Publication Publication Date Title
CN100527156C (zh) 一种图片文字检测的方法
CN101122953B (zh) 一种图片文字分割的方法
CN102332096B (zh) 一种视频字幕文本提取和识别的方法
CN101615252B (zh) 一种自适应图像文本信息提取方法
CN107093172B (zh) 文字检测方法及系统
CN101453575B (zh) 一种视频字幕信息提取方法
CN103034848B (zh) 一种表单类型的识别方法
CN100377167C (zh) 一种用于二维码识别的二维码区域精确定位方法
CN110503054B (zh) 文本图像的处理方法及装置
CN102915438A (zh) 一种视频字幕的提取方法及装置
CN111382704A (zh) 基于深度学习的车辆压线违章判断方法、装置及存储介质
CN103870803A (zh) 一种基于粗定位与精定位融合的车牌识别方法和系统
Ma et al. Text detection in natural images based on multi-scale edge detetion and classification
CN103455806A (zh) 文档处理装置、文档处理方法以及扫描仪
CN103903018A (zh) 一种复杂场景中对车牌进行定位的方法和系统
CN105809166A (zh) 车牌识别方法、装置及系统
CN104408449A (zh) 智能移动终端场景文字处理方法
CN105205488A (zh) 基于Harris角点和笔画宽度的文字区域检测方法
CN106778717A (zh) 一种基于图像识别和k近邻的测评表识别方法
CN103336961A (zh) 一种交互式的自然场景文本检测方法
CN111461131A (zh) 身份证号码信息识别方法、装置、设备及存储介质
CN104834891A (zh) 一种中文图像型垃圾邮件过滤方法及系统
CN101615255B (zh) 一种视频文字多帧融合的方法
CN101593278B (zh) 文档图像的语言判别方法和系统
CN109284678A (zh) 路牌语义识别方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090812

Termination date: 20110921