CN101122953A - 一种图片文字分割的方法 - Google Patents

一种图片文字分割的方法 Download PDF

Info

Publication number
CN101122953A
CN101122953A CNA2007101221533A CN200710122153A CN101122953A CN 101122953 A CN101122953 A CN 101122953A CN A2007101221533 A CNA2007101221533 A CN A2007101221533A CN 200710122153 A CN200710122153 A CN 200710122153A CN 101122953 A CN101122953 A CN 101122953A
Authority
CN
China
Prior art keywords
picture
color
character
text
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2007101221533A
Other languages
English (en)
Other versions
CN101122953B (zh
Inventor
易剑
彭宇新
肖建国
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking University
Original Assignee
Peking University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking University filed Critical Peking University
Priority to CN2007101221533A priority Critical patent/CN101122953B/zh
Publication of CN101122953A publication Critical patent/CN101122953A/zh
Application granted granted Critical
Publication of CN101122953B publication Critical patent/CN101122953B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)

Abstract

本发明提供了一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,包括以下步骤:(一)对文字区域图片进行颜色分量选择;在所选择的颜色分量上,文字最为清晰;(二)在步骤(一)选取的颜色分量上,对文字区域图片进行二值化;(三)对步骤(二)得到的二值图片进行去噪。本发明能自适应地选取有利于二值化的颜色分量,从而取得更好的二值化效果;同时利用基于颜色的聚类方法去除噪声,能够得到更为清晰,噪声较少的二值文字图片,从而得到更好的图片文字识别结果。

Description

一种图片文字分割的方法
技术领域
本发明属于图像处理和检索技术领域,具体涉及一种图片文字分割的方法。
背景技术
随着互联网技术和多媒体技术的快速发展,互联网上的图片内容呈现爆炸性增长趋势,如何在这海量的图片内容中快速检索到想要的图片,成为了一个急需解决的关键问题。现有的方法主要基于图片对应网页中的文字描述信息,而没有深入到图片内容的分析中去。这种方法存在以下缺点:(1)如何在网页中找到能够准确描述图片内容的文字信息本身就是一件很困难的事情;(2)大量的图片没有对应的网页信息。另一方面,大量的图片含有文字信息,这些文字信息一般能准确描述图片的内容,如果能识别这些文字,用这些文字信息对图片进行索引和检索,必将大大推动互联网图片搜索技术的发展。因此,图片文字检测和识别技术具有十分重要的研究和应用价值。
要对图片中的文字进行识别,先得把图片中的文字从背景中分割出来,转换成可供OCR软件识别的二值图片。图片文字分割方法主要包括两个部分:二值化和去噪。现有方法主要采用了基于阈值的二值化方法,这种方法选择在彩色图片的固定颜色分量上进行二值化操作,但并不合理,因为对于某些颜色的文字图片来说,其它的颜色分量更适合于二值化,如果能够自适应地选择对二值化较好的颜色分量,将会有利于二值图片的生成;另外,现有的噪声去除方法主要利用了连通分量的几何特征和灰度值特征,然而,当噪声的这些特征和文字笔画都相似的时候,这种方法就失效了。另一方面,图片中含有丰富的彩色信息,文字笔画和噪声的颜色一般具有差异,通过对连通分量颜色特征的分析,可以有效地去除噪声。
2005年在IEEE Transactions on Circuits and Systems for VideoTechnology上发表的文献“A comprehensive method for multilingualvideo text detection,localization,and extraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254),提出了一种图片文字分割的方法。
该文献首先利用边缘检测算子求得视频图像的边缘图,然后用分析边缘投影图的波峰和波谷的方法来找到可能的文字区域。基于文字区域检测的结果,在固定的颜色分量上对文字区域图片进行二值化,并且利用连通分量的几何特征去除噪声。该方法对于背景复杂、文字对比度较弱的文字区域,分割得到的二值图片效果较差,含有较多噪声,因此适应面并不广,文字分割的效果还需要提高。
发明内容
针对现有技术的不足,本发明提出了一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换为可以供OCR软件识别的二值图片。该方法充分利用了图片中的彩色信息进行二值化和噪声去除,相比现有方法,可以获得更为清晰,噪声更少的二值文字图片,从而有利于用OCR软件进行识别。
为达到以上目的,本发明的技术方案如下:
一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,包括以下步骤:
(1)对文字区域图片进行颜色分量选择;在所选择的颜色分量上,文字最为清晰;
(2)在步骤(1)选取的颜色分量上,对文字区域图片进行二值化,得到二值图片;
(3)对步骤(2)得到的二值图片进行去噪。
进一步,上述的一种图片文字分割的方法,所述步骤(1)与步骤(2)之间增加如下步骤:对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有利于对图片进行统一的处理。判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
进一步,上述的一种图片文字分割的方法,所述步骤(1)中对文字区域图片进行颜色分量选择的具体方法是:如公式一所示,分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},则选择在YUV颜色空间中的α分量上进行二值化。CY、CU和CV的值由公式二求得,分别为边缘强度图EY,EU和EV的中央部分的边缘强度累加值,CY、CU和CV代表了文字区域图片在YUV各个颜色分量上的对比度;EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}
公式二:
C Y = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E Y ( i , j ) , C U = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E U ( i , j ) , C V = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E V ( i , j )
当然,关于颜色分量的选择,还可以有其他的方法。譬如,2005年发表在International Conference on Document Analysis andRecognition上的文献“Segmentation and Recognition of Charactersin Scene Images Using Selective Binarization in Color Space andGAT Correlation”(作者是Minoru Yokobayashi和Toru Wakahara)中公开了一种使得所选择的颜色分量上文字最为清晰的直方图方法,这种方法首先求得图片在各个颜色分量上的直方图,然后比较各个直方图中灰度值的分布情况,选择在直方图中灰度值分布最广的颜色分量上进行二值化。
进一步,上述的一种图片文字分割的方法,所述步骤(2)中,文字区域图片被二值化成前景和背景,前景用黑色表示,背景用白色表示,前景中包含了文字的笔画和噪声。二值化的具体方法为:对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Yσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。
公式三:Tr(x)=μr(x)+k1×σr(x)
公式四:r(x)=min(r,σr(x)>Tσ)
进一步,上述的一种图片文字分割的方法,所述步骤(3)中处理的对象是步骤(2)中得到的二值图片。二值图片中的黑色像素表示前景,白色像素表示背景,黑色像素组成的连通分量包括了文字的笔画和噪声。在本步骤中对二值图片进行处理,采用连通分量分析方法,灰度一致性分析方法和基于颜色的聚类方法中的一种或多种,去除二值图片中被认定为噪声的连通分量。
进一步,上述的一种图片文字分割的方法,所述步骤(3)中用连通分量分析来去除噪声的方法具体为,把满足下列条件之一的连通分量当作噪声去除掉:
(1)同文字区域的边界相连;
(2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目;
(3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。
进一步,上述的一种图片文字分割的方法,所述步骤(3)中用灰度一致性分析来去除噪声的方法具体为:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。
公式五: | o p - m | st > k 2
公式五中,k2是一个常数,op是连通分量P中像素的灰度值。
进一步,上述的一种图片文字分割的方法,所述步骤(3)中用基于颜色的聚类来去除噪声的方法为:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。
本发明的效果在于:与现有方法相比,本发明能够取得更高的图片文字识别率,从而充分发挥图片文字信息在互联网图像检索中的巨大作用。
本发明之所以具有上述发明效果,其原因在于:现有的方法主要选择在彩色图片的固定颜色分量上进行二值化,但这并不合理,因为对于某些颜色的文字图片来说,其它的颜色分量更适合于二值化,而本发明能自适应地选取有利于二值化的颜色分量,从而取得更好的二值化效果。另外,对于现有方法不易去除的,具有与文字笔画相似几何特征和灰度值特征的噪声,本发明充分利用了噪声与文字笔画的颜色差异,进一步采用基于颜色的聚类方法有效的去除了这些噪声。因此,本发明能够得到更为清晰,噪声较少的二值文字图片,从而得到更好的图片文字识别结果。
附图说明
图1是本发明的流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细的描述。
本实施方式中,首先通过一种图片文字检测的方法对图片中的文字区域进行检测,然后采用本发明的图片文字分割方法把文字区域图片转换为二值文字图片。包括以下步骤:
1、图片文字检测,包括:
(1)合并原图在多个颜色分量上的边缘图,得到累积边缘图。
累积边缘图由在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的多个边缘图合并得到。合并的方法如公式一所示,E是累积边缘图,EY、EU和EV分别是在图片的YUV各个分量上用改进的Sobel边缘检测算子检测到的边缘图,E(x,y)是累积边缘图中坐标为(x,y)的点的边缘强度值,它等于EY、EU和EV中相应位置像素点的边缘强度值累加和与255中较小的一个。
公式一:E(x,y)=min(EY(x,y)+EU(x,y)+EV(x,y),255)
在上述过程中,在图片的YUV分量上用改进的Sobel边缘检测算子检测到的边缘图,具体方法如公式二所示,Eα是在图片的α分量上用改进的Sobel边缘检测算子检测到的边缘图,α∈{Y,U,V},SH、SV、SLD和SRD分别表示水平、垂直、左对角线和右对角线这四个方向上的Sobel边缘强度值,max表示计算最大值,Eα(x,y)是在α分量上,坐标为(x,y)的点的边缘强度值,它的值等于这一点在α分量上水平、垂直、左对角线和右对角线四个方向的最大Sobel边缘强度值。
公式二:Eα(x,y)=max(|SH|,|SV|,|SLD|,|SRD|)α∈{Y,U,V}
(2)对于累积边缘图中强度值大于阈值T(0<T<255)的边缘点,把这些边缘点置为它们在原图中的相应颜色,得到彩色的累积边缘图;然后,根据边缘点颜色的不同,用聚类的方法把彩色累积边缘图分解成若干个子边缘图,每张子边缘图中只含颜色相近的边缘点。在本具体实施例中,阈值T取为50,每张累积边缘图被分解成了3张子边缘图。
(3)在每张子边缘图中,多次进行水平和垂直投影,根据投影图进行垂直方向和水平方向的区域分割,从而定位图片中的文字区域,具体方法如下。
需要一个待处理区域集合S,刚开始时,集合S中只有步骤(2)中得到的子边缘图区域,在处理的过程中,每次在S中取一个区域A0进行处理,直到集合S为空为止。
对区域A0处理的方法是:首先对区域A0进行水平方向的投影,统计每行边缘像素的数目,然后根据A0的水平投影进行垂直方向的分割。如果A0在垂直方向是不可分割的,就把它作为一个整体进行垂直方向的投影和水平方向的分割;如果A0在垂直方向可以分割,则对A0在垂直方向进行分割,并把所有从A0中分割出来的区域A1,A2...An进行垂直方向的投影和水平方向的分割。如果区域Ai根据其垂直投影图不能再进行水平方向的分割,就把它放入结果集合R中,否则把从Ai分割出来的区域放入集合S中等待处理。
在上述过程中,区域分割的具体方法为:对于一个待分割的区域,垂直分割的方法是从下往上扫描边缘点的水平投影图做分割;水平分割的方法是从左往右扫描边缘点的垂直投影图做分割。上述水平和垂直分割在扫描的过程中,把强度相近的行归为一组,并随时更新这个组所有行的边缘像素数目平均值。如果当前扫描行的边缘像素数目和当前组的平均值差别很大,就进行分割,然后继续扫描下一行。只有扫描行的强度值大于一个阈值时,才开始一个新的组。当扫描到最后一行时,对这个区域的分割就完成了。
(4)在步骤(3)中定位到的文字区域中包括了错误判断的文字区域,利用基于SVM(support vector machine)分类器的方法过滤掉这些误判的文字区域,具体方法分为训练和判断两个过程:训练过程是预先进行的,在训练过程中,选取了大量的文字区域正负样本,输入SVM分类器进行训练;在判断过程中,把步骤(3)中检测到的文字区域输入SVM分类器进行判断,文字区域分为为正确的文字区域和误判的文字区域,误判的文字区域被过滤掉。
2、采用本发明的图片文字分割方法,把文字区域图片转换为二值文字图片。如图1所示是本发明的流程示意图。包括:
(1)对文字区域图片进行颜色分量选择,在所选择的颜色分量上,文字最为清晰。
如公式一所示,分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},则选择在YUV颜色空间中的α分量上进行二值化。CY、CU和CV的值由公式二求得,分别为边缘强度图EY,EU和EV的中央部分的边缘强度累加值,代表了文字区域图片在YUV各个颜色分量上的对比度;EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}
公式二:
C Y = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E Y ( i , j ) , C U = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E U ( i , j ) , C V = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E V ( i , j )
(2)对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。这样保证了在进行二值化之前,图片中的文字总是深色的,灰度值较小,有利于对图片进行统一的处理。判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
(3)在(1)中选择的颜色分量上,把文字区域图片二值化为前景和背景,前景用黑色表示,背景用白色表示。
对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景。对于每个像素x,我们用下面的方法计算局部阈值Tr(x):如公式三所示,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数。窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。在本实施例中,k1的值取为-0.2,Tσ的值取为文字区域图片中所有像素灰度值的标准方差。
公式三:Tr(x)=μr(x)+k1×σr(x)
公式四:r(x)=min(r,σr(x)>Tσ)
(4)对步骤(3)中得到的二值图片进行去噪。
去噪的具体方法主要包括三个部分:连通分量分析、灰度一致性分析和基于颜色的聚类。
a.用连通分量分析去除噪声,把满足下列条件之一的连通分量当作噪声去除掉:
(1)同文字区域的边界相连;
(2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目;
(3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。
b.用灰度一致性分析来去除噪声:对于二值图片连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去。
公式五: | o p - m | st > k 2
公式五中,k2是一个常数,op是连通分量P中像素的灰度值。本具体实施例中,k2取为2,当P中满足公式五的像素数目多于总像素数目的2/3的时候,P被认为是一个噪声而除去。
c.用基于颜色聚类的方法去除噪声:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。在本实施例中,对于C中的每个连通分量P,我们首先计算P中所有像素的平均颜色值c(P),然后用基于连通分量平均颜色值的k-means聚类方法把C分为两类:所占像素较多的一类被认为是文字笔画而保留;所占像素较少的一类被认为是噪声而除去。
最后把处理后的文字区域二值化图片输入给OCR软件进行识别,以得到图片文字识别结果。
下面的实验结果表明,与现有方法相比,本发明可以取得更高的文字识别查全率和查准率,从而充分发挥图片文字信息在图像检索中的巨大作用。
本实施例中建立的数据库包含了1000张含有文字的Web图片,这些图片是从互联网上随机抓取下来的,大多含有复杂的背景,以及大小、颜色、分辨率和对比度均不相同的文字,能够反映互联网上文字图片的真实情况,有助于证明本发明方法对各种情况的适应性以及最终结果的有效性。经过人工统计,这1000张图片中含有1621个文字区域,1621个文字区域中包含了10594个文字。
在本实施例中,上述1621个人工标注的文字区域被送给图片文字分割模块进行处理,得到二值图片,然后用同一个OCR软件对二值图片进行识别得到文字识别结果。这样,由OCR软件的识别结果可以对图片文字分割的方法作出评价。为了证明本发明在图片文字分割方面的有效性,我们测试了以下3种方法作为实验对比:
I.本具体实施例;
II.本具体实施例,但不包括用基于颜色的聚类方法进行去噪;
III.现有方法:2005年在IEEE Transactions on Circuits andSystems for Video Technology上发表的文献“A comprehensive methodfor multilingual video text detection,localization,andextraction”(作者是Michael R.Lyu,Jiqiang Song,Min Cai,页码是243-254),该方法在固定的颜色分量上对文字区域图片进行二值化,并且利用连通分量的几何特征去除噪声。
实验采用了两个评价指标,即文字识别查全率和文字识别查准率,两个指标都是越高越好:
文字识别查全率=正确识别的文字数目/总文字数目
文字识别查准率=正确识别的文字数目/识别的文字数目
表1实验结果对比
  文字识别查全率   文字识别查准率
  本发明I本发明II现有方法III   67.5%60.4%43.8%   82.9%80.8%58.7%
从表1中可以看出,本发明的方法I和II在查全率和查准率上都比现有方法III要高,主要原因包括:本发明自适应的选择了比较适合于二值化的颜色分量,并且在这个颜色分量上对文字区域图片进行二值化,相比现有方法在固定颜色分量上进行二值化,本发明的方法能够取得更好的二值化结果;本发明的噪声去除方法能够更为有效的去除二值图片中的噪声,从而有利于获取更好的文字识别结果。对比本发明的方法I和II,方法I比方法II取得了更好的文字识别结果,这充分说明了本发明提出的用基于颜色聚类的方法去除噪声的有效性。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (9)

1.一种图片文字分割的方法,用于把图片文字检测的结果由文字区域图片转换成可以被OCR软件识别的二值图片,其特征在于,包括以下步骤:
(1)对文字区域图片进行颜色分量选择,在所选择的颜色分量上,文字最为清晰;
(2)在步骤(1)选取的颜色分量上,对文字区域图片进行二值化,得到二值图片;
(3)对步骤(2)得到的二值图片进行去噪。
2.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(1)与步骤(2)之间增加如下步骤:对图片中文字灰度值的深浅进行判断,如果是浅色的文字,则反转文字区域图片的灰度值,否则灰度值不变。
3.如权利要求2所述的图片文字分割的方法,其特征在于,判断文字灰度值深浅的方法为:用Otsu方法把文字区域图片二值化,然后找出白色和黑色的4连通分量,去除外接矩形宽高都极小的连通分量,最后统计出白色连通分量个数Comwhite和黑色连通分量个数Comblack,如果Comwhite>Comblack,则判断文字是浅色的,反之是深色的。
4.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(1)中对文字区域图片进行颜色分量选择的具体方法为:
采用公式一分别求得文字区域图片在YUV各个颜色分量上的对比度CY、CU和CV,Cα为它们中的最大值,α∈{Y,U,V},选择在YUV颜色空间中的α分量;CY、CU和CV的值由公式二求得,分别为边缘强度图EY、EU和EV的中央部分的边缘强度累加值,表示文字区域图片在YUV颜色分量上的对比度,EY、EU和EV是文字区域图片分别在YUV各个颜色分量上的边缘强度图,w和h分别为文字区域图片的宽和高。
公式一:Cα=max(CY,CU,CV),α∈{Y,U,V}
公式二:
C Y = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E Y ( i , j ) , C U = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E U ( i , j ) , C V = Σ w / 3 ≤ x ≤ w × 2 / 3 h / 3 ≤ y ≤ h × 2 / 3 E V ( i , j )
5.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(2)中对文字区域图片进行二值化时,图片被二值化成前景和背景,前景用黑色表示,背景用白色表示,前景中包含了文字的笔画和噪声;二值化的具体方法为:对于图片中的每一个像素x,求得一个局部阈值Tr(x),如果这个像素的灰度值小于Tr(x)的话,这个像素被二值化成前景,否则是背景;所述局部阈值Tr(x)采用公式三计算得到,Tr(x)的值从一个以像素x为中心,大小为r(x)的窗口Wr中统计得到,μr(x)是Wr中像素的平均灰度值,σr(x)是Wr中像素灰度值的标准方差,k1是一个常数;窗口大小r(x)由公式四计算得到,公式四中,Tσ是一个常数,r(x)为像素灰度值的标准方差大于Tσ的最小窗口的大小。
公式三:Tr(x)=μr(x)+k1×σr(x)
公式四:r(x)=min(r,σr(x)>Tσ)
6.如权利要求1所述的图片文字分割的方法,其特征在于,所述步骤(3)中的去噪是采用连通分量分析方法,灰度一致性分析方法和基于颜色的聚类方法中的一种或多种,去除二值图片中被认定为噪声的连通分量。
7.如权利要求6所述的一种图片文字分割的方法,其特征在于,所述的连通分量分析方法是把二值图片中满足下列条件之一的连通分量当作噪声去除掉:
(1)同文字区域图片的边界相连;
(2)连通分量所占的像素数目小于一个文字笔画所占的最少像素数目;
(3)连通分量的宽高比大于文字笔画的最大宽高比,或者小于文字笔画的最小宽高比。
8.如权利要求6所述的图片文字分割的方法,其特征在于,所述灰度一致性分析方法具体为:对于连通分量中的像素,首先恢复它在步骤(1)中所选择的颜色分量上相应位置的灰度值,然后计算所有连通分量中像素灰度值的方差st和均值m,并检查每个连通分量P,如果连通分量P中满足公式五的像素数目大于这个连通分量中所有像素数目的一定比例,那么P被当作是噪声而除去;
公式五: | o P - m | st > k 2 , k2是一个常数,oP是连通分量P中像素的灰度值。
9.如权利要求6所述的图片文字分割的方法,其特征在于,所述基于颜色的聚类方法具体为:首先将连通分量中的像素恢复其在原图中的颜色,得到彩色的连通分量集合C;然后用基于颜色的聚类方法把连通分量集合C分为两类,一类是文字的笔画,另一类是噪声,从而去除噪声。
CN2007101221533A 2007-09-21 2007-09-21 一种图片文字分割的方法 Expired - Fee Related CN101122953B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007101221533A CN101122953B (zh) 2007-09-21 2007-09-21 一种图片文字分割的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007101221533A CN101122953B (zh) 2007-09-21 2007-09-21 一种图片文字分割的方法

Publications (2)

Publication Number Publication Date
CN101122953A true CN101122953A (zh) 2008-02-13
CN101122953B CN101122953B (zh) 2010-11-17

Family

ID=39085284

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007101221533A Expired - Fee Related CN101122953B (zh) 2007-09-21 2007-09-21 一种图片文字分割的方法

Country Status (1)

Country Link
CN (1) CN101122953B (zh)

Cited By (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN103530625A (zh) * 2013-10-28 2014-01-22 北京金和软件股份有限公司 一种基于数字图像处理的光学字符识别方法
CN103841416A (zh) * 2012-11-27 2014-06-04 京瓷办公信息系统株式会社 图像处理装置
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN101620680B (zh) * 2008-07-03 2014-06-25 三星电子株式会社 字符图像的识别和翻译方法以及装置
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104462381A (zh) * 2014-12-11 2015-03-25 北京中细软移动互联科技有限公司 商标图像检索方法
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN104967749A (zh) * 2015-07-29 2015-10-07 努比亚技术有限公司 一种处理图文信息的装置和方法
CN105404885A (zh) * 2015-10-28 2016-03-16 北京工业大学 一种二维字符图形验证码复杂背景噪音干扰去除方法
CN106204563A (zh) * 2016-07-04 2016-12-07 傲讯全通科技(深圳)有限公司 一种图像转换方法
CN103729638B (zh) * 2012-10-12 2016-12-21 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN107358184A (zh) * 2017-06-30 2017-11-17 中国科学院自动化研究所 文档文字的提取方法及提取装置
CN107403405A (zh) * 2016-05-20 2017-11-28 富士通株式会社 图像处理装置、图像处理方法以及信息处理装置
CN108073931A (zh) * 2016-11-08 2018-05-25 广州城市职业学院 一种复杂背景图像下去除非文字图形的方法
WO2018103608A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 一种文字检测方法、装置及存储介质
CN109074705A (zh) * 2016-02-09 2018-12-21 瑞可利有限公司 商品数据登记终端、商品数据登记方法以及商品数据登记程序
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN109408177A (zh) * 2018-09-29 2019-03-01 北京金山安全软件有限公司 一种配置图片中文字颜色的方法、装置及电子设备
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN111488885A (zh) * 2020-06-28 2020-08-04 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN111651674A (zh) * 2020-06-03 2020-09-11 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN112700458A (zh) * 2020-12-31 2021-04-23 南京太司德智能电气有限公司 一种电力scada告警界面文字分割及处理方法
CN112990022A (zh) * 2021-03-18 2021-06-18 广州伟宏智能科技有限公司 一种ocr文字识别提取方法
CN116524196A (zh) * 2023-06-21 2023-08-01 南方电网数字平台科技(广东)有限公司 一种基于图像识别技术的输电线智能检测系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9809679D0 (en) * 1998-05-06 1998-07-01 Xerox Corp Portable text capturing method and device therefor
CN100362525C (zh) * 2005-06-06 2008-01-16 英华达(上海)电子有限公司 手机中使用图像识别进行名片信息的采集与录入的方法

Cited By (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101620680B (zh) * 2008-07-03 2014-06-25 三星电子株式会社 字符图像的识别和翻译方法以及装置
CN101719142B (zh) * 2009-12-10 2011-11-30 湖南大学 基于分类字典的稀疏表示图片文字检测方法
CN103729638B (zh) * 2012-10-12 2016-12-21 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN103841416B (zh) * 2012-11-27 2017-03-01 京瓷办公信息系统株式会社 图像处理装置
CN103841416A (zh) * 2012-11-27 2014-06-04 京瓷办公信息系统株式会社 图像处理装置
CN103854019A (zh) * 2012-11-29 2014-06-11 北京千橡网景科技发展有限公司 图像中的字段提取方法及装置
CN103854019B (zh) * 2012-11-29 2018-11-30 捷讯平和(北京)科技发展有限公司 图像中的字段提取方法及装置
CN104298982A (zh) * 2013-07-16 2015-01-21 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN104298982B (zh) * 2013-07-16 2019-03-08 深圳市腾讯计算机系统有限公司 一种文字识别方法及装置
CN103530625A (zh) * 2013-10-28 2014-01-22 北京金和软件股份有限公司 一种基于数字图像处理的光学字符识别方法
CN104462381A (zh) * 2014-12-11 2015-03-25 北京中细软移动互联科技有限公司 商标图像检索方法
CN104866849A (zh) * 2015-04-30 2015-08-26 天津大学 一种基于移动终端的食品营养成分标签识别方法
CN104967749A (zh) * 2015-07-29 2015-10-07 努比亚技术有限公司 一种处理图文信息的装置和方法
CN105404885A (zh) * 2015-10-28 2016-03-16 北京工业大学 一种二维字符图形验证码复杂背景噪音干扰去除方法
CN105404885B (zh) * 2015-10-28 2019-03-22 北京工业大学 一种二维字符图形验证码复杂背景噪音干扰去除方法
CN109074705A (zh) * 2016-02-09 2018-12-21 瑞可利有限公司 商品数据登记终端、商品数据登记方法以及商品数据登记程序
CN107403405A (zh) * 2016-05-20 2017-11-28 富士通株式会社 图像处理装置、图像处理方法以及信息处理装置
CN106204563B (zh) * 2016-07-04 2019-11-15 傲讯全通科技(深圳)有限公司 一种图像转换方法
CN106204563A (zh) * 2016-07-04 2016-12-07 傲讯全通科技(深圳)有限公司 一种图像转换方法
CN108073931A (zh) * 2016-11-08 2018-05-25 广州城市职业学院 一种复杂背景图像下去除非文字图形的方法
US10896349B2 (en) 2016-12-08 2021-01-19 Tencent Technology (Shenzhen) Company Limited Text detection method and apparatus, and storage medium
WO2018103608A1 (zh) * 2016-12-08 2018-06-14 腾讯科技(深圳)有限公司 一种文字检测方法、装置及存储介质
CN107358184A (zh) * 2017-06-30 2017-11-17 中国科学院自动化研究所 文档文字的提取方法及提取装置
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN109408177A (zh) * 2018-09-29 2019-03-01 北京金山安全软件有限公司 一种配置图片中文字颜色的方法、装置及电子设备
CN109408177B (zh) * 2018-09-29 2022-08-12 北京乐蜜科技有限责任公司 一种配置图片中文字颜色的方法、装置及电子设备
CN109409377A (zh) * 2018-12-03 2019-03-01 龙马智芯(珠海横琴)科技有限公司 图像中文字的检测方法及装置
CN111651674A (zh) * 2020-06-03 2020-09-11 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN111651674B (zh) * 2020-06-03 2023-08-25 北京妙医佳健康科技集团有限公司 双向搜索方法、装置及电子设备
CN111488885B (zh) * 2020-06-28 2020-09-25 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN111488885A (zh) * 2020-06-28 2020-08-04 成都四方伟业软件股份有限公司 一种图片主题色系智能提取方法及装置
CN112700458A (zh) * 2020-12-31 2021-04-23 南京太司德智能电气有限公司 一种电力scada告警界面文字分割及处理方法
CN112990022A (zh) * 2021-03-18 2021-06-18 广州伟宏智能科技有限公司 一种ocr文字识别提取方法
CN116524196A (zh) * 2023-06-21 2023-08-01 南方电网数字平台科技(广东)有限公司 一种基于图像识别技术的输电线智能检测系统
CN116524196B (zh) * 2023-06-21 2023-09-01 南方电网数字平台科技(广东)有限公司 一种基于图像识别技术的输电线智能检测系统

Also Published As

Publication number Publication date
CN101122953B (zh) 2010-11-17

Similar Documents

Publication Publication Date Title
CN101122953A (zh) 一种图片文字分割的方法
Pan et al. A robust system to detect and localize texts in natural scene images
CN101122952A (zh) 一种图片文字检测的方法
Shivakumara et al. Accurate video text detection through classification of low and high contrast images
Gllavata et al. A robust algorithm for text detection in images
US9965695B1 (en) Document image binarization method based on content type separation
CN107491730A (zh) 一种基于图像处理的化验单识别方法
JP5492205B2 (ja) 印刷媒体ページの記事へのセグメント化
Valizadeh et al. Binarization of degraded document image based on feature space partitioning and classification
KR20110056380A (ko) 이미지 및 비디오 ocr을 위한 텍스트 로컬화
Ma et al. Text detection in natural images based on multi-scale edge detetion and classification
CN111461131B (zh) 身份证号码信息识别方法、装置、设备及存储介质
CN109389115B (zh) 文本识别方法、装置、存储介质和计算机设备
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
Song et al. A novel image text extraction method based on k-means clustering
CN111507344A (zh) 从图像中识别出文字的方法和装置
CN106326921B (zh) 文本检测方法
Sanketi et al. Localizing blurry and low-resolution text in natural images
Chidiac et al. A robust algorithm for text extraction from images
Zhan et al. A robust split-and-merge text segmentation approach for images
JP5796107B2 (ja) テキスト検出の方法及び装置
Gui et al. A fast caption detection method for low quality video images
Satish et al. Edge assisted fast binarization scheme for improved vehicle license plate recognition
Aghajari et al. A text localization algorithm in color image via new projection profile
Zhuge et al. Robust video text detection with morphological filtering enhanced MSER

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20101117

Termination date: 20130921