CN104978565B - 一种普适性的图像文字提取方法 - Google Patents

一种普适性的图像文字提取方法 Download PDF

Info

Publication number
CN104978565B
CN104978565B CN201510236463.2A CN201510236463A CN104978565B CN 104978565 B CN104978565 B CN 104978565B CN 201510236463 A CN201510236463 A CN 201510236463A CN 104978565 B CN104978565 B CN 104978565B
Authority
CN
China
Prior art keywords
color
image
pixel
histogram
pictograph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510236463.2A
Other languages
English (en)
Other versions
CN104978565A (zh
Inventor
郑海舟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd
Original Assignee
XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd filed Critical XIAMEN YIGE SOFTWARE TECHNOLOGY Co Ltd
Priority to CN201510236463.2A priority Critical patent/CN104978565B/zh
Publication of CN104978565A publication Critical patent/CN104978565A/zh
Application granted granted Critical
Publication of CN104978565B publication Critical patent/CN104978565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Facsimile Image Signal Circuits (AREA)

Abstract

本发明公开了一种普适性的图像文字提取方法,其包括以下步骤:对图像进行颜色空间转化;对图像进行颜色降维;对降维后的图像进行颜色直方图统计;根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;根据图像的颜色复杂度类别对原图像进行二值化处理。本发明能够对文本图像的背景复杂度进行评估,进而自动选择对应的二值化算法,适合对不同背景复杂度的图像进行文字提取。

Description

一种普适性的图像文字提取方法
技术领域
本发明涉及计算机视觉领域,特别涉及一种普适性的图像文字提取方法。
背景技术
文字识别这项技术已经有几十年的历史了,从早期的光学字符识别(OCR)到当下的移动设备采集的各种图像文字信息提取,这其中的算法与技术经过了革命性的改进与提高。计算机视觉与机器学习的快速发展给文字识别技术带来了新的力量,对于传统的印刷书籍、文献等扫描识别已经不是当下文字识别的主要任务,如何让计算机去理解互联网中的大量图片、视频才是新的需求。
经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像有理想的识别率。但是,现实生活中有很多带有文字的场景,比如互联网上用户上传的广告图片、网页截图,街道两边的广告牌,超市里的各种产品宣传广告等,想要获得这些处理种类复杂图片中的文字,传统的OCR技术并不能得到满意的识别效果。
现在互联网中的图片根据背景的复杂度大致可以分为两类:一类是背景简单,文字排列规则的文本屏幕截图;另一类是含有文字信息的颜色较丰富的广告和宣传图片。这两类图片分别对应着不同的图片文字二值化技术。对于第一类图片,因为图片的底色较为单一,所以可以选择单一阈值就可以得到很好的二值化效果;对于第二类图片,图片的颜色种类较多,单一阈值的二值化算法并不能提取所有文字区域,所以必须用基于颜色聚类的方法来进行多阈值二值化。但问题的关键是这两类二值化算法都不能适用于另一类情况,所以在实际应用中,在我们并不知道是哪类图像的前提下,没有有效的二值化解决方案。
发明内容
本发明的目的在于提供一种普适性的图像文字提取方法,其能够对图像中的背景复杂度进行评估,进而自动选择对应的二值化算法进行图像文字提取。
为实现上述目的,本发明采用以下技术方案:
一种普适性的图像文字提取方法,包括以下步骤:
S1、对图像进行颜色空间转化;
S2、对图像进行颜色降维;
S3、对降维后的图像进行颜色直方图统计;
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;
S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
优选地,所述步骤S1包括以下分步骤:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
优选地,所述步骤S2通过以下方法实现:
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,得到降维后的图像。
优选地,所述步骤S3包括以下分步骤:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应该序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图。
优选地,所述步骤S4包括以下分步骤:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小。
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
优选地,所述步骤S5通过以分步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取;
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。
优选地,所述步骤S51通过以下步骤实现:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
优选地,所述步骤S52通过以下步骤实现:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、建立聚类条件模型对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
S525:对步骤S524中得到的多个二值化结果进行组合。
优选地,所述步骤S525通过以下步骤实现:
S5251、对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留。
S5252、对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明能够对图像中的背景复杂度进行评估,进而自动选择对应的二值化算法,适合对不同背景复杂度的图像进行文字提取。
附图说明
图1为本发明的工作流程示意图。
图2为一幅色彩丰富的图像原图。
图3示出了对图2降维后得到的结果。
图4示出了图像的颜色直方图结果。
图5示出了一幅色彩复杂的含有文本的图像。
图6示出了针对每个颜色聚类中心对图像进行二值化的结果。
图7示出了对多个二值化结果进行组合后的结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1,本发明公开了一种普适性的图像文字提取方法,其包括以下步骤:
S1、对图像进行颜色空间转化
颜色空间是一系列颜色的数学表现形式。三种最流行的颜色模型是RGB、YIQ(YUV或YCbCr)以及CMYK,但是这三种颜色和我们直觉概念上的色调,饱和度,亮度没有直接联系,而我们人眼区分颜色的种类往往是区分颜色之间色调、饱和度、亮度的差异。Lab颜色空间是基于人对颜色的感觉,它致力于感知均匀性,它的L分量密切匹配人类亮度感知,a和b分量进行颜色平衡。所以本实施例在分析图像颜色复杂度时,把图像由RGB颜色空间转换成Lab颜色空间。
步骤S1具体通过以下步骤实现:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
S2、对图像进行颜色降维
由于一幅彩色图像中的每个像素点都是由L、a、b三通道组成的一个颜色矢量,这样一幅较大的图像中可能存在着100×255×255种颜色类型,这样的数量对于我们进行图像颜色分析是极困难的,所以我们需要对图像的颜色进行降维,在保证图像基本内容不变的前提下,希望用尽可能少的颜色来表达整幅图像。
由于分析图像颜色复杂度只需要粗略了解图像颜色组成,所以在本实施例中将原来每个通道的灰度降至8级灰度,这样整个图像出现的颜色种类最多为8×8×8(即512)种。
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,得到降维后的图像。
为了更直观的理解,结合图2和图3所示,图2为一幅色彩丰富的图像原图,经步骤S2进行降维处理后,得到图3所示的结果。
S3、对降维后的图像进行颜色直方图统计
经过S2步骤后,图像中包含的颜色种类大大减少,这时,我们可以对图像中所有出现的颜色进行统计,计算一共出现了多少种颜色,以及每种颜色出现的频率。
步骤S3具体通过以下步骤实现:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数,若为0,则表示该类颜色没有出现过;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应该序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图(如图4所示)。
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类
从步骤S3得到的颜色直方图中可以分析到,越是复杂的图像,得到的直方图越分散而平均,越是简单的图像,得到的直方图越集中。我们根据颜色直方图计算其熵值,作为图像颜色复杂性的度量。
步骤S4具体通过以下步骤实现:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小。
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
步骤S5通过以步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取。该步骤具体包括以下子步骤:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。该步骤具体包括以下子步骤:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
其中,τ为二值化阈值,可根据实际情况具体设定。
S525:对步骤S524中得到的多个二值化结果进行组合。对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留;对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
为了更直观的理解,结合图5、图6及图7所示,图5给出了一幅色彩复杂的含有文本的图像,其经过步骤S524处理后,得到了图6所示的多个二值化结果,该多个二值化结果经过步骤S525处理后,得到图7所示的最终二值化结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种普适性的图像文字提取方法,其特征在于,包括以下步骤:
S1、对图像进行颜色空间转化;
S2、对图像进行颜色降维;
S3、对降维后的图像进行颜色直方图统计;
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;
S5、根据图像的颜色复杂度类别对原图像进行二值化处理;
所述步骤S1包括以下分步骤:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
2.如权利要求1所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S2通过以下方法实现:
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,通过上面的公式,对像素点的颜色值进行计算,从而得到降维后的图像。
3.如权利要求2所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S3包括以下分步骤:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图。
4.如权利要求3所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S4包括以下分步骤:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数,即颜色直方图中颜色c对应的直方图的值;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小;
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
5.如权利要求4所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S5通过以下分步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取;
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。
6.如权利要求5所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S51通过以下步骤实现:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
7.如权利要求5所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S52通过以下步骤实现:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
其中,τ为二值化阈值;
S525:对步骤S524中得到的多个二值化结果进行组合。
8.如权利要求7所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S525通过以下步骤实现:
S5251、对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留;
S5252、对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
CN201510236463.2A 2015-05-11 2015-05-11 一种普适性的图像文字提取方法 Active CN104978565B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510236463.2A CN104978565B (zh) 2015-05-11 2015-05-11 一种普适性的图像文字提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510236463.2A CN104978565B (zh) 2015-05-11 2015-05-11 一种普适性的图像文字提取方法

Publications (2)

Publication Number Publication Date
CN104978565A CN104978565A (zh) 2015-10-14
CN104978565B true CN104978565B (zh) 2019-06-28

Family

ID=54275050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510236463.2A Active CN104978565B (zh) 2015-05-11 2015-05-11 一种普适性的图像文字提取方法

Country Status (1)

Country Link
CN (1) CN104978565B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105436837B (zh) * 2016-01-26 2017-10-17 广东欧珀移动通信有限公司 一种金属壳体的加工方法和装置
US9779293B2 (en) * 2016-01-27 2017-10-03 Honeywell International Inc. Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition
CN106097358B (zh) * 2016-06-17 2019-11-19 广州市幸福网络技术有限公司 图像背景复杂度检测方法及系统
CN108205676B (zh) * 2017-11-22 2019-06-07 西安万像电子科技有限公司 提取图像文字区域的方法和装置
CN109271988A (zh) * 2018-08-30 2019-01-25 中国传媒大学 一种基于图像分割及动态阈值的字幕提取方法
CN111064977B (zh) * 2019-12-05 2021-12-03 任子行网络技术股份有限公司 网络综艺节目备案在线监控的方法、系统及可读存储介质
CN111798459A (zh) * 2020-06-16 2020-10-20 北京林业大学 基于切换思想的无人机航拍树木自适应分割方法及系统
CN112686786A (zh) * 2020-12-29 2021-04-20 新疆医科大学第一附属医院 一种医疗护理用教学系统及教学方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN103593458A (zh) * 2013-11-21 2014-02-19 电子科技大学 一种基于颜色特征与倒排索引的海量图像检索系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6470094B1 (en) * 2000-03-14 2002-10-22 Intel Corporation Generalized text localization in images
CN101615252A (zh) * 2008-06-25 2009-12-30 中国科学院自动化研究所 一种自适应图像文本信息提取方法
CN103593458A (zh) * 2013-11-21 2014-02-19 电子科技大学 一种基于颜色特征与倒排索引的海量图像检索系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于颜色复杂度的加权颜色直方图图像检索算法;于永健 等;《小型微型计算机系统》;20090331;第30卷(第3期);第507-511页

Also Published As

Publication number Publication date
CN104978565A (zh) 2015-10-14

Similar Documents

Publication Publication Date Title
CN104978565B (zh) 一种普适性的图像文字提取方法
US9524028B2 (en) Visual language for human computer interfaces
EP1271403B1 (en) Method and device for character location in images from digital camera
WO2017092431A1 (zh) 基于肤色的人手检测方法及装置
US7606414B2 (en) Fusion of color space data to extract dominant color
Karatzas et al. Colour text segmentation in web images based on human perception
El Khoury et al. Color and sharpness assessment of single image dehazing
WO2018189802A1 (ja) 画像処理装置、画像処理方法、及びプログラム
CN101295359A (zh) 图像处理程序及图像处理装置
CN105260428A (zh) 图片处理方法和装置
Gritzman et al. Comparison of colour transforms used in lip segmentation algorithms
Bouillon et al. Grayification: a meaningful grayscale conversion to improve handwritten historical documents analysis
JP5090330B2 (ja) 画像処理装置、画像処理方法およびプログラム
CN110889718B (zh) 方案筛选方法、方案筛选装置、介质以及电子设备
Eynard et al. Laplacian colormaps: a framework for structure‐preserving color transformations
Gunduz et al. A better way of extracting dominant colors using salient objects with semantic segmentation
Huang et al. Detecting shadows in high-resolution remote-sensing images of urban areas using spectral and spatial features
Antonacopoulos et al. An anthropocentric approach to text extraction from WWW images
KR101334794B1 (ko) 특징정보를 이용하는 꽃 인식 장치 및 방법
CN115063800B (zh) 文本识别方法和电子设备
WO2013145445A1 (ja) 色評価装置、色評価方法及びコンピュータ・プログラム
Hu et al. Jpeg ringing artifact visibility evaluation
JP2014071556A (ja) 画像処理装置、画像処理方法、及びプログラム
CN109800758A (zh) 一种极大值区域检测的自然场景文字检测方法
Berbar Skin colour correction and faces detection techniques based on HSL and R colour components

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant