CN104978565B - 一种普适性的图像文字提取方法 - Google Patents
一种普适性的图像文字提取方法 Download PDFInfo
- Publication number
- CN104978565B CN104978565B CN201510236463.2A CN201510236463A CN104978565B CN 104978565 B CN104978565 B CN 104978565B CN 201510236463 A CN201510236463 A CN 201510236463A CN 104978565 B CN104978565 B CN 104978565B
- Authority
- CN
- China
- Prior art keywords
- color
- image
- pixel
- histogram
- pictograph
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Artificial Intelligence (AREA)
- Image Analysis (AREA)
- Facsimile Image Signal Circuits (AREA)
Abstract
本发明公开了一种普适性的图像文字提取方法,其包括以下步骤:对图像进行颜色空间转化;对图像进行颜色降维;对降维后的图像进行颜色直方图统计;根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;根据图像的颜色复杂度类别对原图像进行二值化处理。本发明能够对文本图像的背景复杂度进行评估,进而自动选择对应的二值化算法,适合对不同背景复杂度的图像进行文字提取。
Description
技术领域
本发明涉及计算机视觉领域,特别涉及一种普适性的图像文字提取方法。
背景技术
文字识别这项技术已经有几十年的历史了,从早期的光学字符识别(OCR)到当下的移动设备采集的各种图像文字信息提取,这其中的算法与技术经过了革命性的改进与提高。计算机视觉与机器学习的快速发展给文字识别技术带来了新的力量,对于传统的印刷书籍、文献等扫描识别已经不是当下文字识别的主要任务,如何让计算机去理解互联网中的大量图片、视频才是新的需求。
经典的文字识别技术只针对通过扫描得到的背景简单、分辨率和对比度高的图像有理想的识别率。但是,现实生活中有很多带有文字的场景,比如互联网上用户上传的广告图片、网页截图,街道两边的广告牌,超市里的各种产品宣传广告等,想要获得这些处理种类复杂图片中的文字,传统的OCR技术并不能得到满意的识别效果。
现在互联网中的图片根据背景的复杂度大致可以分为两类:一类是背景简单,文字排列规则的文本屏幕截图;另一类是含有文字信息的颜色较丰富的广告和宣传图片。这两类图片分别对应着不同的图片文字二值化技术。对于第一类图片,因为图片的底色较为单一,所以可以选择单一阈值就可以得到很好的二值化效果;对于第二类图片,图片的颜色种类较多,单一阈值的二值化算法并不能提取所有文字区域,所以必须用基于颜色聚类的方法来进行多阈值二值化。但问题的关键是这两类二值化算法都不能适用于另一类情况,所以在实际应用中,在我们并不知道是哪类图像的前提下,没有有效的二值化解决方案。
发明内容
本发明的目的在于提供一种普适性的图像文字提取方法,其能够对图像中的背景复杂度进行评估,进而自动选择对应的二值化算法进行图像文字提取。
为实现上述目的,本发明采用以下技术方案:
一种普适性的图像文字提取方法,包括以下步骤:
S1、对图像进行颜色空间转化;
S2、对图像进行颜色降维;
S3、对降维后的图像进行颜色直方图统计;
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;
S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
优选地,所述步骤S1包括以下分步骤:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
优选地,所述步骤S2通过以下方法实现:
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,得到降维后的图像。
优选地,所述步骤S3包括以下分步骤:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应该序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图。
优选地,所述步骤S4包括以下分步骤:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小。
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
优选地,所述步骤S5通过以分步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取;
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。
优选地,所述步骤S51通过以下步骤实现:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
优选地,所述步骤S52通过以下步骤实现:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、建立聚类条件模型对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
S525:对步骤S524中得到的多个二值化结果进行组合。
优选地,所述步骤S525通过以下步骤实现:
S5251、对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留。
S5252、对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明能够对图像中的背景复杂度进行评估,进而自动选择对应的二值化算法,适合对不同背景复杂度的图像进行文字提取。
附图说明
图1为本发明的工作流程示意图。
图2为一幅色彩丰富的图像原图。
图3示出了对图2降维后得到的结果。
图4示出了图像的颜色直方图结果。
图5示出了一幅色彩复杂的含有文本的图像。
图6示出了针对每个颜色聚类中心对图像进行二值化的结果。
图7示出了对多个二值化结果进行组合后的结果。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
请参阅图1,本发明公开了一种普适性的图像文字提取方法,其包括以下步骤:
S1、对图像进行颜色空间转化
颜色空间是一系列颜色的数学表现形式。三种最流行的颜色模型是RGB、YIQ(YUV或YCbCr)以及CMYK,但是这三种颜色和我们直觉概念上的色调,饱和度,亮度没有直接联系,而我们人眼区分颜色的种类往往是区分颜色之间色调、饱和度、亮度的差异。Lab颜色空间是基于人对颜色的感觉,它致力于感知均匀性,它的L分量密切匹配人类亮度感知,a和b分量进行颜色平衡。所以本实施例在分析图像颜色复杂度时,把图像由RGB颜色空间转换成Lab颜色空间。
步骤S1具体通过以下步骤实现:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
S2、对图像进行颜色降维
由于一幅彩色图像中的每个像素点都是由L、a、b三通道组成的一个颜色矢量,这样一幅较大的图像中可能存在着100×255×255种颜色类型,这样的数量对于我们进行图像颜色分析是极困难的,所以我们需要对图像的颜色进行降维,在保证图像基本内容不变的前提下,希望用尽可能少的颜色来表达整幅图像。
由于分析图像颜色复杂度只需要粗略了解图像颜色组成,所以在本实施例中将原来每个通道的灰度降至8级灰度,这样整个图像出现的颜色种类最多为8×8×8(即512)种。
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,得到降维后的图像。
为了更直观的理解,结合图2和图3所示,图2为一幅色彩丰富的图像原图,经步骤S2进行降维处理后,得到图3所示的结果。
S3、对降维后的图像进行颜色直方图统计
经过S2步骤后,图像中包含的颜色种类大大减少,这时,我们可以对图像中所有出现的颜色进行统计,计算一共出现了多少种颜色,以及每种颜色出现的频率。
步骤S3具体通过以下步骤实现:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数,若为0,则表示该类颜色没有出现过;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应该序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图(如图4所示)。
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类
从步骤S3得到的颜色直方图中可以分析到,越是复杂的图像,得到的直方图越分散而平均,越是简单的图像,得到的直方图越集中。我们根据颜色直方图计算其熵值,作为图像颜色复杂性的度量。
步骤S4具体通过以下步骤实现:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小。
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
S5、根据图像的颜色复杂度类别对原图像进行二值化处理。
步骤S5通过以步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取。该步骤具体包括以下子步骤:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。该步骤具体包括以下子步骤:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
其中,τ为二值化阈值,可根据实际情况具体设定。
S525:对步骤S524中得到的多个二值化结果进行组合。对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留;对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
为了更直观的理解,结合图5、图6及图7所示,图5给出了一幅色彩复杂的含有文本的图像,其经过步骤S524处理后,得到了图6所示的多个二值化结果,该多个二值化结果经过步骤S525处理后,得到图7所示的最终二值化结果。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (8)
1.一种普适性的图像文字提取方法,其特征在于,包括以下步骤:
S1、对图像进行颜色空间转化;
S2、对图像进行颜色降维;
S3、对降维后的图像进行颜色直方图统计;
S4、根据颜色直方图计算图像的颜色复杂度,并根据颜色复杂度对图像划定分类;
S5、根据图像的颜色复杂度类别对原图像进行二值化处理;
所述步骤S1包括以下分步骤:
S11、遍历图像中的每个像素点,将每个像素点的(R、G、B)颜色矢量转换为(X、Y、Z)颜色矢量,其转换公式如下:
X=0.412R+0.358G+0.180B
Y=0.213R+0.715G+0.072B
Z=0.019R+0.119G+0.950B
X=X/(255×0.95)
Y=Y/255
Z=Z/(255×1.089)
S12、将每个像素点的(X、Y、Z)颜色矢量转换为(L、a、b)颜色矢量,
若Y>0.008856,则:
fY=Y1/3
fX=X1/3
fZ=Z1/3
L=116×fY-16
若Y<0.008856,则:
fY=7.787Y+16/116
fX=7.787X+16/116
fZ=7.787Z+16/116
L=903.3Y
a和b的计算公式如下:
a=500(fX-fY)+128
b=200(fY-fZ)+128
S13、经过颜色空间转换后,原图像中的每个点的颜色用(L、a、b)矢量表示,其中L的取值范围为[0,100],a和b的取值范围为[-128,127]。
2.如权利要求1所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S2通过以下方法实现:
设图像坐标为(x0,y0)处的颜色矢量为(IL0,Ia0,Ib0),通过下式计算颜色矢量(IL,Ia,Ib):
遍历图像中的每个像素点,通过上面的公式,对像素点的颜色值进行计算,从而得到降维后的图像。
3.如权利要求2所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S3包括以下分步骤:
S31、建立一个长度为512的数组H,用来统计每一种可能颜色出现的次数;
S32、遍历降维后的图像中的每个像素点,对于该像素点的Lab颜色矢量(L、a、b),通过下式计算其在直方图中水平坐标的位置P:
P=64L+8a+b
S33、对于降维后的图像中的每个像素点,根据其颜色计算得到其在直方图中对应位置后,将数组H中对应序号的值加1;
S34、步骤S33完成后,得到一个512维的数组,数组中的元素值为0的,代表该种颜色没有在图像中出现过,将这些位置从直方图中删除,然后得到的数组即为最终求得的颜色直方图。
4.如权利要求3所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S4包括以下分步骤:
S41、计算每种颜色像素点在图像中出现的比例,对于每种颜色,设其在图像中出现的频率大小为F,F通过下式计算得出:
其中,M、N分别为图像的宽和高,H(c)为该种颜色像素点的个数,即颜色直方图中颜色c对应的直方图的值;
S42、对于所有颜色来说,图像的颜色分布的信息熵为:
利用求得的颜色分布的信息熵来表示图像的复杂程度,图像越复杂,信息熵越大,图像越简单,信息熵越小;
S43、计算阈值,对于一幅M×N的图像,可能出现最多的颜色种类为K=min{M×N,512}种,所以它的信息熵的最大可能取值为:
S44、若E>λ·Emax,则认定图像为复杂背景类别的图像,若E<λ·Emax,则认定图像为简单背景类别的图像。
5.如权利要求4所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S5通过以下分步骤实现:
S51、对于简单背景类别的图像,采用单一的阈值进行二值化处理,进而进行文字提取;
S52、对于复杂背景类别的图像,先对图像颜色进行聚类,提取几种主要的颜色,再对每一种颜色计算一种阈值,从而相当于对图像进行多次二值化,进而在不同的二值化结果上分别查找文本区域,进行文字提取。
6.如权利要求5所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S51通过以下步骤实现:
S511、将原图像由彩色图像转换为灰度图像;
S512、采用大津法计算图像的二值化阈值;
S513、遍历灰度图像,对图像中的所有像素点进行判断,若某个像素点的灰度值大于或等于二值化阈值,则认为该像素点为文本像素点,如果某个像素点的灰度值小于二值化阈值,则认为该像素点为背景像素点。
7.如权利要求5所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S52通过以下步骤实现:
S521、根据步骤S41中求得的每种颜色在图像中出现的频率F,选取频率F超过0.2的颜色作为最初的聚类中心,记为:
C={C1,C2,…,Ck,…}
S522、对直方图中的每一种颜色c都与聚类中心C中的颜色值进行比较,判断颜色c是否满足以下条件:
d(Ci,c)<τ
若满足,则说明颜色c属于聚类中心Ci,否则则说明颜色c不属于聚类中心中的任何一种颜色,并将颜色c加入到聚类中心C中;
S523、重复步骤S522直至聚类中心的颜色种类数不发生变化为止,获得最终的聚类中心C;
S524、多阈值二值化,针对每个颜色聚类中心对图像进行二值化,对于颜色聚类中心Ci,其对应的二值化图像Bi为:
其中,τ为二值化阈值;
S525:对步骤S524中得到的多个二值化结果进行组合。
8.如权利要求7所述的一种普适性的图像文字提取方法,其特征在于,所述步骤S525通过以下步骤实现:
S5251、对每个二值化图像中的连通区域进行标记与查找,删除那些高或宽大于图像1/2的连通区域,剩下的区域进行保留;
S5252、对每个二值化图像中剩下的连通区域进行合并,得到最终的二值化结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236463.2A CN104978565B (zh) | 2015-05-11 | 2015-05-11 | 一种普适性的图像文字提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510236463.2A CN104978565B (zh) | 2015-05-11 | 2015-05-11 | 一种普适性的图像文字提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104978565A CN104978565A (zh) | 2015-10-14 |
CN104978565B true CN104978565B (zh) | 2019-06-28 |
Family
ID=54275050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510236463.2A Active CN104978565B (zh) | 2015-05-11 | 2015-05-11 | 一种普适性的图像文字提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104978565B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105436837B (zh) * | 2016-01-26 | 2017-10-17 | 广东欧珀移动通信有限公司 | 一种金属壳体的加工方法和装置 |
US9779293B2 (en) * | 2016-01-27 | 2017-10-03 | Honeywell International Inc. | Method and tool for post-mortem analysis of tripped field devices in process industry using optical character recognition and intelligent character recognition |
CN106097358B (zh) * | 2016-06-17 | 2019-11-19 | 广州市幸福网络技术有限公司 | 图像背景复杂度检测方法及系统 |
CN108205676B (zh) * | 2017-11-22 | 2019-06-07 | 西安万像电子科技有限公司 | 提取图像文字区域的方法和装置 |
CN109271988A (zh) * | 2018-08-30 | 2019-01-25 | 中国传媒大学 | 一种基于图像分割及动态阈值的字幕提取方法 |
CN111064977B (zh) * | 2019-12-05 | 2021-12-03 | 任子行网络技术股份有限公司 | 网络综艺节目备案在线监控的方法、系统及可读存储介质 |
CN111798459A (zh) * | 2020-06-16 | 2020-10-20 | 北京林业大学 | 基于切换思想的无人机航拍树木自适应分割方法及系统 |
CN112686786A (zh) * | 2020-12-29 | 2021-04-20 | 新疆医科大学第一附属医院 | 一种医疗护理用教学系统及教学方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
CN101615252A (zh) * | 2008-06-25 | 2009-12-30 | 中国科学院自动化研究所 | 一种自适应图像文本信息提取方法 |
CN103593458A (zh) * | 2013-11-21 | 2014-02-19 | 电子科技大学 | 一种基于颜色特征与倒排索引的海量图像检索系统 |
-
2015
- 2015-05-11 CN CN201510236463.2A patent/CN104978565B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6470094B1 (en) * | 2000-03-14 | 2002-10-22 | Intel Corporation | Generalized text localization in images |
CN101615252A (zh) * | 2008-06-25 | 2009-12-30 | 中国科学院自动化研究所 | 一种自适应图像文本信息提取方法 |
CN103593458A (zh) * | 2013-11-21 | 2014-02-19 | 电子科技大学 | 一种基于颜色特征与倒排索引的海量图像检索系统 |
Non-Patent Citations (1)
Title |
---|
基于颜色复杂度的加权颜色直方图图像检索算法;于永健 等;《小型微型计算机系统》;20090331;第30卷(第3期);第507-511页 |
Also Published As
Publication number | Publication date |
---|---|
CN104978565A (zh) | 2015-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104978565B (zh) | 一种普适性的图像文字提取方法 | |
US9524028B2 (en) | Visual language for human computer interfaces | |
EP1271403B1 (en) | Method and device for character location in images from digital camera | |
WO2017092431A1 (zh) | 基于肤色的人手检测方法及装置 | |
US7606414B2 (en) | Fusion of color space data to extract dominant color | |
Karatzas et al. | Colour text segmentation in web images based on human perception | |
El Khoury et al. | Color and sharpness assessment of single image dehazing | |
WO2018189802A1 (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN101295359A (zh) | 图像处理程序及图像处理装置 | |
CN105260428A (zh) | 图片处理方法和装置 | |
Gritzman et al. | Comparison of colour transforms used in lip segmentation algorithms | |
Bouillon et al. | Grayification: a meaningful grayscale conversion to improve handwritten historical documents analysis | |
JP5090330B2 (ja) | 画像処理装置、画像処理方法およびプログラム | |
CN110889718B (zh) | 方案筛选方法、方案筛选装置、介质以及电子设备 | |
Eynard et al. | Laplacian colormaps: a framework for structure‐preserving color transformations | |
Gunduz et al. | A better way of extracting dominant colors using salient objects with semantic segmentation | |
Huang et al. | Detecting shadows in high-resolution remote-sensing images of urban areas using spectral and spatial features | |
Antonacopoulos et al. | An anthropocentric approach to text extraction from WWW images | |
KR101334794B1 (ko) | 특징정보를 이용하는 꽃 인식 장치 및 방법 | |
CN115063800B (zh) | 文本识别方法和电子设备 | |
WO2013145445A1 (ja) | 色評価装置、色評価方法及びコンピュータ・プログラム | |
Hu et al. | Jpeg ringing artifact visibility evaluation | |
JP2014071556A (ja) | 画像処理装置、画像処理方法、及びプログラム | |
CN109800758A (zh) | 一种极大值区域检测的自然场景文字检测方法 | |
Berbar | Skin colour correction and faces detection techniques based on HSL and R colour components |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |