CN101515325B - 基于字符切分和颜色聚类的数字视频中的字符提取方法 - Google Patents
基于字符切分和颜色聚类的数字视频中的字符提取方法 Download PDFInfo
- Publication number
- CN101515325B CN101515325B CN2009100819271A CN200910081927A CN101515325B CN 101515325 B CN101515325 B CN 101515325B CN 2009100819271 A CN2009100819271 A CN 2009100819271A CN 200910081927 A CN200910081927 A CN 200910081927A CN 101515325 B CN101515325 B CN 101515325B
- Authority
- CN
- China
- Prior art keywords
- character
- image
- cutting
- zone
- grad
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
一种基于字符切分和颜色聚类的数字视频中的字符提取方法,其步骤是:(1)字符切分:利用字符区域与字符间隔区域的特征差异,进行垂直投影来切分字符区域图像,将每行含多个字符的区域图像,切分成只含单个字符的多个子区域图像,降低后续操作处理难度,提高OCR的识别准确率;(2)字符提取:先用图像中的字符颜色特征进行颜色聚类,找到含最多字符信息的图层作为目标图层,删除背景区域;再用字符的连通特征分析目标图层的连通区域,去除非字符区域后,分别得到单个字符图像、字符区域的整体图像和由单个字符图像拼接的整体图像的三种结果,都输入给OCR系统进行识别;后两者是用OCR的语义处理功能,能根据上下文准确确定形近字而提高识别效果。
Description
技术领域
本发明涉及一种数字图像处理方法,确切地说,涉及一种基于字符切分和颜色聚类的数字视频中的字符提取方法,属于图像处理技术领域。
背景技术
数字视频中的字符信息是理解视频内容高层语义的重要线索,有效地提取这些字符对内容理解以及基于内容的多媒体信息检索系统来说是一项重要的技术。目前,光学字符识别(OCR)技术对于二值图像中的字符识别已经趋于成熟,并进入了商业应用。现在,许多不同来源的字符都是通过OCR系统识别的。因此,如何使得输入的字符图像能够符合OCR的识别要求,已经成为一项公认的必须达到的目标。当前,OCR系统面向的大都是由扫描仪扫描出来的文件图像,要求图像中的字符清晰、背景单一、分辨率高,并且,多数OCR都要求以二值化图像作为输入。
但是,因为视频中的字符的噪声干扰通常比较严重,且背景复杂,字符模糊,字符与背景的对比度不能得到保证,故分辨率比较低。因此,如何对视频中的字符实现有效提取就具有很大的挑战性,这也限制了OCR技术在视频检索中的成功应用。作为视频检索中关键步骤的字符提取,其目标就是把含有字符区域的复杂图像,转化成能够为OCR所识别的清晰的二值化图像。
目前,国内外的研究人员在字符提取技术方面研制了很多方法。现有的提取方法可分为:基于颜色阈值的方法、基于连通区域分析的方法、基于颜色模型的方法和聚类法等等。其中:
基于颜色阈值的方法是假定图像中文字的亮度总是比背景高或者比背景低,再通过估计背景颜色和前景颜色的阈值来实现分割的目的。文字的阈值又分为两种:全局阈值和局部阈值,全局阈值是整个图像都使用的一个阈值;局部阈值是根据图像的具体区域来确定的阈值,与全局阈值相比,后者优点是能处理亮度和对比度发生变化的图像。基于颜色阈值的方法最早来源于文档图像分析,在处理背景简单的文档图像时,该方法简单、实用而有效,但是当背景复杂起来时,由于图像中的文字颜色和背景颜色之间不存在简单的阈值,因而这种简单的方法就无能为力了。
基于连通分量分析的方法是利用文字笔画具有连通性的特征,这种方法是先将输入的图片分割成一系列的连通分量,然后通过自底向上的方法分析和确定每个分量属于前景还是背景,最后将所有前景分量组合成分割结果。由于该方法对文字的笔画是作为整体进行处理的,因此,分割结果的笔画的连贯性比较好,易于被OCR软件所识别;但是,该算法复杂度高,系统效率低。
基于颜色模型的方法是先通过机器学习的方法为文字像素建立一个颜色模型,然后利用该模型计算图片中每一个像素属于文字像素的概率,超过某个概率阈值的像素被标记为文字像素。由于基于颜色模型的方法考虑了文字颜色的多峰值分布,因而能够处理比较复杂的背景,但是对不同的图像,其文字的颜色模型往往差别很大,为多种不同的图像分别建立不同的模型很不容易,有时候甚至是不可能的。
聚类法是假定文字块中所有像素都能根据颜色分为K类,文字像素对应于其中一类,运用经典的聚类算法K-means对所有像素进行聚类。类似的聚类方法还有基于颜色相似性度量的颜色削减算法等,所不同的是K-means算法需要给定类的个数K,后者是根据颜色相似性度量自动生成类的个数。这类方法可以用于复杂背景的情形,但是当背景中含有与文字颜色相同或相近的成分时,这些成分会被误分入文字类,从而产生大量的残余背景,影响OCR识别。
总之,相应的几种字符提取技术在许多方面都有不尽人意之处,因此,如何研制一种较好的用于视频图像中的字符提取方法,就成为业内科技人员关注的新课题。
发明内容
有鉴于此,本发明的目的是提供一种基于字符切分和颜色聚类的数字视频中的字符提取方法,该方法能够较好地解决现有技术存在的缺陷,使得原来复杂而不能被OCR识别的图像中的字符,变成清晰的、二值化的、可供OCR识别的字符图像。
为了达到上述目的,本发明提供了一种基于字符切分和颜色聚类的数字视频中的字符提取方法,其特征在于,包括下列操作步骤:
(1)字符切分:先将字符区域的三通道彩色图像转换为单通道灰度图像,再采用基于垂直投影特征的分析切分方法,即利用字符区域与字符间隔区域的特征差异,按照Sobel算子中计算垂直方向的微分的计算模板,分别计算所述单通道灰度图像中的每个像素的纵向梯度值,对该梯度值取绝对值并进行纵向相加后,得到其纵向梯度值之和的梯度值数组,用于反映图像垂直方向的梯度特性,并用作字符切分的依据;然后用近邻平均方法平滑该梯度值数组:选取某个位置左右两边的梯度值与该位置的梯度值的平均值,用作该位置的新的梯度值和计算用于全面表征垂直投影特征的峰谷差比;最后根据峰谷差比进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的若干个子区域图像;
(2)字符提取:先执行扩展图像、对图像插值放大和图像增强的预处理,再用设置聚类个数为4的K-Means算法对图像中的颜色特征进行颜色聚类,然后判别聚类结果和分析连通区域,从4个备选图像找到包含最多字符信息的图像作为目标图像,从而快速删除大部分背景区域信息;再对目标图像进行连通特征分析,采用由外向内填充和对字符图像进行去噪处理,继续去除剩余的非字符区域后,分别得到三种类型的字符图像:单个字符提取图像、字符区域的整体提取图像和由单个字符提取图像拼接成的整体拼接图像,一起输入给光学字符识别OCR系统进行识别;其中后两种图像是用OCR的语义处理功能,根据上下文更准确地确定形近字而提高识别效果。
所述特征差异是指:字符区域的特点是它的空间频率变化强烈,而字符间隔区域的空间频率变化相对较小;对应到梯度上,则是字符区域的梯度较大,而字符间隔的梯度较小。
所述字符切分是依据最有用的纵向梯度信息进行切分,且对字符区域图像采用的梯度计算模板是Sobel算子中计算垂直方向的微分的计算模板:
所述基于垂直投影特征的分析切分方法的依据是视频中字符通常呈水平排列,故对于根据上述计算模板对字符区域图像中的像素进行计算得到的梯度值的绝对值,进行垂直方向上的投影,以便考察感兴趣的区域并进行字符切分;因字符区域对应的梯度值大于字符间隔区域的梯度值,故在字符切分中,用纵向梯度投影作为切分的依据,再通过各种启发式规则来最终确定切分线。
所述步骤(1)中,
所述根据峰谷差比进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的若干个子区域图像的操作内容如下;
兼顾波峰和波谷的位置信息和梯度信息,根据梯度值数组和下述公式,计算用于全面表征垂直投影特征的峰谷差比V(i)∶V(i)=(C(i-1)+C(i+1)-2×T(i))/T(i),式中,C(i)为波峰的梯度值,T(i)为波谷的梯度值,自然数i是波峰或波谷的序号;该计算公式的物理涵义是:峰谷差比是相邻两个波峰与所夹的波谷的梯度垂直投影的差值,与波谷的梯度垂直投影值的比值;
根据峰谷差比先初选删除大部分备选切分线后,初步估算字符宽度:因图像的切分线通常位于梯度值较小的波谷,且该波谷左右两边通常有梯度值较大的波峰,造成峰谷差比较大,故先排除峰谷差比小于平均峰谷差比的大部分备选切分线,该平均峰谷差比是所有的峰谷差比的算术平均值;在进行该平均峰谷差比值的判断后,如果剩余的备选切分线数目仍大于估算的切分线数目、即图像宽度/图像高度的1.5倍时,则保留峰谷差比最大的前1.5×图像宽度/图像高度个切分线;然后,初步估算字符宽度,用于从备选的切分线中得到较可靠的字符宽度;
处理因字符为左右结构或偏旁呈对称或类对称、或噪音干扰而造成字符内的误切分情况,综合运用梯度值、区域宽度和字符宽度的信息,将误切分区域合并,解决字符内的误切分问题:
分析相邻区域的宽度是否满足设定条件,对两个字符相互靠近部分切分成一个字符的字符间的误切分区域进行合并处理,完成字符的初次切分;
检查字符的初次切分结果,根据切分宽度是否大于设定的字符宽度,判断是否要按照前述初次切分方法进行二次切分,如果该切分宽度大于设定的字符宽度,则对该区域进行二次切分;且二次切分方法与初次切分相同,也包含处理字符内和字符间的误切分;否则,直接执行后续步骤的操作;
检查区域宽度,将宽度较小的区域进行合并,生成最终的切分线;再按照该切分线切分原字符区域彩色图像,将每一行文字区域图像切分成只包含单个字符的多个子区域图像后,将该切分结果输入后续的字符提取步骤。
所述误切分包括字符内的误切分和字符间的误切分,前者是由于字符为左右结构或偏旁呈对称或类对称结构的原因,在字符的30%、50%或70%宽度处可能造成字符内的误切分,此时,综合运用梯度值、区域宽度和字符宽度的信息,去除错误的切分线,将误切分区域合并来解决之;后者是误将两个字符相互靠近的部分切分成一个字符,此时,通过分析相邻区域的宽度是否满足设定条件,去除错误的切分线,将误切分的区域进行合并来解决之。
所述步骤(2)中,
所述扩展图像的操作内容包括:根据图像的字符高度,将图像向四周扩展,用于包含相应的背景区域,以便在执行后续步骤由外向内填充时,利用连通区域特征消除掉字符区域图像中的背景区域;
所述图像插值放大的操作内容包括:因待处理的字符区域图像内的字符要比OCR要求的识别尺寸小,为使OCR达到最佳识别效果,先用双线性插值对图像进行插值放大,使得该插值放大后的图像经过后续步骤处理后,能够被正确识别;
所述图像增强的操作内容包括:对插值放大后出现模糊的图像字符进行增强操作,用于改善图像的清晰度和对比度;
所述用K-Means算法进行颜色聚类处理的操作内容包括:利用颜色信息对增强后的图像进行颜色聚类,将字符和背景初步区分开来;所述K-Means算法中的聚类是在R、G、B三维空间内,分别依据每个像素与四个聚类中心点的欧氏距离的平方,进行三维聚类实现的;
所述判别聚类结果和分析连通区域的操作内容包括:对前述步骤用K-Means算法将图像按颜色聚类形成的4个备选图像,分别计算每个图像中像素距离中心区域的平均距离,其中平均距离最小的图像作为目标图像;为保证判别结果的正确,再对该目标图像的连通区域数目进行检查和分析,如果连通区域数目过大,则对备选图像重新判别,根据连通区域数目和距离中心区域的平均距离的两个因素进行综合处理:以连通区域数目的平方根与平均距离的乘积作为判断依据,选取其中最小值所对应的图像作为目标图像;
所述由外向内填充的操作内容包括:将字符区域图像中大量由外部的背景区域延伸进来的背景信息填充为白色,以消除大部分的背景信息;
所述对字符图像进行去噪处理的操作内容包括:对由外向内填充步骤处理后遗留的一些较小噪音区域,分别计算字符图像中各个连通区域包含的像素数目与总的像素数目的比值,将比值较小的连通区域视为噪音区域而予以清除,改善目标图像的质量。
所述图像增强的操作步骤中,要把原图像由RGB色彩空间转换为HSV色彩空间后,只对其中的V分量图像进行下述三个操作步骤后,再转换回RGB色彩空间;
用拉普拉斯算子进行图像锐化操作,增强图像的细节,使图像整体锐化;
对于拉普拉斯算子锐化后出现的图像噪声,使用中值滤波方法进行降噪操作,在有效降低噪声的同时,能够较好的保留图像的细节;
进行直方图均衡化操作,增强图像的对比度。
本发明是一种基于字符切分和颜色聚类的数字视频中的字符提取方法,该方法较好地解决了现有技术存在的缺陷,使得原来复杂而不能被OCR识别的视频图像中的字符,被处理成清晰的、二值化的、可供OCR识别的字符图像。而且,该方法操作步骤比较简单、容易实现,且计算复杂度较低,能够适应实时处理和检索的需求。
附图说明
图1是本发明基于字符切分和颜色聚类的数字视频中的字符提取方法操作步骤流程图。
图2是本发明字符提取方法中的步骤1的字符切分操作具体流程图。
图3是本发明字符提取方法中的步骤2的字符提取操作具体流程图。
图4(A)、(B)、(C)分别是本发明方法的实施例中的原始图像、字符切分结果和字符提取结果相应操作后示例图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
参见图1,介绍本发明基于字符切分和颜色聚类的数字视频中的字符提取方法的两个具体操作步骤:
步骤1、字符切分:采用基于垂直投影特征的分析切分方法,即利用字符区域与字符间隔区域的特征差异,进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的多个子区域图像,以降低后续步骤的处理复杂度,提高准确率,保证OCR的较高的识别率;
步骤2、字符提取:先用图像中的颜色特征进行颜色聚类,找到包含最多字符信息的图层作为目标图像,从而快速删除大部分背景区域信息;再对目标图像进行连通特征分析,继续去除剩余的非字符区域后,分别得到三种类型的字符图像:单个字符提取图像、字符区域的整体提取图像和由单个字符提取图像拼接成的整体拼接图像,一起输入给OCR系统进行识别;其中后两种图像是利用OCR的语义处理功能,能够根据上下文更准确地确定形近字而提高识别效果。
先对步骤1的相关技术内容进行详细说明:
本发明中的特征差异是指:字符区域的特点是具有强烈的空间频率变化,而字符间隔区域则相对变化较小。对应到梯度上,就是字符区域梯度较大,而字符间隔梯度较小。
基于垂直投影特征的分析切分方法的特点是简单和速度快、非常有利于工程实现,因此,本发明采用对于字符切分操作最有用的纵向梯度信息进行切分。这是因为梯度特征通常同时包括横向和纵向的梯度信息,然而对于字符切分步骤来说,最有用的是纵向梯度信息。如果引入横向梯度信息,很可能在一定程度上干扰了切分,所以,本发明只采用纵向梯度信息切分字符区域图像。且对字符区域图像采用的梯度计算模板是Sobel算子中计算垂直方向的微分的计算模板是:
投影法是通过对图像进行水平或垂直方向上的投影,来考察感兴趣的区域。本发明采用对图像进行竖直方向上的投影来切分字符;也就是根据上述计算模板对图像中的字符区域中的像素进行计算得到的梯度值的绝对值,进行垂直方向上的投影来切分字符。这是因为视频中的字符通常呈水平排列,字符区域对应的梯度值一般要比字符间隔区域的梯度值大,因此,利用纵向梯度投影作为切分字符的依据,再通过各种启发式规则来最终确定切分线。
所述构造各种启发式规则来进行字符区域切分,或将误切分的字符区域合并,都是为了解决误切分问题;
其中,作为重点操作内容的构造各种启发式规则来进行字符区域切分,以及将误切分的字符区域合并,都需要大量实验来总结各种误切分情况。就实验结果来看,误切分主要有两种:字符内的误切分和字符间的误切分。前者一般是由于字符结构的原因,如左右结构的字符,中间部分的梯度值较小,再如字符左边或右边的偏旁呈现对称或类对称结构时,对称中心的梯度值较小。所以,在字符的30%、50%或70%宽度处可能会出现字符内的误切分。此时,综合运用梯度值、区域宽度和字符宽度的信息,可以去除错误的切分线,将误切分区域合并来解决字符内的误切分问题。后者最常见的情况是误将两个字符相互靠近的部分切分成一个字符。此时,通过分析相邻区域的宽度是否满足设定条件,就能够去除错误的切分线,将误切分的区域进行合并来解决之。
参见图2,介绍本发明步骤1的具体操作内容:
(11)将字符区域的彩色图像转换为灰度图像,以使后续操作能够适用于各种色彩空间,并将三通道减少为单通道,大大减少计算量。
(12)按照Sobel算子中计算垂直方向的微分的计算模板,分别计算上述单通道灰度图像中的每个像素的梯度值,并对该梯度值取绝对值后,进行纵向相加,得到该灰度图像的纵向梯度值之和的数组,作为反映图像特性的梯度值数组,用作切分字符的依据。
(13)由于图像的梯度值数组波动剧烈,而其中有些只是微小波动,干扰了对波动趋势的研究。故用近邻平均方法平滑该梯度值数组,减弱其中微小波动的干扰,突出波动趋势。该近邻平均方法是选取某个位置左右两边的梯度值与该位置的梯度值的平均值,用作该位置的新的梯度值。
(14)为兼顾波峰和波谷的位置信息和梯度信息,全面表征垂直投影特征,根据梯度值数组,计算峰谷差比V(i)∶V(i)=(C(i-1)+C(i+1)-2×T(i))/T(i),式中,C(i)为波峰的梯度值,T(i)为波谷的梯度值,自然数i是波峰或波谷的序号;该计算公式的物理涵义是:峰谷差比是相邻两个波峰与所夹的波谷的梯度垂直投影的差值,与波谷的梯度垂直投影值的比值。
(15)根据峰谷差比先初选删除大部分备选切分线后,初步估算字符宽度:因图像的切分线通常位于梯度值较小的波谷,且该波谷左右两边通常有梯度值较大的波峰,造成峰谷差比较大,故先排除峰谷差比小于平均峰谷差比的大部分备选切分线;在进行平均值的判断后,对剩余的备选切分线数目仍大于估算的切分线数目的1.5倍,即1.5×字符宽度/字符高度时,则保留峰谷差比最大的前1.5×字符宽度/字符高度个切分线后,然后,初步估算字符宽度,用于从备选的切分线中得到较可靠的字符宽度,使后续处理可依据字符宽度精确进行。
(16)处理因字符为左右结构或偏旁呈对称或类对称而造成字符内的误切分情况,并再次估算字符宽度:因字符结构原因(例如左右结构的字符,中间部分的梯度值较小;而字符左边或右边的偏旁呈现对称或类对称结构时,对称中心的梯度值较小),在字符的30%、50%、70%宽度处可能会出现字符的误切分情况。还有一种情况,由于噪音等干扰,可能会切分出一个宽度明显小于可能的字符宽度的区域。此时,综合运用梯度值信息、区域宽度信息和字符宽度信息,将误切分区域合并,解决字符内的误切分问题。
该步骤的具体操作过程简介如下:因为50%处误切分最常见,影响最大,所以先解决50%处误切分,但是,由于估算的字符宽度可能有误差,所以要设置10%的浮动空间;即如果相邻两个间距为估算字符宽度的40%~60%,就认为出现误切分。操作如下:先判断相邻两个字符的间距是否同时为估算字符宽度的40%~60%,如果判断结果为真,则进行合并操作:将两个间距共有的3条切分线中,如果中间位置的切分线的特征值同时小于左右两边的切分线的特征值,说明该切分线特征不明显,就消除掉该中间位置的切分线,执行合并处理。然后处理30%或70%宽度处的误切分。它们都可归结为出现间距小于40%的切分区域。所以,此时的判断条件为是否出现间距小于40%的切分区域。如果存在,则进行合并操作:如果该区域的左边区域或右边区域的宽度小于85%的估算字符宽度,则消除该区域与其左边区域或右边区域之间的切分线,合并该两个区域。如果两边区域宽度同时都小于85%的估算字符宽度,则消除该区域与其左右两边区域之间的两条切分线,合并三个区域。如果左右两边区域宽度均不满足上述条件,则不做处理。
(17)处理字符间的误切分:最常见的情况是将两个字符相互靠近的部分切分成一个字符。此时,分析相邻区域的宽度是否满足设定条件,同时参考特征值信息和字符宽度信息,对两个字符相互靠近部分切分成一个字符的字符间的误切分区域进行合并处理,完成字符的初次切分。
该步骤具体操作内容是:判断相邻两个区域的间距对估算字符宽度求余后,是否为字符宽度的25%~75%。这里求余是因为可能会出现其中一个间距大于估算字符宽度,或两个间距都大于估算字符宽度的情况。判断标准25%~75%是因为该范围涵盖了30%、50%、70%三个容易发生误切分的位置。如果结果为真,则进行合并,也就是该两个区域确定的3条切分线中,左、右两边的切分线的特征值至少有一个大于中间位置的切分线的特征值时,则消除掉中间位置的切分线,将两个区域合并。
(18)检查字符的初次切分结果:根据切分宽度是否大于设定的字符宽度,判断是否需要按照类似初次切分的方法进行二次切分:如果切分后的字符宽度较大(如大于1.5倍的字符宽度),则对该区域进行二次切分;且二次切分方法与初次切分相同,再次切分后,检查切分结果,再处理字符内和字符间的误切分。如果切分后的字符宽度不大,直接执行后续步骤的操作;
(19)将二次切分结果与初次切分结果合并:检查区域宽度,将宽度较小的区域进行合并,生成最终的切分线。由于在以上各步骤处理过程中,为了保证准确切分,每个步骤只完成特定的目标,都设有严格的条件限制,所以可能会留下一些未经处理的宽度较小区域。因此,要检查区域宽度,将宽度较小的区域进行合并后,生成最终的切分线。再按照该切分线对原文字区域图像进行切分,将每一行文字区域图像切分成只包含单个字符的多个子区域图像后,将该切分结果输入后续的字符提取步骤。
本发明的前述各项操作步骤中,针对各种常见的切分问题,进行了相应的处理。但是,为保证准确度,牺牲了一定的查全率,有些特殊位置(如数字、字母、数学符号等小于文字宽度的情况)的正确的切分线,也在后续处理中被消除。虽然如此,本发明整个处理流程对准确度的要求仍然要高于对查全率的要求,并且能够将消除正确的切分线的情况的出现概率保持在可以接受的较低范围内。所以,总体来说,步骤1的字符切分操作完成了预期的目标。
步骤2的字符提取是从图像中提取字符信息,而去掉背景等其它信息,以给OCR系统输入清晰的字符图像。这个步骤是所有字符处理系统都必不可少的处理步骤。
图像中的字符有两个主要特征:颜色特征和连通特征,它是进行有效的字符提取的根据。本发明先使用字符颜色特征,进行颜色聚类,分离出不同的颜色图层,接着找到包含最多字符信息的图层。这样通常就排除掉大部分的背景区域信息。然后再利用字符的连通特征,继续删除一些延伸到字符区域的背景信息和孤立的噪音区域,得到最终的提取结果。这种方法的优势是:先利用字符颜色统一的特点,通过颜色聚类来快速去掉大部分背景区域信息。然后再利用字符连通的特点,通过连通区域分析,进一步去除剩余部分的非字符区域。由于通过颜色聚类已经去除了大部分的背景,从而避免了对全图进行完全的连通区域分析,提高了系统工效。并给OCR提高一个高质量的待识别图像。
在实际操作中,不仅提取单个字符图像,还要提取整个字符的区域图像。这是因为在一般情况下,单个字符图像提取的效果较好,但有时整个字符区域图像提取的结果也能够给单个字符的处理结果提供参考和补充。所以,本发明要提取三种类型的结果图像给OCR识别,分别是:单个字符图像处理结果,字符区域图像整体处理结果,以及由单个字符图像处理结果拼接形成的整体图像。
其中后两种类型的处理结果提供给OCR,是为了充分利用OCR的语义处理功能,能够根据上下文确定更可能是哪个形近字。实验结果也验证了本发明方法能够提高识别效果。
虽然有三种类型的字符图像处理结果,但是,提取的方法是相同的。下面介绍的字符提取操作步骤在三种类型的结果处理过程中是通用的。
参见图3,介绍本发明步骤2的具体操作内容:
(21)扩展图像:根据图像的字符高度,将图像向四周扩展,用于包含相应的背景区域,以便在后续步骤(26)时,利用连通区域特征消除掉字符区域图像中的背景区域;通常的扩展的大小为0.1倍的字符高度。
(22)图像插值放大:因待处理的字符区域图像内的字符要比OCR要求的识别尺寸小,为使OCR达到最佳识别效果,先用双线性插值对图像进行插值放大,使得该插值放大后的图像能够被正确识别;双线性插值法的放大效果能够被容易接收,且计算复杂度适宜。
(23)图像增强:插值放大后的图像不可避免会出现模糊,影响了后续处理的效果,所以要对图像进行增强操作,改善图像的清晰度和对比度。
图像增强包括三个步骤:
A、用拉普拉斯算子进行图像锐化操作,增强图像细节,使图像整体锐化。
B、针对拉普拉斯算子锐化后出现的图像噪声,用中值滤波方法进行降噪操作;在有效降低噪声的同时,能够较好地保留图像的细节。
C、进行直方图均衡化操作,增强图像的对比度。
需要说明的是,上述三个步骤都是把原图像由RGB色彩空间转换为HSV色彩空间后,只对其中的V分量图像进行操作,最后再转换回RGB色彩空间。所以要进行色彩空间的转换,是因为HSV色彩空间能够将色彩信息和强度信息分开,使得图像增强操作可以只单独处理其中的强度分量,而不用在RGB色彩空间内进行三通道处理,大大降低了处理的复杂度,提高了效率。
(24)用颜色聚类的K-Means算法进行颜色聚类处理:利用颜色信息对增强后的图像进行颜色聚类,将字符和背景初步区分开来。这里采用的颜色聚类方法是广泛采用的一种K-Means算法,其中,聚类是在R、G、B三维空间内,分别依据每个像素与四个聚类中心点的欧氏距离的平方,进行三维聚类实现的。
(25)判别聚类结果和分析连通区域:观察发现,字符信息多聚集在图像的中心区域。因此先对前述步骤用K-Means算法将图像按颜色聚类形成的4个备选图像,分别计算每个图像中像素距离中心区域的平均距离,比较得到其中平均距离最小的对应图像作为目标图像。由于图层判断错误会严重影响后续操作步骤,所以在进行距离判断后,为保证判别结果的正确,进一步检查和分析该目标图层的连通区域数目。如果该图层的连通区域数目过大,则可能是判断错误,就要备选图像重新判别,根据连通区域数目和距离中心区域的平均距离的两个因素进行综合处理:以连通区域数目的平方根与平均距离的乘积作为判断依据,选取其中最小值所对应的图像作为目标图像。
(26)由外向内填充:该步骤的出发点是,字符区域图像中的很大一部分背景信息是从外部的背景区域延伸进来的,所以要将字符区域图像中大量的由外部背景区域延伸进来的背景信息填充为白色,以消除大部分的背景信息。
(27)对字符图像进行去噪:由于上一步骤主要处理与外部粘连的背景区域信息,所以可能会遗留一些较小的噪音区域,这会干扰OCR的识别。故采用连通区域分析方法:分别计算字符图像中各个连通区域包含的像素数目与总的像素数目的比值,将比值较小的连通区域视为噪音区域而予以清除,改善目标图像的质量。
本发明方法已经进行了多次实施试验,试验的结果是成功的,图4中的(A)、(B)、(C)三图分别是本发明方法在一实施例中的原始图像、步骤1的字符切分结果和步骤2的字符提取结果操作后的实例展示图。也就是说,输入为一幅带有字符的视频数字图像,经过本发明方法的处理后,输出为可送给OCR识别的清晰的二值化图像。因此,本发明实现了发明目的。
Claims (7)
1.一种基于字符切分和颜色聚类的数字视频中的字符提取方法,其特征在于,包括下列操作步骤:
(1)字符切分:先将字符区域的三通道彩色图像转换为单通道灰度图像,再采用基于垂直投影特征的分析切分方法,即利用字符区域与字符间隔区域的特征差异,按照Sobel算子中计算垂直方向的微分的计算模板,分别计算所述单通道灰度图像中的每个像素的纵向梯度值,对该梯度值取绝对值并进行纵向相加后,得到其纵向梯度值之和的梯度值数组,用于反映图像垂直方向的梯度特性,并用作字符切分的依据;然后用近邻平均方法平滑该梯度值数组:选取某个位置左右两边的梯度值与该位置的梯度值的平均值,用作该位置的新的梯度值和计算用于全面表征垂直投影特征的峰谷差比;最后根据峰谷差比进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的若干个子区域图像;
(2)字符提取:先通过扩展图像、对图像插值放大和图像增强的预处理,再用设置聚类个数为4的K-Means算法对图像中的颜色特征进行颜色聚类,然后判别聚类结果和分析连通区域,从4个备选图像找到包含最多字符信息的图像作为目标图像,从而快速删除大部分背景区域信息;再对目标图像进行连通特征分析,采用由外向内填充和对字符图像进行去噪处理,继续去除剩余的非字符区域后,分别得到三种类型的字符图像:单个字符提取图像、字符区域的整体提取图像和由单个字符提取图像拼接成的整体拼接图像,一起输入给光学字符识别OCR系统进行识别;其中后两种图像是用OCR的语义处理功能,根据上下文更准确地确定形近字而提高识别效果。
2.根据权利要求1所述的方法,其特征在于:所述特征差异是指:字符区域的特点是它的空间频率变化强烈,而字符间隔区域的空间频率变化相对较小;对应到梯度上,则是字符区域的梯度较大,而字符间隔的梯度较小。
3.根据权利要求1所述的方法,其特征在于:所述字符切分是依据最有用的纵向梯度信息进行切分,且对字符区域图像采用的梯度计算模板是Sobel算子中计算垂直方向的微分的计算模板:
所述基于垂直投影特征的分析切分方法的依据是视频中字符通常呈水平排列,故对于根据上述计算模板对字符区域图像中的像素进行计算得到的梯度值的绝对值,进行垂直方向上的投影,以便考察感兴趣的区域并进行字符切分;因字符区域对应的梯度值大于字符间隔区域的梯度值,故在字符切分中,用纵向梯度投影作为切分的依据,再通过各种启发式规则来最终确定切分线。
4.根据权利要求1所述的方法,其特征在于:所述步骤(1)中,
所述根据峰谷差比进行垂直投影来切分字符区域图像,将每一行包含多个字符的区域图像,切分成只包含单个字符的若干个子区域图像的操作内容如下;
兼顾波峰和波谷的位置信息和梯度信息,根据梯度值数组和下述公式,计算用于全面表征垂直投影特征的峰谷差比V(i)∶V(i)=(C(i-1)+C(i+1)-2×T(i))/T(i),式中,C(i)为波峰的梯度值,T(i)为波谷的梯度值,自然数i是波峰或波谷的序号;该计算公式的物理涵义是:峰谷差比是相邻两个波峰与所夹的波谷的梯度垂直投影的差值,与波谷的梯度垂直投影值的比值;
根据峰谷差比先初选删除大部分备选切分线后,初步估算字符宽度:因图像的切分线通常位于梯度值较小的波谷,且该波谷左右两边通常有梯度值较大的波峰,造成峰谷差比较大,故先排除峰谷差比小于平均峰谷差比的大部分备选切分线,该平均峰谷差比是所有的峰谷差比的算术平均值;在进行该平均峰谷差比值的判断后,如果剩余的备选切分线数目仍大于估算的切分线数目、即图像宽度/图像高度的1.5倍时,则保留峰谷差比最大的前1.5×图像宽度/图像高度个切分线;然后,初步估算字符宽度,用于从备选的切分线中得到较可靠的字符宽度;
处理因字符为左右结构或偏旁呈对称或类对称、或噪音干扰而造成字符内的误切分情况,综合运用梯度值、区域宽度和字符宽度的信息,将误切分区域合并,解决字符内的误切分问题:
分析相邻区域的宽度是否满足设定条件,对两个字符相互靠近部分切分成一个字符的字符间的误切分区域进行合并处理,完成字符的初次切分;
检查字符的初次切分结果,根据切分宽度是否大于设定的字符宽度,判断是否要按照前述初次切分方法进行二次切分,如果该切分宽度大于设定的字符宽度,则对该区域进行二次切分;且二次切分方法与初次切分相同,也包含处理字符内和字符间的误切分;否则,直接执行后续步骤的操作;
检查区域宽度,将宽度较小的区域进行合并,生成最终的切分线;再按照该切分线切分原字符区域彩色图像,将每一行文字区域图像切分成只包含单个字符的多个子区域图像后,将该切分结果输入后续的字符提取步骤。
5.根据权利要求4所述的方法,其特征在于:所述误切分包括字符内的误切分和字符间的误切分,前者是由于字符为左右结构或偏旁呈对称或类对称结构的原因,在字符的30%、50%或70%宽度处可能造成字符内的误切分,此时,综合运用梯度值、区域宽度和字符宽度的信息,去除错误的切分线,将误切分区域合并来解决之;后者是误将两个字符相互靠近的部分切分成一个字符,此时,通过分析相邻区域的宽度是否满足设定条件,去除错误的切分线,将误切分的区域进行合并来解决之。
6.根据权利要求1所述的方法,其特征在于:所述步骤(2)中:
所述扩展图像的操作内容包括:根据图像的高度,将图像向四周扩展,用于包含相应的背景区域,以便在执行后续步骤由外向内填充时,利用连通区域特征消除掉字符区域图像中的背景区域;
所述图像插值放大的操作内容包括:因待处理的字符区域图像内的字符要比OCR要求的识别尺寸小,为使OCR达到最佳识别效果,先用双线性插值对图像进行插值放大,使得该插值放大后的图像经过后续步骤处理后,能够被正确识别;
所述图像增强的操作内容包括:对插值放大后出现模糊的图像字符进行增强操作,用于改善图像的清晰度和对比度;
所述用K-Means算法进行颜色聚类处理的操作内容包括:利用颜色信息对增强后的图像进行颜色聚类,将字符和背景初步区分开来;所述K-Means算法中的聚类是在R、G、B三维空间内,分别依据每个像素与四个聚类中心点的欧氏距离的平方,进行三维聚类实现的;
所述判别聚类结果和分析连通区域的操作内容包括:对前述步骤用K-Means算法将图像按颜色聚类形成的4个备选图像,分别计算每个图像中像素距离中心区域的平均距离,其中平均距离最小的图像作为目标图像;为保证判别结果的正确,再对该目标图像的连通区域数目进行检查和分析,如果连通区域数目过大,则对备选图像重新判别,根据连通区域数目和距离中心区域的平均距离的两个因素进行综合处理:以连通区域数目的平方根与平均距离的乘积作为判断依据,选取其中最小值所对应的图像作为目标图像;
所述由外向内填充的操作内容包括:将字符区域图像中大量由外部的背景区域延伸进来的背景信息填充为白色,以消除大部分的背景信息;
所述对字符图像进行去噪处理的操作内容包括:对由外向内填充步骤处理后遗留的一些较小噪音区域,分别计算字符图像中各个连通区域包含的像素数目与总的像素数目的比值,将比值较小的连通区域视为噪音区域而予以清除,改善目标图像的质量。
7.根据权利要求6所述的方法,其特征在于:所述图像增强的操作步骤中,要把原图像由RGB色彩空间转换为HSV色彩空间后,只对其中的V分量图像进行下述三个操作步骤后,再转换回RGB色彩空间;
用拉普拉斯算子进行图像锐化操作,增强图像的细节,使图像整体锐化;
对于拉普拉斯算子锐化后出现的图像噪声,使用中值滤波方法进行降噪操作,在有效降低噪声的同时,能够较好地保留图像的细节;
进行直方图均衡化操作,增强图像的对比度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100819271A CN101515325B (zh) | 2009-04-08 | 2009-04-08 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100819271A CN101515325B (zh) | 2009-04-08 | 2009-04-08 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101515325A CN101515325A (zh) | 2009-08-26 |
CN101515325B true CN101515325B (zh) | 2012-05-23 |
Family
ID=41039775
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100819271A Expired - Fee Related CN101515325B (zh) | 2009-04-08 | 2009-04-08 | 基于字符切分和颜色聚类的数字视频中的字符提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101515325B (zh) |
Families Citing this family (37)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102713974B (zh) * | 2010-01-06 | 2015-09-30 | 日本电气株式会社 | 学习装置、识别装置、学习识别系统和学习识别装置 |
CN102314608A (zh) * | 2010-06-30 | 2012-01-11 | 汉王科技股份有限公司 | 文字图像中行提取的方法和装置 |
CN102497593B (zh) * | 2011-11-30 | 2013-12-25 | 太仓市临江农场专业合作社 | 面向文本的在线远程教育视频渲染方法 |
CN102750530B (zh) * | 2012-05-31 | 2014-11-26 | 贺江涛 | 一种字符识别方法及装置 |
CN103854019B (zh) * | 2012-11-29 | 2018-11-30 | 捷讯平和(北京)科技发展有限公司 | 图像中的字段提取方法及装置 |
CN104217202B (zh) * | 2013-06-03 | 2019-01-01 | 支付宝(中国)网络技术有限公司 | 信息识别方法、设备和系统 |
CN103295009B (zh) * | 2013-06-20 | 2016-03-02 | 电子科技大学 | 基于笔画分解的车牌字符识别方法 |
CN103458300A (zh) * | 2013-08-28 | 2013-12-18 | 天津三星电子有限公司 | 电视机虚假广告提示方法及系统 |
CN104639791B (zh) * | 2013-11-12 | 2017-12-29 | 国家电网公司 | 一种可识别页码的扫描仪及其使用方法 |
CN104679800A (zh) * | 2013-12-03 | 2015-06-03 | 中兴通讯股份有限公司 | 一种数据录入方法及装置 |
CN105095890B (zh) * | 2014-04-25 | 2019-02-26 | 广州市动景计算机科技有限公司 | 图像中字符分割方法及装置 |
CN104156706A (zh) * | 2014-08-12 | 2014-11-19 | 华北电力大学句容研究中心 | 一种基于光学字符识别技术的中文字符识别方法 |
CN105631486A (zh) * | 2014-10-27 | 2016-06-01 | 深圳Tcl数字技术有限公司 | 图像文字识别方法及装置 |
CN106940799B (zh) * | 2016-01-05 | 2020-07-24 | 腾讯科技(深圳)有限公司 | 文本图像处理方法和装置 |
CN106127817B (zh) * | 2016-06-28 | 2018-11-06 | 广东工业大学 | 一种基于通道的图像二值化方法 |
CN107784301B (zh) * | 2016-08-31 | 2021-06-11 | 百度在线网络技术(北京)有限公司 | 用于识别图像中文字区域的方法和装置 |
CN107977659B (zh) * | 2016-10-25 | 2021-03-16 | 北京搜狗科技发展有限公司 | 一种文字识别方法、装置及电子设备 |
CN106611175A (zh) * | 2016-12-29 | 2017-05-03 | 成都数联铭品科技有限公司 | 用于图像文字识别的字符图片自动切分系统 |
CN106682666A (zh) * | 2016-12-29 | 2017-05-17 | 成都数联铭品科技有限公司 | 用于非常见字体ocr识别的特征模板制备方法 |
CN107145734B (zh) * | 2017-05-04 | 2020-08-28 | 深圳市联新移动医疗科技有限公司 | 一种医疗数据的自动获取与录入方法及其系统 |
CN109409370B (zh) * | 2017-08-18 | 2022-02-18 | 深圳市傲冠软件股份有限公司 | 一种远程桌面字符识别方法和装置 |
CN107657230A (zh) * | 2017-09-27 | 2018-02-02 | 安徽硕威智能科技有限公司 | 一种银行自助机器人文字识别装置 |
CN108038458B (zh) * | 2017-12-20 | 2021-04-09 | 首都师范大学 | 基于特征摘要图的视频中的户外场景文本自动获取方法 |
CN109961553A (zh) * | 2017-12-26 | 2019-07-02 | 航天信息股份有限公司 | 发票号码识别方法、装置及税务自助终端系统 |
CN108347643B (zh) * | 2018-03-05 | 2020-09-15 | 成都索贝数码科技股份有限公司 | 一种基于深度学习的字幕叠加截图的实现方法 |
CN108596183B (zh) * | 2018-04-24 | 2020-08-04 | 大连民族大学 | 满文部件切分的过分割区域合并方法 |
CN108596182B (zh) * | 2018-04-24 | 2020-06-16 | 大连民族大学 | 满文部件切分方法 |
JP7263721B2 (ja) * | 2018-09-25 | 2023-04-25 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
CN109756684B (zh) * | 2019-01-30 | 2021-08-13 | 北京雷石天地电子技术有限公司 | 一种字幕移植方法及装置 |
CN110517281A (zh) * | 2019-08-19 | 2019-11-29 | 温州大学 | 一种从高到低扫描一维投影图分割目标的方法 |
CN111414877B (zh) * | 2020-03-26 | 2023-06-20 | 遥相科技发展(北京)有限公司 | 去除颜色边框的表格裁切方法、图像处理设备和存储介质 |
CN111563937B (zh) * | 2020-07-14 | 2020-10-30 | 成都四方伟业软件股份有限公司 | 一种图片颜色提取方法及装置 |
CN112132141A (zh) * | 2020-09-25 | 2020-12-25 | 北京爱奇艺科技有限公司 | 字符合并方法、装置、电子设备及存储介质 |
CN112488114A (zh) * | 2020-11-13 | 2021-03-12 | 宁波多牛大数据网络技术有限公司 | 一种图片合成方法及装置、文字识别系统 |
CN112488107A (zh) * | 2020-12-04 | 2021-03-12 | 北京华录新媒信息技术有限公司 | 一种视频字幕的处理方法及处理装置 |
CN112418224B (zh) * | 2021-01-22 | 2021-04-23 | 成都无糖信息技术有限公司 | 一种基于机器学习的通用ocr的训练数据生成系统及方法 |
CN113343997B (zh) * | 2021-05-19 | 2022-04-19 | 北京百度网讯科技有限公司 | 光学字符识别方法、装置、电子设备和存储介质 |
-
2009
- 2009-04-08 CN CN2009100819271A patent/CN101515325B/zh not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN101515325A (zh) | 2009-08-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101515325B (zh) | 基于字符切分和颜色聚类的数字视频中的字符提取方法 | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
CN104298982B (zh) | 一种文字识别方法及装置 | |
CN104361336A (zh) | 一种水下视频图像的文字识别方法 | |
Bataineh et al. | An adaptive local binarization method for document images based on a novel thresholding method and dynamic windows | |
US6674900B1 (en) | Method for extracting titles from digital images | |
CN102663382B (zh) | 基于子网格特征自适应加权的视频图像文字识别方法 | |
CN105654072A (zh) | 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法 | |
US20070253040A1 (en) | Color scanning to enhance bitonal image | |
CN103034848B (zh) | 一种表单类型的识别方法 | |
CN102663378B (zh) | 连笔手写字符的识别方法 | |
CN107766854B (zh) | 一种基于模板匹配实现快速页码识别的方法 | |
CN105046252A (zh) | 一种人民币冠字码识别方法 | |
CN112818952B (zh) | 煤岩分界线的识别方法、装置及电子设备 | |
CN106570510A (zh) | 一种超市商品识别方法 | |
CN112329641B (zh) | 一种表格识别方法、装置、设备及可读存储介质 | |
Van Phan et al. | Development of Nom character segmentation for collecting patterns from historical document pages | |
CN104463138A (zh) | 基于视觉结构属性的文本定位方法及系统 | |
Liu et al. | A novel multi-oriented chinese text extraction approach from videos | |
CN106127817A (zh) | 一种基于通道的图像二值化方法 | |
CN106127765A (zh) | 基于自适应窗口和平滑阈值法的图像二值化系统 | |
CN103020953A (zh) | 一种指纹图像的分割方法 | |
US5561720A (en) | Method for extracting individual characters from raster images of a read-in handwritten or typed character sequence having a free pitch | |
Mullick et al. | An efficient line segmentation approach for handwritten Bangla document image | |
Khandelwal et al. | Text line segmentation for unconstrained handwritten document images using neighborhood connected component analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20120523 Termination date: 20130408 |