CN110008954A - 一种基于多阈值融合的复杂背景文本图像提取方法及系统 - Google Patents
一种基于多阈值融合的复杂背景文本图像提取方法及系统 Download PDFInfo
- Publication number
- CN110008954A CN110008954A CN201910250571.3A CN201910250571A CN110008954A CN 110008954 A CN110008954 A CN 110008954A CN 201910250571 A CN201910250571 A CN 201910250571A CN 110008954 A CN110008954 A CN 110008954A
- Authority
- CN
- China
- Prior art keywords
- image
- pixel
- original image
- gray level
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/56—Extraction of image or video features relating to colour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于多阈值融合的复杂背景文本图像提取方法及系统。该方法包括:S1,获取原始图像,依据图像类别信息获取局部二值化参数;S2,将原始图像转换为灰度图像;S3,利用第一处理算法获取灰度图像基于边缘的第一二值图;利用第二处理算法基于局部二值化参数对灰度图像进行局部二值化处理得到第二二值图;S4,将第一二值图和第二二值图进行逻辑“或”操作后输出,提取出的文本图像。将基于边缘的第一二值图与局部二值化处理得到的第二二值图进行融合,有效弥补第二二值图中因去除噪声而使得前景文字丢失的缺陷,局部二值化参数依据待处理图像的类别设置,这样对于笔画较浅的文字,处理效果很出色,提升了二值化图像质量。
Description
技术领域
本发明涉及一种计算机视觉技术领域,特别是涉及一种基于多阈值融合的 复杂背景文本图像提取方法及系统。
背景技术
我们日常生活中,每天都会产生无数份纸质文档,而很多情况下,我们的 纸质文档都需要进行电子扫描并存储为电子文件。一方面由于部分纸质文档的 保存条件不好,可能文档文件会沾染污渍,或者产生折痕,这样扫描出来的电 子文档的质量不高;另一方面因为扫描设备的问题,也有可能产生光照不均, 文档歪斜等问题;再一方面若遇到双面书写的纸质文档,在扫描时,也会出现 背面的文字影射到正面的现象;由于上述几方面,使得文本图像具有污渍、折 痕、光照不均、文档歪斜以及背面的文字影射等情况(复杂背景),成为复杂背 景文本图像,如图2所示,使电子文档图像难以辨识,为后续对电子文档图像 进行进一步操作造成阻碍。因此,一般情况下,我们都会对电子文档图像进行 二值化,以便明确区分前景和背景。
现有技术中存在两类基于阈值的二值化方法,分别为全局二值化(例如: Otsu阈值法)和局部二值化(例如:Niblack阈值法)。其中,全局二值化适用 于前后背景存在明显差值的图像,但是,当图像光照不均时,全局二值化会丢 失图像信息。局部二值化是将图像分块进行二值化,因此对于退化和光照不均 的图片,可以获得较好结果,但其对杂质敏感,导致最后的二值化图像噪声偏 多。
现有技术中提供了一种通过多种二值化图像融合实现各种二值化方法优势 互补的方法,主要是基于不同的阈值或者不同的方法获得多个二值图,对于如 何将多个二值图融合,目前有两种使用较为广泛的方法,一种是基于投票机制 法,一种是基于像素分类法。
投票机制是对多个二值图的同一个像素点进行取值判断,当有一半以上的 值为前景像素则融合后为前景像素,反之为背景像素。这种方法没有考虑不同 二值图之间的关系,而是直接统计个数。例如当进行融合的多个二值图中,基 于全局二值化思想的方法多些,则这样直接统计个数,对数目偏少的局部二值 化方法则不合理。
基于像素分类法是采用两种二值化方法获得两个二值图,当这两个二值图 对应的像素值都为前景像素则为前景,都为背景像素则都为背景像素,当两个 二值图对应的像素值一个为前景一个为后景则为不确定像素点,因此分为前景 像素,后景像素和不确定像素,然后对不确定像素进行分类。以不确定像素为 中心,向周围局部范围进行迭代,当局部范围内前景像素总和大于背景像素总 和则其判别为前景像素,反之为后景像素,当总和相同,则扩大局部范围进行 判断,这个方法是基于一种聚类的假设,认为相同类别的像素之间应该更加接 近,由于文档图像虽然经过归一化后也能达到相同大小,但是此时里面的字符 则不一样,无法达到一致的标准,因此不能简单用上面的二值化方法进行二值 化,其效果并不好。
发明内容
本发明旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种 基于多阈值融合的复杂背景文本图像提取方法及系统。
为了实现本发明的上述目的,根据本发明的第一方面,本发明提供了一种 基于多阈值融合的复杂背景文本图像提取方法,包括:
步骤S1,获取原始图像,得到图像类别信息,依据图像类别信息获取局部 二值化参数;
步骤S2,将原始图像转换为灰度图像;
步骤S3,利用第一处理算法获取灰度图像基于边缘的第一二值图;利用第 二处理算法基于局部二值化参数对灰度图像进行局部二值化处理得到第二二值 图;
步骤S4,将第一二值图和第二二值图进行逻辑“或”操作后输出,即为提 取出的文本图像。
上述技术方案的有益效果为:将基于边缘的第一二值图与局部二值化处理 得到的第二二值图进行融合,能够有效的弥补第二二值图中因去除噪声而使得 前景文字丢失的缺陷,另外,局部二值化参数依据待处理图像的类别设置,不 同类型的图像,选取不同的局部二值化参数,这样对于笔画较浅的文字,处理 效果很出色,提升了二值化之后的图像质量。该方法实现了局部二值化与基于 边缘的二值化方法的有效互补,能够对多样化的文档图像进行有效的二值化, 从而确保电子文档存储与审核系统的较高准确率,为电子文档的存储与审核提 供了更为准确清晰的电子档案。
在本发明的一种优选实施方式中,在所述步骤S1中所述图像类别信息包括 背景颜色类别、亮度大小类别或清晰度高低类别中的一个或几个。
上述技术方案的有益效果为:设置了图像信息中比较重要的主要特征作为 类别判定信息,能够准确的表征图像的背景特征。
在本发明的一种优选实施方式中,判断所述背景颜色类别的过程包括:
将原始图像转换为YCbCr色彩空间图像,提取YCbCr色彩空间图像的Cb通 道图像矩阵;
判断不等式mean(Cb>A)<0.9是否为真,若为真,认为原始图像的背景为非 白色,若不为真,认为原始图像的背景为白色;
其中,mean()表示计算括号内矩阵的平均值,Cb表示图像的Cb通道图像 矩阵,Cb>A得到的是一个只有0和1的布尔型矩阵,mean(Cb>A)<0.9表示Cb 通道图像矩阵中像素值大于A的像素点个数占Cb通道图像矩阵像素点总数的比 例小于90%,A为背景像素判定阈值,为正整数;
判断所述亮度大小类别的过程为:
计算原始图像的平均像素值;
当原始图像的背景为白色时,若平均像素值大于B,则认为原始图像的亮度 为高亮度,否则为低亮度;当原始图像的背景为非白色时,若平均像素值大于C, 则认为原始图像的亮度为高亮度,否则为低亮度;0<C<B,其中,B、C均为平 均像素判定阈值。
上述技术方案的有益效果为:提供了快速有效判断出图像背景颜色类别、 亮度大小类别的方法。
在本发明的一种优选实施方式中,判断原始图像的清晰度高低类别的过程 包括为:
步骤S10,构建并利用n*n高斯高斯滤波器对原始图像进行滤波得到滤波图 像;所述n为正整数;
步骤S11,利用Sobel算子获得原始图像的第一梯度图像,利用Sobel算子 获得滤波图像的第二梯度图像;
步骤S12,计算原始图像与第一梯度图像的结构相似性指数,计算滤波图像 与第二梯度图像的结构相似性指数,求取两个结构相似性指数的平均值作为平 均结构相似性指数mSSIM,计算梯度结构相似度NRSS,计算公式为: NRSS=1-mSSIM;
若NRSS<D,认为原始图像清晰度高,否则认为原始图像清晰度低,其中,D 为清晰度判定阈值,0.0001<D<0.002。
上述技术方案的有益效果为:提供了准确判断出图像清晰度高低类别的一 种方法。
在本发明的一种优选实施方式中,在所述步骤S1中,依据图像类别信息获 取局部二值化参数的步骤包括:
所述局部二值化参数包括局部二值化的切割阈值Ts,获取局部二值化的切割 阈值Ts的公式为:
Ts=threshold1*xs1+xs2*deviation;
其中,threshold1为第二处理算法的初始分割阈值;deviation为偏差值;xs1和xs2分别为线性调整的系数值,均根据图像类别信息取值;
所述deviation的计算公式为:
deviation=(meanSquare-mean2)0.5,其中,meanSquare为原始图像平方操作后的二维均值滤波值,mean为原始图像的二维均值滤波值;
所述threshold1的计算公式为:
其中,R为deviation矩阵中的最大值;k为修正系数,0<k<1;
所述xs1和xs2的取值公式为:
上述技术方案的有益效果为:提供了根据原始图像类别信息获得局部二值 化参数的方法,该方法简单,运算量少。
在本发明的一种优选实施方式中,所述步骤S2包括:
步骤S20,按照如下转换公式将原始图像转换为灰度图像:
Gray=R×0.3+G×0.59+B×0.11;
其中,R,G,B分别代表原始图像中像素点在RGB空间中的红、绿、蓝三个 通道分量,Cray为灰度图像中对应像素点的像素值;
步骤S21,对所述步骤S21的灰度图像进行边缘增强,具体包括:
对灰度图像进行水平扫描和/或竖直扫描卷积操作,获取相应的边缘增强的 灰度图像,具体的卷积算子为:
竖直扫描卷积算子:
水平扫描卷积算子:
步骤S22,对所述步骤S21输出的边缘增强的灰度图像进行滤波降噪处理。
上述技术方案的有益效果为:能够将原始图像快速转换为灰度图像,对灰 度图像进行边缘加强,有利于提高后续基于边缘的二值化处理的边缘效果。
在本发明的一种优选实施方式中,所述步骤S2还包括:
步骤S23,利用归一化公式对灰度图像进行归一化处理:
归一化公式如下:
其中xmax为灰度图像的最大像素值,xmin为灰度图像的最小像素值,x*为归 一化后像素点的像素值。
上述技术方案的有益效果为:有利于后续处理。
在本发明的一种优选实施方式中,在所述步骤S3中,利用第一处理算法获 取灰度图像基于边缘的第一二值图的步骤包括:
步骤S30,使用Canny算法计算得到灰度图像的边缘信息;
步骤S31,求取边缘像素点邻域内最大像素值和最小像素值的平均值,将平 均值作为该像素点邻域的二值化阈值,通过二值化阈值区分出像素点邻域内的 前景像素点和背景像素点;
步骤S32,按照步骤S31完成灰度图像边缘上所有像素点邻域的二值化,获 得第一二值图。
上述技术方案的有益效果为:公开了获取基于边缘的二值图的方法,该方 法不容易受噪声干扰,能够检测到真正的弱边缘,另外通过增强边缘,然后二 值化,可以确保更多字符信息保留。
在本发明的一种优选实施方式中,所述第二处理算法对灰度图像进行局部 二值化处理包括:
求取原始图像的亮度背景图像,将原始图像减去亮度背景图像得到文本图 像,在文本图像上依次以像素点为中心,在像素点的邻域内以根据原始图像类 别信息得到的局部二值化参数作为切割阈值进行二值化处理,直至完成整个文 本图像的二值化。
上述技术方案的有益效果为:对不同类别的文档图像二值化效果有显著增 强,且稳定性很好。
为了实现本发明的上述目的,根据本发明的第二方面,本发明提供了一种 图像处理系统,包括图像输入装置和图像处理器,所述图像输入装置将复杂背 景文本图输入至图像处理器,所述图像处理器按照本发明所述的图像提取方法 从原始图像中提取出文本图像。
上述技术方案的有益效果为:具有本发明所述的图像提取方法的有益效果。
附图说明
图1是本发明一具体实施方式中图像提取方法的流程示意图;
图2是具有复杂背景的原始文本图像;
图3是本发明一具体实施方式中边缘增强灰度图像的效果对比图,其中, 图3(a)为三个原始图像,图3(b)为图3(a)中的三个原始图像经过灰度和 边缘增强处理后的图像;
图4是本发明一具体实施方式中原始图像与本发明所述的图像提取方法提 取得到的文本图像的对比图,其中,图4(a)为三个原始图像,图4(b)为使 用本发明所述的图像提取方法从图4(a)中提取得到的三个文本图像。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自 始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元 件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能 理解为对本发明的限制。
在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、 “前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底” “内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅 是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须 具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,除非另有规定和限定,需要说明的是,术语“安装”、 “相连”、“连接”应做广义理解,例如,可以是机械连接或电连接,也可以是 两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于 本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
本发明提供了一种基于多阈值融合的复杂背景文本图像提取方法,在一种 优选实施方式中,如图1所示,该方法包括:
步骤S1,获取原始图像,得到图像类别信息,依据图像类别信息获取局部 二值化参数;
步骤S2,将原始图像转换为灰度图像;
步骤S3,利用第一处理算法获取灰度图像基于边缘的第一二值图;利用第 二处理算法基于局部二值化参数对灰度图像进行局部二值化处理得到第二二值 图;
步骤S4,将第一二值图和第二二值图进行逻辑“或”操作后输出,即为提 取出的文本图像。
在本实施方式中,第二处理算法优选但不限于为Sauvola算法。原始图像 一般为彩色图像。局部二值化参数包括局部窗口大小和切割阈值两个典型的参 数。经过该方法提取出的图像与原始图像的对比如图4所示。
在本实施方式中,将第一二值图设定为Output1,将第二二值图设定为 Output2,将这两幅图进行逻辑‘或’操作,通过下面的公式,我们可以得到最 终的二值化结果,即提取的最终文本图像,
Output=Output1|Output2。
在本发明的一种优选实施方式中,在骤S1中图像类别信息包括背景颜色类 别、亮度大小类别或清晰度高低类别中一个或几个。
在本实施方式中,优选的,将一个原始图像分为多个图像区域,对每个图 像区域进行图像类别判断,每个图像区域根据各自的图像类别获得局部二值化 参数,依据该局部二值化参数进行二值化处理获得第二子图,另外,对每个图 像区域获得基于边缘的二值化的第一子图,多个第一子图组合为第一二值图, 多个第二子图组合为第二二值图。这样能够对一个原始图像进行分区域处理, 获得局部优化处理,提取出的文本图像将更精准。
在本发明的一种优选实施方式中,判断背景颜色类别的过程包括:
将原始图像转换为YCbCr色彩空间图像,提取YCbCr色彩空间图像的Cb通 道图像矩阵;
判断不等式mean(CB>A)<0.9是否为真,若为真,认为原始图像的背景为非 白色,若不为真,认为原始图像的背景为白色;
其中,mean()表示计算括号内矩阵的平均值,CB表示图像的Cb通道图像 矩阵,CB>A得到的是一个只有0和1的布尔型矩阵,mean(CB>A)<0.9表示Cb 通道图像矩阵中像素值大于A的像素点个数占Cb通道图像矩阵像素点总数的比 例小于90%,A为背景像素判定阈值,为正整数,A优选的在110至130中,可选 择120。
由于不论背景是什么样的颜色,都会在YCbCr空间中的Cb和Cr通道得到 体现,因此,也可以通过Cr通道图像矩阵来判断原始图像的背景是否存在颜色, 即为白色或非白色。优选的,将Cb通道图像矩阵和Cr通道图像矩阵相加得到 图像矩阵M,判断不等式mean(M>A)<0.9是否为真,若为真,认为原始图像的背 景为非白色,若不为真,认为原始图像的背景为白色。
判断亮度大小类别的过程为:
计算原始图像的平均像素值;
当原始图像的背景为白色时,若平均像素值大于B,则认为原始图像的亮度 为高亮度,否则为低亮度;当原始图像的背景为非白色时,若平均像素值大于C, 则认为原始图像的亮度为高亮度,否则为低亮度;0<C<B,其中,B、C均为平 均像素判定阈值。B和C可在180-250之间选择,优选的,B为210,C为200。
在本实施方式中,原始图像包括但不限于老旧的中文档案图像,根据背景 颜色、亮度、对比度以及清晰度等图像属性,将数据集内的文档图像分成若干 类,例如:背景为黄色纸张或者白色纸张,图像亮度过明或者过暗等等。因此 我们需要将原始输入的RGB三通道彩色图像转换为YCbCr格式的图像。YCbCr是 通过有序的三元组来表示的,三元由Y(Luminance)、Cb(Chrominance-Blue)和 Cr(Chrominance-Red)组成,其中Y表示颜色的明亮度和浓度,而Cb和Cr则分 别表示颜色的蓝色浓度偏移量和红色浓度偏移量。
在本发明的一种优选实施方式中,判断原始图像的清晰度高低类别的过程 包括为:
步骤S10,构建并利用n*n高斯高斯滤波器对原始图像进行滤波得到滤波图 像;n为正整数,优选的,n为7;
步骤S11,利用Sobel算子获得原始图像的第一梯度图像,利用Sobel算子 获得滤波图像的第二梯度图像;
步骤S12,计算原始图像与第一梯度图像的结构相似性指数,计算滤波图像 与第二梯度图像的结构相似性指数,求取两个结构相似性指数的平均值作为平 均结构相似性指数mSSIM,计算梯度结构相似度NRSS,计算公式为: NRSS=1-mSSIM;
若NRSS<D,认为原始图像清晰度高,否则认为原始图像清晰度低,其中,D 为清晰度判定阈值,0.0001<D<0.002,优选的,D可为0.001。
优选的,图像类别信息还包括噪声大小,对原始图像进行噪声估计,获得噪声 估计值,若噪声估计值大于E,则认为该原始图像噪声大,否则认为该原始图像 噪声小,E为噪声判定阈值。对于图像噪声大的原始图像,其局部二值化参数中 的平滑窗口小于图像噪声小的原始图像的平滑窗口,这样能够能够根据原始图 像的噪声特性自适应匹配滑动窗口,即噪声少就用大窗口加快速度,噪声多就 用小窗口确保精细。图像噪声估计的算法可参考现有技术CN104103039B和 CN102118546B中的方法。
在本发明的一种优选实施方式中,在步骤S1中,依据图像类别信息获取局 部二值化参数的步骤包括:
局部二值化参数包括局部二值化的切割阈值Ts,获取局部二值化的切割阈值 Ts的公式为:
Ts=threshold1*xs1+xs2*deviation;
其中,threshold1为第二处理算法的初始分割阈值;deviation为偏差值;xs1和xs2分别为线性调整的系数值,均根据图像类别信息取值;
deviation的计算公式为:
deviation=(meanSquare-mean2)0.5,其中,meanSquare为原始图像平方操作后的二维均值滤波值,mean为原始图像的二维均值滤波值;
threshold1的计算公式为:
其中,R为deviation矩阵中的最大值;k为修正系数,0<k<1;
xs1和xs2的取值公式为:
在本发明的一种优选实施方式中,步骤S2包括:
步骤S20,按照如下转换公式将原始图像转换为灰度图像:
Gray=R×0.3+G×0.59+B×0.11;
其中,R,G,B分别代表原始图像中像素点在RGB空间中的红、绿、蓝三个 通道分量,Cray为灰度图像中对应像素点的像素值;
步骤S21,对步骤S21的灰度图像进行边缘增强,具体包括:
对灰度图像进行水平扫描和/或竖直扫描卷积操作,获取相应的边缘增强的 灰度图像,具体的卷积算子为:
竖直扫描卷积算子:
水平扫描卷积算子:
步骤S22,对步骤S21输出的边缘增强的灰度图像进行滤波降噪处理。
原始图像灰度处理前后的对比如图3所示。
在本发明的一种优选实施方式中,步骤S2还包括:
步骤S23,利用归一化公式对灰度图像进行归一化处理:
归一化公式如下:
其中xmax为灰度图像的最大像素值,xmin为灰度图像的最小像素值,将原始 数据线性化的方法转换到[0 1]的范围,x*为归一化后像素点的像素值。
在本发明的一种优选实施方式中,在步骤S3中,利用第一处理算法获取灰 度图像基于边缘的第一二值图的步骤包括:
步骤S30,使用Canny算法计算得到灰度图像的边缘信息;
步骤S31,求取边缘像素点邻域内最大像素值和最小像素值的平均值,将平 均值作为该像素点邻域的二值化阈值,通过二值化阈值区分出像素点邻域内的 前景像素点和背景像素点;
步骤S32,按照步骤S31完成灰度图像边缘上所有像素点邻域的二值化,获 得第一二值图。
在本实施方式中,首先通过图像的边缘信息进行二值化,如果像素点是边 缘像素点,那么应该能够在其邻域中找到前景像素点和背景像素点。然后,对 于每个像素点,我们计算以该像素点为中心的窗口上的灰度值的平均值作为其 局部二值化的阈值。由于图像分辨率的问题,前景像素点可以靠近边缘或远离 边缘。因此,这种平均过程需要足够大的窗口,该过程中需要滑动窗口大于前 景文字的笔画宽度。
具体整体流程为:输入灰度图像后,使用Canny算法计算得到图像边缘信 息,对于每一个边缘像素点,分别计算该像素点的邻域内的最大灰度值以及最 小灰度值,通过这两个值,可以得到这两个值的平均值并将其作为二值化的阈 值,因此可以将该区域的像素点分为前景像素点以及背景像素点。基于边缘的 二值化方法通过增强边缘,然后二值化,可以确保更多字符信息保留。
在本发明的一种优选实施方式中,第二处理算法对灰度图像进行局部二值 化处理包括:
求取原始图像的亮度背景图像,将原始图像减去亮度背景图像得到文本图 像,在文本图像上依次以像素点为中心,在像素点的邻域内以根据原始图像类 别信息得到的局部二值化参数作为切割阈值进行二值化处理,直至完成整个文 本图像的二值化。对不同种类的文档图像二值化效果有显著增强,且稳定性很 好。
在本实施方式中,亮度背景图像的获取过程可以为:手动获取原始图像中 多个背景像素点的像素值的平均值,将该平均值赋值给所有像素点作为像素值, 即获得亮度背景图像。亮度背景图像的获取过程还可以为:将原始图像转换为 HSV颜色空间图像,获取V通道图像中全部像素点像素值的平均值,将亮度背景 图像中的所有像素点的像素值赋值为该平均值。
本发明还提供了一种图像处理系统,包括图像输入装置和图像处理器,图 像输入装置将复杂背景文本图输入至图像处理器,图像处理器按照本发明所述 的图像提取方法从原始图像中提取出文本图像。
在本实施方式中,图像处理器优选但不限于为PC电脑、嵌入式系统等,图 像输入装置优选但不限于为图像采集卡等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、 “具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特 征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明 书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描 述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中 以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解: 在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、 替换和变型,本发明的范围由权利要求及其等同物限定。
Claims (10)
1.一种基于多阈值融合的复杂背景文本图像提取方法,其特征在于,包括:
步骤S1,获取原始图像,得到图像类别信息,依据图像类别信息获取局部二值化参数;
步骤S2,将原始图像转换为灰度图像;
步骤S3,利用第一处理算法获取灰度图像基于边缘的第一二值图;利用第二处理算法基于局部二值化参数对灰度图像进行局部二值化处理得到第二二值图;
步骤S4,将第一二值图和第二二值图进行逻辑“或”操作后输出,即为提取出的文本图像。
2.如权利要求1所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,在所述步骤S1中图像类别信息包括背景颜色类别、亮度大小类别或清晰度高低类别中的一个或几个。
3.如权利要求2所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,判断所述背景颜色类别的过程包括:
将原始图像转换为YCbCr色彩空间图像,提取YCbCr色彩空间图像的Cb通道图像矩阵;
判断不等式mean(Cb>A)<0.9是否为真,若为真,认为原始图像的背景为非白色,若不为真,认为原始图像的背景为白色;
其中,mean()表示计算括号内矩阵的平均值,Cb表示图像的Cb通道图像矩阵,Cb>A得到的是一个只有0和1的布尔型矩阵,mean(Cb>A)<0.9表示Cb通道图像矩阵中像素值大于A的像素点个数占Cb通道图像矩阵像素点总数的比例小于90%,A为背景像素判定阈值,为正整数;
判断所述亮度大小类别的过程为:
计算原始图像的平均像素值;
当原始图像的背景为白色时,若平均像素值大于B,则认为原始图像的亮度为高亮度,否则为低亮度;当原始图像的背景为非白色时,若平均像素值大于C,则认为原始图像的亮度为高亮度,否则为低亮度;0<C<B,其中,B、C均为平均像素判定阈值。
4.如权利要求2所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,判断原始图像的清晰度高低类别的过程包括为:
步骤S10,构建并利用n*n高斯高斯滤波器对原始图像进行滤波得到滤波图像;所述n为正整数;
步骤S11,利用Sobel算子获得原始图像的第一梯度图像,利用Sobel算子获得滤波图像的第二梯度图像;
步骤S12,计算原始图像与第一梯度图像的结构相似性指数,计算滤波图像与第二梯度图像的结构相似性指数,求取两个结构相似性指数的平均值作为平均结构相似性指数mSSIM,计算梯度结构相似度NRSS,计算公式为:
NRSS=1-mSSIM;
若NRSS<D,认为原始图像清晰度高,否则认为原始图像清晰度低,其中,D为清晰度判定阈值,0.0001<D<0.002。
5.如权利要求2所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,在所述步骤S1中,依据图像类别信息获取局部二值化参数的步骤包括:
所述局部二值化参数包括局部二值化的切割阈值Ts,获取局部二值化的切割阈值Ts的公式为:
Ts=threshold1*xs1+xs2*deviation;
其中,threshold1为第二处理算法的初始分割阈值;deviation为偏差值;xs1和xs2分别为线性调整的系数值,均根据图像类别信息取值;
所述deviation的计算公式为:
deviation=(meanSquare-mean2)0.5,其中,meanSquare为原始图像平方操作后的二维均值滤波值,mean为原始图像的二维均值滤波值;
所述threshold1的计算公式为:
其中,R为deviation矩阵中的最大值;k为修正系数,0<k<1;
所述xs1和xs2的取值公式为:
6.如权利要求1所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,所述步骤S2包括:
步骤S20,按照如下转换公式将原始图像转换为灰度图像:
Gray=R×0.3+G×0.59+B×0.11;
其中,R,G,B分别代表原始图像中像素点在RGB空间中的红、绿、蓝三个通道分量,Cray为灰度图像中对应像素点的像素值;
步骤S21,对所述步骤S21的灰度图像进行边缘增强,具体包括:
对灰度图像进行水平扫描和/或竖直扫描卷积操作,获取相应的边缘增强的灰度图像,具体的卷积算子为:
竖直扫描卷积算子:
水平扫描卷积算子:
步骤S22,对所述步骤S21输出的边缘增强的灰度图像进行滤波降噪处理。
7.如权利要求1所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,所述步骤S2还包括:
步骤S23,利用归一化公式对灰度图像进行归一化处理:
归一化公式如下:
其中xmax为灰度图像的最大像素值,xmin为灰度图像的最小像素值,x*为归一化后像素点的像素值。
8.如权利要求1所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,在所述步骤S3中,利用第一处理算法获取灰度图像基于边缘的第一二值图的步骤包括:
步骤S30,使用Canny算法计算得到灰度图像的边缘信息;
步骤S31,求取边缘像素点邻域内最大像素值和最小像素值的平均值,将平均值作为该像素点邻域的二值化阈值,通过二值化阈值区分出像素点邻域内的前景像素点和背景像素点;
步骤S32,按照步骤S31完成灰度图像边缘上所有像素点邻域的二值化,获得第一二值图。
9.如权利要求1所述的基于多阈值融合的复杂背景文本图像提取方法,其特征在于,所述第二处理算法对灰度图像进行局部二值化处理包括:求取原始图像的亮度背景图像,将原始图像减去亮度背景图像得到文本图像,在文本图像上依次以像素点为中心,在像素点的邻域内以根据原始图像类别信息得到的局部二值化参数作为切割阈值进行二值化处理,直至完成整个文本图像的二值化。
10.一种图像处理系统,其特征在于,包括图像输入装置和图像处理器,所述图像输入装置将复杂背景文本图输入至图像处理器,所述图像处理器按照权利要求1-9之一所述的图像提取方法从原始图像中提取出文本图像。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910250571.3A CN110008954B (zh) | 2019-03-29 | 2019-03-29 | 一种基于多阈值融合的复杂背景文本图像提取方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910250571.3A CN110008954B (zh) | 2019-03-29 | 2019-03-29 | 一种基于多阈值融合的复杂背景文本图像提取方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110008954A true CN110008954A (zh) | 2019-07-12 |
CN110008954B CN110008954B (zh) | 2021-03-19 |
Family
ID=67169008
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910250571.3A Active CN110008954B (zh) | 2019-03-29 | 2019-03-29 | 一种基于多阈值融合的复杂背景文本图像提取方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110008954B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110517274A (zh) * | 2019-08-30 | 2019-11-29 | 集美大学 | 一种图像阈值分割方法、终端设备及存储介质 |
CN111080554A (zh) * | 2019-12-20 | 2020-04-28 | 成都极米科技股份有限公司 | 一种投影内容中字幕区域增强方法、装置及可读存储介质 |
CN111191192A (zh) * | 2019-12-27 | 2020-05-22 | 潍柴动力股份有限公司 | 数据的去噪方法、装置及存储介质 |
CN111639633A (zh) * | 2020-02-20 | 2020-09-08 | 中国银联股份有限公司 | 用于定位图像中的片状区域的方法和装置 |
CN111767924A (zh) * | 2020-07-03 | 2020-10-13 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备、存储介质 |
CN112233049A (zh) * | 2020-12-14 | 2021-01-15 | 成都中轨轨道设备有限公司 | 一种用于提升图像清晰度的图像融合方法 |
CN112348767A (zh) * | 2019-08-06 | 2021-02-09 | 河南大学 | 基于物体边缘检测和特征匹配的木材计数模型 |
CN112348117A (zh) * | 2020-11-30 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 场景识别方法、装置、计算机设备和存储介质 |
CN113218986A (zh) * | 2021-04-09 | 2021-08-06 | 河南五建建设集团有限公司 | 一种用于预应力压浆施工后密实度的检测系统及方法 |
CN113256674A (zh) * | 2021-06-28 | 2021-08-13 | 恒银金融科技股份有限公司 | 一种基于差值的复杂背景分离方法 |
CN113311440A (zh) * | 2020-02-26 | 2021-08-27 | 苏州佳世达电通有限公司 | 用于改善超声波影像质量的方法及其探测系统 |
CN113822817A (zh) * | 2021-09-26 | 2021-12-21 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
WO2023284313A1 (zh) * | 2021-07-16 | 2023-01-19 | 稿定(厦门)科技有限公司 | Psd图片的自动切片方法及装置 |
CN116542881A (zh) * | 2023-07-05 | 2023-08-04 | 电子科技大学成都学院 | 一种机器人视觉图像处理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1979526A (zh) * | 2005-12-02 | 2007-06-13 | 佳能株式会社 | 文档图像的二值化方法和装置、及其程序和存储介质 |
CN101042735A (zh) * | 2006-03-23 | 2007-09-26 | 株式会社理光 | 图像二值化方法和装置 |
CN101599172A (zh) * | 2008-06-06 | 2009-12-09 | 上海吉量软件科技有限公司 | 非均匀光照的文本图像的亮度补偿分割方法 |
US20120308121A1 (en) * | 2011-06-03 | 2012-12-06 | International Business Machines Corporation | Image ranking based on attribute correlation |
CN106228157A (zh) * | 2016-07-26 | 2016-12-14 | 江苏鸿信系统集成有限公司 | 基于图像识别技术的彩色图像文字段落分割与识别方法 |
CN106886987A (zh) * | 2017-03-23 | 2017-06-23 | 重庆大学 | 一种列车车牌二值化图像融合方法 |
US20170200258A1 (en) * | 2014-05-28 | 2017-07-13 | Peking University Shenzhen Graduate School | Super-resolution image reconstruction method and apparatus based on classified dictionary database |
CN108073931A (zh) * | 2016-11-08 | 2018-05-25 | 广州城市职业学院 | 一种复杂背景图像下去除非文字图形的方法 |
CN108389170A (zh) * | 2018-03-07 | 2018-08-10 | 鞍钢集团矿业有限公司 | 多广角摄像机重叠区域的图像增强及去噪方法和装置 |
-
2019
- 2019-03-29 CN CN201910250571.3A patent/CN110008954B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1979526A (zh) * | 2005-12-02 | 2007-06-13 | 佳能株式会社 | 文档图像的二值化方法和装置、及其程序和存储介质 |
CN101042735A (zh) * | 2006-03-23 | 2007-09-26 | 株式会社理光 | 图像二值化方法和装置 |
CN101599172A (zh) * | 2008-06-06 | 2009-12-09 | 上海吉量软件科技有限公司 | 非均匀光照的文本图像的亮度补偿分割方法 |
US20120308121A1 (en) * | 2011-06-03 | 2012-12-06 | International Business Machines Corporation | Image ranking based on attribute correlation |
US20170200258A1 (en) * | 2014-05-28 | 2017-07-13 | Peking University Shenzhen Graduate School | Super-resolution image reconstruction method and apparatus based on classified dictionary database |
CN106228157A (zh) * | 2016-07-26 | 2016-12-14 | 江苏鸿信系统集成有限公司 | 基于图像识别技术的彩色图像文字段落分割与识别方法 |
CN108073931A (zh) * | 2016-11-08 | 2018-05-25 | 广州城市职业学院 | 一种复杂背景图像下去除非文字图形的方法 |
CN106886987A (zh) * | 2017-03-23 | 2017-06-23 | 重庆大学 | 一种列车车牌二值化图像融合方法 |
CN108389170A (zh) * | 2018-03-07 | 2018-08-10 | 鞍钢集团矿业有限公司 | 多广角摄像机重叠区域的图像增强及去噪方法和装置 |
Non-Patent Citations (2)
Title |
---|
KAUSHIK ROY ET AL: "An Adaptive Fusion Scheme of Color and Edge Features for Background Subtraction", 《2017 14TH IEEE INTERNATIONAL CONFERENCE ON ADVANCED VIDEO AND SIGNAL BASED SURVEILLANCE (AVSS)》 * |
闫利等: "基于结构分析的线划角点检测", 《武汉测绘科技大学学报》 * |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112348767A (zh) * | 2019-08-06 | 2021-02-09 | 河南大学 | 基于物体边缘检测和特征匹配的木材计数模型 |
CN110517274A (zh) * | 2019-08-30 | 2019-11-29 | 集美大学 | 一种图像阈值分割方法、终端设备及存储介质 |
CN110517274B (zh) * | 2019-08-30 | 2022-04-01 | 集美大学 | 一种图像阈值分割方法、终端设备及存储介质 |
CN111080554A (zh) * | 2019-12-20 | 2020-04-28 | 成都极米科技股份有限公司 | 一种投影内容中字幕区域增强方法、装置及可读存储介质 |
CN111080554B (zh) * | 2019-12-20 | 2023-08-04 | 成都极米科技股份有限公司 | 一种投影内容中字幕区域增强方法、装置及可读存储介质 |
CN111191192B (zh) * | 2019-12-27 | 2023-09-19 | 潍柴动力股份有限公司 | 数据的去噪方法、装置及存储介质 |
CN111191192A (zh) * | 2019-12-27 | 2020-05-22 | 潍柴动力股份有限公司 | 数据的去噪方法、装置及存储介质 |
CN111639633A (zh) * | 2020-02-20 | 2020-09-08 | 中国银联股份有限公司 | 用于定位图像中的片状区域的方法和装置 |
CN113311440A (zh) * | 2020-02-26 | 2021-08-27 | 苏州佳世达电通有限公司 | 用于改善超声波影像质量的方法及其探测系统 |
CN111767924A (zh) * | 2020-07-03 | 2020-10-13 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备、存储介质 |
CN111767924B (zh) * | 2020-07-03 | 2024-01-26 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备、存储介质 |
WO2022002002A1 (zh) * | 2020-07-03 | 2022-01-06 | 杭州睿琪软件有限公司 | 图像处理方法、图像处理装置、电子设备、存储介质 |
CN112348117A (zh) * | 2020-11-30 | 2021-02-09 | 腾讯科技(深圳)有限公司 | 场景识别方法、装置、计算机设备和存储介质 |
CN112233049A (zh) * | 2020-12-14 | 2021-01-15 | 成都中轨轨道设备有限公司 | 一种用于提升图像清晰度的图像融合方法 |
CN113218986A (zh) * | 2021-04-09 | 2021-08-06 | 河南五建建设集团有限公司 | 一种用于预应力压浆施工后密实度的检测系统及方法 |
CN113256674A (zh) * | 2021-06-28 | 2021-08-13 | 恒银金融科技股份有限公司 | 一种基于差值的复杂背景分离方法 |
WO2023284313A1 (zh) * | 2021-07-16 | 2023-01-19 | 稿定(厦门)科技有限公司 | Psd图片的自动切片方法及装置 |
WO2023046112A1 (zh) * | 2021-09-26 | 2023-03-30 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
CN113822817A (zh) * | 2021-09-26 | 2021-12-21 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
CN113822817B (zh) * | 2021-09-26 | 2024-08-02 | 维沃移动通信有限公司 | 文档图像增强方法、装置及电子设备 |
CN116542881A (zh) * | 2023-07-05 | 2023-08-04 | 电子科技大学成都学院 | 一种机器人视觉图像处理方法 |
Also Published As
Publication number | Publication date |
---|---|
CN110008954B (zh) | 2021-03-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110008954A (zh) | 一种基于多阈值融合的复杂背景文本图像提取方法及系统 | |
US7379594B2 (en) | Methods and systems for automatic detection of continuous-tone regions in document images | |
CN104751142B (zh) | 一种基于笔划特征的自然场景文本检测方法 | |
Shen et al. | Improving OCR performance with background image elimination | |
Kasar et al. | Font and background color independent text binarization | |
US7606414B2 (en) | Fusion of color space data to extract dominant color | |
CN101599125A (zh) | 复杂背景下图像处理的二值化方法 | |
US9171224B2 (en) | Method of improving contrast for text extraction and recognition applications | |
CN111986378B (zh) | 一种票据彩色纤维丝检测方法和系统 | |
Zhang et al. | A combined algorithm for video text extraction | |
Aung et al. | Automatic license plate detection system for myanmar vehicle license plates | |
Saini | Document image binarization techniques, developments and related issues: a review | |
Shukla et al. | Improving degraded document images using binarization technique | |
Kumar et al. | Text detection using multilayer separation in real scene images | |
Sreedevi et al. | Ngfica based digitization of historic inscription images | |
Boudraa et al. | A robust multi stage technique for image binarization of degraded historical documents | |
Ouji et al. | Chromatic/achromatic separation in noisy document images | |
Kumar et al. | License plate tracking using gradient based segmentation | |
CN111489371B (zh) | 一种场景的直方图近似单峰分布时的图像分割方法 | |
US20150030240A1 (en) | System and method for enhancing the legibility of images | |
Yang et al. | A novel binarization approach for license plate | |
Lo et al. | Shadow detection by integrating multiple features | |
Li et al. | A hybrid text segmentation approach | |
Sun et al. | Shadow detection and removal from solo natural image based on retinex theory | |
Huang et al. | A new video text extraction method based on stroke |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |