CN109740607A - 字符图像的残缺区域检测和残缺字符图像恢复方法 - Google Patents

字符图像的残缺区域检测和残缺字符图像恢复方法 Download PDF

Info

Publication number
CN109740607A
CN109740607A CN201811596301.XA CN201811596301A CN109740607A CN 109740607 A CN109740607 A CN 109740607A CN 201811596301 A CN201811596301 A CN 201811596301A CN 109740607 A CN109740607 A CN 109740607A
Authority
CN
China
Prior art keywords
image
character
incomplete
character picture
cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811596301.XA
Other languages
English (en)
Other versions
CN109740607B (zh
Inventor
涂庆红
唐董琦
路通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing Interconnection Intelligent Technology Co Ltd
Original Assignee
Nanjing Interconnection Intelligent Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Interconnection Intelligent Technology Co Ltd filed Critical Nanjing Interconnection Intelligent Technology Co Ltd
Priority to CN201811596301.XA priority Critical patent/CN109740607B/zh
Publication of CN109740607A publication Critical patent/CN109740607A/zh
Application granted granted Critical
Publication of CN109740607B publication Critical patent/CN109740607B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)
  • Character Input (AREA)

Abstract

本发明提出了一种残缺字符图像恢复方法,包括:将序列字符分割为单个字符,通过聚类的方法检测出字符残缺部分作为待补全区域,用WGAN生成器生成的字符图像对残缺部分进行补全,最后得到最终恢复图像。本发明在字符图像有少量残缺破损的情况下能够将其恢复成原状。

Description

字符图像的残缺区域检测和残缺字符图像恢复方法
技术领域
本发明涉及机器学习技术领域,尤其涉及基于图像聚类的残缺区域检测,基于生成对抗网络的残缺字符图像恢复方法。
背景技术
字符是我们与外界沟通的重要媒介之一,人类获取的信息中有90%来源于眼睛捕捉到的画面,而字符无疑是最为重要的信息获取方式,也是我们和其他动物的一个重要的区分。随着计算机技术的发展,用计算机技术捕捉字符图像以及检测识别字符变得越来越成熟。然而,现实生活中,我们常常会遇到字符残缺的现象,一部分是由于在户外场景下,会受到风吹日晒等影响广告牌或者海报等受到破坏,另一方面则是在原有的字符上面被重新打印或者是涂鸦上了字符,使得原本的字符无法很好地辨识,如图1。
发明内容
在现有的技术下,我们很难对这些已经破损的字符进行识别,识别的结果往往和真实的结果相差甚远,因此,本发明的目的是提供一种可用于对原有破损字符图像恢复的方法,方便后续计算机对字符的识别和理解。
本发明首先提出一种对残缺字符进行分割的方法,所述方法包括:
一种残缺字符图像分割方法,其特征在于包括如下步骤:
对原始图像进行二值化处理,将字符部分与背景图像进行区分;
对二值化的图像进行边缘检测,再对边缘检测后的图像进行霍夫变换,获取字符部分的倾斜角,对其进行倾斜矫正;
对倾斜矫正的图像进行竖直方向投影,得到像素级的投影直方图,在投影直方图中寻找合适的阈值对原始图像进行分割,得到单个残缺字符图像。
作为本发明的一种优选技术方案:所述方法还包括:针对光照不均的图像,进行顶帽变换以及局部二值化处理,有效地区分出字符区域和背景图像。
本发明还提出一种图像中字符残缺部分检测方法,其特征在于,对残缺字符图像进行K均值聚类,将每个像素点归属到背景区域、字符区域以及残缺区域其中之一,将字符区域,残缺区域以及背景区域做一个分离,所述残缺区域作为待恢复区域。
本发明提出一种单个残缺字符图像的恢复方法,所述方法包括如下步骤:
首先采集大量完整的单个字符图像,用其训练生成对抗网络WGAN,这个网络包括一对生成器和判别器,对于生成器,给定一个输入向量,该生成器可以生成一幅单个字符的图像;对于判别器,给定一幅字符图像,它可以判定是真还是假(或者说真/假的可能性有多大);训练好WGAN后,将其生成器和判别器的权值保持固定;
将一个随机给定的向量m输入到全连接神经网络F,得到输入给WGAN生成器的输入向量n,通过生成器得到一幅单个字符图像,将这幅图像与待恢复的单个残缺字符图像进行比较,计算两者除去单个残缺字符图像待恢复区域以外的均方误差作为第一部分的损失函数;
将通过生成器生成的图像与单个残缺字符图像进行融合,在残缺字符图像待恢复区域填补上对应位置生成的图像,将融合后的图像送入判别器,得到是否是假的概率,作为第二部分损失函数;
将两部分的损失函数做加权和,作为整体的损失函数,通过梯度下降法优化全连接神经网络F的权值,通过多次迭代优化得到最终融合图像。
作为本发明的一种优选技术方案:所述方法还包括:在开始的时候随机生成一组向量{m},选取损失函数最小的向量作为最终的m并且保持固定,优化迭代的时候只优化全连接神经网络F的权值。
相比于现有技术,本发明技术方案通过先进行倾斜矫正再进行字符分割的方式能更好的对文本行进行分割;本发明技术通过聚类的方式能自适应地寻找图像中的字符残缺区域;本发明技术采用WGAN对字符残缺区域进行填充处理,得到的填充效果更好,从而提升对破损的字符进行识别效果。
附图说明
图1是在原有字符基础上被印上其他字符的图像;
图2是分割后的单个字符图像;
图3是聚类后的单个字符图像;
图4为恢复后的样例图;
图5为WGAN的结构示意图;
图6为本发明整个算法的流程示意图;
图7为字符分割的示意图。
具体实施方式
下面结合实施例及附图,对本发明技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明的保护范围。
实施例一
·字符图像数据集
本实例的数据集来自于工业场景中喷码到酒箱上的图像,为了得到破损的图像,我们对原有完整图像进行污染处理,使最终得到的图像会有不同程度破损,如图1
·实验环境
本实验在Ubuntu Linux 16.04的服务器上进行,所需要的环境为python3.5以及PyTorch 0.4.0,OpenCV 3.4.0
对残缺字符进行补全的方法流程如图6,具体包括以下步骤:
1.用大量的单个字符的图像训练WGAN
收集获取大量的与恢复任务相关的单个字符图像,将其缩放至到64×64的尺寸,输入至WGAN的模型中训练,WGAN的结构示意图如图5,通过迭代优化WGAN的目标函数,得到生成单个字符图像能力较好的生成器以及判别真假能力较好的判别器,优化的目标如下:
其中,D表示判别器,G表示生成器,x表示图像,Pdata表示原始图像的集合,PG表示生成图像的集合,下标分别表示从原始图像集合中得到图像x和从生成的图像集合中得到图像x,E[·]表示求期望。
2.图像中字符的分割
整个字符分割的流程如图7所示
读取残缺字符的图像,通过顶帽变换以及局部二值化的方法将原始图像二值化,消除光照不均匀等因素的干扰。
对于二值化后的图像用Canny算子进行边缘检测,提取得到图像的边缘,再对边缘图像进行霍夫变换,获取最长直线的倾斜角度(即图像中字符区域的倾斜角),通过旋转变换对其进行倾斜矫正。
对进行倾斜矫正后的二值化图像进行竖直方向的像素投影,如图7的投影直方图所示,寻找合适的阈值(使图像中的所有字符分开即可)对图像进行切分得到单个字符级别的残缺图像。
分割后的单个残缺字符图像如图2所示。
3.查找图像中待恢复区域
通过K均值聚类的方法将各单个残缺字符图像中的像素粗略地划分成三个簇,分别是字符区域,即残缺区域以及背景区域。聚类的优化目标是最小化各个类的平方误差:
其中K表示聚类的类别数目,Ck表示第k个簇,x表示来自Ck的某个像素点,uk表示第k个聚类均值向量
方法如下:
1)先随机设定3个点作为初始聚类中心
2)将每个点指派到最近的聚类中心,形成3个簇
3)重新计算每个簇的聚类中心
4)循环进行2)和3)操作,直至每个簇不发生变化或者达到最大迭代次数
如图3所示,最终我们可以获得3个簇分别为背景区域,字符区域以及残缺区域,残缺区域即单个残缺文字图像的待恢复区域。
4.对单个字符的残缺图像进行恢复
将3中检测到的残缺区域记为M,1-M为其他区域;
构建一个全连接神经网络记为F,其输入向量维数为||m||,其输出向量的维数与WGAN生成器的输入向量维数相同都为||n||;
以下是残缺图像恢复方法的流程:
1)随机初始化一组向量{m}作为全连接神经网络F的输入
2)每个向量m通过F后得到对应的向量n作为WGAN生成器G的输入
3)向量n通过生成器G后,得到一幅生成的单个字符图像记为B,待恢复的单个残缺字符图像记为A
4)比较A和B除去残缺区域部分的均方误差作为第一部分的损失函数L1
用于比较两幅图像的相似程度
L1=MSE((1-M)A,(1-M)B)
其中MSE表示均方误差函数:
其中,xi,yi分别表示图像x的第i个像素和图像y的第i个像素,n代表图像中所有的像素点个数。
5)将B中对应着A的残缺部分的图像和A的其他部分图像融合成一幅完整的图像记作C
6)将融合的图像C输入WGAN的判别器D,计算C为假图像的概率作为第二部分损失函数L2
L2=BCE(D(C),0)
其中BCE为二值交叉熵函数
7)将两个损失函数求加权和L,寻找{m}中使总的损失最小的m作为最终输入给全连接神经网络F的向量
L=L1+L2
8)将L反向传播到全连接神经网络F中,通过梯度下降的方法优化F,重复步骤2)~7)直至L不再变化或者达到最大迭代次数,得到最终融合图像,如图4。

Claims (10)

1.一种残缺字符图像分割方法,其特征在于包括如下步骤:
对原始图像进行二值化处理,将字符部分与背景图像进行区分;
对二值化的图像进行边缘检测,再对边缘检测后的图像进行霍夫变换,获取字符部分的倾斜角,对其进行倾斜矫正;
对倾斜矫正的图像进行竖直方向投影,得到像素级的投影直方图,在投影直方图中寻找合适的阈值对原始图像进行分割,得到单个残缺字符图像。
2.如权利要求1所述的残缺字符图像分割方法,其特征在于,先将原始图像进行顶帽变换,再对其进行局部二值化,消除光照不均匀因素的影响。
3.一种图像中字符残缺部分检测方法,其特征在于,对残缺字符图像进行K均值聚类,将每个像素点归属到背景区域、字符区域以及残缺区域其中之一,将字符区域,残缺区域以及背景区域做一个分离,所述残缺区域作为待恢复区域。
4.如权利要求3所述的图像中字符残缺部分检测方法,其特征在于,聚类的优化目标是最小化各个类的平方误差:
其中K表示聚类的类别数目,Ck表示第k个簇,x表示来自Ck的某个像素点,uk表示第k个聚类均值向量
5.如权利要求3所述的图像中字符残缺部分检测方法,其特征在于包括如下步骤:
1)先随机设定3个点作为初始聚类中心
2)将每个点指派到最近的聚类中心,形成3个簇
3)重新计算每个簇的聚类中心
4)循环进行2)和3)操作,直至每个簇不发生变化或者达到最大迭代次数。
6.一种单个残缺字符图像的恢复方法,其特征在于,所述方法包括如下步骤:
先采集大量完整的单个字符图像,用其训练生成对抗网络WGAN,使WGAN的生成器有较好的字符图像生成效果,判别器有较强的真伪图像判别能力,将两部分网络的权值固定;
将一个随机给定的向量输入一个全连接神经网络,得到的输入向量作为对抗网络WGAN生成器的输入,通过生成器生成一幅单个字符图像,将这幅图像与待恢复的单个残缺字符图像进行比较,计算两者除去单个残缺字符图像待恢复区域以外的均方误差作为第一部分的损失函数;
将通过生成器生成的图像与单个残缺字符图像进行融合,在残缺字符图像待恢复区域填补上对应位置生成的图像,将融合后的图像送入对抗网络WGAN的判别器,得到是否是假的概率,作为第二部分损失函数;
将两部分的损失函数做加权和,作为整体的损失函数,通过梯度下降法优化全连接神经网络的权值,通过迭代优化的方式得到最终融合图像。
7.如权利要求6所述的单个残缺字符图像的恢复方法,其特征在于,开始的时候随机生成一组向量,选取损失函数最小的向量作为最终输入到全连接神经网络的向量并且保持固定,优化迭代的时候只优化全连接神经网络的权值。
8.一种图像中字符残缺部分的恢复方法,其特征在于,所述方法包括如下步骤:
步骤一:对残缺字符图像进行分割,得到单个残缺字符图像;
步骤二:对字符残缺部分进行检测,对每个残缺字符图像进行K均值聚类,将每个像素点归属到背景区域、字符区域以及残缺区域其中之一,将字符区域,残缺区域以及背景区域做一个分离,所述残缺区域作为待恢复区域;
步骤三:对每个残缺字符图像的残缺区域进行恢复,具体方法是:
先采集大量完整的单个字符图像,用其训练生成对抗网络WGAN,使WGAN的生成器有较好的字符图像生成效果,判别器有较强的真伪图像判别能力,将两部分网络的权值固定;
将一个随机给定的向量输入一个全连接神经网络,得到的输入向量作为对抗网络WGAN生成器的输入,通过生成器生成一幅单个字符图像,将这幅图像与待恢复的单个残缺字符图像进行比较,计算两者除去单个残缺字符图像待恢复区域以外的均方误差作为第一部分的损失函数;
将通过生成器生成的图像与单个残缺字符图像进行融合,在残缺字符图像待恢复区域填补上对应位置生成的图像,将融合后的图像送入对抗网络WGAN的判别器,得到是否是假的概率,作为第二部分损失函数;
将两部分的损失函数做加权和,作为整体的损失函数,通过梯度下降法优化全连接神经网络的权值,通过迭代优化的方式得到最终融合图像。
9.如权利要求8所述的一种图像中字符残缺部分的恢复方法,其特征在于,对残缺字符图像进行分割包括如下步骤:
对原始图像进行二值化处理,将字符部分与背景图像进行区分;
对二值化的图像进行边缘检测,再对边缘检测后的图像进行霍夫变换,获取字符部分的倾斜角,对其进行倾斜矫正;
对倾斜矫正的图像进行竖直方向投影,得到像素级的投影直方图,在投影直方图中寻找合适的阈值对原始图像进行分割,得到单个残缺字符图像。
10.如权利要求8所述的一种图像中字符残缺部分的恢复方法,其特征在于,对字符残缺部分进行检测,包括如下步骤:
1)先随机设定3个点作为初始聚类中心
2)将每个点指派到最近的聚类中心,形成3个簇
3)重新计算每个簇的聚类中心
4)循环进行2)和3)操作,直至每个簇不发生变化或者达到最大迭代次数。
CN201811596301.XA 2018-12-26 2018-12-26 字符图像的残缺区域检测和残缺字符图像恢复方法 Active CN109740607B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811596301.XA CN109740607B (zh) 2018-12-26 2018-12-26 字符图像的残缺区域检测和残缺字符图像恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811596301.XA CN109740607B (zh) 2018-12-26 2018-12-26 字符图像的残缺区域检测和残缺字符图像恢复方法

Publications (2)

Publication Number Publication Date
CN109740607A true CN109740607A (zh) 2019-05-10
CN109740607B CN109740607B (zh) 2023-07-21

Family

ID=66361301

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811596301.XA Active CN109740607B (zh) 2018-12-26 2018-12-26 字符图像的残缺区域检测和残缺字符图像恢复方法

Country Status (1)

Country Link
CN (1) CN109740607B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765339A (zh) * 2019-11-14 2020-02-07 南宁师范大学 一种基于生成对抗网络的残缺中文书法修复补全方法
CN111402156A (zh) * 2020-03-11 2020-07-10 腾讯科技(深圳)有限公司 一种涂抹图像的复原方法、装置及存储介质和终端设备
CN113516123A (zh) * 2021-05-14 2021-10-19 南京工程学院 一种针对轮胎压印字符的检测识别方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008147A1 (en) * 2004-05-21 2006-01-12 Samsung Electronics Co., Ltd. Apparatus, medium, and method for extracting character(s) from an image
US20070257939A1 (en) * 2004-06-14 2007-11-08 Xerox Corporation Method for image segmentation based on block clustering for improved processing of touching characters
CN101251898A (zh) * 2008-03-25 2008-08-27 腾讯科技(深圳)有限公司 一种肤色检测方法及装置
US20110200250A1 (en) * 2010-02-17 2011-08-18 Samsung Electronics Co., Ltd. Apparatus and method for generating image for character region extraction
CN103324930A (zh) * 2013-06-28 2013-09-25 浙江大学苏州工业技术研究院 一种基于灰度直方图二值化的车牌字符分割方法
US20140270526A1 (en) * 2013-03-14 2014-09-18 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
US20150131908A1 (en) * 2013-07-16 2015-05-14 Tencent Technology (Shenzhen) Company Limited Character recognition method and device
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN108596166A (zh) * 2018-04-13 2018-09-28 华南师范大学 一种基于卷积神经网络分类的集装箱箱号识别方法
CN109035149A (zh) * 2018-03-13 2018-12-18 杭州电子科技大学 一种基于深度学习的车牌图像去运动模糊方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060008147A1 (en) * 2004-05-21 2006-01-12 Samsung Electronics Co., Ltd. Apparatus, medium, and method for extracting character(s) from an image
US20070257939A1 (en) * 2004-06-14 2007-11-08 Xerox Corporation Method for image segmentation based on block clustering for improved processing of touching characters
CN101251898A (zh) * 2008-03-25 2008-08-27 腾讯科技(深圳)有限公司 一种肤色检测方法及装置
US20110200250A1 (en) * 2010-02-17 2011-08-18 Samsung Electronics Co., Ltd. Apparatus and method for generating image for character region extraction
US20140270526A1 (en) * 2013-03-14 2014-09-18 Konica Minolta Laboratory U.S.A., Inc. Method for segmenting text words in document images
CN103324930A (zh) * 2013-06-28 2013-09-25 浙江大学苏州工业技术研究院 一种基于灰度直方图二值化的车牌字符分割方法
US20150131908A1 (en) * 2013-07-16 2015-05-14 Tencent Technology (Shenzhen) Company Limited Character recognition method and device
CN109035149A (zh) * 2018-03-13 2018-12-18 杭州电子科技大学 一种基于深度学习的车牌图像去运动模糊方法
CN108537146A (zh) * 2018-03-22 2018-09-14 五邑大学 一种印刷体与手写体混合文本行提取系统
CN108596166A (zh) * 2018-04-13 2018-09-28 华南师范大学 一种基于卷积神经网络分类的集装箱箱号识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BAOMING SHAN: "License Plate Character Segmentation and", 《2010 SECOND INTERNATIONAL WORKSHOP ON EDUCATION TECHNOLOGY AND COMPUTER SCIENCE》 *
宁蒙 等: "自然场景下的车牌分割方法", 《计算机工程与设计》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110765339A (zh) * 2019-11-14 2020-02-07 南宁师范大学 一种基于生成对抗网络的残缺中文书法修复补全方法
CN111402156A (zh) * 2020-03-11 2020-07-10 腾讯科技(深圳)有限公司 一种涂抹图像的复原方法、装置及存储介质和终端设备
CN111402156B (zh) * 2020-03-11 2021-08-03 腾讯科技(深圳)有限公司 一种涂抹图像的复原方法、装置及存储介质和终端设备
CN113516123A (zh) * 2021-05-14 2021-10-19 南京工程学院 一种针对轮胎压印字符的检测识别方法
CN113516123B (zh) * 2021-05-14 2023-11-24 南京工程学院 一种针对轮胎压印字符的检测识别方法

Also Published As

Publication number Publication date
CN109740607B (zh) 2023-07-21

Similar Documents

Publication Publication Date Title
CN108319938B (zh) 用于高性能人脸识别系统的高质量训练数据准备系统
Korus et al. Multi-scale fusion for improved localization of malicious tampering in digital images
Li et al. A spatial clustering method with edge weighting for image segmentation
US20140270489A1 (en) Learned mid-level representation for contour and object detection
CN109460735B (zh) 基于图半监督学习的文档二值化处理方法、系统、装置
CN109740607A (zh) 字符图像的残缺区域检测和残缺字符图像恢复方法
CN108509950B (zh) 基于概率特征加权融合的铁路接触网支柱号牌检测识别法
US20140079316A1 (en) Segmentation co-clustering
Roy et al. Wavelet-gradient-fusion for video text binarization
Das et al. Optical character recognition using artificial neural network
CN109101810A (zh) 一种基于ocr技术的文字验证码识别方法
Ling et al. A model for automatic recognition of vertical texts in natural scene images
Rasooli et al. Farsi license plate detection based on element analysis and characters recognition
CN110781898A (zh) 一种中文ocr后处理的无监督学习方法
Chang Intelligent text detection and extraction from natural scene images
Sharma et al. A deep cnn model for student learning pedagogy detection data collection using ocr
Peng et al. Overlapped text segmentation using markov random field and aggregation
Malakar et al. An improved offline handwritten character segmentation algorithm for Bangla script.
Romic et al. Character recognition based on region pixel concentration for license plate identification
CN112614094B (zh) 基于序列状态编码的绝缘子串异常定位识别方法
CN114882582A (zh) 基于联邦学习模式的步态识别模型训练方法与系统
Xu et al. Application of Neural Network in Handwriting Recognition
Hussain A hybrid approach handwritten character recognition for mizo using artificial neural network
Bhatt et al. Text Extraction & Recognition from Visiting Cards
Winger et al. Low-complexity character extraction in low-contrast scene images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant