CN110032997A - 一种基于图像分割的自然场景文本定位方法 - Google Patents

一种基于图像分割的自然场景文本定位方法 Download PDF

Info

Publication number
CN110032997A
CN110032997A CN201910012635.6A CN201910012635A CN110032997A CN 110032997 A CN110032997 A CN 110032997A CN 201910012635 A CN201910012635 A CN 201910012635A CN 110032997 A CN110032997 A CN 110032997A
Authority
CN
China
Prior art keywords
image
text
image block
information
img
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910012635.6A
Other languages
English (en)
Other versions
CN110032997B (zh
Inventor
易尧华
卢利琼
杨佳
何婧婧
陈海青
杨锶齐
盛豪
王新宇
俞雯茜
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910012635.6A priority Critical patent/CN110032997B/zh
Publication of CN110032997A publication Critical patent/CN110032997A/zh
Application granted granted Critical
Publication of CN110032997B publication Critical patent/CN110032997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像分割的自然场景文本定位方法,包括图像预处理、训练过程和预测过程等三步骤;首先,使用图像分割方法把图像中小文本图像提取出来并放大提取出的小文本图像的尺寸,得到图像分割训练模型;其次,将放大后的小文本图像输入到目标检测网络进行训练得到文本检测训练模型;最后,用图像分割的训练模型提取出训练集中的小文本图像,组合调整以后输入到文本检测训练模型中进行预测。本发明所述的方法可以明显提升图像中占用面积比较小的文本的检测精度,同时并不会影响大文本的检测精度。

Description

一种基于图像分割的自然场景文本定位方法
技术领域
本发明属于数字图像处理技术领域,具体涉及一种基于图像分割的自然场景 文本定位方法。
背景技术
文字作为一种传递信息的媒介,在人类的生活中担当着越来越重要的角色。 近些年,随着各种智能终端和数码产品的广泛普及,人们可以在任意时刻任意地 点拍摄自己感兴趣的场景图像,图像中往往包含大量有用的文本信息,比如道路 指示牌、商店名称、广告牌、宣传标语等,这些文本信息的存在,更好的传递了 场景视觉信息,使得人们对于新事物的认识更加方便、快捷。科技的进步带动了 时代的发展,创建智能、快捷、高效的生活方式(智能交通、无人驾驶、智能家 居等)成为当今人们的向往,然而,其中的关键之一是利用智能设备能够从自然 场景图像中自动定位并识别出文本信息。
目前自然场景图像文字的检测存在以下困难:一、自然场景图像文字有着背 景复杂,自然场景条件下的文字,背景复杂多样,类似文字结构的图案可能混杂 在背景中,使分类器很难对背景与文字分离。二、易受环境因素影响,自然场景 条件下周边环境可能对文字定位产生光照过度或者阴暗等不利条件,这些不利条 件给对文字的定位带来额外的困难,光照条件不同对色彩的作用不同,在光照和 阴影的影响下,相同色彩的同一字符的不同部位表现出的差别也很大。三、文字 样式不统一,自然场景文字由于三维到二维投影变换,大多数文字呈角度斜向排 列会造成尺寸不同、字体不一的问题。这些文字会因为体积过小,无法被计算机 提取到足够的特征而遗漏,也会因文字过大导致计算机提取的特征密度不足而无 法检测。
发明内容
为了解决上述技术问题,本发明提供了一种可以减少图像中非文本信息,使 其可以明显改善图像中文本体积过小、背景复杂而出现的定位不准的问题。
本发明所采用的技术方案是:一种基于图像分割的自然场景文本定位方法, 先通过图像分割将包含文本的区域放大,然后将放大后的文本区域送入文本检测 器进行精准定位,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 大小为a×b的子图像img_org,接着将得到的子图像img_org按照n×m的网格 分割成大小为的图像块n×m个,最后标记图像块;
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像,再把组 合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi,最后将这些 子图像train_img_combi输入到文本检测网络进行训练,得到文本检测模型 Text_Detection_Model;
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 a×b,接着将得到的图像分割成大小为的图像块n×m个,将图像块输入 到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到 包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸调 整为a×b,得到多个子图像test_img_combi,将这些子图像test_img_combi输入 到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文 本的定位信息,最后将文本定位信息还原到原始测试集图像中。
进一步的,所述步骤1中将训练集里的图像转化为灰度图,转换公式为:
GRAY=0.3×R+0.59×G+0.11×B (1)
其中,R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值。
进一步的,步骤1中标记图像块的具体实现方式如下,
步骤1.3.1:计算图像块是否包含文本信息,包括如下子步骤,
步骤1.3.1a,计算文本信息在子图像img_org中的位置:
其中Xmin为原图像中文本标注信息的左上角点的横坐标,Ymin为原图像中文 本标注信息的左上角点的纵坐标,Xmax为原图像中文本标注信息的右下角点的 横坐标,Ymax为原图像中文本标注信息的右下角点的纵坐标;其中文本标注信息 是以水平矩形框的形式将文本信息标注在原图像中;
Xmin_new为在子图像img_org中文本标注信息的左上角点的横坐标, Xmax_new为在子图像img_org中文本标注信息的左上角点的纵坐标,Ymin_new为 在子图像img_org中文本标注信息的右下角点的横坐标,Ymax_new为在子图像 img_org中文本标注信息的右下角点的纵坐标,w0为原始图像的宽,h0为原始图 像的高;
步骤1.3.1b:计算文本信息在图像块的位置;
如果刚好为整数的话:
否则:
如果刚好为整数的话:
否则:
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行, yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个 图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图 像块的行和列由格网确定;
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成,如果该 图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。
进一步的,步骤2中训练过程的具体实现包括以下子步骤:
步骤2.1:图像块分类训练;
步骤2.1.1:制作train.txt:
根据步骤1中每个图像块标注的标签信息,制作train.txt的内容;
步骤2.1.2:开始训练;
将以上图像块输入到分类神经网络中进行训练,得到图像块分类模型Classifier_Net_Model;
步骤2.2:分割图像;根据全为零的行和列对图像块进行分割,将分割后的 图像块组合成新的图像,最后将组合成的图像的尺寸调整为a×b,得到多个子 图像train_img_combi;
步骤2.2.1:根据全零列确定宽度;
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零 的图像块的列,记为Isplitright,然后将列全为0的图像块删除。;
步骤2.2.2:根据全零行确定高度;
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零 的图像块的行,记为Isplitdown,然后将行全为0的图像块删除;
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2处理之后剩下的图像块组合成新的图像,此时图像 的宽为图像的高为: 最后将组合成的图像的尺寸调整为a×b,得到多个 子图像train_img_combi;
步骤2.3:文本检测训练;
步骤2.3.1:将步骤2.2得到的所有的子图像制作为新的训练集,计算文本信 息,重新制作train.txt的内容;
步骤2.3.2:开始训练:
将这些子图像train_img_combi输入到文本检测神经网络中进行训练,得到 文本检测模型Text_Detection_Model。
进一步的,步骤3中的预测过程包括以下子步骤:
步骤3.1:对测试集中的图像进行预处理,
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b, 接着将得到的图像分割成大小为的图像块n×m个;
步骤3.2:图像块预测,
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块;
步骤3.3:组合图像块,
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1, 高记为h1,再把组合成的图像的尺寸调整为a×b,得到多个子图像 test_img_combi;
步骤3.4:文本定位预测,
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h),其中 x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的为预测的矩形框 的宽,h为预测的为预测的矩形框的高;
步骤3.5:坐标信息转换,
将步骤3.4所得的定位信息转化为矩形框的坐标;
步骤3.6:计算文本区域在原始图像的精确定位,得到最终的预测结果。
进一步的,步骤3.5中坐标信息转换的实现方式如下,
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的为预测 的矩形框的宽,h为预测的为预测的矩形框的高;
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角 点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框 右下角点的纵坐标。
进一步的,步骤3.6的具体实现方式如下,
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算 公式如下:
其中,xmin为预测到矩形框的左上角点的横坐标,y min为预测到的矩形框 左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到 的矩形框右下角点的纵坐标。xmin_new为还原到子图像test_img_combi的预测矩 形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框 的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的 右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下 角点纵坐标;xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为 预测得到有文本信息的第一个图像块的所在的列;
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
其中,xmin_last为预测结果还原到原图像上的矩形框左上角点的横坐标, ymin_last为预测结果还原到原图像上的矩形框左上角点的纵坐标,xmax_last为预测 结果还原到原图像上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原 图像上的矩形框右下角点的纵坐标;w2代表测试集原始图片的宽,h2代表测试 集原始图片的高。
与现有技术相比,本发明方法可以明显提升图像中占用面积小文本的检测精 度,同时并不会影响占用面积大文本的检测精度。
附图说明
图1为本发明实施例的流程图。
图2为原图像灰度处理后(图2(a))以及分割图像后的图(图2(b));
图3为含有文本信息的图像重新组合(图3(a))以及组合后调整尺寸以 后的图像(图3(b));
图4为不使用本发明方法单纯使用YOLO训练后测试的原图(图4(a)) 和效果图(图4(b));
图5为使用本发明方法后,再使用基于目标检测网络YOLO的神经网络训 练后测试的原图(图5(a))和效果(图5(b));
图6为使用本发明方法(图6(a))和不使用本发明方法(图6(b))在 大文本图像上检测的对比。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对 本发明作进一步的详细描述,下面a×b以480×640,n×m为8×8为例子进行 说明,以下所描述的实施示例仅用于说明和解释本发明,但并不限定本发明的保 护范围。
本发明以ICDA2013数据为例,请见图1,本发明公开了一种基于图像分割 的自然场景文本定位方法,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个,最后标记图 像块,如果该图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。 这样,针对分割后图像,我们得到了64个标签信息。其具体实现步骤如下:
步骤1.1:将训练集里的图像转化为灰度图,如图2(a)所示
GRAY=0.3×R+0.59×G+0.11×B (1)
R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值
步骤1.2:图像分割:
将步骤1.1所得到的灰度图尺寸调整为480×640得到子图像img_org,然后 将将得到的子图像img_org按照8×8的网格分割成大小为60×80的图像块共64 个,如图2(b)所示。
步骤1.3:图像块标记:
步骤1.3.1:计算图像块是否包含文本信息:
步骤1.3.1a:计算文本信息在子图像img_org中的位置:
其中Xmin为原图像中文本标注信息(文本标注信息是ICDA2013数据集中包 含有的,以水平矩形框的形式将文本信息标注出来,文本标注信息可以有多个; 如果训练集跟测试集没有包含文本标注信息时,可以通过标注软件(如labelImg) 对图像中的文本信息进行标注)的左上角点的横坐标,Ymin为原图像中文本标注 信息(矩形框)的左上角点的纵坐标,Xmax为原图像中文本标注信息(矩形框) 的右下角点的横坐标,Ymax为原图像中文本标注信息(矩形框)的右下角点的纵 坐标。
Xmin_new为在子图像img_org中文本标注信息(矩形框)的左上角点的横坐 标,Xmax_new为在子图像img_org中文本标注信息(矩形框)的左上角点的纵坐 标,Ymin_new为在子图像img_org中文本标注信息(矩形框)的右下角点的横坐 标,Ymax_new为在子图像img_org中文本标注信息(矩形框)的右下角点的纵坐 标。w0为原始图像的宽,h0为原始图像的高。
步骤1.3.1b:计算文本信息在图像块的位置;
如果刚好为整数的话:
否则:
如果刚好为整数的话:
否则:
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行, yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个 图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图 像块的行和列由格网确定。
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成。如果该 图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。这样,针 对分割后图像,我们得到了64个标签信息。
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像(如图3 (a)所示),再把组合成的图像的尺寸调整为480×640(如图3(b)所示), 得到多个子图像train_img_combi(当原图像上有多个文本标注信息时,可以得 到多个子图像),最后将这些子图像train_img_combi输入到文本检测网络进行 训练,得到文本检测模型Text_Detection_Model。其具体实现步骤如下:
步骤2.1:图像块分类训练:
步骤2.1.1:重新制作train.txt;
向神经网络输送数据,都需要一个文本来存放数据的路径和对应的标记数 据,这些数据存放在train.txt中;根据以上标注的标签信息,重新制作train.txt 的内容。
步骤2.1.2:开始训练
将以上图像块输入到分类神经网络ResNet中进行训练,得到图像块分类模 型Classifier_Net_Model。
步骤2.2:分割图像:根据全为零的行和列对图像块进行分割
步骤2.2.1:根据全零列确定宽度:
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零 的图像块的列,记为Isplitright,然后将列全为0的图像块删除。
步骤2.2.2:根据全零行确定高度:
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零 的图像块的行,记为Isplitdown,然后将行全为0的图像块删除。
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2剩下的图像块组合成新的图像,此时图像的宽为 w3=(8-Isplitright-Isplitleft)×60,图像的高为:h3=(8-Isplitdown- Isplitup)×80,最后将组合成的图像的尺寸调整为480×640,即Width=480, High=640,得到多个子图像train_img_combi。
步骤2.3:文本检测训练:
步骤2.3.1:将步骤2.2得到的所有的子图像train_img_combi制作为新的训 练集,标签信息为:
Xmin_new1=Xmin_new-Isplitleft×60; (12)
Xmax_new1=Xmax_new-Isplitleft×60; (13)
Ymin_new1=Ymin_new-Isplitup×80; (14)
Ymax_new1=Ymax_new-Isplitup×80; (15)
根据以上标注的标签信息,重新制作train.txt的内容。
步骤2.3.2:开始训练
将子图像train_img_combi输入到基于目标检测网络YOLO的神经网络中进 行训练,得到文本检测模型Text_Detection_Model。
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个,将图像块输 入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得 到包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸 调整为480×640,得到多个子图像test_img_combi,将这些子图像test_img_combi 输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得 到文本的定位信息,最后将文本定位信息还原到原始测试集图像中。其具体实现 步骤如下:
步骤3.1:对测试集中的图像进行预处理:
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个。
步骤3.2:图像块预测:
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块。
步骤3.3:组合图像块:
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1, 高记为h1,再把组合成的图像的尺寸调整为480×640,得到多个子图像 test_img_combi。
步骤3.4:文本定位预测:
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h)。
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框 的宽,h为预测的矩形框的高。
步骤3.5:坐标信息转换:
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框 的宽,h为预测的矩形框的高。
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角 点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框 右下角点的纵坐标。
并将结果保存到文本,记为“predict_split_up.txt”。保存的格式为图像名称,文本框坐标,例如:img_1_1.jpg:46 31 610 216,173 260 455 448,jpg代表测试的 图像,46 31代表预测的第一个矩形框的左上角的点的横坐标与纵坐标,610 216 代表预测的第一个矩形框的右下角的坐标;173 260代表预测的第二个矩形框的 左上角的点的坐标,455448代表预测的第二个矩形框的右下角的坐标。
步骤3.6:计算文本区域在原始图像的精确定位:
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算 公式如下:
其中,xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框 左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到 的矩形框右下角点的纵坐标。xmin_new为还原到子图像test_img_combi的预测矩 形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框 的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的 右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下 角点纵坐标。xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为 预测得到有文本信息的第一个图像块的所在的列。
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
其中,xmin_last为预测结果还原到原图上的矩形框左上角点的横坐标, ymin_last为预测结果还原到原图上的矩形框左上角点的纵坐标,xmax_last为预测结 果还原到原图上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原图上 的矩形框右下角点的纵坐标。w2代表测试集原始图片的宽,h2代表测试集原始 图片的高。
请见图4-6,本发明实施例的过程图以及结果对比图。图4为不使用本发明 方法单纯使用yolo训练后测试的结果,图5为使用本发明方法后,再使用基于 yolo的神经网络训练后测试的结果。从图4与图5的对比可以看出本发明对文本 内容占用原始图像面积较小的文本图像检测效果提升明显,从而保证了检测出的 文本区域的准确性;图6(a)和6(b)为使用本发明方法和不使用本发明方法 在大文本图像上检测的对比,从图6可以看出本发明方法对对文本内容占用原始 图像面积较大的文本图像检测效果依然出众,并不会影响该类图像的识别。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是 对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不 脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发 明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (7)

1.一种基于图像分割的自然场景文本定位方法,其特征在于,先通过图像分割将包含文本的区域放大,然后将放大后的文本区域送入文本检测器进行精准定位,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为大小为a×b的子图像img_org,接着将得到的子图像img_org按照n×m的网格分割成大小为的图像块n×m个,最后标记图像块;
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像,再把组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi,最后将这些子图像train_img_combi输入到文本检测网络进行训练,得到文本检测模型Text_Detection_Model;
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b,接着将得到的图像分割成大小为的图像块n×m个,将图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸调整为a×b,得到多个子图像test_img_combi,将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文本的定位信息,最后将文本定位信息还原到原始测试集图像中。
2.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:所述步骤1中将训练集里的图像转化为灰度图,转换公式为:
GRAY=0.3×R+0.59×G+0.11×B (1)
其中,R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值。
3.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤1中标记图像块的具体实现方式如下,
步骤1.3.1:计算图像块是否包含文本信息,包括如下子步骤,
步骤1.3.1a,计算文本信息在子图像img_org中的位置:
其中Xmin为原图像中文本标注信息的左上角点的横坐标,Ymin为原图像中文本标注信息的左上角点的纵坐标,Xmax为原图像中文本标注信息的右下角点的横坐标,Ymax为原图像中文本标注信息的右下角点的纵坐标;其中文本标注信息是以水平矩形框的形式将文本信息标注在原图像中;
Xmin_new为在子图像img_org中文本标注信息的左上角点的横坐标,Xmax_new为在子图像img_org中文本标注信息的左上角点的纵坐标,Ymin_new为在子图像img_org中文本标注信息的右下角点的横坐标,Ymax_new为在子图像img_org中文本标注信息的右下角点的纵坐标,w0为原始图像的宽,h0为原始图像的高;
步骤1.3.1b:计算文本信息在图像块的位置;
如果刚好为整数的话:
否则:
如果刚好为整数的话:
否则:
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行,yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图像块的行和列由格网确定;
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成,如果该图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。
4.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤2中训练过程的具体实现包括以下子步骤:
步骤2.1:图像块分类训练;
步骤2.1.1:制作train.txt:
根据步骤1中每个图像块标注的标签信息,制作train.txt的内容;
步骤2.1.2:开始训练;
将以上图像块输入到分类神经网络中进行训练,得到图像块分类模型Classifier_Net_Model;
步骤2.2:分割图像;根据全为零的行和列对图像块进行分割,将分割后的图像块组合成新的图像,最后将组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi;
步骤2.2.1:根据全零列确定宽度;
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零的图像块的列,记为Isplitright,然后将列全为0的图像块删除。;
步骤2.2.2:根据全零行确定高度;
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零的图像块的行,记为Isplitdown,然后将行全为0的图像块删除;
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2处理之后剩下的图像块组合成新的图像,此时图像的宽为图像的高为: 最后将组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi;
步骤2.3:文本检测训练;
步骤2.3.1:将步骤2.2得到的所有的子图像制作为新的训练集,计算文本信息,重新制作train.txt的内容;
步骤2.3.2:开始训练:
将这些子图像train_img_combi输入到文本检测神经网络中进行训练,得到文本检测模型Text_Detection_Model。
5.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3中的预测过程包括以下子步骤:
步骤3.1:对测试集中的图像进行预处理,
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b,接着将得到的图像分割成大小为的图像块n×m个;
步骤3.2:图像块预测,
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块;
步骤3.3:组合图像块,
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1,高记为h1,再把组合成的图像的尺寸调整为a×b,得到多个子图像test_img_combi;
步骤3.4:文本定位预测,
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h),其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框的宽,h为预测的矩形框的高;
步骤3.5:坐标信息转换,
将步骤3.4所得的定位信息转化为矩形框的坐标;
步骤3.6:计算文本区域在原始图像的精确定位,得到最终的预测结果。
6.根据权利要求5所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3.5中坐标信息转换的实现方式如下,
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框的宽,h为预测的矩形框的高;
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框右下角点的纵坐标。
7.根据权利要求6所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3.6的具体实现方式如下,
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算公式如下:
其中,xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框右下角点的纵坐标。xmin_new为还原到子图像test_img_combi的预测矩形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下角点纵坐标;xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为预测得到有文本信息的第一个图像块的所在的列;
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
其中,xmin_last为预测结果还原到原图像上的矩形框左上角点的横坐标,ymin_last为预测结果还原到原图像上的矩形框左上角点的纵坐标,xmax_last为预测结果还原到原图像上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原图像上的矩形框右下角点的纵坐标;w2代表测试集原始图片的宽,h2代表测试集原始图片的高。
CN201910012635.6A 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法 Active CN110032997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910012635.6A CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910012635.6A CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Publications (2)

Publication Number Publication Date
CN110032997A true CN110032997A (zh) 2019-07-19
CN110032997B CN110032997B (zh) 2021-02-19

Family

ID=67235484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910012635.6A Active CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Country Status (1)

Country Link
CN (1) CN110032997B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
US20160035116A1 (en) * 2013-03-29 2016-02-04 Rakuten, Inc. Image processing device, image processing method, information storage medium, and program
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108345850A (zh) * 2018-01-23 2018-07-31 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
US20160035116A1 (en) * 2013-03-29 2016-02-04 Rakuten, Inc. Image processing device, image processing method, information storage medium, and program
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN107609549A (zh) * 2017-09-20 2018-01-19 北京工业大学 一种自然场景下证件图像的文本检测方法
CN107977620A (zh) * 2017-11-29 2018-05-01 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108345850A (zh) * 2018-01-23 2018-07-31 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
C. S. SHIN等: "SUPPORT VECTOR MACHINE-BASED TEXT DETECTION IN DIGITAL VIDEO", 《NEURAL NETWORKS FOR SIGNAL PROCESSING X. PROCEEDINGS OF THE 2000 IEEE SIGNAL PROCESSING SOCIETY WORKSHOP》 *
JIANG REN-JIE等: "A learning-based method to detect and segment text from scene images", 《JOURNAL OF ZHEJIANG UNIVERSITY SCIENCE》 *
李颖等: "自然场景图像的字符识别方法", 《包装工程》 *

Also Published As

Publication number Publication date
CN110032997B (zh) 2021-02-19

Similar Documents

Publication Publication Date Title
Liu et al. Parsenet: Looking wider to see better
Camps-Valls et al. Advances in hyperspectral image classification: Earth monitoring with statistical learning methods
CN103049763B (zh) 一种基于上下文约束的目标识别方法
CN108427920A (zh) 一种基于深度学习的边海防目标检测方法
CN108549893A (zh) 一种任意形状的场景文本端到端识别方法
CN106991382A (zh) 一种遥感场景分类方法
Fang Rice crop area estimation of an administrative division in China using remote sensing data
KR101384627B1 (ko) 영상 내 객체 영역 자동분할 방법
CN105447522A (zh) 一种复杂图像文字识别系统
CN114332956A (zh) 一种基于卷积神经网络的牛脸检测和牛脸关键点定位方法
CN102254326A (zh) 利用核传递进行图像分割的方法
CN104268552B (zh) 一种基于部件多边形的精细类别分类方法
CN108898092A (zh) 基于全卷积神经网络的多光谱遥感影像路网提取方法
CN109446873A (zh) 手写字体识别方法、系统以及终端设备
CN109800750A (zh) 一种基于图像形态学用于规则排版的文本的文字区域标注方法
CN103632153A (zh) 一种基于区域的图像显著图提取方法
CN111368775A (zh) 一种基于局部上下文感知的复杂场景密集目标检测方法
CN108664969A (zh) 基于条件随机场的路标识别方法
CN109522807A (zh) 基于自生成特征的卫星影像识别系统、方法及电子设备
Zhang et al. Object-based classification framework of remote sensing images with graph convolutional networks
CN109657728B (zh) 样例生产方法及模型训练方法
Lauziere et al. A model-based road sign identification system
CN111582344A (zh) 一种加油站卸油口盖状态识别方法
CN110032997A (zh) 一种基于图像分割的自然场景文本定位方法
CN111783881A (zh) 基于预训练模型的场景适配学习方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant