CN110032997B - 一种基于图像分割的自然场景文本定位方法 - Google Patents

一种基于图像分割的自然场景文本定位方法 Download PDF

Info

Publication number
CN110032997B
CN110032997B CN201910012635.6A CN201910012635A CN110032997B CN 110032997 B CN110032997 B CN 110032997B CN 201910012635 A CN201910012635 A CN 201910012635A CN 110032997 B CN110032997 B CN 110032997B
Authority
CN
China
Prior art keywords
image
text
information
sub
img
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910012635.6A
Other languages
English (en)
Other versions
CN110032997A (zh
Inventor
易尧华
卢利琼
杨佳
何婧婧
陈海青
杨锶齐
盛豪
王新宇
俞雯茜
王萌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910012635.6A priority Critical patent/CN110032997B/zh
Publication of CN110032997A publication Critical patent/CN110032997A/zh
Application granted granted Critical
Publication of CN110032997B publication Critical patent/CN110032997B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/63Scene text, e.g. street names
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20212Image combination
    • G06T2207/20221Image fusion; Image merging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于图像分割的自然场景文本定位方法,包括图像预处理、训练过程和预测过程等三步骤;首先,使用图像分割方法把图像中小文本图像提取出来并放大提取出的小文本图像的尺寸,得到图像分割训练模型;其次,将放大后的小文本图像输入到目标检测网络进行训练得到文本检测训练模型;最后,用图像分割的训练模型提取出训练集中的小文本图像,组合调整以后输入到文本检测训练模型中进行预测。本发明所述的方法可以明显提升图像中占用面积比较小的文本的检测精度,同时并不会影响大文本的检测精度。

Description

一种基于图像分割的自然场景文本定位方法
技术领域
本发明属于数字图像处理技术领域,具体涉及一种基于图像分割的自然场景 文本定位方法。
背景技术
文字作为一种传递信息的媒介,在人类的生活中担当着越来越重要的角色。 近些年,随着各种智能终端和数码产品的广泛普及,人们可以在任意时刻任意地 点拍摄自己感兴趣的场景图像,图像中往往包含大量有用的文本信息,比如道路 指示牌、商店名称、广告牌、宣传标语等,这些文本信息的存在,更好的传递了 场景视觉信息,使得人们对于新事物的认识更加方便、快捷。科技的进步带动了 时代的发展,创建智能、快捷、高效的生活方式(智能交通、无人驾驶、智能家 居等)成为当今人们的向往,然而,其中的关键之一是利用智能设备能够从自然 场景图像中自动定位并识别出文本信息。
目前自然场景图像文字的检测存在以下困难:一、自然场景图像文字有着背 景复杂,自然场景条件下的文字,背景复杂多样,类似文字结构的图案可能混杂 在背景中,使分类器很难对背景与文字分离。二、易受环境因素影响,自然场景 条件下周边环境可能对文字定位产生光照过度或者阴暗等不利条件,这些不利条 件给对文字的定位带来额外的困难,光照条件不同对色彩的作用不同,在光照和 阴影的影响下,相同色彩的同一字符的不同部位表现出的差别也很大。三、文字 样式不统一,自然场景文字由于三维到二维投影变换,大多数文字呈角度斜向排 列会造成尺寸不同、字体不一的问题。这些文字会因为体积过小,无法被计算机 提取到足够的特征而遗漏,也会因文字过大导致计算机提取的特征密度不足而无 法检测。
发明内容
为了解决上述技术问题,本发明提供了一种可以减少图像中非文本信息,使 其可以明显改善图像中文本体积过小、背景复杂而出现的定位不准的问题。
本发明所采用的技术方案是:一种基于图像分割的自然场景文本定位方法, 先通过图像分割将包含文本的区域放大,然后将放大后的文本区域送入文本检测 器进行精准定位,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 大小为a×b的子图像img_org,接着将得到的子图像img_org按照n×m的网格 分割成大小为
Figure BDA0001937907890000021
的图像块n×m个,最后标记图像块;
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像,再把组 合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi,最后将这些 子图像train_img_combi输入到文本检测网络进行训练,得到文本检测模型 Text_Detection_Model;
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 a×b,接着将得到的图像分割成大小为
Figure BDA0001937907890000022
的图像块n×m个,将图像块输入 到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到 包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸调 整为a×b,得到多个子图像test_img_combi,将这些子图像test_img_combi输入 到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文 本的定位信息,最后将文本定位信息还原到原始测试集图像中。
进一步的,所述步骤1中将训练集里的图像转化为灰度图,转换公式为:
GRAY=0.3×R+0.59×G+0.11×B (1)
其中,R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值。
进一步的,步骤1中标记图像块的具体实现方式如下,
步骤1.3.1:计算图像块是否包含文本信息,包括如下子步骤,
步骤1.3.1a,计算文本信息在子图像img_org中的位置:
Figure BDA0001937907890000023
Figure BDA0001937907890000024
Figure BDA0001937907890000025
Figure BDA0001937907890000026
其中Xmin为原图像中文本标注信息的左上角点的横坐标,Ymin为原图像中文 本标注信息的左上角点的纵坐标,Xmax为原图像中文本标注信息的右下角点的 横坐标,Ymax为原图像中文本标注信息的右下角点的纵坐标;其中文本标注信息 是以水平矩形框的形式将文本信息标注在原图像中;
Xmin_new为在子图像img_org中文本标注信息的左上角点的横坐标, Xmax_new为在子图像img_org中文本标注信息的左上角点的纵坐标,Ymin_new为 在子图像img_org中文本标注信息的右下角点的横坐标,Ymax_new为在子图像 img_org中文本标注信息的右下角点的纵坐标,w0为原始图像的宽,h0为原始图 像的高;
步骤1.3.1b:计算文本信息在图像块的位置;
Figure BDA0001937907890000031
Figure BDA0001937907890000032
如果
Figure BDA0001937907890000033
刚好为整数的话:
Figure BDA0001937907890000034
否则:
Figure BDA0001937907890000035
如果
Figure BDA0001937907890000036
刚好为整数的话:
Figure BDA0001937907890000037
否则:
Figure BDA0001937907890000038
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行, yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个 图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图 像块的行和列由格网确定;
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成,如果该 图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。
进一步的,步骤2中训练过程的具体实现包括以下子步骤:
步骤2.1:图像块分类训练;
步骤2.1.1:制作train.txt:
根据步骤1中每个图像块标注的标签信息,制作train.txt的内容;
步骤2.1.2:开始训练;
将以上图像块输入到分类神经网络中进行训练,得到图像块分类模型Classifier_Net_Model;
步骤2.2:分割图像;根据全为零的行和列对图像块进行分割,将分割后的 图像块组合成新的图像,最后将组合成的图像的尺寸调整为a×b,得到多个子 图像train_img_combi;
步骤2.2.1:根据全零列确定宽度;
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零 的图像块的列,记为Isplitright,然后将列全为0的图像块删除。;
步骤2.2.2:根据全零行确定高度;
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零 的图像块的行,记为Isplitdown,然后将行全为0的图像块删除;
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2处理之后剩下的图像块组合成新的图像,此时图像 的宽为
Figure BDA0001937907890000041
图像的高为:
Figure BDA0001937907890000042
Figure BDA0001937907890000043
最后将组合成的图像的尺寸调整为a×b,得到多个 子图像train_img_combi;
步骤2.3:文本检测训练;
步骤2.3.1:将步骤2.2得到的所有的子图像制作为新的训练集,计算文本信 息,重新制作train.txt的内容;
步骤2.3.2:开始训练:
将这些子图像train_img_combi输入到文本检测神经网络中进行训练,得到 文本检测模型Text_Detection_Model。
进一步的,步骤3中的预测过程包括以下子步骤:
步骤3.1:对测试集中的图像进行预处理,
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b, 接着将得到的图像分割成大小为
Figure BDA0001937907890000044
的图像块n×m个;
步骤3.2:图像块预测,
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块;
步骤3.3:组合图像块,
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1, 高记为h1,再把组合成的图像的尺寸调整为a×b,得到多个子图像 test_img_combi;
步骤3.4:文本定位预测,
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h),其中 x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的为预测的矩形框 的宽,h为预测的为预测的矩形框的高;
步骤3.5:坐标信息转换,
将步骤3.4所得的定位信息转化为矩形框的坐标;
步骤3.6:计算文本区域在原始图像的精确定位,得到最终的预测结果。
进一步的,步骤3.5中坐标信息转换的实现方式如下,
Figure BDA0001937907890000051
Figure BDA0001937907890000052
Figure BDA0001937907890000053
Figure BDA0001937907890000054
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的为预测 的矩形框的宽,h为预测的为预测的矩形框的高;
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角 点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框 右下角点的纵坐标。
进一步的,步骤3.6的具体实现方式如下,
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算 公式如下:
Figure BDA0001937907890000055
Figure BDA0001937907890000056
Figure BDA0001937907890000061
Figure BDA0001937907890000062
其中,xmin为预测到矩形框的左上角点的横坐标,y min为预测到的矩形框 左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到 的矩形框右下角点的纵坐标。xmin_new为还原到子图像test_img_combi的预测矩 形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框 的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的 右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下 角点纵坐标;xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为 预测得到有文本信息的第一个图像块的所在的列;
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
Figure BDA0001937907890000063
Figure BDA0001937907890000064
Figure BDA0001937907890000065
Figure BDA0001937907890000066
其中,xmin_last为预测结果还原到原图像上的矩形框左上角点的横坐标, ymin_last为预测结果还原到原图像上的矩形框左上角点的纵坐标,xmax_last为预测 结果还原到原图像上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原 图像上的矩形框右下角点的纵坐标;w2代表测试集原始图片的宽,h2代表测试 集原始图片的高。
与现有技术相比,本发明方法可以明显提升图像中占用面积小文本的检测精 度,同时并不会影响占用面积大文本的检测精度。
附图说明
图1为本发明实施例的流程图。
图2为原图像灰度处理后(图2(a))以及分割图像后的图(图2(b));
图3为含有文本信息的图像重新组合(图3(a))以及组合后调整尺寸以 后的图像(图3(b));
图4为不使用本发明方法单纯使用YOLO训练后测试的原图(图4(a)) 和效果图(图4(b));
图5为使用本发明方法后,再使用基于目标检测网络YOLO的神经网络训 练后测试的原图(图5(a))和效果(图5(b));
图6为使用本发明方法(图6(a))和不使用本发明方法(图6(b))在 大文本图像上检测的对比。
具体实施方式
为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对 本发明作进一步的详细描述,下面a×b以480×640,n×m为8×8为例子进行 说明,以下所描述的实施示例仅用于说明和解释本发明,但并不限定本发明的保 护范围。
本发明以ICDA2013数据为例,请见图1,本发明公开了一种基于图像分割 的自然场景文本定位方法,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个,最后标记图 像块,如果该图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。 这样,针对分割后图像,我们得到了64个标签信息。其具体实现步骤如下:
步骤1.1:将训练集里的图像转化为灰度图,如图2(a)所示
GRAY=0.3×R+0.59×G+0.11×B (1)
R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值
步骤1.2:图像分割:
将步骤1.1所得到的灰度图尺寸调整为480×640得到子图像img_org,然后 将将得到的子图像img_org按照8×8的网格分割成大小为60×80的图像块共64 个,如图2(b)所示。
步骤1.3:图像块标记:
步骤1.3.1:计算图像块是否包含文本信息:
步骤1.3.1a:计算文本信息在子图像img_org中的位置:
Figure BDA0001937907890000071
Figure BDA0001937907890000081
Figure BDA0001937907890000082
Figure BDA0001937907890000083
其中Xmin为原图像中文本标注信息(文本标注信息是ICDA2013数据集中包 含有的,以水平矩形框的形式将文本信息标注出来,文本标注信息可以有多个; 如果训练集跟测试集没有包含文本标注信息时,可以通过标注软件(如labelImg) 对图像中的文本信息进行标注)的左上角点的横坐标,Ymin为原图像中文本标注 信息(矩形框)的左上角点的纵坐标,Xmax为原图像中文本标注信息(矩形框) 的右下角点的横坐标,Ymax为原图像中文本标注信息(矩形框)的右下角点的纵 坐标。
Xmin_new为在子图像img_org中文本标注信息(矩形框)的左上角点的横坐 标,Xmax_new为在子图像img_org中文本标注信息(矩形框)的左上角点的纵坐 标,Ymin_new为在子图像img_org中文本标注信息(矩形框)的右下角点的横坐 标,Ymax_new为在子图像img_org中文本标注信息(矩形框)的右下角点的纵坐 标。w0为原始图像的宽,h0为原始图像的高。
步骤1.3.1b:计算文本信息在图像块的位置;
Figure BDA0001937907890000084
Figure BDA0001937907890000085
如果
Figure BDA0001937907890000086
刚好为整数的话:
Figure BDA0001937907890000087
否则:
Figure BDA0001937907890000088
如果
Figure BDA0001937907890000089
刚好为整数的话:
Figure BDA00019379078900000810
否则:
Figure BDA00019379078900000811
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行, yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个 图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图 像块的行和列由格网确定。
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成。如果该 图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”。这样,针 对分割后图像,我们得到了64个标签信息。
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像(如图3 (a)所示),再把组合成的图像的尺寸调整为480×640(如图3(b)所示), 得到多个子图像train_img_combi(当原图像上有多个文本标注信息时,可以得 到多个子图像),最后将这些子图像train_img_combi输入到文本检测网络进行 训练,得到文本检测模型Text_Detection_Model。其具体实现步骤如下:
步骤2.1:图像块分类训练:
步骤2.1.1:重新制作train.txt;
向神经网络输送数据,都需要一个文本来存放数据的路径和对应的标记数 据,这些数据存放在train.txt中;根据以上标注的标签信息,重新制作train.txt 的内容。
步骤2.1.2:开始训练
将以上图像块输入到分类神经网络ResNet中进行训练,得到图像块分类模 型Classifier_Net_Model。
步骤2.2:分割图像:根据全为零的行和列对图像块进行分割
步骤2.2.1:根据全零列确定宽度:
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零 的图像块的列,记为Isplitright,然后将列全为0的图像块删除。
步骤2.2.2:根据全零行确定高度:
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零 的图像块的行,记为Isplitdown,然后将行全为0的图像块删除。
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2剩下的图像块组合成新的图像,此时图像的宽为 w3=(8-Isplitright-Isplitleft)×60,图像的高为:h3=(8-Isplitdown- Isplitup)×80,最后将组合成的图像的尺寸调整为480×640,即Width=480, High=640,得到多个子图像train_img_combi。
步骤2.3:文本检测训练:
步骤2.3.1:将步骤2.2得到的所有的子图像train_img_combi制作为新的训 练集,标签信息为:
Xmin_new1=Xmin_new-Isplitleft×60; (12)
Xmax_new1=Xmax_new-Isplitleft×60; (13)
Ymin_new1=Ymin_new-Isplitup×80; (14)
Ymax_new1=Ymax_new-Isplitup×80; (15)
Figure BDA0001937907890000101
Figure BDA0001937907890000102
Figure BDA0001937907890000103
Figure BDA0001937907890000104
根据以上标注的标签信息,重新制作train.txt的内容。
步骤2.3.2:开始训练
将子图像train_img_combi输入到基于目标检测网络YOLO的神经网络中进 行训练,得到文本检测模型Text_Detection_Model。
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个,将图像块输 入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得 到包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸 调整为480×640,得到多个子图像test_img_combi,将这些子图像test_img_combi 输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得 到文本的定位信息,最后将文本定位信息还原到原始测试集图像中。其具体实现 步骤如下:
步骤3.1:对测试集中的图像进行预处理:
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为 480×640,接着将得到的图像分割成大小为60×80的图像块64个。
步骤3.2:图像块预测:
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块。
步骤3.3:组合图像块:
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1, 高记为h1,再把组合成的图像的尺寸调整为480×640,得到多个子图像 test_img_combi。
步骤3.4:文本定位预测:
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h)。
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框 的宽,h为预测的矩形框的高。
步骤3.5:坐标信息转换:
Figure BDA0001937907890000111
Figure BDA0001937907890000112
Figure BDA0001937907890000113
Figure BDA0001937907890000114
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框 的宽,h为预测的矩形框的高。
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角 点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框 右下角点的纵坐标。
并将结果保存到文本,记为“predict_split_up.txt”。保存的格式为图像名称,文本框坐标,例如:img_1_1.jpg:46 31 610 216,173 260 455 448,jpg代表测试的 图像,46 31代表预测的第一个矩形框的左上角的点的横坐标与纵坐标,610 216 代表预测的第一个矩形框的右下角的坐标;173 260代表预测的第二个矩形框的 左上角的点的坐标,455448代表预测的第二个矩形框的右下角的坐标。
步骤3.6:计算文本区域在原始图像的精确定位:
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算 公式如下:
Figure BDA0001937907890000121
Figure BDA0001937907890000122
Figure BDA0001937907890000123
Figure BDA0001937907890000124
其中,xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框 左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到 的矩形框右下角点的纵坐标。xmin_new为还原到子图像test_img_combi的预测矩 形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框 的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的 右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下 角点纵坐标。xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为 预测得到有文本信息的第一个图像块的所在的列。
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
Figure BDA0001937907890000125
Figure BDA0001937907890000126
Figure BDA0001937907890000127
Figure BDA0001937907890000128
其中,xmin_last为预测结果还原到原图上的矩形框左上角点的横坐标, ymin_last为预测结果还原到原图上的矩形框左上角点的纵坐标,xmax_last为预测结 果还原到原图上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原图上 的矩形框右下角点的纵坐标。w2代表测试集原始图片的宽,h2代表测试集原始 图片的高。
请见图4-6,本发明实施例的过程图以及结果对比图。图4为不使用本发明 方法单纯使用yolo训练后测试的结果,图5为使用本发明方法后,再使用基于 yolo的神经网络训练后测试的结果。从图4与图5的对比可以看出本发明对文本 内容占用原始图像面积较小的文本图像检测效果提升明显,从而保证了检测出的 文本区域的准确性;图6(a)和6(b)为使用本发明方法和不使用本发明方法 在大文本图像上检测的对比,从图6可以看出本发明方法对对文本内容占用原始 图像面积较大的文本图像检测效果依然出众,并不会影响该类图像的识别。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是 对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不 脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发 明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (6)

1.一种基于图像分割的自然场景文本定位方法,其特征在于,先通过图像分割将包含文本的区域放大,然后将放大后的文本区域送入文本检测器进行精准定位,包括以下步骤:
步骤1:图像预处理;
首先,将训练集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为大小为a×b的子图像img_org,接着将得到的子图像img_org按照n×m的网格分割成大小为
Figure FDA0002744453890000011
的图像块n×m个,最后标记图像块;
步骤1中标记图像块的具体实现方式如下,
步骤1.3.1:计算图像块是否包含文本信息,包括如下子步骤,
步骤1.3.1a,计算文本信息在子图像img_org中的位置:
Figure FDA0002744453890000012
Figure FDA0002744453890000013
Figure FDA0002744453890000014
Figure FDA0002744453890000015
其中Xmin为原图像中文本标注信息的左上角点的横坐标,Ymin为原图像中文本标注信息的左上角点的纵坐标,Xmax为原图像中文本标注信息的右下角点的横坐标,Ymax为原图像中文本标注信息的右下角点的纵坐标;其中文本标注信息是以水平矩形框的形式将文本信息标注在原图像中;
Xmin_new为在子图像img_org中文本标注信息的左上角点的横坐标,Xmax_new为在子图像img_org中文本标注信息的左上角点的纵坐标,Ymin_new为在子图像img_org中文本标注信息的右下角点的横坐标,Ymax_new为在子图像img_org中文本标注信息的右下角点的纵坐标,w0为原始图像的宽,h0为原始图像的高;
步骤1.3.1b:计算文本信息在图像块的位置;
Figure FDA0002744453890000016
Figure FDA0002744453890000017
如果
Figure FDA0002744453890000018
刚好为整数的话:
Figure FDA0002744453890000019
否则:
Figure FDA0002744453890000021
如果
Figure FDA0002744453890000022
刚好为整数的话:
Figure FDA0002744453890000023
否则:
Figure FDA0002744453890000024
[]代表取整运算,其中xStart为有文本信息的第一个图像块的所在的行,yStart为有文本信息的第一个图像块的所在的列,xEnd为有文本信息的最后一个图像块的所在的行,yEnd为有文本信息的最后一个图像块的所在的列,其中图像块的行和列由格网确定;
步骤1.3.2:重复执行步骤1.3.1直到所有原始文本信息都计算完成,如果该图像块中包含文本信息,那么该图像块对应的标签为“1”,否则为“0”;
步骤2:训练过程;
将步骤1得到的图像块输入到分类网络中进行训练,得到图像块分类模型Classifier_Net_Model,然后将包含有文本信息的图像块组合成新的图像,再把组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi,最后将这些子图像train_img_combi输入到文本检测网络进行训练,得到文本检测模型Text_Detection_Model;
步骤3:预测过程;
首先,将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b,接着将得到的图像分割成大小为
Figure FDA0002744453890000025
的图像块n×m个,将图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块,将图像块组合成新的图像,再把组合成的图像的尺寸调整为a×b,得到多个子图像test_img_combi,将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文本的定位信息,最后将文本定位信息还原到原始测试集图像中。
2.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:所述步骤1中将训练集里的图像转化为灰度图,转换公式为:
GRAY=0.3×R+0.59×G+0.11×B (1)
其中,R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值。
3.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤2中训练过程的具体实现包括以下子步骤:
步骤2.1:图像块分类训练;
步骤2.1.1:制作train.txt:
根据步骤1中每个图像块标注的标签信息,制作train.txt的内容;
步骤2.1.2:开始训练;
将以上图像块输入到分类神经网络中进行训练,得到图像块分类模型Classifier_Net_Model;
步骤2.2:分割图像;根据全为零的行和列对图像块进行分割,将分割后的图像块组合成新的图像,最后将组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi;
步骤2.2.1:根据全零列确定宽度;
检测图像左侧为全为零图像块的列,记为Isplitleft,再检测图像右侧为全零的图像块的列,记为Isplitright,然后将列全为0的图像块删除;
步骤2.2.2:根据全零行确定高度;
检测图像上侧为全为零图像块的行,记为Isplitup,再检测图像下侧为全零的图像块的行,记为Isplitdown,然后将行全为0的图像块删除;
步骤2.2.3:组合调整得到子图像:
将步骤2.2.1和步骤2.2.2处理之后剩下的图像块组合成新的图像,此时图像的宽为
Figure FDA0002744453890000031
图像的高为:
Figure FDA0002744453890000032
Figure FDA0002744453890000033
最后将组合成的图像的尺寸调整为a×b,得到多个子图像train_img_combi;
步骤2.3:文本检测训练;
步骤2.3.1:将步骤2.2得到的所有的子图像制作为新的训练集,计算文本信息,重新制作train.txt的内容;
步骤2.3.2:开始训练:
将这些子图像train_img_combi输入到文本检测神经网络中进行训练,得到文本检测模型Text_Detection_Model。
4.根据权利要求1所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3中的预测过程包括以下子步骤:
步骤3.1:对测试集中的图像进行预处理,
将测试集里的图像转化为灰度图,然后将得到的灰度图的尺寸调整为a×b,接着将得到的图像分割成大小为
Figure FDA0002744453890000041
的图像块n×m个;
步骤3.2:图像块预测,
将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测,可预测得到包含文本信息的图像块;
步骤3.3:组合图像块,
将预测得到的包含文本信息图像块组合成新的图像,新图像的宽记为w1,高记为h1,再把组合成的图像的尺寸调整为a×b,得到多个子图像test_img_combi;
步骤3.4:文本定位预测,
将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测,可预测得到文本的定位信息(x,y,w,h),其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框的宽,h为预测的矩形框的高;
步骤3.5:坐标信息转换,
将步骤3.4所得的定位信息转化为矩形框的坐标;
步骤3.6:计算文本区域在原始图像的精确定位,得到最终的预测结果。
5.根据权利要求4所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3.5中坐标信息转换的实现方式如下,
Figure FDA0002744453890000042
Figure FDA0002744453890000043
Figure FDA0002744453890000044
Figure FDA0002744453890000045
其中x为预测的矩形框的中心点的横坐标,y为纵坐标,w为预测的矩形框的宽,h为预测的矩形框的高;
xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框右下角点的纵坐标。
6.根据权利要求5所述的基于图像分割的自然场景文本定位方法,其特征在于:步骤3.6的具体实现方式如下,
步骤3.6.1:计算文本区域在在子图像test_img_combi中的精确定位,计算公式如下:
Figure FDA0002744453890000051
Figure FDA0002744453890000052
Figure FDA0002744453890000053
Figure FDA0002744453890000054
其中,xmin为预测到矩形框的左上角点的横坐标,ymin为预测到的矩形框左上角点的纵坐标,xmax为预测到的矩形框右下角点的横坐标,ymax为预测到的矩形框右下角点的纵坐标;xmin_new为还原到子图像test_img_combi的预测矩形框的左上角点横坐标,ymin_new为还原到子图像test_img_combi的预测矩形框的左上角点纵坐标,xmax_new为还原到子图像test_img_combi的预测矩形框的右下角点横坐标,ymax_new为还原到子图像test_img_combi的预测矩形框的右下角点纵坐标;xStart1为预测得到有文本信息的第一个图像块的所在的行,yStart1为预测得到有文本信息的第一个图像块的所在的列;
步骤3.6.2:将预测结果还原到原始图像当中,计算公式如下:
Figure FDA0002744453890000055
Figure FDA0002744453890000056
Figure FDA0002744453890000057
Figure FDA0002744453890000058
其中,xmin_last为预测结果还原到原图像上的矩形框左上角点的横坐标,ymin_last为预测结果还原到原图像上的矩形框左上角点的纵坐标,xmax_last为预测结果还原到原图像上的矩形框右下角点的横坐标,ymax_last为预测结果还原到原图像上的矩形框右下角点的纵坐标;w2代表测试集原始图片的宽,h2代表测试集原始图片的高。
CN201910012635.6A 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法 Active CN110032997B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910012635.6A CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910012635.6A CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Publications (2)

Publication Number Publication Date
CN110032997A CN110032997A (zh) 2019-07-19
CN110032997B true CN110032997B (zh) 2021-02-19

Family

ID=67235484

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910012635.6A Active CN110032997B (zh) 2019-01-07 2019-01-07 一种基于图像分割的自然场景文本定位方法

Country Status (1)

Country Link
CN (1) CN110032997B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5512903B1 (ja) * 2013-03-29 2014-06-04 楽天株式会社 画像処理装置、画像処理方法、情報記憶媒体、及びプログラム
CN107609549B (zh) * 2017-09-20 2021-01-08 北京工业大学 一种自然场景下证件图像的文本检测方法
CN107977620B (zh) * 2017-11-29 2020-05-19 华中科技大学 一种基于全卷积网络的多方向场景文本单次检测方法
CN108038481A (zh) * 2017-12-11 2018-05-15 江苏科技大学 一种结合最大极值稳定区域和笔画宽度变化的文本定位方法
CN108345850B (zh) * 2018-01-23 2021-06-01 哈尔滨工业大学 基于超像素的笔画特征变换和深度学习的区域分类的场景文本检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1418354A (zh) * 2000-03-14 2003-05-14 英特尔公司 通用的图像中的文本定位
CN105740774A (zh) * 2016-01-25 2016-07-06 浪潮软件股份有限公司 一种图像的文本区域定位方法及装置
CN106778757A (zh) * 2016-12-12 2017-05-31 哈尔滨工业大学 基于文本显著性的场景文本检测方法
CN108154145A (zh) * 2018-01-24 2018-06-12 北京地平线机器人技术研发有限公司 检测自然场景图像中的文本的位置的方法和装置
CN108427924A (zh) * 2018-03-09 2018-08-21 华中科技大学 一种基于旋转敏感特征的文本回归检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A learning-based method to detect and segment text from scene images;JIANG Ren-jie等;《Journal of Zhejiang University SCIENCE》;20071231;第8卷(第4期);第568-574页 *
SUPPORT VECTOR MACHINE-BASED TEXT DETECTION IN DIGITAL VIDEO;C. S. Shin等;《Neural Networks for Signal Processing X. Proceedings of the 2000 IEEE Signal Processing Society Workshop》;20020806;第634-641页 *
自然场景图像的字符识别方法;李颖等;《包装工程》;20180331;第39卷(第5期);第168-172页 *

Also Published As

Publication number Publication date
CN110032997A (zh) 2019-07-19

Similar Documents

Publication Publication Date Title
CN106156761B (zh) 面向移动终端拍摄的图像表格检测与识别方法
JP4646797B2 (ja) 画像処理装置及びその制御方法、プログラム
CN101453575B (zh) 一种视频字幕信息提取方法
CN112633277A (zh) 基于深度学习的航道船牌检测、定位及识别方法
CN108921120B (zh) 一种适应广泛零售场景下的香烟识别方法
Chen et al. Shadow-based Building Detection and Segmentation in High-resolution Remote Sensing Image.
CN102567300A (zh) 图片文档的处理方法及装置
US6532302B2 (en) Multiple size reductions for image segmentation
CN113158977B (zh) 改进FANnet生成网络的图像字符编辑方法
CN108460833A (zh) 一种基于bim构建传统建筑数字化保护与修复的信息平台
JP4149464B2 (ja) 画像処理装置
CN107730508A (zh) 彩色文本图像多通道二值化处理方法
CN110956167A (zh) 一种基于定位字符的分类判别强化分离的方法
CN113436222A (zh) 图像处理方法、图像处理装置、电子设备及存储介质
CN111626145A (zh) 一种简捷有效的残缺表格识别及跨页拼接方法
CN115761773A (zh) 基于深度学习的图像内表格识别方法及系统
CN113392819B (zh) 一种批量化学术图像自动分割标注装置和方法
CN109657728B (zh) 样例生产方法及模型训练方法
CN112053407B (zh) 一种交通执法影像中基于ai技术的车道线自动检测方法
CN111666811B (zh) 一种提取交通场景图像中交通标志牌区域方法及系统
CN110032997B (zh) 一种基于图像分割的自然场景文本定位方法
CN115019310B (zh) 图文识别方法及设备
CN115063680B (zh) 一种基于标签及图像合成技术的桥梁病害识别方法
CN108121988B (zh) 信息处理方法和装置以及信息检测方法和装置
JP4182891B2 (ja) 画像処理装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant