CN110032997A

CN110032997A - 一种基于图像分割的自然场景文本定位方法

Info

Publication number: CN110032997A
Application number: CN201910012635.6A
Authority: CN
Inventors: 易尧华; 卢利琼; 杨佳; 何婧婧; 陈海青; 杨锶齐; 盛豪; 王新宇; 俞雯茜; 王萌
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-07-19
Anticipated expiration: 2039-01-07
Also published as: CN110032997B

Abstract

本发明公开了一种基于图像分割的自然场景文本定位方法，包括图像预处理、训练过程和预测过程等三步骤；首先，使用图像分割方法把图像中小文本图像提取出来并放大提取出的小文本图像的尺寸，得到图像分割训练模型；其次，将放大后的小文本图像输入到目标检测网络进行训练得到文本检测训练模型；最后，用图像分割的训练模型提取出训练集中的小文本图像，组合调整以后输入到文本检测训练模型中进行预测。本发明所述的方法可以明显提升图像中占用面积比较小的文本的检测精度，同时并不会影响大文本的检测精度。

Description

一种基于图像分割的自然场景文本定位方法

技术领域

本发明属于数字图像处理技术领域，具体涉及一种基于图像分割的自然场景文本定位方法。

背景技术

文字作为一种传递信息的媒介，在人类的生活中担当着越来越重要的角色。近些年，随着各种智能终端和数码产品的广泛普及，人们可以在任意时刻任意地点拍摄自己感兴趣的场景图像，图像中往往包含大量有用的文本信息，比如道路指示牌、商店名称、广告牌、宣传标语等，这些文本信息的存在，更好的传递了场景视觉信息，使得人们对于新事物的认识更加方便、快捷。科技的进步带动了时代的发展，创建智能、快捷、高效的生活方式(智能交通、无人驾驶、智能家居等)成为当今人们的向往，然而，其中的关键之一是利用智能设备能够从自然场景图像中自动定位并识别出文本信息。

目前自然场景图像文字的检测存在以下困难：一、自然场景图像文字有着背景复杂，自然场景条件下的文字，背景复杂多样，类似文字结构的图案可能混杂在背景中，使分类器很难对背景与文字分离。二、易受环境因素影响，自然场景条件下周边环境可能对文字定位产生光照过度或者阴暗等不利条件，这些不利条件给对文字的定位带来额外的困难，光照条件不同对色彩的作用不同，在光照和阴影的影响下，相同色彩的同一字符的不同部位表现出的差别也很大。三、文字样式不统一，自然场景文字由于三维到二维投影变换，大多数文字呈角度斜向排列会造成尺寸不同、字体不一的问题。这些文字会因为体积过小，无法被计算机提取到足够的特征而遗漏，也会因文字过大导致计算机提取的特征密度不足而无法检测。

发明内容

为了解决上述技术问题，本发明提供了一种可以减少图像中非文本信息，使其可以明显改善图像中文本体积过小、背景复杂而出现的定位不准的问题。

本发明所采用的技术方案是：一种基于图像分割的自然场景文本定位方法，先通过图像分割将包含文本的区域放大，然后将放大后的文本区域送入文本检测器进行精准定位，包括以下步骤：

步骤1：图像预处理；

首先，将训练集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为大小为a×b的子图像img_org，接着将得到的子图像img_org按照n×m的网格分割成大小为的图像块n×m个，最后标记图像块；

步骤2：训练过程；

将步骤1得到的图像块输入到分类网络中进行训练，得到图像块分类模型Classifier_Net_Model，然后将包含有文本信息的图像块组合成新的图像，再把组合成的图像的尺寸调整为a×b，得到多个子图像train_img_combi，最后将这些子图像train_img_combi输入到文本检测网络进行训练，得到文本检测模型 Text_Detection_Model；

步骤3：预测过程；

首先，将测试集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为 a×b，接着将得到的图像分割成大小为的图像块n×m个，将图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块，将图像块组合成新的图像，再把组合成的图像的尺寸调整为a×b，得到多个子图像test_img_combi，将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测，可预测得到文本的定位信息，最后将文本定位信息还原到原始测试集图像中。

进一步的，所述步骤1中将训练集里的图像转化为灰度图，转换公式为：

GRAY＝0.3×R+0.59×G+0.11×B (1)

其中，R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值。

进一步的，步骤1中标记图像块的具体实现方式如下，

步骤1.3.1：计算图像块是否包含文本信息，包括如下子步骤，

步骤1.3.1a，计算文本信息在子图像img_org中的位置：

其中X_min为原图像中文本标注信息的左上角点的横坐标，Y_min为原图像中文本标注信息的左上角点的纵坐标，X_max为原图像中文本标注信息的右下角点的横坐标，Y_max为原图像中文本标注信息的右下角点的纵坐标；其中文本标注信息是以水平矩形框的形式将文本信息标注在原图像中；

X_{min_new}为在子图像img_org中文本标注信息的左上角点的横坐标， X_{max_new}为在子图像img_org中文本标注信息的左上角点的纵坐标，Y_{min_new}为在子图像img_org中文本标注信息的右下角点的横坐标，Y_{max_new}为在子图像 img_org中文本标注信息的右下角点的纵坐标，w₀为原始图像的宽，h₀为原始图像的高；

步骤1.3.1b：计算文本信息在图像块的位置；

如果刚好为整数的话：

否则：

如果刚好为整数的话：

否则：

[]代表取整运算，其中x_Start为有文本信息的第一个图像块的所在的行， y_Start为有文本信息的第一个图像块的所在的列，x_End为有文本信息的最后一个图像块的所在的行，y_End为有文本信息的最后一个图像块的所在的列，其中图像块的行和列由格网确定；

步骤1.3.2：重复执行步骤1.3.1直到所有原始文本信息都计算完成，如果该图像块中包含文本信息，那么该图像块对应的标签为“1”，否则为“0”。

进一步的，步骤2中训练过程的具体实现包括以下子步骤：

步骤2.1：图像块分类训练；

步骤2.1.1：制作train.txt：

根据步骤1中每个图像块标注的标签信息，制作train.txt的内容；

步骤2.1.2：开始训练；

将以上图像块输入到分类神经网络中进行训练，得到图像块分类模型Classifier_Net_Model；

步骤2.2：分割图像；根据全为零的行和列对图像块进行分割，将分割后的图像块组合成新的图像，最后将组合成的图像的尺寸调整为a×b，得到多个子图像train_img_combi；

步骤2.2.1：根据全零列确定宽度；

检测图像左侧为全为零图像块的列，记为Isplitleft，再检测图像右侧为全零的图像块的列，记为Isplitright，然后将列全为0的图像块删除。；

步骤2.2.2：根据全零行确定高度；

检测图像上侧为全为零图像块的行，记为Isplitup，再检测图像下侧为全零的图像块的行，记为Isplitdown，然后将行全为0的图像块删除；

步骤2.2.3：组合调整得到子图像：

将步骤2.2.1和步骤2.2.2处理之后剩下的图像块组合成新的图像，此时图像的宽为图像的高为：最后将组合成的图像的尺寸调整为a×b，得到多个子图像train_img_combi；

步骤2.3：文本检测训练；

步骤2.3.1：将步骤2.2得到的所有的子图像制作为新的训练集，计算文本信息，重新制作train.txt的内容；

步骤2.3.2：开始训练：

将这些子图像train_img_combi输入到文本检测神经网络中进行训练，得到文本检测模型Text_Detection_Model。

进一步的，步骤3中的预测过程包括以下子步骤：

步骤3.1：对测试集中的图像进行预处理，

将测试集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为a×b，接着将得到的图像分割成大小为的图像块n×m个；

步骤3.2：图像块预测，

将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块；

步骤3.3：组合图像块，

将预测得到的包含文本信息图像块组合成新的图像，新图像的宽记为w₁，高记为h₁，再把组合成的图像的尺寸调整为a×b，得到多个子图像 test_img_combi；

步骤3.4：文本定位预测，

将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测，可预测得到文本的定位信息(x,y,w,h)，其中 x为预测的矩形框的中心点的横坐标，y为纵坐标，w为预测的为预测的矩形框的宽，h为预测的为预测的矩形框的高；

步骤3.5：坐标信息转换，

将步骤3.4所得的定位信息转化为矩形框的坐标；

步骤3.6：计算文本区域在原始图像的精确定位，得到最终的预测结果。

进一步的，步骤3.5中坐标信息转换的实现方式如下，

其中x为预测的矩形框的中心点的横坐标，y为纵坐标，w为预测的为预测的矩形框的宽，h为预测的为预测的矩形框的高；

x_min为预测到矩形框的左上角点的横坐标，y_min为预测到的矩形框左上角点的纵坐标，x_max为预测到的矩形框右下角点的横坐标，y_max为预测到的矩形框右下角点的纵坐标。

进一步的，步骤3.6的具体实现方式如下，

步骤3.6.1：计算文本区域在在子图像test_img_combi中的精确定位，计算公式如下：

其中，x_min为预测到矩形框的左上角点的横坐标，y _min为预测到的矩形框左上角点的纵坐标，x_max为预测到的矩形框右下角点的横坐标，y_max为预测到的矩形框右下角点的纵坐标。x_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点横坐标，y_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点纵坐标，x_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点横坐标，y_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点纵坐标；x_Start1为预测得到有文本信息的第一个图像块的所在的行，y_Start1为预测得到有文本信息的第一个图像块的所在的列；

步骤3.6.2：将预测结果还原到原始图像当中，计算公式如下：

其中，x_{min_last}为预测结果还原到原图像上的矩形框左上角点的横坐标， y_{min_last}为预测结果还原到原图像上的矩形框左上角点的纵坐标，x_{max_last}为预测结果还原到原图像上的矩形框右下角点的横坐标，y_{max_last}为预测结果还原到原图像上的矩形框右下角点的纵坐标；w₂代表测试集原始图片的宽，h₂代表测试集原始图片的高。

与现有技术相比，本发明方法可以明显提升图像中占用面积小文本的检测精度，同时并不会影响占用面积大文本的检测精度。

附图说明

图1为本发明实施例的流程图。

图2为原图像灰度处理后(图2(a))以及分割图像后的图(图2(b))；

图3为含有文本信息的图像重新组合(图3(a))以及组合后调整尺寸以后的图像(图3(b))；

图4为不使用本发明方法单纯使用YOLO训练后测试的原图(图4(a)) 和效果图(图4(b))；

图5为使用本发明方法后，再使用基于目标检测网络YOLO的神经网络训练后测试的原图(图5(a))和效果(图5(b))；

图6为使用本发明方法(图6(a))和不使用本发明方法(图6(b))在大文本图像上检测的对比。

具体实施方式

为了便于本领域普通技术人员理解和实施本发明，下面结合附图及实施例对本发明作进一步的详细描述，下面a×b以480×640，n×m为8×8为例子进行说明，以下所描述的实施示例仅用于说明和解释本发明，但并不限定本发明的保护范围。

本发明以ICDA2013数据为例，请见图1，本发明公开了一种基于图像分割的自然场景文本定位方法，包括以下步骤：

步骤1：图像预处理；

首先，将训练集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为 480×640，接着将得到的图像分割成大小为60×80的图像块64个，最后标记图像块，如果该图像块中包含文本信息，那么该图像块对应的标签为“1”，否则为“0”。这样，针对分割后图像，我们得到了64个标签信息。其具体实现步骤如下：

步骤1.1：将训练集里的图像转化为灰度图，如图2(a)所示

GRAY＝0.3×R+0.59×G+0.11×B (1)

R、G、B即是代表彩色图像红、绿、蓝三个通道的颜色强度值

步骤1.2：图像分割：

将步骤1.1所得到的灰度图尺寸调整为480×640得到子图像img_org，然后将将得到的子图像img_org按照8×8的网格分割成大小为60×80的图像块共64 个，如图2(b)所示。

步骤1.3：图像块标记：

步骤1.3.1：计算图像块是否包含文本信息：

步骤1.3.1a：计算文本信息在子图像img_org中的位置：

其中X_min为原图像中文本标注信息(文本标注信息是ICDA2013数据集中包含有的，以水平矩形框的形式将文本信息标注出来，文本标注信息可以有多个；如果训练集跟测试集没有包含文本标注信息时，可以通过标注软件(如labelImg) 对图像中的文本信息进行标注)的左上角点的横坐标，Y_min为原图像中文本标注信息(矩形框)的左上角点的纵坐标，X_max为原图像中文本标注信息(矩形框) 的右下角点的横坐标，Y_max为原图像中文本标注信息(矩形框)的右下角点的纵坐标。

X_{min_new}为在子图像img_org中文本标注信息(矩形框)的左上角点的横坐标，X_{max_new}为在子图像img_org中文本标注信息(矩形框)的左上角点的纵坐标，Y_{min_new}为在子图像img_org中文本标注信息(矩形框)的右下角点的横坐标，Y_{max_new}为在子图像img_org中文本标注信息(矩形框)的右下角点的纵坐标。w₀为原始图像的宽，h₀为原始图像的高。

步骤1.3.1b：计算文本信息在图像块的位置；

如果刚好为整数的话：

否则：

如果刚好为整数的话：

否则：

[]代表取整运算，其中x_Start为有文本信息的第一个图像块的所在的行， y_Start为有文本信息的第一个图像块的所在的列，x_End为有文本信息的最后一个图像块的所在的行，y_End为有文本信息的最后一个图像块的所在的列，其中图像块的行和列由格网确定。

步骤1.3.2：重复执行步骤1.3.1直到所有原始文本信息都计算完成。如果该图像块中包含文本信息，那么该图像块对应的标签为“1”，否则为“0”。这样，针对分割后图像，我们得到了64个标签信息。

步骤2：训练过程；

将步骤1得到的图像块输入到分类网络中进行训练，得到图像块分类模型Classifier_Net_Model，然后将包含有文本信息的图像块组合成新的图像(如图3 (a)所示)，再把组合成的图像的尺寸调整为480×640(如图3(b)所示)，得到多个子图像train_img_combi(当原图像上有多个文本标注信息时，可以得到多个子图像)，最后将这些子图像train_img_combi输入到文本检测网络进行训练，得到文本检测模型Text_Detection_Model。其具体实现步骤如下：

步骤2.1：图像块分类训练：

步骤2.1.1：重新制作train.txt；

向神经网络输送数据,都需要一个文本来存放数据的路径和对应的标记数据，这些数据存放在train.txt中；根据以上标注的标签信息，重新制作train.txt 的内容。

步骤2.1.2：开始训练

将以上图像块输入到分类神经网络ResNet中进行训练，得到图像块分类模型Classifier_Net_Model。

步骤2.2：分割图像：根据全为零的行和列对图像块进行分割

步骤2.2.1：根据全零列确定宽度：

检测图像左侧为全为零图像块的列，记为Isplitleft，再检测图像右侧为全零的图像块的列，记为Isplitright，然后将列全为0的图像块删除。

步骤2.2.2：根据全零行确定高度：

检测图像上侧为全为零图像块的行，记为Isplitup，再检测图像下侧为全零的图像块的行，记为Isplitdown，然后将行全为0的图像块删除。

步骤2.2.3：组合调整得到子图像：

将步骤2.2.1和步骤2.2.2剩下的图像块组合成新的图像，此时图像的宽为 w₃＝(8-Isplitright-Isplitleft)×60，图像的高为：h₃＝(8-Isplitdown- Isplitup)×80，最后将组合成的图像的尺寸调整为480×640，即Width＝480， High＝640，得到多个子图像train_img_combi。

步骤2.3：文本检测训练：

步骤2.3.1：将步骤2.2得到的所有的子图像train_img_combi制作为新的训练集，标签信息为：

X_{min_new1}＝X_{min_new}-Isplitleft×60； (12)

X_{max_new1}＝X_{max_new}-Isplitleft×60； (13)

Y_{min_new1}＝Y_{min_new}-Isplitup×80； (14)

Y_{max_new1}＝Y_{max_new}-Isplitup×80； (15)

根据以上标注的标签信息，重新制作train.txt的内容。

步骤2.3.2：开始训练

将子图像train_img_combi输入到基于目标检测网络YOLO的神经网络中进行训练，得到文本检测模型Text_Detection_Model。

步骤3：预测过程；

首先，将测试集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为 480×640，接着将得到的图像分割成大小为60×80的图像块64个，将图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块，将图像块组合成新的图像，再把组合成的图像的尺寸调整为480×640，得到多个子图像test_img_combi，将这些子图像test_img_combi 输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测，可预测得到文本的定位信息，最后将文本定位信息还原到原始测试集图像中。其具体实现步骤如下：

步骤3.1：对测试集中的图像进行预处理：

将测试集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为 480×640，接着将得到的图像分割成大小为60×80的图像块64个。

步骤3.2：图像块预测：

将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型 Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块。

步骤3.3：组合图像块：

将预测得到的包含文本信息图像块组合成新的图像，新图像的宽记为w₁，高记为h₁，再把组合成的图像的尺寸调整为480×640，得到多个子图像 test_img_combi。

步骤3.4：文本定位预测：

将这些子图像test_img_combi输入到步骤2中得到的文本检测模型 Text_Detection_Model进行预测，可预测得到文本的定位信息(x,y,w,h)。

其中x为预测的矩形框的中心点的横坐标，y为纵坐标，w为预测的矩形框的宽，h为预测的矩形框的高。

步骤3.5：坐标信息转换：

并将结果保存到文本，记为“predict_split_up.txt”。保存的格式为图像名称，文本框坐标，例如：img_1_1.jpg:46 31 610 216,173 260 455 448，jpg代表测试的图像，46 31代表预测的第一个矩形框的左上角的点的横坐标与纵坐标，610 216 代表预测的第一个矩形框的右下角的坐标；173 260代表预测的第二个矩形框的左上角的点的坐标，455448代表预测的第二个矩形框的右下角的坐标。

步骤3.6：计算文本区域在原始图像的精确定位：

其中，x_min为预测到矩形框的左上角点的横坐标，y_min为预测到的矩形框左上角点的纵坐标，x_max为预测到的矩形框右下角点的横坐标，y_max为预测到的矩形框右下角点的纵坐标。x_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点横坐标，y_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点纵坐标，x_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点横坐标，y_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点纵坐标。x_Start1为预测得到有文本信息的第一个图像块的所在的行，y_Start1为预测得到有文本信息的第一个图像块的所在的列。

其中，x_{min_last}为预测结果还原到原图上的矩形框左上角点的横坐标， y_{min_last}为预测结果还原到原图上的矩形框左上角点的纵坐标，x_{max_last}为预测结果还原到原图上的矩形框右下角点的横坐标，y_{max_last}为预测结果还原到原图上的矩形框右下角点的纵坐标。w₂代表测试集原始图片的宽，h₂代表测试集原始图片的高。

请见图4-6，本发明实施例的过程图以及结果对比图。图4为不使用本发明方法单纯使用yolo训练后测试的结果，图5为使用本发明方法后，再使用基于 yolo的神经网络训练后测试的结果。从图4与图5的对比可以看出本发明对文本内容占用原始图像面积较小的文本图像检测效果提升明显，从而保证了检测出的文本区域的准确性；图6(a)和6(b)为使用本发明方法和不使用本发明方法在大文本图像上检测的对比，从图6可以看出本发明方法对对文本内容占用原始图像面积较大的文本图像检测效果依然出众，并不会影响该类图像的识别。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

应当理解的是，上述针对较佳实施例的描述较为详细，并不能因此而认为是对本发明专利保护范围的限制，本领域的普通技术人员在本发明的启示下，在不脱离本发明权利要求所保护的范围情况下，还可以做出替换或变形，均落入本发明的保护范围之内，本发明的请求保护范围应以所附权利要求为准。

Claims

1.一种基于图像分割的自然场景文本定位方法，其特征在于，先通过图像分割将包含文本的区域放大，然后将放大后的文本区域送入文本检测器进行精准定位，包括以下步骤：

步骤1：图像预处理；

步骤2：训练过程；

将步骤1得到的图像块输入到分类网络中进行训练，得到图像块分类模型Classifier_Net_Model，然后将包含有文本信息的图像块组合成新的图像，再把组合成的图像的尺寸调整为a×b，得到多个子图像train_img_combi，最后将这些子图像train_img_combi输入到文本检测网络进行训练，得到文本检测模型Text_Detection_Model；

步骤3：预测过程；

首先，将测试集里的图像转化为灰度图，然后将得到的灰度图的尺寸调整为a×b，接着将得到的图像分割成大小为的图像块n×m个，将图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块，将图像块组合成新的图像，再把组合成的图像的尺寸调整为a×b，得到多个子图像test_img_combi，将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测，可预测得到文本的定位信息，最后将文本定位信息还原到原始测试集图像中。

2.根据权利要求1所述的基于图像分割的自然场景文本定位方法，其特征在于：所述步骤1中将训练集里的图像转化为灰度图，转换公式为：

GRAY＝0.3×R+0.59×G+0.11×B (1)

3.根据权利要求1所述的基于图像分割的自然场景文本定位方法，其特征在于：步骤1中标记图像块的具体实现方式如下，

步骤1.3.1a，计算文本信息在子图像img_org中的位置：

X_{min_new}为在子图像img_org中文本标注信息的左上角点的横坐标，X_{max_new}为在子图像img_org中文本标注信息的左上角点的纵坐标，Y_{min_new}为在子图像img_org中文本标注信息的右下角点的横坐标，Y_{max_new}为在子图像img_org中文本标注信息的右下角点的纵坐标，w₀为原始图像的宽，h₀为原始图像的高；

步骤1.3.1b：计算文本信息在图像块的位置；

如果刚好为整数的话：

否则：

如果刚好为整数的话：

否则：

[]代表取整运算，其中x_Start为有文本信息的第一个图像块的所在的行，y_Start为有文本信息的第一个图像块的所在的列，x_End为有文本信息的最后一个图像块的所在的行，y_End为有文本信息的最后一个图像块的所在的列，其中图像块的行和列由格网确定；

4.根据权利要求1所述的基于图像分割的自然场景文本定位方法，其特征在于：步骤2中训练过程的具体实现包括以下子步骤：

步骤2.1：图像块分类训练；

步骤2.1.1：制作train.txt：

步骤2.1.2：开始训练；

步骤2.2.1：根据全零列确定宽度；

步骤2.2.2：根据全零行确定高度；

步骤2.2.3：组合调整得到子图像：

步骤2.3：文本检测训练；

步骤2.3.2：开始训练：

5.根据权利要求1所述的基于图像分割的自然场景文本定位方法，其特征在于：步骤3中的预测过程包括以下子步骤：

步骤3.1：对测试集中的图像进行预处理，

步骤3.2：图像块预测，

将步骤3.1中得到的图像块输入到步骤2得到的图像块分类模型Classifier_Net_Model中进行预测，可预测得到包含文本信息的图像块；

步骤3.3：组合图像块，

将预测得到的包含文本信息图像块组合成新的图像，新图像的宽记为w₁，高记为h₁，再把组合成的图像的尺寸调整为a×b，得到多个子图像test_img_combi；

步骤3.4：文本定位预测，

将这些子图像test_img_combi输入到步骤2中得到的文本检测模型Text_Detection_Model进行预测，可预测得到文本的定位信息(x,y,w,h)，其中x为预测的矩形框的中心点的横坐标，y为纵坐标，w为预测的矩形框的宽，h为预测的矩形框的高；

步骤3.5：坐标信息转换，

将步骤3.4所得的定位信息转化为矩形框的坐标；

6.根据权利要求5所述的基于图像分割的自然场景文本定位方法，其特征在于：步骤3.5中坐标信息转换的实现方式如下，

其中x为预测的矩形框的中心点的横坐标，y为纵坐标，w为预测的矩形框的宽，h为预测的矩形框的高；

7.根据权利要求6所述的基于图像分割的自然场景文本定位方法，其特征在于：步骤3.6的具体实现方式如下，

其中，x_min为预测到矩形框的左上角点的横坐标，y_min为预测到的矩形框左上角点的纵坐标，x_max为预测到的矩形框右下角点的横坐标，y_max为预测到的矩形框右下角点的纵坐标。x_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点横坐标，y_{min_new}为还原到子图像test_img_combi的预测矩形框的左上角点纵坐标，x_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点横坐标，y_{max_new}为还原到子图像test_img_combi的预测矩形框的右下角点纵坐标；x_Start1为预测得到有文本信息的第一个图像块的所在的行，y_Start1为预测得到有文本信息的第一个图像块的所在的列；

其中，x_{min_last}为预测结果还原到原图像上的矩形框左上角点的横坐标，y_{min_last}为预测结果还原到原图像上的矩形框左上角点的纵坐标，x_{max_last}为预测结果还原到原图像上的矩形框右下角点的横坐标，y_{max_last}为预测结果还原到原图像上的矩形框右下角点的纵坐标；w₂代表测试集原始图片的宽，h₂代表测试集原始图片的高。