CN110348339B

CN110348339B - 一种基于实例分割的手写文档文本行的提取方法

Info

Publication number: CN110348339B
Application number: CN201910562052.0A
Authority: CN
Inventors: 张九龙; 张振雄; 屈晓娥
Original assignee: Xian University of Technology
Current assignee: Xian University of Technology
Priority date: 2019-06-26
Filing date: 2019-06-26
Publication date: 2021-11-16
Anticipated expiration: 2039-06-26
Also published as: CN110348339A

Abstract

本发明公开了一种基于实例分割网络的手写文档文本行的提取方法，其特征在于，具体按照如下步骤进行：步骤1：对手写文档数据集中的图片进行缩放操作，最终得到训练集；步骤2：对步骤1中得到的训练集中的数据集进行训练，以此更新得到实例分割网络的权重；步骤3：将待处理的手写文档图像经步骤2得到的实例分割网络中，得到映射后的映射图；步骤4：利用均值漂移算法对待处理的手写文档图像中的黑色像素点在映射图中对应的映射向量进行聚类操作，最终提取得到单个文本行。本发明一种基于实例分割网络的手写文档文本行的提取方法使得手写文档文本行的提取更为准确。

Description

一种基于实例分割的手写文档文本行的提取方法

技术领域

本发明属于图像处理方法技术领，具体涉及一种基于实例分割的手写文档文本行的提取方法。

背景技术

手写文档的文本行提取方法是手写文档图像处理的一个重要问题。文本行提取对手写文档的内容识别及手写文档单个字符的提取都有重要意义。手写文档存包含拍照文档、支票、证件、手稿文书等诸多类型，这些文档的自动处理能够较大程度地减轻人为的劳动力。手写文档图像不同于字符大小及排列都比较规整的打印文档图像，手写文档的书写风格各异，各字符之间可能存在大小不一，且各字符之间容易存在粘连、交叉等情况，以上这些因素都可能会给手写文档的文本行提取带来一定的困难，传统的人工设计的特征无法较为准确地定位或者提取文本行。鉴于以上原因，综上所述，目前的手写文档文本行提取中存在提取不够准确的问题。

发明内容

本发明的目的是提供一种基于实例分割的手写文档文本行的提取方法，解决了目前的手写文档文本行提取中存在提取不够准确的问题。

本发明所采用的技术方案是，

一种基于实例分割网络的手写文档文本行的提取方法，具体按照如下步骤进行：

步骤1：对手写文档数据集中的图片进行缩放操作，最终得到训练集；

步骤2：对步骤1中得到的训练集中的数据集进行训练，以此更新得到实例分割网络的权重；

步骤3：将待处理的手写文档图像经步骤2得到的实例分割网络中，得到映射后的映射图；

步骤4：利用均值漂移算法对待处理的手写文档图像中的黑色像素点在映射图中对应的映射向量进行聚类操作，最终提取得到单个文本行。

本发明的特点还在于，

步骤1中对ICDAR2013HandSegmCont手写文档数据集中的图片进行缩放操作，其中图片的高和宽分别为h和w，若h≤max_size,w≤max_size，则不进行缩放操作，否则，则使用Image库中的最近邻插值法将该图片和标签均缩小为高和宽分别为h×scale和w×scale的图片，其中，

其中max_size的值取600-1000，其中需要对h×scale和w×scale进行四舍五入，对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集。

步骤2中选取步骤1中任意一张手写文档图像，记作handwrit_img，其中，bandwidth取值为0.5-1.0，其中，标签图像与所述手写文档图像大小相同，记作label；将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与手写文档图像相同且通道数为feature_dims的映射图图像，记作logits；其中，feature_dims为人为设定的需要值。

步骤2的实例分割网络中按照实例分割网络中的损失函数对手写文档图像进行训练，所述损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

其中，||·||表示向量的2范数，[x]₊＝max(0，x)；式(1)中，L_var为偏差损失，C表示一张手写文档图像中的文本行数目，N_c表示属于第c个文本行的像素点的数目，C和N_c可从手写文档图像对应的标签图label中获取，向量x_i表示某个文本行的第i个像素点在映射图logits中的对应向量，μ_c表示第c个文本行的所有像素点对应的映射向量的中心，

δ_v为人为设定的类内距离；式(2)中，L_dist为距离损失，δ_d为人为设定的类间距离，其余字母的含义同式(1)；式(3)中，L_reg为正则损失；式(4)中，L为总损失；α，β，γ分别为和L_var，L_dist，L_reg对应的人为设定的权重。

步骤2中使用Adam梯度下降方法来更新实例分割网络的权重，表示为Adam(w，L，lr)，其中，lr表示梯度下降的学习率，然后循环执行上述步骤直到损失L足够小，训练完成，其中，lr采用poly学习率衰减策略，lr的计算公式如下：

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

式中，init_lr表示初始学习率，取值为10^-4，end_lr表示终止学习率，取值为10^-7，step为当前迭代次数，decay_step为衰减步数，取值为2500-3500，power取值0.7-1.0。

步骤3中对手写文档图像进行二值化处理，处理后的图像的字符间对应的像素点像素值为0，背景对应的像素点为255，对处理后的图像进行缩放操作，缩放前的图片记作test_img，缩放后的图片记作test_img2，然后将二值化处理后的图像输入训练完成的实例分割网络中，得到映射图logits。

步骤4中记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法进行聚类，聚类后每个位置会对应一个标签值，标签值为从0开始的整数，创建一张与test_img2大小相同且初始像素值为255的图像result_img，根据对应的标签值对result_img中相同位置的像素点赋值，然后利用Image库中的最近邻插值法，对result_img进行还原缩放，缩放后的尺寸和test_img相同，对result_img中像素值做进一步调整，使得result_img中的像素值相同且不为255的点属于同一文本行，得到最终的文本行提取结果。

本发明的有益效果是：本发明提供一种基于实例分割网络的手写文档文本行的提取方法，通过实例分割网络将手写文档图像中的像素点映射至一个高维空间，再利用均值漂移算法对高维空间中的点进行聚类操作，最终将单个文本行提取出来。对于书写风格各异、字符大小不一且存在粘连的手写文档均能得到较好的提取效果。

(1)本发明一种基于实例分割网络的手写文档文本行的提取方法主要是基于卷积神经网络和聚类损失函数进行训练和测试，其中，测试过程仅需增加一个聚类操作，较为简单，容易实现；

(2)本发明一种基于实例分割网络的手写文档文本行的提取方法，对存在粘连、交叉及字符大小、书写风格不一的手写文档，均能较好地完成对其文本行的提取，对手写文档的内容分析、单字提取、识别等后续研究提供了良好的基础，具有良好的实用价值。

附图说明

图1是本发明一种基于实例分割网络的手写文档文本行的提取方法中训练过程的流程图；

图2是本发明一种基于实例分割网络的手写文档文本行的提取方法中实例分割网络的网络结构图；

图3是本发明一种基于实例分割网络的手写文档文本行的提取方法中Block1的网络结构图；

图4是本发明一种基于实例分割网络的手写文档文本行的提取方法中Bottleneck1的网络结构图；

图5是本发明一种基于实例分割网络的手写文档文本行的提取方法中ASPP模块的网络结构图；

图6是本发明一种基于实例分割网络的手写文档文本行的提取方法中实施例文本行提取示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明一种基于实例分割的手写文档文本行提取方法，具体按照以下步骤进行：

步骤1，对现有数据集进行预处理；

步骤2，对步骤1中经过预处理后的数据集进行训练，更新实例分割网络的权重；

步骤3，将待处理的手写文档图像经步骤2得到的实例分割网络中，得到映射后的高维数据；

步骤4，利用均值漂移算法，对原图中黑色像素点在映射图中对应的映射向量进行聚类，最终提取得到单个文本行。

其中，步骤1的具体操作为：

对ICDAR2013HandSegmCont手写文档数据集中的图片进行缩放操作。假设某张图片的高和宽分别为h和w，若h≤max_size，w≤max_size，则不进行缩放操作，否则，使用Image库中的最近邻插值法，将该图片和标签均缩小为高和宽分别为h×scale和w×scale的图片，其中，

其中max_size的值取600-1000，其中需要对h×scale和w×scale的值进行四舍五入。对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集。

其中，步骤2的具体操作为：

选取步骤1中任意一张手写文档图像handwrit_img，其标签图像与其大小相同，记作label。将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与原图相同，但通道数为feature_dims的映射图，记作logits.其中，feature_dims为人为设定的值。

实例分割网络损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

其中，||·||表示向量的2范数，[x]₊＝max(0,x)式(1)中，L_var为偏差损失，C表示一张手写文档图像中的文本行数目，N_c表示属于第c个文本行的像素点的数目，C和N_c可从手写文档图像对应的标签图label中获取，向量x_i表示某个文本行的第i个像素点在映射图logits中的对应向量，μ_c表示第c个文本行的所有像素点对应的映射向量的中心，

δ_v为人为设定的类内距离；式(2)中，L_dist为距离损失，δ_d为人为设定的类间距离，其余字母的含义同式(1)；式(3)中，L_reg为正则损失；式(4)中，L为总损失，α，β，γ分别为和L_var，L_dist，L_reg对应的人为设定的权重。

将一张手写文档图像输入实例分割网络中，根据其对应的标签label和网络的输出logits，计算出实例分割网络的总损失L，使用Adam梯度下降方法来更新实例分割网络的权重，表示为Adam(w，L，lr)，其中，lr表示梯度下降的学习率。循环执行该步骤直到损失足够小，训练完成；其中，lr采用poly学习率衰减策略，lr的计算公式如下：

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

其中，步骤3的具体操作为：

对手写文档图像进行二值化处理，处理后的图像，字符对应的像素点像素值为0，背景对应的像素点为255.并进行和步骤1相同的缩放操作。缩放前的图片记作test_img，缩放后的图片记作test_img2。

将二值化处理后的图像输入步骤2训练好的实例分割网络中，得到映射图logits。

其中，步骤4具体步骤为：

记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法，设置bandwidth值，对映射图logits中这些位置的点所代表的向量进行聚类。聚类后，每个位置会对应一个标签值，标签值为整数，从0开始，bandwidth取值为0.5-1.0。

创建一张与test_img2大小相同的图像result_img，初始像素值为255，根据记录的值为0的像素点的位置及其对应的标签值，对result_img中相同位置的像素点赋值。即将该点的像素值赋值为该点的标签值。

利用Image库中的最近邻插值法，对result_img进行缩放，缩放后的尺寸和test_img相同，结合test_img，对result_img中像素值做进一步调整。调整结束后，result_img中像素值相同且值不为255的点属于同一文本行，即得到最终的文本行提取结果。

实施例1

本实施例提供一种基于实例分割的手写文档文本行提取方法，具体按照以下步骤进行：

步骤1，对手写文档数据集中的图片进行缩放操作，最终得到训练集；

对ICDAR2013HandSegmCont手写文档数据集中的图片进行缩放操作。假设某张图片的高和宽分别为h和w，若h≤max_size,w≤max_size，则不进行缩放操作，否则，使用Image库中的最近邻插值法，将该图片和标签均缩小为高和宽分别为h×scale和w×scale的图片，其中，

其中，max_size的值取800，需要对h×scale和w×scale的值进行四舍五入。对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集。

步骤2，对步骤1中得到的训练集中的数据集进行训练，以此更新得到实例分割网络的权重，图1为训练过程的流程图。

选取步骤1中任意一张手写文档图像handwrit_img，其标签图像与其大小相同，记作label。将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与原图相同，但通道数为feature_dims的映射图，记作logits.其中，feature_dims为人为设定的值。feature_dims的值取8.具体过程为：输入图片经过一个卷积模块和一个池化模块，再经过4个Block模块，再经过ASPP模块，再经过一个反卷积模块，输出记为out1，low levelfeatures经过一个卷积层和归一化层，输出记为out2，将out1和out2在第四个维度进行concat，再经过一个卷积层和归一化层，最后经过一个反卷积层，得到最终的映射图logits.

如图2所示，在实例分割网络中，Conv，7*7，c＝64，stride＝2，表示卷积核大小为7*7，通道数为64，步长为2的卷积操作；Max_pool，3*3，stride＝2表示核大小为3*3，步长为2的最大池化操作；Block1，depth1，s1，num1表示Block1中包含num1个Bottleneck，depth1和s1与Bottleneck中卷积核的通道数和步长有关；Deconv表示反卷积操作；low levelfeatures为Block1的第三个Bottleneck的第二个卷积层的输出；concat表示直接相连操作；Relu表示一个非线性激活函数；BN表示Batch Normalization归一化操作。Block1至Block4的具体参数(depth，s，num)分别为(64，2，3)，(128，2，4)，(256，2，6)，(512，1，3)。

如图3所示，在Block1模块中，depth1，s，r与Bottleneck中卷积核的通道数和步长和空洞率有关，具体参数设置为，Block1参数如图3所示，Block2至Block4的最后一个Bottleneck的s＝1，r分别为2，4，8，其它参数与Block1相同。

如图4所示，在Bottleneck1模块中，Conv中的rate＝r表示该卷积的空洞率为r，特征图先经过一个归一化层和激活函数层，输出记为out0，out0经过一个卷积层，再经过一个激活函数层和归一化层，再经过一个空洞卷积层，再经过一个激活函数层和归一化层，再经过一个卷积层，输出记为out1；out0经过一个卷积层，输出记为out2，将out1和out2直接相加。具体参数设置如图4所示。

如图5所示，在ASPP模块中，特征图经过四个卷积层，再分别经过一个激活函数层和归一化层，其中三个为空洞卷积，通过一个全局平均池化，再进行上采样，上采样后的特征图的前三个维度与四个卷积层的输出一致，对五个输出进行在第四个维度进行concat操作，再经过一个卷积层，一个激活函数层和归一化层。具体参数设置如图5所示。

实例分割网络损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

式(1)中，L_var为偏差损失，C表示一张手写文档图像中的文本行数目，N_c表示属于第c个文本行的像素点的数目，C和N_c可从手写文档图像对应的标签图label中获取，向量x_i表示某个文本行的第i个像素点在映射图logits中的对应向量，μ_c表示第c个文本行的所有像素点对应的映射向量的中心，

δ_v为人为设定的类内距离；式(2)中，L_dist为距离损失，δ_d为人为设定的类间距离，其余字母的含义同式(1)；式(3)中，L_reg为正则损失；式(4)中，L为总损失，α,β,γ分别为和L_var,L_dist,L_reg对应的人为设定的权重。四个式子中，||·||表示向量的2范数，[x]₊＝max(0,x)。具体参数设置为α＝1,β＝1,γ＝0.001，δ_v＝0.5，δ_d＝1.5。

将一张手写文档图像输入实例分割网络中，根据其对应的标签label和网络的输出logits，计算出步骤2.2中实例分割网络的总损失L，使用Adam梯度下降方法来更新实例分割网络的权重，表示为Adam(w,L,lr)，其中，lr表示梯度下降的学习率。循环执行该步骤直到损失足够小，训练完成。其中，lr采用poly学习率衰减策略，lr的计算公式如下：

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

式中，init_lr表示初始学习率，取值为10^-4，end_lr表示终止学习率，取值分别为10^-7，step为当前迭代次数，decay_step为衰减步数，取值为3000，power取值0.9.

步骤3，将待处理的手写文档图像经步骤2得到的实例分割网络中，得到映射后的映射图。

对手写文档图像进行二值化处理，处理后的图像，字符对应的像素点像素值为0，背景对应的像素点为255.并进行和步骤1相同的缩放操作。缩放前的图片记作test_img，缩放后的图片记作test_img2，

将二值化处理后的图像test_img2输入步骤2训练好的实例分割网络中，得到映射图logits.

步骤4，利用均值漂移算法对待处理的手写文档图像中的黑色像素点在映射图中对应的映射向量进行聚类操作，最终提取得到单个文本行。

记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法，设置bandwidth值，对映射图logits中这些位置的点所代表的向量进行聚类。聚类后，每个位置会对应一个标签值，标签值为整数，从0开始，bandwidth取值为0.7。

创建一张与test_img2大小相同的图像result_img，初始像素值为255，根据步骤4.1中记录的值为0的像素点的位置及其对应的标签值，对result_img中相同位置的像素点赋值。即将该点的像素值赋值为该点的标签值。

利用Image库中的最近邻插值法，对result_img进行缩放，缩放后的尺寸和test_img相同，结合test_img，对result_img中像素值做进一步调整。调整结束后，result_img中像素值相同且值不为255的点属于同一文本行，即得到最终的文本行提取结果。如图6所示是本方法将手写文档提取为单个文本行的示意图。

实施例2

其中，max_size的值取1000，其中需要对h×scale和w×scale的值四舍五入。对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集。

步骤2，对步骤1中得到的训练集中的数据集进行训练，以此更新得到实例分割网络的权重，

选取步骤1中任意一张手写文档图像handwrit_img，其标签图像与其大小相同，记作label，将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与原图相同，但通道数为feature_dims的映射图，记作logits.其中，feature_dims为人为设定的值，具体过程为：输入图片经过一个卷积模块和一个池化模块，再经过4个Block模块，再经过ASPP模块，再经过一个反卷积模块，输出记为out1，low level features经过一个卷积层和归一化层，输出记为out2，将out1和out2在第四个维度进行concat，再经过一个卷积层和归一化层，最后经过一个反卷积层，得到最终的映射图logits.

在实例分割网络中，Conv，7*7，c＝64，stride＝2，表示卷积核大小为7*7，通道数为64，步长为2的卷积操作；Max_pool，3*3，stride＝2表示核大小为3*3，步长为2的最大池化操作；Block1，depth1，s1，num1表示Block1中包含num1个Bottleneck，depth1和s1与Bottleneck中卷积核的通道数和步长有关；Deconv表示反卷积操作；low level features为Block1的第三个Bottleneck的第二个卷积层的输出；concat表示直接相连操作；Relu表示一个非线性激活函数；BN表示Batch Normalization归一化操作。Block1至Block4的具体参数(depth，s，num)分别为(64，2，3)，(128，2，4)，(256，2，6)，(512，1，3)。

在Block1模块中，depth1，s，r与Bottleneck中卷积核的通道数和步长和空洞率有关。具体参数设置为，Block1参数为s＝3，r＝3，Block2至Block4的最后一个Bottleneck的s＝1，r分别为3，5，7，其它参数与Block1相同。

在Bottleneck1模块中，Conv中的rate＝r表示该卷积的空洞率为r，特征图先经过一个归一化层和激活函数层，输出记为out0，out0经过一个卷积层，再经过一个激活函数层和归一化层，再经过一个空洞卷积层，再经过一个激活函数层和归一化层，再经过一个卷积层，输出记为out1；out0经过一个卷积层，输出记为out2，将out1和out2直接相加。

在ASPP模块中，特征图经过四个卷积层，再分别经过一个激活函数层和归一化层，其中三个为空洞卷积，通过一个全局平均池化，再进行上采样，上采样后的特征图的前三个维度与四个卷积层的输出一致，对五个输出进行在第四个维度进行concat操作，再经过一个卷积层，一个激活函数层和归一化层。

实例分割网络损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

||·||表示向量的2范数，[x]₊＝max(0,x)。具体参数设置为α＝1，β＝1，γ＝0.001，δ_v＝0.5，δ_d＝1.5，式(1)中，L_var为偏差损失，C表示一张手写文档图像中的文本行数目，N_c表示属于第c个文本行的像素点的数目，C和N_c可从手写文档图像对应的标签图label中获取，向量x_i表示某个文本行的第i个像素点在映射图logits中的对应向量，μ_c表示第c个文本行的所有像素点对应的映射向量的中心，

将一张手写文档图像输入实例分割网络中，根据其对应的标签label和网络的输出logits，计算出实例分割网络的总损失L，使用Adam梯度下降方法来更新实例分割网络的权重，表示为Adam(w，L，lr)，其中，lr表示梯度下降的学习率。循环执行该步骤直到损失足够小，训练完成。其中，lr采用poly学习率衰减策略，lr的计算公式如下：

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

式中，init_lr表示初始学习率，取值为10^-4，end_lr表示终止学习率，取值分别为10^-7，step为当前迭代次数，decay_step为衰减步数，取值为3500，power取值1.0.

记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法，设置bandwidth值，对映射图logits中这些位置的点所代表的向量进行聚类。聚类后，每个位置会对应一个标签值，标签值为整数，从0开始，bandwidth取值为1.0。

实施例3

其中，max_size的值取600，其中需要对h×scale和w×scale的值四舍五入。对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集。

步骤2，对步骤1中得到的训练集中的数据集进行训练，以此更新得到实例分割网络的权重；

选取步骤1中任意一张手写文档图像handwrit_img，其标签图像与其大小相同，记作label，将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与原图相同，但通道数为feature_dims的映射图，记作logits.其中，feature_dims为人为设定的值。feature_dims的值，具体过程为：输入图片经过一个卷积模块和一个池化模块，再经过4个Block模块，再经过ASPP模块，再经过一个反卷积模块，输出记为out1，low level features经过一个卷积层和归一化层，输出记为out2，将out1和out2在第四个维度进行concat，再经过一个卷积层和归一化层，最后经过一个反卷积层，得到最终的映射图logits.

实例分割网络损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

式中，init_lr表示初始学习率，取值为10^-4，end_lr表示终止学习率，取值分别为10^-7，step为当前迭代次数，decay_step为衰减步数，取值为2500，power取值0.7.

记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法，设置bandwidth值，对映射图logits中这些位置的点所代表的向量进行聚类。聚类后，每个位置会对应一个标签值，标签值为整数，从0开始，bandwidth取值为0.5。

本发明手写文档文本行提取方法主要是基于卷积神经网络和聚类损失函数进行训练和测试，其中，测试过程仅需增加一个聚类操作，较为简单，容易实现；对存在粘连、交叉及字符大小、书写风格不一的手写文档，均能较好地完成对其文本行的提取，对手写文档的内容分析、单字提取、识别等后续研究提供了良好的基础，具有良好的实用价值。

Claims

1.一种基于实例分割网络的手写文档文本行的提取方法，其特征在于，具体按照如下步骤进行：

对ICDAR2013HandSegmCont手写文档数据集中的图片进行缩放操作，其中图片的高和宽分别为h和w，若h≤max_size,w≤max_size，则不进行缩放操作，否则，则使用Image库中的最近邻插值法将该图片和标签均缩小为高和宽分别为h×scale和w×scale的图片，其中，

其中max_size的值取600-1000，上面需要对h×scale和w×scale进行四舍五入，对训练集中的每张图片及其标签均进行上述操作，得到最终的训练集；

选取步骤1中任意一张手写文档图像，记作handwrit_img，其中，bandwidth取值为0.5-1.0，其中，标签图像与所述手写文档图像大小相同，记作label；将handwrit_img输入实例分割网络中，输出的结果为一张高和宽与手写文档图像相同且通道数为feature_dims的映射图图像，记作logits；其中，feature_dims为人为设定的需要值；

实例分割网络中按照实例分割网络中的损失函数对手写文档图像进行训练，所述损失函数公式如下：

L＝α·L_var+β·L_dist+γ·L_reg (4)

δ_v为人为设定的类内距离；式(2)中，L_dist为距离损失，δ_d为人为设定的类间距离，其余字母的含义同式(1)；式(3)中，L_reg为正则损失；式(4)中，L为总损失；α，β，γ分别为和L_var，L_dist，L_reg对应的人为设定的权重；

使用Adam梯度下降方法来更新实例分割网络的权重，表示为Adam(w，L，lr)，其中，lr表示梯度下降的学习率，然后循环执行上述步骤直到损失L足够小，所述训练完成；其中，lr采用poly学习率衰减策略，lr的计算公式如下：

lr＝(init_lr-end_lr)×(1-step/decay_step)^power+end_lr

式中，init_lr表示初始学习率，取值为10^-4，end_lr表示终止学习率，取值为10^-7，step为当前迭代次数，decay_step为衰减步数，取值为2500-3500，power取值0.7-1.0；

对手写文档图像进行二值化处理，处理后的图像的字符间对应的像素点像素值为0，背景对应的像素点为255，对处理后的图像进行缩放操作，缩放前的图片记作test_img，缩放后的图片记作test_img2，然后将二值化处理后的图像输入训练完成的实例分割网络中，得到映射图logits；

步骤4：利用均值漂移算法对待处理的手写文档图像中的黑色像素点在映射图中对应的映射向量进行聚类操作，最终提取得到单个文本行；

具体为：记录handwrit_img中像素值为0的像素点的位置，利用sklearn库中的MeanShift聚类方法进行聚类，聚类后每个位置会对应一个标签值，标签值为从0开始的整数，创建一张与所述test_img2大小相同且初始像素值为255的图像result_img，根据对应的标签值对result_img中相同位置的像素点赋值，然后利用Image库中的最近邻插值法，对result_img进行缩放，缩放后的尺寸和test_img相同，对result_img中像素值做进一步调整，使得result_img中的像素值相同且不为255的点属于同一文本行，得到最终的文本行提取结果。