CN111310746A

CN111310746A - 文本行检测方法、模型训练方法、装置、服务器及介质

Info

Publication number: CN111310746A
Application number: CN202010041418.2A
Authority: CN
Inventors: 陈志军
Original assignee: Alipay Labs Singapore Pte Ltd
Current assignee: Alipay Labs Singapore Pte Ltd
Priority date: 2020-01-15
Filing date: 2020-01-15
Publication date: 2020-06-19
Anticipated expiration: 2040-01-15
Also published as: CN111310746B

Abstract

本说明书实施例公开一种文本行检测方法、模型训练方法、装置、服务器及介质，所述方法包括：对训练样本图像中的文本行区域进行边框标定，标定边框的位置信息作为训练样本图像的标签信息，通过训练样本图像以及标签信息对包含有文本分类任务、像素连接预测、文本行边框回归任务的预设的深度学习模型进行训练，得到已训练的文本行检测模型。通过上述方案，采用端到端的模型训练方式，提高了文本行检测模型的训练效率，降低了模型训练和模型维护的成本。

Description

文本行检测方法、模型训练方法、装置、服务器及介质

技术领域

本说明书实施例涉及计算机技术领域，尤其涉及一种文本行检测方法、模型训练方法、装置、服务器及介质。

背景技术

现有技术中，图像中经常包含有文本行信息，例如，证件图像中的证件文本信息、街拍图像中的店铺名称文本信息等。由于图像中的文本部分常常包含有图像的重要信息，因此，在图像中确定出文本行，对图像信息获取具有重要作用。

发明内容

本说明书实施例提供及一种文本行检测方法、模型训练方法、装置、服务器及介质。

第一方面，本说明书实施例提供一种文本行检测模型训练方法，包括：

获取训练样本图像集；

对所述训练样本图像集中至少一个样本图像中包含的文本行区域进行边框标定，并将边框的位置信息作为所述样本图像的标签信息；

根据所述训练样本图像集以及所述样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型，所述文本行检测模型用于检测输入图像中包含的文本行区域的边框位置信息；

其中，所述预设的深度学习模型包括文本分类模块、像素连接预测模块以及文本行边框回归模块。

第二方面，本说明书实施例提供一种文本行检测方法，包括：

获取目标图像，所述目标图像中包含有文本行区域；

将所述目标图像输入到文本行检测模型，生成所述目标图像中包含的文本行区域的边框位置信息，其中，所述文本行检测模型为通过对预设的深度学习模型进行训练得到的模型，所述预设的深度学习模型包括文本分类模块、像素连接预测模块以及文本行边框回归模块。

第三方面，本说明书实施例提供一种文本行检测模型训练装置，所述装置包括：

获取模块，用于获取训练样本图像集；

标定模块，用于对所述训练样本图像集中至少一个样本图像中包含的文本行区域进行边框标定，并将边框的位置信息作为所述样本图像的标签信息；

训练模块，用于根据所述训练样本图像集以及所述样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型，所述文本行检测模型用于检测输入图像中包含的文本行区域的边框位置信息；

第四方面，本说明书实施例提供一种文本行检测装置，所述装置包括：

获取模块，用于获取目标图像，所述目标图像中包含有文本行区域；

处理模块，用于将所述目标图像输入到文本行检测模型，生成所述目标图像中包含的文本行区域的边框位置信息，其中，所述文本行检测模型为通过对预设的深度学习模型进行训练得到的模型，所述预设的深度学习模型包括文本分类模块、像素连接预测模块以及文本行边框回归模块。

第五方面，本说明书实施例提供一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行上述任一项所述方法的步骤。

第六方面，本说明书实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述任一项所述方法的步骤。

本说明书实施例有益效果如下：

本说明书实施例提供的文本行检测模型训练方法中，首先获取训练样本图像集，对训练样本图像集中的样本图像，确定出该样本图像中包含的文本行区域，并标定出文本行区域的边框，将将边框的位置信息作为每个样本图像的标签信息，根据训练样本图像集，以及样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型。由于上述预设的深度学习模型中，包含有文本分类模块、像素连接预测模块以及文本行边框回归模块，因此，通过对预设的深度学习模型进行训练，得到的文本行检测模型能够同时执行文本分类预测、像素连接预测以及文本行边框回归，且模型的最终输出结果为输入图像中包含的文本行区域的边框位置信息。因此，本说明书实施例提供的方案，通过端到端的训练方式对综合了多个任务模块的单个模型进行训练，有效的对图像中的文本行进行检测，避免了现有技术中通过训练多个模型来实现文本行检测的复杂训练步骤，提高了文本行检测模型的训练效率，降低了模型训练和模型维护的成本。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本说明书的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1为本说明书实施例第一方面提供的一种文本行检测模型训练方法的流程图；

图2为本说明书实施例示出的预设的深度学习模型的结构示意图；

图3为本说明书实施例第二方面提供的一种文本行检测方法的流程图；

图4为本说明书实施例第三方面提供的一种文本行检测模型训练装置的示意图；

图5为本说明书实施例第四方面提供的一种文本行检测装置的示意图；

图6为本说明书实施例第五方面提供的服务器的示意图。

具体实施方式

为了更好的理解上述技术方案，下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明，而不是对本说明书技术方案的限定，在不冲突的情况下，本说明书实施例以及实施例中的技术特征可以相互组合。

第一方面，本说明书实施例提供一种文本行检测模型训练方法，如图1所示，为本说明书实施例提供的文本行检测模型训练方法的流程图，该方法包括以下步骤：

步骤S11：获取训练样本图像集；

步骤S12：对所述训练样本图像集中至少一个样本图像中包含的文本行区域进行边框标定，并将边框的位置信息作为所述样本图像的标签信息；

步骤S13：根据所述训练样本图像集以及所述样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型，所述文本行检测模型用于检测输入图像中包含的文本行区域的边框位置信息；

在具体实施过程中，所述文本分类模块用于对所述样本图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述样本图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述样本图像中的每个像素对应的文本行边框位置信息。

本说明书实施例中，训练样本图像集可以包含有文本行区域的图像，例如，样本图像可以是街拍图像，街拍图像中可以包含有路牌、广告牌等，路牌上的提示文本信息可以构成文字行区域，广告牌上的广告信息也可以构成文字行信息，因此，对于每个样本图像来说，可以包含有一个或多个文字行区域。当然，样本图像也可以是其他图像，例如证件图像等，这里不做限定。

在获取到训练样本图像集之后，对集合中的样本图像进行标定，如对训练样本图像集中的部分样本图像或全部样本图像进行标定。在具体实施过程中，以训练样本图像集中的任一个样本图像为例，确定出该样本图像中包含的所有文字行区域，然后将这些文字行区域进行边框标定，即，将每个文字行区域用一个矩形框进行框选，并对每个矩形框进行位置标定。边框的位置信息即为每个矩形框的位置信息，例如，边框的位置信息可以为每个矩形框的四个角点的角点坐标，或者边框的位置信息可以为每个矩形框的长度、宽度以及中心点的位置。为了便于说明，本说明书实施例中的边框的位置信息以每个矩形框的四个角点的角点坐标为例来进行说明。

本说明书实施例中，预设的深度学习模型可以根据实际需要进行选择，例如卷积神经网络、长短时记忆神经网络、递归神经网络等，为了便于说明，本说明书实施例中以基于卷积神经网络的深度学习模型为例，来对模型的训练过程进行说明。如图2所示，预设的深度学习模型的主干网络基于SSD(Single Shot MultiBox Detector)网络结构，采用Visual Geometry Group，VGG16作为特征提取器，将VGG16的最后两个全连接层改为卷积层，提取不同层的特征图像，本说明书实施例中，提取conv2_2,conv3_3,conv4_3,conv5_3,fc_7的特征图像，并对提取到的特征图像进行1×1卷积，用于后续的反卷积过程。即，预设的深度学习模型先进行下采样，然后反卷积上采样回原来的尺寸，比如输入主干网络的样本图像大小为512×512，最后主干网络输出的也是大小为512×512的多个特征图像。

预设的深度学习模型包括三个任务，分别为像素的文本分类预测、像素连接预测以及文本行边框回归。对于文本分类预测，用于预测样本图像中每个像素是否为文本，因此，该任务的输出为两个通道，对应文本/非文本预测。对于像素连接预测，针对样本图像中的每一个像素，预测该像素与邻域的8个像素(分别位于该像素的左侧、左上侧、左下侧、右侧、右上侧、右下侧、上侧、下侧的8个像素)是否存在连接，因此，该任务的输出为16个通道。对于文本行边框回归任务，用于预测每个像素的文本行边框的位置信息，本说明书实施例中，位置信息为矩形框的四个角点坐标，因此，该任务的输出为8个通道，分别对应四个角点坐标的横坐标和纵坐标。

本说明书实施例中，由于训练样本图像集中的每个样本图像的大小并不完全相同，因此，可以先将每个样本图像缩放到同一个大小，如512×512，基于缩放后的样本图像进行模型训练，样本图像的缩放可以在模型内部实现，也可以先进行缩放，然后将缩放后的样本图像输入到模型中，这里不做限定。

在进行模型训练时，由于预设的深度学习模型包含有三个任务，因此，需要生成训练样本图像集的ground truth。对于文本分类任务来说，针对一个样本图像，位于该样本图像的文本行边框内的像素标记为正像素，否则像素被标记为负像素。对于像素连接任务来说，针对一个样本图像，给定一个像素，若其余邻域的8个像素都属于同一个文本实例，则将其连接标记为正连接，否则标记为负连接。需要说明的是，ground truth的计算是在对样本图像进行缩放后执行的。

在具体的模型训练过程中，步骤S13可以通过以下步骤实现：将所述样本图像输入到所述预设的深度学习模型的主干网络中，获取与所述样本图像对应的特征图像；将所述特征图像输入到所述文本分类模块中，得到所述样本图像中每个像素的文本分类信息；将所述特征图像输入到所述像素连接预测模块中，得到所述样本图像中每个像素的像素连接信息；基于所述样本图像中每个像素的文本分类信息以及像素连接信息，对所述样本图像进行实例分割，得到与所述样本图像对应的实例分割图像；将与所述样本图像对应的实例分割图像输入到所述文本行边框回归模块中，得到所述实例分割图像中每个像素的文本行边框位置信息；基于所述样本图像中每个像素的文本分类信息、所述样本图像中每个像素的像素连接信息以及所述样本图像的实例分割图像中每个像素的文本行边框位置信息，对所述预设的深度学习模型进行训练。

具体来讲，在训练过程中，将训练样本图像集中用于训练的样本图像输入到预设的深度学习模型中，通过主干网络对输入的每个样本图像先进行下采样，然后再反卷积上采样，得到每个样本图像对应的特征图像。然后基于预设的深度学习模型的三个模块，对特征图像进行不同的任务处理，本说明书实施例中，针对输入的每个样本图像，文本分类模块基于对该样本图像标记的正像素/负像素的ground truth，对每个样本图像的特征图像进行处理，预测每个样本图像中每个像素为正像素还是负像素。像素连接预测模块，基于对每个样本图像标记的正连接/负连接的ground truth，对样本图像中的每个像素与邻域的8个像素之间的连接进行预测。

进一步的，根据像素分类的预测结果以及像素连接的预测结果，通过设定两个不同阈值对这两类预测结果进行阈值化操作，在像素分类预测结果中确定出超出阈值的像素，作为正像素集合，在像素连接的预测结果中确定出超出阈值的像素连接，作为正连接集合。通过正连接集合对正像素集合中的像素进行连接，得到连通域(ConnectedComponents，CCs)集合，连通域集合中的每个元素即为文本实例，每个样本图像中包含的文本实例构成实例分割图像。应说明的是，对于一个给定的像素以及其临近的8个像素，如果两个像素都是正像素，则二者之间的连接为正连接；如果一个像素是正像素，另一个是负像素，则二者之间的连接为负连接；如果两个像素都是负像素，则二者之间的连接为负连接。

在确定了每个样本图像对应的实例分割图像之后，通过文本行边框回归模块，确定出每个实例分割图像中每个像素对应的文本行边框位置信息，针对每个像素，都确定出对应的文本行矩形边框的四个角点坐标。

进一步的，通过上述三个任务的预测结果来对预设的深度模型进行训练，在具体实施过程中，所述基于所述样本图像中每个像素的文本分类信息、所述样本图像中每个像素的像素连接信息以及所述实例分割图像中每个像素的文本行边框位置信息，对所述预设的深度学习模型进行训练，包括：基于所述样本图像中每个像素的文本分类信息，得到第一损失函数值；基于所述样本图像中每个像素的像素连接信息，得到第二损失函数值；基于所述实例分割图像中每个像素的文本行边框位置信息，得到第三损失函数值；基于所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值，对所述预设的深度学习模型进行训练。

本说明书实施例中，模型训练的整体损失函数由三个任务各自的损失函数构成，整体损失函数可以通过以下公式计算：

L＝λL_pixel+L_link+L_box

其中，L为整体损失函数，L_pixel为文本分类预测任务的第一损失函数，L_link为像素连接预测任务的第二损失函数，L_box为文本行边框回归任务的第三损失函数，λ为权重，由于文本分预测任务相对来说较为重要，因此，可以将权重λ设为2，当然，各个任务的权重可以根据实际需要进行，这里的λ只做示例说明，不做限定。

具体的，可以通过以下公式来计算第一损失函数值：

其中，r是正负像素比例，S为每个文本实例的面积，W为预测的像素分类的权值矩阵，L_{pixel_CE}是文本/非文本预测的交叉熵损失矩阵。

第二损失函数值可以通过以下公式计算：

L_{link_pos}＝W_{pos_link}L_{link_CE}；

L_{link_neg}＝W_{neg_link}L_{link_CE}

其中，L_{link_CE}是预测像素连接时的交叉熵损失函数，W_{pos_link}和W_{neg_link}分别是正连接和负连接权值矩阵，rsum代表塌缩求和。

第三损失函数值可以通过Smooth L1 Loss来计算，具体如下：

其中，t_i为第i个文本行边框位置信息对应的预测偏移量，v_i为第i个文本行边框位置信息相对于标签信息的实际偏移量，(x₁,y₁)、(x₂,y₂)、(x₃,y₃)、(x₄,y₄)分别代表文本行边框的四个角点坐标。

本说明书实施例中，训练样本图像集中可能包含有简单样本图像，也可能包含与复杂样本图像，如果训练样本图像集中包含有大量的简单样本图像，且简单样本图像中包含有大量的负像素和/或负连接时，那么在计算损失函数时就会淹没少量的正像素和/或负连接的影响。

为了降低简单样本图像中负像素的影响，本说明书实施例中，所述基于所述样本图像中每个像素的文本分类信息，得到第一损失函数值，包括：在进行文本分类预测时，基于Focal Loss函数确定所述样本图像中正像素以及负像素的权重；基于所述样本图像中正像素以及负像素的权重，以及所述样本图像中每个像素的文本分类信息，得到所述第一损失函数值。

在具体实施过程中，Focal Loss函数的计算公式如下：

其中，y为1表示该像素为正像素，y为0表示该像素为负像素，γ为平衡因子，可以根据实际需要进行选择，如γ为2，y′为文本分类模块的输出。

基于上述公式，分别确定正像素以及负像素的权重，构建L_{pixel_CE}，并基于该L_{pixel_CE}确定第一损失函数值，这样，对于简单样本来说，权重较小，对于复杂样本来说，权重较大，通过Focal Loss，能够区分简单样本与复杂样本，同时也解决了正像素与负像素不平衡的问题。

同样的，对于像素连接预测任务，为了降低简单样本图像中负连接的影响，本说明书实施例中，在进行像素连接预测时，基于Focal Loss函数确定所述样本图像中正连接以及负连接的权重；基于所述样本图像中正连接以及负连接的权重，以及所述样本图像中每个像素的像素连接信息，得到所述第二损失函数值。

在具体实施过程中，Focal Loss函数的计算公式与上述公式相同，其中参数含义如下：y为1表示该连接为正连接，y为0表示该连接为负连接，γ为平衡因子，可以根据实际需要进行选择，如γ为2，y′为像素连接预测模块的输出。基于Focal Loss函数，构建L_{link_CE}，并基于该L_{link_CE}计算第二损失函数值。

本说明书实施例中，对于经过实例分割后得到的实例分割图像来说，每个文本实例(文本行区域)可以由多个像素构成，由于每个像素均对应有一个文本行边框位置信息，即每个像素的文本行边框位置信息均对应一个候选框，因此，该文本实例就会存在多个用于表征其位置的候选框，为了在多个候选框中确定出最接近该文本实例实际标定的边框，本说明书实施例中，可以采用以下方式来确定出最优的文本行边框位置信息：对所述实例分割图像中的每个像素的文本行边框位置信息进行非极大值抑制处理，得到与所述实例分割图像对应的目标文本行边框位置信息，将所述目标文本行边框位置信息作为所述预设的深度学习模型的输出。

在具体实施过程中，对于一个文本实例中的每个像素来说，基于每个像素对应的文本行边框位置信息，为每个文本行边框位置信息进行打分，并将分值最高的文本行边框信息作为最优的文本行边框位置信息，即与该文本实例对应的目标文本行边框位置信息。进一步的，确定出样本图像中包含的所有文本实例对应的目标文本行边框位置信息，并将其作为模型的输出。

本说明书实施例中，在考虑到训练样本图像集为证件样本图像集时，文字行区域的位置相对于证件中心都是固定的，例如，在证件样本图像为身份证图像时，身份证图像上的姓名区域、性别区域、身份证号区域，其位置相对于身份证的中心是固定的，因此，为了增加证件图像的文字行定位的准确性。本说明书实施例中，可以基于证件中心进行文本行边框回归，具体包括以下步骤：确定每个证件样本图像中包含的证件区域的中心位置信息；针对所述每个证件样本图像，基于该证件样本图像中包含的证件区域的中心位置信息，对所述证件样本图像的实例分割图像中的每个像素对应的文本行边框位置信息进行归一化处理；基于所述每个证件样本图像中每个像素的文本分类信息、所述每个证件样本图像中每个像素的像素连接信息以及所述每个证件样本图像的归一化处理后的文本行边框位置信息，对所述预设的深度学习模型进行训练。

在具体实施过程中，以一个证件样本图像为例，对该证件样本图像进行证件识别，识别出该证件样本图像中包含的证件区域，证件区域为证件的图像信息所在区域，即证件区域中不包含背景图像，证件区域的区域边缘与证件图像信息的边缘重合。举例来讲，证件样本图像为身份证图像，那么证件区域即为图像中的身份证图像区域，证件区域的边缘与身份证在图像中的边缘重合。

在识别出证件区域后，确定证件区域的中心位置信息，具体来讲，可以先通过角点检测确定出证件区域的四个角点坐标，然后基于四个角点坐标确定出证件区域的中心位置信息，当然，也可以通过其他方式确定出证件区域的中心位置信息，这里不做限定。进一步的，为了将文本行边框回归任务与证件中心进行关联，本说明书实施例中，将实例分割图像中的每个像素对应的文本行边框位置信息均向证件区域的中心做归一化，然后基于归一化后的文本行边框位置信息，对模型进行训练。

本说明书实施例中，证件样本图像中可以包含一个或多个证件区域，在包含一个证件区域时，获取该证件区域的证件中心位置信息，在包含有多个证件区域时，可以分别获取每个证件区域的证件中心位置信息。在证件样本图像中包含多个证件区域时，在做归一化的时候，针对每个证件区域，基于该证件区域的中心位置信息，对该证件区域内的每个像素对应的文本行边框位置信息进行归一化。

由于证件样本图像中的证件区域可能存在偏移或倾斜，因此，为了保证获取到的证件区域的中心位置信息的准确性，本说明书实施例中，在证件样本图像为证件样本图像时，可以先对证件样本图像进行证件姿态校正，基于姿态校正后的证件样本图像对预设的深度学习模型进行训练。

本说明书实施例中，在对证件样本图像进行证件姿态校正时，可以通过以下方式实现：针对每个证件样本图像，确定该证件样本图像中包含的证件区域的每条边的边长；基于每条边的边长，确定出任意两条边之间的长度比值；进一步的，基于任意两条边之间的长度比值与预设阈值，确定出证件区域的姿态校正参数，姿态校正参数包括证件区域的俯仰角、偏航角以及翻滚角，并基于姿态校正参数对证件样本图像进行校正。

举例来讲，证件样本图像为身份证图像，证件区域的四条边分别为第一边、第二边、第三边和第四边，其中，第一边和第二边互为对边，第三边和第四边互为对边。分别计算第一边长度与第二边长度之间的第一比值、第三边长度与第四边长度的第二比值、第一边长度与第三边长度的第三比值。由于在证件区域未发生偏移和倾斜的情况下，对于身份证来说，对边长度相同，对边之间的长度比值为1，相邻的两边之间，长边与短边之间的比值为1.58，因此，预设阈值可以包括三组，分别为与第一比值对应的第一阈值1，与第二比值对应第二阈值1，以及与第三比值对应的第三阈值1.58。通过预设阈值可以分别对第一比值、第二比值以及第三比值进行归一化处理，得到归一化处理后的偏移量，即偏移量包括第一比值减去第一阈值的第一偏移量，第二比值减去第二阈值的第二偏移量，第三比值减去第三阈值的第三偏移量。然后基于偏移量与姿态校正参数的预设对应关系，确定出对应的姿态校正参数，以对证件样本图像进行校正。

综上所述，本说明书实施例提供的文本行检测模型训练方法，由于选择的主干网络的结构，以及文本分类模块以及像素连接预测模块的实现的功能，可以通过较少的训练样本图像集即可实现较佳的文本实例分割，通过文本行边框回归模块，确定出每个像素对应的文本行边框位置信息，并通过非极大值抑制处理确定出最终的文本行边框的位置。可见，本说明书实施例提供的方法，采用端到端的模型训练方式，避免了对多个任务单独训练的过程，提高了文本行检测模型的训练效率，降低了模型训练和模型维护的成本。另外，在构建损失函数时，通过采用Focal Loss函数调整难易样本的权重，使得复杂样本发挥更大的作用，损失函数的设计更为合理。进一步的，对于证件样本图像来说，基于证件样本图像中证件区域的中心位置信息进行边框回归，针对特定证件图像来说效果好，只需要少量样本就能够训练处结果，且文字行的位置信息准确率高。

第二方面，基于同一发明构思，本说明书实施例提供一种文字行检测方法，请参考图3，包括：

步骤S31：获取目标图像，所述目标图像中包含有文本行区域；

步骤S32：将所述目标图像输入到文本行检测模型，生成所述目标图像中包含的文本行区域的边框位置信息，其中，所述文本行检测模型为通过对预设的深度学习模型进行训练得到的模型，所述预设的深度学习模型包括文本分类模块、像素连接预测模块以及文本行边框回归模块。

所述文本分类模块用于对输入图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述输入图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述输入图像中的每个像素对应的文本行边框位置信息。

本说明书实施例中，目标图像可以是需要进行文字行检测的任意图像，目标图像中包含有文字行区域。将目标图像输入到文本行检测模型中，其中，文本行检测模型为对预设的深度学习模型进行训练得到的，能够同时执行文本分类预测、像素连接预测以及文本行边框回归。文本行检测模型的训练过程可以采用第一方面提供的文本行检测模型训练方法，文本行检测模型用于输出目标图像中包含的文字行区域的边框位置信息。

关于上述方法，其中各个步骤的具体实现已经在本说明书实施例提供的文本行检测模型训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

第三方面，基于同一发明构思，本说明书实施例提供一种文本行检测模型训练装置，请参考图4，包括：

获取模块41，用于获取训练样本图像集；

标定模块42，用于对所述训练样本图像集中至少一个样本图像中包含的文本行区域进行边框标定，并将边框的位置信息作为所述样本图像的标签信息；

训练模块43，用于根据所述训练样本图像集以及所述样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型，所述文本行检测模型用于检测输入图像中包含的文本行区域的边框位置信息；

在一种可选实现方式中，所述文本分类模块用于对所述每个样本图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述每个样本图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述每个样本图像中的每个像素对应的文本行边框位置信息。

在一种可选实现方式中，训练模块43，用于：

将所述样本图像输入到所述预设的深度学习模型的主干网络中，获取与所述样本图像对应的特征图像；将所述特征图像输入到所述文本分类模块中，得到所述样本图像中每个像素的文本分类信息；将所述特征图像输入到所述像素连接预测模块中，得到所述样本图像中每个像素的像素连接信息；基于所述样本图像中每个像素的文本分类信息以及像素连接信息，对所述样本图像进行实例分割，得到与所述样本图像对应的实例分割图像；将与所述样本图像对应的实例分割图像输入到所述文本行边框回归模块中，得到所述实例分割图像中每个像素的文本行边框位置信息；

基于所述样本图像中每个像素的文本分类信息、所述样本图像中每个像素的像素连接信息以及所述样本图像的实例分割图像中每个像素的文本行边框位置信息，对所述预设的深度学习模型进行训练。

在一种可选实现方式中，训练模块43，用于：

基于所述样本图像中每个像素的文本分类信息，得到第一损失函数值；

基于所述样本图像中每个像素的像素连接信息，得到第二损失函数值；

基于所述实例分割图像中每个像素的文本行边框位置信息，得到第三损失函数值；

基于所述第一损失函数值、所述第二损失函数值以及所述第三损失函数值，对所述预设的深度学习模型进行训练。

在一种可选实现方式中，训练模块43，用于：

在进行文本分类预测时，基于Focal Loss函数确定所述样本图像中正像素以及负像素的权重；

基于所述样本图像中正像素以及负像素的权重，以及所述样本图像中每个像素的文本分类信息，得到所述第一损失函数值。

在一种可选实现方式中，训练模块43，用于：

在进行像素连接预测时，基于Focal Loss函数确定所述样本图像中正连接以及负连接的权重；

基于所述样本图像中正连接以及负连接的权重，以及所述样本图像中每个像素的像素连接信息，得到所述第二损失函数值。

在一种可选实现方式中，训练模块43，用于：

对所述实例分割图像中的每个像素的文本行边框位置信息进行非极大值抑制处理，得到与所述实例分割图像对应的目标文本行边框位置信息，将所述目标文本行边框位置信息作为所述预设的深度学习模型的输出。

在一种可选实现方式中，在所述训练样本图像集为证件样本图像集时，训练模块43，用于：

确定每个证件样本图像中包含的证件区域的中心位置信息；

针对所述每个证件样本图像，基于该证件样本图像中包含的证件区域的中心位置信息，对所述证件样本图像的实例分割图像中的每个像素对应的文本行边框位置信息进行归一化处理；

基于所述每个证件样本图像中每个像素的文本分类信息、所述每个证件样本图像中每个像素的像素连接信息以及所述每个证件样本图像的归一化处理后的文本行边框位置信息，对所述预设的深度学习模型进行训练。

关于上述装置，其中各个模块的具体功能已经在本说明书实施例提供的文本行检测模型训练方法的实施例中进行了详细描述，此处将不做详细阐述说明。

第四方面，基于同一发明构思，本说明书实施例提供一种文本行检测装置，请参考图5，包括：

获取模块51，用于获取目标图像，所述目标图像中包含有文本行区域；

处理模块52，用于将所述目标图像输入到文本行检测模型，生成所述目标图像中包含的文本行区域的边框位置信息，其中，所述文本行检测模型为通过对预设的深度学习模型进行训练得到的模型，所述预设的深度学习模型包括文本分类模块、像素连接预测模块以及文本行边框回归模块。

在一种可选实现方式中，所述文本分类模块用于对输入图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述输入图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述输入图像中的每个像素对应的文本行边框位置信息。

第五方面，基于与前述实施例中文本行检测模型训练方法同样的发明构思，本说明书实施例还提供一种服务器，如图6所示，包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序，所述处理器402执行所述程序时实现前文所述文本行检测模型训练方法的任一方法的步骤。

其中，在图6中，总线架构(用总线400来代表)，总线400可以包括任意数量的互联的总线和桥，总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口406在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件，即收发机，提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理，而存储器404可以被用于存储处理器402在执行操作时所使用的数据。

第六方面，基于与前述实施例中基于文本行检测模型训练方法的发明构思，本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前文所述基于文本行检测模型训练方法的任一方法的步骤。

本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品，该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本说明书的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。

显然，本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样，倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内，则本说明书也意图包含这些改动和变型在内。

Claims

1.一种文本行检测模型训练方法，所述方法包括：

获取训练样本图像集；

2.根据权利要求1所述的方法，所述文本分类模块用于对所述样本图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述样本图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述样本图像中的每个像素对应的文本行边框位置信息。

3.根据权利要求1或2所述的方法，所述根据所述训练样本图像集以及所述样本图像的标签信息，对预设的深度学习模型进行训练，得到文本行检测模型，包括：

4.根据权利要求3所述的方法，所述基于所述样本图像中每个像素的文本分类信息、所述样本图像中每个像素的像素连接信息以及所述样本图像的实例分割图像中每个像素的文本行边框位置信息，对所述预设的深度学习模型进行训练，包括：

5.根据权利要求4所述的方法，所述基于所述样本图像中每个像素的文本分类信息，得到第一损失函数值，包括：

在进行文本分类预测时，基于FocalLoss函数确定所述样本图像中正像素以及负像素的权重；

6.根据权利要求4所述的方法，所述基于所述样本图像中每个像素的像素连接信息，得到第二损失函数值，包括：

在进行像素连接预测时，基于FocalLoss函数确定所述样本图像中正连接以及负连接的权重；

7.根据权利要求3所述的方法，所述得到所述实例分割图像中每个像素的文本行边框位置信息之后，所述方法还包括：

8.根据权利要求3所述的方法，在所述训练样本图像集为证件样本图像集时，所述基于所述样本图像中每个像素的文本分类信息、所述样本图像中每个像素的像素连接信息以及所述样本图像的实例分割图像中每个像素的文本行边框位置信息，对所述预设的深度学习模型进行训练，包括：

确定每个证件样本图像中包含的证件区域的中心位置信息；

9.一种文本行检测方法，所述方法包括：

获取目标图像，所述目标图像中包含有文本行区域；

10.根据权利要求9所述的方法，所述文本分类模块用于对输入图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述输入图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述输入图像中的每个像素对应的文本行边框位置信息。

11.一种文本行检测模型训练装置，所述装置包括：

获取模块，用于获取训练样本图像集；

12.根据权利要求11所述的装置，所述文本分类模块用于对所述样本图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述样本图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述样本图像中的每个像素对应的文本行边框位置信息。

13.根据权利要求11或12所述的装置，所述训练模块，用于：

14.根据权利要求13所述的装置，所述训练模块，用于：

15.根据权利要求14所述的装置，所述训练模块，用于：

16.根据权利要求14所述的装置，所述训练模块，用于：

17.根据权利要求13所述的装置，所述训练模块，用于：

18.根据权利要求13所述的装置，在所述训练样本图像集为证件样本图像集时，所述训练模块，用于：

确定每个证件样本图像中包含的证件区域的中心位置信息；

19.一种文本行检测装置，所述装置包括：

20.根据权利要求19所述的装置，所述文本分类模块用于对输入图像中的每个像素进行文本分类预测，所述像素连接预测模块用于对所述输入图像中的每个像素与邻域像素进行像素连接预测，所述文本行边框回归模块用于确定所述输入图像中的每个像素对应的文本行边框位置信息。

21.一种服务器，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现权利要求1-10任一项所述方法的步骤。

22.一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-10任一项所述方法的步骤。