CN114065868B

CN114065868B - 文本检测模型的训练方法、文本检测方法及装置

Info

Publication number: CN114065868B
Application number: CN202111401778.XA
Authority: CN
Inventors: 范峻植; 曾定衡; 王洪斌; 周迅溢; 蒋宁
Original assignee: Mashang Xiaofei Finance Co Ltd
Current assignee: Mashang Xiaofei Finance Co Ltd
Priority date: 2021-11-24
Filing date: 2021-11-24
Publication date: 2022-09-02
Anticipated expiration: 2041-11-24
Also published as: CN114065868A

Abstract

本申请公开了一种文本检测模型的训练方法、文本检测方法及装置，用于在降低对硬件支撑的需求的同时，保证提高文本检测模型的训练速度和训练效果。所述文本检测模型的训练方法包括：对第一样本图片进行裁剪，第一样本图片对应第一文本区域标签；对裁剪得到的图片进行扩展，得到扩展图片及其对应的第二文本区域标签；对扩展图片进行缩放处理得到第一缩放图片，第一缩放图片的尺寸小于第一样本图片的尺寸；基于第一缩放图片和第二文本区域标签确定第一缩放图片对应的第三文本区域标签；将第一缩放图片输入文本检测模型，输出第一缩放图片的第一疑似文本区域；基于第一疑似文本区域、第三文本区域标签以及预设损失函数，更新文本检测模型的模型参数。

Description

文本检测模型的训练方法、文本检测方法及装置

技术领域

本申请涉及计算机技术领域，尤其涉及一种文本检测模型的训练方法、文本检测方法及装置。

背景技术

文本检测的目的是要定位和标记图片中的文本区域。近年来，随着深度学习逐渐成为人工智能领域的研究热点和主流方案，目前的文本检测方法主要基于深度学习技术，通过大量标记有文本区域的图片来训练文本检测模型，然后利用文本检测模型检测待识别图片的文本区域。

目前常见的文本检测模型的训练方法，都是先对标记有文本区域的原图进行随机缩放后再进行裁剪，并将裁剪后的图片作为训练样本输入文本检测模型中进行训练。在对缩放后的图片进行裁剪时，如果直接裁剪大图进行训练，每一步迭代所需的计算量较大，导致训练速度变慢而增加训练时间，且还需要性能较好的硬件来支撑训练，增加训练成本；如果直接裁剪小图，由于小图包含的原图信息更少，就会导致模型训练效果较差。

发明内容

本申请实施例提供一种文本检测模型的训练、文本检测方法及装置，用于在降低对硬件支撑的需求的同时，保证提高文本检测模型的训练速度和训练效果。

第一方面，本申请提供一种文本检测模型的训练方法，包括：

对第一样本图片进行裁剪处理，所述第一样本图片对应第一文本区域标签，文本区域标签用于标记图片的实际文本区域；

对裁剪得到的图片进行扩展，得到扩展图片，以及基于所述第一文本区域标签，确定所述扩展图片对应的第二文本区域标签；

对所述扩展图片进行缩放处理得到第一缩放图片，所述第一缩放图片的尺寸小于所述第一样本图片的尺寸；

基于所述第一缩放图片和所述第二文本区域标签，确定所述第一缩放图片对应的第三文本区域标签；

将所述第一缩放图片输入文本检测模型，输出所述第一缩放图片的第一疑似文本区域；

基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数。

可以看出，在本申请实施例中，由于输入文本检测模型中的缩放图片的尺寸小于原始样本图片的尺寸，使得训练过程中的计算量更少，进而可以降低训练过程对硬件的要求，还可以缩短文本检测模型的训练时间，提高文本检测模型的训练速度；另外，缩放图片是从原始样本图片裁剪出的图片进行扩展后再进行缩放得到的，相较于直接对原始的样本图片进行缩放的方式，能够减少图片缩放过程中造成的图片信息损失，使得缩放图片能够保留原始样本图片的较多有用信息，进而可以提高模型的训练效果。

第二方面，本申请提供一种文本检测方法，包括：

获取待识别图片；

将所述待识别图片输入预先训练的文本检测模型，输出所述待识别图片的疑似文本区域；

其中，所述文本检测模型为基于缩放图片及缩放图片对应的文本区域标签进行训练得到的，所述缩放图片为对标记有实际文本区域的样本图片进行裁剪处理、对裁剪得到的图片进行扩展以及对扩展所得的图片进行缩放处理得到的，所述缩放图片的尺寸小于所述样本图片的尺寸，所述缩放图片对应的文本区域标签为基于所述缩放图片和所述扩展所得的图片对应的文本区域标签确定的，图片对应的文本区域标签用于标记图片的实际文本区域。

可以看出，在本申请实施例中，由于训练文本检测模型的缩放图片是从原始样本图片裁剪出的图片扩展后再进行缩放得到的，使得缩放图片保留了原始样本图片的较多有用信息，进而利用该缩放图片训练所得的文本检测模型的准确率高，在此基础上，利用训练出的文本检测模型对待识别图片进行文本检测，使得输出的疑似文本区域与实际文本区域之间的偏差更小，提高文本检测结果的准确性。

第三方面，本申请提供一种文本检测模型的训练装置，包括：

裁剪模块，用于对第一样本图片进行裁剪处理，所述第一样本图片对应第一文本区域标签，文本区域标签用于标记图片的实际文本区域；

扩展模块，用于对裁剪得到的图片进行扩展，得到扩展图片，以及基于所述第一文本区域标签，确定所述扩展图片对应的第二文本区域标签；

第一缩放模块，用于对所述扩展图片进行缩放处理得到第一缩放图片，所述第一缩放图片的尺寸小于所述第一样本图片的尺寸；

第一确定模块，用于基于所述第一缩放图片和所述第二文本区域标签，确定所述第一缩放图片对应的第三文本区域标签；

第一文本检测模块，用于将所述第一缩放图片输入文本检测模型，输出所述第一缩放图片的第一疑似文本区域；

第一模型更新模块，用于基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数。

第四方面，本申请提供一种文本检测装置，包括：

图片获取模块，用于获取待识别图片；

第二文本检测模块，用于将所述待识别图片输入预先训练的文本检测模型，输出所述待识别图片的疑似文本区域；

第五方面，本申请提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如第一方面或第二方面所述的方法。

第六方面，本申请提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面或第二方面所述的方法。

附图说明

此处所说明的附图用来提供对本说明书的进一步理解，构成本说明书的一部分，本说明书的示意性实施例及其说明用于解释本说明书，并不构成对本说明书的不当限定。在附图中：

图1为本说明书的一个实施例提供的一种文本检测模型的训练方法的流程示意图；

图2为本说明书的一个实施例提供的一种第一缩放图片及其对应的标签的获取方法的流程示意图；

图3A为本说明书的一个实施例提供的一种缩放模型的结构示意图；

图3B为本说明书的另一个实施例提供的一种文本检测模型的训练方法的流程示意图；

图4为本说明书的一个实施例提供的一种文本检测方法的流程示意图；

图5为本说明书的一个实施例提供的一种文本检测模型的训练装置的结构示意图；

图6为本说明书的一个实施例提供的一种文本检测装置的结构示意图；

图7为本说明书的一个实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本说明书的目的、技术方案和优点更加清楚，下面将结合本说明书具体实施例及相应的附图对本说明书技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

本说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应理解这样使用的数据在适当情况下可以互换，以便本说明书实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，本说明书以及权利要求书中“和/或”表示所连接对象的至少其中之一，字符“/”一般表示前后关联对象是一种“或”的关系。

如前所述，目前常见的文本检测模型的训练方法，都是先对标记有实际文本区域的原图进行随机缩放后再进行裁剪，并将裁剪后的图片作为训练样本输入文本检测模型中进行训练。在对缩放后的图片进行裁剪时，如果直接裁剪大图进行训练，每一步迭代所需的计算量较大，导致训练速度变慢而增加训练时间，且还需要性能较好的硬件来支撑训练，增加训练成本；如果直接裁剪小图，由于小图包含的原图信息更少，就会导致模型训练效果较差。因此，当前亟需一种文本检测模型的训练方案，能够在降低对硬件支撑的需求的同时保证提高文本检测模型的训练速度和训练效果。

为了实现上述目的，本说明书实施例提供一种文本检测模型的训练方案以及后续基于训练出的文本检测模型所执行的文本检测方案，在进行文本检测模型的训练过程中，通过对标记有文本区域的原图进行裁剪处理并对裁剪得到的图片进行扩展，再将扩展图片缩放为尺寸小于原图的缩放图片，然后将得到的缩放图片输入到文本检测模型进行训练。由于输入文本检测模型中的缩放图片的尺寸小于原图的尺寸，因而训练过程中的计算量更少，不仅可以降低训练过程对硬件的要求，还可以缩短文本检测模型的训练时间，提高文本检测模型的训练速度；另外，缩放图片是对从原图中裁剪出的图片进行扩展得到的，相较于直接对原图进行缩放的方式，能够减少图片缩放过程中造成的图片信息损失，使得缩放图片能够保留原图的较多有用信息，进而可以提高模型的训练效果。进一步地，利用训练出的文本检测模型对待识别图片进行检测，使得检测出的文本区域更准确。

应理解，本说明书实施例提供的文本检测模型的训练方法及文本检测方法可以由电子设备执行或安装在电子设备中的软件执行，具体可以由终端设备或服务端设备执行。

以下结合附图，详细说明本说明书各实施例提供的技术方案。

请参考图1，为本说明书的一个实施例提供的一种文本检测模型的训练方法的流程示意图，该方法可以包括：

S102，对第一样本图片进行裁剪处理。

其中，第一样本图片为标记有实际文本区域的图片。可选地，为了避免用于训练文本检测模型的样本图片固化而可能导致的模型训练效果不佳的问题，第一样本图片可以是随机获取并进行增强处理后得到。具体而言，在上述S102之前，本实施例的文本检测模型的训练方法还可以包括：对候选图片集合进行随机采样，得到第一样本图片，然后对第一样本图片进行数据增强处理。其中，数据增强处理可以包括本领域技术人员已知的各种数据增强处理方式，比如以预设概率(如0.5)进行左右翻转等，本说明书实施例对数据增强处理的方式不作具体限定。

本说明书实施例中，第一样本图片对应第一文本区域标签。图片对应的文本区域标签用于标记图片的实际文本区域。具体而言，图片对应的文本区域标签可以采用图片的实际文本区域在图片中的坐标来表示。示例地，以图2所示的第一样本图片为例，黑色方框表示第一样本图片的实际文本区域在第一样本图片中的左上角坐标为[2,2]且右下角坐标为[4,4]，因此第一文本区域标签可以表示为[2,2,4,4]。

在对第一样本图片进行裁剪处理时，在一种可选的实现方式中，可按照第一样本图片的实际文本区域，从第一样本图片中裁剪出包含实际文本区域的预设尺寸大小的图片。

在一种更为优选的实现方式中，可以从第一样本图片中随机裁剪出样本子图片，其中，每次裁剪出的样本子图片的大小可以相同，或者也可以不同。可以理解的是，通过对第一样本图片进行随机裁剪，能够增加每次裁剪所得的样本子图片包含的原图(即第一样本图片)信息不同，这样只需要更少次迭代就能获取到原图的完整信息，进一步提高模型的训练速度。

S104，对裁剪得到的图片进行扩展，得到扩展图片，以及基于第一文本区域标签，确定扩展图片对应的标签。

在对采集所得的图片进行扩展时，为减小后续进行图片缩放时造成的图片信息损失，在一种可选的实现方式中，对裁剪得到的图片进行扩展可以包括：在裁剪出的样本子图片的周围填充目标像素，得到目标尺寸的扩展图片，其中，目标尺寸小于样本图片的尺寸；然后，基于第一文本区域标签和目标像素在扩展图片中的填充位置，确定扩展图片对应的第二文本区域标签。

更为具体地，目标像素可以采用0像素，以进一步减少后续图片缩放过程中造成的图片信息损失。另外，为更方便地确定扩展图片对应的第二文本区域标签，可以以样本子图片的上边界作为扩展图片的上边界，且以样本子图片的左侧边界为扩展图片的左侧边界，按照目标尺寸，在样本子图片的周围填充目标像素，得到目标尺寸的扩展图片。实际应用中，目标尺寸可以根据实际需要进行设置，例如目标尺寸可以设置为960*960，本说明书实施例对此不作具体限定。

示例地，以图2所示的第一样本图片为例，可以从第一样本图片中裁剪出坐标为[1,1,5,5]所示的样本子图片；接着，在样本子图片的周围填充目标0像素，得到尺寸为5*5的扩展图片；相应地，基于第一文本区域标签[2,2,4,4]和目标像素在扩展图片中的填充位置，可以得到扩展图片对应的第二文本区域标签为[1,1,3,3]。

可以理解的是，由于扩展图片是利用目标像素对裁剪所得的样本子图片进行填充得到的，因而后续在对扩展图片进行缩放处理时，扩展图片中填充有目标像素的部分是不会产生图片信息损失的，因而相较于直接对原图进行缩放的方式，能够减少图片缩放过程中造成的图片信息损失，使得缩放所得的图片能够保留原图中的大部分有用信息，进而后续使用该缩放所得的图片进行文本检测模型训练，能够提升模型的训练效果。

当然，在其他一些可选的实现方式中，也可采用本领域技术人员已知的各种技术手段对裁剪所得的图片进行扩展，本说明书实施例对此不作具体限定。

S106，对扩展图片进行缩放处理，得到第一缩放图片。

其中，第一缩放图片的尺寸小于第一样本图片的尺寸。进一步地，为进一步提高后续对文本检测模型的训练速度，且降低对硬件性能的依赖，第一缩放图片的尺寸可小于扩展图片的尺寸。实际应用中，第一缩放图片的尺寸可以根据实际需要进行设置，例如，如图3B所示，扩展图片的尺寸为960*960，则第一缩放图片的尺寸可以设置为640*640，本说明书实施例对第一缩放图片的尺寸不作具体限定。

对于扩展图片的缩放处理，在一种可选的实现方式中，为提高缩放效率，且使得到的第一缩放图片能够包含较多原始的第一样本图片的图片信息，可将扩展图片输入缩放模型中，经缩放模型进行缩放处理后，得到第一缩放图片。其中，缩放模型可以是一种神经网络，其可以是预先训练好的，也可以与文本检测模型一起进行训练，也即根据文本检测模型的检测结果更新缩放模型的模型参数，具体的更新过程将在后文进行详细说明。其中，缩放模型的模型参数是指用于表征缩放模型的模型结构的参数。示例地，以缩放模型为神经网络为例，缩放模型的模型参数可以包括神经网络的网络层数量、每层网络层中包含的神经元数量、不同网络层的神经元之间的连接方式及连接权重等。

本说明书实施例中，缩放模型可以具有任意适当的结构。在一种可选的实现方式中，如图3A所示，缩放模型可以包括：第一线性缩放层、第二线性缩放层、第一卷积层、融合层、第一归一化层以及至少两级特征提取模块，其中，特征提取模块包括依次连接的第二卷积层、激活层及第二归一化层。其中，第一线性缩放层设置于至少两级特征提取模块中任意相邻的两级特征提取模块之间，第二线性缩放层的输入端与至少两级特征提取模块中的第一级特征提取模块的输入端连接，第一卷积层的输入端与第一线性缩放层的输出端连接；融合层的输入端分别与第一线性缩放层的输出端、第一卷积层的输出端及至少两级特征提取模块中的最后一级特征提取模块的输出端连接，融合层的输出端与所述第二归一化层的输入端连接，第二归一化层的输出端为缩放模型的输出端。

更为具体地，第一线性缩放层和第二线性缩放层可分别对输入的图片进行线性缩放处理，得到相应尺寸的图片；第一归一化层和第二归一化层可分别对输入的图片中的图片信息进行归一化处理，以加速后续文本检测模型的收敛速度；第一卷积层和特征提取模块中的第二卷积层能够从图片中提取所需的图片信息；融合层能够对特征提取模块、第二线性缩放层以及第一卷积层输出的图片的图片信息进行融合。

实际应用中，不同层级的特征提取模块中的各层网络层之间可以具有任意适当的连接方式，具体可如图3B所示。另外，融合层也可根据实际需要具有任意适当的形式，具体可如图3B所示。

可以理解的是，采用上述结构的缩放模型对扩展图片进行缩放处理，由于该缩放模型中的第一卷积层能够从输入的图片中提取出更多有用的图片信息；该缩放模型中的第一归一化层能够输入的非归一化图片信息进行归一化处理，从而使得利用输出的第一缩放图片进行文本检测模型的训练，能够加速文本检测模型的收敛速度。

S108，基于第一缩放图片和第二文本区域标签，确定第一缩放图片对应的第三文本区域标签。

由于对扩展图片的缩放处理只能缩放扩展图片中的图片信息而无法对扩展图片对应的第二文本区域标签进行缩放，如果直接采用第二文本区域标签对文本检测模型进行训练，会影响文本检测模型的准确性，为此，可基于第一缩放图片和第二文本区域标签，确定第一缩放图片对应的第三文本区域标签，使得后续能够利用第一缩放图片及其对应的第三文本区域标签对文本检测模型进行训练，从而提高文本检测模型的准确性，进一步提高模型训练效果。

在一种可选的实现方式中，考虑到将扩展图片的实际文本区域会跟随整个扩展图片一起缩放为第一缩放图片，为此，在上述S106中，确定第一缩放图片对应的第三文本区域标签，可以包括：基于第一缩放图片对应的尺寸和扩展图片的尺寸，确定第一缩放图片相对扩展图片的缩放比例，然后基于缩放比例和第二文本区域标签，确定第一缩放图片对应的第三文本区域标签。

示例地，以图2所示的扩展图片为例，其尺寸为5*5，且其对应的第二文本区域标签为[1,1,3,3]，假设第一缩放图片的尺寸为2.5*2.5，则可以确定针对扩展图片的缩放比例为2，进一步可确定出第一缩放图片对应的第三年文本区域标签为[1/2,1/2,3/2,3/2]。

当然，在其他一些可选的实现方式中，也可采用本领域技术人员已知的各种技术手段来确定第一缩放图片对应的第三文本区域标签，本说明书实施例对此不作具体限定。

S110，将第一缩放图片输入文本检测模型，输出第一缩放图片的第一疑似文本区域。

文本检测模型用于基于输入的图片，输出图片对应的疑似文本区域。本说明书实施例中，文本检测模型可以具有任意适当的结构，具体可根据实际需要进行设置，本说明书实施例对此不作具体限定。在一种可选的实现方式中,文本检测模型可以包括特征提取层、概率图预测层、阈值图预测层以及二值化层，其中，概率图预测层分别与特征提取层及二值化层相连，阈值图预测层分别与特征提取层及二值化层相连。特征提取层用于对第一缩放图片进行多种不同尺寸的特征提取，得到第一缩放图片的特征信息；概率图预测层用于基于第一缩放图片的特征信息，生成第一缩放图片对应的概率图，其中，概率图用于指示第一缩放图片中的像素属于实际文本区域的概率；阈值图预测层用于基于第一缩放图片的特征信息，生成第一缩放图片对应的阈值图，其中，阈值图用于指示第一缩放图片中的像素对应的概率阈值；二值化层用于基于第一缩放图片对应的概率图及阈值图对第一缩放图片进行二值化处理，以确定第一缩放图片的疑似文本区域。需要说明的，文本检测模型中的各网络层可以是由多个神经元连接而成。

图3B示出了本说明书的一个实施例提供的一种文本检测模型的结构示意图，如图3B所示，为方便描述，下面以一个第一样本图片进行说明。具体来说，第一样本图片依次经过随机裁剪和扩展得到960*960的扩展图片，然后对扩展图片进行缩放处理，得到640*640的第一缩放图片；第一缩放图片经特征提取层分别进行1/2、1/4、1/8、1/16以及1/32等不同尺寸的特征上采样并对上采样的特征进行合并后，得到第一缩放图片的特征信息；第一缩放图片的特征信息一方面输入到概率图预测层，经概率图预测层处理后，得到第一缩放图片对应的概率图；第一缩放图片的特征信息另一方面输入到阈值图预测层，经阈值图预测层处理后，得到第一缩放图片对应的阈值图；最后，第一缩放图片对应的概率图和阈值图均输入到二值化层，经二值化层进行可微二值化处理，即

得到第一缩放图片对应的二值图，其中，P_i,j表示第一缩放图片中坐标为(i,j)的像素属于实际文本区域的概率，T_i.j表示第一缩放图片中坐标为(i,j)的像素对应的概率阈值。由于二值图中的1像素即属于文本区域，而0像素即属于非文本区域，由此基于第一缩放图片对应的二值图，即可确定出第一疑似文本区域。

S112，基于第一疑似文本区域、第三文本区域标签以及预设损失函数，更新文本检测模型的模型参数。

其中，文本检测模型的模型参数是指用于表征文本检测模型的结构的参数。具体而言，文本检测模型的模型参数可以包括文本检测模型中各网络层的网络参数。对于各网络层而言，各网络层的网络参数可以例如包括但不限于各网络层包含的神经元数量、神经元与其他各网络层的神经元之间的连接关系及连接权重等。

在一种可选的实现方式中，可以采用反向传播法对文本模型的模型参数进行更新。具体而言，上述S112可以包括：基于第一疑似文本区域、第三文本区域标签以及预设损失函数，确定文本检测模型的损失值，其中，该损失值用于表征文本检测模型输出的第一疑似文本区域与第一缩放图片的实际文本区域之间的偏差；接着，以文本检测模型的损失值下降为目标，从文本检测检测模型的最后一层网络层(如图3B所示的二值化层)起，通过反向传播逐层调整文本检测模型中各网络层的网络参数。

示例地，可以从文本检测模型的最后一层网络层起，根据文本检测模型中各网络层的结构及不同网络层之间的连接关系及连接权重等，对文本检测模型的损失值向前求偏导，得到各网络层的损失值，其中，各网络层的损失值用于表征在各网络层引起的检测偏差；接着，以使文本检测模型的损失值下降为目标，依次基于各网络层的损失值对各网络层的网络参数进行更新。

本说明书实施例中，损失函数可以采用任意适当形式的损失函数，具体可根据实际需要进行设置，本说明书实施例对此不作具体限定。可选地，损失函数可以采用DiceLoss，即如以下公式(1)所示：

其中，A表示第一缩放图片对应的标签，|A|表示第一缩放图片对应的标签中像素值为1像素的数量，B表示文本检测模型确定出的第一疑似文本区域，|B|表示第一疑似文本区域中像素为1的数量。

当然，在其他一些可选的实现方式中，也可采用本领域技术人员已知的各种技术手段更新文本检测模型的网络参数。

本说明书的另一个实施例中，为了使每次得到的第一缩放图片能够包含更多第一样本图片中的有用信息，以达到进一步减少模型迭代次数的目的，本说明书实施例中的缩放模型可以是可学习的，也即可以基于文本检测模型的检测结果更新缩放模型的模型参数，使得缩放模型在对扩展图片进行缩放处理时，能够从扩展图片中学习得到更多有用的图片信息，进而只需更少次数的迭代就能学习完原始的第一样本图片的完整图片信息，从而使文本检测模型的收敛速度更快，训练时间进一步减少。

具体而言，在上述S112之后，本说明书实施例提供的文本检测模型的训练方法还可以包括：基于第一疑似文本区域、第三文本区域标签以及预设损失函数，确定文本检测模型的损失值；然后，基于文本检测模型的模型参数，将损失值反向传播至缩放模型；进一步地，基于传播至缩放模型的损失值，更新缩放模型的模型参数。

实际应用中，在对缩放模型的模型参数进行更新时，可以以使传播至缩放模型的损失值下降为目标，从缩放模型的最后一层网络层(如图3A和图3B所示的第一归一化层)起，通过反向传播逐层更新缩放模型中各网络层的网络参数。其中，缩放模型中各网络层的网络参数可以各网络层包含的神经元数量、神经元与其他各网络层的神经元之间的连接关系及连接权重等。

示例地，可以从文本检测模型的最后一层网络层起，根据文本检测模型中各网络层的结构及不同网络层之间的连接关系及连接权重等，依次对文本检测模型的损失值向前求偏导，即可得到传播至缩放模型的损失值，其中，该损失值用于表征缩放模型输出的结果对文本检测模型产生的检测偏差的影响。接着，与上文通过反向传播算法对文本检测模型的模型参数进行更新的过程类似，在得到传播至缩放模型的损失值后，也可通过反向传播算法将传播至缩放模型的损失值依次向前传播至缩放模型的各网络层，然后，以使文本检测模型的损失值下降为目标，依次基于缩放模型中各网络层的损失值对缩放模型中各网络层的网络参数进行更新。

值得说明的是，上述过程仅为一次迭代过程。实际应用中，可能需要重复进行多次迭代才能使文本检测模型及残差缩放模型达到较优的训练效果，因而可执行多次上述迭代过程。

在一种可选的实现方式中，为了确保文本检测模型的训练效果达到预设要求，可对文本检测模型进行验证，如果验证结果指示文本检测模型未达到预设要求，则重复上述迭代过程多次，直到文本检测模型达到预设要求。

具体而言，在上述S112之后，本说明书实施例提供的文本检测模型的训练方法还可以包括：对第二样本图片进行缩放处理得到第二缩放图片，以及确定第二缩放图片对应的第四文本区域标签；接着，将第二缩放图片输入文本检测模型，输出第二缩放图片的第二疑似文本区域；然后，基于第二疑似文本区域及第四文本区域标签，验证文本检测模型，得到验证结果；若验证结果未达到预设要求，则复执行上述迭代过程以及验证文本检测模型的过程，直到得到的验证结果达到预设要求。

实际应用中，第二样本图片也可以是对候选图片集合进行随机采样得到的。其次，验证结果也可以通过预设损失函数确定的损失值表示，相应地，预设要求可以是损失值小于预设阈值或者本次迭代所得的损失值相较于上一次迭代的损失值的变化程度小于预设范围内等等，本说明书实施例对此不作具体限定。另外，在上述验证过程中，对第二样本图片的缩放处理可以采用本领域技术人员已知的各种缩放技术手段来实现，确定第二缩放图片对应的第四文本区域标签的过程与上述确定第一缩放图片对应的第三文本区域标签的过程类似，在此不再赘述。文本检测模型基于输入的第二缩放图片输出第二疑似文本区域的过程，与上述文本检测模型基于输入的第一缩放图片输出第一疑似文本区域的过程类似，在此也不再赘述。

本说明书实施例提供的文本检测模型的训练方法，通过对标记有文本区域的样本图片进行裁剪处理并对裁剪得到的图片进行扩展，再将扩展图片缩放为尺寸小于原图的第一缩放图片，然后将得到的第一缩放图片输入到文本检测模型进行训练，由于输入文本检测模型中的第一缩放图片的尺寸小于原始的样本图片的尺寸，因而训练过程中的计算量更少，不仅可以降低训练过程对硬件的要求，还可以缩短文本检测模型的训练时间，提高文本检测模型的训练速度；另外，第一缩放图片是对从原始的样本图片中裁剪出的图片进行扩展后再进行缩放得到的，相较于直接对原始的样本图片进行缩放的方式，能够减少图片缩放过程中造成的图片信息损失，使得第一缩放图片能够保留原始的样本图片的较多有用信息，进而可以提高模型的训练效果。

与上述方法相对应地，本说明书实施例还提供一种文本检测方法，能够基于图1所示方法训练出的文本检测模型检测待识别图片的文本区域。

请参考图4，为本说明书的一个实施例提供的一种文本检测方法的流程示意图，该方法可以包括如下步骤：

S402，获取待识别图片。

S404，将所述待识别图片输入预先训练的文本检测模型，输出待识别图片的疑似文本区域。

其中，所述文本检测模型为基于缩放图片及缩放图片对应的文本区域标签进行训练得到的，所述缩放图片为对标记有文本区域的样本图片进行裁剪处理、对裁剪得到的图片进行扩展以及对扩展所得的图片进行缩放处理得到的，所述缩放图片的尺寸小于所述样本图片的尺寸，所述缩放图片对应的文本区域标签为基于所述缩放图片和所述扩展所得的图片对应的文本区域标签确定的，图片对应的文本区域标签用于指示图片的实际文本区域。

显然，本说明书实施例提供的文本检测方法，由于训练文本检测模型的缩放图片是从原始样本图片裁剪出的图片扩展后再进行缩放得到的，使得缩放图片保留了原始样本图片的较多有用信息，进而利用该缩放图片训练所得的文本检测模型的准确率高，在此基础上，利用训练出的文本检测模型对待识别图片进行文本检测，使得输出的疑似文本区域与实际文本区域之间的偏差更小，提高文本检测结果的准确性。

需要说明的是，本说明书实施例提供的文本检测模型的训练方法及文本检测方法可应用于多种需要进行文本检测的业务场景，本说明书实施例对此不作具体限定。用于训练和验证文本检测模型的样本图片及基于文本检测模型进行检测的待识别图片可根据业务场景的不同而不同。例如，对于增值税发票的文本检测，用于训练和验证文本检测模型的样本图片可以为标记有文本区域的增值税发票图片，待识别图片可以为待识别的增值税发票图片。

此外，与上述图1所示的文本检测模型的训练方法相对应地，本说明书实施例还提供一种文本检测模型的训练装置。图5是本说明书实施例提供的一种文本检测模型的训练装置500的结构示意图，包括：

裁剪模块510，用于对第一样本图片进行裁剪处理，所述第一样本图片对应第一文本区域标签，文本区域标签用于标记图片的实际文本区域；

第一缩放模块530，用于对所述扩展图片进行缩放处理得到第一缩放图片，所述第一缩放图片的尺寸小于所述第一样本图片的尺寸；

第一确定模块540，用于基于所述第一缩放图片和所述第二文本区域标签，确定所述第一缩放图片对应的第三文本区域标签；

第一文本检测模块550，用于将所述第一缩放图片输入文本检测模型，输出所述第一缩放图片的第一疑似文本区域；

第一模型更新模块560，用于基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数。

本说明书实施例提供的文本检测模型的训练装置，由于输入文本检测模型中的第一缩放图片的尺寸小于原始样本图片的尺寸，使得训练过程中的计算量更少，进而可以降低训练过程对硬件的要求，还可以缩短文本检测模型的训练时间，提高文本检测模型的训练速度；另外，第一缩放图片是从原始样本图片裁剪出的图片进行扩展后再进行缩放得到的，相较于直接对原始的样本图片进行缩放的方式，能够减少图片缩放过程中造成的图片信息损失，使得第一缩放图片能够保留原始样本图片的较多有用信息，进而可以提高模型的训练效果。

可选地，所述裁剪模块510包括：

裁剪子模块，用于从所述样本图片中随机裁剪出样本子图片；

所述扩展模块520包括：

扩展子模块，用于在所述样本子图片的周围填充目标像素，得到目标尺寸的扩展图片，所述目标尺寸小于所述样本图片的尺寸；

标签生成子模块，用于基于所述第一文本区域标签和所述目标像素在所述扩展图片中的填充位置，确定成所述扩展图片对应的第二文本区域标签。

可选地，所述第一确定模块540包括：

比例确定子模块，用于基于所述第一缩放图片对应的尺寸和所述扩展图片的尺寸，确定所述第一缩放图片相对所述扩展图片的缩放比例；

标签确定子模块，用于基于所述缩放比例和所述第二文本区域标签，确定所述第一缩放图片对应的第三文本区域标签。

可选地，所述第一缩放模块530包括：

缩放子模块，用于将所述扩展图片输入缩放模型，输出所述第一缩放图片；

所述文本检测模型的训练装置500还包括：

损失值确定模块，用于在所述第一模型更新模块560基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数之后，基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，确定所述文本检测模型的损失值；

损失值传播模块，用于基于所述文本检测模型的模型参数，将所述损失值反向传播至所述缩放模型；

第二模型更新模块，用于基于传播至所述缩放模型的损失值，更新所述缩放模型的模型参数。

可选地，所述缩放模型包括：第一线性缩放层、第二线性缩放层、第一卷积层、融合层、第一归一化层以及至少两级特征提取模块，所述特征提取模块包括依次连接的第二卷积层、激活层及第二归一化层；

所述第一线性缩放层设置于所述至少两级特征提取模块中任意相邻的两级特征提取模块之间，所述第二线性缩放层的输入端与所述至少两级特征提取模块中的第一级特征提取模块的输入端连接，所述第一卷积层的输入端与所述第一线性缩放层的输出端连接；

所述融合层的输入端分别与所述第一线性缩放层的输出端、所述第一卷积层的输出端及所述至少两级特征提取模块中的最后一级特征提取模块的输出端连接，所述融合层的输出端与所述第二归一化层的输入端连接，所述第二归一化层的输出端为所述缩放模型的输出端。

可选地，所述文本检测模型的训练装置500还包括：

第二缩放模块，用于在所述第一模型更新模块560基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数之后，对第二样本图片进行缩放处理得到第二缩放图片，以及确定第二缩放图片对应的第四文本区域标签；

检测模块，用于将所述第二缩放图片输入所述文本检测模型，输出所述第二缩放图片的第二疑似文本区域；

验证模块，用于基于所述第二疑似文本区域及所述第四文本区域标签，验证所述文本检测模型，得到验证结果；

循环处理模块，用于若所述验证结果未达到预设要求，则执行对第一样本图片进行裁剪处理至验证所述文本检测模型的步骤，直到得到的验证结果达到所述预设要求。

可选地，所述文本检测模型的训练装置500还包括：

采样模块，用于在裁剪模块510对第一样本图片进行裁剪处理之前，对候选图片集合进行随机采样，得到第一样本图片，所述候选图片集合包括多张标记有文本区域的图片；

增强处理模块，用于对所述第一样本图片进行数据增强处理。

可选地，所述检测模型包括特征提取层、概率图预测层、阈值图预测层以及二值化层，所述概率图预测层分别与所述特征提取层及所述二值化层相连，所述阈值图预测层分别与所述特征提取层及所述二值化层相连；

所述特征提取层用于对所述第一缩放图片进行多种不同尺寸的特征提取，得到所述第一缩放图片的特征信息，

所述概率图预测层用于基于所述第一缩放图片的特征信息，生成所述第一缩放图片对应的概率图，所述概率图用于指示所述第一缩放图片中的像素属于实际文本区域的概率；

所述阈值图预测层用于基于所述第一缩放图片的特征信息，生成所述第一缩放图片对应的阈值图，所述阈值图用于指示所述第一缩放图片中的像素对应的概率阈值；

所述二值化层用于基于所述概率图和所述阈值图对所述第一缩放图片进行二值化处理，得到所述第一疑似文本区域。

显然，本说明书实施例的文本检测模型的训练装置可以作为上述图1所示的文本检测模型的训练方法的执行主体，因此能够实现文本检测模型的训练方法在图1所实现的功能。由于原理相同，在此不再赘述。

此外，与上述图4所示的文本检测方法相对应地，本说明书实施例还提供一种文本检测装置。图6是本说明书实施例提供的一种文本检测装置600的结构示意图，包括：

图片获取模块610，用于获取待识别图片；

第二文本检测模块620，用于将所述待识别图片输入预先训练的文本检测模型，输出所述待识别图片的疑似文本区域；

本说明书实施例提供的文本检测装置，由于训练文本检测模型的缩放图片是从原始样本图片裁剪出的图片扩展后再进行缩放得到的，使得缩放图片保留了原始样本图片的较多有用信息，进而利用该缩放图片训练所得的文本检测模型的准确率高，在此基础上，利用训练出的文本检测模型对待识别图片进行文本检测，使得输出的疑似文本区域与实际文本区域之间的偏差更小，提高文本检测结果的准确性。

显然，本说明书实施例的文本检测装置可以作为上述图4所示的文本检测方法的执行主体，因此能够实现文本检测方法在图4所实现的功能。由于原理相同，在此不再赘述。

图7是本说明书的一个实施例电子设备的结构示意图。请参考图7，在硬件层面，该电子设备包括处理器，可选地还包括内部总线、网络接口、存储器。其中，存储器可能包含内存，例如高速随机存取存储器(Random-Access Memory，RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少1个磁盘存储器等。当然，该电子设备还可能包括其他业务所需要的硬件。

处理器、网络接口和存储器可以通过内部总线相互连接，该内部总线可以是ISA(Industry Standard Architecture，工业标准体系结构)总线、PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

存储器，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器，并向处理器提供指令和数据。

处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本检测模型的训练装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

基于第一样本图片的实际文本区域对所述第一样本图片进行裁剪处理，所述第一样本图片对应第一文本区域标签，文本区域标签用于标记图片的实际文本区域；

对所述扩展图片进行缩放处理，得到第一缩放图片，所述第一缩放图片的尺寸小于所述第一样本图片的尺寸；

或者，处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行，在逻辑层面上形成文本检测装置。处理器，执行存储器所存放的程序，并具体用于执行以下操作：

获取待识别图片；

上述如本说明书图1所示实施例揭示的文本检测模型的训练装置执行的方法或者如说明书图4所示实施例揭示的文本检测装置执行的方法可以应用于处理器中，或者由处理器实现。处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

应理解，本说明书实施例的电子设备可以实现文本检测模型的训练装置在图1所示实施例的功能或者实现文本检测装置在图4所示实施例的功能。由于原理相同，本说明书实施例在此不再赘述。

当然，除了软件实现方式之外，本说明书的电子设备并不排除其他实现方式，比如逻辑器件抑或软硬件结合的方式等等，也就是说以下处理流程的执行主体并不限定于各个逻辑单元，也可以是硬件或逻辑器件。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图1所示实施例的方法，并具体用于执行以下操作：

基于所述第一缩放图片的疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数。

本说明书实施例还提出了一种计算机可读存储介质，该计算机可读存储介质存储一个或多个程序，该一个或多个程序包括指令，该指令当被包括多个应用程序的便携式电子设备执行时，能够使该便携式电子设备执行图4所示实施例的方法，并具体用于执行以下操作：

获取待识别图片；

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

总之，以上所述仅为本说明书的较佳实施例而已，并非用于限定本说明书的保护范围。凡在本说明书的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本说明书的保护范围之内。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

Claims

1.一种文本检测模型的训练方法，其特征在于，包括：

在裁剪得到的图片的周围填充目标像素，得到目标尺寸的扩展图片，所述目标尺寸小于所述第一样本图片的尺寸，以及基于所述第一文本区域标签，确定所述扩展图片对应的第二文本区域标签；

2.根据权利要求1所述的方法，其特征在于，所述对第一样本图片进行裁剪处理，包括：从所述第一样本图片中随机裁剪出样本子图片；

所述基于所述第一文本区域标签，确定所述扩展图片对应的第二文本区域标签，包括：基于所述第一文本区域标签和所述目标像素在所述扩展图片中的填充位置，确定所述扩展图片对应的第二文本区域标签。

3.根据权利要求1所述的方法，其特征在于，所述基于所述第一缩放图片和所述第二文本区域标签，确定所述第一缩放图片对应的第三文本区域标签，包括：

基于所述第一缩放图片对应的尺寸和所述扩展图片的尺寸，确定所述第一缩放图片相对所述扩展图片的缩放比例；

基于所述缩放比例和所述第二文本区域标签，确定所述第三文本区域标签。

4.根据权利要求1所述的方法，其特征在于，所述对所述扩展图片进行缩放处理，得到第一缩放图片，包括：

将所述扩展图片输入缩放模型，输出所述第一缩放图片；

在基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数之后，所述方法还包括：

基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，确定所述文本检测模型的损失值；

基于所述文本检测模型的模型参数，将所述损失值反向传播至所述缩放模型；

基于传播至所述缩放模型的损失值，更新所述缩放模型的模型参数。

5.根据权利要求4所述的方法，其特征在于，所述缩放模型包括：第一线性缩放层、第二线性缩放层、第一卷积层、融合层、第一归一化层以及至少两级特征提取模块，所述特征提取模块包括依次连接的第二卷积层、激活层及第二归一化层；

6.根据权利要求1所述的方法，其特征在于，在基于所述第一疑似文本区域、所述第三文本区域标签以及预设损失函数，更新所述文本检测模型的模型参数之后，所述方法还包括：

对第二样本图片进行缩放处理得到第二缩放图片，以及确定所述第二缩放图片对应的第四文本区域标签；

将所述第二缩放图片输入所述文本检测模型，输出所述第二缩放图片的第二疑似文本区域；

基于所述第二疑似文本区域及所述第四文本区域标签，验证所述文本检测模型，得到验证结果；

若所述验证结果未达到预设要求，则执行对第一样本图片进行裁剪处理至验证所述文本检测模型的步骤，直到得到的验证结果达到所述预设要求。

7.根据权利要求1所述的方法，其特征在于，在对第一样本图片进行裁剪处理之前，所述方法还包括：

对候选图片集合进行随机采样，得到所述第一样本图片，所述候选图片集合包括多张标记有实际文本区域的图片；

对所述第一样本图片进行数据增强处理。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述文本检测模型包括特征提取层、概率图预测层、阈值图预测层以及二值化层，所述概率图预测层分别与所述特征提取层及所述二值化层相连，所述阈值图预测层分别与所述特征提取层及所述二值化层相连；

所述特征提取层用于对所述第一缩放图片进行多种不同尺寸的特征提取，得到所述缩放图片的特征信息，

所述二值化层用于基于所述概率图和所述阈值图对所述缩放图片进行二值化处理，得到所述第一疑似文本区域。

9.一种文本检测方法，其特征在于，包括：

获取待识别图片；

其中，所述文本检测模型为基于缩放图片及缩放图片对应的文本区域标签进行训练得到的，所述缩放图片为对标记有实际文本区域的样本图片进行裁剪处理、在裁剪得到的图片的周围填充目标像素以及对所得的目标尺寸的扩展图片进行缩放处理得到的，所述目标尺寸小于所述样本图片的尺寸，所述缩放图片的尺寸小于所述样本图片的尺寸，所述缩放图片对应的文本区域标签为基于所述缩放图片和所述扩展所得的图片对应的文本区域标签确定的，图片对应的文本区域标签用于标记图片的实际文本区域。

10.一种文本检测模型的训练装置，其特征在于，包括：

扩展模块，用于在裁剪得到的图片的周围填充目标像素，得到目标尺寸的扩展图片，所述目标尺寸小于所述第一样本图片的尺寸，以及基于所述第一文本区域标签，确定所述扩展图片对应的第二文本区域标签；

11.一种文本检测装置，其特征在于，包括：

图片获取模块，用于获取待识别图片；

12.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至9中任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至9中任一项所述的方法。