CN115358392B

CN115358392B - 深度学习网络的训练方法、文本检测方法及装置

Info

Publication number: CN115358392B
Application number: CN202211290027.XA
Authority: CN
Inventors: 恩孟一; 钦夏孟; 谢群义; 王鹏; 姚锟
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-10-21
Filing date: 2022-10-21
Publication date: 2023-05-05
Anticipated expiration: 2042-10-21
Also published as: CN115358392A

Abstract

本公开提供了一种深度学习网络的训练方法、文本检测方法及装置、设备、介质和产品，涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR、大模型等场景。具体实现方案包括：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

Description

深度学习网络的训练方法、文本检测方法及装置

技术领域

本公开涉及人工智能领域，尤其涉及深度学习、图像处理、计算机视觉技术领域，可应用于OCR、大模型等场景。

背景技术

深度学习网络在智能化办公场景中有着广泛的应用。但是，在一些场景下，深度学习网络的训练过程存在样本需求数量大、训练成本消耗高的现象。

发明内容

本公开提供了一种深度学习网络的训练方法及装置、文本检测方法及装置、设备、介质和产品。

根据本公开的一方面，提供了一种深度学习网络的训练方法，深度学习网络用于文本检测，训练方法包括：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

根据本公开的另一方面，提供了一种文本检测方法，包括：获取待检测的目标文本图像；将目标文本图像输入经训练的目标深度学习网络，得到基于目标文本图像的文本检测结果，目标深度学习网络是根据前一方面所述的深度学习网络的训练方法得到的。

根据本公开的另一方面，提供了一种深度学习网络的训练装置，深度学习网络用于文本检测，训练装置包括：文本框特征确定模块，用于利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；对比损失函数值确定模块，用于根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及模型参数调整模块，用于根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

根据本公开的另一方面，提供了一种文本检测装置，包括：目标文本图像获取模块，用于获取待检测的目标文本图像；文本检测结果确定模块，用于将目标文本图像输入经训练的目标深度学习网络，得到基于目标文本图像的文本检测结果，其中，目标深度学习网络是根据前一方面所述的深度学习网络的训练装置得到的。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器和与至少一个处理器通信连接的存储器。其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述的深度学习网络的训练方法或文本检测方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行上述的深度学习网络的训练方法或文本检测方法。

根据本公开的另一方面，提供了一种计算机程序产品，计算机程序存储于可读存储介质和电子设备其中至少之一上，包括计算机程序，计算机程序在被处理器执行时实现上述的深度学习网络的训练方法或文本检测方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1示意性示出了根据本公开一实施例的深度学习网络的训练方法和装置的系统架构；

图2示意性示出了根据本公开一实施例的深度学习网络的训练方法的流程图；

图3示意性示出了根据本公开另一实施例的深度学习网络的训练方法的流程图；

图4示意性示出了根据本公开一实施例的深度学习网络的训练过程的示意图；

图5示意性示出了根据本公开一实施例的文本检测方法的流程图；

图6示意性示出了根据本公开一实施例的深度学习网络的训练装置的框图；

图7示意性示出了根据本公开一实施例的文本检测装置的框图；

图8示意性示出了根据本公开实施例的用于执行深度学习网络训练的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

在此使用的术语仅仅是为了描述具体实施例，而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在，但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语（包括技术和科学术语）具有本领域技术人员通常所理解的含义，除非另外定义。应注意，这里使用的术语应解释为具有与本说明书的上下文相一致的含义，而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下，一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释（例如，“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等）。

本公开的实施例提供了一种深度学习网络的训练方法。深度学习网络用于文本检测，深度学习网络的训练方法包括：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

图1示意性示出了根据本公开一实施例的深度学习网络的训练方法和装置的系统架构。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

根据该实施例的系统架构100可以包括数据端101、网络102和服务器103。网络102用于在数据端101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。服务器103可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或分布式系统，还可以是提供云服务、云计算、网络服务、中间件服务等基础云计算服务的云服务器。

服务器103可以是提供各种服务的服务器，例如可以是根据由数据端101提供的样本文本图像进行深度学习网络训练的服务器。

例如，服务器103用于通过待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

需要说明的是，本公开实施例所提供的深度学习网络的训练方法可以由服务器103执行。相应地，本公开实施例所提供的深度学习网络的训练装置可以设置于服务器103中。本公开实施例所提供的深度学习网络的训练方法也可以由不同于服务器103且能够与数据端101和/或服务器103通信的服务器或服务器集群执行。相应地，本公开实施例所提供的深度学习网络的训练装置也可以设置于不同于服务器103且能够与数据端101和/或服务器103通信的服务器或服务器集群中。

应该理解，图1中的数据端、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的数据端、网络和服务器。

本公开实施例提供了一种深度学习网络的训练方法，下面结合图1的系统架构，参考图2~图4来描述根据本公开示例性实施方式的深度学习网络的训练方法。本公开实施例的深度学习网络的训练方法例如可以由图1所示的服务器103来执行。

图2示意性示出了根据本公开一实施例的深度学习网络的训练方法的流程图。

如图2所示，本公开实施例的深度学习网络的训练方法200例如可以包括操作S210~操作S230。

在操作S210，利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征。

在操作S220，根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值。

在操作S230，根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

下面示例说明本实施例的深度学习网络的训练方法的各操作示例流程。

示例性地，可以根据由样本文本图像的预设样本标签指示的多个候选文本框，在多个候选文本框中确定待检测的至少一个目标文本框。可以对样本文本图像进行图像扰动，得到扰动后的样本文本图像，图像扰动例如包括图像随机裁剪。

可以将扰动后的样本文本图像作为待训练的深度学习网络的输入数据，得到基于至少一个目标文本框的第一文本框特征和第二文本框特征，由第一文本框特征和第二文本框特征指示的文本框位置特征相异。

可以根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值。示例性地，还可以利用待训练的深度学习网络，根据基于至少一个目标文本框的第一文本框特征和第二文本框特征，输出针对样本文本图像的文本检测结果。根据文本检测结果和预设样本标签，确定检测损失函数值。

可以根据对比损失函数值和检测损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。目标深度学习网络例如可用作垂类场景中的上游任务模型。可以利用与垂类场景匹配的结构化文本图像，对目标深度学习网络继续训练，得到经训练的场景文本检测模型。

通过本公开实施例，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。相比于相关技术中的确定样本文本图像的单一文本框特征，第一文本框特征、第二文本框特征和预设文本框特征序列的引入，可以有效降低深度学习网络训练对样本文本图像的需求量，有利于减少深度学习网络的训练成本消耗，以及有利于提升深度学习网络训练的训练效率。

图3示意性示出了根据本公开另一实施例的深度学习网络的训练方法的流程图。

如图3所示，方法300例如可以包括操作S310~操作S340。

在操作S310，对样本文本图像进行图像扰动，得到扰动后的样本文本图像。

在操作S320，将扰动后的样本文本图像作为待训练的深度学习网络的输入数据，得到基于扰动后的样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征。

在操作S330，根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值。

在操作S340，根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

下面示例说明本实施例的深度学习网络的训练方法的各操作的示例流程。

示例性地，样本文本图像例如可以是基于OCR（Optical Character Recognition，光学字符识别）垂类接口获取的回流数据，样本文本图像例如可以是无标签样本数据。可以利用预训练的文本检测模型，确定样本文本图像中的文本框信息，得到基于文本框信息的预设样本标签。文本框信息例如可以包括文本框的外观语义、分布位置等信息。

利用预训练的文本检测模型，确定样本文本图像的预设样本标签，相比于人工标注，可以有效降低训练样本的标注成本，有利于减少深度学习网络的训练成本消耗，以及有利于改善深度学习网络的训练效率。

可以根据由预设样本标签指示的多个候选文本框，在多个候选文本框中确定待检测的至少一个目标文本框。例如，可以在多个候选文本框中，随机选择至少一个目标文本框，作为样本文本图像中的待检测文本框。

可以对样本文本图像进行图像扰动，得到扰动后的样本文本图像，图像扰动例如可以包括图像随机裁剪。示例性地，可以对样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括至少一个目标文本框的扰动后的样本文本图像。

例如，可以将由至少一个目标文本框构成的图像区域，作为样本文本图像中的关键图像区域，关键图像区域例如可以是矩形区域。假设关键图像区域的左上角顶点坐标和右下角顶点坐标分别为（X₁、Y₁）和（X₂、Y₂），确定样本文本图像中的不可裁剪区域的左上角顶点坐标为（X₁-z*w、Y₁+z*h），右下角顶点坐标为（X₂+z*w、Y₂-z*h），其中，h、w分表表示样本文本图像的长度和宽度，z表示预设的不可裁剪阈值。

基于第一预设随机值，对样本文本图像中的可裁剪区域进行第一随机裁剪，得到经第一随机裁剪后的样本文本图像。基于第二预设随机值，对样本文本图像中的可裁剪区域进行第二随机裁剪，得到经第二随机裁剪后的样本文本图像。

通过对样本文本图像进行图像扰动，基于扰动后的样本文本图像确定出的文本框特征可能相异，相比于相关技术中的确定样本文本图像的单一文本框特征，有利于减少深度学习网络的训练样本需求量，可以很好地适用于训练样本获取难度大、真实训练样本数量少的网络训练场景，有利于降低深度学习网络的训练成本消耗。

一种示例方式，确定经第一随机裁剪后的样本文本图像的第一样本特征图和经第二随机裁剪后的样本文本图像的第二样本特征图。确定第一样本特征图中基于各目标文本框的第一文本框子特征，得到基于第一文本框子特征的第一文本框特征。确定第二样本特征图中基于各目标文本框的第二文本框子特征，得到基于第二文本框子特征的第二文本框特征。

由第一文本框特征和第二文本框特征指示的文本框位置特征可能相异，在第一文本框特征和第二文本框特征的基础上，另引入了预设文本框特征序列进行深度学习网络的训练，相比于相关技术中的确定样本文本图像的单一文本框特征，可以有效降低深度学习网络的训练样本需求量，有利于在难以获取足够多训练样本的情况下，有效保证深度学习网络的训练效果，能够有效提升深度学习网络的训练效率，以及有效保证经训练的目标深度学习网络针对结构化文本的检测效率和检测准确性。

例如，利用深度学习网络中的特征提取子网络，进行基于扰动后的样本文本图像的特征计算，得到第一样本特征图和第二样本特征图。对第一样本特征图中的至少一个目标文本框范围进行RoI Align(Region of Interest Align，感兴趣区域对齐)特征提取，得到与各目标文本框关联的第一文本框子特征。对与各目标文本框关联的第一文本框子特征进行拼接，得到第一文本框特征。

对至少一个目标文本框范围进行RoI Align特征提取，可以实现根据各目标文本框的位置坐标，将第一样本特征图中的相应区域池化为固定尺寸的第一文本框子特征，得到基于第一文本框子特征的第一文本框特征，第一文本框特征可用于后续文本检测和文本框回归等操作。

类似地，对第二样本特征图中的至少一个目标文本框范围进行RoI Align特征提取，得到与各目标文本框关联的第二文本框子特征。对与各目标文本框关联的第二文本框子特征进行拼接，得到第二文本框特征。

示例性地，还可以对经随机裁剪后的样本文本图像进行其他图像扰动，其他图像扰动例如可以包括高斯模糊、添加经验噪声、旋转、翻转等处理。可以对经其他图像扰动的样本文本图像进行特征提取，得到基于至少一个目标文本框的第一文本框特征和第二文本框特征。

可以利用深度学习网络，根据第一文本框特征和第二文本框特征，输出针对样本文本图像的文本检测结果。文本检测结果例如包括针对样本文本图像中的目标文本框的位置检测结果。可以根据文本检测结果和预设样本标签，确定深度学习网络的检测损失函数值。

一种示例方式，可以根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值。示例性地，确定第一文本框特征和第二文本框特征之间的第一关系特征，确定第一文本框特征和文本框特征序列之间的第二关系特征。根据第一关系特征和第二关系特征，确定对比损失函数值。

关系特征可以指示对应文本框特征之间的相似度。对比损失函数值与由第一关系特征指示的第一相似度呈正相关，对比损失函数值与由第二关系特征指示的第二相似度呈负相关。

例如，可以对第一文本框特征和第二文本框特征进行点乘归一化，得到第一文本框特征和第二文本框特征之间的第一相似度。或者，可以将第一文本框特征和第二文本框特征作为多层感知器的输入数据，以实现将输入数据映射到对比损失空间。在对比损失空间中，可以根据文本框特征之间的矩阵相似性，得到第一文本框特征和第二文本框特征之间的第一相似度。

可以将第一相似度作为第一文本框特征和第二文本框特征之间的第一关系特征。或者，可以将第一相似度作为权重值，对第一文本框特征和第二文本框特征进行加权求和，得到第一关系特征。

文本框特征序列中包括多个预设文本框特征。类似地，可以对第一文本框特征和各预设文本框特征分别进行点乘归一化，得到第一文本框特征和各预设文本框特征之间的第二相似度。或者，可以将第一文本框特征和文本框特征序列作为多层感知器的输入数据，以实现将输入数据映射到对比损失空间，得到第一文本框特征和各预设文本框特征之间的第二相似度。

可以根据第一文本框特征和各预设文本框特征之间的第二相似度，确定第一文本框特征和文本框特征序列之间的相似度评估值，并将相似度评估值作为第二关系特征。例如，可以根据各预设文本框特征的生成顺序，将第一文本框特征与各预设文本框特征之间的第二相似度进行加权求和，得到基于加权求和结果的相似度评估值。或者，可以将第二相似度作为权重值，对第一文本框特征和各预设文本框特征进行加权求和，得到第二关系特征。

可以根据第一关系特征和第二关系特征，确定对比损失函数值。对比损失函数值可以与第一相似度呈正相关，与第二相似度呈负相关。对比损失函数值可用于增强第一文本框特征与第二文本框特征之间的关联性，以及用于削弱第一文本框特征与文本框特征序列之间的关联性。

通过引入自监督对比学习的方式，可以有效拉近同类特征以及疏离异类特征，可以基于无标签样本数据有效训练泛化的文本检测模型，可以有效缓解训练样本不平衡所带来的模型训练效果不佳的现象。

可以根据对比损失函数值和检测损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

一种示例方式，可以利用第一文本框特征更新文本框特征序列，得到更新后的文本框特征序列。以及，响应于对比损失函数值未满足预设收敛条件，利用更新后的文本框特征序列进行针对深度学习网络的下一迭代训练。通过对文本框特征进行自监督对比学习，可以有效强化属于相同样本文本图像的文本框特征之间的关联性，有利于降低深度学习网络的训练样本需求量。

文本框特征序列例如包括按生成时序排列的多个预设文本框特征，文本框特征序列的队尾位置对应生成时间最晚的预设文本框特征，队首位置对应生成时间最早的预设文本框特征。可以将文本框特征序列中的队首位置的预设文本框特征进行剔除，并将第一文本框特征加入文本框特征序列中的队尾位置，以实现利用第一文本框特征更新文本框特征序列。

目标深度学习网络可以用作垂类场景中的上游任务模型。可以利用与垂类场景匹配的结构化文本图像，对目标深度学习网络继续训练，得到经训练的场景文本检测模型。示例性地，可以将结构化文本图像作为目标深度学习网络的输入数据，得到基于结构化文本图像的字段检测结果。以及，

根据字段检测结果和预设字段标签，调整目标深度学习网络的模型参数，得到经训练的场景文本检测模型。

通过利用结构化文本图像，对目标深度学习网络进行继续训练，可以使得目标深度学习网络获取更细粒度的文本检测知识，可以有效保证目标深度学习网络能够实现更高精度要求的下游检测任务，能够有效保证针对结构化文本图像的检测效率和检测准确性。

通过本公开实施例，可以有效降低深度学习网络的训练样本需求量，有利于减少深度学习网络的训练成本消耗，以及有利于提升深度学习网络训练的训练效率，有利于在真实训练样本数量不足的情况下，有效保证深度学习网络的训练效果，可以有效提升结构化文本检测任务中的检测精度和检测效率。

图4示意性示出了根据本公开一实施例的深度学习网络训练过程的示意图。

如图4所示，可以根据由样本文本图像401的预设样本标签指示的多个候选文本框，在多个候选文本框中确定待检测的至少一个目标文本框。对样本文本图像401进行图像扰动，得到扰动后的样本文本图像，图像扰动例如包括图像随机裁剪。

例如，对样本文本图像401分别进行第一随机裁剪和第二随机裁剪，得到经第一随机裁剪后的样本文本图像q和经第二随机裁剪后的样本文本图像k。经随机裁剪后的样本文本图像q、k中均包括待检测的至少一个目标文本框。

利用深度学习网络的特征提取子网络对经第一随机裁剪后的样本文本图像q进行特征提取，得到第一样本特征图fq，以及对经第二随机裁剪后的样本文本图像k进行特征提取，得到第二样本特征图fk。

确定第一样本特征图fq中的感兴趣区域，得到第一特征图区域402。对第一特征图区域402进行RoI Align特征提取，得到第一文本框特征vq，第一文本框特征vq的维度例如可以是N*d。确定第二样本特征图fk中的感兴趣区域，得到第二特征图区域403。对第二特征图区域403进行RoI Align特征提取，得到第二文本框特征vk，第二文本框特征vk的维度例如可以是N*d。N、d分别表示特征维度参数。

根据第一文本框特征vq、第二文本框特征vk和文本框特征序列Q，确定对比损失函数LOSS值。文本框特征序列Q的容量为K，即文本框特征序列Q中包括K个预设文本框特征，各预设文本框特征的维度是N*d。

示例性地，可以确定第一文本框特征vq与第二文本框特征vk之间的第一关系特征，确定第一文本框特征vq与文本框特征序列Q之间的第二关系特征。根据第一关系特征和第二关系特征，确定对比损失函数值，对比损失函数值例如可以是InfoNCE（NoiseContrastive Estimation，噪声对比估计）损失函数值。

根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的深度学习网络。

示例性地，可以利用第一文本框特征vq更新文本框特征序列Q，得到更新后的文本框特征序列。例如，文本框特征序列Q包括按生成时序排列的多个预设文本框特征，文本框特征序列Q的队尾位置对应生成时间最晚的预设文本框特征，队首位置对应生成时间最早的预设文本框特征。可以将文本框特征序列Q中队首位置的预设文本框特征弹出，并且将第一文本框特征vq压入文本框特征序列Q中的队尾位置。响应于对比损失函数值未满足预设收敛条件，可以利用更新后的文本框特征序列，进行针对深度学习网络的下一迭代训练。

有利于减少深度学习网络的训练样本需求量，可以很好地适用于训练样本获取难度大、真实训练样本数量少的网络训练场景，有利于降低深度学习网络的训练成本消耗，可以有效保证经训练的目标深度学习网络在通用场景下的文本检测能力。

图5示意性示出了根据本公开一实施例的文本检测方法的示意图。

如图5所示，方法500例如可以包括操作S510~操作S520。

在操作S510，获取待检测的目标文本图像。

在操作S520，将目标文本图像输入经训练的目标深度学习网络，得到基于目标文本图像的文本检测结果。

示例性地，获取待检测的目标文本图像，将目标文本图像输入经训练的目标深度学习网络。利用目标深度学习网络，对目标文本图像进行特征提取，得到文本图像特征，以及根据文本图像特征，输出针对目标文本图像的文本检测结果，文本检测结果例如包括文本框检测结果和框内文字检测结果，文本框检测结果例如包括针对文本框类型、文本框位置和文本框语义等内容的检测结果。

目标深度学习网络例如可以是基于以下方法训练得到的：利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

可以有效保证针对结构化文本的检测效率和检测准确性，可以较好地适用于检测任务粒度细及检测精度要求高的结构化文本检测任务。

图6示意性示出了根据本公开一实施例的深度学习网络的训练装置的框图。

如图6所示，本公开实施例的深度学习网络的训练装置600例如包括文本框特征确定模块610、对比损失函数值确定模块620和模型参数调整模块630。

文本框特征确定模块610，用于利用待训练的深度学习网络，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；对比损失函数值确定模块620，用于根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及模型参数调整模块630，用于根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。

通过本公开实施例，确定基于样本文本图像中的至少一个目标文本框的第一文本框特征和第二文本框特征；根据第一文本框特征、第二文本框特征和预设文本框特征序列，确定对比损失函数值；以及根据对比损失函数值，调整深度学习网络的模型参数，得到经训练的目标深度学习网络。第一文本框特征、第二文本框特征和预设文本框特征序列的引入，可以有效降低深度学习网络训练对样本文本图像的需求量，有利于减少深度学习网络的训练成本消耗，以及有利于提升深度学习网络训练的训练效率。

根据本公开的实施例，文本框特征确定模块包括：图像扰动子模块，用于对样本文本图像进行图像扰动，得到扰动后的样本文本图像；以及文本框特征确定子模块，用于将扰动后的样本文本图像作为深度学习网络的输入数据，以利用深度学习网络，确定基于至少一个目标文本框的第一文本框特征和第二文本框特征，由第一文本框特征和第二文本框特征指示的文本框位置特征相异。

根据本公开的实施例，图像扰动包括图像随机裁剪，图像扰动子模块包括：随机裁剪单元，用于对样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括至少一个目标文本框的扰动后的样本文本图像，以及文本框特征确定子模块包括：文本框特征确定单元，用于确定经第一随机裁剪后的样本文本图像的第一文本框特征和经第二随机裁剪后的样本文本图像的第二文本框特征。

根据本公开实施例，文本框特征确定单元包括：样本特征图确定子单元，用于确定经第一随机裁剪后的样本文本图像的第一样本特征图和经第二随机裁剪后的样本文本图像的第二样本特征图；以及第一文本框子特征确定子单元，用于确定第一样本特征图中基于各目标文本框的第一文本框子特征，得到基于第一文本框子特征的第一文本框特征，并且第二文本框子特征确定子单元，用于确定第二样本特征图中基于各目标文本框的第二文本框子特征，得到基于第二文本框子特征的第二文本框特征。

根据本公开实施例，对比损失函数值确定模块包括：关系特征确定子模块，用于确定第一文本框特征和第二文本框特征之间的第一关系特征，确定第一文本框特征和文本框特征序列之间的第二关系特征；以及对比损失函数值确定子模块，用于根据第一关系特征和第二关系特征，确定对比损失函数值，关系特征指示对应文本框特征之间的相似度，对比损失函数值与由第一关系特征指示的第一相似度呈正相关，对比损失函数值与由第二关系特征指示的第二相似度呈负相关。

根据本公开实施例，该装置还包括：文本框特征序列更新模块，用于利用第一文本框特征更新文本框特征序列，得到更新后的文本框特征序列；以及迭代训练模块，用于响应于对比损失函数值未满足预设收敛条件，利用更新后的文本框特征序列进行针对深度学习网络的下一迭代训练。

根据本公开实施例，该装置还包括：样本标签确定模块，用于利用预训练的文本检测模型，确定样本文本图像中的文本框信息，得到基于文本框信息的预设样本标签；以及目标文本框确定模块，用于根据由预设样本标签指示的多个候选文本框，在多个候选文本框中确定待检测的至少一个目标文本框。

根据本公开实施例，该装置还包括：字段检测结果确定模块，用于将结构化文本图像作为所述目标深度学习网络的输入数据，得到基于所述结构化文本图像的字段检测结果；以及场景文本检测模型确定模块，用于根据所述字段检测结果和预设字段标签，调整所述目标深度学习网络的模型参数，得到经训练的场景文本检测模型。

图7示意性示出了根据本公开一实施例的文本检测装置的框图。

如图7所示，本公开实施例的文本检测装置700例如包括目标文本图像获取模块710和文本检测结果确定模块720。

目标文本图像获取模块710，用于获取待检测的目标文本图像；文本检测结果确定模块720，用于将目标文本图像输入经训练的目标深度学习网络，得到基于目标文本图像的文本检测结果，目标深度学习网络是根据上述的装置训练得到的。

应该注意的是，本公开的技术方案中，所涉及的信息收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图8示出了可以用来实施本公开实施例的示例电子设备800的示意性框图。电子设备800旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图8所示，设备800包括计算单元801，其可以根据存储在只读存储器（ROM）802中的计算机程序或者从存储单元808加载到随机访问存储器（RAM）803中的计算机程序，来执行各种适当的动作和处理。在RAM 803中，还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出（I/O）接口805也连接至总线804。

设备800中的多个部件连接至I/O接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元806允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如深度学习网络的训练方法、文本检测方法。例如，在一些实施例中，深度学习网络的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由ROM 802和/或通信单元806而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由计算单元801执行时，可以执行上文描述的深度学习网络的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行深度学习网络的训练方法、文本检测方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、负载可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与对象的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向对象显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），对象可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与对象的交互；例如，提供给对象的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自对象的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形对象界面或者网络浏览器的对象计算机，对象可以通过该图形对象界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种深度学习网络的训练方法，所述深度学习网络用于文本检测，所述方法包括：

对样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括至少一个目标文本框的扰动后的样本文本图像；

将所述扰动后的样本文本图像作为所述深度学习网络的输入数据，以利用所述深度学习网络，确定经第一随机裁剪后的样本文本图像的第一样本特征图和经第二随机裁剪后的样本文本图像的第二样本特征图；

确定所述第一样本特征图中基于各所述目标文本框的第一文本框子特征，得到基于所述第一文本框子特征的第一文本框特征，并且

确定所述第二样本特征图中基于各所述目标文本框的第二文本框子特征，得到基于所述第二文本框子特征的第二文本框特征，其中，由所述第一文本框特征和所述第二文本框特征指示的文本框位置特征相异，所述样本文本图像包括基于光学字符识别垂类接口获取的回流数据；

确定所述第一文本框特征和所述第二文本框特征之间的第一关系特征，

确定所述第一文本框特征和预设文本框特征序列之间的第二关系特征；

根据所述第一关系特征和所述第二关系特征，确定对比损失函数值，其中，关系特征指示对应文本框特征之间的相似度，所述对比损失函数值与由所述第一关系特征指示的第一相似度呈正相关，所述对比损失函数值与由所述第二关系特征指示的第二相似度呈负相关；

根据所述对比损失函数值，调整所述深度学习网络的模型参数，得到经训练的目标深度学习网络；

将结构化文本图像作为所述目标深度学习网络的输入数据，得到基于所述结构化文本图像的字段检测结果；以及

根据所述字段检测结果和预设字段标签，调整所述目标深度学习网络的模型参数，得到经训练的场景文本检测模型。

2. 根据权利要求1所述的方法，还包括：

利用所述第一文本框特征更新所述文本框特征序列，得到更新后的文本框特征序列；以及

响应于所述对比损失函数值未满足预设收敛条件，利用所述更新后的文本框特征序列进行针对所述深度学习网络的下一迭代训练。

3. 根据权利要求1所述的方法，还包括：

利用预训练的文本检测模型，确定所述样本文本图像中的文本框信息，得到基于所述文本框信息的预设样本标签；以及

根据由所述预设样本标签指示的多个候选文本框，在所述多个候选文本框中确定待检测的所述至少一个目标文本框。

4.一种文本检测方法，包括：

获取待检测的目标文本图像；

将所述目标文本图像输入经训练的目标深度学习网络，得到基于所述目标文本图像的文本检测结果，

其中，所述目标深度学习网络是根据权利要求1至3中任一项所述的方法训练得到的。

5.一种深度学习网络的训练装置，所述深度学习网络用于文本检测，所述装置包括：

随机裁剪单元，用于对样本文本图像分别进行第一随机裁剪和第二随机裁剪，得到包括至少一个目标文本框的扰动后的样本文本图像；

样本特征图确定子单元，用于确定经第一随机裁剪后的样本文本图像的第一样本特征图和经第二随机裁剪后的样本文本图像的第二样本特征图；以及

第一文本框子特征确定子单元，用于确定所述第一样本特征图中基于各所述目标文本框的第一文本框子特征，得到基于所述第一文本框子特征的第一文本框特征，并且

第二文本框子特征确定子单元，用于确定所述第二样本特征图中基于各所述目标文本框的第二文本框子特征，得到基于所述第二文本框子特征的第二文本框特征，其中，由所述第一文本框特征和所述第二文本框特征指示的文本框位置特征相异，所述样本文本图像包括基于光学字符识别垂类接口获取的回流数据；

关系特征确定子模块，用于确定所述第一文本框特征和所述第二文本框特征之间的第一关系特征，确定所述第一文本框特征和预设文本框特征序列之间的第二关系特征；以及

对比损失函数值确定子模块，用于根据所述第一关系特征和所述第二关系特征，确定对比损失函数值，其中，关系特征指示对应文本框特征之间的相似度，所述对比损失函数值与由所述第一关系特征指示的第一相似度呈正相关，所述对比损失函数值与由所述第二关系特征指示的第二相似度呈负相关；

模型参数调整模块，用于根据所述对比损失函数值，调整所述深度学习网络的模型参数，得到经训练的目标深度学习网络；

字段检测结果确定模块，用于将结构化文本图像作为所述目标深度学习网络的输入数据，得到基于所述结构化文本图像的字段检测结果；以及

场景文本检测模型确定模块，用于根据所述字段检测结果和预设字段标签，调整所述目标深度学习网络的模型参数，得到经训练的场景文本检测模型。

6. 根据权利要求5所述的装置，还包括：

文本框特征序列更新模块，用于利用所述第一文本框特征更新所述文本框特征序列，得到更新后的文本框特征序列；以及

迭代训练模块，用于响应于所述对比损失函数值未满足预设收敛条件，利用所述更新后的文本框特征序列进行针对所述深度学习网络的下一迭代训练。

7. 根据权利要求5所述的装置，还包括：

样本标签确定模块，用于利用预训练的文本检测模型，确定所述样本文本图像中的文本框信息，得到基于所述文本框信息的预设样本标签；以及

目标文本框确定模块，用于根据由所述预设样本标签指示的多个候选文本框，在所述多个候选文本框中确定待检测的所述至少一个目标文本框。

8.一种文本检测装置，包括：

目标文本图像获取模块，用于获取待检测的目标文本图像；

文本检测结果确定模块，用于将所述目标文本图像输入经训练的目标深度学习网络，得到基于所述目标文本图像的文本检测结果，

其中，所述目标深度学习网络是根据权利要求5至7中任一项所述的装置训练得到的。

9.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1~3中任一项所述的方法，或执行权利要求4所述的方法。

10.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行权利要求1~3中任一项所述的方法，或执行权利要求4所述的方法。