CN113903025A

CN113903025A - 场景文本检测方法、装置和模型及其训练方法和训练装置

Info

Publication number: CN113903025A
Application number: CN202111156728.XA
Authority: CN
Inventors: 潘滢炜; 赖荣凤; 杨学行; 姚霆
Original assignee: Jingdong Technology Holding Co Ltd
Current assignee: Jingdong Technology Holding Co Ltd
Priority date: 2021-09-30
Filing date: 2021-09-30
Publication date: 2022-01-07

Abstract

本公开提出一种场景文本检测方法、装置和模型及其训练方法和训练装置，涉及计算机视觉领域。利用文本候选框之间的朴素关系特征，通过辨别候选框是否属于同一文本实例进行对比学习，强化了属于同一文本实例的候选框之间的有效局部关系特征，补充对于文本实例的判别能力，将文本框的定位与组合有机地融合入特征学习中，帮助进行后续的文本框的分类与回归任务更容易区分文本框是否包含完整文本，提升模型的文本检测性能。

Description

场景文本检测方法、装置和模型及其训练方法和训练装置

技术领域

本公开涉及计算机视觉领域，特别涉及一种场景文本检测模型及其训练方法和训练装置、场景文本检测方法和检测装置。

背景技术

OCR(Optical Character Recognition，光学字符识别)传统上指对输入扫描文档图像进行分析处理，识别出图像中文字信息。场景文字识别(Scene Text Recognition，STR)指识别自然场景图片中的文字信息。自然场景图像中的文字识别，其难度远大于扫描文档图像中的文字识别，因为它的文字展现形式极其丰富，例如，允许多种语言文本混合，字符可以有不同的大小、字体、颜色、亮度、对比度等，文本行可能有横向、竖向、弯曲、旋转、扭曲等式样，文字可以出现在平面、曲面或折皱面上，文字区域附近有复杂的干扰纹理等。

一种基于候选框的场景文本检测技术，其先通过铺设锚点框定位文本候选框，再通过外观语义关系或几何位置关系将属于同一个文本实例的文本候选框进行组合。

经研究发现，上述检测技术的定位任务和组合任务是独立的，会影响检测结果。

发明内容

本公开实施例利用文本候选框之间的朴素关系特征，通过辨别候选框是否属于同一文本实例进行对比学习，强化了属于同一文本实例的候选框之间的有效局部关系特征，补充对于文本实例的判别能力，将文本框的定位与组合有机地融合入特征学习中，帮助进行后续的文本框的分类与回归任务更容易区分文本框是否包含完整文本，提升模型的文本检测性能。

本公开一些实施例提出一种场景文本检测模型的训练方法，包括：

基于自然场景的图像，生成多个文本候选框；

利用文本候选框之间的朴素关系特征，通过辨别文本候选框是否属于同一文本实例，对文本候选框之间的关系进行对比学习；

根据对比学习结果，生成每个文本候选框的可辨识文本实例的文本候选框特征；

根据各个文本候选框的可辨识文本实例的文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本；

根据检测出的文本目标框和文本与标注的文本目标框和文本之间的差距，计算总损失，根据总损失更新场景文本检测模型的参数。

在一些实施例中，文本候选框之间的朴素关系特征的确定方法包括：

基于每个文本候选框的外观语义和几何位置，生成所述每个文本候选框的第一文本候选框特征；

根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的第一关系特征，作为朴素关系特征。

在一些实施例中，所述对文本候选框之间的关系进行对比学习包括：基于文本实例级别的对比学习损失函数的监督，对各个文本候选框的第一关系特征进行对比学习，增强属于同一文本实例的文本候选框的关联性，同时削弱属于不同文本实例的文本候选框的关联性，以便生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征。

在一些实施例中，所述生成每个文本候选框的可辨识文本实例的文本候选框特征，包括：对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

在一些实施例中，所述计算总损失包括：

根据设置的总损失函数结合检测出的文本目标框和文本与标注的文本目标框和文本之间的差距，计算总损失，

其中，总损失函数包括文本候选框的生成损失项、分类损失项和回归损失项、文本候选框内的文本区域分割损失项、以及对比学习损失项。

在一些实施例中，所述对比学习损失函数包括：对比学习损失、正样本对的关联表示和负样本对的关联表示，其中，对比学习损失与正样本对的关联表示负相关，对比学习损失与负样本对的关联表示正相关，其中，针对标注的每个文本目标框，确定相对于该标注的文本目标框符合临近条件的第一文本候选框和不符合临近条件的第二文本候选框，该标注的文本目标框的第一关系特征与每个第一文本候选框的第一关系特征构成一个正样本对，该标注的文本目标框的第一关系特征与每个第二文本候选框的第一关系特征构成一个负样本对。

在一些实施例中，所述临近条件为：文本候选框与文本目标框之间的交集与并集的比例在预设的低阈值范围，且文本候选框与文本目标框之间的交集与该文本候选框的比例在预设的高阈值范围。

在一些实施例中，所述根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的第一关系特征包括：针对每个文本候选框，以所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征之间的相似度作为权重，通过加权求和计算出所述每个文本候选框与其他文本候选框之间的第一关系特征。

在一些实施例中，所述相似度通过所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征点乘并归一化得到。

本公开一些实施例提出一种场景文本检测方法，包括：

基于自然场景的图像，生成多个文本候选框；

生成每个文本候选框的可辨识文本实例的文本候选框特征；

根据各个文本候选框的可辨识文本实例的文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本。

在一些实施例中，所述生成每个文本候选框的可辨识文本实例的文本候选框特征包括：

利用对比学习结果，根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征；

对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

在一些实施例中，所述生成所述每个文本候选框的第一文本候选框特征包括：使用候选框区域池化，提取每个文本候选框的第一文本候选框特征，包括外观语义特征和几何位置特征。

在一些实施例中，所述基于自然场景的图像，生成多个文本候选框包括：提取图像的多尺度的特征图；针对每个特征图，通过区域生成网络生成多个文本候选框。

在一些实施例中，利用特征金字塔网络，提取图像的多尺度的特征图。

在一些实施例中，针对每个特征图，通过区域生成网络生成多个文本候选框包括：

在大小为H×W的特征图的每个位置上铺设s种固定尺寸和长宽比的锚点框，每个特征图对应H×W×s个锚点框；

使用一个全卷积神经网络对每个锚点框进行前景和背景的二分类，以及对每个锚点框进行位置和尺寸的矫正；

保留分类分数最高的预设数量N的锚点框，作为文本候选框输出。

在一些实施例中，文本候选框的分类和回归包括：

利用分类器对每个文本候选框进行前景和背景的二分类，

利用回归器对每个文本候选框进行位置和尺寸的矫正。

在一些实施例中，文本候选框内的文本区域分割包括：

挑选分类器的分类分数最高的预设数量k个文本候选框作为候选框区域池化的输入，得到k个固定尺寸的特征图；

将每个特征图输入全卷积神经网络获得每个特征图的文本分隔区域；

根据特征图与文本候选框的变换关系，将特征图的文本分隔区域映射为文本候选框的文本分隔区域；

根据文本候选框的文本分隔区域以及文本候选框在图像中的位置，获得图像中的文本分隔区域和相应的文本，作为文本检测结果。

本公开一些实施例提出一种场景文本检测模型，包括：

文本候选框生成模块，被配置为基于自然场景的图像，生成多个文本候选框；

文本候选框特征生成模块，被配置为生成每个文本候选框的可辨识文本实例的文本候选框特征；

文本检测模块，被配置为根据各个文本候选框的可辨识文本实例的文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本。

在一些实施例中，所述文本候选框特征生成模块包括：

第一文本候选框特征生成单元，被配置为基于每个文本候选框的外观语义和几何位置，生成所述每个文本候选框的第一文本候选框特征；

第二关系特征生成单元，被配置为利用对比学习结果，根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征；

第二文本候选框特征生成单元，被配置为对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

在一些实施例中，所述文本候选框生成模块包括：

特征金字塔网络，用于提取图像的多尺度的特征图。

区域生成网络，用于针对每个特征图，生成多个文本候选框。

在一些实施例中，所述文本检测模块包括：

分类器，用于对每个文本候选框进行前景和背景的二分类，

回归器，用于对每个文本候选框进行位置和尺寸的矫正；

文本分割单元，用于在文本候选框内进行文本区域分割。

本公开一些实施例提出一种场景文本检测模型的训练装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行场景文本检测模型的训练方法。

本公开一些实施例提出一种场景文本检测装置，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行场景文本检测方法。

本公开一些实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现场景文本检测模型的训练方法或场景文本检测方法的步骤。

附图说明

下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍。根据下面参照附图的详细描述，可以更加清楚地理解本公开。

显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1示出本公开一些实施例的场景文本检测模型的训练方法的流程示意图。

图2示出本公开一些实施例的场景文本检测模型的训练方法的过程示意图。

图3示出本公开一些实施例的场景文本检测模型的示意图。

图4示出本公开一些实施例的场景文本检测方法的示意图。

图5为本公开一些实施例的场景文本检测模型的训练装置的结构示意图。

图6为本公开一些实施例的场景文本检测装置的结构示意图。

具体实施方式

下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述。

除非特别说明，否则，本公开中的“第一”“第二”等描述用来区分不同的对象，并不用来表示大小或时序等含义。

如图1所示，该实施例的场景文本检测模型的训练方法包括：步骤110-150。

在步骤110，基于自然场景的图像，生成多个文本候选框。

在模型训练中，自然场景的图像例如可以是自然场景的图像样本，其标注有相应的文本目标框和文本。

在一些实施例中，基于自然场景的图像，生成多个文本候选框包括：步骤111-112。

在步骤111，提取图像的多尺度的特征图，例如，利用特征金字塔网络(FeaturePyramid Networks，简称为FPN)，提取图像的多尺度的特征图。

在步骤112，针对每个特征图，通过区域生成网络(Region Proposal Networks，简称为RPN)生成多个文本候选框。

RPN用于为每张图像生成大量包含前景物体的候选框，在文本检测的场景下，前景即文本，RPN能够为每张图像生成多个文本候选框。

RPN为每张图片生成N个文本候选框，假设N＝2000，N还可以取其他数值。为了生成文本候选框，将FPN输出的多尺度特征图作为RPN的输入，在大小为H×W的特征图的每个位置上铺设s种固定尺寸和长宽比的锚点框，每个特征图对应H×W×s个锚点框(anchor)；使用一个轻量级的全卷积神经网络(Fully Convolutional Networks，简称为FCN)对每个锚点框进行前景和背景的二分类，以及对每个锚点框进行位置和尺寸的矫正；保留分类分数最高的预设数量N的锚点框，作为文本候选框输出。

RPN在训练过程中的损失函数L_rpn包括了分类项L_{rpn_cls}和回归项L_{rpn_reg}，即，L_rpn＝L_{rpn_cls}+L_{rpn_reg}。其中，分类项L_{rpn_cls}的损失函数例如为softmax，回归项L_{rpn_reg}的损失函数例如为Smooth L1。

后续根据步骤120和130，利用文本候选框之间的朴素关系特征(第一关系特征)，通过辨别文本候选框是否属于同一文本实例，对文本候选框之间的关系进行对比学习；根据对比学习结果，生成每个文本候选框的可辨识文本实例的文本候选框特征(第二文本候选框特征)，标记为步骤123。

在步骤120，基于每个文本候选框的外观语义和几何位置，生成所述每个文本候选框的第一文本候选框特征。

生成所述每个文本候选框的第一文本候选框特征包括：使用候选框区域池化(Region of Interest Pooling，简称为RoI Pooling)，提取每个文本候选框的第一文本候选框特征，包括外观语义特征和几何位置特征。例如，分别对N个文本候选框提取对应的N个第一文本候选框特征，记为

其中，

表示第i个文本候选框的外观语义特征，

表示第i个文本候选框的几何位置特征。

在步骤130，根据各个文本候选框的第一文本候选框特征，通过对比学习，增强属于同一文本实例的文本候选框的关联性，同时削弱属于不同文本实例的文本候选框的关联性，以便生成每个文本候选框的可辨识文本实例的第二文本候选框特征。

在一些实施例中，步骤130包括步骤131-133。

在步骤131，根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的第一关系特征。

在一些实施例中，生成第一关系特征包括：针对每个文本候选框，以所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征之间的相似度作为权重，通过加权求和计算出所述每个文本候选框与其他文本候选框之间的第一关系特征。其中，所述相似度通过所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征点乘并归一化得到。

第一关系特征也称朴素关系特征。对于这种朴素关系特征，它没有获得足够多的先验知识的引导，可能导致忽视某些重要的文本候选框之间的关联，抑或是过分关注某些不必要的关联。但是，属于同一文本实例的候选框之间应该建立权重更大的关联，帮助候选框更精准地定位完整的文本；相应的，不属于同一文本实例的候选框之间应当尽量减少关联性，防止不同文本实例之间的粘连情况。

在步骤132，基于文本实例级别的对比学习损失函数的监督，对各个文本候选框的第一关系特征进行对比学习，增强属于同一文本实例的文本候选框的关联性，同时削弱属于不同文本实例的文本候选框的关联性，以便生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征，进而帮助后续的文本框分类与回归做出更准确的预测。

文本实例级别的对比学习损失函数包括：对比学习损失、正样本对的关联表示和负样本对的关联表示，其中，对比学习损失与正样本对的关联表示负相关，对比学习损失与负样本对的关联表示正相关。其中，针对标注的每个文本目标框，确定相对于该标注的文本目标框符合临近条件的第一文本候选框和不符合临近条件的第二文本候选框，该标注的文本目标框的第一关系特征与每个第一文本候选框的第一关系特征构成一个正样本对，该标注的文本目标框的第一关系特征与每个第二文本候选框的第一关系特征构成一个负样本对。

针对任务场景与动机，取N′个标注的文本目标框(真实目标标签)所对应的第一关系特征(简称“目标关系特征”，记为q_i)作为

对于每一个标注的文本目标框，存在M个临近的第一文本候选框，其所对应的第一关系特征

作为目标关系特征q_i的M个正样本；对于K个非临近的第二文本候选框所对应的第一关系特征

视为目标关系特征q_i的K个负样本。

构成一个正样本对，

构成一个负样本对。

文本实例级别的对比学习损失函数公式表示如下：

其中，exp表示以自然常数e为底的指数函数，τ为温度超参数。

所述临近条件为：文本候选框与文本目标框之间的交集与并集的比例在预设的低阈值范围，例如，0.1～1.0，例如，0.1～0.5；且文本候选框与文本目标框之间的交集与该文本候选框的比例在预设的高阈值范围，例如，0.7～1.0。该高阈值范围使得文本候选框落在文本目标框中的比重很高。该低阈值范围使得尽可能增加正样本对的数目。

在步骤133，对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

融合方式例如为，将每个文本候选框的第一文本候选框特征和第二关系特征相加，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

从而，利用文本候选框之间的朴素关系特征，通过辨别候选框是否属于同一文本实例进行对比学习，强化了属于同一文本实例的候选框之间的有效局部关系特征，补充对于文本实例的判别能力，将文本框的定位与组合有机地融合入特征学习中，帮助进行后续的文本框的分类与回归任务更容易区分文本框是否包含完整文本，提升模型的文本检测性能。

在步骤140，根据各个文本候选框的第二文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本。

文本候选框的分类包括：利用分类器对每个文本候选框进行前景(即文本)和背景的二分类，将文本候选框的第二文本候选框特征输入分类器得到文本候选框的类别。

文本候选框的回归包括：利用回归器对每个文本候选框进行位置和尺寸的矫正，预测文本候选框与文本目标框的中心点与长宽比的偏移，将文本候选框的第二文本候选框特征输入回归器得到矫正后的文本候选框的位置和尺寸。

在训练阶段，候选框分类与回归分支的损失函数包含分类损失项L_cls和回归损失项L_reg。其中，分类损失项L_cls的损失函数例如为softmax，回归损失项L_reg的损失函数例如为Smooth L1。

在一些实施例中，文本候选框内的文本区域分割包括：挑选分类器的分类分数最高的预设数量(k，如k＝100)个文本候选框作为候选框区域池化的输入，得到k个固定尺寸(如14×14)的特征图；将每个特征图输入四层的全卷积神经网络获得每个特征图的文本分隔区域；根据特征图与文本候选框的变换关系，将特征图的文本分隔区域映射为文本候选框的文本分隔区域；根据文本候选框的文本分隔区域以及文本候选框在图像中的位置，获得图像中的文本分隔区域和相应的文本，作为文本检测结果。

在训练阶段，文本候选框内的文本区域分割分支的损失函数设为L_mask，例如为二进制分割损失(binary segmentation loss)函数。

在步骤150，根据设置的总损失函数结合检测出的文本目标框和文本与标注的文本目标框和文本之间的差距，计算总损失，根据总损失更新场景文本检测模型的参数。

其中，总损失函数包括文本候选框的生成损失项、分类损失项和回归损失项、文本候选框内的文本区域分割损失项、以及对比学习损失项。公式表示如下：

L＝L_rpn+L_cls+L_reg+L_mask+λL_InsCL

公式中各符合含义参见前述。

根据训练样本，迭代地根据总损失更新场景文本检测模型的参数，直至满足训练终止条件，例如，总损失小于预设值，或者，达到一定地迭代次数。

上述实施例，利用文本候选框之间的朴素关系特征，通过辨别候选框是否属于同一文本实例进行对比学习，强化了属于同一文本实例的候选框之间的有效局部关系特征，补充对于文本实例的判别能力，将文本框的定位与组合有机地融合入特征学习中，帮助进行后续的文本框的分类与回归任务更容易区分文本框是否包含完整文本，提升模型的文本检测性能。

如图2所示，一个自然场景的图像样本，含有“RYA”“BAGGAGE”等字符，这些字符的大小不同。利用特征金字塔网络FPN提取该图像样本的多尺度的特征图，基于特征图通过区域生成网络RPN生成多个不同尺度的文本候选框。例如，“Y”外围的框，“RYA”外围的框，“BA”外围的框，“GE”外围的框，“BAGGAGE”外围的框等。使用候选框区域池化提取每个文本候选框的第一文本候选框特征。根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的第一关系特征。基于文本实例级别的对比学习损失函数的监督，对各个文本候选框的第一关系特征进行对比学习，增强属于同一文本实例的文本候选框的关联性，同时削弱属于不同文本实例的文本候选框的关联性，以便生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征。对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。根据各个文本候选框的第二文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，如“RYA”目标框和“BAGGAGE”目标框以及目标框中的文本。

基于上述场景文本检测模型的训练方法，训练完成后，得到场景文本检测模型。

图3示出本公开一些实施例的场景文本检测模型的示意图。

如图3所示，场景文本检测模型包括：模块310-330。

文本候选框生成模块310，被配置为基于自然场景的图像，生成多个文本候选框。

在一些实施例中，文本候选框生成模块310包括：特征金字塔网络311，用于提取图像的多尺度的特征图，以及，区域生成网络312，用于针对每个特征图，生成多个文本候选框。

文本候选框特征生成模块320，被配置为生成每个文本候选框的可辨识文本实例的第二文本候选框特征。

在一些实施例中，文本候选框特征生成模块320包括：单元321-323。

第一文本候选框特征生成单元321，被配置为基于每个文本候选框的外观语义和几何位置，生成所述每个文本候选框的第一文本候选框特征。第一文本候选框特征生成单元321例如为候选框区域池化。

第二关系特征生成单元322，被配置为利用对比学习结果，根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征。

第二文本候选框特征生成单元323，被配置为对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

文本检测模块330，被配置为根据各个文本候选框的第二文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本。

在一些实施例中，文本检测模块330包括：分类器331，用于对每个文本候选框进行前景和背景的二分类，回归器332，用于对每个文本候选框进行位置和尺寸的矫正，以及，文本分割单元333，用于在文本候选框内进行文本区域分割。

基于前述训练方法所获得的检测模型，将文本框的定位与组合有机地融合，能够生成每个文本候选框的可辨识文本实例的第二文本候选框特征，并基于这些特征进行文本检测，检测模型的文本检测性能得以提升。

利用训练得到的场景文本检测模型，可以进行场景文本检测。

图4示出本公开一些实施例的场景文本检测方法的示意图。

如图4所示，场景文本检测方法包括：在步骤410-430。

在步骤410，基于自然场景的图像，生成多个文本候选框。

在利用模型进行检测中，自然场景的图像例如可以是自然场景的待检测图像，与模型训练时使用的图像样本可以是不同的图像。

利用文本候选框生成模块310，基于自然场景的图像，生成多个文本候选框，包括：步骤411-412。

在步骤411利用特征金字塔网络311，提取图像的多尺度的特征图。

在步骤412，针对每个特征图，通过区域生成网络312生成多个文本候选框，具体包括：在大小为H×W的特征图的每个位置上铺设s种固定尺寸和长宽比的锚点框，每个特征图对应H×W×s个锚点框；使用一个全卷积神经网络对每个锚点框进行前景和背景的二分类，以及对每个锚点框进行位置和尺寸的矫正；保留分类分数最高的预设数量N的锚点框，作为文本候选框输出。

在步骤420，生成每个文本候选框的可辨识文本实例的第二文本候选框特征。

利用文本候选框特征生成模块320，生成每个文本候选框的可辨识文本实例的第二文本候选框特征，例如包括步骤421～423。

在步骤421，利用第一文本候选框特征生成单元321，基于每个文本候选框的外观语义和几何位置，生成所述每个文本候选框的第一文本候选框特征。

生成所述每个文本候选框的第一文本候选框特征包括：使用候选框区域池化，提取每个文本候选框的第一文本候选框特征，包括外观语义特征和几何位置特征。

在步骤422，利用第二关系特征生成单元322，利用对比学习结果，根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征。

在步骤423，利用第二文本候选框特征生成单元323，对每个文本候选框的第一文本候选框特征和第二关系特征进行融合，得到所述每个文本候选框的可辨识文本实例的第二文本候选框特征。

在步骤430，根据各个文本候选框的第二文本候选框特征，通过文本候选框的分类和回归以及文本候选框内的文本区域分割，得到文本检测结果，包括检测出的文本目标框和文本。

利用文本检测模块330进行文本检测得到文本检测结果，例如包括步骤431～433。

在步骤431，利用分类器331进行文本候选框的分类包括：利用分类器331对每个文本候选框进行前景(即文本)和背景的二分类，将文本候选框的第二文本候选框特征输入分类器331得到文本候选框的类别。

在步骤432，利用回归器332进行文本候选框的回归包括：利用回归器332对每个文本候选框进行位置和尺寸的矫正，预测文本候选框与文本目标框的中心点与长宽比的偏移，将文本候选框的第二文本候选框特征输入回归器332得到矫正后的文本候选框的位置和尺寸。

在步骤433，利用文本分割单元333进行文本候选框内的文本区域分割包括：利用文本分割单元333，挑选分类器的分类分数最高的预设数量(k，如k＝100)个文本候选框作为候选框区域池化的输入，得到k个固定尺寸(如14×14)的特征图；将每个特征图输入四层的全卷积神经网络获得每个特征图的文本分隔区域；根据特征图与文本候选框的变换关系，将特征图的文本分隔区域映射为文本候选框的文本分隔区域；根据文本候选框的文本分隔区域以及文本候选框在图像中的位置，获得图像中的文本分隔区域和相应的文本，作为文本检测结果。

如前所述，检测模型具有更好的文本检测性能，利用该检测模型进行场景文本检测，能够获得更好的文本检测效果。

如图5所示，该实施例的场景文本检测模型的训练装置500包括：存储器510以及耦接至该存储器510的处理器520，处理器520被配置为基于存储在存储器510中的指令，执行前述任意一些实施例中的场景文本检测模型的训练方法。

其中，存储器510例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

场景文本检测模型的训练装置500还可以包括输入输出接口530、网络接口540、存储接口550等。这些接口530，540，550以及存储器510和处理器520之间例如可以通过总线560连接。其中，输入输出接口530为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口540为各种联网设备提供连接接口。存储接口550为SD卡、U盘等外置存储设备提供连接接口。

图6为本公开一些实施例的场景文本检测装置的结构示意图。

如图6所示，该实施例的场景文本检测装置600包括：存储器610以及耦接至该存储器610的处理器620，处理器620被配置为基于存储在存储器610中的指令，执行前述任意一些实施例中的场景文本检测方法。场景文本检测

其中，存储器610例如可以包括系统存储器、固定非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。

场景文本检测装置600还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630，640，650以及存储器610和处理器620之间例如可以通过总线660连接。其中，输入输出接口630为显示器、鼠标、键盘、触摸屏等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为SD卡、U盘等外置存储设备提供连接接口。

根据业务需要，场景文本检测模型的训练装置500与场景文本检测装置600可以是独立的两个装置，也可以是集成的一个装置。

本公开实施例提出一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现场景文本检测模型的训练或场景文本检测方法的步骤。

本领域内的技术人员应当明白，本公开的实施例可提供为方法、系统、或计算机程序产品。因此，本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本公开可采用在一个或多个其中包含有计算机程序代码的非瞬时性计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解为可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅为本公开的较佳实施例，并不用以限制本公开，凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.一种场景文本检测模型的训练方法，其特征在于，包括：

基于自然场景的图像，生成多个文本候选框；

2.据权利要求1所述的方法，其特征在于，文本候选框之间的朴素关系特征的确定方法包括：

3.根据权利要求2所述的方法，其特征在于，所述对文本候选框之间的关系进行对比学习包括：

基于文本实例级别的对比学习损失函数的监督，对各个文本候选框的第一关系特征进行对比学习，增强属于同一文本实例的文本候选框的关联性，同时削弱属于不同文本实例的文本候选框的关联性，以便生成每个文本候选框与其他文本候选框之间的可辨识文本实例的第二关系特征。

4.根据权利要求3所述的方法，其特征在于，所述生成每个文本候选框的可辨识文本实例的文本候选框特征，包括：

5.根据权利要求1所述的方法，其特征在于，所述计算总损失包括：

6.根据权利要求3所述的方法，其特征在于，所述对比学习损失函数包括：对比学习损失、正样本对的关联表示和负样本对的关联表示，其中，对比学习损失与正样本对的关联表示负相关，对比学习损失与负样本对的关联表示正相关，

其中，针对标注的每个文本目标框，确定相对于该标注的文本目标框符合临近条件的第一文本候选框和不符合临近条件的第二文本候选框，该标注的文本目标框的第一关系特征与每个第一文本候选框的第一关系特征构成一个正样本对，该标注的文本目标框的第一关系特征与每个第二文本候选框的第一关系特征构成一个负样本对。

7.根据权利要求6所述的方法，其特征在于，所述临近条件为：

文本候选框与文本目标框之间的交集与并集的比例在预设的低阈值范围，且文本候选框与文本目标框之间的交集与该文本候选框的比例在预设的高阈值范围。

8.根据权利要求2所述的方法，其特征在于，所述根据各个文本候选框的第一文本候选框特征，生成每个文本候选框与其他文本候选框之间的第一关系特征包括：

针对每个文本候选框，以所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征之间的相似度作为权重，通过加权求和计算出所述每个文本候选框与其他文本候选框之间的第一关系特征。

9.根据权利要求8所述的方法，其特征在于，所述相似度通过所述每个文本候选框的第一文本候选框特征与其他文本候选框的第一文本候选框特征点乘并归一化得到。

10.一种场景文本检测方法，其特征在于，包括：

基于自然场景的图像，生成多个文本候选框；

生成每个文本候选框的可辨识文本实例的文本候选框特征；

11.根据权利要求10所述的方法，其特征在于，所述生成每个文本候选框的可辨识文本实例的文本候选框特征包括：

12.根据权利要求2或11所述的方法，其特征在于，所述生成所述每个文本候选框的第一文本候选框特征包括：

使用候选框区域池化，提取每个文本候选框的第一文本候选框特征，包括外观语义特征和几何位置特征。

13.根据权利要求1或10所述的方法，其特征在于，所述基于自然场景的图像，生成多个文本候选框包括：

提取图像的多尺度的特征图；

针对每个特征图，通过区域生成网络生成多个文本候选框。

14.根据权利要求13所述的方法，其特征在于，利用特征金字塔网络，提取图像的多尺度的特征图。

15.根据权利要求13所述的方法，其特征在于，针对每个特征图，通过区域生成网络生成多个文本候选框包括：

16.根据权利要求1或10所述的方法，其特征在于，文本候选框的分类和回归包括：

利用分类器对每个文本候选框进行前景和背景的二分类，

利用回归器对每个文本候选框进行位置和尺寸的矫正。

17.根据权利要求16所述的方法，其特征在于，文本候选框内的文本区域分割包括：

18.一种场景文本检测模型，其特征在于，包括：

19.根据权利要求18所述的模型，其特征在于，所述文本候选框特征生成模块包括：

20.根据权利要求18所述的模型，其特征在于，所述文本候选框生成模块包括：

特征金字塔网络，用于提取图像的多尺度的特征图。

21.根据权利要求18所述的模型，其特征在于，所述文本检测模块包括：

分类器，用于对每个文本候选框进行前景和背景的二分类，

回归器，用于对每个文本候选框进行位置和尺寸的矫正；

文本分割单元，用于在文本候选框内进行文本区域分割。

22.一种场景文本检测模型的训练装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求1-9、12-17中任一项所述的场景文本检测模型的训练方法。

23.一种场景文本检测装置，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器中的指令，执行权利要求10-11、12-17中任一项所述的场景文本检测方法。

24.一种非瞬时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现权利要求1-17中任一项所述方法的步骤。