CN115879462A

CN115879462A - 无需细粒度检测的场景文本提取方法、系统

Info

Publication number: CN115879462A
Application number: CN202211233226.7A
Authority: CN
Inventors: 周宇; 魏谨; 张远; 曾港艳; 王伟平
Original assignee: Institute of Information Engineering of CAS; Communication University of China
Current assignee: Institute of Information Engineering of CAS; Communication University of China
Priority date: 2022-10-10
Filing date: 2022-10-10
Publication date: 2023-03-31

Abstract

本发明提供一种无需细粒度检测的场景文本提取方法，首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像；再通过预训练的文本块识别器基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与预测特征相对应的预测文本，通过这种粗粒度检测与多实例识别相结合的框架减轻检测负担，同时利用丰富的上下文信息进行识别，能够通过启发式文本块生成方法依据真实数据集生成的文本块级数据集训练文本块检测器，无需细粒度检测即可实现高精度文本提取。

Description

无需细粒度检测的场景文本提取方法、系统

技术领域

本发明涉及文字提取技术领域，更为具体地，涉及一种无需细粒度检测的场景文本提取方法、系统、电子设备。

背景技术

近年来，场景文本定位与识别的系统取得了很大的成功，在身份认证、车牌识别、视觉问答等众多实际应用中具有重要意义。在深度学习的帮助下，文本提取技术依靠精细注释的数据集取得了令人印象深刻的结果。传统的场景文本定位识别系统通常包含两个独立的任务:文本检测和文本识别。具体来说，检测的目标是为细粒度的文本实例提供精确且紧密的轮廓；识别器的目的是将裁剪好的文本图像转录成可读的字符序列。其中，要求检测器尽可能精确，以便为后续的识别提供合适的文本区域特征。现有的工作大多数遵循着单词/字符级别细粒度和单个实例识别的框架，这种框架过分强调了检测器的作用，同时忽略了丰富的上下文信息在识别中的作用。

一方面，细粒度的精确检测在现实场景中具有很大的挑战性。例如，当文本分布在多行多列时，容易出现有歧义的检测结果；当文本密集聚集时，检测器很难区分词的边界。同时，由于识别模块对检测结果高度敏感，如果检测边界太松，会引入背景干扰，如果检测边界过紧，也会破坏字符的完整性。

另一方面，识别器的输入通常是一个孤立的实例(如单词)，会丢失附近文本的丰富上下文信息，在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型，但它们缺乏灵活性，泛化能力有限。

因此，亟需一种能够减轻检测器压力，充分利用上下文语义信息，提高灵活性和泛化能力的无需细粒度检测的场景文本提取方法、系统。

发明内容

鉴于上述问题，本发明的目的是提供一种无需细粒度检测的场景文本提取方法，以解决当前现有技术中一方面，细粒度的精确检测在现实场景中具有很大的挑战性。例如，当文本分布在多行多列时，容易出现有歧义的检测结果；当文本密集聚集时，检测器很难区分词的边界。同时，由于识别模块对检测结果高度敏感，如果检测边界太松，会引入背景干扰，如果检测边界过紧，也会破坏字符的完整性；另一方面，识别器的输入通常是一个孤立的实例(如单词)，会丢失附近文本的丰富上下文信息，在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型，但它们缺乏灵活性，泛化能力有限的问题。

本发明提供的一种无需细粒度检测的场景文本提取方法，包括：

将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像；其中，所述文本块检测器由预先建立的文本块数据集训练而成；所述文本块数据集通过启发式文本块生成方法生成；

通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本。

优选地，通过启发式文本块生成方法生成所述文本块数据集的步骤，包括：

在预获取的基于单词或文本行的公共基准数据集上标注用于文本检测器训练的文本块标注；所述文本块标注包括位置信息和文本信息；

基于所述位置信息按照垂直和水平位置对所述公共基础数据集中的公共基础数据进行排序，并为所述公共数据所携带的原始标注生成最小外接矩阵标注；

基于所述最小外接矩阵标注生成所述公共数据的文本框以形成样本数据；其中，若一个公共数据中所存在的两个文本框的交并比大于预设的文本框阈值，则将所述两个文本框合并为一个文本框；

将具有文本框和文本块标注的样本数据汇总为数据集作为文本块数据集。

优选地，将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤，包括：

通过特征金字塔网络将所述文本图像输入至所述文本块检测器的残差网络的骨干网络中以获取所述文本图像的全图特征图；

通过所述文本块检测器中的区域选择网络基于所述全图特征图生成所述文本图像的待检测框；

通过所述文本检测器中的特征网络模块根据所述待检测框在所述全图特征图中选取每个块对应的块特征；

通过所述文本块检测器中的全连接层基于所述块特征对所述待检测框进行分类以确定各个类别的文本框，并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。

优选地，通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括：

通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图；

通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量。

优选地，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本的步骤，包括：

通过所述文本块识别器中的融合模块对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量，并将所述融合特征向量作为预测特征；

通过预训练的前馈神经网络对所述预测特征进行译码以输出预测文本。

优选地，所述文本块识别器由合成数据集训练而成；所述合成数据集包括标有上下文标签和视觉标签的文本块图像。

优选地，在训练所述文本块识别器的过程中，根据基于聚合交叉熵损失的字符计数监督和交叉熵损失计算损失函数；其中，计算损失函数的步骤包括：

在所述骨干网络中提取所述文本块特征图；

根据所述文本块特征图进行密集预测以获取预测参数，并根据所述预测参数获取预测统计值；

通过预设的ACE损失函数计算被训练的文本块识别器所产生的文本预测与已知的标签的差异参数，并将所述差异参数作为字符计数监督；

通过预设的交叉熵算法计算被训练的文本块识别器所产生的文本预测与已知的标签的交叉熵损失，并根据所述交叉熵损失与所述字符计数监督计算获取损失函数。

本发明还提供一种无需细粒度检测的场景文本提取系统，实现如前所述的无需细粒度检测的场景文本提取方法，包括：

文本块检测器，所述文本检测器用于对文本图像进行检测剪裁形成文本块图像；其中，所述文本块检测器由预先建立的文本块数据集训练而成；所述文本块数据集通过启发式文本块生成方法生成；

文本块识别器，所述文本块识别器用于对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本。

优选地，所述文本块识别器包括：

骨干网络，用于对所述文本块图像进行特征提取以获取文本块特征图；

基于LSTM的注意力模块，用于基于所述文本块特征图获取所述文本块图像的语义特征向量；

位置注意力模块，用于基于所述文本块特征图获取所述文本块图像的位置特征向量；

融合模块，用于对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量，并将所述融合特征向量作为预测特征；

前馈神经网络，用于对所述预测特征进行译码以输出预测文本。

优选地，所述文本块检测器包括：

残差网络的骨干网络，用于获取所述文本图像的全图特征图；

区域选择网络，用于基于所述全图特征图生成所述文本图像的待检测框；

特征网络模块，用于根据所述待检测框在所述全图特征图中选取每个块对应的块特征；

全连接层，用于基于所述块特征对所述待检测框进行分类以确定各个类别的文本框，并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。

从上面的技术方案可知，本发明提供的无需细粒度检测的场景文本提取方法，首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像；其中，文本块检测器由预先建立的文本块数据集训练而成；文本块数据集通过启发式文本块生成方法生成；再通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与预测特征相对应的预测文本，从而在对传统的基于单词/字符的细粒度检测和独立实例识别相结合的场景文本提取框架进行反思的基础上所提出的粗粒度检测和多实例识别的统一框架，减轻了检测负担，同时利用丰富的上下文信息进行识别，能够通过启发式文本块生成方法依据真实数据集生成文本块级数据集训练文本块检测器，无需细粒度检测即可实现高精度文本提取。

附图说明

通过参考以下结合附图的说明书内容，并且随着对本发明的更全面理解，本发明的其它目的及结果将更加明白及易于理解。在附图中：

图1为根据本发明实施例的无需细粒度检测的场景文本提取方法的流程图；

图2为根据本发明实施例的无需细粒度检测的场景文本提取系统的示意图。

具体实施方式

目前的文本提取方法，一方面，细粒度的精确检测在现实场景中具有很大的挑战性。例如，当文本分布在多行多列时，容易出现有歧义的检测结果；当文本密集聚集时，检测器很难区分词的边界。同时，由于识别模块对检测结果高度敏感，如果检测边界太松，会引入背景干扰，如果检测边界过紧，也会破坏字符的完整性；另一方面，识别器的输入通常是一个孤立的实例(如单词)，会丢失附近文本的丰富上下文信息，在遮挡、反射等情况下会导致识别错误。虽然一些工作涉及到基于词典的后处理或额外的语言模型，但它们缺乏灵活性，泛化能力有限。

针对上述问题，本发明提供一种无需细粒度检测的场景文本提取方法、系统，以下将结合附图对本发明的具体实施例进行详细描述。

为了说明本发明提供的无需细粒度检测的场景文本提取方法、系统，图1、图2对本发明实施例的进行了示例性标示。

以下示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。对于相关领域普通技术人员已知的技术和设备可能不作详细讨论，但在适当情况下，所述技术和设备应当被视为说明书的一部分。

如图1所示，本发明提供的本发明实施例的无需细粒度检测的场景文本提取方法，包括：

S1：将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像；其中，所述文本块检测器由预先建立的文本块数据集训练而成；所述文本块数据集通过启发式文本块生成方法生成；

S2：通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本。

如图1所示，步骤S1为将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的过程；其中，文本块检测器由预先建立的文本块数据集训练而成；文本块数据集通过启发式文本块生成方法生成；

即步骤S1为获取文本块图像的过程；获取文本块图像的过程由文本块检测器完成，其中文本块检测器由预先建立的文本块数据集训练而成；而文本块数据集通过启发式文本块生成方法生成；

具体地，通过启发式文本块生成方法生成所述文本块数据集的步骤，包括：

S01：在预获取的基于单词或文本行的公共基准数据集上标注用于文本检测器训练的文本块标注；所述文本块标注包括位置信息和文本信息；

S02：基于所述位置信息按照垂直和水平位置对所述公共基础数据集中的公共基础数据进行排序，并为所述公共数据所携带的原始标注生成最小外接矩阵标注；

S03：基于所述最小外接矩阵标注生成所述公共数据的文本框以形成样本数据；其中，若一个公共数据中所存在的两个文本框的交并比大于预设的文本框阈值，则将所述两个文本框合并为一个文本框；

S04：将具有文本框和文本块标注的样本数据汇总为数据集作为文本块数据集。

更为具体地，在本实施例中，为了使检测器能够对文本块进行定位，首先建立文本块数据集以对文本块检测器进行训练。在建立文本块数据集的过程中，注释文本块数据需要额外的成本，因此在本实施例中选择在公共基准数据集上生成文本块标注。具体地，采用启发式文本块生成方法，在基于单词或文本行的公共基准数据集标注上生成用于检测器训练的文本块级标注。更为具体地，首先为每个单词或文本行的多边形/四边形位置标注生成其外部矩形框(最小外接矩形)，并根据它们的IoU(Intersection over Union,交并比)值组合这些矩形框；该多边形/四边形是公共基准数据集上的原始标注，是原始的检测框，任意的多边形/四边形都可以生成其最小外接矩形；具体来说，文本块生成算法的步骤如下：(1)输入基于单词或文本行的数据标注，包括位置信息和文本信息；(2)对输入的数据，按照垂直和水平位置进行从左到右、至上而下的排序，以确保后续文本块生成的一致性；(3)为所有四边形/多边形的标注生成其最小外接矩形标注；(4)对于一张图像里的任意两个文本框，如果其外接矩形的交并比大于阈值，我们就将这两个文本框合成一个更大的文本块，比如可以将阈值设置为0.2。(5)重复过程(4)，直至同一张图片中的不存在有交叠的文本框。

将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤，包括：

S11：通过特征金字塔网络将所述文本图像输入至所述文本块检测器的残差网络的骨干网络中以获取所述文本图像的全图特征图；其中，该残差网络为ResNet-50；

S12：通过所述文本块检测器中的区域选择网络基于所述全图特征图生成所述文本图像的待检测框；其中，该区域选择网络为RPN网络；

S13：通过所述文本检测器中的特征网络模块根据所述待检测框在所述全图特征图中选取每个块对应的块特征；其中，该特征网络模块为RoI pooling layer网络；

S14：通过所述文本块检测器中的全连接层基于所述块特征对所述待检测框进行分类以确定各个类别的文本框，并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像。

具体地，在本实施例中，为了验证块级框架的有效性和鲁棒性，在本实施例中采用Faster R-CNN模型作为文本块检测器，利用文本块生成算法构建的文本块数据集对检测器进行训练。训练和使用地过程是相同的，训练仅仅比使用多一个检测-反馈-再训练的过程，当结束训练之后，应用训练好的文本块检测器时，在文本块检测器中，首先将输入图像(文本块图像)通过特征金字塔网络(FPN)输入到ResNet-50的骨干网络中，为全图提取特征获取全图特征图，然后将得到的全图特征图送入RPN(Region Proposal Network)中，通过RPN生成待检测框；而后RoI Pooling Layer根据RPN输出的待检测框在特征图上面选取每个RoI对应的块特征，并将块特征的维度置为定值；最后，使用全连接层对框进行分类，产生块级文本框，而后根据块级文本框将裁剪后的文本块图像将被送入以下的文本块识别模块。

步骤S2为通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本的过程；

步骤S2由文本块识别器执行，文本块识别的困难主要来自更灵活的文本安排和更长的序列长度。在文本块识别方面，可以采用基于LSTM的注意力模块作为基本框架的编码器-解码器。尽管基于注意的方法具有隐式上下文引导的灵活性，但在公共合成数据集上训练的现有模型在预测空白位置方面存在困难，而且通常无法感知到文本块中的字尾或行尾信息，因此，在本实施例中，文本块识别器由合成数据集训练而成；合成数据集包括标有上下文标签和视觉标签的文本块图像，即将上下文标签集成到块级识别中，并生成一个包含800K文本块图像的合成数据集，称为SynthBlock，用于训练文本块识别器；上下文标签(Contextual Label)是指的标注单词结束符(End-Of-Word(<EOW>))、文本行结束符(End-Of-Line(<EOL>))的标签，使模型更加关注文本块的排列。为了减轻长文本序列中涉及的注意漂移和字符丢失问题，进一步采用位置注意模块来编码位置线索，并采用聚合交叉熵(Aggregation Cross-Entropy,ACE)损失作为额外的计数监督。位置注意模块并行地将字符索引信息转录成位置瞥见，并在解码过程中增强位置线索。ACE是一种密集的预测模式，在计数问题上表现良好，它将特征图中的每个像素解释为一个概率分布。所设计的识别器能够利用块的丰富的上下文特征，更适合于各种排列和长文本的识别。

更为具体地，通过合成数据集训练文本块识别器时有两种类型的标签:视觉标签和上下文标签，视觉标签(Visual labels)是文本中的可读字符，包括数字和小写字符；上下文标签(Contextual labels)，除了通常使用的End-Of-Sequence(<EOS>)标签外，我们添加额外的End-Of-Word(<EOW>)和End-Of-Line(<EOL>)标签；这些标签构成了输出层的整个分类空间。

并且，在本实施例中，训练文本块识别器的过程中，根据基于聚合交叉熵损失的字符计数和交叉熵损失监督计算损失函数；其中，计算损失函数的步骤包括：

在所述骨干网络中提取所述文本块特征图；

更为具体的，即首先对从骨干网络中提取得到的特征图F进行密集预测，即对每一个像素位置(i,j)的特征f_i,j预测：

M＝FFN(F)

M为每个像素值的预测结果，

是第k类字符在整张特征图上被预测的统计值，/>

为归一化后的数值。

与普通的识别任务相比，ACE损失函数忽略了字符出现的顺序，将输出序列化到最后的字符串。ACE损失定义如下，即计算预测分布与标签分布的差异：

其中K为字符类总数加一个空白符号，

和/>

为第k类特征图中每个像素标注的规范化字符出现次数和密集预测结果。/>

可以很容易地从原始序列注释中通过计数获得。

而后计算损失函数，损失函数由两部分组成：

L＝L_CE+λL_ACE

其中，L_CE是预测输出与训练标签的交叉熵损失，L_ACE为字符数量监督，由前文公式计算得到，λ为两种损失的平衡参数。

最后根据损失函数确定文本块识别器是否训练完成，当算是函数小于预设的损失阈值之后，将最后一次训练完成的文本块识别器作为最终的文本块识别器。

训练完文本块识别器之后，进行步骤S2，通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括：

S211：通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图；

S212：通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量。

基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本的步骤，包括：

S221：通过所述文本块识别器中的融合模块对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量，并将所述融合特征向量作为预测特征；

S222：通过预训练的前馈神经网络对所述预测特征进行译码以输出预测文本。

具体地，在步骤S211中，通过所述文本块识别器中的骨干网络对所述文本块图像进行特征提取以获取文本块特征图；

更为具体的，使用FPN通过ResNet-50的骨干网络提取视觉特征，为了获得更大的感受野，同时区分前景和背景信息，在本实施例中，在ResNet-50后堆叠两个TransformerUnit，给定一个文本块图像x，让f表示特征提取器，提取的文本块特征图可以表示为:

其中，F表示泛化的一个大的文本块特征图，f_i,j表示F的子集，以f_i,j表示与每一个小的文本块对应的文本块特征图；

在步骤S212中，通过所述文本块识别器中的基于LSTM的注意力模块、位置注意力模块分别基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量；

具体地，基于LSTM的注意力模块在每个时间步t中，LSTM首先利用之前时间步预测的字符y_t-1和隐藏状态h_t-1生成隐藏状态h_t，h_t作为注意力模块的查询向量，与骨干网络提取的特征图f_i,j融合，来估计注意力图

将/>

与特征图f_i，j加权求和计算一个语义特征向量/>

计算过程如下：

h_t＝LSTM(y_t-1,h_t-1)

其中，其中y_t-1和h_t-1分别是t-1时间步长的LSTM的输出和隐状态，f_i,j是特征图F中位置(i，j)的局部特征向量。为了计算每个位置(i，j)的注意权值

是t时间步的局部特征的加权和，被认为是语义特征向量。Wf、Wh和Wg是可训练的参数。

位置注意力模块用于通过位置信息在字符索引位置的定位中起着至关重要的作用，尤其是在处理较长的文本和不规则形状时。为了解决这个问题，我们使用了一个位置注意模块，基于查询范式，将字符索引信息并行转录到位置特征向量g_p，对位置信息进行增强，过程如下:

其中Q是长度为T的字符顺序的位置嵌入。K和V是从骨干网络获得的特征图，C为特征图的通道数。即字符索引信息作为Query,特征图作为Key和Value，基于上述公式计算得到位置特征向量g_p。

而后进行步骤S221：通过所述文本块识别器中的融合模块对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量，并将所述融合特征向量作为预测特征；

即将语义特征和位置特征动态地融合在一起获取融合特征向量

其中，

是t时间步的融合特征向量(预测特征)；

最后进行步骤S222：通过预训练的前馈神经网络对所述预测特征进行译码以输出预测文本；

即将预测特征送到FFN(Feed-Forward Network,前馈神经网络)进行最终的预测，y_t是译码过程在时间步长t的输出：

如此，译码之后得到与预测特征相对应的预测文本，完成场景文本提取的全过程。

为了验证本发明实施例中无需细粒度检测的场景文本提取方法的有效性，在实验中公平客观地与其他端到端评价方法进行比较，采用度量方法EEM，并对通用的端到端评价度量F-measure进行了修改。EEM通过寻找与某ground truth框面积交点最大的检测框来选择最佳匹配检测结果。在匹配步骤之后，我们在合并步骤中将共享公共元素的匹配集合并成大的组。然后在新的ground truth和识别结果之间计算匹配组的编辑距离。

考虑到F-measure不适用于块级框架，我们将原始F-measure度量修改为广义F-measure：当一个词与检测块匹配并被准确识别时，我们认为该词被正确定位识别。匹配条件定义如下，在我们的实验中，thr被设置为0.4。

实验结果表明，检测模型在RealBlock数据集上进行训练，识别模型在虚拟数据集Synth90K和SynthText上进行预训练，在SynthBlock上进行微调，在主流的端到端提取数据集上进行了测试。

表1对比了是否采用块级后处理的比较结果，在本发明实施例的无需细粒度检测的场景文本提取方法中使用Faster R-CNN和EAST作为单词级检测器。对于分块后处理的实验，根据算法生成分块级的结果，然后将它们输入文本块识别器。如表1所示，当采用额外的文本块后处理时，Faster R-CNN和EAST的f-measure分别提高了2.3％和3.5％。NS评分分别提高了2.4％和1.9％。正如之前提到的，文本块的设计可以减轻检测结果不完整带来的负面影响，为识别器提供上下文信息。

方法	块级后处理	NS(％)	F-measure(％)
				Faster R-CNN+Rec.	否	72.7	64.7
Faster R-CNN+Block Rec.	是	75.1	67.0
				EAST+Rec.	否	71.2	59.4
EAST+Block Rec.	是	73.1	62.9

表1是否采用块级后处理的比较结果

表2对比了本发明实施例提出的无需细粒度检测的场景文本提取方法与之前的方法在三种特殊数据子集上的性能，它们分别主要包括具有歧义、密集和低质量的文本实例。如表2所示，TextBlock在三种数据子集上与之前的方法，具有明显的性能提升。说明了TextBlock的鲁棒性较好，能够在避免检测的不足的同时，具有更有效的识别。

表2与之前的方法在三种特殊数据子集上的性能

表3在端到端提取数据集上对比了TextBlock与之前的端到端提取框架的性能。虽然TextBlock只需要粗略的块级框注释，但仍然获得了与先进方法可比甚至优于的结果。

表3端到端提取数据集ICDAR2015上性能对比

如上所述，本发明提供的无需细粒度检测的场景文本提取方法，首先将所获取的文本图像输入至预训练的文本块检测器中以使文本块检测器对文本图像进行检测剪裁形成文本块图像；其中，文本块检测器由预先建立的文本块数据集训练而成；文本块数据集通过启发式文本块生成方法生成；再通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与预测特征相对应的预测文本，从而在对传统的基于单词/字符的细粒度检测和独立实例识别相结合的场景文本提取框架进行反思的基础上所提出的粗粒度检测和多实例识别的统一框架，减轻了检测负担，同时利用丰富的上下文信息进行识别，能够通过启发式文本块生成方法依据真实数据集生成文本块级数据集训练文本块检测器，无需细粒度检测即可实现高精度文本提取。

如图2所示，本发明还提供一种无需细粒度检测的场景文本提取系统100，实现如前所述的无需细粒度检测的场景文本提取方法，包括：

文本块检测器101，所述文本检测器用于对文本图像进行检测剪裁形成文本块图像；其中，所述文本块检测器由预先建立的文本块数据集训练而成；所述文本块数据集通过启发式文本块生成方法生成；

文本块识别器102，所述文本块识别器用于对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本。

其中，文本块检测器101包括：

残差网络的骨干网络1011，用于获取所述文本图像的全图特征图；

区域选择网络1012，用于基于所述全图特征图生成所述文本图像的待检测框；

特征网络模块1013，根据所述待检测框在所述全图特征图中选取每个块对应的块特征；其中，该特征网络模块为RoI pooling layer网络；

全连接层1014，用于基于所述块特征对所述待检测框进行分类以确定各个类别的文本框，并基于所述各个类别的文本框对所述文本图像进行裁剪以生成文本块图像；

其中，文本块识别器102包括：

骨干网络1021，用于对所述文本块图像进行特征提取以获取文本块特征图；

基于LSTM的注意力模块1022，用于基于所述文本块特征图获取所述文本块图像的语义特征向量；

位置注意力模块1023，用于基于所述文本块特征图获取所述文本块图像的位置特征向量；

融合模块1024，用于对所述语义特征向量和所述位置特征向量进行特征融合以获取融合特征向量，并将所述融合特征向量作为预测特征；

前馈神经网络1025，用于对所述预测特征进行译码以输出预测文本

所述无需细粒度检测的场景文本提取系统的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不作赘述。

本发明提供的需细粒度检测的场景文本提取方法，首先将所获取的文本图像输入至预训练的文本块检测器101中以使文本块检测器对文本图像进行检测剪裁形成文本块图像；其中，文本块检测器由预先建立的文本块数据集训练而成；文本块数据集通过启发式文本块生成方法生成；再通过预训练的文本块识别器102对所述文本块图像进行特征提取以获取文本块特征图，基于文本块特征图获取所述文本块图像的语义特征向量和位置特征向量，基于语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与预测特征相对应的预测文本，从而在对传统的基于单词/字符的细粒度检测和独立实例识别相结合的场景文本提取框架进行反思的基础上所提出的粗粒度检测和多实例识别的统一框架，减轻了检测负担，同时利用丰富的上下文信息进行识别，能够通过启发式文本块生成方法依据真实数据集生成文本块级数据集训练文本块检测器，无需细粒度检测即可实现高精度文本提取。

如上参照附图以示例的方式描述了根据本发明提出的无需细粒度检测的场景文本提取方法、系统、电子设备。但是，本领域技术人员应当理解，对于上述本发明所提出的无需细粒度检测的场景文本提取方法、系统、电子设备，还可以在不脱离本发明内容的基础上做出各种改进。因此，本发明的保护范围应当由所附的权利要求书的内容确定。

Claims

1.一种无需细粒度检测的场景文本提取方法，其特征在于，包括：

2.如权利要求1所述的无需细粒度检测的场景文本提取方法，其特征在于，通过启发式文本块生成方法生成所述文本块数据集的步骤，包括：

3.如权利要求2所述的无需细粒度检测的场景文本提取方法，其特征在于，将所获取的文本图像输入至预训练的文本块检测器中以使所述文本块检测器对所述文本图像进行检测剪裁形成文本块图像的步骤，包括：

4.如权利要求3所述的无需细粒度检测的场景文本提取方法，其特征在于，通过预训练的文本块识别器对所述文本块图像进行特征提取以获取文本块特征图，基于所述文本块特征图获取所述文本块图像的语义特征向量和位置特征向量的步骤包括：

5.如权利要求4所述的无需细粒度检测的场景文本提取方法，其特征在于，基于所述语义特征向量和所述位置特征向量进行特征融合和拼接以获取预测特征，并获取与所述预测特征相对应的预测文本的步骤，包括：

6.如权利要求5所述的无需细粒度检测的场景文本提取方法，其特征在于，

所述文本块识别器由合成数据集训练而成；所述合成数据集包括标有上下文标签和视觉标签的文本块图像。

7.如权利要求4所述的无需细粒度检测的场景文本提取方法，其特征在于，在训练所述文本块识别器的过程中，根据基于聚合交叉熵损失的字符计数监督和交叉熵损失计算损失函数；其中，计算损失函数的步骤包括：

在所述骨干网络中提取所述文本块特征图；

8.一种无需细粒度检测的场景文本提取系统，实现如权利要求1-7任一所述的无需细粒度检测的场景文本提取方法，包括：

9.如权利要求8所述的无需细粒度检测的场景文本提取系统，其特征在于，所述文本块识别器包括：

10.如权利要求9所述的无需细粒度检测的场景文本提取系统，其特征在于，所述文本块检测器包括：