CN110032998B

CN110032998B - 自然场景图片的文字检测方法、系统、装置和存储介质

Info

Publication number: CN110032998B
Application number: CN201910203986.5A
Authority: CN
Inventors: 肖菁; 谢鹏源; 李晶晶; 曹阳; 朱佳
Original assignee: South China Normal University
Current assignee: GUANGZHOU TUYU INFORMATION TECHNOLOGY Co.,Ltd.
Priority date: 2019-03-18
Filing date: 2019-03-18
Publication date: 2021-03-23
Anticipated expiration: 2039-03-18
Also published as: CN110032998A

Abstract

本发明公开了一种自然场景图片的文字检测方法、系统、装置和存储介质，其中方法包括以下步骤：获取待检测的图片后，将图片输入预设的文字检测模型；采用文字检测模型获取图片的第一文字特征；结合第一文字特征和预设的特征融合方式获取第二文字特征；根据第二文字特征进行文字区域检测后，输出边界框检测图。本发明通过文字检测模型先获取待检测的图片的第一文字特征，在结合预设的特征融合方式对第一文字特征进行优化后，从而获得获取高分辨率和高语义的特征，进而能够获得不同大小的文字，极大地提高了文字检测的精确率，可广泛应用于计算机图像处理技术领域。

Description

自然场景图片的文字检测方法、系统、装置和存储介质

技术领域

本发明涉及计算机图像处理技术领域，尤其涉及一种自然场景图片的文字检测方法、系统、装置和存储介质。

背景技术

日常生活中的图片往往包含文字，为了能更好地理解图片中文字的信息，需要使用文字检测与文字识别技术。其中文字检测尤为重要，因为它会直接影响后续的文字识别的识别率。文字检测类似于目标检测，它的主要任务为检测图片中的文字区域。自然场景下的文字检测有别于传统的印刷文档中的文字检测，印刷文档中的文字字体规范且排列整齐，文字与背景之间具有明显的差异性，从而背景信息对文字难以造成强烈的干扰。然而在自然场景图片中，文字具有多样性，包括大小、方向、纵横比、字体和颜色等。不仅如此，自然场景中的背景复杂，有许多类似文字笔画的物体干扰，如栅栏和格子。

目前主要有三种类型的场景文字检测方法，基于文字区域建议的方法、基于语义分割的方法和直接回归的方法。基于文字区域建议的方法主要使用Faster-RCNN(FasterRegion-based Convolutional Neural Networks)或SSD(Single Shot MultiBoxDetector)网络结构进行扩展。这种方法首先以每一个像素点为中心生成多个先验的检测框，再判断这些检测框内是否包含完整的文字，最后对包含完整的文字的检测框进行精修从而贴合文字边界。基于语义分割的方法是对图像进行像素级别的分类，判断每一个像素点是否属于文字区域，最后使用后处理方法对预测的文字区域生成文字边界框。直接回归方法类似于语义分割的方法，首先判断每一个像素点是否属于文字区域，不同的是，直接回归方法是在每一个像素点的位置直接生成它当前所在的文字区域的边界框。上述这些方法对于小文字的检测效果不佳，存在漏检小文字或无法正确划分小文字的问题，从而导致小文字的信息丢失。

名称解释：

文字检测：文字检测指的是检测图片中所包含的文字区域。

ReLU：一种激活函数。

NMS：非极大值抑制(Non-Maximum Suppression，NMS)。

FCN：全卷积网络(Fully Convolutional Networks，FCN)。

RefineText：优化的文字检测方法。

发明内容

为了解决上述技术问题，本发明的目的是提供一种能够全面地检测图片中大小不同的文字，都能精确定位文字的边界的文字检测方法、系统、装置和存储介质。

本发明所采用的第一技术方案是：

一种自然场景图片的文字检测方法，包括以下步骤：

采用文字检测模型获取图片的第一文字特征；

结合第一文字特征和预设的特征融合方式获取第二文字特征；

根据第二文字特征进行文字区域检测后，输出边界框检测图。

进一步，所述第一文字特征包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，所述采用文字检测模型获取图片的第一文字特征这一步骤，具体为：

采用预设的深度神经网络模型获取对图片进行特征提取处理，并依次获得第一特征图、第二特征图、第三特征图、第四特征图和第五特征图；

所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降。

进一步，所述结合第一文字特征和预设的特征融合方式获取第二文字特征这一步骤，具体包括以下步骤：

对第五特征图进行深度挖掘后，获取第一优化特征图；

对第四特征图进行深度挖掘后获取第二优化特征图，并结合第一优化特征图和第二优化特征图生成第一融合特征图；

对第三特征图进行深度挖掘后获取第三优化特征图，并结合第三优化特征图和第一融合特征图生成第二融合特征图；

对第二特征图进行深度挖掘后获取第四优化特征图，并结合第四优化特征图和第二融合特征图生成第三融合特征图作为第二文字特征。

进一步，所述对第五特征图进行深度挖掘后，获取第一优化特征图这一步骤，具体为：

采用第一预设卷积层降低第五特征图的通道数量；

采用第一预设残差构建块对第五特征图进行深度挖掘后，获取第一优化特征图。

进一步，所述对第四特征图进行深度挖掘后获取第二优化特征图，并结合第一优化特征图和第二优化特征图生成第一融合特征图这一步骤，具体包括以下步骤：

采用第一预设卷积层降低第四特征图的通道数量；

采用第一预设残差构建块对第四特征图进行深度挖掘后，获取第二优化特征图；

对第一优化特征图进行上采样处理后，将第二优化特征图和第一优化特征图进行加法处理，并获得初步融合特征图；

采用第二预设卷积层对初步融合特征图进行转义处理，并采用预设的残差池化构建块对初步融合特征图进行深度挖掘；

采用第二预设残差构建块对经过残差池化构建块深度挖掘的初步融合特征图进行处理后，输出第一融合特征图。

进一步，所述文字检测模型采用组合损失函数进行训练，所述组合损失函数公式为：

L＝L_cls+λ_regL_reg

其中所述L_cls为分类损失函数，所述L_reg为回归损失函数，所述λ_reg为平衡分类损失函数和回归损失函数的系数。

进一步，所述将图片输入预设的文字检测模型这一步骤，具体包括以下步骤：

依次对待检测的图片进行缩放处理后，获得放大尺寸图片、原尺寸图片和缩小尺寸图片；

依次将放大尺寸图片、原尺寸图片和缩小尺寸图片输入预设的文字检测模型；

所述根据第二文字特征进行文字区域检测后，输出边界框检测图这一步骤，具体包括以下步骤：

根据各图片的第二文字特征进行文字区域检测后，获得三个边界框检测图；

将三个边界框检测图进行融合后，输出最终的边界框检测图。

本发明所采用的第二技术方案是：

一种自然场景图片的文字检测系统，包括：

图片输入模块，用于获取待检测的图片后，将图片输入预设的文字检测模型；

特征提取模块，用于采用文字检测模型获取图片的第一文字特征；

特征优化模块，用于结合第一文字特征和预设的特征融合方式获取第二文字特征；

检测输出模块，用于根据第二文字特征进行文字区域检测后，输出边界框检测图。

本发明所采用的第三技术方案是：

一种计算机代码自动生成装置，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行上述方法。

本发明所采用的第四技术方案是：

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如上述的方法。

本发明的有益效果是：本发明通过文字检测模型先获取待检测的图片的第一文字特征，在结合预设的特征融合方式对第一文字特征进行优化后，从而获得获取高分辨率和高语义的特征，进而能够获得不同大小的文字，极大地提高了文字检测的精确率。

附图说明

图1是一种自然场景图片的文字检测方法的步骤流程图；

图2是具体实施例中对第一文字特征进行融合优化的结构示意图；

图3是具体实施例中采用多尺度进行测试的示意图；

图4是一种自然场景图片的文字检测系统的结构框图。

具体实施方式

实施例一

如图1所示，本实施例提供一种自然场景图片的文字检测方法，包括以下步骤：

S1、获取待检测的图片后，将图片输入预设的文字检测模型；

S2、采用文字检测模型获取图片的第一文字特征。

S3、结合第一文字特征和预设的特征融合方式获取第二文字特征；

S4、根据第二文字特征进行文字区域检测后，输出边界框检测图。

现有的文字检测方法中对于小文字的检测效果不佳，主要是存在漏检小文字或无法正确划分小文字的问题。这是由于现有的文字检测算法没能深度挖掘浅层特征的文字信息，从而导致小文字的信息丢失。

本方法将待检测的图片输入文字检测模型后，先提取图片中的特征，即第一文字特征，再结合特征融合方式对第一文字特征进行优化，获得第二文字特征，此时的第二文字特征是高分辨率和高语义的特征，根据该特征进行文字区域检测，能检测并划分密集的文字区域，对于不同大小的文字，能够精确地定位文字的边界，极大地提高文字的检测能力，为后面进行文字识别提供更加有利的数据。

其中，所述边界框检测图包括得分图、文字边界图和文字角度图。得分图上的每一个像素点代表对应图片上的像素点属于文字的概率，若为文字则为1，否则为0。文字边界图每一个像素点对应4个值，分别为该点到所在文字边界框的上、下、左、右的距离。对于每一个预测的文字边界框，当且仅当它的存在概率大于预设的阈值时，才被认为是有效的。这些是现有的技术，在此不一一赘述。

其中，所述第一文字特征包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，所述步骤S2具体为：

采用预设的深度神经网络模型获取对图片进行特征提取处理，并依次获得第一特征图、第二特征图、第三特征图、第四特征图和第五特征图。所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降。

经过深度神经网络模型进行特征提取，即将图片转换为特征，所述深度神经网络模型为ResNet-50，该模型能够很好地挖掘数据的特征信息。经过深度神经网络模型的提取后，获得第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降，所述特征图的分辨率依次为原图的第一特征图1/2、1/4、1/8、1/16和1/32。

所述步骤S3具体包括步骤S31～S33：

S31、对第五特征图进行深度挖掘后，获取第一优化特征图；

S32、对第四特征图进行深度挖掘后获取第二优化特征图，并结合第一优化特征图和第二优化特征图生成第一融合特征图；

S33、对第三特征图进行深度挖掘后获取第三优化特征图，并结合第三优化特征图和第一融合特征图生成第二融合特征图；

S34、对第二特征图进行深度挖掘后获取第四优化特征图，并结合第四优化特征图和第二融合特征图生成第三融合特征图作为第二文字特征。

为了获取不同语义和不同分辨率的特征，我们提取ResNet-50中的第二阶段到第五阶段的特征，即获取第二特征图、第三特征图、第四特征图和第五特征图进行融合优化。低阶段的特征分辨率高，容易捕捉小文字；高阶段的特征分辨率低，容易捕捉大文字。为了获取能捕捉各种大小文字的特征图，从高阶段往低阶段将相邻两个阶段的特征进行融合，从而最终得到高语义高分辨率的特征。

所述步骤S31包括步骤A1～A2：

A1、采用第一预设卷积层降低第五特征图的通道数量；

A2、采用第一预设残差构建块对第五特征图进行深度挖掘后，获取第一优化特征图。

所述步骤S32包括步骤B1～B5：

B1、采用第一预设卷积层降低第四特征图的通道数量；

B2、采用第一预设残差构建块对第四特征图进行深度挖掘后，获取第二优化特征图；

B3、对第一优化特征图进行上采样处理后，将第二优化特征图和第一优化特征图进行加法处理，并获得初步融合特征图；

B4、采用第二预设卷积层对初步融合特征图进行转义处理，并采用预设的残差池化构建块对初步融合特征图进行深度挖掘；

B5、采用第二预设残差构建块对经过残差池化构建块深度挖掘的初步融合特征图进行处理后，输出第一融合特征图。

过去常使用特征提取器中最后一阶段的特征图来预测文字区域，然而最后一阶段的特征图一般是经过32倍缩小的，对小的且密集的文字的检测效果不太理想。目前还有一种方式是使用全卷积网络(Fully Convolutional Networks，FCN)的网络结构，它通过从高到低逐级融合相邻的两个阶段的特征，从而获得强语义且高分辨率的特征。虽然FCN有很好的表现效果，但对于文字检测这个任务来说还是有所欠缺。这主要是因为文字检测任务中往往存在许多小的且密集的文字区域，而FCN对特征的融合和优化的处理过程过于简单。因此，参照图2，本实施例在对特征进行优化过程中，先对每一个阶段的特征进行深度挖掘后，再与上一阶段的特征进行融合，最后进行一次深度优化。这一操作不仅能加强各阶段的特征的语义，而且能更好地融合相邻阶段的特征。

所述第一预设卷积层为一个1x1卷积层(Convolutional Layer)，每次卷积操作后，使用ReLU(Rectified Linear Units)作为激活函数。所述第一预设残差构建块为两个残差构建块(Residual Building Block，RBB)，这是一种ResNet的基础构建块，能深度挖掘和保留特征的信息。在进行特征图片融合之前，由于两个阶段的特征图的分辨率不同，所以低分辨率特征图需要先进行上采样(Upsampling)处理后，再与高分辨率特征图进行像素级别的加法处理。所述第二预设卷积层为一个3x3的卷积层，对融合后的特征进行转义操作。为了获取背景上下文信息以区分前景的文字区域，转义后的特征会通过残差池化构建块，所述残差池化构建块为2个残差池化构建块(Residual Pooling Block，RPB)，由一个5x5的最大池化层(MaxPooling Layer)与一个3x3的卷积层组成，它将输入的特征与处理后的特征进行像素级别的加法操作。经过RPB处理后的特征再经过第二预设残差构建块处理作为FRM的最终输出特征，所述第二预设残差构建块为一个残差构建块(Residual BuildingBlock，RBB)。经过上述处理后，输出的特征具有高语义和高分辨率的特点。将多次特征进行迭代融合，最终输出第三融合特征图作为第二文字特征，此时第二文字特征具有非常高的语义和分辨率，再根据第三融合特征图获取得分图、文字边界图和文字角度图，能更好地从浅层特征中挖掘小文字的信息，获取到不同大小的文字的边界，极大地提高了文字检测的精确率。

进一步作为优选的实施方式，所述文字检测模型采用组合损失函数进行训练，所述组合

损失函数公式为：

L＝L_cls+λ_regL_reg

本实施例采用多任务学习的方法将分类任务和回归任务共同训练来优化网络中的参数，具体的组合损失函数如公式(1)所示，其中L_cls和L_reg分别代表分类任务和回归任务的损失损失函数，λ_reg作为超参数用于平衡两个任务的损失函数，在本实施例中我们将设为1。

L＝L_cls+λ_regL_reg (1)

文字检测的分类任务是像素级别的分类任务。属于文字区域的像素点为正样本，属于背景的像素点则为负样本。由于在一张自然场景的图片当中，文字区域往往是很少的，所以类不均衡的问题在文字检测任务中十分严重。在大多数的文字边界模型中，类平衡采样和困难样本挖掘的方法常被用于处理类不均衡的问题。虽然这两种方法都能提高整体模型的检测效果，但是需要更多的参数进行调试和更复杂的模型结构。为了更简单和更有效的处理过程，本实施例使用了Dice系数，Dice系数是一种集合相似度度量函数，在语义分割任务中常被用于评估得分图的质量。它的定义如公式(2)所示，其中P和T分别代表预测的得分图和真实的得分图，|.|表示集合中的元素数量，P∩T表示P和T的交集。

对于旋转的边界框的回归损失计算，我们采用重叠度损失函数和旋转角度损失函数。这可以很好地针对不同大小和角度的文字区域。它的定义如公式(3)所示，其中L_IoU代表重叠度损失函数，L_angle代表旋转角度损失函数，λ_θ作为超参数用于平衡两个损失函数，在本实施例中我们将其设为10。公式(4)为重叠度损失函数的定义，其中R代表预测的文字边界框，R^*代表真实的文字边界框。公式(5)为旋转角度损失函数的定义，θ代表预测的旋转角度，θ^*代表真实的旋转角度。

L_reg＝L_IoU+λ_θL_。ngle (3)

L_angle(θ，θ^*)＝1-cos(θ-θ^*) (5)

进一步作为优选的实施方式，所述步骤S1具体包括步骤S11～S12：

S11、依次对待检测的图片进行缩放处理后，获得放大尺寸图片、原尺寸图片和缩小尺寸图片；

S12、依次将放大尺寸图片、原尺寸图片和缩小尺寸图片输入预设的文字检测模型。

所述步骤S4包括步骤S41～S42：

S41、根据各图片的第二文字特征进行文字区域检测后，获得三个边界框检测图；

S42、将三个边界框检测图进行融合后，输出最终的边界框检测图。

在检测任务中，多尺度测试是一种能提高召回率的技术。传统上，研究人员首先将待输入的图片生成多个尺度的图像组。组内每一个尺度的图片都分别输入到模型中，获得带分数的文字边界框。最后将所有带分数的文字边界框使用NMS算法去冗余后获得最终输出。然而，一些错误的文字边界框难以被抑制，这会导致检测结果的精度低。例如，图片经过缩小处理后，一些相邻的文字可能会变得非常小，模型可能将它们视为单个文字。相反，图片经过放大后，大文字可能变得非常大，模型可能将其视为一组文字。此外，在调整图像大小时，许多类似于文字笔划的图案(例如栅栏，格子)会被错误地识别为文字。为了缓解上述问题，本实施例提出了一种新的多尺度测试方法，如图3所示。首先，采用文字检测模型对于不同尺度的图像生成相应的文字边界框。然后根据尺度变化过滤不同大小的文字边界框。对于大尺度的图像，则过滤超过预设大小的文字边界框；对于小尺度的图像，则过滤小于预设大小的文字边界框；对于原尺度的图像，则保留所有文字边界框。过滤所采用的阈值可从训练集中学习得到。本实施例中缩放后的文字边界框的存在概率均设置为1，用于抑制原始尺度中冗余的文字边界框。最后，将所有保留的文字边界框重新调整为原始比例，并共同使用NMS过滤冗余的文字边界框以获得最终结果。具有过滤过程的多尺度测试技术主要通过添加新的有效文字边界框或抑制原始尺度中的无效文字边界框来提高RefineText对文字的检测性能。

将本实施例的自然场景图片的文字检测方法与现有的文字检测方法进行实验结果对比。

一、实验环境

运行环境：6核，Intel Xeon E5-2620处理器，64GB内存，Titan X显卡，Ubuntu16.04操作系统。

二、数据集的选择

选择了三个来自现实生活的数据集，三个数据集分别如下：

(1)、ICDAR2015：是2015年ICDAR举办的健全阅读挑战赛中使用的数据集，该数据集被广泛应用于多方向的自然场景文字检测任务中。该数据集共有1500张图片，其中1000张作为训练集，剩下的500张作为测试集。该数据集中文字均为英文，文字区域为任意方向的，且以单词为单位进行标注。

(2)、MSRA-TD500：是一个包含中文和英文的数据集。该数据集有300张作为训练集的图片与200张作为测试集的图片。该数据集的文字区域为任意方向的，且以一行文字为单位进行标注。

(3)、ICDAR2013：是2013年ICDAR举办的健全阅读挑战赛中使用的数据集。该数据集包含229张作为训练集的图片与233张作为测试集的图片。该数据集中文字均为英文，文字区域为仅为水平方向的，且以单词为单位进行标注。

三、方法选择

本实施例提出的检测方法简称为RefineText，选择了如下五种目前最先进的文字检测算法作为对比算法：

(1)、Text-Block FCN：先将特征提取网络中各阶段所获得的特征进行融合，再在融合特征图上判断每个像素是否属于文字区域，输出得到预测得分图，最后利用最大稳定极值区域(Maximally Stable Extremal Regions，MSER)算法在得分图上生成文字边界框。

(2)、CTPN：先通过卷积神经网络提取图像特征，再利用循环神经网络生成定宽不定高的矩形锚检测单词或者文字行的局部区域，最后将相邻且高度重合度大于0.7的矩形锚进行合并，所有矩形锚合并后则生成对应的文字边界框。

(3)、HED-based：先使用改进后的边缘检测(Holistically-Nested EdgeDetection，HED)得到文字区域级别的分类图、文字级别的分类图和文字间的连接关系图。然后以每个文字区域上的文字作为顶点，文字之间的相似性作为边，构建图模型，用最大生成树求最小割，得到每个文字边界框。

(4)、SegLink：先检测单词或者文字行的局部区域,再将这些局部区域连接起来形成一个完整的单词或者文字行。它将文字检测任务分解成两个子任务:检测文字片段和预测片段之间的连接关系。其中,片段是具有方向的矩形锚,它们覆盖着单词或者文字行的一部分；片段之间的连接关系是指两个片段是否属于同一个单词或文字行。具有连接关系的片段合并后生成对应的文字边界框。

(5)、EAST：先使用FCN网络生成特征图，然后在特征图上输出得分图和几何结构图，其中分数表示该点为文字的置信概率，几何结构则表示该点距离预测文字边界框的距离(上下左右)以及文字边界框相对于水平方向的旋转角度。根据点的位置与几何结构可生成文字边界框。在得分图上超过一定阈值的点对应的文字边界框才是有效的。

三、性能评价指标

实验中采用了以下几种性能评价指标，其中TP是正确预测的文字边界框，E是所

有预测的文字边界框，T是所有真实的文字边界框，|·|表示集合中的元素数量：

(1)准确度(Precision)

(2)召回率(Recall)

(3)F₁分数(F₁Score)

四、实验结果对比

本实施例使用在ImageNet上训练后的模型作为我们的预训练模型。训练步骤包括两个过程：1)使用ICDAR2017数据集训练网络10次迭代，2)使用实验的数据集进行微调，直到模型收敛。本发明使用的模型采用自适矩估计(Adaptive Moment Eestimation，ADAM)优化器进行训练。为了加速训练过程，先将训练样本进行随机裁剪，裁剪后的样本包含所有文字区域，然后再调整为512x512大小，每次执行一步使用的批数量为12。ADAM的学习率从0.0001开始，衰减速率为0.92，最大执行步数为100000，每5000执行步数更新一次学习率，当性能不在提高时停止训练。本文所采用的ResNet-50与FCN网络都是基于深度学习模型TensorFlow并均为Python实现。

首先，在ICDAR2015上评估我们的算法。我们使用1000张ICDAR2015训练集中的图片与229张ICDAR2013训练集中的图片进行微调我们的模型，训练步数共30000。在ICDAR2015中存在一些模糊不清、难以辨认的文字区域，均被标注为“忽略”，我们在训练中选择忽略它们。如表1所示(表1为各算法在ICDAR2015上的对比结果)，我们提出的算法的性能显著地超越现有的算法，其中RefineText MS代表本实施例中使用了多尺度测试的检测方法。在复杂的自然场景上下文中，我们的算法也能够很好地检测小文字。由于我们使用的是像素级别的预测方式，我们的算法能够精确地划分非常邻近的文字。

表1

为了进一步验证我们的算法的有效性，我们以一行文字为单位检测多语言的文字。由于MSRA-TD500仅有300张训练图片，这会导致模型难以学习到深层特征。为了解决这个问题，我们加入HUST-TR400数据集一同进行微调训练。HUST-TR400与MSRA-TD500类似，也是以一行文字为单位进行标注的数据集，但文字仅为英文，共有400张图片。由于MSRA-TD500中的大部分图片都相当大，所以在测试阶段我们将图片的长边调整为768，短边则根据比例进行缩放。训练步数共10000步。如表2所示(表2为各算法在MSRA-TD500上的对比结果)，我们的算法达到了最高的F₁分数。

表2

算法	召回率	精确率	F<sub>1</sub>分数
				Text-Block FCN	67	83	74
HED-based	75.31	76.51	75.91
				EAST	67.43	87.28	76.08
SegLink	70	86	77
				RefineText	72.34	85.05	78.18
RefineText MS	80.24	83.24	81.71

最后，我们在仅有水平文字的ICDAR2013数据集进行评估我们的算法。我们加入ICDAR2015的训练集进行共同训练，训练步数为10000步。与MSRA-TD500类似，我们ICDAR2013的测试集图片的长边调整为896，短边则根据比例进行缩放。如表3所示(表3为各算法在ICDAR2013上的对比结果)，我们的算法也达到了最高的F₁值。值得注意的是，对于某些算法，如CTPN和HED-based的方法，它们仅对水平文字有比较好的检测效果，而在多方向文字的数据集，如ICDAR2015，则表现很差。然而，我们的算法能在这三个数据集上均达到非常出色的效果。

表3

算法	召回率	精确率	F<sub>1</sub>分数
				Text-Block FCN	78.0	88.0	83.0
HED-based	80.2	88.9	84.3
				SegLink	83.0	87.7	85.3
EAST	82.67	92.64	87.37
				CTPN	82.98	92.98	87.69
RefineText	82.84	92.69	87.49
				RefineText MS	85.58	91.21	88.31

实施例二

如图4所示，本实施例提供一种自然场景图片的文字检测系统，包括：

本实施例的一种自然场景图片的文字检测系统，可执行本发明方法实施例一所提供的一种自然场景图片的文字检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

实施例三

一种计算机代码自动生成装置，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行实施例一所述方法。

本实施例的一种计算机代码自动生成装置，可执行本发明方法实施例一所提供的一种自然场景图片的文字检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

实施例四

一种存储介质，其中存储有处理器可执行的指令，所述处理器可执行的指令在由处理器执行时用于执行如实施例一所述方法。

本实施例的一种存储介质，可执行本发明方法实施例一所提供的一种自然场景图片的文字检测方法，可执行方法实施例的任意组合实施步骤，具备该方法相应的功能和有益效果。

以上是对本发明的较佳实施进行了具体说明，但本发明创造并不限于所述实施例，熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.一种自然场景图片的文字检测方法，其特征在于，包括以下步骤：

获取待检测的图片后，将图片输入预设的文字检测模型；

采用文字检测模型获取图片的第一文字特征；

根据第二文字特征进行文字区域检测后，输出边界框检测图；

所述第一文字特征包括第一特征图、第二特征图、第三特征图、第四特征图和第五特征图，所述采用文字检测模型获取图片的第一文字特征这一步骤，具体为：

所述第一特征图、第二特征图、第三特征图、第四特征图和第五特征图的特征分辨率依次下降；

所述结合第一文字特征和预设的特征融合方式获取第二文字特征这一步骤，具体包括以下步骤：

对第五特征图进行深度挖掘后，获取第一优化特征图；

对第二特征图进行深度挖掘后获取第四优化特征图，并结合第四优化特征图和第二融合特征图生成第三融合特征图作为第二文字特征；

所述对第五特征图进行深度挖掘后，获取第一优化特征图这一步骤，具体为：采用第一预设卷积层降低第五特征图的通道数量；

2.根据权利要求1所述的一种自然场景图片的文字检测方法，其特征在于，所述对第四特征图进行深度挖掘后获取第二优化特征图，并结合第一优化特征图和第二优化特征图生成第一融合特征图这一步骤，具体包括以下步骤：

采用第一预设卷积层降低第四特征图的通道数量；

3.根据权利要求1所述的一种自然场景图片的文字检测方法，其特征在于，所述文字检测模型采用组合损失函数进行训练，所述组合损失函数公式为：

L＝L_cls+λ_regL_reg

4.根据权利要求1所述的一种自然场景图片的文字检测方法，其特征在于，所述将图片输入预设的文字检测模型这一步骤，具体包括以下步骤：

依次将放大尺寸图片、原尺寸图片和缩小尺寸图片输入预设的文字检测模型；所述根据第二文字特征进行文字区域检测后，输出边界框检测图这一步骤，具体包括以下步骤：

根据各图片的第二文字特征进行文字区域检测后，获得三个边界框检测图；将三个边界框检测图进行融合后，输出最终的边界框检测图。

5.一种自然场景图片的文字检测系统，其特征在于，包括：

检测输出模块，用于根据第二文字特征进行文字区域检测后，输出边界框检测图；

对第五特征图进行深度挖掘后，获取第一优化特征图；

6.一种计算机代码自动生成装置，其特征在于，包括存储器和处理器，所述存储器用于存储至少一个程序，所述处理器用于加载所述至少一个程序以执行权利要求1-4任一项所述方法。

7.一种存储介质，其中存储有处理器可执行的指令，其特征在于，所述处理器可执行的指令在由处理器执行时用于执行如权利要求1-4任一项所述方法。