CN111291756B

CN111291756B - 图像中文本区域的检测方法、装置、计算机设备及计算机存储介质

Info

Publication number: CN111291756B
Application number: CN202010092611.9A
Authority: CN
Inventors: 刘舒萍
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-02-14
Filing date: 2020-02-14
Publication date: 2023-11-21
Anticipated expiration: 2040-02-14
Also published as: CN111291756A

Abstract

本申请公开了一种图像中文本区域的检测方法、装置、计算机设备及计算机存储介质，涉及文本检测技术领域，能够有效解决文本区域内字段距离较近无法区分的情况，提高图像中文本区域检测的准确率。所述方法包括：对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据；将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型；当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线；基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

Description

图像中文本区域的检测方法、装置、计算机设备及计算机存储介质

技术领域

本发明涉及文本检测技术领域，尤其是涉及到图像中文本区域的检测方法、装置、计算机设备及计算机存储介质。

背景技术

互联网中，图像是传递信息的重要媒介，特别是电子商务、社交、搜索等领域，每天都有数以亿兆级别的图像在传播。而场景图像中的文本往往携带重要的语义信息，识别其中的文本信息是计算机视觉领域重要的工作。

目前，场景图像的文本检测技术大致可以分为one-stage方法和two-stage方法。其中，one-stage方法，不包含二次回归调整，经过单次检测即可直接得到目标文本的位置与坐标，检测速度快但准确度较低，比较经典的算法有YOLO家族、SSD系列；two-stage方法，通过将文本检测分为两阶段，首先在图像上密集的放大量的锚点对象，对每个锚点对象进行背景预测，并回归得到锚点对象的补偿，使用非极大值抑制得到最终的候选区域，然后对候选区域的位置进行二次回归调整并预测目标文本的具体类别，比较经典的算法有R-CNN家族。

上述两种文本检测技术虽然可以实现对各种场景下图像中的文本检测，但对于复杂场景的图像，往往需要先检测图像中的文本区域，文本区域内如果文本字段距离较近的情况，很容易框在一起，不能有效地分开，使得文本区域检测出现误判，影响图像中文本区域检测的准确率。

发明内容

有鉴于此，本发明提供了一种图像中文本区域的检测方法、装置、计算机设备及计算机存储介质，主要目的在于解决目前图像中文本区域内文本字较近的情况，文本区域检测的准确率较低的问题。

依据本发明一个方面，提供了一种图像中文本区域的检测方法，该方法包括：

对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据；

将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型；

当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线；

基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

进一步地，所述对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据具体包括：

从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据；

将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据，具体包括：

将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域；

基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据，具体包括：

基于所述参考框中多个子区域的位置信息，确定所述参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域；

将所述参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据；

将所述参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据。

进一步地，所述网络模型中包括多层结构，所述将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型，具体包括：

通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征；

通过所述网络模型的解码层根据图像样本数据对应的图像区域特征，生成水平的文本序列特征；

通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域，并将所述文本区域处理得到候选文本线。

进一步地，所述网络模型的预测层包括分类部分和回归部分，所述通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域，并将所述文本区域处理得到候选文本线，具体包括：

通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类，确定所述图像样本数据中的文本区域；

通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理，得到候选文本线。

进一步地，所述基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域，具体包括：

利用标记为文本区域头部的标记数据以及标记为文本区域尾部的标记数据分别向前和向后回归，得到相似的候选文本线；

将所述相似的候选文本线进行合并，生成图像对应的文本区域。

进一步地，在所述将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型之后，所述方法还包括：

基于所述文本区域的标注数据，采用预先设置的损失函数对所述文本区域检测模型中多层结构进行参数调整。

依据本发明另一个方面，提供了一种图像中文本区域的检测装置，所述装置包括：

标注单元，用于对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据；

训练单元，用于将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型；

检测单元，用于当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线；

生成单元，用于基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

进一步地，所述标注单元包括：

第一标注模块，用于从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据；

第二标注模块，用于将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述第二标注模块包括：

分割子模块，用于将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域；

标注子模块，用于基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述标注子模块，具体用于基于所述参考框中多个子区域的位置信息，确定所述参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域；

所述标注子模块，具体还用于将所述参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据；

所述标注子模块，具体还用于将所述参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据。

进一步地，所述网络模型中包括多层结构，所述训练单元包括：

提取模块，用于通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征；

生成模块，用于通过所述网络模型的解码层根据图像样本数据对应的图像区域特征，生成水平的文本序列特征；

预测模块，用于通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域，并将所述文本区域处理得到候选文本线。

进一步地，所述网络模型的预测层包括分类部分和回归部分，所述预测模块包括：

分类子模块，用于通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类，确定所述图像样本数据中的文本区域；

处理子模块，用于通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理，得到候选文本线。

进一步地，所述生成单元包括：

回归模块，用于利用标记为文本区域头部的标记数据以及标记为文本区域尾部的标记数据分别向前和向后回归，得到相似的候选文本线；

合并模块，用于将所述相似的候选文本线进行合并，生成图像对应的文本区域。

进一步地，所述装置还包括：

调整单元，用于在所述将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型之后，基于所述文本区域的标注数据，采用预先设置的损失函数对所述文本区域检测模型中多层结构进行参数调整。

依据本发明又一个方面，提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现图像中文本区域的检测方法的步骤。

依据本发明再一个方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现图像中文本区域的检测方法的步骤。

借由上述技术方案，本发明提供一种图像中文本区域的检测方法及装置，通过对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，由于该标注数据除了文本区域的标注数据，还增加了文本区域头部以及文本区域尾部的标注数据，使得训练得到的文本区域检测模型具有区分文字能力，从而在接收到图像中文本区域的检测请求时，能够检测出图像对应的候选文本线，将图像对应的候选文本线生成图像对应的文本区域，从而将文本中距离较近的字段区分开来。与现有技术中图像中文本区域的检测方法相比，本申请通过在原有标准数据的基础上，增加文本区域头部和尾部的标注数据，能够在模型训练时有效解决图像视觉倾斜的干扰，使得文本区域内文本字段较近的情况进行有效区分，从而解决字段距离较近产生的黏连现象，提高图像中文本区域检测的准确率。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种图像中文本区域的检测方法的流程示意图；

图2示出了本发明实施例提供的另一种图像中文本区域的检测方法的流程示意图；

图3示出了本发明实施例提供的一种图像中文本区域的检测装置的结构示意图；

图4示出了本发明实施例提供的另一种图像中文本区域的检测装置的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

本发明实施例提供了一种图像中文本区域的检测方法，能够有效解决文本区域内字段距离较近无法区分的情况，提高图像中文本区域检测的准确率，如图1所示，该方法包括：

101、对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据。

其中，图像样本数据可以为从不同场景搜集的图像，能够反映不同场景下的图像特征，例如，医学领域的图像特征较为简单或者渐变，工业现场的图像背景场景较为复杂且文本区域相对较小，自然场景的图像背景受到自然因素影响较高，背景复杂程度难以预测。

可以理解的是，无论哪一种场景下的图像，在通用目标检测中，每个目标都有一个明确的封闭边界，而在图像中由于文本行或者单词是由许多单独的字符或笔画组成的，可能不存在这样一个明确定义的边界，需要先检测图像中的文本区域，具体可以通过对图像样本数据中每个图像包含的文本区域进行标注，将图像中的文本区域检测出来，再找出文本区域中的文本线，从而对图像中的文本进行识别。

现有的文本框标注方式通常使用ICDAR中的多边形的标注方式，而本实施例在使用ICDAR中的多边形的标注方式获取图像样本数据中图像包含文本区域基础上，在文本区域头部以及文本区域尾部增加对应的标注数据，具体对图像包含的文本区域进行标注的过程可以包括但不局限于下述实现方式：首先确定图像包含的文本区域，针对每个文本区域生成一系列参考框，每个参考框相当于一个anchor，并对每个anchor进行标注，将每个anchor的宽度进行分割并保存每个小anchor的坐标信息，文本区域区域的所有anchors中前20%标记为头部文本，后20%标记为尾部文本，具体标注的数据格式可以为：文本区域数量4*k，每个文本区域中k个anchor，每个anchor由左上角和右下角坐标表示（Ymin，Xmin，Ymax，Xmax），表示第Y行，第X列；Labels标签2*k，对应k个anchors是否为文本区域的label和对应k个anchors是否为头部与尾部的文本label；scale为缩放倍数，原图H'*W'被resize到了H*W（scale=H/H'），这里对标注的数据格式不进行限定，当然还可以增加标注数据的标签等。

102、将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型。

其中，用于训练文本区域检测模型的网络模型可以使用开源Detecting Text inNatural Image with Connectionist Text Proposal Network（CTPN）框架。具体训练文本框检测模型的过程可以如下：首先准备训练数据，即图像样本数据以及图像样本对应的标注数据，由于标注数据中记录有图像中文本区域相应的坐标信息，在训练数据输入至CTPN网络之前，需要对标注数据中文本区域相应的坐标信息转换为宽为8的小anchor，通过将文本区域拆分为小的文本区域集合，对每个小的文本区域中的信息进行预测和识别，能够大大提高文本区域检测的准确率。这里的CTPN网络结构采用CNN+BLSTM+RPN的形式，CNN用来提取感受野的空间特征，感受野就是输出feature map（通过卷积核卷积出来的）某个节点的响应对应的输入图像的区域，BLSTM能够基于感受野的空间特征生成水平的文本序列特征，RPN包括两部分，anchor分类和bounding box regressing，经过上述anchor分类能够对确定各个区域是否为文本框，经过bounding box regressing处理后，会获得一组竖直条状的候选文本线。

应说明的是，在训练文本区域检测模型的过程中输入的训练数据增加了文本区域头部与文本框尾部的标注，相应的，在文本区域检测模型的输出同样需要增加一维判断，用于判断候选文本线是否为文本头或者文本尾的判断，即在输出一组竖直条状的候选文本线时，携带有该候选文本线是否为文本头部或者文尾部的标签。

103、当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线。

可以理解的是，每张图像经过文本区域检测模型会有对应的输出文件，该输出文件存储图像中所有候选文本框的位置信息以及该候选文本线是否为文本头部或者文本尾部的标签，这里的候选文本框相当于文字区域拆分出的竖直条状的框。

104、基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

由于在训练数据中增加文本头部和文本尾部的标注以及在模型输出时增加相应增加对文本框头部以及尾部的识别，通过文本区域检测模型可以输出一系列候选文本框，记为text proposals，在基于文本线构造算法将图像对应的候选文本线生成图像对应的文本框的过程考虑到候选文本框的头部和尾部标签，从而根据候选文本框的头部和尾部标签，将一系列text proposals连接为一个大的文本区域，从而组成图像对应的文本区域。

本发明实施例提供的一种图像中文本区域的检测方法，通过对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，由于该标注数据除了文本区域的标注数据，还增加了文本区域头部以及文本区域尾部的标注数据，使得训练得到的文本区域检测模型具有区分文字能力，从而在接收到图像中文本区域的检测请求时，能够检测出图像对应的候选文本线，将图像对应的候选文本线生成图像对应的文本区域，从而将文本中距离较近的字段区分开来。与现有技术中图像中文本区域的检测方法相比，本申请通过在原有标准数据的基础上，增加文本区域头部和尾部的标注数据，能够在模型训练时有效解决图像视觉倾斜的干扰，使得文本区域内文本字段较近的情况进行有效区分，从而解决字段距离较近产生的黏连现象，提高图像中文本区域检测的准确率。

本发明实施例提供了另一种图像中文本区域的检测方法，能够有效解决文本区域内字段距离较近无法区分的情况，提高图像中文本区域检测的准确率，如图2所示，所述方法包括：

201、从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据。

对于本发明实施例，图像样本中可能会存在不同的区域，例如，文本区域、图片区域、空白区域等，对于非文字区域并非是文本区域检测的目标区域，所以需要对文本区域进行标注，具体可以使用图像标注工具对收集的图像样本数据中的图像样本进行处理，从而对图像样本中的文本区域进行精确标注，得到文本区域的标注数据。

202、将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域。

由于文本区域的标注数据只能够反映图像中文本区域的位置信息，而文本区域所包含的文字通常不存在一个明确的边界定义，仅仅通过位置信息可能容易将距离较近的文字进行错误划分，本发明实施例基于文本区域的标注数据，将图像样本的文本区域生成一系列参考框，每个参考框相当于文本区域中的一部分，并对参考框的位置信息进行标注，生成参考框的坐标信息，进一步基于参考框的宽度对参考框的区域进行分割，得到参考框中多个子区域，每个子区域相当于参考框的一部分。

203、基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

为了便于对文本区域进行明确的边界定义，由于参考框中的子区域能够反映文本框的前后边界，通过定位到参考框中多个子区域中位于边界的子区域后，对位于边界的子区域进行标注，可以定位到文本区域头部以及文本区域尾部的标注数据，也就是文本区域的前后两个边界的标注数据。

对于本发明实施例，具体可以基于参考框中多个子区域的位置信息，确定参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域，然后将参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据，并将参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据。

本发明实施例在现有文本区域标注数据基础上新增对文本区域头部与文本框尾部的标注数据，以使得在后续模型训练的过程中更侧重于文本区域之间的区分能力，从而提高图像中文本区域检测的准确性，有效解决文本区间之间字段距离较近的黏连情况。

204、将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型。

其中，网络模型可以采用CTPN网络框架，包括3层结构组成，第一层为卷积结构，也就是CNN结构，通过卷积层提取图像样本数据对应的图像区域特征，能够学习感受野的空间信息；第二层为解码层，也就是BLSTM结构，通过解码层根据图像样本数据对应的图像区域特征，生成水平的文本序列特征，能够较好地应对水平文本这种序列特征；第三层为预测层，也就是RPN结构，通过预测层根据水平的文本序列特征确定图像样本数据中的文本区域，并将文本区域处理得到候选文本线。

具体的，网络模型的预测层包括分类部分和回归部分，在通过网络模型的预测层根据水平的文本序列特征确定图像样本数据中的文本区域，并将文本区域处理得到候选文本线的过程中，可以通过网络模型的预测层的分类部分根据水平的文本序列特征对图像样本数据中的各个区域进行分类，确定图像样本数据中的文本区域；通过网络模型的预测层的回归部分对图像文本数据中的文本区域进行边框回归处理，得到候选文本线。

在具体实施的过程中，在卷积层部分，CTPN可以选取VGG模型中conv5的featuremaps作为图像最后的特征，此时feature maps的尺寸为H×W×C；接着由于文本之间的序列关系，在解码层可以采用3×3的滑动窗口提取feature maps上每个点周围3×3的区域作为该点的特征向量表示，此时，图像的尺寸变为H×W×9C，然后将每一行作为序列的长度，高度作为batch_size，传入一个128维的Bi-LSTM，得到解码层的输出为W×H×256；最后将解码层输出接入预测层，预测层包括两个部分，anchor分类和bounding box regressing，经过anchor分类能够确定图像中各个区域是否为文本区域，经过bounding box regressing处理后，会获得一组竖直条状的候选文本线，并携带该候选文本线是否为文本区域头部或者文本区域尾部的标签。

205、基于所述文本区域的标注数据，采用预先设置的损失函数对所述文本区域检测模型中多层结构进行参数调整。

为了保证训练得到的文本区域检测模型预测的准确度，预先设置的损失函数能够基于文本区域检测模型输出的结果与真实的文本区域所标注的数据之间的偏差对模型中多层结构进行参数调整。对于本发明实施例，预先训练的损失函数包括4部分，第一部分为用于检测Anchor是否为文本区域的损失函数；第二部分为用于检测anchor的y坐标offset回归的损失函数；第三部分为用于检测Anchor的x坐标offset回归的损失函数；第四部分为用于检测anchor是否为文本区域头部和尾部的损失函数。

206、当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线。

207、基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

对于本发明实施例，具体文本线构造算法生成图像对应的文本区域过程可以描述为：首先将候选文本框记为text proposals，用标记为文本头部的text proposals和标记为文本尾部的text proposals分别向前和向后回归寻找相近的text proposal组成一个pair，合并不同的pair直至无法合并为止。

具体的回归方法如下：首先沿水平正/反方向，寻找和当前框box水平距离小于阈值且为头部/尾部的候选Anchors，然后从候选Anchors中，挑出与当前框box垂直方向overlap>0.7的Anchors，最后挑出符合上一步条件中score最大的box，这样就确定了文本区域的前后位置，组成最终的文本框。

本发实施例图像中文本区域的检测方法，通过在标注数据处理阶段进行文本区域头部、尾部的标记，并进行模型的训练，可以有效解决图像视觉倾斜的干扰，有效解决距离近字段的黏连情况，能够准确识检测出图像中的文本区域，从而提高图像文本识别的准确率。

进一步地，作为图1所述方法的具体实现，本发明实施例提供了一种图像中文本区域的检测装置，如图3所示，所述装置包括：标注单元31、训练单元32、检测单元33、生成单元34。

标注单元31，可以用于对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据；

训练单元32，可以用于将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型；

检测单元33，可以用于当接收到图像中文本区域的检测请求时，将请求检测的图像输入至所述文本区域检测模型，得到图像对应的候选文本线；

生成单元34，可以用于基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域。

本发明实施例提供的一种图像中文本区域的检测装置，通过对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，由于该标注数据除了文本区域的标注数据，还增加了文本区域头部以及文本区域尾部的标注数据，使得训练得到的文本区域检测模型具有区分文字能力，从而在接收到图像中文本区域的检测请求时，能够检测出图像对应的候选文本线，将图像对应的候选文本线生成图像对应的文本区域，从而将文本中距离较近的字段区分开来。与现有技术中图像中文本区域的检测方法相比，本申请通过在原有标准数据的基础上，增加文本区域头部和尾部的标注数据，能够在模型训练时有效解决图像视觉倾斜的干扰，使得文本区域内文本字段较近的情况进行有效区分，从而解决字段距离较近产生的黏连现象，提高图像中文本区域检测的准确率。

作为图3中所示图像中文本区域的检测装置的进一步说明，图4是根据本发明实施例另一种图像中文本区域的检测装置的结构示意图，如图4所示，所述标注单元31包括：

第一标注模块311，可以用于从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据；

第二标注模块312，可以用于将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述第二标注模块312包括：

分割子模块3121，可以用于将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域；

标注子模块3122，可以用于基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据。

进一步地，所述标注子模块3122，具体可以用于基于所述参考框中多个子区域的位置信息，确定所述参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域；

所述标注子模块3122，具体还可以用于将所述参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据；

所述标注子模块3122，具体还可以用于将所述参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据。

进一步地，所述网络模型中包括多层结构，所述训练单元32包括：

提取模块321，可以用于通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征；

生成模块322，可以用于通过所述网络模型的解码层根据图像样本数据对应的图像区域特征，生成水平的文本序列特征；

预测模块323，可以用于通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域，并将所述文本区域处理得到候选文本线。

进一步地，所述网络模型的预测层包括分类部分和回归部分，所述预测模块323包括：

分类子模块3231，可以用于通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类，确定所述图像样本数据中的文本区域；

处理子模块3232，可以用于通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理，得到候选文本线。

进一步地，所述生成单元34包括：

回归模块341，可以用于利用标记为文本区域头部的标记数据以及标记为文本区域尾部的标记数据分别向前和向后回归，得到相似的候选文本线；

合并模块342，可以用于将所述相似的候选文本线进行合并，生成图像对应的文本区域。

进一步地，所述装置还包括：

调整单元35，可以用于在所述将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型之后，基于所述文本区域的标注数据，采用预先设置的损失函数对所述文本区域检测模型中多层结构进行参数调整。

需要说明的是，本实施例提供的一种图像中文本区域的检测装置所涉及各功能单元的其他相应描述，可以参考图1、图2中的对应描述，在此不再赘述。

基于上述如图1、图2所示方法，相应的，本实施例还提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现上述如图1、图2所示的图像中文本区域的检测方法。

基于这样的理解，本申请的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质（可以是CD-ROM，U盘，移动硬盘等）中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施场景所述的方法。

基于上述如图1、图2所示的方法，以及图3、图4所示的虚拟装置实施例，为了实现上述目的，本申请实施例还提供了一种计算机设备，具体可以为个人计算机、服务器、网络设备等，该实体设备包括存储介质和处理器；存储介质，用于存储计算机程序；处理器，用于执行计算机程序以实现上述如图1、图2所示的图像中文本区域的检测方法。

可选地，该计算机设备还可以包括用户接口、网络接口、摄像头、射频（RadioFrequency，RF）电路，传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏（Display）、输入单元比如键盘（Keyboard）等，可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口（如蓝牙接口、WI-FI接口）等。

本领域技术人员可以理解，本实施例提供的图像中文本区域的检测装置的实体设备结构并不构成对该实体设备的限定，可以包括更多或更少的部件，或者组合某些部件，或者不同的部件布置。

存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序，支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信，以及与该实体设备中其它硬件和软件之间通信。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现，也可以通过硬件实现。通过应用本申请的技术方案，与目前现有技术相比，本申请在原有标准数据的基础上，增加文本区域头部和尾部的标注数据，能够在模型训练时有效解决图像视觉倾斜的干扰，使得文本区域内文本字段较近的情况进行有效区分，从而解决字段距离较近产生的黏连现象，提高图像中文本区域检测的准确率。

本领域技术人员可以理解附图只是一个优选实施场景的示意图，附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中，也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本申请序号仅仅为了描述，不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景，但是，本申请并非局限于此，任何本领域的技术人员能思之的变化都应落入本申请的保护范围。

Claims

1.一种图像中文本区域的检测方法，其特征在于，所述方法包括：

对收集的图像样本数据进行文本区域标注，得到图像样本对应的标注数据，并在文本区域头部以及文本区域尾部增加对应的标注数据，具体包括：从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据；将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据；

所述将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据，具体包括：将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域；基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据；

所述基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据，具体包括：基于所述参考框中多个子区域的位置信息，确定所述参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域；将所述参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据；将所述参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据；

将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型，在训练文本区域检测模型的过程中输入的训练数据增加了文本区域头部与文本框尾部的标注，相应的，在文本区域检测模型的输出同样增加一维判断，用于判断候选文本线是否为文本头或者文本尾的判断；

2.根据权利要求1所述的方法，其特征在于，所述网络模型中包括多层结构，所述将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述网络模型的预测层包括分类部分和回归部分，所述通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域，并将所述文本区域处理得到候选文本线，具体包括：

4.根据权利要求1-3中任一项所述的方法，其特征在于，所述基于文本线构造算法，将图像对应的候选文本线生成图像对应的文本区域，具体包括：

5.一种图像中文本区域的检测装置，其特征在于，所述装置包括：

所述标注单元包括：第一标注模块，用于从收集的图像样本数据中提取出图像样本的文本区域，对所述文本区域进行标注，得到文本区域的标注数据；第二标注模块，用于将所述图像样本的文本区域生成一系列参考框后，按照预设格式对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据；所述第二标注模块包括：分割子模块，用于将所述图像样本的文本区域生成一系列参考框后，基于所述参考框的宽度对所述参考框的区域进行分割，得到参考框中多个子区域；标注子模块，用于基于所述参考框中多个子区域的位置信息，对所述参考框进行标注，得到文本区域头部以及文本区域尾部的标注数据；所述标注子模块，具体用于基于所述参考框中多个子区域的位置信息，确定所述参考框中位于最前端的子区域以及所述参考框中位于最末端的子区域；所述标注子模块，具体还用于将所述参考框中位于最前端的子区域标记为头部文本，得到文本区域头部的标注数据；所述标注子模块，具体还用于将所述参考框中位于最末端的子区域标记为尾部文本，得到文本区域尾部的标注数据；

训练单元，用于将图像样本数据以及图像样本对应的标注数据输入至网络模型中进行训练，得到文本区域检测模型，在训练文本区域检测模型的过程中输入的训练数据增加了文本区域头部与文本框尾部的标注，相应的，在文本区域检测模型的输出同样增加一维判断，用于判断候选文本线是否为文本头或者文本尾的判断；

6.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。

7.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至4中任一项所述的方法的步骤。