CN113496223A

CN113496223A - 文本区域检测模型的建立方法以及装置

Info

Publication number: CN113496223A
Application number: CN202010195913.9A
Authority: CN
Inventors: 喻雨峰
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2020-03-19
Filing date: 2020-03-19
Publication date: 2021-10-12

Abstract

本申请实施例提供了文本区域检测模型的建立方法以及装置，所建立得到的文本区域检测模型，可大大提高图像中的文本区域的检测效率。本申请实施例提供了一种文本区域检测模型的建立方法，方法包括：获取训练集，其中，训练集包括标注有文本区域的图像；在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息；结合图像以及特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，文本区域检测模型用于检测待检测图像中的文本区域。

Description

文本区域检测模型的建立方法以及装置

技术领域

本申请涉及图像识别领域，具体涉及文本区域检测模型的建立方法以及装置。

背景技术

光学字符识别(Optical Character Recognition，OCR)技术，可对包含文本内容的图像进行分析识别处理，提取图像所包含的文字，减少人工手动录入，提高工作效率，降低人工录入失误。

OCR技术在识别文字的过程中，起数据处理主要包括两个环节，分别是检测文字环节以及识别文字环节，检测文字环节可先通过检测文本框的方式，确定文字在图像中的所在位置，也可以说确定文字所在的文本区域，再由识别文字环节识别文本区域中的文字。

而在现有的相关技术中，其检测文本区域的检测效率较低，进而导致了整个文本识别的识别效率较低。

发明内容

本申请实施例提供了文本区域检测模型的建立方法以及装置，所建立得到的文本区域检测模型，可大大提高图像中的文本区域的检测效率。

第一方面，本申请实施例提供了一种文本区域检测模型的建立方法，方法包括：

获取训练集，其中，训练集包括标注有文本区域的图像；

在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息；

结合图像以及特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，文本区域检测模型用于检测待检测图像中的文本区域。

结合本申请实施例第一方面，在本申请实施例第一方面第一种可能的实现方式中，在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息包括：

在图像中，计算文本区域中的每个特征点到文本区域的边界的最小距离；

在图像中，提取文本区域的边界；

基于文本区域中的每个特征点到文本区域的边界的最小距离，以及边界，确定文本区域的特征信息。

结合本申请实施例第一方面第一种可能的实现方式，在本申请实施例第一方面第二种可能的实现方式中，基于文本区域中的每个特征点到文本区域的边界的最小距离，以及边界，确定文本区域的特征信息包括：

将文本区域中的每个特征点到文本区域的边界的最小距离的特征图像的掩模图像，减去边界的特征图像的掩模图像，并将得到的目标掩模图像识别为文本区域的特征信息。

结合本申请实施例第一方面第二种可能的实现方式，在本申请实施例第一方面第三种可能的实现方式中，将文本区域中的每个特征点到文本区域的边界的最小距离的特征图像的掩模图像，减去边界的特征图像的掩模图像包括：

将文本区域中的每个特征点到文本区域的边界的最小距离的特征图像的掩模图像，减去边界的特征图像的掩模图像的K倍放大结果，其中，K为预置放大系数。

结合本申请实施例第一方面第二种可能的实现方式，在本申请实施例第一方面第四种可能的实现方式中，将得到的目标掩膜图像识别为文本区域的特征信息包括：

基于目标掩膜图像进行二值化处理以及开运算处理，得到至少一个联通区域；

计算包围联通区域的最小多边形，并将最小多边形识别为文本区域的特征信息。

结合本申请实施例第一方面，在本申请实施例第一方面第五种可能的实现方式中，获取训练集包括：

获取标注有文本区域的初始图像；

对初始图像中的任意图像进行增广处理，处理得到的图像作为训练集，其中，增广处理包括随机透视变换处理、随机高斯模糊处理、随机加噪处理、随机颜色变换处理、随机剪切处理以及随机缩放处理中的至少一种。

第二方面，本申请实施例提供了一种文本区域的检测方法，方法包括：

获取待检测文本区域的目标图像；

将目标图像输入文本区域检测模型，得到目标图像的文本区域检测结果，其中，文本区域检测模型是如本申请实施例第一方面或者本申请实施例第一方面任意一种可能的实现方式得到的。

第三方面，本申请实施例提供了一种文本区域检测模型的建立装置，方法包括：

获取单元，用于获取训练集，其中，训练集包括标注有文本区域的图像；

确定单元，用于在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息；

训练单元，用于结合图像以及特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，文本区域检测模型用于检测待检测图像中的文本区域。

结合本申请实施例第三方面，在本申请实施例第三方面第一种可能的实现方式中，确定单元，具体用于：

在图像中，提取文本区域的边界；

结合本申请实施例第三方面第一种可能的实现方式，在本申请实施例第三方面第二种可能的实现方式中，确定单元，具体用于：

结合本申请实施例第三方面第二种可能的实现方式，在本申请实施例第三方面第三种可能的实现方式中，确定单元，具体用于：

结合本申请实施例第三方面第二种可能的实现方式，在本申请实施例第三方面第四种可能的实现方式中，确定单元，具体用于：

结合本申请实施例第三方面，在本申请实施例第三方面第五种可能的实现方式中，获取单元，具体用于：

获取标注有文本区域的初始图像；

第四方面，本申请实施例提供了一种文本区域的检测装置，装置包括：

获取单元，用于获取待检测文本区域的目标图像；

输入单元，用于将目标图像输入文本区域检测模型，得到目标图像的文本区域检测结果，其中，文本区域检测模型是如本申请实施例第三方面或者本申请实施例第三方面任意一种可能的实现方式得到的。

第五方面，本申请实施例还提供了一种文本区域检测模型的建立设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请实施例第一方面提供的任意一种方法中的步骤。

第六方面，本申请实施例还提供了一种文本区域的检测设备，包括处理器和存储器，存储器中存储有计算机程序，处理器调用存储器中的计算机程序时执行本申请实施例第二方面提供的方法中的步骤。

第七方面，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储有多条指令，指令适于处理器进行加载，以执行本申请实施例第一方面或者第二方面提供的任一种方法中的步骤。

从以上内容可得出，本申请实施例具有以下的有益效果：

在文本区域检测模型的建立过程中，在标注有文本区域的图像的基础上，结合文本区域中每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息，再通过标注有文本区域的图像以及文本区域的特征信息两者来训练初始神经网络模型，由此训练得到的文本区域检测模型在可检测出待检测图像中的文本区域的前提下，由于在检测过程中，仅关注于待检测图像中每个特征点到最近文本区域的边界的距离，无需关注更远距离的文本区域的边界，逐步检测文本区域的各个部分，最终得到完整的高检测精度的文本区域。

相比于现有的相关技术中需要清晰地关注图像中的每个字符来进行文本区域的检测，进而需要大尺寸、高分辨率的输入图像，本申请实施例所训练得到的文本区域检测模型，所关注的是文本区域边界，关注目标相比下来要大得多，这就导致了对输入图像的尺寸、分辨率的要求显著降低，并且由于距离特征的处理也较为简单，因此结合距离特征来检测文本区域，还可显著提高模型的检测效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例文本区域检测模型的建立方法的一种流程示意图；

图2为本申请实施例文本行的一种场景示意图；

图3为现有文本区域的检测方法的一种场景示意图；

图4为本申请实施例文本区域检测模型的建立方法的一种场景示意图；

图5为本申请图1对应实施例步骤S102的一种流程示意图；

图6为本申请实施例文本区域检测模型的建立方法的又一种场景示意图；

图7为本申请文本区域检测模型的建立方法的又一种场景示意图；

图8为本申请图5对应实施例步骤S503的一种流程示意图；

图9为本申请实施例神经网络模型的一种结构示意图；

图10为本申请文本区域的检测方法的一种流程示意图；

图11为本申请实施例文本区域检测模型的建立装置的一种结构示意图；

图12为本申请实施例文本区域的检测装置的一种结构示意图；

图13为本申请实施例文本区域检测模型的建立设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

在以下的说明中，本申请的具体实施例将参考由一部或多部计算机所执行的步骤及符号来说明，除非另有述明。因此，这些步骤及操作将有数次提到由计算机执行，本文所指的计算机执行包括了由代表了以一结构化型式中的数据的电子信号的计算机处理单元的操作。此操作转换该数据或将其维持在该计算机的内存系统中的位置处，其可重新配置或另外以本领域测试人员所熟知的方式来改变该计算机的运作。该数据所维持的数据结构为该内存的实体位置，其具有由该数据格式所定义的特定特性。但是，本申请原理以上述文字来说明，其并不代表为一种限制，本领域测试人员将可了解到以下所述的多种步骤及操作亦可实施在硬件当中。

本申请的原理使用许多其它泛用性或特定目的运算、通信环境或组态来进行操作。所熟知的适合用于本申请的运算系统、环境与组态的范例可包括(但不限于)手持电话、个人计算机、服务器、多处理器系统、微电脑为主的系统、主架构型计算机、及分布式运算环境，其中包括了任何的上述系统或装置。

本申请中的术语“第一”、“第二”和“第三”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。

首先，在介绍本申请实施例之前，先介绍下本申请实施例关于应用背景的相关内容。

在现有的相关技术中，存在着三类文本区域的检测方法，第一类是采取类似目标检测的检测方式，基于精心设计的锚点(Anchors)和区域生成网络(Region ProposalNetwork，RPN)回归的偏移量进行密集的文本区域预测，最后进行非极大值抑制，最终得到矩形的文本区域；

第二类是采用特征金字塔网络(Feature Pyramid Networks，FPN)的检测方式，预测输出一个文本区域的缩小掩膜(Mask)，以及当前位置到旋转矩形四个外框的距离或者到四个顶点的向量，在重建文本区域之后，进行非极大值抑制，得到四边形的文本区域。

而这两类检测方式，是以整个文本区域作为关注对象的，视野的要求需要覆盖整个文本区域，而若出现大文本或者长文本，则需要更大的视野范围了，而随着视野越大，对于文本区域的识别精度则存在着越低的特点，例如若存在密集的文本行，则往往未能区分出具体的文本行。

此外，这两类检测方式，除了检测精度较低的缺陷，还存在着另外一个缺陷，即采用回归旋转矩形框、正矩形框或者四边形框的方式来检测文本区域，因此只能适应呈线行分布的文本区域，例如横向分布、竖向分布或者斜向分布的文本区域，而对于“S”行、扇形等其他形状分布的文本区域，则还存在着识别困难的情况，若文本区域识别的结果较差，显然失去了应用的意义。

而第三类则是以先预测文字为基础的文本区域检测方式，例如字符级文本检测(Character Region Awareness for Text Detection，CRAFT)，其先分别预测每个字符，再根据字符之间的连接关系，确定最终的文本区域，其将单个的字符视为关注目标，使用较小的感受野(神经网络中神经元所能感知的基础输入区域)来预测文本区域，只需要关注字符级别的内容而不需要关注整个文本实例。

第三类文本区域检测方法，由于精确到了字符级别，将字符连接成相应形状的文本行，因此可适应不同形状分布的文本区域。然而，为了精确到字符级别，对于待检测图像则需要较大的尺寸以及较高的分辨率，不仅对于原始图像要求较高，且在大尺寸、高分辨率的图像中预测字符以及字符间的连接关系，导致了数据处理的规模较大，处理时间较长，尽管提升了文本区域的识别精度，但是不可避免地导致了识别效率低下的问题。

基于现有的相关技术存在的上述缺陷，本申请实施例提供了一种新的文本区域检测模型的建立方法，在模型的建立过程中，构思了新的文本区域检测方式方式，因此模型在实际应用中可以实现新的文本区域的检测方法，至少在一定程度上克服现有的相关技术所存在的缺陷。

本申请实施例提及的文本区域检测模型的建立方法，其执行主体可以为文本区域检测模型的建立装置，或者集成了该文本区域检测模型的建立装置的服务器设备、物理主机或者用户设备(User Equipment，UE)等不同类型的文本区域检测模型的建立设备，其中，文本区域检测模型的建立装置可以采用硬件或者软件的方式实现，UE具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(Personal DigitalAssistant，PDA)等终端设备。其中，文本区域检测模型的建立设备还可分为多个设备，并共同执行本申请实施例提供的文本区域检测模型的建立方法。本申请实施例提及的文本区域的检测方法，与文本区域检测模型的建立方法类似，具体不再赘述。

下面，开始介绍本申请实施例提供的文本区域检测模型的建立方法。

图1示出了本申请实施例中文本区域检测模型的建立方法的一种流程示意图，本申请实施例提供的文本区域检测模型的建立方法，如图1示出的，具体可包括如下步骤：

步骤S101，获取训练集，其中，训练集包括标注有文本区域的图像；

步骤S102，在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息；

步骤S103，结合图像以及特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，文本区域检测模型用于检测待检测图像中的文本区域。

本申请实施例，在文本区域检测模型的建立过程中，在标注有文本区域的图像的基础上，结合文本区域中每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息，再通过标注有文本区域的图像以及文本区域的特征信息两者来训练初始神经网络模型，由此训练得到的文本区域检测模型在可检测出待检测图像中的文本区域的前提下，由于在检测过程中，仅关注于待检测图像中每个特征点到最近文本区域的边界的距离，无需关注更远距离的文本区域的边界，逐步检测文本区域的各个部分，最终得到完整的高检测精度的文本区域。

此外，本申请实施例训练得到的文本区域检测模型，由于并未通过回归旋转矩形框、正矩形框或者四边形框的方式来检测文本区域，结合上述所介绍的距离特征来检测文本区域，因此可适用于任意形状的文本区域，而若在相同的检测精度下，本申请实施例训练得到的文本区域检测模型，从上述内容中可看出，检测效率要比上述提及的第三类检测方法要快的多。

以下继续对图1所示实施例的各个步骤的具体实施方式进行详细阐述：

在本申请实施例中，标注有文本区域的图像，其图像中的文本区域是以文本行的形式存在的，文本行的形状可以为线行、扇形、弧形等任意形状，图像中的不同文本行还可能形成重叠或者部分重叠的情况。

示例性的，如图2示出的本申请实施例文本行的一种场景示意图，线行的文本行可以为横向分布的文本行(a)、斜向分布的文本行(b)或者竖向的文本行(c)，文本行还可以为扇形分布的文本行(d)、弧形分布的文本行(e)、倾侧分布的文本行(f)或者重叠分布的文本行(g)等任意形状的文本行，如图2所示的，文本行中字符之间的连接关系是可以变化的，以形成不同的形状，进一步的，文本行中每个字符的字体以及大小也是可以变化的。

而对于图2所示的文本行，现有的相关技术中，第一类以及第二类的文本区域检测方法，仅适用于横向分布的文本行(a)、斜向分布的文本行(b)以及竖向的文本行(c)，而对于扇形分布的文本行(d)、弧形分布的文本行(e)、倾侧分布的文本行(f)以及重叠分布的文本行(g)，则不能精确检测文本行的分布，提取出的文本行图像为矩形的，包括大量无关的背景图像，这为后续的字符识别带来了较大干扰，导致了识别困难的问题。

相关的相关技术中，第三类的文本区域检测方法，如图3示出的现有文本区域的检测方法的一种场景示意图，图3中以横向分布的文本行为例进行说明，如图3中第一行图像示出的，先预测出文本区域中包含的每个字符，在预测出的每个字符的基础上处理得到第二行图像以及第三行图像，第二行图像表示的是每个字符的所在区域的高斯掩膜，第三行图像表示的是字符间隙的所在区域的高斯掩膜，其中，高斯中心为对应区域的中心，后续处理时再将这两种掩膜进行叠加处理，所得到的掩膜即可认为是文本行的掩膜，再进行连通域的分析，分析得到的每个连通域即为识别出的单个的文本行，或者说单个的文本区域，对应的，每个文本区域的最小外接多边形就是文本区域对应的文本框。

可以看出的是，其文本框检测精度的保证，是通过预测图像中的每个字符实现，这意味着实际检测过程中，需要耗费大量的时间来预测待检测图像中的每个字符及其字符间的连接关系，并且，对于其检测模型的训练，训练集中的图像也需人工标注出图像中的每个字符以及字符间的连接关系，其标注成本显然非常的高。

而本申请实施例，如图4示出的本申请实施例文本区域检测模型的建立方法的一种场景示意图，与图3对应的，也以横向分布的文本行为例进行说明，在对训练集中的图像进行标注时，则是如图4中第一行图像示出的，从文本行的边界出发，标注文本区域中的每个特征点到文本行的边界的最小距离，得到图4中的第二行图像，该第二行图像中，每个特征点都标注有到文本行的边界的最小距离，由此得到了每个文本行的距离特征，该特征点为神经网络模型在图像中可以感知的点，例如可以为像素点，以此可实现从像素级别来计算距离特征，由于只关注图像中每个特征点到最近文本行的边界的距离，无需关注更远距离的文本行的边界，因此，仅需较小的感受野覆盖到每个文本行的宽度，即可逐步完成对整个文本行的识别处理，相比于第一类、第二类文本区域检测方法，并未通过回归旋转矩形框、正矩形框或者四边形框的方式来检测文本行，可适用于任何形状分布的文本行，小文本不易丢失，大、长文本也可实现高精度的文本行识别；而相比于第三类文本区域检测方法，在满足高检测精度的情况下，所关注的文本行边界相比字符要大得多，这就导致了对待检测图像的尺寸、分辨率的要求显著降低，并且对于模型的训练，训练集中的图像中仅需人工标注文本行边界，至于距离特征则可交由机器自动识别距离得到，标注成本也显著降低，综合下来，可导致模型的训练效率以及后续的检测效率显著提高。

进一步的，在模型的训练过程中，在标注的文本区域的基础上引入距离特征，还可引入文本区域的边界本身的特征，可以理解，图像中最初标注的文本区域，是用来标注出包含所有文本区域本身的图像范围，其中包括了文本区域的边界的图像范围，而在训练过程中，还可加强对文本区域的边界的针对性。如图5示出的本申请图1对应实施例步骤S102的一种流程示意图，图1对应实施例步骤S102可包括：

步骤S501，在图像中，计算文本区域中的每个特征点到文本区域的边界的最小距离；

步骤S502，在图像中，提取文本区域的边界；

步骤S503，基于文本区域中的每个特征点到文本区域的边界的最小距离，以及边界，确定文本区域的特征信息。

示例性的，如图6示出的本申请实施例文本区域检测模型的建立方法的又一种场景示意图，结合上述介绍的图4，本申请实施例，在从文本行的边界出发，标注文本区域中的每个特征点到文本行的边界的最小距离，得到图4中的第二行图像的同时，还可直接提取出文本行的边界，得到图6中的第三行图像，得到的距离特征以及边界特征两者作为文本行的特征信息。

容易理解的是，通过距离特征以及边界特征作为文本区域的特征信息，来训练模型，由此可从文本区域中的每个特征点到文本区域的边界的最小距离以及文本区域的边界两方面，进一步提高模型对于文本区域的边界的关注效果，由此模型在检测文本区域时，可进一步地提高检测精度。

在实际应用中，上述的距离特征以及边界特征，可直接作为两种特征信息来进行模型的训练，在进一步的实现方式中，还可结合两者，进行数据加工并得到新的特征信息，来参与模型的训练、提升模型的训练效果，例如，本申请图5对应实施例步骤S503，具体还可以为：

需要说明的是，在上述中提及了计算文本区域中的每个特征点到文本区域的边界的最小距离，以及提取文本区域的边界，可以理解的是，模型对于这两者的处理，是在特征图像的基础上进行的，图像在输入模型后可转化为对应的特征图像，特征图像由大量对应的特征点构成，在初始的特征图像的基础上，或者模型的数据处理中涉及的某个特征图像的基础上，可分别通过文本区域中的每个特征点到文本区域的边界的最小距离的提取算法，以及文本区域的边界的提取算法，计算当前特征图像中每个特征点对应的计算结果，作为每个特征点的特征，并组成新的特征图像，其中，提取边界的特征，具体可以为提取边界的形状特征、空间位置特征、颜色特征、纹理特征等类型的特征，可随实际需要而调整，而在两者对应的特征图像的掩膜图中，具有距离特征的特征点，或者具有边界特征的特征点，则可保留，而未具有距离特征的特征点或者具有边界特征的特征点，则可遮蔽进行忽略，如此可清晰地关注具有距离特征的特征点以及具有边界特征的特征点。

而在本申请实施例中，在得到距离特征的特征图像以及边界特征的特征图像后，还可进行减去处理，即，将距离特征的特征图像的掩模图像减去边界特征的特征图像的掩模图像，得到新的目标掩模图像，该目标掩模图像，在模型的训练过程中，可引导模型在检测文本区域时，在关注文本区域的边界时，具体可忽略边界本身，以及边界处的个别识别异常点，即剔除识别文本区域的“毛刺”等异常点，从而更加地关注边界内部的有效内容，从而模型检测出的本文区域，可更加地贴合文本本身，减少文本区域中的非文字区域，进一步提升定位精度。

参阅图7示出的本申请文本区域检测模型的建立方法的又一种场景示意图，距离特征的特征图像对应的掩模图像中，如图7中的第一个图像，可用“1”表示特征点的所在区域为文本区域，可用“0”表示特征点的所在区域为非文本区域，边界特征的特征图像对应的掩模图像，如图7中的第二个图像，可用“1”表示特征点的所在区域为文本区域的边界区域，可用“0”表示特征点的所在区域为非文本区域的边界区域，如此将距离特征的特征图像对应的掩模图像，减去边界特征的特征图像对应的掩模图像，得到图7中的第三个图像，即可忽略边界本身，以及边界处的个别识别异常点，从而可更加的贴合边界内部的文本本身。

需要说明的是，图7所示的掩模图像，并不意味着整体的掩模图像是呈圆形的，仅为局部示意图。

进一步的，在上述的减去处理中，还可在经验系数的调整下，对边界的区域进行放大，以此进一步提高上述减去处理的优化效果，使得目标掩模图像可更加的贴合边界内部的文本本身。

对应的，上述本申请图5对应实施例步骤S503，具体还可以包括：

该K为经验系数，用于放大边界的作用范围，例如，若K＝2，则可将文本区域的边界放大到2倍，以图7所示的掩膜图为例，边界的特征点，即标识为“1”的特征点，厚度由原来的1个特征点，放大到2个特征点。

在放大处理中，其放大的方向，可在原边界对应的特征点的基础上，向边界内外两边的方向进行放大，或者，也可向边界内部方向，即向文本的方向放大，可随实际需要而调整。

目标掩膜图像，可用于指示有效的文本区域，作为文本区域的特征信息，可再次进行优化，以提高目标掩膜图像对于提升模型对于文本区域的针对性的效果。

参阅图8示出的本申请图5对应实施例步骤S503的一种流程示意图，本申请图5对应实施例步骤S503，具体还可包括：

步骤S801，基于目标掩膜图像进行二值化处理以及开运算处理，得到至少一个联通区域；

步骤S802，计算包围联通区域的最小多边形，并将最小多边形识别为文本区域的特征信息。

在基于目标掩膜图像进行二值化处理以及开运算处理的过程中，具体可将前面标注文本区域的图像或者模型的数据处理中涉及的某个特征图像，和目标掩模图进行与预算处理，从而得到目标掩膜图像从标注文本区域的图像或者模型的数据处理中涉及的某个特征图中过滤出来的图像，在该图像的基础上，再进行二值化处理以及开运算处理。

二值化处理指的是将图像中的每个像素点的灰度值调整为0或255，也就是将整个图像呈现出明显的黑白效果，具体的，可将256个亮度等级的灰度图像通过适当的阈值进行选取，获得仍然可以反映图像整体和局部特征的二值化图像；开运算处理指的是先腐蚀运算，再膨胀运算，以去除孤立的毛刺等异常点，而总的位置和形状不变。

进行二值化处理以及开运算处理后，即可得到清晰的至少一个的联通区域，与至少一个的文本区域相对应，例如，若原图像中包含一个文本行，则仅可得到一个联通区域，而若元图像中包含了三个文本行，则可得到三个联通区域。

在确定联通区域后，则可计算包围联通区域的最小多边形，该最小多边形即可在数据层面上，作为文本区域的特征信息，即作为最终确定的文本区域的边界，该最小多边形内则为图像所包含的文本。

下面，则介绍模型的训练过程，初始神经网络模型为多层结构，主要包括输入层、特征提取层、特征融合层以及特征输出层。

数据输入层是模型的入口，用于接收输入模型的图像，将输入的图像转化为特征图像。示例性的，数据输入层可采用RGB的三通道输入，长宽均设定为一个32的倍数值，为512。

特征提取层，可由若干的层组成，由于对特征图像进行采样，即进行特征的提取。示例性的，如图9示出的本申请实施例神经网络模型的一种结构示意图，特征提取层可由卷积层、非线性激活层、池化层、批归一化层等通过逐层顺序连接以及层间跳跃连接组成，所有层(包括带步长的卷积层和池化层)的倍率均为2，共设5个下采样层，依次命名为p1-p5，即p5的长宽尺寸为原始输入特征图像的1/32。在实际应用中，可神经网络结构MobileNet-v2-1.4的主干部分作为本申请实施例中特征提取层的结构。

特征融合层的输入是5个不同倍率的下采样特征图p1-p5，输出为一个和p1同尺寸(即为原始输入特征图像的1/2)的特征图像。图9中示出了从p5到p1逐层上采样融合的方式，分别输出f4-f1，p4-p1的特征维度分别为[128,64,32,16]。

预测输出层以特征融合层的输出f1为输入，以上述提及的距离特征以及边界特征为例，输出两个预测输出图Fd和Fb(或者说是一个通道数为2的预测输出图的两个通道)，Fd表示模型预测的文本区域中的每个特征点到文本区域的边界的最小距离，其监督标注值为Md，Fb表示模型预测的文本区域的边界概率，其监督标注值为Mb。在f1后接一层3*3的卷积层，维度为16，采用Relu进行激活，输出为fe，在fe后接上两个1*1的卷积层，维度均为1，其中一个输出为Fd,不使用激活函数，另一个输出为Fb，使用Sigmoid激活函数进行激活。

示例性的，模型的损失函数可分为两个部分，一个为距离损失函数，即按照下面列出的公式(1)计算Fd和Md之间的差距，另一个为边界损失函数，即按照西面列出的公式(2)计算Fb和Mb之间的差距，总损失函数可以为Loss＝SmoothLoss1+0.1*HuberLoss。采用初始值为1e-4，指数衰减值0.997，衰减步长为4000的学习率，样本数batch大小为训练一万次。

公式(1)：

公式(2)：

依次将训练集中的标注有文本区域的图像依次输入初始神经网络模型，结合文本区域的特征信息的引导，使得模型进行文本区域的检测，并根据模型的相关输出结果计算的损失函数，优化模型参数，当达到模型的训练要求后，例如预置的文本区域的检测精度要求或者训练次数，即可完成模型的训练，作为文本区域检测模型。

文本区域检测模型，用于检测待检测图像中的文本区域，其检测结果具体可以为待检测图像中的文本区域，或者为待检测图像中的文本区域的边界，并且检测结果可以以图像的形式存在，并在原待检测图像中标注出文本区域，或者也可直接输出文本区域本身的图像。

而对于训练模型所需的训练集，若存在样本数量较少的情况，或者有着在有限样本数量的情况下提高样本数量的需求时，还可进行数据增强，以提高样本数量以及提高样本图像的多样性。

示例性的，图1对应实施例步骤S101，具体可包括：

获取标注有文本区域的初始图像；

可以理解，在执行随机透视变换处理、随机高斯模糊处理、随机加噪处理、随机颜色变换处理、随机剪切处理或者随机缩放处理等增广处理后，不仅在原有的标注有文本区域的初始图像的基础上，经过处理可得到不同的样本图像，并且，还可更加符合实际采集包含文本内容的图像的真实场景，例如拍摄角度有限、环境灯光较差、摄像头老旧等情况，在提高样本数量以及提高样本图像的多样性的情况下，还可使得训练得到的文本区域检测模型，对于包含文本内容的真实图像更具有针对性，从而可更适用于实际应用。

需要说明的是，训练集中标注有文本区域的图像，或者此处标注有文本区域的初始图像，还可以为现有文本区域检测模型输出的文本区域检测结果，例如前文介绍的第一类、第二类文本区域检测方法所检测到的文本区域检测结果，对于线行以外形状的文本行，其检测结果往往是较为模糊的，因此还可直接作为本申请实施例中的训练集。

在训练完成，得到文本区域检测模型后，即可投入实际应用，在保证较高识别精度的前提下，可实现较高的检测效率，该效果说明具体在前文中已说明，具体在此不再赘述。对应的，其应用内容，或者说一种新的文本区域的检测方法，如图10示出的本申请文本区域的检测方法的一种流程示意图，具体可包括：

步骤S1001，获取待检测文本区域的目标图像；

步骤S1002，将目标图像输入文本区域检测模型，得到目标图像的文本区域检测结果。

其中，该文本区域检测模型，是通过前文内容中的文本区域检测模型的建立方法训练得到的。

为便于更好的实施本申请实施例提供的文本区域检测模型的建立方法，本申请实施例还提供了文本区域检测模型的建立装置。

参阅图11，图11为本申请实施例文本区域检测模型的建立装置的一种结构示意图，在本申请实施例中，文本区域检测模型的建立装置1100具体可包括如下结构：

获取单元1101，用于获取训练集，其中，训练集包括标注有文本区域的图像；

确定单元1102，用于在图像中，基于文本区域中的每个特征点到文本区域的边界的最小距离，确定文本区域的特征信息；

训练单元1103，用于结合图像以及特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，文本区域检测模型用于检测待检测图像中的文本区域。

在一种示例性的具体实现方式中，确定单元1102，具体用于：

在图像中，提取文本区域的边界；

在又一种示例性的具体实现方式中，确定单元1102，具体用于：

在又一种示例性的具体实现方式中，获取单元1101，具体用于：

获取标注有文本区域的初始图像；

进一步的，本申请实施例还提供了一种文本区域的检测装置，参阅图12，示出的本申请实施例文本区域的检测装置的一种结构示意图，在本申请实施例中，文本区域的检测装置1200具体可包括如下结构：

获取单元1201，用于获取待检测文本区域的目标图像；

输入单元1202，用于将目标图像输入文本区域检测模型，得到目标图像的文本区域检测结果，其中，文本区域检测模型是如上述的文本区域检测模型的建立装置1100得到的。

本申请实施例还提供了文本区域检测模型的建立设备，参阅图13，图13示出了本申请实施例文本区域检测模型的建立设备的一种结构示意图，具体的，本申请实施例提供的文本区域检测模型的建立设备包括处理器1301，处理器1301用于执行存储器1302中存储的计算机程序时实现如图1至图9中除图3以外的任意实施例中文本区域检测模型的建立方法的各步骤；或者，处理器1301用于执行存储器1302中存储的计算机程序时实现如图11对应实施例中各单元的功能。

示例性的，计算机程序可以被分割成一个或多个模块/单元，一个或者多个模块/单元被存储在存储器1302中，并由处理器1301执行，以完成本申请。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段，该指令段用于描述计算机程序在计算机装置中的执行过程。

文本区域检测模型的建立设备可包括，但不仅限于处理器1301、存储器1302。本领域技术人员可以理解，示意仅仅是文本区域检测模型的建立设备的示例，并不构成对文本区域检测模型的建立设备的限定，文本区域检测模型的建立设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件，例如文本区域检测模型的建立设备还可以包括输入输出设备、网络接入设备、总线等，处理器1301、存储器1302、输入输出设备以及网络接入设备等通过总线相连。

处理器1301可以是中央处理单元(Central Processing Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，处理器是文本区域检测模型的建立设备的控制中心，利用各种接口和线路连接整个设备的各个部分。

存储器1302可用于存储计算机程序和/或模块，处理器1301通过运行或执行存储在存储器1302内的计算机程序和/或模块，以及调用存储在存储器1302内的数据，实现计算机装置的各种功能。存储器1302可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据文本区域检测模型的建立设备的使用所创建的数据(比如音频数据、视频数据等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart Media Card，SMC)，安全数字(SecureDigital，SD)卡，闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

本申请实施例还提供了文本区域的检测设备，与上述的文本区域检测模型的建立设备类似的，本申请实施例提供的文本区域的检测设备包括处理器，处理器用于执行存储器中存储的计算机程序时实现如图10的对应实施例中文本区域的检测方法的各步骤；或者，处理器用于执行存储器中存储的计算机程序时实现如图12对应实施例中各单元的功能，其具体硬件结构，可参考上述的文本区域检测模型的建立设备的说明，具体在此不再赘述。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的文本区域检测模型的建立装置、设备及其相应单元，还有文本区域的检测方法、设备及其相应单元的具体工作过程，可以参考如图1至图9中除图3以外的对应任意实施例中文本区域检测模型的建立方法，还有图10对应实施例中文本区域的检测方法的说明，具体在此不再赘述。

本领域普通技术人员可以理解，上述实施例的各种方法中的全部或部分步骤可以通过指令来完成，或通过指令控制相关的硬件来完成，该指令可以存储于一计算机可读存储介质中，并由处理器进行加载和执行。

为此，本申请实施例提供一种计算机可读存储介质，其中存储有多条指令，该指令能够被处理器进行加载，以执行本申请如图1至图9中除图3以外的对应任意实施例中文本区域检测模型的建立方法中的步骤，或者执行本申请如图10对应实施例中文本区域的检测方法中的步骤，具体操作可参考如图1至图9中除图3以外的对应任意实施例中文本区域检测模型的建立方法的说明，还有图10对应实施例中文本区域的检测方法的说明，具体在此不再赘述。

其中，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、磁盘或光盘等。

由于该计算机可读存储介质中所存储的指令，可以执行本申请如图1至图9中除图3以外的对应任意实施例中文本区域检测模型的建立方法，或者图10对应实施例中文本区域的检测方法中的步骤，因此，可以实现本申请如图1至图9中除图3以外的对应任意实施例中文本区域检测模型的建立方法，或者图10对应实施例中文本区域的检测方法所能实现的有益效果，详见前面的说明，在此不再赘述。

以上对本申请提供的文本区域检测模型的建立方法、装置、设备以及计算机可读存储介质，还有文本区域的检测方法、装置、设备以及计算机可读存储介质进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种文本区域检测模型的建立方法，其特征在于，所述方法包括：

获取训练集，其中，所述训练集包括标注有文本区域的图像；

在所述图像中，基于所述文本区域中的每个特征点到所述文本区域的边界的最小距离，确定所述文本区域的特征信息；

结合所述图像以及所述特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，所述文本区域检测模型用于检测待检测图像中的文本区域。

2.根据权利要求1所述的方法，其特征在于，所述在所述图像中，基于所述文本区域中的每个特征点到所述文本区域的边界的最小距离，确定所述文本区域的特征信息包括：

在所述图像中，计算所述文本区域中的每个特征点到所述文本区域的边界的最小距离；

在所述图像中，提取所述文本区域的边界；

基于所述文本区域中的每个特征点到所述文本区域的边界的最小距离，以及所述边界，确定所述文本区域的特征信息。

3.根据权利要求2所述的方法，其特征在于，所述基于所述文本区域中的每个特征点到所述文本区域的边界的最小距离，以及所述边界，确定所述文本区域的特征信息包括：

将所述文本区域中的每个特征点到所述文本区域的边界的最小距离的特征图像的掩模图像，减去所述边界的特征图像的掩模图像，并将得到的目标掩模图像识别为所述文本区域的特征信息。

4.根据权利要求3所述的方法，其特征在于，所述将所述文本区域中的每个特征点到所述文本区域的边界的最小距离的特征图像的掩模图像，减去所述边界的特征图像的掩模图像包括：

将所述文本区域中的每个特征点到所述文本区域的边界的最小距离的特征图像的掩模图像，减去所述边界的特征图像的掩模图像的K倍放大结果，其中，所述K为预置放大系数。

5.根据权利要求3所述的方法，其特征在于，所述将得到的目标掩膜图像识别为所述文本区域的特征信息包括：

基于所述目标掩膜图像进行二值化处理以及开运算处理，得到至少一个联通区域；

计算包围所述联通区域的最小多边形，并将所述最小多边形识别为所述文本区域的特征信息。

6.根据权利要求1所述的方法，其特征在于，所述获取训练集包括：

获取标注有文本区域的初始图像；

对所述初始图像中的任意图像进行增广处理，处理得到的图像作为所述训练集，其中，所述增广处理包括随机透视变换处理、随机高斯模糊处理、随机加噪处理、随机颜色变换处理、随机剪切处理以及随机缩放处理中的至少一种。

7.一种文本区域的检测方法，其特征在于，所述方法包括：

获取待检测文本区域的目标图像；

将所述目标图像输入文本区域检测模型，得到所述目标图像的文本区域检测结果，其中，所述文本区域检测模型是如权利要求1至6中任一项所述的方法得到的。

8.一种文本区域检测模型的建立装置，其特征在于，所述装置包括：

获取单元，用于获取训练集，其中，所述训练集包括标注有文本区域的图像；

确定单元，用于基于所述文本区域中的每个特征点到所述文本区域的边界的最小距离，确定所述文本区域的特征信息；

训练单元，用于结合所述图像以及所述特征信息，训练初始神经网络模型，并将训练完成的模型作为文本区域检测模型，其中，所述文本区域检测模型用于检测待检测图像中的文本区域。

9.一种文本区域检测模型的建立设备，其特征在于，包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器调用所述存储器中的计算机程序时执行如权利要求1至6任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有多条指令，所述指令适于处理器进行加载，以执行权利要求1至6任一项所述的方法。