CN110610166B

CN110610166B - 文本区域检测模型训练方法、装置、电子设备和存储介质

Info

Publication number: CN110610166B
Application number: CN201910882963.1A
Authority: CN
Inventors: 王杰; 肖航
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2019-09-18
Filing date: 2019-09-18
Publication date: 2022-06-07
Anticipated expiration: 2039-09-18
Also published as: CN110610166A

Abstract

本申请涉及图像识别领域，特别涉及一种文本区域检测模型训练方法、装置、电子设备和存储介质，用以解决现有技术检测效率低的技术问题。该方法包括：根据文本标注数据，提取出候选文本区域；计算候选文本区域中各个像素点与指定参考位置之间的相对距离值；将相对距离值映射为第一概率值，将第一概率值集合作为样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。这样，采用本申请训练后的卷积神经网络，对待检测图像进行检测时，更充分地保留了边界处细节信息，检测准确度更高，也无需再基于广度优先搜索执行多次搜索过程，检测速度更快。

Description

文本区域检测模型训练方法、装置、电子设备和存储介质

技术领域

本申请涉及图像识别技术领域，特别涉及文本区域检测模型训练方法、装置、电子设备和存储介质。

背景技术

随着科学技术的进步，图像识别技术作为人工智能的一个重要领域，得到了前所未有的发展。其中，光学字符识别(Optical Character Recognition，OCR)是图像识别技术中较为重要的一个分支，所谓OCR，即是对图片、照片以及电子扫描图像等进行分析处理，自动识别出其中文字信息的过程。

随着互联网技术以及便携式移动设备的高速发展，越来越多的应用场景需要利用图像中的文本信息，因此，对于生活场景、自然场景等更为复杂多变的实际场景的电子图像进行文本识别，已成为计算机视觉与模式识别、文档分析与识别等技术领域的一个研究热点。

目前的OCR主要包括两个阶段：文本区域检测与文本识别，其中，文本区域检测是文本识别的基础。已有的文本区域检测方法，主要包括基于检测的方法与基于分割的方法。基于检测的方法，主要包括快速区域卷积神经网络(Regions with convolution neuralnetwork features，Faster-Rcnn)，统一实时目标检测(You Only Look Once，Yolo)，单点多盒探测(Single Shot MultiBox Detector，SSD)等，一般是通过预设锚点框来对文本区域进行检测。而基于分割的方法，主要通过对每个像素是否属于文字进行分割。

现有技术下，采用基于分割的方法时，首先需要对神经网络模型进行训练，然后基于训练后的神经网络模型对待测图像进行检测。其中，在采用训练后的神经网络模型进行检测的过程中，首先会根据待测图像的文本标注数据，将图像文本标注数据标记为文本区域的像素点的初始值设置为1，将图像文本标注数据标记为背景区域的像素点的初始值设为0，像素点值为1的区域作为文本区域，初步提取出一个较大区域作为初始候选文本区域，之后，为进一步分割出更精确的文本区域，会选择该初始候选文本区域的中心区域作为中心候选文本区域。

在中心候选文本区域中很可能会丢失文字边缘细节，影响后续文字识别的准确度。因此，为了防止文字边缘位置的细节丢失，在确定中心候选文本区域后，已有的基于分割的检测方法，还会基于广度优先搜索，以中心候选文本区域为基础向外多次搜索。例如，一种实现方式是：首先提取出初始候选文本区域，再将初始候选文本区域缩小为中心候选文本区域，之后以该中心候选文本区域为基础，分为5个层次依次不断向外扩展，每扩展一次，采用神经网络模型对包含扩展后的文本区域的待测图像进行再一次搜索，最终进行1次缩小加5次搜索，输出6张检测结果图像，然后，以最后一张检测结果图像中展示的文本区域作为最终的检测结果。

可见，采用基于分割的方法，在检测阶段，对一张待测图像，需要采用神经网络模型将初始候选文本区域缩小后再进行多次检测才能输出最终文本区域的检测结果，相应的缩小和多次检测过程会占用较多的时间资源和计算资源，使综合检测效率相对较低。

发明内容

本申请实施例提供文本区域检测模型训练方法、装置、电子设备和存储介质，用以解决现有技术中存在的检测效率相对较低的技术问题。

本申请实施例提供的具体技术方案如下：

本申请实施例的第一方面，提供了一种文本区域检测模型训练方法，该方法包括：

获取样本图像，并根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域；

分别计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值；

将所述候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，得到所述样本图像对应的第一概率值集合，所述第一概率值表征相应的像素点可能为文本信息的概率；

将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。

在一种可能的实施方式中，所述获取样本图像，包括：

获取多个应用场景类别下的样本图像。

在一种可能的实施方式中，所述获取样本图像，包括：获取第一应用场景类别下的样本图像；

在得到文本区域检测模型之后，还包括：

获取第二应用场景类别的样本图像；

根据所述第二应用场景类别的样本图像，对已得到的文本区域检测模型进行训练，得到适用于所述第二应用场景类别的文本区域检测模型。

在一种可能的实施方式中，根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域，具体包括：

根据所述文本标注数据，将被标记为文本的像素点的像素值设置为第一像素值，将未被标记为文本的像素点的像素值设置为不同于所述第一像素值的第二像素值；

将被设置为所述第一像素值的像素点组成的区域提取为候选文本区域。

在一种可能的实施方式中，计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值，具体包括：

所述指定参考位置为所述候选文本区域的边界，对于所述候选文本区内的任一像素点，计算所述像素点到所述边界的最近距离，以及将所述最近距离作为所述像素点对应的相对距离值；或者，

所述指定参考位置为所述候选文本区域的中心像素点，对于所述候选文本区域内的任一像素点，计算所述像素点到所述中心像素点的距离，以及将所述距离作为所述相对距离值。

在一种可能的实施方式中，将所述候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，具体包括：

在所述候选文本区域内的各个像素点对应的相对距离值中，确定出最大值；对于所述候选文本区内的任一像素点，基于所述像素点的所述相对距离值与所述最大值的差值，结合预设的控制参数，计算所述像素点的第一概率值；

或者，

对于所述候选文本区内的任一像素点，基于所述像素点的所述相对距离值，结合预设的控制参数，计算所述像素点的第一概率值。

在一种可能的实施方式中，得到所述样本图像对应的第一概率值集合，还包括：

将所述样本图像中的非候选文本区域内的各个像素点对应的第一概率值设置为0；

将所述候选文本区域内的各个像素点对应的第一概率值与所述非候选文本区域内的各个像素点对应的第一概率值，形成所述第一概率值集合。

在一种可能的实施方式中，将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型，具体包括：

采用所述卷积神经网络，对所述样本图像的各个像素点进行文本分类识别，输出所述各个像素点对应的第二概率值，得到第二概率值集合，所述第二概率值表征所述卷积神经网络确定出的像素点可能为文本信息的预测概率；

基于所述第一概率值集合和所述第二概率值集合，计算所述样本图像的损失值；

若所述损失值不低于预设门限，则根据所述损失值，优化所述卷积神经网络的参数，并继续进行训练；

若所述损失值低于预设门限，则停止训练，并将当前训练获得的卷积神经网络确定为所述文本区域检测模型。

本申请实施例的第二方面，提供一种文本区域检测方法，该方法包括：

采用文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值；其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率；

在所述待检测图像中，将第三概率值高于设定阈值的像素点确定为文本像素点；

将所有文本像素点组成的区域确定为文本区域，并输出所述文本区域。

本申请实施例的第三方面，提供一种文本区域检测模型训练装置，包括：

提取单元，用于获取样本图像，并根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域；

转换单元，用于分别计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值；

映射单元，用于将所述候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，得到所述样本图像对应的第一概率值集合，所述第一概率值表征相应的像素点可能为文本信息的概率；

训练单元，用于将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。

在一种可能的实施方式中，获取样本图像时，所述提取单元，具体用于：

获取多个应用场景类别下的样本图像。

在一种可能的实施方式中，获取样本图像时，所述提取单元，用于：获取第一应用场景类别下的样本图像；

在所述训练单元得到文本区域检测模型之后，

所述提取单元，还用于：获取第二应用场景类别的样本图像；

所述训练单元，还用于：根据所述第二应用场景类别的样本图像，对已得到的文本区域检测模型进行训练，得到适用于所述第二应用场景类别的文本区域检测模型。

在一种可能的实施方式中，根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域时，所述提取单元，具体用于：

在一种可能的实施方式中，计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值时，所述转换单元，具体用于：

在一种可能的实施方式中，将所述候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值时，所述映射单元，具体用于：

或者，

在一种可能的实施方式中，得到所述样本图像对应的第一概率值集合时，所述映射单元，还用于：

在一种可能的实施方式中，将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型时，所述训练单元，具体用于：

本申请实施例的第四方面，提供一种文本区域检测装置，包括：

检测单元，用于采用文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值；其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率；

确定单元，用于在所述待检测图像中，将第三概率值高于设定阈值的像素点确定为文本像素点；

输出单元，用于将所有文本像素点组成的区域确定为文本区域，并输出所述文本区域。

本申请实施例的第五方面，提供一种电子设备，该电子设备包括：存储器和处理器；其中，

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现上述任一项所述的方法。

本申请实施例的第六方面，还提供一种存储介质，当存储介质中的指令由处理器执行时，使得能够执行上述任一项所述的方法。

本申请实施例中，首先根据文本标注数据初步提取出一个候选文本区域，计算候选文本区域内各个像素点的相对距离值，之后将相对距离值映射为第一概率值(用于表征相应的像素点可能为文本信息的概率)，得到第一概率值集合；以第一概率值集合作为样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。这样，以表征一个像素点是否为文本的第一概率值作为训练数据，对卷积神经网络进行训练，使卷积神经网络不断学习，得到文本区域检测模型，采用该文本区域检测模型对待检测图像进行检测时，无需再基于广度优先搜索执行缩小和多次搜索的过程，减少了执行缩小和多次搜索所占用的时间资源和计算资源，使检测速度更快、检测效率更高。

附图说明

图1为本申请实施例中文本区域检测模型训练方法的流程示意图；

图2为本申请实施例中采用的样本图样示例图；

图3为本申请实施例中从样本图像提取出候选文本区域示意图；

图4为本申请实施例中将候选文本区域中像素点的像素值替换为第一概率值的效果图；

图5为本申请实施例中候选文本区域g及几个像素点示意图；

图6为本申请实施例中文本区域检测方法的流程示意图；

图7为本申请实施例中文本区域检测模型训练装置的实体结构示意图；

图8为本申请实施例中文本区域检测装置的实体结构示意图；

图9为本申请实施例中服务器的实体结构示意图。

具体实施方式

为了解决现有技术中存在的检测效率较低的技术问题，本申请实施例中，根据候选文本区域内的像素点在候选文本区域中的相对位置，计算得到该像素点的一个相对距离值，将该相对距离值映射为该像素点可能为文本信息的概率值，并将映射后的概率值与卷积神经网络初步预测的概率值进行比较，计算损失值，以该损失值作为反向传播误差，对卷积神经网络进行训练。在本申请实施例中，还采用训练得到的文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值(表征所述待检测图像中的像素点可能为文本信息的预测概率)，并将第三概率值高于设定阈值的像素点确定为文本像素点，由文本像素点组成的区域，即确定为文本区域。

下面结合附图对本申请优选的实施方式作出进一步详细说明：

参阅图1所示，本申请实施例中，进行文本区域检测模型训练的详细流程如下：

步骤S101：获取样本图像，并根据样本图像对应的文本标注数据，在样本图像中提取出候选文本区域。

首先，获取与当前待检测图像对应的文本标注数据。具体的，可从各个数据标注平台获取。

具体地，可以按照如下步骤，在所述样本图像中提取出候选文本区域：

根据所述文本标注数据，将被标记为文本的像素点的像素值设置为第一像素值，将未被标记为文本的像素点的像素值设置为不同于所述第一像素值的第二像素值；将被设置为所述第一像素值的像素点组成的区域提取为候选文本区域。

具体地，作为一种可实施方式，根据样本图像的ground truth(标注数据)，生成一个二分类mask(掩膜)图像，其中标注有文本的区域的像素值都设为第一像素值，背景区域的像素值都设为第二像素值，得到一个样本图像的二分类掩膜图像及其标注数据。

例如，对于一张待检测图像，根据文本标注数据提取出候选文本区域，可采用以下两种方式：

方式一：判断获取的文本标注数据中哪些像素点被标记为文本，将文本标注数据中标记为文本的像素值设为1，将文本标注数据中未标记为文本的像素值设为0。将该张待检测图像中所有像素值为1的像素点组成的区域提取出来，作为候选文本区域。

方式二：判断获取的文本标注数据中哪些像素点被标记为文本，将文本标注数据中标记为文本的像素点的像素值设为0，将文本标注数据中未标记为文本的像素值设为1。将该张待检测图像中所有像素值为0的像素点组成的区域提取出来，作为候选文本区域。

例如，参阅图2和图3所示，图2为一实际生活场景的图像，以该图像作为样本图像。首先从各数据标注平台之一获取得到该图像的文本标注数据。根据文本标注数据，将标记为文本的像素点设置为0(或1)，将其它非文本区域作为背景区域，对应标记为1(或0)，初步提取出各个候选文本区域。例如，图3中的白色区域即为从图2所示的样本图像中提取出的候选文本区域，其余黑色区域则为背景区域。

在本申请实施例中，每个候选文本区域均为一连通域，一张带有文本的图像可以提取出1个或多个候选文本区域，被背景区域像素点分隔开的两个彼此不连通的区域则作为两个候选文本区域。例如：图3中提取出a-g共7个候选文本区域，其中候选文本区域a和候选文本区域b为两个候选文本区域。

步骤S102：分别计算侯选文本区域中各个像素点与样本图像中指定参考位置的相对距离值。

在本申请实施例中，一个像素点对应的相对距离值，为一个像素点与指定参考位置之间的相对距离值。其中参考位置可以为候选文本区域的边界，也可以是候选文本区域的中心像素点。在本申请实施例中，以候选文本区域中任意一个像素点(以下称为像素点Q)为例，在计算像素点Q的相对距离值时，可以采用但不限于以下几种方式获得：

方式一：以候选文本区域的边界作为指定参考位置。

首先确定候选文本区域的边界所包括的多个像素点(为便于描述，以下称为边界像素点)。之后，对于一个候选文本区域内的任意像素点Q，根据像素点Q的坐标和各个边界像素点的坐标，分别计算像素点Q与各个边界像素点的距离，遍历各个距离，从中选择最小的距离作为该当前像素点Q与边界的最近距离。该最近距离的值即为像素点Q的相对距离值。

计算像素点之间的距离，有多种计算方式，例如，欧氏距离、绝对值距离等，本领域技术人员可根据本申请实施例提供的技术构思，具体选择相应的距离计算方式。下面列举其中一种计算方式：

例如：像素点Q的坐标为(x,y)，候选文本区域边界包括n个像素点，坐标分别为(x₁,y₁)、(x₂,y₂)、(x₃,y₃)……(x_n,y_n)，则分别计算

得到n个距离值，从中选择出最小值即为像素点Q与候选文本区域边界的相对距离值d₁。

假设候选文本区域内有m个像素点，参考像素点Q的相对距离值的计算方式，可依次得到候选文本区域内的各像素点的相对距离值d₂、d₃……d_m。

方式二：以候选文本区域的中心像素点作为指定的参考位置。

首先需要确定中心像素点。中心像素点即为候选文本区域内所有像素点中与边界的最近距离最大的像素点。即从候选文本区域内的各个像素点的相对距离值d₁、d₂……d_m中选择出最大的相对距离值标记为d_max，该最大的相对距离值d_max对应的像素点即为中心像素点，标记为O。

确定中心像素点后，计算候选文本区域内的各个像素点与中心像素点O的距离，例如：设中心像素点的坐标为(x_o,y_o)，像素点Q与中心像素点的距离为

该距离的值即为像素点Q的相对距离值，标记为d_OQ。

参考像素点Q的相对距离值的计算方式，可依次得到该候选文本区域内的各像素点的相对距离值。

步骤S103：将候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，得到样本图像对应的第一概率值集合。

其中，第一概率值用于表征相应像素点可能为文本的概率。

在本申请实施例中，将候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，包括但不限于以下两种方式：

方式一：当步骤S102中以候选文本区域的边界作为指定参考位置时，采用该方式一进行映射。具体的，包括如下步骤：

以像素点Q为例，在映射像素点Q的相对距离值d₁后，还需要确定在像素点Q所在的候选文本区域中，各个像素点对应的相对距离值的最大值，即确定d_max。然后，基于像素点Q的相对距离值d₁与最大值d_max的差值，以及预设的控制参数σ，计算像素点Q对应的第一概率值。

在一种可能的实施方式中，可以采用以下公式计算像素点Q对应的第一概率值(仅为举例)：

其中，p₁表示像素点Q对应的第一概率值，I(x,y)表示像素点Q的相对距离值，(x,y)表示一个像素点的坐标，d_max表示像素点Q所在的候选文本区域的相对距离值的最大值；σ为预设的控制参数。

控制参数σ为一预先设定的常数，用于控制整个候选区域内的像素点计算出的概率值在0-1之间，通过σ的设定，也可调节候选文本区域边界像素点对应的概率值。

在一种可能的实施方式中，控制参数σ可以采用以下公式确定：

计算第一概率值所使用的映射函数并不唯一，在本方式一中，映射函数应使得出的第一概率值与相对距离值正相关，即在候选文本区域内，随着像素点相对距离值的增大，得到的第一概率值也越高，上述公式仅为举例。

方式二：当步骤S102中以候选文本区域的中心像素点作为指定的参考位置，采用该方式二进行映射。具体的，包括如下步骤：

以像素点Q为例，在确定中心像素点O，并且得到像素点Q与中心像素点O的相对距离值d_OQ之后，基于该相对距离值d_OQ，以及预设的控制参数σ，计算像素点Q对应的第一概率值。

在一种可能的实施方式中，可以采用以下公式计算像素点Q的第一概率值(仅为举例)：

其中，p₁表示第一概率值，d_OQ表示像素点Q与中心像素点O的相对距离值，x,y分别表示像素点Q的横坐标和纵坐标；x_o和y_o分别表示中心像素点O的横坐标和纵坐标；σ为预设的控制参数。

其中，d_OQB表示从中心像素点O出发经过像素点Q到达候选文本区域边界的距离，即在候选文本区域中由中心像素点O和像素点Q唯一确定一条直线，该直线与边界会有一个交点，设该交点为B，d_OQB即为该直线上中心像素点O到交点B的线段的长度值。

在该方式二中，映射函数也并不唯一，应使得到的第一概率值与相对距离值负相关，即相对距离值d_OQ越大，则第一概率值越小。并且控制参数σ控制得到的第一概率值在0-1之间。

同理，可以参考上述针对像素点Q执行的方法步骤，依次得到候选文本区域内各像素点的第一概率值。

而获得候选文本区域内各个像素点的第一概率值之后，在一种可能的实施方式中，可以采用但不限于以下方法，来获得样本图像的第一概率值集合：

将所述样本图像中的非候选文本区域内的各个像素点对应的第一概率值设置为0；将所述候选文本区域内的各个像素点对应的第一概率值与所述非候选文本区域内的各个像素点对应的第一概率值，添加到同一集合中，形成所述第一概率值集合。

非候选文本区域，即一张样本图像中除候选文本区域以外的区域，例如图3中的黑色区域。

将非候选文本区域的第一概率值与候选文本区域的第一概率值进行合并，得到第一概率值集合F₁。第一概率值集合中的第一概率值与样本图像中的像素点一一对应，一张样本图像对应一个第一概率值集合。一个第一概率值集合反映了一张样本图像中各个像素点可能为文本信息的概率估计值。

将样本图像中的各个像素点的像素值替换为映射后的第一概率值，可得到相应的第一概率值图像，参见图4所示，其中，越靠近候选文本区域的中心位置，第一概率值越高，越靠近候选文本区域的边缘位置，则第一概率值越低。

步骤S104：将第一概率值集合作为样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。

在本申请实施例中，以第一概率值集合作为训练卷积神经网络的参考数据，具体地，可采用如下方式进行训练：

采用所述卷积神经网络，对所述样本图像的各个像素点进行文本分类识别，输出所述各个像素点对应的第二概率值，得到第二概率值集合。基于所述第一概率值集合和所述第二概率值集合，计算所述样本图像的损失值；若所述损失值不低于预设门限，则根据所述损失值，优化所述卷积神经网络的参数，并继续进行训练；若所述损失值低于预设门限，则停止训练，并将当前训练获得的卷积神经网络确定为所述文本区域检测模型。

其中，第二概率值表征所述卷积神经网络确定出的像素点可能为文本信息的预测概率。

例如，首先采用训练前或者训练中的卷积神经网络，对样本图像的文本区域进行初步预测，即对各个像素点是否属于文本进行分类，并输出整张样本图像中各个像素点是否为文本的预估值的集合-第二概率值集合。第二概率值集合包括多个第二概率值，第二概率值与样本图像中的像素点一一对应，第一概率值与第二概率值也一一对应，即第一概率值集合与第二概率值集合中的元素根据像素点的坐标一一对应。

然后，基于第一概率值集合和第二概率值集合，计算样本图像的损失值。即将映射得到的第一概率值集合与卷积神经网络预测得到的第二概率值集合进行比较，并对二者的差值进行量化计算，得到一个用于反映误差的量化指标，以该量化指标作为训练卷积神经网络的反向传播误差。

在本申请实施例中，作为一种可实施方式，可以按照如下方式计算所述样本图像的损失值：

分别针对每一个像素点执行以下操作：计算所述像素点对应的第一概率值和对应的第二概率值的差值，基于所述差值计算所述像素点对应的损失值；

之后，对获得的各个像素点的损失值进行求和，将求和结果作为所述样本图像的损失值。

具体的，以像素点Q为例，计算像素点Q对应的第一概率值和第二概率值的差值，基于得到的差值计算像素点Q对应的损失值。之后，参照像素点Q，依次计算样本图像中其它各个像素点的损失值，并将样本图像中的所有像素点的损失值进行求和，将求和结果作为样本图像的损失值。其中，基于差值计算像素点的损失值所依据的函数关系并不唯一。例如，在本申请实施例中，可以采用但不限于以下方式计算样本图像的损失值：

计算第一概率值集合与第二概率值集合的均方误差损失函数：

其中，F₁表示第一概率值集合，F₂表示第二概率值集合，w表示样本图像的宽度，h表示样本图像的高度，f₁(i,j)表示第一概率值集合中第i列、第j行的第一概率值，f₂(i,j)表示第二概率值集合中第i列、第j行的第二概率值。

依据得到的样本图像的损失值，判断该损失值是否低于预设门限，若否，则根据损失值，优化卷积神经网络的参数，并继续进行后续训练；若是，则停止训练，并输出当前训练获得的卷积神经网络。

在本申请实施例中，预设门限设置为0.001～0.01。

在训练过程中，被优化的卷积神经网络的参数包括但不限于优化权值参数和偏置参数。

在本申请实施例中，预先设定一个用于判定损失值是否逐渐收敛到预期程度的门限，即预设门限，当计算出的损失值大于预设门限时，则需要继续训练，返回步骤S101，选择另一张样本图像重复执行步骤S101-S104，再次将计算出的损失值与预设门限进行比较，大于预设门限，则再次调整卷积神经网络的参数；而后返回步骤S101，选择再下一张样本图像进行训练，如此循环，直至得出的损失值小于或者等于所述预设门限，则判定输出收敛。

至此，卷积神经网络一个阶段的训练过程结束。

本申请实施例中，将像素点与候选文本区域中指定参考位置的相对位置关系，即相对距离值，变换为像素点对应的一个第一概率值，该第一概率值一定程度上客观地反映了像素点是否为文本的可能性，并且第一概率值为0至1之间的过渡值，更为丰富地反映了文本区域边界处向景区域过渡的细节信息，以该第一概率值作为校验标准，与卷积神经网络得到的第二概率值进行比较，对卷积神经网络的参数进行优化，可以使得卷积神经网络充分学习到文本区域与背景区域的相对边界关系，相比于非0即1的方式，更准确地检测出了文本区域。

此外，现有技术中的部分方案，每一次检测时，都需要在初步提取的候选文本区域基础上，先进行缩小确定核心区域，而后再通过广度优先搜索对核心区域进行多次扩大，相比而言，本申请实施例提供的方法主要是基于概率值对每个像素点进行分类，实现图像中文本区域与非文本区域的分割，无需执行这些步骤，训练过程中计算像素点对应的第一概率值以及计算损失值的运算复杂度低，无需占用太多运算资源和时间，采用训练后的卷积神经网络对待检测图像进行检测时，由于在训练过程学习到了文本区域边界处的相对规律，无需再执行多次扩大的搜索过程，因此，检测速度更快。本申请实施例提供的检测方法，在检测效率方面，也有所提升；得到的文本区域检测模型算法强大适应性好，可以应对不同场景的变化，鲁棒性较好，精度高；

并且，经实践测试，本申请实施例训练得到的文本区域检测模型，可以检测到待检测图像中很小的文字，对于长文本与弯曲文本也有很好的检测效果。

实际检测时所面对的待检测图像的场景类别往往是多样化的，例如可能是购物中心、办公场所、自然环境等多种不同的类别，一般而言，对于未经训练的场景类别，需要再执行一个阶段的训练过程，即再次执行上述步骤S101-S104。

在本申请实施例中，在一种可能的实施方式中，根据训练过程与采用训练后的卷积神经网络进行实际检测过程的时间相对顺序，对卷积神经网络的训练可按照如下三种方式执行：

方式一：检测前，预先进行多类别场景类别的统一训练。

在对待检测图像进行检测之前，在获取样本图像时，获取多个应用场景类别下的样本图像，尽可能全面的获取多个应用场景类别的大量样本图像，利用这些样本图像，对卷积神经网络进行训练，训练过程参照上述步骤S101-步骤S104。待多个应用场景类别训练结束后，得到文本区域检测模型。

该方式为一次训练、多场景适用的模式，实际检测过程不需要再执行训练过程，对于多种不同场景具有一定的适应性。

例如，预先采集大型购物中心、公园、办公室等多个场景的样本图像，分别对卷积神经网络进行训练，则待检测图像所述的类别为大型购物中心、公园、办公室等时，都无需再进行训练，可直接检测。

方式二：检测时，遇到新的应用场景类别，再针对新的应用场景类别进行训练。

该方式中，在训练过程中，获取样本图像时，仅获取当前使用的第一应用场景类别下的样本图像；在得到文本区域检测模型之后，若还需要在第二应用场景下使用，则再获取第二应用场景类别的样本图像；根据第二应用场景类别的样本图像，对已得到的文本区域检测模型进行训练，得到适用于第二应用场景类别的文本区域检测模型。

即，该种方式二在初次检测前，仅获取一个应用场景类别下的样本图像、进行一个应用场景类别的训练。训练过程参照上述步骤S101-S104，不再赘述。之后基于得到的卷积神经网络对该应用场景类别的待检测图像进行检测。

方式二需要在检测每一类别场景下的待检测图像之前，针对该类别场景进行专项训练。一般而言，对于之前未经训练的应用场景类别，初次训练时得到的损失值都是不收敛的，如果收敛，就证明当前的卷积神经网络对于上述之前未经训练的应用场景类别下的图像，也具有较好的检测效果，无需再训练，则结束当前应用场景类别的训练。

方式二为多次训练、多次使用的模式，对于待检测图像的检测准确度高于方式一。例如，检测前仅采用大型购物中心场景下的样本图像进行了训练，在检测时，遇到的当前待检测图像为公园的图像，那么需要采集大量公园场景下的样本图像再次对卷积神经网络进行训练。

方式三：初次检测前多场景训练，检测时再针对新的应用场景类别进行训练。

该种方式为一种较优的实施方式，该方式三在初次检测前进行多应用场景类别的训练，即，不同于方式二，该方式中，进行首次训练时，获取尽可能多的应用场景类别下的样本图像，对卷积神经网络进行训练。采用训练得到文本区域检测模型进行检测时，遇到未经训练的新的应用场景类别，再获取该新的应用场景类别下的样本图像，进行专项训练。该种方式的检测准确度高于方式一

基于上述实施例过程，下面采用一个完整的实施例进一步说明。

在该实施例中，所采用卷积神经网络为PSENET，进行初次训练时采用的样本图像的应用场景类别为某一购物中心。

首先，获取多张该购物中心的样本图像，其中一张如图2所示。并从数据标注平台获取样本图像对应的文本标注数据。将文本标注数据中标识为文本的像素点的像素值均设为1，其余像素点均设为0，初步提取出如图3中所示的a、b、c、d、e、f、g共7个候选文本区域。

之后，以候选文本区域的边界为指定参考位置，计算候选文本区域内各个像素点的相对距离值。当候选文本区域确定后，其边界也随之确定，获取各个边界像素点的坐标和边界以内的像素点的坐标，计算每个像素点与边界的最近距离，作为该像素点的相对距离值。例如，参阅图5，以候选文本区域g为例，其中B、C均为候选文本区域g的边界像素点，A为候选文本区域g边界内的一个像素点。假设A点坐标为(856,608)、B点坐标为(916,612)、C点坐标为(872,578)，D点坐标(872,650)，经计算，像素点B以及其他边界像素点与像素点A的距离，均大于边界像素点C与像素点A之间的距离，则像素点A与像素点C之间的距离值即为相对距离值。线段AC长度为34，则像素点A的相对距离值即为34。以此，可得到候选文本区域的边界内的其它像素点的相对距离值。各个边界像素点的相对距离值为0。

得到候选文本区域g的所有像素点的相对距离值后，从中选择最大值作为该候选文本区域g的d_max。例如图5中确定的相对距离值最大值为像素点D到像素点B之间的距离值，根据像素点D、B坐标，计算可得相对距离值最大值为58.14。

然后根据以下映射函数，计算候选文本区域g的各个像素点对应的第一概率值：

其中，控制参数σ由下式确定：

例如，对于像素点A，其对应的第一概率值为：

其中：

经计算，像素点A对应的第一概率值为0.887。参照像素点A，可依次得到候选文本区域g其他像素点对应的第一概率值，并参照候选文本区域g依次得到候选文本区域a-f内的各个像素点的第一概率值，本申请实施例不再一一赘述。

将非候选文本区域的各个像素点的第一概率值设为0，如此，样本图像中所有的像素点都具备对应的第一概率值，生成与该样本图像对应的第一概率值矩阵，即第一概率值集合。

通过卷积神经网络PSENET对同一张样本图像进行预测，获取PSENET输出的用于预估该样本图像中各个像素点为文本的概率值的标记数据，作为第二概率值集合。

基于第一概率值与第二概率值的差值，按照下式计算样本图像的损失值：

计算时，将同一像素点的第一概率值与第二概率值对应相减。例如，经卷积神经网络的预测，假设像素点A对应的第二概率值为0.92，那么像素点A的第一概率值和第二概率值的差值为0.033，计算该差值的平方，并依次计算样本图像中其他像素点的差值平方，将各个差值平方进行求和，得到样本图像的损失值。

在本申请该实施例中，将预设门限设置为0.01。判断上述得出的样本图像的损失值是否低于预设门限，若是，则说明输出收敛，无需再调整卷积神经网络的参数，若否，则调整卷积神经网络PSENET的权值参数和偏置参数，调整后，选择下一张购物中心的样本图像，参照前述步骤继续训练，如此循环，直到损失值低于预设门限，停止训练。

基于同一发明构思，本申请实施例还提供一种文本区域检测方法。参阅图6所示，该检测方法包括步骤：

S601：采用文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值。

其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率。

S602：在所述待检测图像中，将第三概率值高于设定阈值的像素点确定为文本像素点。

其中，该设定阈值可作为被优化的卷积神经网络的参数之一，通过对卷积神经网络的训练，不断优化该设定阈值，得到一个较佳的具体阈值；也可以由本领域技术人员根据实际需要具体设定。例如，该设定阈值可以为0.5，将第三概率值高0.5的像素点确定为文本像素点。

S603：将所有文本像素点组成的区域确定为文本区域，并输出所述文本区域。

基于本申请实施例提供的文本区域检测方法，检测时无需基于广度优先搜索算法执行多次搜索，并且第三概率值的运算复杂度低，无需占用太多运算资源和时间，因而提升了检测效率。总体而言，本申请实施例提供的文本区域检测方法，算法强大，适应性好，可以应对不同场景的变化，鲁棒性好；此外，经实践测试，采用本申请实施例提供的文本区域检测方法，可以检测到很小的文字，对于长文本与弯曲文本也有很好的检测效果，检测精度较高。

基于同一发明构思，本申请实施例还提供文本区域检测模型训练装置，参阅图7所示，本该训练装置，至少包括提取单元701、转换单元702、映射单元703和训练单元704。

其中，提取单元701，用于获取样本图像，并根据样本图像对应的文本标注数据，在样本图像中提取出候选文本区域。

转换单元702，用于分别计算候选文本区域中各个像素点与样本图像中指定参考位置之间的相对距离值。

映射单元703，将候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值，得到样本图像对应的第一概率值集合；所述第一概率值表征相应的像素点可能为文本信息的概率。

训练单元704，用于将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型。

在一种可能的实施方式中，获取样本图像时，所述提取单元701，具体用于：获取多个应用场景类别下的样本图像。

在一种可能的实施方式中，获取样本图像时，所述提取单元701，用于：获取第一应用场景类别下的样本图像；

在得到文本区域检测模型之后，

所述提取单元701，还用于：获取第二应用场景类别的样本图像；

所述训练单元704，还用于：根据所述第二应用场景类别的样本图像，对已得到的文本区域检测模型进行训练，得到适用于所述第二应用场景类别的文本区域检测模型。

在一种可能的实施方式中，根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域时，所述提取单元701，具体用于：

在一种可能的实施方式中，计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值时，所述转换单元702，具体用于：

在一种可能的实施方式中，将所述候选文本区域内的各个像素点的相对距离值分别映射为相应的第一概率值时，所述映射单元703，具体用于：

或者，

在一种可能的实施方式中，得到所述样本图像对应的第一概率值集合时，所述映射单元703，还用于：

在一种可能的实施方式中，将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型时，所述训练单元704，具体用于：

基于所述第一概率值集合和所述第二概率值集合，计算所述样本图像的损失值；若所述损失值不低于预设门限，则根据所述损失值，优化所述卷积神经网络的参数，并继续进行训练；若所述损失值低于预设门限，则停止训练，并将当前训练获得的卷积神经网络确定为所述文本区域检测模型。

基于同一发明构思，参阅图8所示，本申请实施例还提供一种文本区域检测装置，包括检测单元801、确定单元802和输出单元803。

其中，检测单元801，用于采用文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值；其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率；

确定单元802，用于在所述待检测图像中，将第三概率值高于设定阈值的像素点确定为文本像素点；

输出单元803，用于将所有文本像素点组成的区域确定为文本区域，并输出所述文本区域。

基于同一发明构思，参阅图9所示，本申请实施例中提出一种电子设备，该电子设备至少包括：存储器901和处理器902，其中，

存储器901，用于存储可执行指令；

处理器902，用于读取并执行存储器中存储的可执行指令，以实现上述实施例涉及到的任一种方法。

其中，该电子设备可以是服务器，也可以是智能设备，例如智能机器人、智能终端等，本发明实施例中不对电子设备的具体实现形式进行限定。

基于同一发明构思，本申请实施例提供一种存储介质，当存储介质中的指令由处理器执行时，使得能够执行上述实施例涉及到的任一种方法。

综上，本申请实施例中，首先根据文本标注数据初步提取出一个初始的候选文本区域，以像素点在候选文本区域中的相对距离值为基础，将其映射为一个能够表征该像素点可能为文本的一个概率值，即第一概率值，并将得到的第一概率值集合作为标注数据，对卷积神经网络进行训练，得到文本区域检测模型；基于该文本区域检测模型，对待检测图像进行检测，输出第三概率值集合，根据第三概率值集合确定文本像素点，进而确定出文本区域，这样，相比于现有技术中检测文本区域的方法，无需进行广度优先搜索，节省了多次检测的时间，检测速度更快，效率更高。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。

显然，本领域的技术人员可以对本申请实施例进行各种改动和变型而不脱离本申请实施例的精神和范围。这样，倘若本申请实施例的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.文本区域检测模型训练方法，其特征在于，所述方法包括：

将所述候选文本区域内的各个像素点的相对距离值，通过与预设的控制参数结合计算，分别映射出相应的第一概率值，得到所述样本图像对应的第一概率值集合，所述第一概率值表征相应的像素点可能为文本信息的概率；

2.如权利要求1所述的方法，其特征在于，所述获取样本图像，包括：

获取多个应用场景类别下的样本图像。

3.如权利要求1所述的方法，其特征在于，所述获取样本图像，包括：获取第一应用场景类别下的样本图像；

在得到文本区域检测模型之后，还包括：

获取第二应用场景类别的样本图像；

4.如权利要求1所述的方法，其特征在于，根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域，具体包括：

5.如权利要求1所述的方法，其特征在于，计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值，具体包括：

6.如权利要求1所述的方法，其特征在于，将所述候选文本区域内的各个像素点的相对距离值，通过与预设的控制参数结合计算，分别映射出相应的第一概率值，具体包括：

或者，

7.如权利要求6所述的方法，其特征在于，得到所述样本图像对应的第一概率值集合，还包括：

8.如权利要求1－7任一项所述的方法，其特征在于，将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型，具体包括：

9.文本区域检测方法，其特征在于，所述方法包括：

采用权利要求1-8任一方法训练的文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值；其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率；

10.文本区域检测模型训练装置，其特征在于，包括：

映射单元，用于将所述候选文本区域内的各个像素点的相对距离值，通过与预设的控制参数结合计算，分别映射出相应的第一概率值，得到所述样本图像对应的第一概率值集合，所述第一概率值表征相应的像素点可能为文本信息的概率；

11.如权利要求10所述的装置，其特征在于，获取样本图像时，所述提取单元，具体用于：

获取多个应用场景类别下的样本图像。

12.如权利要求10所述的装置，其特征在于，获取样本图像时，所述提取单元，用于：获取第一应用场景类别下的样本图像；

在所述训练单元得到文本区域检测模型之后，

13.如权利要求10所述的装置，其特征在于，根据所述样本图像对应的文本标注数据，在所述样本图像中提取出候选文本区域时，所述提取单元，具体用于：

14.如权利要求10所述的装置，其特征在于，计算所述候选文本区域中各个像素点与所述样本图像中指定参考位置之间的相对距离值时，所述转换单元，具体用于：

15.如权利要求10所述的装置，其特征在于，将所述候选文本区域内的各个像素点的相对距离值，通过与预设的控制参数结合计算，分别映射出相应的第一概率值时，所述映射单元，具体用于：

或者，

16.如权利要求15所述的装置，其特征在于，得到所述样本图像对应的第一概率值集合时，所述映射单元，还用于：

17.如权利要求10-16任一项所述的装置，其特征在于，将所述第一概率值集合作为所述样本图像的标注数据，对卷积神经网络进行训练，得到文本区域检测模型时，所述训练单元，具体用于：

18.文本区域检测装置，其特征在于，包括：

检测单元，用于采用权利要求1-8任一方法训练的文本区域检测模型，对待检测图像进行文本分类识别，输出所述待检测图像中各个像素点对应的第三概率值；其中，所述第三概率值表征所述待检测图像中的像素点可能为文本信息的预测概率；

19.一种电子设备，其特征在于，该电子设备包括：存储器和处理器；其中，

存储器，用于存储可执行指令；

处理器，用于读取并执行存储器中存储的可执行指令，以实现如权利要求1-9任一项所述的方法。

20.一种存储介质，其特征在于，当存储介质中的指令由处理器执行时，使得能够执行如权利要求1-9任一项所述的方法。