CN109389116A

CN109389116A - 一种字符检测方法及装置

Info

Publication number: CN109389116A
Application number: CN201710693857.XA
Authority: CN
Inventors: 姜帆; 郝志会
Original assignee: Autonavi Software Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2017-08-14
Filing date: 2017-08-14
Publication date: 2019-02-26
Anticipated expiration: 2037-08-14
Also published as: CN109389116B

Abstract

本申请公开了一种字符检测方法及装置，方法包括：获取初始图像；将初始图像输入预先训练的深度全卷积神经网络模型，得到深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率；将初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点；对初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。在本申请中，通过以上方式简化了检测流程，进而减少了运算量。

Description

一种字符检测方法及装置

技术领域

本申请涉及目标检测技术领域，更具体地说，涉及一种字符检测方法及装置。

背景技术

随着计算机技术和多媒体的飞速发展，越来越多的信息以图像的形式传播，图像中通常包括大量包含重要信息的描述性文字。为了获取图像中的重要信息，首先从图像中检测出文字区域尤为重要。

目前，文字区域检测主要包括如下步骤：首先，采用区域提取算法从图像中提取出候选区域；然后，采用分类器判断各个候选区域是否为文字区域；最后，将包含文字的候选区域连结起来得到最终的文字区域。其中，候选区域提取过程一般是采用滑窗方式从图像中提取众多的候选区域。进一步，针对每一个候选区域，均需要分别输入分类器中，由分类器判断输入的候选区域内是否包含文字。显然，由于现有技术需要对图像进行滑窗选取众多的候选区域，该选取过程即需要大量的运算，进一步，还需要对选取的每一候选区域均进行分类器判断，再次耗费大量运算。使得现有文字区域检测方法整体运算量大，且流程复杂。

发明内容

有鉴于此，本申请提供了一种字符检测方法及装置，用于解决现有文字区域检测方法流程复杂，运算量大的问题。

为了实现上述目的，现提出的方案如下：

一种字符检测方法，包括：

获取初始图像；

将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率，其中，所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到；

将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点；

对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。

优选的，在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括：对所述二值化图像中的字符像素点区域进行形态学规则处理。

优选的，所述对所述二值化图像中的字符像素点区域进行形态学规则处理包括：

按照设定腐蚀半径，对所述字符像素点区域进行形态学腐蚀，得到腐蚀后的字符像素点区域；

按照设定膨胀半径，对所述腐蚀后的字符像素点区域进行形态学膨胀，得到膨胀后的字符像素点区域。

优选的，在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括：

对所述二值化图像进行连通域检测，得到所述二值化图像中的每个连通的字符像素点区域的参数。

优选的，所述深度全卷积神经网络模型的训练过程，包括：

获取训练图像，所述训练图像中采用多边形标注有字符的真实区域；

利用所述训练图像训练深度全卷积神经网络模型，得到训练后的深度全卷积神经网络模型。

一种字符检测装置，包括：

获取模块，用于获取初始图像；

概率计算模块，用于将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率，其中，所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到；

分类模块，用于将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点；

二值化处理模块，用于对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。

优选的，还包括：

形态学规则处理模块，用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像中的字符像素点区域进行形态学规则处理。

优选的，所述形态学规则处理模块在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像中的字符像素点区域进行形态学规则处理的过程，具体包括：

优选的，还包括：

连通域检测模块，用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像进行连通域检测，得到所述二值化图像中的每个连通的字符像素点区域的参数。

优选的，还包括：

模型训练模块，用于获取训练图像，所述训练图像中采用多边形标注有字符的真实区域；利用所述训练图像训练深度全卷积神经网络模型，得到训练后的深度全卷积神经网络模型。

从上述的技术方案可以看出，本申请将获取到的初始图像输入预先训练的深度全卷积神经网络模型，深度全卷积神经网络模型直接对整个初始图像进行处理，输出的所述初始图像中每个像素点为字符像素点的概率，不需要进行多次的区域选取过程，并一次性将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点，并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域，整个字符检测过程也不需要进行多次分类过程，简化了检测流程，进而减少了运算量。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例公开的一种字符检测方法的流程图；

图2为本申请实施例公开的另一种字符检测方法的流程图；

图3为示例了字符检测方法执行的一种效果示意图；

图4为示例了采用多边形标注的字符的真实区域的示意图；

图5为本申请实施例公开的一种字符检测装置的逻辑结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请实施例公开了一种字符检测方法，通过获取初始图像；将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率；将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点；对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域，实现字符的区域的检测。

本申请实施例公开的字符检测方法可以应用于文字区域检测，实现文字区域的检测。

接下来对本申请的字符检测方法进行介绍，参见图1所示，该方法包括：

步骤S100、获取初始图像。

可选的，初始图像可以是采集装置所采集的图像，也可以是通过其它方式、渠道获取的包含字符的图像，如用户上传、网络下载等。

步骤S110、将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率。

本实施例中，将所述初始图像输入预先训练的深度全卷积神经网络模型后，深度全卷积神经网络模型计算初始图像中每个像素点为字符像素点的概率，输出所述初始图像中每个像素点为字符像素点的概率，每个像素点为字符像素点的概率集合则构成了像素点概率矩阵。

所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。

字符的真实区域，可以理解为紧贴字符外边缘的区域。具体地，可以通过人工标注的方式在训练图像上以多边形选取、紧贴字符外边缘标注训练图像中的每个单个字符的真实区域，从而获得训练图像上字符区域的真值。

可以理解的是，预先利用标注有字符的真实区域的训练图像训练深度全卷积神经网络模型，可以保证训练得到的深度全卷积神经网络模型能够准确的检测出初始图像中各像素点是否为字符。

同样的，深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率的准确度同样也依赖于对深度全卷积神经网络模型的训练精度，训练精度越高，深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率越精确。

步骤S120、将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点。

基于步骤S110得到的所述初始图像中每个像素点为字符像素点的概率，将所述初始图像中的像素点分类，分类的过程可以为：将所述初始图像中像素点为字符像素点的概率大于预设概率阈值的像素点归类为字符像素点。

步骤S130、对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。其中，字符像素点区域指的是字符像素点组成的区域，非字符像素点区域指的是非字符像素点组成的区域。

本步骤中，对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理可以理解为：通过二值化方式，将字符像素点和非字符像素点设置成不同颜色，如将字符像素点设置为白色，将非字符像素点设置为黑色；或者将字符像素点设置为黑色，将非字符像素点设置为白色或者其余方式。若将字符像素点设置为白色，将非字符像素点设置为黑色时，则得到的二值化图像上的白色区域则为字符像素点区域，黑色区域则为非字符像素点区域。

本申请将获取到的初始图像输入预先训练的深度全卷积神经网络模型，深度全卷积神经网络模型直接对整个初始图像进行处理，输出所述初始图像中每个像素点为字符像素点的概率，不需要进行多次的区域选取过程；并一次性将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点，并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域，整个字符检测过程也不需要进行多次分类过程，简化了检测流程，进而减少了运算量。

在本申请的另一个实施例中，介绍了另外一种字符检测方法，请参见图2，可以包括以下步骤：

步骤S200、获取初始图像。

步骤S210、将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率。

其中，所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。

步骤S220、将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点。

步骤S230、对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。

步骤S200-S230与前述实施例中的步骤S100-步骤S130一一对应，步骤S200-步骤S2230的详细过程参见前文介绍，此处不再赘述。

步骤S240、对所述二值化图像中的字符像素点区域进行形态学规则处理。

本实施例中，对步骤S230中二值化图像中的字符像素点区域进行形态学规则处理，使字符像素点区域更加规整，提高检测的准确度。

可以理解的是，本步骤对所述二值化图像中的字符像素点区域进行形态学规则处理后，输出的图像上字符像素点区域更加规整。

本实施例中，可以参见图3，其示出了字符检测方法执行的效果示意图，如图3所示，初始图像输入深度全卷积神经网络模型，深度全卷积神经网络模型计算初始图像中每个像素点为字符像素点的概率，输出所述初始图像中每个像素点为字符像素点的概率矩阵；进而再将图像中的像素点为字符像素点的概率与预设概率阈值比较，归类出字符像素点；并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像；进一步对二值化图像中的字符像素点区域进行形态学规则处理，得到字符像素点区域更加规整的图像。若二值化处理后的图像中白色区域为字符像素点区域，则对白色区域进行形态学规则处理，得到字符像素点区域更加规整的图像。

在本申请的另一个实施例中，对前述实施例中步骤S240，对所述二值化图像中的字符像素点区域进行形态学规则处理的过程进行介绍，具体如下：

S1、按照设定腐蚀半径，对所述字符像素点区域进行形态学腐蚀，得到腐蚀后的字符像素点区域。

本实施例中，可以利用长度为设定腐蚀半径的结构扫描字符像素点区域中的每一个像素点，判断每一个像素点的周边是否存在背景像素点(即组成非字符的像素点)，若存在，则将该像素点确定为背景像素点，并从字符像素点区域中删除确定为背景像素点的点，完成形态学腐蚀。

本实施例介绍的形态学腐蚀的过程，可以消除字符像素点区域的噪声边界点，以及去除相邻不同字符的像素点间的少量粘连像素点，缩小字符像素点区域，达到消除字符像素点区域的噪声像素点及切除粘连像素点的目的。

S2、按照设定膨胀半径，对所述腐蚀后的字符像素点区域进行形态学膨胀，得到膨胀后的字符像素点区域。

本实施例中，可以利用长度为设定膨胀半径的结构扫描腐蚀后的字符像素点区域中的每一个像素点，判断每一个像素点的周边是否存在前景像素点(即组成字符的像素点)，若存在，则将该像素点确定为前景像素点，并将确定为前景像素点的点合并到字符像素点区域中，完成形态学膨胀。

本实施例中，采用先进行形态学腐蚀，后进行形态学膨胀的过程，可以消除字符像素点区域中的细小噪声点，平滑字符像素点区域的边界，以及去除相邻不同字符的像素点间的少量粘连像素点。

优选的，可以将所述设定腐蚀半径和所述设定膨胀半径的大小关系设置为：所述设定腐蚀半径大于所述设定膨胀半径。

如上述对形态学腐蚀和形态学膨胀的介绍可知，形态学腐蚀可以缩小字符像素点区域，形态学膨胀可以增大字符像素点区域，在设定腐蚀半径大于设定膨胀半径时，字符像素点区域的缩小比例大于字符像素点区域的增大比例，可以更彻底的消除噪声像素点以及粘连像素点，提高字符像素点区域的检测准确度。具体对于文字来说，采用这种方式可以减少文字区域之间的粘连，保证检测出的文字区域更规整、清晰。

现举例对设定腐蚀半径大于设定膨胀半径的形态学腐蚀和形态学膨胀的计算过程进行说明，例如，设定腐蚀半径为10像素，设定膨胀半径为5像素。首先进行形态学腐蚀，然后进行形态学膨胀，具体采用如下公式计算：

I_r＝dilate_SIZE5(erode_SIZE10(I))

上述公式中，I_r表示经过形态学腐蚀后形态学膨胀的图像；

I表示二值化图像；

erode_size＝10(I)表示形态学腐蚀计算公式；

dilate_size＝5(erode_size＝10(I))表示在形态学腐蚀的基础上，形态学膨胀的计算公式。

在本申请的另一个实施例中，提供另外一种字符检测方法，在各个前述实施例中的对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，还可以包括以下步骤：

可以理解的是，对所述二值化图像进行连通域检测具体可以为：提取所述二值化图像中各个连通的字符像素点区域，每个连通的字符像素点区域为每个字符的覆盖区域。

在提取到所述二值化图像中每个连通的字符像素点区域后，可以获得每个连通的字符像素点区域的参数，如在初始图像中的位置、轮廓等。

在本申请的另一个实施例中，对所述深度全卷积神经网络模型的训练过程进行介绍，具体可以包括以下步骤：

S1、获取训练图像，所述训练图像中采用多边形标注有字符的真实区域。

训练图像中字符的真实区域可以采用传统的矩形标注的方式进行标注。但是传统的矩形标注的方式较为适用于拍摄角度为正面拍摄的图像，对于非正面拍摄的图像，图像中字符不是规则的矩形形状，采用传统的矩形标注的方式标注的区域一般不能包含完整的字符，或同时包含大量的非字符，导致字符的像素点区域无法被准确的检测出。

为了解决传统的矩形标注的方式存在的问题，本实施例采用多边形标注的方式标注训练图像中字符的真实区域，保证无论训练图像是以何种拍摄角度拍摄的图像，均可以选取一种适用相应拍摄角度拍摄的图像的多边形来标注字符，使标注的区域能够包含完整的字符，提高字符的像素点区域检测的准确度。

另一方面，采用多边形标注的方式由于对拍摄角度没有要求，因此训练图像可以为任意拍摄角度拍摄的图像，不再受限于正面拍摄的图像，扩展了训练图像的样本多样性。

本实施例中，采用多边形标注的字符的真实区域的示意图可以参见图4，如图4所示，初始图像为从侧面拍摄的图像，初始图像上的字符(即文字)的形状为平行四边形，因此可以采用平行四边形或五边形等多边形进行标注(如，澳字用平行四边形标注，饼字用五边形标注等)，保证标注的区域包含完整的字符，且尽量减少包含的非字符。

S2、利用所述训练图像训练深度全卷积神经网络模型，得到训练后的深度全卷积神经网络模型。

利用采用多边形标注字符的真实区域的训练图像，训练深度全卷积神经网络模型，可以使训练后的深度全卷积神经网络模型更加准确的检测不同拍摄角度的图像中字符的像素点区域。

下面对本申请实施例提供的字符检测装置进行描述，下文描述的字符检测装置与上文描述的字符检测方法可相互对应参照。

请参见图5，其示出了本申请提供的字符检测装置的一种逻辑结构示意图，字符检测装置包括：获取模块11、概率计算模块12、分类模块13和二值化处理模块14。

获取模块11，用于获取初始图像。

概率计算模块12，用于将所述初始图像输入预先训练的深度全卷积神经网络模型，得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率，其中，所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。

分类模块13，用于将所述初始图像中的像素点分类，其中，概率大于预设概率阈值的像素点归类为字符像素点。

二值化处理模块14，用于对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像，其中，所述二值化图像中包括：字符像素点区域和非字符像素点区域。

本实施例中，字符检测装置还可以包括：形态学规则处理模块，用于在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像中的字符像素点区域进行形态学规则处理。

所述形态学规则处理模块在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像中的字符像素点区域进行形态学规则处理的过程，具体可以包括：

上述字符检测装置还可以包括：连通域检测模块，用于在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像进行连通域检测，得到所述二值化图像中的每个连通的字符像素点区域的参数。

本实施例中，字符检测装置还可以包括：模型训练模块，用于：获取训练图像，所述训练图像中采用多边形标注有字符的真实区域；利用所述训练图像训练深度全卷积神经网络模型，得到训练后的深度全卷积神经网络模型。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下，在其它实施例中实现。因此，本申请将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种字符检测方法，其特征在于，包括：

获取初始图像；

2.根据权利要求1所述的方法，其特征在于，在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括：对所述二值化图像中的字符像素点区域进行形态学规则处理。

3.根据权利要求2所述的方法，其特征在于，所述对所述二值化图像中的字符像素点区域进行形态学规则处理包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括：

5.根据权利要求1所述的方法，其特征在于，所述深度全卷积神经网络模型的训练过程，包括：

6.一种字符检测装置，其特征在于，包括：

获取模块，用于获取初始图像；

7.根据权利要求6所述的装置，其特征在于，还包括：

8.根据权利要求7所述的装置，其特征在于，所述形态学规则处理模块在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后，对所述二值化图像中的字符像素点区域进行形态学规则处理的过程，具体包括：

9.根据权利要求6-8任一项所述的装置，其特征在于，还包括：

10.根据权利要求6所述的装置，其特征在于，还包括：