CN109389116A - 一种字符检测方法及装置 - Google Patents

一种字符检测方法及装置 Download PDF

Info

Publication number
CN109389116A
CN109389116A CN201710693857.XA CN201710693857A CN109389116A CN 109389116 A CN109389116 A CN 109389116A CN 201710693857 A CN201710693857 A CN 201710693857A CN 109389116 A CN109389116 A CN 109389116A
Authority
CN
China
Prior art keywords
character
pixel
pixels point
character pixels
initial pictures
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710693857.XA
Other languages
English (en)
Other versions
CN109389116B (zh
Inventor
姜帆
郝志会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN201710693857.XA priority Critical patent/CN109389116B/zh
Publication of CN109389116A publication Critical patent/CN109389116A/zh
Application granted granted Critical
Publication of CN109389116B publication Critical patent/CN109389116B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/751Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)

Abstract

本申请公开了一种字符检测方法及装置,方法包括:获取初始图像;将初始图像输入预先训练的深度全卷积神经网络模型,得到深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率;将初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;对初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。在本申请中,通过以上方式简化了检测流程,进而减少了运算量。

Description

一种字符检测方法及装置
技术领域
本申请涉及目标检测技术领域,更具体地说,涉及一种字符检测方法及装置。
背景技术
随着计算机技术和多媒体的飞速发展,越来越多的信息以图像的形式传播,图像中通常包括大量包含重要信息的描述性文字。为了获取图像中的重要信息,首先从图像中检测出文字区域尤为重要。
目前,文字区域检测主要包括如下步骤:首先,采用区域提取算法从图像中提取出候选区域;然后,采用分类器判断各个候选区域是否为文字区域;最后,将包含文字的候选区域连结起来得到最终的文字区域。其中,候选区域提取过程一般是采用滑窗方式从图像中提取众多的候选区域。进一步,针对每一个候选区域,均需要分别输入分类器中,由分类器判断输入的候选区域内是否包含文字。显然,由于现有技术需要对图像进行滑窗选取众多的候选区域,该选取过程即需要大量的运算,进一步,还需要对选取的每一候选区域均进行分类器判断,再次耗费大量运算。使得现有文字区域检测方法整体运算量大,且流程复杂。
发明内容
有鉴于此,本申请提供了一种字符检测方法及装置,用于解决现有文字区域检测方法流程复杂,运算量大的问题。
为了实现上述目的,现提出的方案如下:
一种字符检测方法,包括:
获取初始图像;
将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率,其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到;
将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;
对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
优选的,在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括:对所述二值化图像中的字符像素点区域进行形态学规则处理。
优选的,所述对所述二值化图像中的字符像素点区域进行形态学规则处理包括:
按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域;
按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
优选的,在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括:
对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
优选的,所述深度全卷积神经网络模型的训练过程,包括:
获取训练图像,所述训练图像中采用多边形标注有字符的真实区域;
利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
一种字符检测装置,包括:
获取模块,用于获取初始图像;
概率计算模块,用于将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率,其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到;
分类模块,用于将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;
二值化处理模块,用于对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
优选的,还包括:
形态学规则处理模块,用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理。
优选的,所述形态学规则处理模块在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理的过程,具体包括:
按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域;
按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
优选的,还包括:
连通域检测模块,用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
优选的,还包括:
模型训练模块,用于获取训练图像,所述训练图像中采用多边形标注有字符的真实区域;利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
从上述的技术方案可以看出,本申请将获取到的初始图像输入预先训练的深度全卷积神经网络模型,深度全卷积神经网络模型直接对整个初始图像进行处理,输出的所述初始图像中每个像素点为字符像素点的概率,不需要进行多次的区域选取过程,并一次性将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点,并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域,整个字符检测过程也不需要进行多次分类过程,简化了检测流程,进而减少了运算量。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种字符检测方法的流程图;
图2为本申请实施例公开的另一种字符检测方法的流程图;
图3为示例了字符检测方法执行的一种效果示意图;
图4为示例了采用多边形标注的字符的真实区域的示意图;
图5为本申请实施例公开的一种字符检测装置的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种字符检测方法,通过获取初始图像;将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率;将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域,实现字符的区域的检测。
本申请实施例公开的字符检测方法可以应用于文字区域检测,实现文字区域的检测。
接下来对本申请的字符检测方法进行介绍,参见图1所示,该方法包括:
步骤S100、获取初始图像。
可选的,初始图像可以是采集装置所采集的图像,也可以是通过其它方式、渠道获取的包含字符的图像,如用户上传、网络下载等。
步骤S110、将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率。
本实施例中,将所述初始图像输入预先训练的深度全卷积神经网络模型后,深度全卷积神经网络模型计算初始图像中每个像素点为字符像素点的概率,输出所述初始图像中每个像素点为字符像素点的概率,每个像素点为字符像素点的概率集合则构成了像素点概率矩阵。
所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。
字符的真实区域,可以理解为紧贴字符外边缘的区域。具体地,可以通过人工标注的方式在训练图像上以多边形选取、紧贴字符外边缘标注训练图像中的每个单个字符的真实区域,从而获得训练图像上字符区域的真值。
可以理解的是,预先利用标注有字符的真实区域的训练图像训练深度全卷积神经网络模型,可以保证训练得到的深度全卷积神经网络模型能够准确的检测出初始图像中各像素点是否为字符。
同样的,深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率的准确度同样也依赖于对深度全卷积神经网络模型的训练精度,训练精度越高,深度全卷积神经网络模型输出的初始图像中每个像素点为字符像素点的概率越精确。
步骤S120、将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点。
基于步骤S110得到的所述初始图像中每个像素点为字符像素点的概率,将所述初始图像中的像素点分类,分类的过程可以为:将所述初始图像中像素点为字符像素点的概率大于预设概率阈值的像素点归类为字符像素点。
步骤S130、对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。其中,字符像素点区域指的是字符像素点组成的区域,非字符像素点区域指的是非字符像素点组成的区域。
本步骤中,对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理可以理解为:通过二值化方式,将字符像素点和非字符像素点设置成不同颜色,如将字符像素点设置为白色,将非字符像素点设置为黑色;或者将字符像素点设置为黑色,将非字符像素点设置为白色或者其余方式。若将字符像素点设置为白色,将非字符像素点设置为黑色时,则得到的二值化图像上的白色区域则为字符像素点区域,黑色区域则为非字符像素点区域。
本申请将获取到的初始图像输入预先训练的深度全卷积神经网络模型,深度全卷积神经网络模型直接对整个初始图像进行处理,输出所述初始图像中每个像素点为字符像素点的概率,不需要进行多次的区域选取过程;并一次性将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点,并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域,整个字符检测过程也不需要进行多次分类过程,简化了检测流程,进而减少了运算量。
在本申请的另一个实施例中,介绍了另外一种字符检测方法,请参见图2,可以包括以下步骤:
步骤S200、获取初始图像。
步骤S210、将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率。
其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。
步骤S220、将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点。
步骤S230、对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
步骤S200-S230与前述实施例中的步骤S100-步骤S130一一对应,步骤S200-步骤S2230的详细过程参见前文介绍,此处不再赘述。
步骤S240、对所述二值化图像中的字符像素点区域进行形态学规则处理。
本实施例中,对步骤S230中二值化图像中的字符像素点区域进行形态学规则处理,使字符像素点区域更加规整,提高检测的准确度。
可以理解的是,本步骤对所述二值化图像中的字符像素点区域进行形态学规则处理后,输出的图像上字符像素点区域更加规整。
本实施例中,可以参见图3,其示出了字符检测方法执行的效果示意图,如图3所示,初始图像输入深度全卷积神经网络模型,深度全卷积神经网络模型计算初始图像中每个像素点为字符像素点的概率,输出所述初始图像中每个像素点为字符像素点的概率矩阵;进而再将图像中的像素点为字符像素点的概率与预设概率阈值比较,归类出字符像素点;并对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像;进一步对二值化图像中的字符像素点区域进行形态学规则处理,得到字符像素点区域更加规整的图像。若二值化处理后的图像中白色区域为字符像素点区域,则对白色区域进行形态学规则处理,得到字符像素点区域更加规整的图像。
在本申请的另一个实施例中,对前述实施例中步骤S240,对所述二值化图像中的字符像素点区域进行形态学规则处理的过程进行介绍,具体如下:
S1、按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域。
本实施例中,可以利用长度为设定腐蚀半径的结构扫描字符像素点区域中的每一个像素点,判断每一个像素点的周边是否存在背景像素点(即组成非字符的像素点),若存在,则将该像素点确定为背景像素点,并从字符像素点区域中删除确定为背景像素点的点,完成形态学腐蚀。
本实施例介绍的形态学腐蚀的过程,可以消除字符像素点区域的噪声边界点,以及去除相邻不同字符的像素点间的少量粘连像素点,缩小字符像素点区域,达到消除字符像素点区域的噪声像素点及切除粘连像素点的目的。
S2、按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
本实施例中,可以利用长度为设定膨胀半径的结构扫描腐蚀后的字符像素点区域中的每一个像素点,判断每一个像素点的周边是否存在前景像素点(即组成字符的像素点),若存在,则将该像素点确定为前景像素点,并将确定为前景像素点的点合并到字符像素点区域中,完成形态学膨胀。
本实施例中,采用先进行形态学腐蚀,后进行形态学膨胀的过程,可以消除字符像素点区域中的细小噪声点,平滑字符像素点区域的边界,以及去除相邻不同字符的像素点间的少量粘连像素点。
优选的,可以将所述设定腐蚀半径和所述设定膨胀半径的大小关系设置为:所述设定腐蚀半径大于所述设定膨胀半径。
如上述对形态学腐蚀和形态学膨胀的介绍可知,形态学腐蚀可以缩小字符像素点区域,形态学膨胀可以增大字符像素点区域,在设定腐蚀半径大于设定膨胀半径时,字符像素点区域的缩小比例大于字符像素点区域的增大比例,可以更彻底的消除噪声像素点以及粘连像素点,提高字符像素点区域的检测准确度。具体对于文字来说,采用这种方式可以减少文字区域之间的粘连,保证检测出的文字区域更规整、清晰。
现举例对设定腐蚀半径大于设定膨胀半径的形态学腐蚀和形态学膨胀的计算过程进行说明,例如,设定腐蚀半径为10像素,设定膨胀半径为5像素。首先进行形态学腐蚀,然后进行形态学膨胀,具体采用如下公式计算:
Ir=dilateSIZE5(erodeSIZE10(I))
上述公式中,Ir表示经过形态学腐蚀后形态学膨胀的图像;
I表示二值化图像;
erodesize=10(I)表示形态学腐蚀计算公式;
dilatesize=5(erodesize=10(I))表示在形态学腐蚀的基础上,形态学膨胀的计算公式。
在本申请的另一个实施例中,提供另外一种字符检测方法,在各个前述实施例中的对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,还可以包括以下步骤:
对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
可以理解的是,对所述二值化图像进行连通域检测具体可以为:提取所述二值化图像中各个连通的字符像素点区域,每个连通的字符像素点区域为每个字符的覆盖区域。
在提取到所述二值化图像中每个连通的字符像素点区域后,可以获得每个连通的字符像素点区域的参数,如在初始图像中的位置、轮廓等。
在本申请的另一个实施例中,对所述深度全卷积神经网络模型的训练过程进行介绍,具体可以包括以下步骤:
S1、获取训练图像,所述训练图像中采用多边形标注有字符的真实区域。
训练图像中字符的真实区域可以采用传统的矩形标注的方式进行标注。但是传统的矩形标注的方式较为适用于拍摄角度为正面拍摄的图像,对于非正面拍摄的图像,图像中字符不是规则的矩形形状,采用传统的矩形标注的方式标注的区域一般不能包含完整的字符,或同时包含大量的非字符,导致字符的像素点区域无法被准确的检测出。
为了解决传统的矩形标注的方式存在的问题,本实施例采用多边形标注的方式标注训练图像中字符的真实区域,保证无论训练图像是以何种拍摄角度拍摄的图像,均可以选取一种适用相应拍摄角度拍摄的图像的多边形来标注字符,使标注的区域能够包含完整的字符,提高字符的像素点区域检测的准确度。
另一方面,采用多边形标注的方式由于对拍摄角度没有要求,因此训练图像可以为任意拍摄角度拍摄的图像,不再受限于正面拍摄的图像,扩展了训练图像的样本多样性。
本实施例中,采用多边形标注的字符的真实区域的示意图可以参见图4,如图4所示,初始图像为从侧面拍摄的图像,初始图像上的字符(即文字)的形状为平行四边形,因此可以采用平行四边形或五边形等多边形进行标注(如,澳字用平行四边形标注,饼字用五边形标注等),保证标注的区域包含完整的字符,且尽量减少包含的非字符。
S2、利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
利用采用多边形标注字符的真实区域的训练图像,训练深度全卷积神经网络模型,可以使训练后的深度全卷积神经网络模型更加准确的检测不同拍摄角度的图像中字符的像素点区域。
下面对本申请实施例提供的字符检测装置进行描述,下文描述的字符检测装置与上文描述的字符检测方法可相互对应参照。
请参见图5,其示出了本申请提供的字符检测装置的一种逻辑结构示意图,字符检测装置包括:获取模块11、概率计算模块12、分类模块13和二值化处理模块14。
获取模块11,用于获取初始图像。
概率计算模块12,用于将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率,其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到。
分类模块13,用于将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点。
二值化处理模块14,用于对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
本实施例中,字符检测装置还可以包括:形态学规则处理模块,用于在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理。
所述形态学规则处理模块在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理的过程,具体可以包括:
按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域;
按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
上述字符检测装置还可以包括:连通域检测模块,用于在所述二值化处理模块14对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
本实施例中,字符检测装置还可以包括:模型训练模块,用于:获取训练图像,所述训练图像中采用多边形标注有字符的真实区域;利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种字符检测方法,其特征在于,包括:
获取初始图像;
将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率,其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到;
将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;
对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
2.根据权利要求1所述的方法,其特征在于,在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括:对所述二值化图像中的字符像素点区域进行形态学规则处理。
3.根据权利要求2所述的方法,其特征在于,所述对所述二值化图像中的字符像素点区域进行形态学规则处理包括:
按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域;
按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
4.根据权利要求1-3任一项所述的方法,其特征在于,在所述对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后还包括:
对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
5.根据权利要求1所述的方法,其特征在于,所述深度全卷积神经网络模型的训练过程,包括:
获取训练图像,所述训练图像中采用多边形标注有字符的真实区域;
利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
6.一种字符检测装置,其特征在于,包括:
获取模块,用于获取初始图像;
概率计算模块,用于将所述初始图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述初始图像中每个像素点为字符像素点的概率,其中,所述深度全卷积神经网络模型为预先利用标注有字符的真实区域的训练图像进行训练得到;
分类模块,用于将所述初始图像中的像素点分类,其中,概率大于预设概率阈值的像素点归类为字符像素点;
二值化处理模块,用于对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像,其中,所述二值化图像中包括:字符像素点区域和非字符像素点区域。
7.根据权利要求6所述的装置,其特征在于,还包括:
形态学规则处理模块,用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理。
8.根据权利要求7所述的装置,其特征在于,所述形态学规则处理模块在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像中的字符像素点区域进行形态学规则处理的过程,具体包括:
按照设定腐蚀半径,对所述字符像素点区域进行形态学腐蚀,得到腐蚀后的字符像素点区域;
按照设定膨胀半径,对所述腐蚀后的字符像素点区域进行形态学膨胀,得到膨胀后的字符像素点区域。
9.根据权利要求6-8任一项所述的装置,其特征在于,还包括:
连通域检测模块,用于在所述二值化处理模块对所述初始图像按照所包含的像素点是否为字符像素点进行二值化处理得到二值化图像之后,对所述二值化图像进行连通域检测,得到所述二值化图像中的每个连通的字符像素点区域的参数。
10.根据权利要求6所述的装置,其特征在于,还包括:
模型训练模块,用于获取训练图像,所述训练图像中采用多边形标注有字符的真实区域;利用所述训练图像训练深度全卷积神经网络模型,得到训练后的深度全卷积神经网络模型。
CN201710693857.XA 2017-08-14 2017-08-14 一种字符检测方法及装置 Active CN109389116B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710693857.XA CN109389116B (zh) 2017-08-14 2017-08-14 一种字符检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710693857.XA CN109389116B (zh) 2017-08-14 2017-08-14 一种字符检测方法及装置

Publications (2)

Publication Number Publication Date
CN109389116A true CN109389116A (zh) 2019-02-26
CN109389116B CN109389116B (zh) 2022-02-08

Family

ID=65416379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710693857.XA Active CN109389116B (zh) 2017-08-14 2017-08-14 一种字符检测方法及装置

Country Status (1)

Country Link
CN (1) CN109389116B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977905A (zh) * 2019-04-04 2019-07-05 北京百度网讯科技有限公司 用于处理眼底图像的方法和装置
CN110044905A (zh) * 2019-03-27 2019-07-23 北京好运达智创科技有限公司 一种双块式轨枕的裂纹检测方法
CN110705531A (zh) * 2019-09-29 2020-01-17 北京猎户星空科技有限公司 缺失字符检测、缺失字符检测模型的建立方法及装置
WO2021027157A1 (zh) * 2019-08-13 2021-02-18 平安科技(深圳)有限公司 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272965A (ja) * 1995-03-30 1996-10-18 Sanyo Electric Co Ltd 文字・図形品質検査装置
US6047090A (en) * 1996-07-31 2000-04-04 U.S. Philips Corporation Method and device for automatic segmentation of a digital image using a plurality of morphological opening operation
US20060062454A1 (en) * 2004-09-23 2006-03-23 Jian Fan Segmenting pixels in an image based on orientation-dependent adaptive thresholds
US20080267499A1 (en) * 2007-04-30 2008-10-30 General Electric Company Method and system for automatic detection of objects in an image
CN101477677A (zh) * 2008-12-25 2009-07-08 上海交通大学 基于中心路径的管道状物体虚拟外翻旋转的方法
US20140213900A1 (en) * 2013-01-29 2014-07-31 Fujifilm Corporation Ultrasound diagnostic apparatus and method of producing ultrasound image
CN104933701A (zh) * 2015-05-18 2015-09-23 重庆大学 基于多尺度生长与双策略去粘连模型的乳腺细胞分割方法
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN106295646A (zh) * 2016-08-10 2017-01-04 东方网力科技股份有限公司 一种基于深度学习的车牌字符分割方法和装置
CN106529534A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于混合倾斜校正和投影法的不定长车牌字符分割方法
CN106529455A (zh) * 2016-11-04 2017-03-22 哈尔滨工业大学 一种基于SoC FPGA的快速人体姿态识别方法
CN106951831A (zh) * 2017-02-28 2017-07-14 中科唯实科技(北京)有限公司 一种基于深度摄像机的行人检测跟踪方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08272965A (ja) * 1995-03-30 1996-10-18 Sanyo Electric Co Ltd 文字・図形品質検査装置
US6047090A (en) * 1996-07-31 2000-04-04 U.S. Philips Corporation Method and device for automatic segmentation of a digital image using a plurality of morphological opening operation
US20060062454A1 (en) * 2004-09-23 2006-03-23 Jian Fan Segmenting pixels in an image based on orientation-dependent adaptive thresholds
US20080267499A1 (en) * 2007-04-30 2008-10-30 General Electric Company Method and system for automatic detection of objects in an image
CN101477677A (zh) * 2008-12-25 2009-07-08 上海交通大学 基于中心路径的管道状物体虚拟外翻旋转的方法
US20140213900A1 (en) * 2013-01-29 2014-07-31 Fujifilm Corporation Ultrasound diagnostic apparatus and method of producing ultrasound image
CN104933701A (zh) * 2015-05-18 2015-09-23 重庆大学 基于多尺度生长与双策略去粘连模型的乳腺细胞分割方法
CN105184312A (zh) * 2015-08-24 2015-12-23 中国科学院自动化研究所 一种基于深度学习的文字检测方法及装置
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
CN106096592A (zh) * 2016-07-22 2016-11-09 浙江大学 一种数字图书的版面分析方法
CN106295646A (zh) * 2016-08-10 2017-01-04 东方网力科技股份有限公司 一种基于深度学习的车牌字符分割方法和装置
CN106529455A (zh) * 2016-11-04 2017-03-22 哈尔滨工业大学 一种基于SoC FPGA的快速人体姿态识别方法
CN106529534A (zh) * 2016-11-07 2017-03-22 湖南源信光电科技有限公司 一种基于混合倾斜校正和投影法的不定长车牌字符分割方法
CN106951831A (zh) * 2017-02-28 2017-07-14 中科唯实科技(北京)有限公司 一种基于深度摄像机的行人检测跟踪方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
YASSER ALGINAHI: "Preprocessing Techniques in Character Recognition", 《RESEARCHGATE》 *
叶齐祥: "图像和视频文字检测技术研究", 《中国博士学位论文全文数据库 信息科技辑》 *
莫德举: "《数字图像处理》", 31 January 2010, 北京邮电大学出版社 *
马靓 等: "身份证号码识别系统的研究与实现", 《计算机工程》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110044905A (zh) * 2019-03-27 2019-07-23 北京好运达智创科技有限公司 一种双块式轨枕的裂纹检测方法
CN109977905A (zh) * 2019-04-04 2019-07-05 北京百度网讯科技有限公司 用于处理眼底图像的方法和装置
CN109977905B (zh) * 2019-04-04 2021-08-06 北京百度网讯科技有限公司 用于处理眼底图像的方法和装置
WO2021027157A1 (zh) * 2019-08-13 2021-02-18 平安科技(深圳)有限公司 基于图片识别的车险理赔识别方法、装置、计算机设备及存储介质
CN110705531A (zh) * 2019-09-29 2020-01-17 北京猎户星空科技有限公司 缺失字符检测、缺失字符检测模型的建立方法及装置

Also Published As

Publication number Publication date
CN109389116B (zh) 2022-02-08

Similar Documents

Publication Publication Date Title
CN106845408B (zh) 一种复杂环境下的街道垃圾识别方法
CN107967475A (zh) 一种基于窗口滑动和卷积神经网络的验证码识别方法
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN109389116A (zh) 一种字符检测方法及装置
Liao et al. Automatic segmentation for cell images based on bottleneck detection and ellipse fitting
CN101441717B (zh) 一种色情视频检测方法及检测系统
CN104408707B (zh) 一种快速数字成像模糊鉴别与复原图像质量评估方法
CN109410184B (zh) 基于稠密对抗网络半监督学习的直播色情图像检测方法
CN106384112A (zh) 基于多通道多尺度与级联过滤器的快速图像文本检测方法
CN104850858A (zh) 一种注塑制品缺陷检测识别方法
CN107507170A (zh) 一种基于多尺度图像信息融合的机场跑道裂缝检测方法
CN112185523B (zh) 基于多尺度卷积神经网络的糖尿病视网膜病变分类方法
CN110334760B (zh) 一种基于resUnet的光学元器件损伤检测方法及系统
CN106991686A (zh) 一种基于超像素光流场的水平集轮廓跟踪方法
CN105930798A (zh) 基于学习的面向手机应用的舌像快速检测分割方法
CN108710893A (zh) 一种基于特征融合的数字图像相机源模型分类方法
CN110348345A (zh) 一种基于动作连贯性的弱监督时序动作定位方法
CN109472257A (zh) 一种字符版面确定方法及装置
Sinha et al. Morphological segmentation and classification of underground pipe images
Papandreou et al. Slant estimation and core-region detection for handwritten Latin words
CN105404682B (zh) 一种基于数字图像内容的图书检索方法
CN104281850A (zh) 一种文字区域识别方法和装置
CN103279944A (zh) 一种基于生物地理优化的图像分割方法
CN109741351A (zh) 一种基于深度学习的类别敏感型边缘检测方法
CN108363967A (zh) 一种遥感图像场景的分类系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200507

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Applicant before: AUTONAVI SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant