CN109472257A - 一种字符版面确定方法及装置 - Google Patents

一种字符版面确定方法及装置 Download PDF

Info

Publication number
CN109472257A
CN109472257A CN201710799346.6A CN201710799346A CN109472257A CN 109472257 A CN109472257 A CN 109472257A CN 201710799346 A CN201710799346 A CN 201710799346A CN 109472257 A CN109472257 A CN 109472257A
Authority
CN
China
Prior art keywords
axis
character
region
target character
row
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710799346.6A
Other languages
English (en)
Other versions
CN109472257B (zh
Inventor
姜帆
郝志会
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Autonavi Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Autonavi Software Co Ltd filed Critical Autonavi Software Co Ltd
Priority to CN201710799346.6A priority Critical patent/CN109472257B/zh
Publication of CN109472257A publication Critical patent/CN109472257A/zh
Application granted granted Critical
Publication of CN109472257B publication Critical patent/CN109472257B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/23Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种字符版面确定方法及装置,方法包括:将待测图像输入预先训练的深度全卷积神经网络模型,得到深度全卷积神经网络模型输出的组成字符行的像素点区域和组成字符行中轴的像素点区域;对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符;根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。在本申请中,深度全卷积神经网络模型针对不同图像均能够达到很好的字符版面识别准确性。

Description

一种字符版面确定方法及装置
技术领域
本申请涉及目标检测技术领域,更具体地说,涉及一种字符版面确定方法及装置。
背景技术
随着计算机技术和多媒体的飞速发展,越来越多的信息以图像的形式传播,图像中通常存在大量包含重要信息的描述性文字。为了获取图像中的重要信息,需要对图像中的文字进行识别及语义分析。而对图像中的文字进行识别及语义分析的前提是对图像中文字版面进行分析。
目前,文字版面分析方法往往仅分析具有一定文档结构的文档图像(如扫描文档图像、表单图像、信件图像、名片图像、报刊杂志等)的文本行区域,来确定文字版面。但对于文字版面结构本身复杂且由于拍摄时存在光照不均、背景复杂、视角畸变等问题,造成的文档结构不清楚的自然场景图像,采用现有方法进行文字版面分析的准确性低。
发明内容
有鉴于此,本申请提供了一种字符版面确定方法及装置,用于解决现有文字版面分析准确性低的问题。
为了实现上述目的,现提出的方案如下:
一种字符版面确定方法,包括:
将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;
对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;
根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;
同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前还包括:
采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
优选的,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
优选的,在所述采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,该方法还包括:
以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于该中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点;
对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
优选的,所述同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,包括:
同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;
按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
优选的,所述训练图像中字符行的真实区域为,采用多边形标注的字符行的真实区域。
优选的,所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型,多通道深度全卷积神经网络模型的预训练过程,包括:
利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练;
利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
一种字符版面确定装置,包括:
输入模块,用于将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;
字符检测模块,用于对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;
中轴确定模块,用于根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;
读序确定模块,用于对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
优选的,所述装置还包括:
细化模块,用于在所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前,采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
优选的,所述中轴确定模块根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,具体包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
优选的,所述中轴确定模块根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,具体包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
优选的,所述装置还包括:
中轴端点确定模块,用于以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于所述中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点,及对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
优选的,所述读序确定模块对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序的过程,具体包括:
同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;
按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
优选的,所述训练图像中字符行的真实区域为,采用多边形标注的字符行的真实区域。
优选的,所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型,所述装置还包括:
训练模块,用于利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练,及利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
从上述的技术方案可以看出,本申请将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域,并对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置,进而根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴,按照目标字符的位置与中轴的设定端点的距离关系,确定同一字符行区域中对应于同一中轴的各目标字符的先后排序顺序,该排序顺序作为各目标字符的读序,完成字符版面分析。本申请可以通过丰富用于训练深度全卷积神经网络模型的训练图像,使得深度全卷积神经网络模型可以适用于各种场景下拍摄的不同类型的图像,如在光照不均、背景复杂、视角畸变等场景下拍摄的各种类型的文档图像,使得深度全卷积神经网络模型的鲁棒性更好,针对不同图像均能够达到很好的字符版面识别准确性。
进一步的,本申请结合字符行对应的中轴,确定出了字符行区域中各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序,各目标字符的读序可以提高字符版面分析结果的完整性和可靠性。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例公开的一种字符版面确定方法的流程图;
图2为示例了字符版面确定方法执行的一种效果示意图;
图3为示例了字符版面确定方法执行的另一种效果示意图;
图4为示例了采用多边形标注的字符行的真实区域的示意图;
图5为本申请实施例公开的一种字符版面确定装置的逻辑结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例公开了一种字符版面确定方法,具体通过将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域,对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置,根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴,按照目标字符的位置与中轴的设定端点的距离关系,确定同一字符行区域中对应于同一中轴的各目标字符的先后排序顺序,该排序顺序作为各目标字符的读序,确定出各个字符行区域包含的目标字符及同一字符行区域中对应于同一中轴的各目标字符的读序,完成字符版面分析。
接下来对本申请的字符版面确定方法进行介绍,参见图1所示,该方法包括:
步骤S100、将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像。
可选的,待测图像可以是采集设备所采集的图像,也可以是通过其它方式、渠道获取的包含字符的图像,如用户上传、网络下载等。
本实施例中,字符行区域图像中可以包括:组成字符行的像素点区域和其余区域;中轴区域图像中可以包括:组成字符行中轴的像素点区域和其余区域。
需要说明的是,由于将待测图像输入预先训练的深度全卷积神经网络模型后,深度全卷积神经网络模型可能会将待测图像中一行或多行字符确定为同一字符行的像素点区域,因此深度全卷积神经网络模型输出的字符行区域图像中的组成字符行的像素点区域可能包括一行或多行字符。
组成字符行中轴的像素点区域可以理解为:字符行中单个字符区域的中心区域连接而成的连通区域,字符行中轴的走向用于表明字符的排列方向。优选的,可以取字符行中字符大小的n%作为中轴区域的宽度标准,以此宽度标准在字符行中绘制中轴,n的取值范围可以为(0,100)。
本实施例中,将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像的具体实现过程,可以包括以下步骤:
S1、将所述待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述待测图像中每个像素点为组成字符行的像素点的概率,以及每个像素点为组成字符行中轴的像素点的概率。
将所述待测图像输入预先训练的深度全卷积神经网络模型后,深度全卷积神经网络模型可以通过计算待测图像中每个像素点为组成字符行的像素点的概率,输出所述待测图像中每个像素点为组成字符行的像素点的概率,每个像素点为组成字符行的像素点的概率集合则构成了组成字符行的像素点概率矩阵,以及计算待测图像中每个像素点为组成字符行中轴的像素点的概率,输出所述待测图像中每个像素点为组成字符行中轴的像素点的概率,每个像素点为组成字符行中轴的像素点的概率集合则构成了组成字符行中轴的像素点概率矩阵。
S2、将所述待测图像中的像素点分类,其中,概率大于字符行设定概率阈值的像素点归类为组成字符行的像素点。
具体地,比较组成字符行的像素点概率矩阵中各个概率与字符行设定概率阈值的大小,将大于字符行设定概率阈值的像素点归类为组成字符行的像素点。
S3、对所述待测图像按照所包含的像素点是否为组成字符行的像素点进行二值化处理,得到二值化图像,其中,所述二值化图像中包括:组成字符行的像素点区域和其余区域。
其中,组成字符行的像素点区域指的是组成字符行的像素点组成的区域,其余区域指的是组成字符行的像素点之外的像素点组成的区域。
对所述待测图像按照所包含的像素点是否为组成字符行的像素点进行二值化处理可以理解为:通过二值化方式,将组成字符行的像素点和组成字符行的像素点之外的像素点设置成不同颜色,如将组成字符行的像素点设置为白色,将组成字符行的像素点之外的像素点设置为黑色;或者将组成字符行的像素点设置为黑色,将组成字符行的像素点之外的像素点设置为白色或者其余方式。若将组成字符行的像素点设置为白色,将组成字符行的像素点之外的像素点设置为黑色时,则得到的二值化图像上的白色区域则为组成字符行的像素点区域,黑色区域则为其余区域。
S4、将所述待测图像中的像素点分类,其中,概率大于字符行中轴设定概率阈值的像素点归类为组成字符行中轴的像素点。
具体地,比较组成字符行中轴的像素点概率矩阵中各个概率与字符行中轴设定概率阈值的大小,将大于字符行中轴设定概率阈值的像素点归类为组成字符行中轴的像素点。
S5、对所述待测图像按照所包含的像素点是否为组成字符行中轴的像素点进行二值化处理,得到二值化图像,其中,所述二值化图像中包括:组成字符行中轴的像素点区域和其余区域。
其中,组成字符行中轴的像素点区域指的是组成字符行中轴的像素点组成的区域,其余区域指的是组成字符行中轴的像素点之外的像素点组成的区域。
对所述待测图像按照所包含的像素点是否为组成字符行中轴的像素点进行二值化处理可以理解为:通过二值化方式,将组成字符行中轴的像素点和组成字符行中轴的像素点之外的像素点设置成不同颜色,如将组成字符行中轴的像素点设置为白色,将组成字符行中轴的像素点之外的像素点设置为黑色;或者将组成字符行中轴的像素点设置为黑色,将组成字符行中轴的像素点之外的像素点设置为白色或者其余方式。若将组成字符行中轴的像素点设置为白色,将组成字符行中轴的像素点之外的像素点设置为黑色时,则得到的二值化图像上的白色区域则为组成字符行中轴的像素点区域,黑色区域则为其余区域。
本实施例中,所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到。
其中,字符行的真实区域,可以理解为紧贴字符行外边缘的区域;字符行中轴的真实区域可以理解为紧贴字符行中轴外边缘的区域。
可以理解的是,预先利用标注有字符行及其中轴的真实区域的训练图像训练深度全卷积神经网络模型,保证训练得到的深度全卷积神经网络模型能够准确的检测出图像上组成字符行的像素点区域,以及组成字符行中轴的像素点区域。
深度全卷积神经网络模型输出的字符行区域图像中包括的组成字符行的像素点区域,以及中轴区域图像中包括的组成字符行中轴的像素点区域的准确度同样也依赖于对深度全卷积神经网络模型的训练精度,训练精度越高,深度全卷积神经网络模型输出的字符行区域图像中包括的组成字符行的像素点区域,以及中轴区域图像中包括的组成字符行中轴的像素点区域与各自的真实像素点区域(即真实区域内像素点区域)的重合度越高。
步骤S110、对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置。
本步骤中,可以利用现有的字符检测方法对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置。其中,对组成字符行的像素点区域进行字符检测的过程,可以参见利用现有的字符检测方法进行字符检测的过程,在此不再赘述。
步骤S120、根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴。
由于目标字符和中轴的像素点区域均存在于字符行区域中,目标字符与中轴的像素点区域的位置关系可以基于字符行区域确定,因此可以根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴。
在确定字符行区域所包含的各目标字符分别对应的中轴之后,可以对字符行区域中的各目标字符进行进一步细分,细分的操作可以为:确定出同一字符行区域中对应于同一中轴的各目标字符。
在确定出同一字符行区域中对应于同一中轴的各目标字符之后,即完成了待测图像中目标字符的分组。可以理解的是,同一字符行区域中对应于同一中轴的各目标字符为一组。
步骤S130、同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
在完成待测图像中目标字符的分组之后,本步骤对于每一组的目标字符即同一字符行区域中对应于同一中轴的各目标字符,可以基于中轴的走向,确定各目标字符的排列方向,具体可以按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
本实施例中,可以参见图2,其示出了字符版面确定方法执行的一种效果示意图,如图2所示,待测图像输入深度全卷积神经网络模型,深度全卷积神经网络模型经过分别计算待测图像中每个像素点为组成字符行的像素点的概率和组成字符行中轴的像素点的概率,得到组成字符行的像素点概率矩阵和组成字符行中轴的像素点概率矩阵,并得到两个概率矩阵对应的图像,两个概率矩阵中的像素点分别通过与各自设定概率阈值比较,归类出组成字符行的像素点和组成字符行中轴的像素点,深度全卷积神经网络模型输出对组成字符行的像素点区域阈值化处理后的图像及对组成字符行中轴的像素点区域阈值化处理后的图像,其中对组成字符行的像素点区域阈值化处理后的图像及对组成字符行中轴的像素点区域阈值化处理后的图像中白色区域分别为组成字符行的像素点组成的区域和组成字符行中轴的像素点组成的区域。
进一步对深度全卷积神经网络模型输出的图像中的对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符,并利用对组成字符行的像素点区域阈值化处理后的图像及对组成字符行中轴的像素点区域阈值化处理后的图像及目标字符,确定字符版面,得到字符版面结果为4个字符行,分别为:Ome、澳美西饼、bakery、面包蛋糕为一个字符行;店、厚街濑粉为一个字符行;芙蓉为一个字符行;全国连锁为一个字符行。
其中,确定字符版面的过程即根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴,及同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
本申请将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域,并对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置,进而根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴,按照目标字符的位置与中轴的设定端点的距离关系,确定同一字符行区域中对应于同一中轴的各目标字符的先后排序顺序,该排序顺序作为各目标字符的读序,完成字符版面分析。本申请可以通过丰富用于训练深度全卷积神经网络模型的训练图像,使得深度全卷积神经网络模型可以适用于各种场景下拍摄的不同类型的图像,如在光照不均、背景复杂、视角畸变等场景下拍摄的各种类型的文档图像,使得深度全卷积神经网络模型的鲁棒性更好,针对不同图像均能够达到很好的字符版面识别准确性。
进一步的,本申请结合字符行对应的中轴,确定出了字符行区域中各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序,各目标字符的读序可以提高字符版面分析结果的完整性和可靠性。
在本申请的另外一个实施例中,为了降低步骤S120、根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴及后续步骤的计算复杂度和工作量,提供了一种优选的方式,具体如下:
在前述实施例的步骤S120、根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴之前,执行以下步骤:
采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线的过程,可以理解为:从各中轴的像素点区域中删除一些像素点,将各中轴的像素点区域简化为单像素相连接的二值图像,但仍要保持各中轴的像素点区域原本的形状。
基于前述各个实施例的内容,在本申请的另外一个实施例中,对步骤S120、根据目标字符与各中轴的像素点区域的位置关系,确定同一字符行所包含的各目标字符分别对应的中轴的过程进行介绍,具体可以包括以下步骤:
S1、针对各目标字符,计算所述目标字符与各中轴的最短距离值。
需要说明的是,若之前,采用了骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线,则计算所述目标字符与各中轴的最短距离值的实施过程可以为:计算所述目标字符与各中轴的曲线的最短距离值。
计算所述目标字符与各中轴的曲线的最短距离值的具体实施过程可以包括:确定所述目标字符的中心点坐标,并计算各中轴的曲线上的各个像素点,与目标字符的中心点坐标的距离,从计算得到的各个距离中,确定出目标字符与各中轴的曲线的最短距离值。
可选的,计算各中轴的曲线上的各个像素点,与目标字符的中心点坐标的距离,从计算得到的各个距离中,确定出目标字符与各中轴的曲线的最短距离值,可以采用如下欧式距离公式计算:
Pmin(x,y)=argmin{(xc-xp′)2+(yc-yp′)2}
上述公式中,xc表示目标字符的中心点的横坐标,yc表示目标字符的中心点的纵坐标;
xp′表示某一个中轴的曲线上的某一个像素点的横坐标,yp′表示xp′所属像素点的纵坐标;
argmin{(xc-xp′)2+(yc-yp′)2}表示当(xc-xp′)2+(yc-yp′)2取最小值时,(xp′,yp′)的取值;
Pmin(x,y)表示目标字符与各中轴的曲线的最短距离值。
由于各中轴的曲线的像素点个数明显少于各中轴的像素点个数,因此,计算所述目标字符与各中轴的曲线的最短距离值相比于计算所述目标字符与各中轴的最短距离值,减少了计算量。
若之前未采用骨架化算法,则计算所述目标字符与各中轴的最短距离值的实施过程可以为:计算所述目标字符与各中轴的像素点区域边缘各像素点的距离,并从计算出的各距离中选取出最短距离值。
当然,优选的,是采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,再计算所述目标字符与各中轴的最短距离值。
S3、确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
确定各最短距离值中最小的一个所对应的中轴,可以理解为确定各最短距离值中与目标字符最近距离所对应的中轴。
基于本实施例介绍的根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,可以参见图3,其示出了字符版面确定方法执行的一种效果示意图,如图3所示,待测图像输入深度全卷积神经网络模型,深度全卷积神经网络模型经过分别计算待测图像中每个像素点为组成字符行的像素点的概率和组成字符行中轴的像素点的概率,得到组成字符行的像素点概率矩阵和组成字符行中轴的像素点概率矩阵,并得到两个概率矩阵对应的图像,两个概率矩阵中的像素点分别通过与各自设定概率阈值比较,归类出组成字符行的像素点和组成字符行的中轴的像素点,深度全卷积神经网络模型输出对组成字符行的像素点区域阈值化处理后的图像及对组成字符行中轴的像素点区域阈值化处理后的图像,其中对组成字符行的像素点区域阈值化处理后的图像及对组成字符行中轴的像素点区域阈值化处理后的图像中白色区域分别为组成字符行的像素点组成的区域和组成字符行中轴的像素点组成的区域。
进一步,对组成字符行中轴的像素点区域阈值化处理后的图像经过骨架化处理,得到组成字符行中轴的曲线,并对深度全卷积神经网络模型输出的图像中的对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符,并利用组成字符行的中轴的曲线及对组成字符行中轴的像素点区域阈值化处理后的图像及目标字符,确定字符版面,得到字符版面结果为4个字符行,分别为:Ome、澳美西饼、bakery、面包蛋糕为一个字符行;店、厚街濑粉为一个字符行;芙蓉为一个字符行;全国连锁为一个字符行。
其中,确定字符版面的过程即根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴,及同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
基于前述各个实施例的内容,为了进一步减少确定字符行区域所包含的各目标字符分别对应的中轴的计算量,提供另外一种优选方式,具体地,步骤S120、根据目标字符与各中轴的像素点区域的位置关系,确定同一字符行所包含的各目标字符分别对应的中轴的过程,可以包括以下步骤:
S1、针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数。
S2、若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴。
S3、若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值。
需要说明的是,若之前,采用了骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线,则计算所述目标字符与包含的每一条中轴的最短距离值的实施过程可以为:计算所述目标字符与包含的每一条中轴的曲线的最短距离值。
计算所述目标字符与包含的每一条中轴的曲线的最短距离值的具体实施过程可以参见前述实施例中计算所述目标字符与各中轴的曲线的最短距离值的具体实施过程,此处不再赘述。
若之前未采用骨架化算法,则计算所述目标字符与包含的每一条中轴的最短距离值的实施过程可以为:计算所述目标字符与包含的每一条中轴的像素点区域边缘各像素点的距离,并从计算出的各距离中选取出最短距离值。
当然,优选的,是采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,再计算所述目标字符与包含的每一条中轴的最短距离值。
S4、确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
确定各最短距离值中最小的一个所对应的中轴,可以理解为确定各最短距离值中与目标字符最近距离所对应的中轴。
可选的,本申请在采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,进一步可以增加确定中轴端点的步骤。确定中轴端点的过程具体可以包括以下步骤:
S1、以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于所述中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点。
8方向邻域内同属于所述中轴的像素点的数量小于2的目标像素点可以理解为,中轴上的目标像素点的8方向邻域内同属于所述中轴的像素点的数量小于2。
S2、对于所述中轴的各端点(一般为2个),计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
在前述步骤中确定所述中轴的各端点之后,通过计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
优选的,设定原点具体可以是待测图像上的左上顶点。
基于前述实施例所确定的中轴的首端点,本实施例中对步骤S130,同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序的过程进行介绍,具体可以包括以下步骤:
S1、同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离。
S2、按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
在前述步骤计算出各目标字符的位置与中轴的首端点的距离后,按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
基于前述实施例的内容,在本申请的另一个实施例中,对训练图像中标注的字符行的真实区域进行介绍,具体如下:
训练图像中字符行的真实区域可以采用传统的矩形标注的方式进行标注。但是传统的矩形标注的方式较为适用于拍摄角度为正面拍摄的图像,对于非正面拍摄的图像,图像中字符行不是规则的矩形形状,采用传统的矩形标注的方式标注的区域一般不能包含完整的字符,或同时包含大量的非字符,导致字符行的像素点区域无法被准确的检测出。
为了解决传统的矩形标注的方式存在的问题,本实施例采用多边形标注的方式标注训练图像中字符行的真实区域,保证无论训练图像是以何种拍摄角度拍摄的图像,均可以选取一种适用相应拍摄角度拍摄的图像的多边形来标注字符行,使标注的区域能够包含完整的字符,提高字符行的像素点区域检测的准确度。
另一方面,采用多边形标注的方式由于对拍摄角度没有要求,因此训练图像可以为任意拍摄角度拍摄的图像,不再受限于正面拍摄的图像,扩展了训练图像的样本多样性。
本实施例中,采用多边形标注的字符行的真实区域的示意图可以参见图4,如图4所示,待测图像为从侧面拍摄的图像,待测图像上的字符行(即文本行)的形状为平行四边形,因此可以采用平行四边形或五边形等多边形进行标注(如,澳美西饼四个字组成的字符行用五边形标注,面包蛋糕四个字组成的字符行用平行四边形标注等),保证标注的区域包含完整的字符,且尽量减少包含的非字符。
基于前述实施例的内容,在本申请的另一个实施例中,对前述实施例中步骤S100中的深度全卷积神经网络模型及其的预训练过程进行介绍,具体如下:
深度全卷积神经网络模型具体可以包括两个子深度全卷积神经网络模型,分别为第一子深度全卷积神经网络模型和第二子深度全卷积神经网络模型;第一子深度全卷积神经网络模型可以用于检测图像上组成字符行的像素点区域,第二子深度全卷积神经网络模型可以用于检测图像上组成字符行的中轴的像素点区域。
基于深度全卷积神经网络模型包括两个子深度全卷积神经网络模型的实施方式,前述实施例步骤S100中将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述待测图像上组成字符行的像素点区域,以及组成字符行的中轴的像素点区域的具体过程可以包括以下步骤:
S1、将待测图像分别输入第一子深度全卷积神经网络模型和第二子深度全卷积神经网络模型,得到第一子深度全卷积神经网络模型输出的所述待测图像上组成字符行的像素点区域,得到第二子深度全卷积神经网络模型输出的所述待测图像上组成字符行的中轴的像素点区域。
基于深度全卷积神经网络模型包括两个子深度全卷积神经网络模型的实施方式,深度全卷积神经网络模型的预训练过程具体可以包括:两个子深度全卷积神经网络模型的预训练过程,分别为:
S1、利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入第一子深度全卷积神经网络模型,对第一子深度全卷积神经网络模型进行训练。
本实施例中,人工标注字符行的真实区域的方式可以为前述实施例介绍的采用传统的矩形标注的方式或者采用多边形标注的方式。
S2、利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,对第二子深度全卷积神经网络模型进行训练。
在标注训练图像中字符行的真实区域的基础上,人工标注字符行的中轴的真实区域。其中,人工标注字符行的中轴的方式可以为前述实施例介绍的采用传统的矩形标注的方式或者采用多边形标注的方式。
显而易见的是,在深度全卷积神经网络模型包括两个子深度全卷积神经网络模型时,待测图像需要分别输入两个模型中,以及,需要训练两个模型,检测和训练均需要执行两次,执行过程较为繁复。为了简化检测和训练的整体过程,本实施例提供了另外一种优选的深度全卷积神经网络模型,具体如下:
深度全卷积神经网络模型具体可以为但不局限于多通道深度全卷积神经网络模型。多通道深度全卷积神经网络模型可以同时完成多个任务,具体实现可以为:多通道深度全卷积神经网络具有多个输出层,每个输出层各自输出其对应任务的结果。
本实施例中,多通道深度全卷积神经网络模型具体可以包括第一通道和第二通道,第一通道用于检测图像上组成字符行的像素点区域,第二通道用于检测图像上组成字符行的中轴的像素点区域。
基于深度全卷积神经网络模型为多通道深度全卷积神经网络模型的实施方式,前述实施例步骤S100中将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的所述待测图像上组成字符行的像素点区域,以及组成字符行的中轴的像素点区域的具体过程可以包括以下步骤:
S1、将待测图像输入预先训练的多通道深度全卷积神经网络模型,得到所述多通道深度全卷积神经网络模型输出的所述待测图像上组成字符行的像素点区域,以及组成字符行的中轴的像素点区域。
如本步骤所示,待测图像只需要输入一个多通道深度全卷积神经网络模型,多通道深度全卷积神经网络模型即可同时检测字符行和字符行的中轴,并同时输出所述待测图像上组成字符行的像素点区域,以及组成字符行的中轴的像素点区域。简化了检测的过程。
同时,对多通道深度全卷积神经网络模型的预训练过程进行介绍,具体可以包括以下步骤:
S1、利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练。
本实施例中,人工标注字符行的真实区域的方式可以为前述实施例介绍的采用传统的矩形标注的方式或者采用多边形标注的方式。
S2、利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
在标注训练图像中字符行的真实区域的基础上,人工标注字符行的中轴的真实区域。其中,人工标注字符行的中轴的方式可以为前述实施例介绍的采用传统的矩形标注的方式或者采用多边形标注的方式。
完成第一通道和第二通道训练后的多通道深度全卷积神经网络模型即可同时检测图像中组成字符行的像素点区域及组成字符行的中轴的像素点区域。
下面对本申请实施例提供的字符版面确定装置进行描述,下文描述的字符版面确定装置与上文描述的字符版面确定方法可相互对应参照。
请参见图5,其示出了本申请提供的字符版面确定装置的一种逻辑结构示意图,字符版面确定装置包括:输入模块11、字符检测模块12、中轴确定模块13和读序确定模块14。
输入模块11,用于将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到。
字符检测模块12,用于对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置。
中轴确定模块13,用于根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴。
读序确定模块14,用于对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
本实施例中,上述字符版面确定装置还可以包括:细化模块,用于在所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前,采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
基于前述字符版面确定装置的具体结构,所述中轴确定模块13根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,具体可以包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
当然,基于前述字符版面确定装置的具体结构,所述中轴确定模块13根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,也可以具体包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
上述字符版面确定装置,还可以包括:中轴端点确定模块,用于以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于所述中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点,及对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
所述读序确定模块14对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序的过程,具体可以包括:
同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;
按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
本实施例中,所述训练图像中字符行的真实区域可以为,采用多边形标注的字符行的真实区域。
本实施例中,所述深度全卷积神经网络模型可以为多通道深度全卷积神经网络模型。
在所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型的情况下,上述字符版面确定装置还可以包括:训练模块,用于利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练,及利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (16)

1.一种字符版面确定方法,其特征在于,包括:
将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;
对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;
根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;
同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
2.根据权利要求1所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前还包括:
采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
3.根据权利要求1或2所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
4.根据权利要求1或2所述的方法,其特征在于,所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
5.根据权利要求2所述的方法,其特征在于,在所述采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线之后,该方法还包括:
以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于该中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点;
对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
6.根据权利要求5所述的方法,其特征在于,所述同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,包括:
同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;
按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
7.根据权利要求1或2所述的方法,其特征在于,所述训练图像中字符行的真实区域为,采用多边形标注的字符行的真实区域。
8.根据权利要求1或2所述的方法,其特征在于,所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型,多通道深度全卷积神经网络模型的预训练过程,包括:
利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练;
利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
9.一种字符版面确定装置,其特征在于,包括:
输入模块,用于将待测图像输入预先训练的深度全卷积神经网络模型,得到所述深度全卷积神经网络模型输出的字符行区域图像和中轴区域图像,所述字符行区域图像中包括:组成字符行的像素点区域和其余区域,所述中轴区域图像中包括:组成字符行中轴的像素点区域和其余区域;所述深度全卷积神经网络模型为预先利用标注有字符行及其中轴的真实区域的训练图像进行训练得到;
字符检测模块,用于对组成字符行的像素点区域进行字符检测,得到字符行区域包含的目标字符的位置;
中轴确定模块,用于根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴;
读序确定模块,用于对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序,该先后排序顺序作为各目标字符的读序。
10.根据权利要求9所述的装置,其特征在于,所述装置还包括:
细化模块,用于在所述根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的步骤之前,采用骨架化算法,将各中轴的像素点区域细化为一条宽度为一个单位像素的曲线。
11.根据权利要求9或10所述的装置,其特征在于,所述中轴确定模块根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,具体包括:
针对各目标字符,确定目标字符所属的字符行区域中包含的中轴的条数;
若仅有一条,则将该唯一一条中轴作为所述目标字符对应的中轴;
若至少包含两条,则计算所述目标字符与包含的每一条中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
12.根据权利要求9或10所述的装置,其特征在于,所述中轴确定模块根据目标字符与各中轴的像素点区域的位置关系,确定字符行区域所包含的各目标字符分别对应的中轴的过程,具体包括:
针对各目标字符,计算所述目标字符与各中轴的最短距离值;
确定各最短距离值中最小的一个所对应的中轴,作为所述目标字符对应的中轴。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括:
中轴端点确定模块,用于以中轴中任意一像素点开始迭代,直至查找到8方向邻域内同属于所述中轴的像素点的数量小于2的目标像素点为止,将目标像素点确定为所述中轴的端点,及对于所述中轴的各端点,计算端点与设定原点间的距离,并选取距离最短的一个端点,作为所述中轴的首端点。
14.根据权利要求13所述的装置,其特征在于,所述读序确定模块对同一字符行区域中对应于同一中轴的各目标字符,按照目标字符的位置与中轴的设定端点的距离关系,确定各目标字符的先后排序顺序的过程,具体包括:
同一字符行区域中对应于同一中轴的各目标字符,计算目标字符的位置与中轴的首端点的距离;
按照距离从小到大的顺序,确定各目标字符的先后排序顺序。
15.根据权利要求9或10所述的装置,其特征在于,所述训练图像中字符行的真实区域为,采用多边形标注的字符行的真实区域。
16.根据权利要求9或10所述的装置,其特征在于,所述深度全卷积神经网络模型为多通道深度全卷积神经网络模型,所述装置还包括:
训练模块,用于利用训练图像中人工标注的字符行的真实区域为正样本,其余未标注为字符行的区域为负样本,输入多通道深度全卷积神经网络模型的第一通道,对所述第一通道进行训练,及利用训练图像中人工标注的字符行的中轴的真实区域为正样本,其余未标注为字符行的中轴的区域为负样本,输入多通道深度全卷积神经网络模型的第二通道,对所述第二通道进行训练。
CN201710799346.6A 2017-09-07 2017-09-07 一种字符版面确定方法及装置 Active CN109472257B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710799346.6A CN109472257B (zh) 2017-09-07 2017-09-07 一种字符版面确定方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710799346.6A CN109472257B (zh) 2017-09-07 2017-09-07 一种字符版面确定方法及装置

Publications (2)

Publication Number Publication Date
CN109472257A true CN109472257A (zh) 2019-03-15
CN109472257B CN109472257B (zh) 2021-01-29

Family

ID=65657925

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710799346.6A Active CN109472257B (zh) 2017-09-07 2017-09-07 一种字符版面确定方法及装置

Country Status (1)

Country Link
CN (1) CN109472257B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111679737A (zh) * 2020-05-27 2020-09-18 维沃移动通信有限公司 手部分割方法和电子设备
CN112308945A (zh) * 2020-10-12 2021-02-02 北京沃东天骏信息技术有限公司 基于场的排版方法、装置、电子设备以及计算机可读介质
CN112488108A (zh) * 2020-12-11 2021-03-12 广州小鹏自动驾驶科技有限公司 一种车位号识别方法、装置、电子设备及存储介质
CN113553883A (zh) * 2020-04-24 2021-10-26 上海高德威智能交通系统有限公司 一种票据图像识别方法、装置及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072224A1 (en) * 2010-03-11 2014-03-13 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
WO2015002420A1 (ko) * 2013-07-02 2015-01-08 (주) 리얼밸류 휴대용 단말기의 제어방법, 이를 실행하기 위한 프로그램을 저장한 기록매체, 애플리케이션 배포서버 및 휴대용 단말기
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN106547730A (zh) * 2015-09-22 2017-03-29 北大方正集团有限公司 版面对象自动调整方法及装置
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140072224A1 (en) * 2010-03-11 2014-03-13 Microsoft Corporation Page layout determination of an image undergoing optical character recognition
WO2015002420A1 (ko) * 2013-07-02 2015-01-08 (주) 리얼밸류 휴대용 단말기의 제어방법, 이를 실행하기 위한 프로그램을 저장한 기록매체, 애플리케이션 배포서버 및 휴대용 단말기
CN104516891A (zh) * 2013-09-27 2015-04-15 北大方正集团有限公司 一种版面分析方法及系统
CN106547730A (zh) * 2015-09-22 2017-03-29 北大方正集团有限公司 版面对象自动调整方法及装置
CN107180239A (zh) * 2017-06-09 2017-09-19 科大讯飞股份有限公司 文本行识别方法及系统
CN107301418A (zh) * 2017-06-28 2017-10-27 江南大学 光学字符识别中的版面分析

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐兆军: ""基于神经网络的版面分析"", 《计算机应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113553883A (zh) * 2020-04-24 2021-10-26 上海高德威智能交通系统有限公司 一种票据图像识别方法、装置及电子设备
CN111679737A (zh) * 2020-05-27 2020-09-18 维沃移动通信有限公司 手部分割方法和电子设备
CN111679737B (zh) * 2020-05-27 2022-06-21 维沃移动通信有限公司 手部分割方法和电子设备
CN112308945A (zh) * 2020-10-12 2021-02-02 北京沃东天骏信息技术有限公司 基于场的排版方法、装置、电子设备以及计算机可读介质
CN112488108A (zh) * 2020-12-11 2021-03-12 广州小鹏自动驾驶科技有限公司 一种车位号识别方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN109472257B (zh) 2021-01-29

Similar Documents

Publication Publication Date Title
CN111325203B (zh) 一种基于图像校正的美式车牌识别方法及系统
CN104809481B (zh) 一种基于自适应色彩聚类的自然场景文本检测方法
CN108154102B (zh) 一种道路交通标志识别方法
CN109472257A (zh) 一种字符版面确定方法及装置
CN107122776A (zh) 一种基于卷积神经网络的交通标志检测与识别方法
CN104598885B (zh) 街景图像中的文字标牌检测与定位方法
CN105095892A (zh) 基于图像处理的学生文档管理系统
CN107403130A (zh) 一种字符识别方法及字符识别装置
CN106296638A (zh) 显著性信息取得装置以及显著性信息取得方法
CN108629286B (zh) 一种基于主观感知显著模型的遥感机场目标检测方法
CN104077577A (zh) 一种基于卷积神经网络的商标检测方法
CN106780434A (zh) 水下图像视觉质量评价方法
CN105046200B (zh) 基于直线检测的电子阅卷方法
JP2022025008A (ja) テキスト行識別に基づくナンバープレート識別方法
CN111340810B (zh) 一种汉字书写质量智能评价方法
CN109740572A (zh) 一种基于局部彩色纹理特征的人脸活体检测方法
CN106033535A (zh) 电子阅卷方法
CN107038416A (zh) 一种基于二值图像改进型hog特征的行人检测方法
CN107622271A (zh) 手写文本行提取方法及系统
CN105046701A (zh) 一种基于构图线的多尺度显著目标检测方法
CN107146229A (zh) 基于元胞自动机模型的结肠息肉图像分割方法
CN115393861B (zh) 一种手写体文本精准分割方法
CN112446259A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN103455826B (zh) 基于快速鲁棒性特征的高效匹配核人体检测方法
CN110659637A (zh) 一种结合深度神经网络和sift特征的电能表示数与标签自动识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200509

Address after: 310052 room 508, floor 5, building 4, No. 699, Wangshang Road, Changhe street, Binjiang District, Hangzhou City, Zhejiang Province

Applicant after: Alibaba (China) Co.,Ltd.

Address before: 102200, No. 8, No., Changsheng Road, Changping District science and Technology Park, Beijing, China. 1-5

Applicant before: AUTONAVI SOFTWARE Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant