CN111931778B - 一种基于行列切分的印刷体字符的识别方法 - Google Patents

一种基于行列切分的印刷体字符的识别方法 Download PDF

Info

Publication number
CN111931778B
CN111931778B CN202010705900.1A CN202010705900A CN111931778B CN 111931778 B CN111931778 B CN 111931778B CN 202010705900 A CN202010705900 A CN 202010705900A CN 111931778 B CN111931778 B CN 111931778B
Authority
CN
China
Prior art keywords
column
slices
segmentation
line
slice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010705900.1A
Other languages
English (en)
Other versions
CN111931778A (zh
Inventor
胡焱
赵亚欧
郭继东
牛鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jinan Langchao Jindi Information Technology Co ltd
Inspur Financial Information Technology Co Ltd
Original Assignee
Jinan Langchao Jindi Information Technology Co ltd
Inspur Financial Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jinan Langchao Jindi Information Technology Co ltd, Inspur Financial Information Technology Co Ltd filed Critical Jinan Langchao Jindi Information Technology Co ltd
Priority to CN202010705900.1A priority Critical patent/CN111931778B/zh
Publication of CN111931778A publication Critical patent/CN111931778A/zh
Application granted granted Critical
Publication of CN111931778B publication Critical patent/CN111931778B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明公开了一种基于行列切分的印刷体字符的识别方法,对于图像进行列切分,对于列切分后的切片,再次进行行切分;将行列切分后的图像切片送入卷积神经网络,进行特征提取,得到切片对应的特征向量;对于空白切片,则在识别过程中,忽略这部分空白切片;对于存在文字部分的切片,使用循环神经网络模型学习这些切片的前后关联关系,经过softmax激励得到每列切片对应文字的预测概率,利用CTC算法处理每列切片的文字预测概率,进而确定所识别的文字。通过上述方式,本发明能够同时利用行、列两个维度的信息,所获得的文字特征更加丰富,识别率高。

Description

一种基于行列切分的印刷体字符的识别方法
技术领域
本发明涉及字符识别技术领域,特别是涉及一种基于行列切分的印刷体字符的识别方法。
背景技术
字符识别能够自动识别和提取图片中的文字,已广泛应用于纸质文件的电子化归档、不含芯片的证照信息读取等领域。当前,该领域的主流技术是深度学习技术,识别流程为:首先按行提取图片中的文字,然后按列对整行文字进行切分,最后将每一个切片送入深度学习模型识别并输出结果。
然而,传统方法对提取后的文字区域只进行列切分,即将一行文字划分为多个列切片,这种方法仅适用于文字大小相同,且处于同一水平线上的情况。对于艺术字体,处于同一行的文字大小不尽相同,如果按最大文字高度进行列切分,则较小的文字占整个切片区域的比例较小,影响后续的识别。此外,由于广告文字排版的随意性,即使是同样大小的文字,也可能倾斜或者旋转排列,如果仅进行列切分,文字在不同切片中的位置是变化的,也会影响后续的识别。
发明内容
本发明主要解决的技术问题是提供一种基于行列切分的印刷体字符的识别方法,能够在列切分的基础上进行行切分,可同时利用行、列两个维度的信息,所获得的文字特征更加丰富,后续识别率更高。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于行列切分的印刷体字符的识别方法,包括:对于图像进行列切分,对于列切分后的切片,再次进行行切分;将行列切分后的图像切片送入卷积神经网络,进行特征提取,得到切片对应的特征向量;对于空白切片,则在识别过程中,忽略这部分空白切片;对于存在文字部分的切片,使用循环神经网络模型学习这些切片的前后关联关系,经过softmax激励得到每列切片对应文字的预测概率,利用CTC算法处理每列切片的文字预测概率,进而确定所识别的文字。
一种基于行列切分的印刷体字符的识别方法,具体包括以下步骤:
步骤一、利用行文本检测算法,检测并裁剪图片中的行文本区域;
步骤二、对于每一个行文本区域,以固定宽度按列进行切分,形成列切片;
步骤三、对于每一个列切片,以固定高度按行进行二次切分,形成行切片;
步骤四、将按行列切分后的每一个的图像切片送入卷积神经网络,进行特征提取,得到切片对应的特征向量;
步骤五、从第一个列切片开始,将其包含的每一个行切片的特征向量送入循环神经网络,然后取循环神经网络的最后一个输出作为当前状态计算下一列;同时,该输出经过softmax激励,得到该列切片对应文字的预测概率;重复该过程,直到最后一个列切片计算完成为止;
步骤六、利用CTC算法处理每个列切片的文字预测概率,得到最终的文字识别结果。
进一步,所述步骤一中行文本检测算法包括CPTN、Yolo、PixelLink。
进一步,所述步骤二中列切分宽度为4个像素,所述步骤三中行切分高度为4个像素。
本发明的有益效果是:本发明可有效解决文字大小不均、非水平排列的情况下识别率低的问题。本发明在列切分的基础上进行行切分,可同时利用行、列两个维度的信息,与单纯使用列切分方法相比,所获得的文字特征更加丰富,后续识别率更高。
附图说明
图1是本发明一种基于行列切分的印刷体字符的识别方法一较佳实施例的行列切分示意图;
图2是所示一种基于行列切分的印刷体字符的识别方法的算法模型框架图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
请参阅图1和图2,本发明实施例包括:
对于列切分后的切片,再次进行行切分。这样,如果文字大小不一,如图1所示,则含有小文字的列切片由于进行了行切分,其中的空白部分(不含文字的背景区域)被划分到了单独的切片中,在识别过程中,模型会忽略这部分切片,将注意力集中到含有文字的切片中,从而避免了小文字在切片中占比过低,难以识别的问题。
此外,对于倾斜或者旋转排列的文字,如图1所示,如果在列切分的基础上进行行切分,虽然文字的不同部分仍然处在不同行切片中,但行切片之间的前后关联关系是固定的,使用循环神经网络模型(RNN)可以很容易的学到这种关联关系,进而确定所识别的文字。
一种基于行列切分的印刷体字符的识别方法,包括以下步骤:
S1,输入待识别的图像,利用行文本检测算法,检测并提取图片中的行文本区域;具体实践中,可使用但不限于CPTN(Connectionist Text Proposal Network)、Yolo、PixelLink等行文本检测算法。
S2,对于提取出的每一个行文本区域,以固定的宽度进行列切分,生成列切片,列宽度一般为4个像素。
S3,对于每一个列切片,以固定宽度进行行切分,生成行切片,行高度一般为4个像素。
S4,对行列切分后得到的大小为4*4的切片,输入卷积神经网络(CNN)提取特征,获得该切片的特征向量。具体实施时,卷积神经网络采用4层结构,其中包括2个卷积层和2个池化层,卷积层卷积核大小为3*3,步长为1,池化层采用最大值池化,步长为2。
S5,从第一个列切片开始,将该列包含的每一个行切片的特征向量依次输入循环神经网络(RNN),然后取RNN最后一个节点的输出作为下一列RNN的初始状态,同时该输出经softmax激励,得到该列切片对应文字的预测概率。重复该过程,直到最后一个列切片计算完成为止,见图2,具体实施时,RNN一般采用双向LSTM网络,从两个方向分别进行计算。
S6,使用CTC算法(Connectionist Temporal Classification),将列切片的输出概率转换为具体的识别输出,算法结束。
印刷体字符识别是证照阅读机、高拍仪的核心技术之一,传统方法采用行切分的方式进行,但对某些非水平排版、大小不一的文本识别准确率较低,本发明能为证照阅读机、高拍仪提供支持,填补这一领域的空白。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (3)

1.一种基于行列切分的印刷体字符的识别方法,其特征在于,包括:对于图像进行列切分,对于列切分后的切片,再次进行行切分;将行列切分后的图像切片送入卷积神经网络,进行特征提取,得到切片对应的特征向量;对于空白切片,则在识别过程中,忽略这部分空白切片;对于存在文字部分的切片,使用循环神经网络模型学习这些切片的前后关联关系,经过softmax激励得到每列切片对应文字的预测概率,利用CTC算法处理每列切片的文字预测概率,进而确定所识别的文字;
具体包括以下步骤:
步骤一、利用行文本检测算法,检测并裁剪图片中的行文本区域;
步骤二、对于每一个行文本区域,以固定宽度按列进行切分,形成列切片;
步骤三、对于每一个列切片,以固定高度按行进行二次切分,形成行切片;
步骤四、将按行列切分后的每一个的图像切片送入卷积神经网络,进行特征提取,得到切片对应的特征向量;
步骤五、从第一个列切片开始,将其包含的每一个行切片的特征向量送入循环神经网络,然后取循环神经网络的最后一个输出作为当前状态计算下一列;同时,该输出经过softmax激励,得到该列切片对应文字的预测概率;重复步骤五,直到最后一个列切片计算完成为止;
步骤六、利用CTC算法处理每个列切片的文字预测概率,得到最终的文字识别结果。
2.根据权利要求1所述的一种基于行列切分的印刷体字符的识别方法,其特征在于:所述步骤一中行文本检测算法包括CPTN、Yolo、PixelLink。
3.根据权利要求1所述的一种基于行列切分的印刷体字符的识别方法,其特征在于:所述步骤二中列切分宽度为4个像素,所述步骤三中行切分高度为4个像素。
CN202010705900.1A 2020-07-21 2020-07-21 一种基于行列切分的印刷体字符的识别方法 Active CN111931778B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010705900.1A CN111931778B (zh) 2020-07-21 2020-07-21 一种基于行列切分的印刷体字符的识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010705900.1A CN111931778B (zh) 2020-07-21 2020-07-21 一种基于行列切分的印刷体字符的识别方法

Publications (2)

Publication Number Publication Date
CN111931778A CN111931778A (zh) 2020-11-13
CN111931778B true CN111931778B (zh) 2022-08-09

Family

ID=73314259

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010705900.1A Active CN111931778B (zh) 2020-07-21 2020-07-21 一种基于行列切分的印刷体字符的识别方法

Country Status (1)

Country Link
CN (1) CN111931778B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329777B (zh) * 2021-01-06 2021-05-04 平安科技(深圳)有限公司 基于方向检测的文字识别方法、装置、设备及介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN110503103A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于全卷积神经网络的文本行中的字符切分方法
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108509881A (zh) * 2018-03-22 2018-09-07 五邑大学 一种无切分的脱机手写汉字文本识别方法
CN110503103A (zh) * 2019-08-28 2019-11-26 上海海事大学 一种基于全卷积神经网络的文本行中的字符切分方法
CN111046946A (zh) * 2019-12-10 2020-04-21 昆明理工大学 基于crnn的缅甸语图像文本识别方法

Also Published As

Publication number Publication date
CN111931778A (zh) 2020-11-13

Similar Documents

Publication Publication Date Title
US11922318B2 (en) System and method of character recognition using fully convolutional neural networks with attention
US10936862B2 (en) System and method of character recognition using fully convolutional neural networks
TWI766855B (zh) 一種字符識別方法和裝置
CN107133622B (zh) 一种单词的分割方法和装置
US6252988B1 (en) Method and apparatus for character recognition using stop words
EP0740263A2 (en) Method of training character templates for use in a recognition system
KR950001551A (ko) 이미지 세그먼테이션 및 이미지 요소 분류 방법
US10373022B1 (en) Text image processing using stroke-aware max-min pooling for OCR system employing artificial neural network
WO2018090011A1 (en) System and method of character recognition using fully convolutional neural networks
JP2730665B2 (ja) 文字認識装置および方法
CN106682671A (zh) 图像文字识别系统
CN109685061A (zh) 适用于结构化的数学公式的识别方法
CN111931778B (zh) 一种基于行列切分的印刷体字符的识别方法
CN111400497A (zh) 一种文本识别方法、装置、存储介质及电子设备
CN113537227B (zh) 一种结构化文本识别方法及系统
CN112926565B (zh) 图片文本的识别方法、系统、设备和存储介质
CN113505775A (zh) 一种基于字符定位的满文单词识别方法
CN112733858A (zh) 基于字符区域检测的图像文字快速识别方法及装置
CN116402028A (zh) Pdf文件的精简方法
JP5211449B2 (ja) 認識距離を調整するプログラム、装置および方法、ならびに文字列を認識するプログラム
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
CN114639106A (zh) 图文识别方法、装置、计算机设备及存储介质
JPH05225394A (ja) 文字認識システムの候補文字分類方法
Koundal et al. Punjabi optical character recognition: a survey
US10878271B2 (en) Systems and methods for separating ligature characters in digitized document images

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220629

Address after: 215000 building 3, Fumin phase III plant, No. 818, Songjia Road, Guoxiang street, Wuzhong Economic Development Zone, Suzhou City, Jiangsu Province

Applicant after: INSPUR FINANCIAL INFORMATION TECHNOLOGY Co.,Ltd.

Applicant after: Jinan Langchao Jindi Information Technology Co.,Ltd.

Address before: 215100 818 Wusong Road, Wusong River Industrial Park, Wuzhong development area, Suzhou, Jiangsu

Applicant before: INSPUR FINANCIAL INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant