CN109447080A - 一种字符识别方法及装置 - Google Patents
一种字符识别方法及装置 Download PDFInfo
- Publication number
- CN109447080A CN109447080A CN201811338735.XA CN201811338735A CN109447080A CN 109447080 A CN109447080 A CN 109447080A CN 201811338735 A CN201811338735 A CN 201811338735A CN 109447080 A CN109447080 A CN 109447080A
- Authority
- CN
- China
- Prior art keywords
- character
- sample
- region
- zone
- character zone
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例提供了一种字符识别方法及装置,该方法通过对第一图像区域进行形态学梯度化计算得到的第一梯度图进行区域划分,得到多个字符区域;并将得到的各个字符区域输入至字符识别模型进行字符识别,得到各个字符区域的字符识别结果。在本发明实施例提供的方案中,使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
Description
技术领域
本发明涉及网络信息技术领域,特别是涉及一种字符识别方法及装置。
背景技术
在互联网和大数据时代,为了高效、快速的抢占新增客户市场,银行、保险、移动支付、财务管理等众多领域、行业均把为用户提供最贴心、高效的服务作为企业的业务重心。
为用户提供各种优质服务的过程中,可能会需要进行字符识别,以根据识别出的字符为用户成功办理业务。例如,一些业务需要识别用户的银行卡号、身份证号等信息中的字符。
以识别银行卡号中包含的字符为例,识别过程包括:确定银行卡图像中的卡号区域,按照图形算法识别上述卡号区域中的数字,也就是,识别上述卡号区域中的字符。
应用上述方法虽然能够识别出银行卡图像中的字符,但是由于银行卡一般存在复杂的图案背景,且在长期的使用过程中,可能存在磨损区域和污渍区域,上述这些因素均会为字符识别带来干扰,使得识别出的银行卡号中的字符准确率低。
发明内容
本发明实施例的目的在于提供一种字符识别方法及装置,能够提高所确定出的、包含字符的图像区域的准确度。具体技术方案如下:
一种字符识别方法,所述方法包括:
确定待识别图像中包含字符的图像区域,作为第一图像区域;
对所述第一图像区域进行形态学梯度化计算,得到第一梯度图;
对所述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域;
将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,所述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,所述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,所述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
进一步地,所述方法还包括:
确定每一字符区域在所述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
根据每一字符区域的候选区域,确定每一字符区域的校正区域;
将每一字符区域的校正区域输入至所述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
根据所确定的最终识别结果获得所述待识别图像中包含的字符。
进一步地,所述根据每一字符区域的候选区域,确定每一字符区域的校正区域,包括:
将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果,其中,所述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,所述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,所述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
进一步地,所述字符识别模型的训练过程,包括:
获取第一样本图像;
对所述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
获得所述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
获得各个第一样本字符区域的标注字符;
采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为所述字符识别模型。
进一步地,所述获得所述第一样本梯度图中表示各个字符所在区域的第一样本字符区域,包括:
对所述第一样本梯度图进行直方图均衡化处理;
获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
和/或
所述对所述第一梯度图进行区域划分,得到多个字符区域,包括:
对所述第一梯度图进行直方图均衡化处理;
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
进一步地,所述获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域,包括:
获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域;
和/或
所述对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域,包括:
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
进一步地,所述字符判断模型的训练过程,包括:
获取第二样本图像;
对所述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
获得所述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
获得表示各个第二样本字符区域中是否包含字符的标注信息;
采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为所述字符判断模型。
一种字符识别装置,所述装置包括:
第一区域确定模块,用于确定待识别图像中包含字符的图像区域,作为第一图像区域;
第一梯度图确定模块,用于对所述第一图像区域进行形态学梯度化计算,得到第一梯度图;
字符区域得对模块,用于对所述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域;
识别结果获得模块,用于将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,所述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,所述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,所述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
进一步地,所述装置还包括:
候选区域确定模块,用于确定每一字符区域在上述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
校正区域确定模块,用于根据每一字符区域的候选区域,确定每一字符区域的校正区域;
第二识别结果获得模块,用于将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
最终结果确定子模块,用于将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
字符获得子模块,用于根据所确定的最终识别结果获得上述待识别图像中包含的字符。
进一步地,所述校正区域确定模块包括:
判断结果获得子模块,用于将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果,其中,所述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,所述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,所述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
校正区域确定子模块,用于根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
进一步地,所述识别结果获得模块包括以下子模块,用于训练得到上述字符识别模型:
第一获取子模块,用于获取第一样本图像;
第一梯度图得到子模块,用于对上述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
第一字符区域子模块,用于获得上述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
标注字符子模块,用于获得各个第一样本字符区域的标注字符;
第一训练子模块,用于采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为上述字符识别模型。
进一步地,所述第一字符区域子模块包括:
第一均衡化处理单元,用于对上述第一样本梯度图进行直方图均衡化处理;
第一字符区域单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
和/或
所述字符区域得到模块包括:
第一均衡化处理子模块,用于对上述第一梯度图进行直方图均衡化处理;
第一字符区域子模块,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
进一步地,所述第一字符区域单元包括:
第一字符区域子单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域;
和/或
所述第一字符区域单元包括:
第一字符区域子单元,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
进一步地,所述判断结果获得子模块包括以下单元,用于训练得到上述字符判断模型:
第二获取单元,用于获取第二样本图像;
第二梯度图得到单元,用于对所述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
第二字符区域单元,用于获得所述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
标注信息单元,用于获得表示各个第二样本字符区域中是否包含字符的标注信息;
第二训练单元,用于采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为所述字符判断模型。
本发明实施例又提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述任一所述的字符识别方法。
本发明实施例又提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的字符识别方法。
本发明实施例提供的一种字符识别方法及装置,可以通过确定待识别图像中包含字符的图像区域,作为第一图像区域;对第一图像区域进行形态学梯度化计算,得到第一梯度图;对第一梯度图进行区域划分,得到字符区域;将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果。本发明实施例提供的方案中,不再使用图形算法这种准确率低的方式识别字符,而是使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1为本发明实施例提供的第一种字符识别方法的流程示意图;
图2为本发明实施例提供的银行卡图像中的字符区域的示意图;
图3a为本发明实施例提供的第一类识别结果的示意图;
图3b为本发明实施例提供的第二类识别结果的示意图;
图4为本发明实施例提供的第二种字符识别方法的流程示意图;
图5为本发明实施例提供的一种字符识别装置的结构示意图;
图6为本发明实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
本发明实施例提供了一种字符识别方法及装置,下面先对本发明实施例中涉及的概念进行说明。
形态学梯度化计算:分别对图像进行膨胀和腐蚀的形态学处理,然后用膨胀后的图像减去腐蚀后的图像,得到差值图像。在进行膨胀和腐蚀的形态学处理时,可以选用3×3的卷积核作为特征检测器。
卷积神经网络:是一种前馈神经网络,可以进行大型图像处理。卷积神经网络包括卷积层和池化层。
其中,卷积神经网络包括一维卷积神经网络、二维卷积神经网络以及三维卷积神经网络。一维卷积神经网络常应用于序列类的数据处理;二维卷积神经网络常应用于图像类文本的识别;三维卷积神经网络主要应用于医学图像以及视频类数据识别。
下面再通过具体实施例对本申请实施例提供的字符识别方法进行详细说明。
参见图1,图1为本发明实施例提供的第一种字符识别方法的流程示意图,包括如下步骤:
S101,确定待识别图像中包含字符的图像区域,作为第一图像区域。
其中,待识别图像可以是灰度图像,也可以是彩色图像。为了使得待识别图像简单、干扰性小,一般待识别图像采用灰度图像,如果待识别图像为彩色图像时,则对待识别图像进行灰度化处理,得到灰度图像。
第一图像区域为待识别图像中包含字符的图像区域,当待识别图像为彩色图像时,可以首先从待识别图像中确定出第一图像区域,然后再对第一图像区域进行灰度化处理,得到灰度化处理后的第一图像区域;也可以首先对待识别图像进行灰度化处理,然后,从灰度化处理后的待识别图像中确定第一图像区域。
字符可以为数字,也可以为字母,还可以是汉字,还可以是上述三者中至少两者的混合,本发明实施例对此并不限定。
S102,对上述第一图像区域进行形态学梯度化计算,得到第一梯度图。
基于上述对形态学梯度化计算的描述,对第一图像区域进行形态学梯度化计算可以保留字符的边缘轮廓。
对待识别图像进行形态学梯度化计算时,在一种实现方式中,可以先获取待识别图像的灰度分量图,再对灰度分量图进行形态学梯度化计算,得到第一梯度图。
本发明实施例仅仅以上述得到第一梯度图的方式为例进行说明,并不对本发明构成限定。
S103,对上述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域。
其中,一些场景下,每个字符所在区域的宽度往往是固定的,且各个字符所在区域的宽度相似,基于此,本发明的一种实现方式中,对第一梯度图进行划分,可以是按照预设间隔进行划分。
例如,一个字符的宽度约为20个像素点,则可以按照20像素点的间隔对第一梯度图中的字符区域进行划分,得到多个字符区域。
基于上述示例,如图2中的每一白色框表示一个字符区域。
S104,将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果。
其中,上述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,上述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,上述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
上述字符识别结果中可以包括识别得到的每一字符区域中存在的字符,除此之外,上述字符识别结果中还可以包括:每一字符区域中存在的字符为上述识别得到的字符的置信度。
每一字符区域中存在的字符为识别得到的字符的置信度可以理解为:字符区域存在的字符为识别得到的字符的概率。
第一样本图像可以为灰度图像,也可以为彩色图像。
第一样本图像可以是包含多个字符的图像,也可以是包含一个字符的图像。
当第一样本图像为包含多个字符的图像时,则首先对第一样本图像先进行形态学化计算得到第一样本梯度图,再对上述第一样本梯度图进行划分,得到第一样本字符区域。
当第一样本图像为包含一个字符的图像时,也可以先对第一样本图像进行形态学梯度化计算得到第一样本梯度图,这种情况下,可以直接将第一样本梯度图的全部作为上述第一样本字符区域。另外,虽然第一样本图像中只包含一个字符,但是第一样本图像中除了字符外,还可以包含其他内容,为此,得到第一样本梯度图后,还可以确定其中字符所在的区域,将字符所在的区域确定为上述第一样本字符区域。
在一种实现方式中,在S104之后,还可以包括:根据各个字符区域的第一类字符识别结果,确定上述待识别图像中包含的字符。
对各个字符区域进行字符识别时,所得到的每一字符区域的第一类字符识别结果中,可以只包含识别出的一个字符,还可以包含识别出的多个可能的字符。
当每一字符区域的第一类字符识别结果中,只包含识别出的一个字符时,可以按照每一字符区域在待识别图像中的位置顺序,确定上述待识别图像中包含的字符。
当每一字符区域的第一类字符识别结果中,包含识别出的多个可能的字符时,可以依据各个字符区域的第一类字符识别结果中置信度最高的字符、以及各个字符区域在待识别图像中的位置顺序,确定待识别图像中包含的字符。还可以按照各个第一类字符识别结果中各个字符按照上述位置顺序的组合符合语法结构的程度,确定待识别图像中包含的字符。
可见,本实现方式通过根据各个字符区域的第一类字符识别结果,确定上述待识别图像中包含的字符,能够快速获得识别图像中包含的字符。
需要说明的是,本发明仅仅以上述为例进行说明,并不对本申请构成限定。
由此可见,本发明实施例提供的方法通过确定待识别图像中包含字符的图像区域,作为第一图像区域;对第一图像区域进行形态学梯度化计算,得到第一梯度图;对第一梯度图进行区域划分,得到字符区域;将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果。本发明实施例提供的方案中,不再使用图形算法这种准确率低的方式识别字符,而是使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
由于上述预设间隔仅仅为一统计值,而每一字符的实际宽度并非绝对相等,除此之外,受拍摄角度等因素的影响,图像还可能存在形变、旋转等情况,为此,上述步骤S103中划分得到的各个字符区域中,有的字符区域可能恰好包含一个完整的字符,有的字符区域可能包含一个字符的部分。
为了解决上述划分的字符区域可能存在包含一个字符的部分的情况,提出了一种实现方式,上述方法还可以包括如下步骤A~步骤D:
步骤A,确定每一字符区域在上述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
其中,上述沿着预设方向偏移可以为沿着水平方向偏移,还可以是沿着垂直方向偏移。
上述每一字符区域的候选区域的数量可以是一个,例如,每一字符区域在上述待识别图像中沿某一个方向偏移预设数量个像素点对应的区域;
上述每一字符区域的候选区域的数量也可以是多个,例如:每一字符区域在上述待识别图像中沿多个方向偏移预设数量个像素点对应的区域。
上述预设数量可以为3个像素点、4个像素点等等。
由于每一字符区域的候选区域是该字符区域沿预设方向偏移预设数量个像素点得到的,因此,每一字符区域的候选区域与该字符区域大小相等。
步骤B,根据每一字符区域的候选区域,确定每一字符区域的校正区域;
根据在步骤A中描述候选区域的情况,确定每一字符区域的校正区域,可能存在如下两种情况:
第一种情况,当候选区域的数量为1时,则确定每一字符区域的校正区域的数量也为1;
第二种情况,当候选区域的数量为大于1时,则确定每一字符区域的校正区域的数量可以为1个,也可以大于1的候选区域。
若从多个候选区域中确定一个校正区域的一种方式可以为:检测每一候选区域包含的字符为完整字符的置信度,选取置信度高的候选区域作为校正区域。
若从多个候选区域中确定大于1个校正区域的一种实现方式可以为:将候选区域全部选为校正区域;另一种实现方式可以为:检测每一候选区域包含的字符为完整字符的置信度,选取置信度高于预设阈值的候选区域作为校正区域。
步骤C,将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果。
当校正区域数量为1时,则将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得该校正区域的字符识别结果。
当校正区域数量为大于1时,则将多个校正区域输入至上述字符识别模型进行字符识别,获得每一校正区域的字符识别结果。
步骤D,将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果。
如图3a和图3b所示,识别该图3a中的银行卡图像的字符区域,得到的第一类结果如表1所示,如图3b的字符区域是相对图3a中白色的字符区域在银行卡图像中沿着向上方向偏移3个像素点后的区域,识别该图3b中的银行卡图像的字符区域,得到第二类结果,如表1所示。
表1字符区域的识别结果
由表1可见,第一类识别结果:8(0.496612)、9(0.253606)、5(0.223002)表示识别第5个字符区域得到:识别为“8”的置信度为0.496612,识别为“9”的置信度为0.253606,识别为“5”的置信度为0.223002。第二类识别结果:5(0.653467)、6(0.223380)、1(0.119480)表示识别第5个字符区域得到:识别为“5”的置信度为0.653467,识别为“6”的置信度为0.223380,识别为“1”的置信度为0.119480。
比较第5个字符区域的第一类识别结果和第二类识别结果,可见第二类识别结果中的5(0.653467)的置信度最高,识别第5个字符区域的最终识别结果为“5”。
同理,第一类识别结果:4(0.929009)、9(0.048432)、5(0.010286)表示识别第11个字符区域得到:识别为“4”的置信度为0.929009,识别为“9”的置信度为0.048432,识别为“5”的置信度为0.010286。第二类识别结果:6(0.963980)、4(0.020356)、0(0.132569)表示识别第11个字符区域得到:识别为“6”的置信度为0.963980,识别为“4”的置信度为0.020356,识别为“0”的置信度为0.132569。
比较第11个字符区域的第一类识别结果和第二类识别结果,可见第二类识别结果中的6(0.963980)的置信度最高,识别第11个字符区域的最终识别结果为“6”。
可见,上述实现方式通过将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果,能够进一步提高了识别字符的准确率。
在一种实现方式中,在基于上述步骤D之后,还包括步骤E:
步骤E,根据所确定的最终识别结果获得上述待识别图像中包含的字符。
根据所确定的最终识别结果,按照每一字符区域在待识别图像中的位置,获得待识别图像中包含的字符。
可见,上述实现方式通过根据所确定的最终识别结果获得上述待识别图像中包含的字符,能够快速获得待识别图像中包含的字符。
在一种实现方式中,步骤B的实现方式可以包括如下步骤B1~步骤B2:
步骤B1,将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果。
其中,上述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,上述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,上述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像。
其中,上述字符判断结果可以包括:判断候选区域包含字符,判定候选区域不包含字符,也就是非字符区域,也可以包括:判断候选区域包含字符以及判断候选区域包含字符的置信度,还可以包括:判断候选区域为非字符区域以及判定为非字符区域的置信度。
第二样本图像可以为灰度图像,也可以为彩色图像。
第二样本图像可以是字符样本图像和非字符样本图像,其中,字符样本图像可以是包含一个字符的样本图像,也可以是包含多个字符的样本图像。字符样本图像和非字符样本图像可以是来源于一张原图像,也可以是来源于同一类原图像。
以银行卡为例,第二样本图像中的字符样本图像来源于一张银行卡图像,非字符样本图像可以在该张银行卡图像中偏移字符样本图像的预设数量个像素点处获取。
步骤B2,根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
上述将多个候选区域中置信度最高的候选区域作为校正区域。
可见,上述实现方式通过将各个候选区域输入至字符判断模型中,输出各个候选区域的字符判断结果,将字符判断结果中置信度最高的候选区域作为校正区域,进一步提高了识别字符的准确率;另外,在本发明实施提供的方案中,使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用对第二样本图像进行形态学梯度化计算得到的第二样本梯度图的第二样本字符区域作为样本对神经网络进行训练,从而增强了字符判断模型的抗干扰性,使得模型能够有效地判定图像中复杂背景是否存在字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
在一种实现方式中,字符识别模型具体的训练过程可以包括如下步骤L1~步骤L5:
步骤L1,获取第一样本图像;
第一样本图像可以为灰度图像,也可以为彩色图像。
第一样本图像可以是包含多个字符的图像,也可以是包含一个字符的图像。
步骤L2,对上述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
基于上述对形态学梯度化计算的描述,对第一样本图像进行形态学梯度化计算可以保留字符的边缘轮廓。
对第一样本图像进行形态学梯度化计算时,在一种实现方式中,可以先获取第一样本图像的灰度分量图,再对灰度分量图进行形态学梯度化计算,得到第一样本梯度图。
步骤L3,获得上述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
可以获得将第一样本梯度图中的一个字符所在区域作为一个第一样本字符区域。
第一样本字符区域可以包含数字、字母或汉字,也可以是三者中至少两者的混合。
步骤L4,获得各个第一样本字符区域的标注字符;
获得用户对各个第一样本字符区域的标注字符。例如,第一样本字符区域包含的字符为3,则在第一样本字符区域中标注上3,第一样本字符区域包含的字符为A,则在第一样本字符区域中标注A。
步骤L5,采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为上述字符识别模型。
上述对预设的卷积神经网络模型进行训练的一种实现方式可以为:
将每一所述第一样本字符区域作为训练集输入至卷积神经网络模型中,输出每一第一样本字符区域对应的预测识别字符及预测识别字符概率;所述预测识别字符概率为:识别所述第二字符图像中的字符为预测识别字符的概率;
针对每一第一样本字符区域,比较所述第一样本字符区域的标注字符与最高预测识别字符概率对应的预测识别字符是否均相同;
若不相同,调整所述卷积神经网络模型的参数,作为新的卷积神经网络模型,返回执行将每一第一样本字符区域作为训练集输入至卷积神经网络模型中,输出每一第一样本字符区域对应的预测识别字符及预测识别字符概率的步骤;
若相同,将所述卷积神经网络模型作为字符识别模型。
可见,本实现方式使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用对第一样本图像进行形态学梯度化计算得到的第一样本梯度图的第一样本字符区域作为样本对神经网络进行训练,从而增强了字符识别模型的抗干扰性,使得模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
在第一种实现方式中,实现步骤L3可以包括如下步骤L31~步骤L32:
步骤L31,对上述第一样本梯度图进行直方图均衡化处理;
其中,直方图均衡化是用于调整第一梯度图直方图的对比度,也就是说,对第一梯度图进行非线性拉伸,使得变换后的第一梯度图直方图分布均匀,能够提高第一梯度图的清晰度。
步骤L32,获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
可见,上述第一种实现方式是对直方图均衡化处理后的第一样本字符区域进行训练得到的字符识别模型,该字符识别模型能够实现对待识别图像的识别,可提高所确定出的、包含字符的图像区域的准确度。
在第二种实现方式中,S103的具体实现方式可以包括步骤L33~步骤L34:
步骤L33,对上述第一梯度图进行直方图均衡化处理;
步骤L34,对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
可见,上述第二种实现方式是通过对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。能够提高第一样本字符区域和字符区域的清晰度,可提高所确定出的、包含字符的图像区域的准确度。
在第三种实现方式中,上述步骤L3通过上述L31和L32实现,且S103通过L33和L34实现。
可见,上述第三种实现方式的字识别字符模型的第一样本字符区域是通过直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域获得的,在对字符识别时,也可以对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。能够提高第一样本字符区域和字符区域的清晰度,可提高所确定出的、包含字符的图像区域的准确度。
在一种实现方式中,上述步骤L32的实现方式可以包括步骤L321:
步骤L321,获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域。
第一样本字符区域可以为表示一个字符的区域。
将第一样本字符区域调整至固定的尺寸可以进一步提高字符识别模型的识别效率。
上述预设值可以采用27mm*19mm。
基于上述L321,步骤L34的实现方式可以包括如下步骤L322:
步骤L322,对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
可见,在上述实现方式中,字符识别模型是通过预设大小的第一样本字符区域作为样本训进行训练获得的,利用上述字符识别模型识别字符时,字符区域的大小也调整至预设值,由于字符区域与第一样本字符区域大小相同,因此不仅能够提高字符区域的识别效率,还能够进一步提高字符识别效率和提高所确定出的、包含字符的图像区域的准确度。
在一种实现方式中,字符判断模型具体的训练过程可以包括如下步骤P1~P5:
步骤P1,获取第二样本图像;
获取第二样本图像可以为灰度图像,也可以为彩色图像。
第二样本图像可以是字符样本图像和非字符样本图像,其中,字符样本图像可以是包含一个字符的样本图像,也可以是包含多个字符的样本图像。字符样本图像和非字符样本图像可以是来源于一张原图像,也可以是来源于同一类原图像。
步骤P2,对上述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
对第二样本图像进行形态学梯度化计算时,在一种实现方式中,可以先获取第二样本图像的灰度分量图,再对灰度分量图进行形态学梯度化计算,得到第二样本梯度图。
步骤P3,获得上述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
可以获得将第二样本梯度图中的一个字符所在区域作为一个第二样本字符区域、非字符所在区域作为一个第二样本区域,也可以将第二样本梯度图中的多个字符所在区域作为一个第二样本字符区域、非字符所在区域作为一个第二样本区域。
第二样本字符区域中包含字符的区域可以包含数字、字母或汉字,也可以是三者中至少两者的混合。
步骤P4,获得表示各个第二样本字符区域中是否包含字符的标注信息;
标注信息可以理解为用于表示该第二样本字符区包含字符或非字符的信息,例如,当第二样本字符区域包含字符时,则在该第二样本字符区域标注信息可以用表示字符的“1”标注,当第二样本字符区域不包含字符时,则在该第二样本字符区域标注可以用表示非字符的“0”标注。
步骤P5,采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为上述字符判断模型。
上述对预设的卷积神经网络模型进行训练的一种实现方式可以为:
获得各个第二样本字符区域的标注字符,作为标记;
将每一标记后的第二样本字符区域作为训练集输入至卷积神经网络模型中,输出与每一第二样本字符区域对应的预测标记及预测标记概率;所述预测标记概率为:识别所述第二目标字符图像为字符的概率;
针对每一第二样本字符区域,比较所述标记与最高所述预测标记概率的所述预测标记是否均相同;
若不相同,调整所述卷积神经网络模型的参数,作为新的卷积神经网络模型,返回执行将每一标记后的第二样本字符区域作为训练集输入至卷积神经网络模型中,输出与每一第二样本字符区域对应的预测标记的步骤;
若相同,将所述卷积神经网络模型作为字符判断模型。
可见,上述实现方式使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地判断候选区域是否包含字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
在第一种实现方式中,步骤P3的实现方式可以包括如下步骤P31~P32:
P31,对上述第二样本梯度图进行直方图均衡化处理;
对第二梯度图进行非线性拉伸,使得变换后的第二梯度图直方图分布均匀,能够提高第二梯度图的清晰度。
P32,获得直方图均衡化处理后的第二样本梯度图中表示各个非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
其中,第二样本字符区域的大小可以设置为预设大小。
可见,上述实现方式是对直方图均衡化处理后的第二样本字符区域进行训练得到的字符判断模型,该字符判断模型能够实现对候选区域是否包含字符的判断,可提高所确定出的、包含字符的图像区域的准确度。
在第二种实现方式中,基于上述P32,S103的具体实现方式可以包括步骤P33~步骤P34:
步骤P33,对上述第一梯度图进行直方图均衡化处理;
步骤P34,对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
若第二样本区域的大小为预设大小,则步骤P34可以包括:
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
可见,上述第二种实现方式的字符判断模型的第二样本字符区域是通过直方图均衡化处理后的第二样本梯度图中表示各个字符所在区域获得的,在对字符识别时,也可以对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。由于采用直方图均衡化处理了字符区域,因此能够提高第二样本字符区域和字符区域的清晰度,可提高所确定出的、包含字符的图像区域的准确度。
参见图4,图4为本发明实施例提供的第二种字符识别方法的流程示意图,具体包括如下步骤:
S201,确定待识别图像中包含字符的图像区域,作为第一图像区域;
S202,对上述第一图像区域进行形态学梯度化计算,得到第一梯度图;
S203,对上述第一梯度图进行直方图均衡化处理;
S204,对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域;
S205,将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,上述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,上述预设大小的第一样本字符区域为:直方图均衡化处理后的第一样本梯度图中表示一个字符所在区域的区域,上述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像;
S206,确定每一字符区域在上述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
S207,将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果;其中,上述字符判断模型为:预先采用预设大小的第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,上述第二样本字符区域为:直方图均衡化处理的第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,上述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
S208,根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域;
S209,将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
S210,将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
S211,根据所确定的最终识别结果获得上述待识别图像中包含的字符。
由此可见,本发明实施例提供的方法通过将各个数字区域输入至卷积神经网络模型,得到第一类识别结果,将各个候选区域输入至字符判断模型进行字符判定,获得各个候选区域的字符判断结果,并根据所获得的各个候选区域的字符判断结果,确定校正区域,将各个预设大小的校正区域输入至字符识别模型进行字符识别,获得第二类识别结果;将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果。在本发明实施例提供的方案中,不再使用图形算法这种准确率低的识别字符处理方式,而是使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型得到的字符识别模块能够有效地识别图像中复杂背景的字符,字符判断模型能够有效地判定出复杂背景的图像中是否包含字符,从而进一步能够提高所确定出的、包含字符的图像区域的准确度。
基于同一发明构思,根据本发明上述实施例提供的字符识别方法,相应地,本发明实施例还提供了一种字符识别装置,其结构示意图如图5所示,具体包括:
第一区域确定模块301,用于确定待识别图像中包含字符的图像区域,作为第一图像区域;
第一梯度图确定模块302,用于对上述第一图像区域进行形态学梯度化计算,得到第一梯度图;
字符区域得到模块303,用于对上述第一梯度图进行区域划分,得到字符区域,其中,每一字符区域表示一个字符所在的区域;
识别结果获得模块304,用于将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,上述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,上述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,上述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
在一种实现方式中,上述装置还可以包括:
候选区域确定模块,用于确定每一字符区域在上述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
校正区域确定模块,用于根据每一字符区域的候选区域,确定每一字符区域的校正区域;
第二识别结果获得模块,用于将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
最终结果确定子模块,用于将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
字符获得子模块,用于根据所确定的最终识别结果获得上述待识别图像中包含的字符。
在一种实现方式中,上述校正区域确定模块可以包括:
判断结果获得子模块,用于将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果,其中,上述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,上述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,上述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
校正区域确定子模块,用于根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
在一种实现方式中,上述识别结果获得模块304包括以下子模块,用于训练得到上述字符识别模型:
第一获取子模块,用于获取第一样本图像;
第一梯度图得到子模块,用于对上述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
第一字符区域子模块,用于获得上述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
标注字符子模块,用于获得各个第一样本字符区域的标注字符;
第一训练子模块,用于采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为上述字符识别模型。
在一种实现方式中,上述第一字符区域子模块可以包括:
第一均衡化处理单元,用于对上述第一样本梯度图进行直方图均衡化处理;
第一字符区域单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
和/或
上述字符区域得到模块303可以包括:
第一均衡化处理子模块,用于对上述第一梯度图进行直方图均衡化处理;
第一字符区域子模块,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
在一种实现方式中,上述第一字符区域单元可以包括:
第一字符区域子单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域;
和/或
上述第一字符区域单元可以包括:
第一字符区域子单元,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
在一种实现方式中,上述判断结果获得子模块包括以下单元,用于训练得到上述字符判断模型:
第二获取单元,用于获取第二样本图像;
第二梯度图得到单元,用于对上述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
第二字符区域单元,用于获得上述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域,作为第二样本字符区域;
标注信息单元,用于获得表示各个第二样本字符区域中是否包含字符的标注信息;
第二训练单元,用于采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为上述字符判断模型。
在一种实现方式中,上述第二训练单元可以包括:
第二均衡化处理子单元,用于对上述第二样本梯度图进行直方图均衡化处理;
第二字符区域子单元,用于获得直方图均衡化处理后的第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
和/或
上述字符区域得到模块303可以包括:
第二均衡化处理子模块,用于对上述第一梯度图进行直方图均衡化处理;
第二字符区域子模块,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
在一种实现方式中,上述第二字符区域子单元,可以具有用于:
获得直方图均衡化处理后的第二样本梯度图中表示非字符所在区域的、预设大小的区域,和,各个字符所在区域的、预设大小区域,作为第二样本字符区域;
和/或
上述对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域,包括:
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
由此可见,本发明实施例提供的装置通过确定待识别图像中包含字符的图像区域,作为第一图像区域;对第一图像区域进行形态学梯度化计算,得到第一梯度图;对第一梯度图进行区域划分,得到多个字符区域;将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果。本发明实施例提供的方案中,不再使用图形算法这种准确率低的方式识别字符,而是使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
基于同一发明构思,根据本发明上述实施例提供的区域确定方法,相应地,本发明实施例还提供了一种电子设备,如图6所示,包括处理器401、通信接口402、存储器403和通信总线404,其中,处理器401,通信接口402,存储器403通过通信总线404完成相互间的通信,
存储器403,用于存放计算机程序;
处理器401,用于执行存储器403上所存放的程序时,实现本发明实施例提供的一种字符识别方法。
具体的,上述一种字符识别方法,包括:
确定待识别图像中包含字符的图像区域,作为第一图像区域;
对上述第一图像区域进行形态学梯度化计算,得到第一梯度图;
对上述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域;
将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,上述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,上述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,上述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
由此可见,执行本实施例提供的电子设备,通过确定待识别图像中包含字符的图像区域,作为第一图像区域;对第一图像区域进行形态学梯度化计算,得到第一梯度图;对第一梯度图进行区域划分,得到多个字符区域;将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果根据各个字符区域的第一类字符识别结果,确定待识别图像中包含的字符。本发明实施例提供的方案中,不再使用图形算法这种准确率低的方式识别字符,而是使用经过大量样本训练过的卷积神经网络模型,对形态学梯度化的图像进行检测。使用大量样本对卷积神经网络进行训练,可以使得卷积神经网络学习到各种背景下字符的特征,又由于使用进行形态学梯度化计算后的字符区域对卷积神经网络进行训练,而形态学梯度化计算能够突出图像内容中的边缘,因此上述经训练后的卷积神经网络模型能够有效地识别图像中复杂背景的字符,从而能够提高所确定出的、包含字符的图像区域的准确度。
上述的相关内容文件加固方法的实施方式与前述方法实施例部分提供的文件加固方法的管理方式相同,这里不再赘述。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的字符识别方法。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一上述的字符识别方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。上述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行上述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (15)
1.一种字符识别方法,其特征在于,所述方法包括:
确定待识别图像中包含字符的图像区域,作为第一图像区域;
对所述第一图像区域进行形态学梯度化计算,得到第一梯度图;
对所述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域;
将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,所述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,所述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,所述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定每一字符区域在所述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
根据每一字符区域的候选区域,确定每一字符区域的校正区域;
将每一字符区域的校正区域输入至所述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
根据所确定的最终识别结果获得所述待识别图像中包含的字符。
3.根据权利要求2所述的方法,其特征在于,所述根据每一字符区域的候选区域,确定每一字符区域的校正区域,包括:
将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果,其中,所述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,所述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,所述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
4.根据权利要求1~3中任一项所述的方法,其特征在于,所述字符识别模型的训练过程,包括:
获取第一样本图像;
对所述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
获得所述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
获得各个第一样本字符区域的标注字符;
采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为所述字符识别模型。
5.根据权利要求4所述的方法,其特征在于,所述获得所述第一样本梯度图中表示各个字符所在区域的第一样本字符区域,包括:
对所述第一样本梯度图进行直方图均衡化处理;
获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
和/或
所述对所述第一梯度图进行区域划分,得到多个字符区域,包括:
对所述第一梯度图进行直方图均衡化处理;
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
6.根据权利要求5所述的方法,其特征在于,所述获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域,包括:
获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域;
和/或
所述对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域,包括:
对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
7.根据权利要求3所述的方法,其特征在于,所述字符判断模型的训练过程,包括:
获取第二样本图像;
对所述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
获得所述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
获得表示各个第二样本字符区域中是否包含字符的标注信息;
采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为所述字符判断模型。
8.一种字符识别装置,其特征在于,所述装置包括:
第一区域确定模块,用于确定待识别图像中包含字符的图像区域,作为第一图像区域;
第一梯度图确定模块,用于对所述第一图像区域进行形态学梯度化计算,得到第一梯度图;
字符区域得对模块,用于对所述第一梯度图进行区域划分,得到多个字符区域,其中,每一字符区域表示一个字符所在的区域;
识别结果获得模块,用于将得到的各个字符区域输入至字符识别模型进行字符识别,获得各个字符区域的字符识别结果,作为各个字符区域的第一类识别结果,其中,所述字符识别模型为:预先采用第一样本字符区域对卷积神经网络模型进行训练得到的、用于检测区域中所包含字符的模型,所述第一样本字符区域为:第一样本梯度图中表示一个字符所在区域的区域,所述第一样本梯度图为:对第一样本图像进行形态学梯度化计算得到的图像。
9.如权利要求8所述的装置,其特征在于,所述装置还包括:
候选区域确定模块,用于确定每一字符区域在上述待识别图像中沿预设方向偏移预设数量个像素点对应的区域,作为每一字符区域的候选区域;
校正区域确定模块,用于根据每一字符区域的候选区域,确定每一字符区域的校正区域;
第二识别结果获得模块,用于将每一字符区域的校正区域输入至上述字符识别模型进行字符识别,获得每一字符区域的校正区域的字符识别结果,作为每一字符区域的第二类识别结果;
最终结果确定子模块,用于将每一字符区域的第一类识别结果和第二类识别结果中置信度最高的识别结果确定为该字符区域的最终识别结果;
字符获得子模块,用于根据所确定的最终识别结果获得上述待识别图像中包含的字符。
10.如权利要求9所述的装置,其特征在于,所述校正区域确定模块包括:
判断结果获得子模块,用于将得到的各个候选区域输入至字符判断模型判断各个候选区域是否为包含字符的区域,获得各个候选区域的字符判断结果,其中,所述字符判断模型为:预先采用第二样本字符区域对卷积神经网络模型进行训练得到的、用于判断区域中是否包含字符的模型,所述第二样本字符区域为:第二样本梯度图中表示一个字符所在的区域或非字符所在的区域,所述第二样本梯度图为:对第二样本图像进行形态学梯度化计算得到的图像;
校正区域确定子模块,用于根据所获得的各个候选区域的字符判断结果,确定各个候选区域中置信度最高的候选区域作为各个候选区域的校正区域。
11.如权利要求8~10中任一项所述的装置,其特征在于,所述识别结果获得模块包括以下子模块,用于训练得到上述字符识别模型:
第一获取子模块,用于获取第一样本图像;
第一梯度图得到子模块,用于对上述第一样本图像进行形态学梯度化计算,得到第一样本梯度图;
第一字符区域子模块,用于获得上述第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
标注字符子模块,用于获得各个第一样本字符区域的标注字符;
第一训练子模块,用于采用所获得的第一样本字符区域以及每一第一样本字符区域的标注字符,对预设的卷积神经网络模型进行训练,得到用于识别区域中所包含字符的神经网络模型,作为上述字符识别模型。
12.如权利要求11所述的装置,其特征在于,所述第一字符区域子模块包括:
第一均衡化处理单元,用于对上述第一样本梯度图进行直方图均衡化处理;
第一字符区域单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的第一样本字符区域;
和/或
所述字符区域得到模块包括:
第一均衡化处理子模块,用于对上述第一梯度图进行直方图均衡化处理;
第一字符区域子模块,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个字符区域。
13.如权利要求12所述的装置,其特征在于,所述第一字符区域单元包括:
第一字符区域子单元,用于获得直方图均衡化处理后的第一样本梯度图中表示各个字符所在区域的、预设大小的第一样本字符区域;
和/或
所述第一字符区域单元包括:
第一字符区域子单元,用于对直方图均衡化处理后的第一梯度图进行区域划分,得到多个预设大小的字符区域。
14.如权利要求10所述的装置,其特征在于,所述判断结果获得子模块包括以下单元,用于训练得到上述字符判断模型:
第二获取单元,用于获取第二样本图像;
第二梯度图得到单元,用于对所述第二样本图像进行形态学梯度化计算,得到第二样本梯度图;
第二字符区域单元,用于获得所述第二样本梯度图中表示非字符所在区域的区域和各个字符所在区域的区域,作为第二样本字符区域;
标注信息单元,用于获得表示各个第二样本字符区域中是否包含字符的标注信息;
第二训练单元,用于采用所获得的第二样本字符区域以及每一第二样本字符区域的标注信息,对预设的卷积神经网络模型进行训练,得到用于判断区域中是否包含字符的神经网络模型,作为所述字符判断模型。
15.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811338735.XA CN109447080B (zh) | 2018-11-12 | 2018-11-12 | 一种字符识别方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811338735.XA CN109447080B (zh) | 2018-11-12 | 2018-11-12 | 一种字符识别方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109447080A true CN109447080A (zh) | 2019-03-08 |
CN109447080B CN109447080B (zh) | 2020-04-17 |
Family
ID=65551763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811338735.XA Active CN109447080B (zh) | 2018-11-12 | 2018-11-12 | 一种字符识别方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109447080B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147787A (zh) * | 2019-05-16 | 2019-08-20 | 深圳市信联征信有限公司 | 基于深度学习的银行卡号自动识别方法及系统 |
CN110426016A (zh) * | 2019-07-30 | 2019-11-08 | 精英数智科技股份有限公司 | 一种用于综采工作面液压支架移架的对齐辅助方法及系统 |
CN112241749A (zh) * | 2019-07-17 | 2021-01-19 | 上海高德威智能交通系统有限公司 | 字符识别模型训练方法、装置及设备 |
CN112348007A (zh) * | 2020-10-21 | 2021-02-09 | 杭州师范大学 | 一种基于神经网络的光学字符识别方法 |
EP3846105A4 (en) * | 2019-05-31 | 2021-12-01 | China Unionpay Co., Ltd | METHOD, APPARATUS AND DEVICE FOR PROCESSING PAYMENT INFORMATION AND COMPUTER READABLE STORAGE MEDIA |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708356A (zh) * | 2012-03-09 | 2012-10-03 | 沈阳工业大学 | 一种基于复杂背景下的车牌自动定位和识别方法 |
US20150371111A1 (en) * | 2014-06-20 | 2015-12-24 | Qualcomm Incorporated | Systems and methods for obtaining structural information from a digital image |
CN108121984A (zh) * | 2016-11-30 | 2018-06-05 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108427969A (zh) * | 2018-03-27 | 2018-08-21 | 陕西科技大学 | 一种多尺度形态学结合卷积神经网络的纸张缺陷分类方法 |
CN108764230A (zh) * | 2018-05-30 | 2018-11-06 | 上海建桥学院 | 一种基于卷积神经网络的银行卡号自动识别方法 |
-
2018
- 2018-11-12 CN CN201811338735.XA patent/CN109447080B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102708356A (zh) * | 2012-03-09 | 2012-10-03 | 沈阳工业大学 | 一种基于复杂背景下的车牌自动定位和识别方法 |
US20150371111A1 (en) * | 2014-06-20 | 2015-12-24 | Qualcomm Incorporated | Systems and methods for obtaining structural information from a digital image |
CN108121984A (zh) * | 2016-11-30 | 2018-06-05 | 杭州海康威视数字技术股份有限公司 | 一种字符识别方法及装置 |
CN108288078A (zh) * | 2017-12-07 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 一种图像中字符识别方法、装置和介质 |
CN108427969A (zh) * | 2018-03-27 | 2018-08-21 | 陕西科技大学 | 一种多尺度形态学结合卷积神经网络的纸张缺陷分类方法 |
CN108764230A (zh) * | 2018-05-30 | 2018-11-06 | 上海建桥学院 | 一种基于卷积神经网络的银行卡号自动识别方法 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110147787A (zh) * | 2019-05-16 | 2019-08-20 | 深圳市信联征信有限公司 | 基于深度学习的银行卡号自动识别方法及系统 |
EP3846105A4 (en) * | 2019-05-31 | 2021-12-01 | China Unionpay Co., Ltd | METHOD, APPARATUS AND DEVICE FOR PROCESSING PAYMENT INFORMATION AND COMPUTER READABLE STORAGE MEDIA |
US11797996B2 (en) | 2019-05-31 | 2023-10-24 | China Unionpay Co., Ltd. | Payment information processing method, apparatus, device and computer readable storage medium |
CN112241749A (zh) * | 2019-07-17 | 2021-01-19 | 上海高德威智能交通系统有限公司 | 字符识别模型训练方法、装置及设备 |
CN110426016A (zh) * | 2019-07-30 | 2019-11-08 | 精英数智科技股份有限公司 | 一种用于综采工作面液压支架移架的对齐辅助方法及系统 |
CN112348007A (zh) * | 2020-10-21 | 2021-02-09 | 杭州师范大学 | 一种基于神经网络的光学字符识别方法 |
CN112348007B (zh) * | 2020-10-21 | 2023-12-19 | 杭州师范大学 | 一种基于神经网络的光学字符识别方法 |
Also Published As
Publication number | Publication date |
---|---|
CN109447080B (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109447080A (zh) | 一种字符识别方法及装置 | |
CN105868758B (zh) | 图像中文本区域检测方法、装置及电子设备 | |
CN108399386A (zh) | 饼图中的信息提取方法及装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN110781885A (zh) | 基于图像处理的文本检测方法、装置、介质及电子设备 | |
CN109685055A (zh) | 一种图像中文本区域的检测方法及装置 | |
CN107886082B (zh) | 图像中数学公式检测方法、装置、计算机设备及存储介质 | |
CN109271910A (zh) | 一种文字识别、文字翻译方法和装置 | |
Li et al. | Automatic comic page segmentation based on polygon detection | |
CN110443242B (zh) | 读数框检测方法、目标识别模型训练方法及相关装置 | |
CN111914908B (zh) | 一种图像识别模型训练方法、图像识别方法及相关设备 | |
CN109993021A (zh) | 人脸正脸检测方法、装置及电子设备 | |
CN110874618A (zh) | 基于小样本的ocr模板学习方法、装置、电子设备及介质 | |
CN111626295A (zh) | 车牌检测模型的训练方法和装置 | |
CN111310746A (zh) | 文本行检测方法、模型训练方法、装置、服务器及介质 | |
CN115375917B (zh) | 一种目标边缘特征提取方法、装置、终端及存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN115797735A (zh) | 目标检测方法、装置、设备和存储介质 | |
CN109242882B (zh) | 视觉跟踪方法、装置、介质及设备 | |
CN113661515A (zh) | 特征确定装置、特征确定方法和特征确定程序 | |
CN113936288A (zh) | 倾斜文本方向分类方法、装置、终端设备和可读存储介质 | |
CN114067339A (zh) | 图像识别方法及其装置、电子设备、计算机可读存储介质 | |
CN113762303B (zh) | 图像分类方法、装置、电子设备及存储介质 | |
CN111027551B (zh) | 图像处理方法、设备和介质 | |
CN111753729A (zh) | 一种假脸检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |