CN107516096A - 一种字符识别方法及装置 - Google Patents

一种字符识别方法及装置 Download PDF

Info

Publication number
CN107516096A
CN107516096A CN201610425396.3A CN201610425396A CN107516096A CN 107516096 A CN107516096 A CN 107516096A CN 201610425396 A CN201610425396 A CN 201610425396A CN 107516096 A CN107516096 A CN 107516096A
Authority
CN
China
Prior art keywords
images
recognized
character
neural networks
convolutional neural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610425396.3A
Other languages
English (en)
Inventor
周文猛
施兴
褚崴
程孟力
毛旭东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610425396.3A priority Critical patent/CN107516096A/zh
Publication of CN107516096A publication Critical patent/CN107516096A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • G06V20/635Overlay text, e.g. embedded captions in a TV program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种字符识别方法及装置,所述方法包括:获取待识别图像,所述待识别图像中包括多个字符;将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。本申请实施例能够对待识别图像中的多个字符进行整体识别,不需要进行图像分割和语义处理,从而提高了多字符识别的准确率。

Description

一种字符识别方法及装置
技术领域
本申请涉及图像处理领域,尤其是涉及一种字符识别方法及装置。
背景技术
随着图像处理技术的不断发展,如何从图像中识别出字符越来越受到了广泛的关注,尤其是当图像中具有多个字符时。例如对于图1所示的图像,需要识别出其中的英文单词“glass”。
目前在识别图像中的多个字符时,首先需要对图像进行单个字符的分割处理,得到多个子图像,之后分别对每个子图像进行单个字符的识别,将分别识别出的单个字符进行合并以及语义处理,得到最终的识别结果。
然而在上述识别过程中,需要对图像进行单个字符的分割处理,如果分割处理过程出现问题,将会造成后续无法识别字符,从而导致多字符识别的准确率较低。
发明内容
本申请解决的技术问题在于提供一种字符识别方法及装置,以实现对图像中的多字符进行识别时不需要对图像进行分割处理,从而提高了多字符识别的准确率。
为此,本申请解决技术问题的技术方案是:
本申请实施例提供了一种字符识别方法,所述方法包括:
获取待识别图像,所述待识别图像中包括多个字符;
将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
可选的,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符,包括:
利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型还包括至少五个分类器;所述方法还包括:
利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符,包括:
所述分类器和所述区域一一对应,每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
可选的,所述方法还包括:
获取初始卷积神经网络模型;
将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果;
根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
可选的,所述方法还包括:
对一个或多个训练样本图像进行仿真处理;
其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
可选的,所述方法还包括:
将所述待识别图像输入所述卷积神经网络模型之前,对所述待识别图像进行归一化处理。
可选的,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符包括:
利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
本申请实施例提供了一种字符识别装置,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中包括多个字符;
识别单元,用于将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
可选的,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;所述识别单元包括:
提取子单元,用于利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
筛选子单元,用于利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;
识别子单元,用于根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型还包括至少五个分类器;所述装置还包括:获得单元,用于利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;
所述分类器和所述区域一一对应,所述识别子单元具体用于利用每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
可选的,所述装置还包括:
训练单元,用于获取初始卷积神经网络模型,将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果,根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
可选的,所述装置还包括:
仿真单元,用于对一个或多个训练样本图像进行仿真处理;
其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
可选的,所述装置还包括:
归一化单元,用于所述识别单元将所述待识别图像输入所述卷积神经网络模型之前,对所述待识别图像进行归一化处理。
可选的,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符时,所述识别单元具体用于,利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
通过上述技术方案可知,本申请实施例中,通过训练好的卷积神经网络模型对待识别图像包括的多个字符进行识别,由于所述卷积神经网络模型的训练数据为分别包括多个字符的训练样本图像,所述训练数据对应的标记数据为训练样本图像所对应包括的多个字符,因此能够对待识别图像中的多个字符进行整体识别,不需要进行图像分割和语义处理,从而提高了多字符识别的准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其它的附图。
图1为包括多个字符的图像示意图;
图2为本申请提供的一种方法实施例的流程示意图;
图3为本申请提供的一种训练过程的流程示意图;
图4为本申请提供的一种卷积神经网络模型的结构示意图;
图5为本申请提供的另一种方法实施例的流程示意图;
图6为本申请提供的训练样本图像的示意图;
图7为本申请提供的一种装置实施例的结构示意图。
具体实施方式
对于图1所示的图像来说,如果需要识别出其中的英文单词,首先需要对该图像进行单个字符的分割,得到多个子图像,每个子图像中包括单个字符,之后利用图像识别算法对对每个子图像进行单个字符的识别,从而分别识别出5个单个字符“g”、“l”、“a”、“o”、“s”,对该5个字符进行合并以及语义处理,其中在语义识别处理过程中对字符“o”进行纠正,从而输出最终的结果“glass”。
然而,在上述过程中,不仅需要对图像进行单个字符的分割处理,还需要对识别出的若干个单个字符进行合并和语义处理。每个处理过程的准确性都将会影响最终的识别结果的准确性。尤其是分割处理过程,如果对单个字符的分割不准确,将会造成后续无法识别字符,从而导致多字符识别的准确率较低。
本申请实施例提供一种字符识别方法及装置,以实现对图像中的多个字符进行识别时,不需要对图像进行分割处理,从而也不需要进行合并,而是能够对图像中的多字符整体进行识别,从而提高了多字符识别的准确率。并且,即使识别的多字符是单词时,也不需要进行语义处理。
为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参阅图2,本申请实施例提供了多字符识别方法的一种方法实施例。
本实施例的所述方法包括:
S201:获取待识别图像,所述待识别图像中包括多个字符。
在本申请实施例中,字符指的是拉丁文系的字符,例如英文字符、法文字符等。本申请实施例可以用于对单词进行识别,即所述待识别图像中包括的多个字符,可以构成拉丁文系的单词。其中,单词指的是在词汇表或者词典等工具书中具有相应定义的字符组合。
例如,所述待识别图像为图1所示的图像,该图像中包括英文单词“glass”,即该图像中显示有英文单词“glass”。
S202:将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符。
在本申请实施例中,通过特定的卷积神经网络模型,能够对图像中的多个字符整体进行识别,而不需要对图像进行单个字符的识别。其中该特定的卷积神经网络模型,需要通过对包括多个字符的多个训练样本图像进行训练得到。
其中,多个训练样本图像中的各个训练样本图像分别包括多个字符,将所述多个训练样本图像作为所述卷积神经网络模型的训练数据,而将这些图像中对应包括的多个字符作为所述训练数据对应的标记数据(英文:label)。从而能够训练出本申请实施例中特定的卷积神经网络模型。本申请实施例具体用于对单词进行识别时,训练样本图像包括的多个字符也可以构成单词。举例说明,获得包括英文单词“blue”的训练样本图像01,和包括英文单词“happy”的训练样本图像02,将训练样本图像01和训练样本图像02作为所述卷积神经网络模型的训练数据,将英文单词“happy”作为训练样本图像01对应的标记数据,将英文单词“blue”作为训练样本图像01对应的标记数据。
由于所述卷积神经网络模型训练该模型时采用的训练数据为分别包括多个字符的训练样本图像,标记数据为训练样本图像所对应包括的多个字符,因此,将所述待识别图像输入到所述卷积神经网络模型之后,所述卷积神经网络模型能够对待识别图像中的多个字符进行整体识别,即所述卷积神经网络模型的输出即为识别出的多个字符,不需要对图像进行分割和语义处理。其中,训练样本图像中的多个字符,与待识别图像中的多个字符,通常情况下是不同的字符组合。
本申请实施例具体用于对单词进行识别时,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;S202中的利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符包括:利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
通过上述技术方案可知,本申请实施例中,利用了卷积神经网络模型更利于图像处理的特性,通过训练好的卷积神经网络模型对待识别图像包括的多个字符进行识别,由于所述卷积神经网络模型的训练数据为分别包括多个字符的训练样本图像,标记数据为训练样本图像所对应包括的多个字符,因此能够对待识别图像中的多个字符进行整体识别,不需要进行图像分割和语义处理,从而提高了多字符识别(例如单词识别)的准确率。经过实验证明,识别准确率能够达到90%以上。
本申请实施例中可以用于手机等手持设备、计算机、服务器等任一种具有计算功能的电子设备中。
本申请实施例还可以包括对卷积神经网络的训练过程,具体的训练过程可以包括:获取初始卷积神经网络模型;将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果,其中,该输出结果为初始卷积神经网络模型在训练过程中识别出的多个字符;根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。其中,对卷积神经网络模型进行训练,本质上就是获得所述卷积神经网络模型中的相关参数,例如卷积核的大小、卷积核的移动步长等等。
下面,本申请实施例将对卷积神经网络模型的具体结构单元进行介绍。
卷积神经网络模型主要的结构单元可以包括卷积层、池化层以及全连接层等。下面分别说明。
卷积层在一个feature map(特征空间)内共用一个卷积核,该卷积核一般是M×N的矩阵,卷积层的输入与卷积核进行卷积操作,可以得到卷积层的输出。
池化层一般是对一个区域内进行池化操作,即取最大值、最小值或者取平均值的操作,每个区域的输出构成了池化层的输出。池化层在卷积层后的后面,而池化层的后面一般会接非线性单元,非线性单元利用非线性函数对池化层的输出进行非线性映射,一般采取的非线性函数包括S形生长曲线(英文:sigmoid)函数、激活函数(英文:RectifiedLinear Units,简称:ReLu)等。
全连接层则和神经网络中的全连接层功能和结构一致,用于描述不同神经元之间的连接强度。
本申请实施例中,通过设置合理的卷积神经网络模型的具体结构,配合本实施例中的训练样本图像进行训练之后,能够实现对图像中多个字符的整体识别,下面具体说明。
本申请实施例中的卷积神经网络模型的一种合理结构包括:卷积层、池化层和全连接层。其中,经过大量实验证明,当卷积层个数大于或等于4个,池化层个数大于或等于4个,全连接层个数大于或等于1个时,利用该卷积神经网络模型识别多个字符时具有较好的识别准确率。
如图3所示,当卷积神经网络模型具体为该结构时,对所述卷积神经网络模型的训练过程包括:
S301:利用所述卷积层和所述池化层提取一个训练样本图像的特征信息。
所述一个训练样本图像中包括多个字符。需要说明的是,本申请实施例中一种较优的情况是,一个训练样本图像中包括一个单词,并且所述待识别图像中也包括一个单词,经实验验证,该情况下对单词的识别准确率较高。
在具体实现S301时,将所述训练样本图像作为所述卷积神经网络模型的训练数据(实际上输入所述卷积神经网络模型的是所述训练样本图像的图像矩阵,例如灰度值矩阵),通过所述卷积层和所述池化层分别进行的卷积操作和池化操作,从该训练样本图像中提取出特征信息。
其中,所述卷积层和所述池化层可以是如图4所示,依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层。
S302:利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符。
所述全连接层实际上是通过加权组合的方式,对所述特征信息进行区域筛选。其中,筛选后的多个区域中,区域的个数可以与所述训练样本图像中包括的字符个数相同,并且每个区域都对应至少一个字符,表示该区域可能显示该至少一个字符中的任一个字符。
其中,所述全连接层可以是如图4所示,在所述第四池化层后依次包括:第一全连接层和第二全连接层。
S303:根据所述多个区域分别对应的字符,识别出所述训练样本图像中包括的多个字符。
经过所述全连接层后,如果存在对应多个字符的区域,还可以根据字符的可能性大小排序,每个区域对应筛选出一个字符,将筛选出的字符作为识别出的多个字符。举例说明,第一区域对应字符“g”和“j”,第二区域对应字符“l”和“i”,从第一区域对应的字符中筛选出可能性最大的字符“g”,从第二区域对应的字符中筛选出可能性最大的字符“l”。将“gl”作为识别出的多个字符。
其中,可以具体通过分类器的方式进行筛选。如图4所示,所述卷积神经网络模型还可以包括多个分类器,例如softmax分类器。所述方法还包括:利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;S303包括:所述分类器和所述区域一一对应,每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述训练样本图像中包括的多个字符。其中,考虑到一般单词的字符个数,所述分类器的个数可以为至少5个,例如,5个softmax分类器分别输出“g”、“l”、“a”、“s”和“s”共5个字符,将这5个字符组合后作为所述训练样本图像中包括的多个字符。
S304:根据S303识别出的多个字符与标记数据的比对结果,对卷积神经网络模型进行训练。通过对大量的训练样本图像重复上述训练过程,得到训练好的卷积神经网络模型。
在获得训练好的所述卷积神经网络模型之后,可以利用训练好的所述模型,对所述待识别图像中包括的多个字符进行识别。例如所述卷积神经网络模型包括:卷积层、池化层和全连接层。其中经实验证明,当卷积层个数大于或等于4个,池化层个数大于或等于4个,全连接层个数大于或等于1个时,利用该卷积神经网络模型识别多个字符时具有较好的识别准确率。
具体地,所述S203中利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符,可以包括:利用所述卷积层和所述池化层提取所述待识别图像的特征信息;利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。其中,仍然可以通过分类器的方式进行筛选。具体地,所述卷积神经网络模型还包括多个分类器;所述方法还包括:利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符,包括:所述分类器和所述区域一一对应,每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。本段相关内容请参见S301至S303的具体描述,这里不再赘述。
本申请实施例中,训练样本图像可以通过多种途径获得。例如,其中一种途径是通过人工标记获取,也就是说通过拍摄等方式获取到多个训练样本图像,对每个训练样本图像中包括的字符进行人工标记。然而,由于训练过程通常需要大量的训练样本图像(例如上百万),人工标记的方式往往效率很低而且人力成本较高。因此,为了提高效率并且减少人力成本,还有另外一种途径是从词典等字库中抽取一个或多个字符图像,根据所述一个或多个字符图像生成训练样本图像。其中,每个字符图像可以包括一个或多个字符。由于字库中字符图像的图像质量往往较高,本申请实施例还可以对训练样本图像进行仿真处理,使得训练样本图像能够更接近真实样本,从而提高卷积神经网络模型的识别准确率。其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。形状变换包括随机的平移、旋转、拉伸等。图像叠加包括随机的加入边框、将自然图像作为背景图像进行叠加等。加入图像噪声包括加入高斯噪声等。
可选的,本申请实施例中,卷积神经网络模型在训练时和识别待识别图像时,输入数据的尺寸大小通常相同,因此,本申请实施例还可以将训练样本图像和待识别图像的尺寸大小进行统一调整,即调整为统一尺寸大小,例如,均调整为32像素×100像素。需要说明的是,本实施例中可以将训练样本图像和待识别图像统一调整为32像素×100像素,也可以考虑字符大小和字符个数等因素,将训练样本图像和待识别图像统一调整为其他尺寸,本申请实施例对此并不加以限定。
可选的,为了提高多个字符的识别准确率,可以对所述待识别图像进行归一化处理。所述方法还包括:将所述待识别图像输入所述卷积神经网络模型之前,对所述待识别图像进行归一化处理。归一化处理的公式可以为:
其中,p(i,j)表示待识别图像的图像矩阵在坐标(i,j)点的值,n表示待识别图像的像素个数,p'(i,j)表示归一化后图像的图像矩阵在坐标(i,j)点的值。
本申请实施例中,也可以对多个训练样本图像进行归一化处理,并且仍然可以采用上述公式。
下面本申请实施例提供一种识别方法的具体实施例。
请参阅图5,本申请实施例提供了字符识别方法的另一种方法实施例。在本实施例中,以识别单词为例加以说明。
本实施例的所述方法包括:
S501:构建如图4所示的卷积神经网络模型。
其中,该卷积神经网络模型包括5个卷积层、4个池化层、2个全连接层和22个softmax分类器。
S502:根据词典中的英文单词,从词典等字库中抽取多个字符图像,每个字符图像包括一个字符,将多个字符图像合成包括英文单词的训练样本图像。
S503:对S502获得的训练样本图像进行仿真处理;其中,所述仿真处理包括以下图像处理:形状变换、图像叠加、以及加入图像噪声,获得如图6所示的训练样本图像。
由于训练过程通常需要大量的训练样本图像(例如上百万),人工标记的方式往往效率很低而且人力成本较高。为了提高效率并且减少人力成本,本实施例从词典中抽取多个字符图像,生成训练样本图像。由于字库中字符图像的图像质量往往较高,本申请实施例还对训练样本图像进行仿真处理,使得训练样本图像能够更接近真实样本,从而提高卷积神经网络模型的识别准确率。
S504:将训练样本图像转换为灰度图像,对尺寸大小进行统一调整。例如,将灰度图像的尺寸大小缩放到长100像素,宽32像素,图像存储类型可以为浮点型。
S505:对S504得到的灰度图像进行归一化处理。
S506:将归一化处理后的图像作为训练数据,将训练样本图像包括的单词作为所述训练数据对应的标记数据,对所述卷积神经网络模型进行训练。
S507:获得用户输入的图像,对用户输入的图像依次执行转换为灰度图像、对尺寸大小进行统一调整、进行归一化处理。其中,进行尺寸大小统一调整后的图像与训练样本图像调整后的图像,尺寸大小相同。
S508:将S507中获得的归一化处理后的图像输入到所述卷积神经网络模型,所述卷积神经网络模型中的22个分类器的输出作为识别出的单词。
其中,所述22个分类器中,可能前几个分类器输出字符,后几个分类器输出空格,与单词中字符的个数相关。因此,可以将22个分类器中,后面的空格删除,将剩余的字符进行拼接,得到最终的识别结果。
对应上述方法实施例,本申请还提供了字符识别装置的装置实施例,下面具体说明。
请参阅图7,本申请实施例还提供了字符识别装置的一种装置实施例。本实施例的所述装置包括:获取单元701和识别单元702。
获取单元701,用于获取待识别图像,所述待识别图像中包括多个字符;
本申请实施例可以用于对单词进行识别,即所述待识别图像中包括的多个字符,可以构成拉丁文系的单词。例如,所述待识别图像为图1所示的图像,该图像中包括英文单词“glass”,即该图像中显示有英文单词“glass”。
识别单元702,用于将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符。
其中,多个训练样本图像中的各个训练样本图像分别包括多个字符,将所述多个训练样本图像作为所述卷积神经网络模型的训练数据,而将这些图像中对应包括的多个字符作为所述训练数据对应的标记数据(英文:label)。从而能够训练出本申请实施例中特定的卷积神经网络模型。本申请实施例具体用于对单词进行识别时,训练样本图像包括的多个字符也可以构成单词。
由于所述卷积神经网络模型训练该模型时采用的训练数据为分别包括多个字符的训练样本图像,标记数据为训练样本图像所对应包括的多个字符,因此,将所述待识别图像输入到所述卷积神经网络模型之后,所述卷积神经网络模型能够对待识别图像中的多个字符进行整体识别,即所述卷积神经网络模型的输出即为识别出的多个字符,不需要对图像进行分割和语义处理。其中,训练样本图像中的多个字符,与待识别图像中的多个字符,通常情况下是不同的字符组合。
本申请实施例的所述装置可以设置于手机等手持设备、计算机、服务器等任一种具有计算功能的电子设备中。
可选的,所述卷积神经网络模型包括卷积层、池化层和全连接层;识别单元702包括:
提取子单元,用于利用所述卷积层和所述池化层提取所述待识别图像的特征信息;筛选子单元,用于利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;识别子单元,用于根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型还包括多个分类器;所述装置还包括:获得单元,用于利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;所述分类器和所述区域一一对应,所述识别子单元具体用于利用每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
可选的,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
可选的,所述装置还包括:训练单元,用于获取初始卷积神经网络模型,将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果,根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
可选的,所述装置还包括:仿真单元,用于对一个或多个训练样本图像进行仿真处理;其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
可选的,所述装置还包括:归一化单元,用于识别单元702将所述待识别图像输入所述卷积神经网络模型之前,对所述待识别图像进行归一化处理。
可选的,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符时,识别单元702具体用于,利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (14)

1.一种字符识别方法,其特征在于,所述方法包括:
获取待识别图像,所述待识别图像中包括多个字符;
将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符,包括:
利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
3.根据权利要求2所述的方法,其特征在于,所述卷积神经网络模型还包括至少五个分类器;所述方法还包括:
利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;
根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符,包括:
所述分类器和所述区域一一对应,每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
4.根据权利要求2所述的方法,其特征在于,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取初始卷积神经网络模型;
将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果;
根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对一个或多个训练样本图像进行仿真处理;
其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符包括:
利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
8.一种字符识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别图像,所述待识别图像中包括多个字符;
识别单元,用于将所述待识别图像输入到训练好的卷积神经网络模型中,利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符;
其中,所述卷积神经网络模型的训练数据为多个训练样本图像,各个训练样本图像分别包括多个字符,所述训练数据对应的标记数据为所述多个训练样本图像对应包括的多个字符。
9.根据权利要求8所述的装置,其特征在于,所述卷积神经网络模型包括至少四个卷积层、至少四个池化层和至少一个全连接层;所述识别单元包括:
提取子单元,用于利用所述卷积层和所述池化层提取所述待识别图像的特征信息;
筛选子单元,用于利用所述全连接层对所述特征信息进行区域筛选,获得筛选后的多个区域分别对应的字符;其中,每个区域对应至少一个字符;
识别子单元,用于根据所述多个区域分别对应的字符,识别出所述待识别图像中包括的多个字符。
10.根据权利要求9所述的装置,其特征在于,所述卷积神经网络模型还包括至少五个分类器;所述装置还包括:获得单元,用于利用所述全连接层对所述特征信息进行区域筛选时,获得每个字符对应的可能性值;
所述分类器和所述区域一一对应,所述识别子单元具体用于利用每个分类器输出该分类器对应的区域中可能性值最大的字符,作为识别出的所述待识别图像中包括的多个字符。
11.根据权利要求8所述的装置,其特征在于,所述卷积神经网络模型依次包括:第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、第四卷积层、第五卷积层、第四池化层、第一全连接层和第二全连接层。
12.根据权利要求8所述的装置,其特征在于,所述装置还包括:
训练单元,用于获取初始卷积神经网络模型,将所述训练数据输入到所述初始卷积神经网络模型,获取所述初始卷积神经网络模型的输出结果,根据所述输出结果和所述标记数据的比对结果,对所述初始卷积神经网络模型进行训练,获得所述训练好的卷积神经网络模型。
13.根据权利要求8所述的装置,其特征在于,所述装置还包括:
仿真单元,用于对一个或多个训练样本图像进行仿真处理;
其中,所述仿真处理包括以下图像处理中的一项或多项:形状变换、图像叠加、以及加入图像噪声。
14.根据权利要求8至13任一项所述的装置,其特征在于,所述待识别图像中包括至少一个单词,各个训练样本图像分别包括至少一个单词;
利用所述卷积神经网络模型识别出所述待识别图像中包括的多个字符时,所述识别单元具体用于,利用所述卷积神经网络模型识别出所述待识别图像中包括的至少一个单词。
CN201610425396.3A 2016-06-15 2016-06-15 一种字符识别方法及装置 Pending CN107516096A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610425396.3A CN107516096A (zh) 2016-06-15 2016-06-15 一种字符识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610425396.3A CN107516096A (zh) 2016-06-15 2016-06-15 一种字符识别方法及装置

Publications (1)

Publication Number Publication Date
CN107516096A true CN107516096A (zh) 2017-12-26

Family

ID=60719970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610425396.3A Pending CN107516096A (zh) 2016-06-15 2016-06-15 一种字符识别方法及装置

Country Status (1)

Country Link
CN (1) CN107516096A (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537115A (zh) * 2018-03-02 2018-09-14 阿里巴巴集团控股有限公司 图像识别方法、装置及电子设备
CN108764242A (zh) * 2018-05-21 2018-11-06 浙江工业大学 基于深层卷积神经网络的离线手写汉字体识别方法
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109271998A (zh) * 2018-08-31 2019-01-25 摩佰尔(天津)大数据科技有限公司 字符识别方法、装置、设备及存储介质
CN109871904A (zh) * 2019-03-11 2019-06-11 广东工业大学 甲骨文字识别模型及训练方法、系统、设备、计算机介质
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110414522A (zh) * 2019-07-08 2019-11-05 深兰科技(上海)有限公司 一种字符识别方法及装置
CN110443159A (zh) * 2019-07-17 2019-11-12 新华三大数据技术有限公司 数字识别方法、装置、电子设备及存储介质
WO2020088338A1 (zh) * 2018-10-30 2020-05-07 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN111144066A (zh) * 2019-12-27 2020-05-12 北大方正集团有限公司 字库字面的调整方法、装置、设备和存储介质
CN111275039A (zh) * 2020-01-17 2020-06-12 深圳信息职业技术学院 水尺字符定位方法、装置、计算设备及存储介质
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111382645A (zh) * 2018-12-29 2020-07-07 顺丰科技有限公司 电子地图中识别过期建筑的方法和系统
CN111414959A (zh) * 2020-03-18 2020-07-14 南京星火技术有限公司 图像识别方法、装置、计算机可读介质和电子设备
CN111738269A (zh) * 2020-08-25 2020-10-02 北京易真学思教育科技有限公司 模型训练方法、图像处理方法及装置、设备、存储介质
CN112334908A (zh) * 2018-06-26 2021-02-05 伟摩有限责任公司 用于自主车辆的短语识别模型
CN112883956A (zh) * 2021-03-22 2021-06-01 中国工商银行股份有限公司 文本字符的识别方法、装置和服务器
CN113176830A (zh) * 2021-04-30 2021-07-27 北京百度网讯科技有限公司 识别模型训练、识别方法、装置、电子设备及存储介质
WO2021196013A1 (zh) * 2020-03-31 2021-10-07 京东方科技集团股份有限公司 单词识别方法、设备及存储介质
CN113647920A (zh) * 2021-10-21 2021-11-16 青岛美迪康数字工程有限公司 读取监护设备中生命体征数据的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335754A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 文字识别方法及装置
CN105335743A (zh) * 2015-10-28 2016-02-17 重庆邮电大学 一种车牌识别方法
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统
CN105654129A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种光学文字序列识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105335743A (zh) * 2015-10-28 2016-02-17 重庆邮电大学 一种车牌识别方法
CN105335754A (zh) * 2015-10-29 2016-02-17 小米科技有限责任公司 文字识别方法及装置
CN105654135A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种基于递归神经网络的图像文字序列识别系统
CN105654129A (zh) * 2015-12-30 2016-06-08 成都数联铭品科技有限公司 一种光学文字序列识别方法

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108537115A (zh) * 2018-03-02 2018-09-14 阿里巴巴集团控股有限公司 图像识别方法、装置及电子设备
CN108537115B (zh) * 2018-03-02 2022-01-25 创新先进技术有限公司 图像识别方法、装置及电子设备
CN108764242A (zh) * 2018-05-21 2018-11-06 浙江工业大学 基于深层卷积神经网络的离线手写汉字体识别方法
CN112334908A (zh) * 2018-06-26 2021-02-05 伟摩有限责任公司 用于自主车辆的短语识别模型
CN112334908B (zh) * 2018-06-26 2024-05-10 伟摩有限责任公司 用于自主车辆的短语识别模型
CN108960245A (zh) * 2018-07-13 2018-12-07 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN108960245B (zh) * 2018-07-13 2022-04-19 广东工业大学 轮胎模具字符的检测与识别方法、装置、设备及存储介质
CN109271998A (zh) * 2018-08-31 2019-01-25 摩佰尔(天津)大数据科技有限公司 字符识别方法、装置、设备及存储介质
WO2020088338A1 (zh) * 2018-10-30 2020-05-07 杭州海康威视数字技术股份有限公司 一种建立识别模型的方法及装置
CN111382645B (zh) * 2018-12-29 2023-11-28 顺丰科技有限公司 电子地图中识别过期建筑的方法和系统
CN111382645A (zh) * 2018-12-29 2020-07-07 顺丰科技有限公司 电子地图中识别过期建筑的方法和系统
CN109871904A (zh) * 2019-03-11 2019-06-11 广东工业大学 甲骨文字识别模型及训练方法、系统、设备、计算机介质
CN110321892B (zh) * 2019-06-04 2022-12-13 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110321892A (zh) * 2019-06-04 2019-10-11 腾讯科技(深圳)有限公司 一种图片筛选方法、装置及电子设备
CN110414522A (zh) * 2019-07-08 2019-11-05 深兰科技(上海)有限公司 一种字符识别方法及装置
CN110443159A (zh) * 2019-07-17 2019-11-12 新华三大数据技术有限公司 数字识别方法、装置、电子设备及存储介质
CN111144066A (zh) * 2019-12-27 2020-05-12 北大方正集团有限公司 字库字面的调整方法、装置、设备和存储介质
CN111274369A (zh) * 2020-01-09 2020-06-12 广东小天才科技有限公司 一种英文单词的识别方法及装置
CN111275039A (zh) * 2020-01-17 2020-06-12 深圳信息职业技术学院 水尺字符定位方法、装置、计算设备及存储介质
CN111275039B (zh) * 2020-01-17 2023-05-16 深圳信息职业技术学院 水尺字符定位方法、装置、计算设备及存储介质
CN111414959A (zh) * 2020-03-18 2020-07-14 南京星火技术有限公司 图像识别方法、装置、计算机可读介质和电子设备
CN111414959B (zh) * 2020-03-18 2024-02-02 南京星火技术有限公司 图像识别方法、装置、计算机可读介质和电子设备
US20220036112A1 (en) * 2020-03-31 2022-02-03 Boe Technology Group Co., Ltd. Word recognition method, apparatus and storage medium
CN113748429A (zh) * 2020-03-31 2021-12-03 京东方科技集团股份有限公司 单词识别方法、设备及存储介质
US11651604B2 (en) 2020-03-31 2023-05-16 Boe Technology Group Co., Ltd. Word recognition method, apparatus and storage medium
WO2021196013A1 (zh) * 2020-03-31 2021-10-07 京东方科技集团股份有限公司 单词识别方法、设备及存储介质
CN111738269A (zh) * 2020-08-25 2020-10-02 北京易真学思教育科技有限公司 模型训练方法、图像处理方法及装置、设备、存储介质
CN112883956A (zh) * 2021-03-22 2021-06-01 中国工商银行股份有限公司 文本字符的识别方法、装置和服务器
CN113176830A (zh) * 2021-04-30 2021-07-27 北京百度网讯科技有限公司 识别模型训练、识别方法、装置、电子设备及存储介质
CN113647920A (zh) * 2021-10-21 2021-11-16 青岛美迪康数字工程有限公司 读取监护设备中生命体征数据的方法及装置

Similar Documents

Publication Publication Date Title
CN107516096A (zh) 一种字符识别方法及装置
Rahman et al. A new benchmark on american sign language recognition using convolutional neural network
CN107437096B (zh) 基于参数高效的深度残差网络模型的图像分类方法
CN111414906B (zh) 纸质票据图片的数据合成与文本识别方法
CN107247949B (zh) 基于深度学习的人脸识别方法、装置和电子设备
Zhuo et al. Self-adversarial training incorporating forgery attention for image forgery localization
US10083171B1 (en) Natural language processing using a CNN based integrated circuit
CN104965819B (zh) 一种基于句法词向量的生物医学事件触发词识别方法
US10896357B1 (en) Automatic key/value pair extraction from document images using deep learning
CN110321755A (zh) 一种识别方法及装置
CN113822209B (zh) 高光谱图像识别方法、装置、电子设备及可读存储介质
CN108364023A (zh) 基于注意力模型的图像识别方法和系统
CN107798243A (zh) 终端应用的检测方法和装置
CN111275784B (zh) 生成图像的方法和装置
CN108170649A (zh) 一种基于dcgan深度网络的汉字字库生成方法及装置
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
US10417342B1 (en) Deep learning device for local processing classical chinese poetry and verse
CN107491729B (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
US10936938B2 (en) Method for visualizing neural network models
KR102403330B1 (ko) 텍스트 데이터를 표현하는 가상 핑거프린트를 생성 및 활용하기 위한 기법
CN109784159A (zh) 场景图像的处理方法、装置及系统
CN110188762A (zh) 中英文混合商户门店名称识别方法、系统、设备及介质
CN110399760A (zh) 一种批量二维码定位方法、装置、电子设备及存储介质
US10296817B1 (en) Apparatus for recognition of handwritten Chinese characters
CN109597987A (zh) 一种文本还原方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20171226