CN107239786A - 一种字符识别方法和装置 - Google Patents

一种字符识别方法和装置 Download PDF

Info

Publication number
CN107239786A
CN107239786A CN201610188113.8A CN201610188113A CN107239786A CN 107239786 A CN107239786 A CN 107239786A CN 201610188113 A CN201610188113 A CN 201610188113A CN 107239786 A CN107239786 A CN 107239786A
Authority
CN
China
Prior art keywords
grader
character
image data
probability
computation layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610188113.8A
Other languages
English (en)
Other versions
CN107239786B (zh
Inventor
毛旭东
施兴
褚崴
程孟力
周文猛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610188113.8A priority Critical patent/CN107239786B/zh
Priority to TW106105607A priority patent/TWI766855B/zh
Priority to EP17773076.9A priority patent/EP3422256B1/en
Priority to PCT/CN2017/077254 priority patent/WO2017167046A1/zh
Publication of CN107239786A publication Critical patent/CN107239786A/zh
Priority to US16/144,219 priority patent/US10872274B2/en
Application granted granted Critical
Publication of CN107239786B publication Critical patent/CN107239786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • G06F18/2148Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/2163Partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/147Determination of region of interest
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种字符识别方法和装置,涉及图像识别技术领域。所述方法包括:获取图片数据;利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器;将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;根据置信度,输出字符的识别结果。从而降低了计算时间,提高了字符识别的效率。

Description

一种字符识别方法和装置
技术领域
本申请涉及图像识别技术领域,特别是涉及一种字符识别方法和一种字符识别装置。
背景技术
近年来随着计算机技术和数字图像处理技术的飞速发展,图片识别技术尤其是对于图片中的数字、字母、特殊符号等字符进行识别的技术越来越多的在各个方面都有着较为广泛的应用需求。
对于识别图片中的字符,目前存在的识别过程是:
1、检测到图片中字符的位置;
2、切分成包含单个字符的图片数据;
3、使用字符分类器识别各个图片数据。
其中,对于字符分类器,目前实现的方案主要包括以下两种:1)首先提取图片的特征,比如HOG(Histogram of Oriented Gradient,方向梯度直方图)特征,然后使用SVM(Support Vector Machine,支持向量机)分类器、神经网络分类器等训练字符识别模型;2)利用卷积神经网络(ConvolutionalNeural Networks,CNN),训练字符识别模型。然后利用训练好的字符识别模型对输入的图片数据进行字符识别。
但是在实际应用过程中,例如在图片比较模糊或者图片中包含的字符比较多的情况下,可能会导致检测到的字符位置不够准确,其中会存在一些噪声,例如不是字符的斑点等被检测为字符,进而造成切分成的图片数据中存在一些包含噪声的图片数据,所以在利用分类器识别各个图片数据之后,需要从中筛选出不是噪声的输出结果。以身份证识别为例,如图1A,其是从一张身份证图片的身份证号码区域切分得到的单字图。如图1A,在图片本身比较模糊的时候,定位号码行会不是很准确,头部或者尾部会多出来一些噪声,造成切单字的时候,会切出来前边的噪声,导致切出来的单字大于18个,需要选取18个数字。
针对上述的问题,已有的技术方案是增加一个识别“是不是字符”的CNN分类器。利用这个分类器,先排除不是数字的图片数据,然后再利用“是何种字符”的字符分类器识别剩下的图片数据,从剩下的图片数据中识别具体的字符。但是该技术方案存在一定的缺点,如下:
首先,增加一个分类器,其是先后进行计算,意味着同时增加了计算时间,影响运行效率;
其次,在实际操作中,如果增加的用以识别“是不是数字”的CNN分类器的计算结果出现错误,则不管后续的字符识别模型是否会出现问题,整个识别过程都会不可避免地发生错误,降低了字符识别的准确性。
发明内容
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种字符识别方法和相应的一种字符识别装置。
为了解决上述问题,本申请公开了一种字符识别方法,其特征在于,包括:
获取图片数据;
利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器;
将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;
将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;
根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;
根据置信度,输出字符的识别结果。
优选地,还包括:
利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层;
固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
优选地,所述第一分类器和第二分类器共享的计算层包括:
卷积层、或者卷积层和至少一层全连接层。
优选地,所述字符为数字。
优选地,所述获取图片数据的步骤,包括:
从身份证明的图片的号码区域,切分各个图片数据。
优选地,所述根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度的步骤包括:
将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
优选地,所述根据置信度,输出字符的识别结果的步骤,包括:
从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
本申请还公开了一种字符识别装置,其特征在于,包括:
图片获取模块,适于获取图片数据;
第一结果计算模块,适于利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器;
第一概率计算模块,适于将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;
第二概率计算模块,适于将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;
置信度计算模块,适于根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;
输出模块,适于根据置信度,输出字符的识别结果。
优选地,还包括:
第一分类器训练模块,适于利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层;
第二分类器训练模块,适于固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
优选地,所述第一分类器和第二分类器共享的计算层包括:
卷积层、或者卷积层和至少一层全连接层。
优选地,所述字符为数字。
优选地,所述图片获取模块,包括:
图片切分子模块,适于从身份证明的图片的号码区域,切分各个图片数据。
优选地,所述置信度计算模块,包括:
置信度计算子模块,适于将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
优选地,所述输出模块,包括:
输出子模块,适于从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
本申请实施例包括以下优点:
本申请实施例,在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。
其中,第二分类器时与第一分类器共享一部分计算层的,对于第二分类器与第一分类器共享的计算层,其计算过程以及计算结果也是共享的,所以相对于背景技术在字符分类器之前增加一个完整的“是不是字符”分类器,然后按序对图片进行计算的过程,本申请相对增加的计算量比较少,降低了计算时间,相对于背景技术提高了字符识别的效率。
另外,第二分类器与第一分类器并不是前后顺序使用,而是将两个分类器分别得到的概率值相乘得到一个置信度,然后根据置信度值输出相应的识别结果,相对于背景技术提高了字符识别的准确率,不会因为“是不是字符”分类器出现问题,而对整个识别过程产生太大的影响。
附图说明
图1是本申请的一种字符识别方法实施例的步骤流程图;
图1A是本申请的一种身份证号码示意图;
图1B是本申请的一种第一分类器和第二分类器的示意图;
图2本申请的一种字符识别方法实施例的步骤流程图;
图3是本申请的一种字符识别装置实施例的结构框图;以及
图4是本申请的一种字符识别装置实施例的结构框图。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
本申请实施例的核心构思之一在于,在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。本申请使从图片数据中识别具体字符的第一分类器和识别图片数据是否为字符图片的分类器的第二分类器可以共享部分计算层数据,从而在计算时可以同时对图片数据,并且计算过程存在重合,降低计算量,提高计算准确度,并且通过两个分类器计算结果一起对图片进行识别,提高准确率,降低第二分类器出现问题对整个识别过程的影响。
实施例一
参照图1,示出了本申请的一种字符识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤110,获取图片数据。
本申请介绍的是一种针对图片的字符识别方法,首先需要获取所要识别的图片数据。
图片是指由图形、图像等构成的平面媒体。本申请所述的图片数据是数字图片,数字图片常用的存储格式很多,例如BMP(Bitmap,标准图像文件格式)、TIFF(Tagged Image File Format,位图图像格式)、JPEG(JointPhotographic Experts Group,联合图像专家小组)、GIF(Graphics InterchangeFormat,图像互换格式)、PSD(Photoshop专用格式)、PDF(Portable DocumentFormat,可移植文件格式)等格式。但是本申请对于具体的数字图片的存储格式不加以限定。
在本申请实施例中,还可以对步骤110获取的图片数据进行预处理,比如将上述图片数据进行灰度化,那么可以将彩色的图片数据变成灰度的图片数据,从而可以降低计算量。
步骤120,利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器。
为了降低识别错误的可能性,本申请利用两个分类器完成对图片数据的识别,其中第一分类器用以从图片数据中识别具体字符,第二分类器用以识别图片数据是否为字符图片。同时为了降低识别的时间成本,提高识别的效率以及准确率所以第一分类器和第二分类器共用一部分计算层。
在本申请实施例中,所述具体字符比如0~9的阿拉伯数字,又比如希腊字符α、β、γ等字符,也可以为其他字符,具体可以根据实际需求设定。相应的模型也可以根据相应字符的相应确定。
第一分类器和第二分类器都可以采用卷积神经网络(ConvolutionalNeural Networks,CNN)分类模型。卷积神经网络分类模型包括至少一个卷积层、至少一个全连接层、以及一个Softmax层。如图1B为一个第一分类器和第二分类器的示意图。其中,卷积层a、卷积层b、全连接层c、全连接层d、Softmax层以及数字分类器构成了第一分类器,而卷积层a、卷积层b、全连接层c、全连接层e、Softmax层以及是不是数字分类器构成了第二分类器。可见,此时第一分类器和第二分类器共享的计算层为卷积层a、卷积层b以及全连接层c,第一分类器和第二分类器不共享的是一个全连接层和一个Softmax层。在图1B中,第一分类器和第二分类器都包含两个卷积层、两个全连接层以及一个Softmax层。但是,在实际应用中,可以根据需求灵活设定第一分类器和第二分类器所包含的卷积层以及全连接层的具体数量,对此本申请实施例不加以限定。
在本申请实施例中,可以先利用相应字符的图片数据样本,训练第一分类器。比如,利用0~9的数字图片样本,训练“是何种数字”的第一分类器。训练第一分类器时,实际上是训练该分类器的各个计算层的参数值。那么本申请实施例在训练了第一分类器后,可以固定前面部分计算层的参数,比如固定所有卷积层的参数,然后利用不是数字的图片数据样本和是数字的图片数据样本,在固定了卷积层的参数值的情况下,训练后续计算层的参数值。如此第二分类器与第一分类器则共享了参数值相同的计算层。
在本申请实施例中,最优的情况是共享卷积层,和除最后一层全连接层之前的全连接层。如此可以降低计算量,也可以提高准确度。
其中,卷积层的计算过程如下:
假设输入的图片数据的维度为C×N×N,卷积层的卷积核(kernel)的大小是m×m。其中,C表示图片数据的R(Red,红色)、G(Green、绿色)、B(Blue、蓝色)三通道,N×N的前后两个N分别表示图片数据在横向方向上的像素大小与纵向方向上的像素大小,根据输入图像数据的不同,前后两个N的值可以不同,也可以相同,对此本发明实施例不加以限定。对于卷积核的大小m×m,前后两个m的值也可以相同或者不同,对此本发明实施例也不加以限定。需要说明的是,两个m中的较大值应该小于两个N中的较小值。则经过卷积层后,输出值为:
其中,k,i,j表示输出值的坐标,k对应于图片数据的R、G、B三通道,i对应于图片数据在横向方向上的像素点位置,j对应于图片数据在纵向方向上的像素位置。w是卷积层的参数值,x是输入值,y是输出值。在本申请实施例中,w是已知的参数,可以通过预先的对卷积层训练获得。
在本申请实施例中,对于每个卷积层,可以有多个卷积核,例如卷积核的个数可以与输入图片数据除了在横向方向上像素大小以及在纵向方向上的像素大小之外的维度一致,例如前述图片数据的三维矩阵C×N×N中的C,因为C代表图片数据R、G、B三通道,所以此时卷积层可以有3个如前述的m×m的卷积核,则此时由该卷积层的卷积核构成的3×m×m的三维矩阵,即为该卷基层的卷积矩阵。在具体运算过程中,每个卷积核m×m与输入图片数据的三维矩阵C×N×N进行卷积,得到一个二维矩阵。例如:
第一个卷积核m×m与C为R通道时的图片数据卷积,得到一个二维矩阵;
第二个卷积核m×m与C为G通道时的图片数据卷积,得到一个二维矩阵;
第三个卷积核m×m与C为B通道时的图片数据卷积,得到一个二维矩阵;
将三个卷积核卷积得出的三个二维矩阵构成一个三维的矩阵,这个三维的矩阵就是公式(1)所示的卷积层的输出结果。
全连接层的计算公式如下:
假设输入数据的维度为N,则经过全连接层后,输出值为:
其中,σ(*)为sigmoid函数,w为全连接层的参数。
Softmax层的计算公式如下:
其中,x为输入值,j表示每一个类别,y表示类别标签,θ为Softmax层的参数,e为常量。以数字为例y的类别包括0,1,2……9。那么该公式可以计算数字图片数据对应0、1、2……9这9个数字的概率。
由上述分析以及图1B知,在将获取的图片数据输入之后,第一分类器和第一分类器共享的计算层的计算过程是一致的,因此在经过第一分类器和第一分类器共享的计算层之后,获取的第一结果也是一致的,而后,对于第一分类器和第一分类器不共享的计算层,如图1B中的全连接层d和全连接层e,是将第一结果分别作为第一分类器和第一分类器不共享的计算层的输入,此时,第一分类器和第一分类器不共享的计算层的计算过程不相同。
所以在本申请实施例中,先利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果。
在本申请另一个优选的实施例中,在步骤120之前,还包括:
步骤S11,利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层。
因为第一分类器和第二分类器中的参数可能为未知的,或者是为了进一步提高两者的准确度,在本申请实施例中,在利用第一分类器以及第二分类器分别执行计算过程之前,需要先训练第一分类器以及第二分类器中的参数。
因为第一分类器和第二分类器最终计算的概率本质上是不同的,所以对于第一分类器的训练不需要考虑图片数据不是字符的情况,所以在本申请实施例中,可以首先利用字符图片样本训练第一分类器的各计算层的参数值。其中,第一分类器包括前N层计算层和后M层计算层,其前N层计算层是与第二分类器共享的计算层,后M层计算层则是不与第二分类器共享的计算层。
在本申请实施例中,可以利用至少一个字符图片样本训练第一分类器,其中的字符图片样本是指已经明确识别出字符的字符图片样本,字符图片样本包括的字符种类应该大于设定的第一分类器和第二分类器可识别的字符种类。所以可知,对应于字符图片样本,其识别为自身对应的字符的概率为1,为其他字符的概率都为0。此时,可以将字符图片样本作为第一分类器的输入,将字符图片样本的概率为0的分类以及概率为1的分类作为理想输出,对第一分类器的参数进行训练。
训练过程主要包括四步,这四步被分为两个阶段:
第一阶段,向前传播阶段:
(1)、选择一个字符图片样本,输入第一分类器;
(2)、计算相应的实际输出;在此阶段,第一分类器会随机生成初始参数,字符图片数据从输入层经过逐级的变换,传送到输出层。这个过程也是第一分类器在完成训练后正常执行时执行的过程。
第二阶段,向后传播阶段:
(1)、计算实际输出与相应的理想输出的差;
(2)、按极小化误差的方法调整参数。
这两个阶段的工作一般应受到精度要求的控制,精度要求可以根据需求灵活设定,对此本申请不加以限定。
对于第一分类器的训练,实际上是训练各个卷积层对应的公式(1)中的参数w,各全连接层对应的公式(2)中的参数w,以及Softmax层中的参数θ。其中,不同的卷积层的公式(1)的w不同,不同的全连接层的公式(2)的w不同.
步骤S12,固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
因为第二分类器的前N层计算层是与第一分类器的前N层计算层共享的,所以在确定了第一分类器的前N层计算层的参数之后,那么此时相当于第二分类器的前N层计算层的参数也一样确定了,可以只训练第二分类器的后L层的参数值,其中L与M可以相同,也可以不同,对此本申请不加以限定。
因为第二分类器时计算输入图片数据为字符图片的概率,所以在对其训练的过程还需要考虑非字符图片的情况,所以,在申请实施例中,可以利用至少一个非字符图片样本和至少一个字符图片样本训练第二分类器的后L层计算层的参数值。
对于非字符图片样本,其是字符图片的概率为0,不是字符图片的概率为1;而对于字符图片样本,其是字符图片的概率为1,不是字符图片的概率为0。此时,可以将各字符图片样本作为第二分类器的输入,将概率为1作为理想输出;将各非字符图片样本作为第二分类器的输入,将概率为0作为理想输出;对第二分类器的参数进行训练。
具体的训练过程,与步骤S11第一分类器的训练过程类似,同样主要包括四步,这四步被分为两个阶段:
第一阶段,向前传播阶段:
(1)、选择一个字符图片样本或者非字符图片样本,输入第一分类器;
(2)、计算相应的实际输出;在此阶段,第一分类器会随机生成初始参数,字符图片数据或者非字符图片数据从输入层经过逐级的变换,传送到输出层。这个过程也是第二分类器在完成训练后正常执行时执行的过程。
第二阶段,向后传播阶段:
(1)、计算实际输出与相应的理想输出的差;
(2)、按极小化误差的方法调整参数。
这两个阶段的工作一般也应受到精度要求的控制,第二分类器器的精度要求同样可以根据需求灵活设定,对此本申请不加以限定。
需要说明的是,在本申请的另一优选地实施例中,也可以先利用非字符图片样本和字符图片样本训练第二分类器的前N层计算层和后L层计算层的参数值,然后固定第一分类器的前N层计算层的参数为第二分类器的前N层计算层的参数,并利用字符图片样本训练第一分类器的后M层计算层的参数值。
对于第二分类器的训练,如果与第一分类器共享卷积层,则其各卷积层的公式(1)的参数由步骤S11确定;然后实际上利用前述(字符图片数据样本+非字符图片数据样本)训练各全连接层对应的公式(2)中的参数w,以及Softmax层中的参数θ。
如果如果与第一分类器共享卷积层+部分全连接层,当然共享的全连接层是按照参数的输入顺序共享,即共享排序靠前的全连接层,那么其各卷积层的公式(1)的参数由步骤S11确定,其共享部分的全连接层的公式(2)中的参数w也由步骤S11确定。然后利用前述(字符图片数据样本+非字符图片数据样本)训练剩余的未共享的全连接层对应的公式(2)中的参数w,以及Softmax层中的参数θ。
步骤130,将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率。
第一分类器是用以从图片数据中识别具体字符的分类器,将经步骤120得到的第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,即可以得到图片数据可能为各字符的第一概率。例如将第一结果作为输入值带入图1B所示的第一分类器中的全连接层d以及Softmax层1组成的整体,即可以得到对应各字符的第一概率。
其中,图片数据对应的字符可以为0到9之间的阿拉伯数字,也可以为大写字符A到Z之间以及小写字母a到z之间的52个英文字符,或者是标点符号、特殊符号、汉字、罗马字符等等在图片数据中可能出现的字符类型中一种或多种字符。在本申请实施例中,所对应的具体字符种类可以根据需求设定,对此本发明实施例中不加以限定。
在Softmax层,如果已经设定可能的字符种类,则利用Softmax层的分类算法,即可以算出输入的图片数据可能为各个字符的概率,即为其对应各字符的第一概率。
步骤140,将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率。
第二分类器是用以识别图片数据是否为字符图片的分类器,将经步骤120得到的第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,即可以得到图片数据为字符图片的第二概率。例如将第一结果作为输入值带入图1B所示的第二分类器中的全连接层e以及Softmax层2组成的整体,即可以得到对应各字符的第二概率。
第二分类器得到的第二概率是图片数据为字符图片的概率,其中字符图片所对应的字符同样可能为步骤130所述的各种字符类型,可以根据需求设定,但是需要说明的是,第一分类器对应的字符种类与第二分类器对应的字符种类可以是一致的,或者第二分类器对应的字符种类包含第一分类器对应的字符种类,对此本发明实施例不加以限定。但是相对而言,对于第一分类器对应的字符种类与第二分类器对应的字符种类一致的情况,最终识别字符的效率以及准确度会更高。对于第二分类器而言,字符图片是指包含设定的字符类型的图片,计算图片数据为字符图片的概率是指计算图片数据为包含设定的字符类型的图片的概率,得到的结果即为第二概率。
第二分类器也是利用其自身的Softmax层计算第二概率,如果已经设定可能的字符种类,则利用Softmax层的分类算法,即可以算出输入的图片数据可能为字符图片的概率,即为其对应各字符的第一概率。
需要说明的是,因为第一分类器和第二分类器计算得到的第一概率和第二概率的本质不相同,所以第一分类器和第二分类器除了共享的计算层之外剩余的计算层,尤其是Softmax层的参数以及结构并不一定相同。
步骤150,根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度。
如前述,第一概率是指图片数据可能为各个字符的概率,而第二概率是指图片数据可能为字符图片的概率,可知,对于一个图片数据而言,其第一概率的个数是与设定的字符种类相对应的,第一概率的个数等同于字符种类的个数,至少为一个,而对应输入一个图片数据,得到的第二概率只能为一个。此时,根据图像数据的第一概率和第二概率,可以计算该图片数据可以识别为各个字符的置信度。例如,可以通过分别将图像数据对应于各个字符的第一概率与该图片数据的第二概率相乘,得到该图片数据识别为各个字符的置信度。
例如若要识别一个图片数据是否为0到9之间的阿拉伯数字,则经过第一分类器可以得到十个第一概率,分别对应于该图片数据为0到9之间的阿拉伯数字的概率,例如第一概率p0是指该图片数据为字符0的概率,第一概率p1是指该图片数据为字符1的概率,第一概率p9是指该图片数据为字符9的概率,等等。而经过第二分类器只能得到一个第二概率,即为该图片数据满足设定的条件,例如为阿拉伯数字的概率s。此时,将p0与s相乘,得到的即为该图片数据识别为字符0的置信度,而将p9与s相乘,得到的即为该图片数据识别为字符9的置信度。
步骤160,根据置信度,输出字符的识别结果。
在本申请实施例中,可以根据计算出来的图片数据识别为各个字符的置信度,输出其中对应置信度最高的字符作为识别结果输出。
例如,步骤150中所述的识别一个图片数据是否为0到9之间的阿拉伯数字,若最终计算得到的对应各个字符的置信度中,p9与s相乘得到的置信度最大,则可以将字符9作为识别结果输出。
在本申请实施例中,在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。
其中,第二分类器时与第一分类器共享一部分计算层的,对于第二分类器与第一分类器共享的计算层,其计算过程以及计算结果也是共享的,所以相对于背景技术在字符分类器之前增加一个完整的“是不是字符”分类器,然后按序对图片进行计算的过程,本申请相对增加的计算量比较少,降低了计算时间,相对于背景技术提高了字符识别的效率。
另外,第二分类器与第一分类器并不是前后顺序使用,而是将两个分类器分别得到的概率值相乘得到一个置信度,然后根据置信度值输出相应的识别结果,相对于背景技术提高了字符识别的准确率,不会因为“是不是字符”分类器出现问题,而对整个识别过程产生太大的影响。
实施例二
参照图2,示出了本申请的一种字符识别方法实施例的步骤流程图,具体可以包括如下步骤:
步骤210,从身份证明的图片的号码区域,切分各个图片数据。
在本申请实施例中,是对身份证明的图片进行号码识别,因为身份证明的图片中可能包含多个号码,例如身份证号码,所以为了识别的方便,首先需要从身份证明的图片的号码区域,切分各个图片数据,如图1A,切分得到多个图片数据。例如将身份证号码所在的区域按序切分成只包含一位号码的图片数据,对于具体的切分方法,属于本领域的公知技术,对此本申请实施例不加以赘述。
步骤220,利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器。
在本申请的另一个优选的实施例中,所述第一分类器和第二分类器共享的计算层包括:卷积层、或者卷积层和至少一层全连接层。
在本申请的另一个优选的实施例中,所述字符为数字。
此时,第一分类器是计算输入图片数据分别为0到9之间任一数字的概率,第二分类器是计算输入图片数据可识别为数字的概率。
步骤230,将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率。
步骤240,将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率。
步骤250,将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
其中最大的第一概率即为输入图片数据最可能为的数字对应的第一概率,将最大的第一概率与第二概率相乘,即可以得到输入的图片数据为最大的第一概率对应的数字的置信度。
步骤260,从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
由于对切分得到的各个图片都有对应数字0~9概率,而图1B切分的图片按身份证的撰写习惯,从左端至右端切分的排列的多个图片。那么本申请则确定各张图片对应0~9中最大的概率,然后从排列好的图片中以每张图片最大的概率选择概率最靠前的18张图片,然后将相应概率数字图片的排序组合,即得到身份证号码。
当然,在本申请实施例中,图片的排序在步骤210切图时,可以对图片进行标注以记录。
例如,对于图1A所示的身份证号码进行字符识别,首先将其切分为多个字符数据,按照撰写习惯,可以从左端到右端对其进行切分成互不相连的22个图片数据,依次分别为a1到a22,然后利用第一分类器和第二分类器,计算各图片数据对应最大的概率数字的置信度,并按照置信度从高到低的顺序选择18个图片数据及18个图片数据对应最大概率的数字,假设选择出的图片数据按该图片中各数字的最大的照置信度从高到低的顺序分别为:a5:(0.95,2)、a6:(0.94,0)、a12:(0.93,8)、a15:(0.92,9)、a11:(0.92,9)、a13:(0.90,9)、a16:(0.90,2)、a4:(0.89,4)、a10(0.89,1)、a14:(0.88,0),a7:(0.87,9)、a17:(0.86,6)、a8:(0.85,2)、a18:(0.84,5)、a9:(0.84,1)、a19:(0.83,1),a20:(0.81,3)、a21:(0.80,8),a2(0.1,8),a1(0.1,9),a22(0.09,0),a3(0.09,0)但是在输出的过程中,仍然是按照最初切分时候的先后顺序,输出顺序为:a4、a5、a6、a7、a8、a9、a10、a11、a12、a13、a14、a15、a16、a17、a18、a19、a20、a21,则输出的数字序列为420921198909265138
对于身份证明的图片的号码区域,可以切分为多个图片数据,依次分别利用第一分类器和第二分类器,执行上述的步骤220-250,计算各个图片数据置信度,并分别按序输出各第一概率对应的数字,从而实现了对身份证明的号码,例如身份证号码的数字识别。
在本申请实施例中,同样在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。进而相对于背景技术提高了字符识别的效率以及准确率。
另外,本申请在对第一分类器和第二分类器进行训练的过程中,可以先训练其中一个分类器,然后将第一分类器和第二分类器共享的计算层固定,继续训练另一个分类器未被训练的计算层,相对于背景技术,降低了训练的工作量,也提高了对第一分类器和第二分类器训练的效率。进一步提高了字符识别的效率以及准确率。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请实施例并不受所描述的动作顺序的限制,因为依据本申请实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本申请实施例所必须的。
实施例三
参照图3,示出了本申请的一种字符识别装置实施例的结构框图,具体可以包括如下模块:
图片获取模块310,适于获取图片数据。
第一结果计算模块320,适于利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器。
第一概率计算模块330,适于将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率。
第二概率计算模块340,适于将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率。
置信度计算模块350,适于根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度。
输出模块360,适于根据置信度,输出字符的识别结果。
在本申请的又一个优选地实施例中,在第一结果计算模块320之前,还包括:
第一分类器训练模块370,适于利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层。
在本申请的又一个优选地实施例中,在第二概率计算模块340之前,还包括:
第二分类器训练模块380,适于固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
在本申请实施例中,在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。
其中,第二分类器时与第一分类器共享一部分计算层的,对于第二分类器与第一分类器共享的计算层,其计算过程以及计算结果也是共享的,所以相对于背景技术增加一个完整的分类器,本申请相对增加的计算量比较少,相对于背景技术提高了字符识别的效率。
另外,第二分类器与第一分类器并不是前后顺序使用,而是将两个分类器分别得到的概率值相乘得到一个置信度,然后根据置信度值输出相应的识别结果,相对于背景技术提高了字符识别的准确率。
实施例四
参照图4,示出了本申请的一种字符识别装置实施例的结构框图,具体可以包括如下模块:
图片获取模块410,适于获取图片数据。具体包括:
图片切分子模块411,适于从身份证明的图片的号码区域,切分各个图片数据。
第一结果计算模块420,适于利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器。
第一概率计算模块430,适于将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率。
第二概率计算模块440,适于将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率。
置信度计算模块450,适于根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度。具体包括:
置信度计算子模块451,适于将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
输出模块460,适于根据置信度,输出字符的识别结果。具体包括:
输出子模块461,适于从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
在本申请实施例中,同样在获取图片数据之后利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;然后分别将第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;进而根据第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;最后根据置信度,输出字符的识别结果。进而相对于背景技术提高了字符识别的效率以及准确率。
另外,本申请在对第一分类器和第二分类器进行训练的过程中,可以先训练其中一个分类器,然后将第一分类器和第二分类器共享的计算层固定,继续训练另一个分类器未被训练的计算层,相对于背景技术,降低了训练的工作量,也提高了对第一分类器和第二分类器训练的效率。进一步提高了字符识别的效率以及准确率。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
在一个典型的配置中,所述计算机设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、字符多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非持续性的电脑可读媒体(transitory media),如调制的数据信号和载波。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种字符识别方法和一种字符识别装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (14)

1.一种字符识别方法,其特征在于,包括:
获取图片数据;
利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器;
将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;
将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;
根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;
根据置信度,输出字符的识别结果。
2.根据权利要求1所述的方法,其特征在于,还包括:
利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层;
固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
3.根据权利要求1或2所述的方法,其特征在于,所述第一分类器和第二分类器共享的计算层包括:
卷积层、或者卷积层和至少一层全连接层。
4.根据权利要求1所述的方法,其特征在于,所述字符为数字。
5.根据权利要求4所述的方法,其特征在于,所述获取图片数据的步骤,包括:
从身份证明的图片的号码区域,切分各个图片数据。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度的步骤包括:
将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
7.根据权利要求6所述的方法,其特征在于,所述根据置信度,输出字符的识别结果的步骤,包括:
从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
8.一种字符识别装置,其特征在于,包括:
图片获取模块,适于获取图片数据;
第一结果计算模块,适于利用第一分类器和第二分类器共享的计算层对所述图片数据进行计算,得到第一结果;所述第一分类器为从图片数据中识别具体字符的分类器;所述第二分类器为识别图片数据是否为字符图片的分类器;
第一概率计算模块,适于将所述第一结果带入第一分类器中除共享的计算层之外剩余的计算层进行计算,得到对应各字符的第一概率;
第二概率计算模块,适于将所述第一结果带入第二分类器中除共享的计算层之外剩余的计算层进行计算,得到第二概率;
置信度计算模块,适于根据所述第一概率和第二概率,计算所述图片数据识别为各个字符的置信度;
输出模块,适于根据置信度,输出字符的识别结果。
9.根据权利要求8所述的装置,其特征在于,还包括:
第一分类器训练模块,适于利用字符图片样本训练第一分类器的各计算层的参数值;所述第一分类器包括前N层计算层和后M层计算层;
第二分类器训练模块,适于固定第二分类器的前N层计算层的参数为第一分类器的前N层计算层的参数,并利用非字符图片样本和字符图片样本训练第二分类器的后L层的参数值。
10.根据权利要求8或9所述的装置,其特征在于,所述第一分类器和第二分类器共享的计算层包括:
卷积层、或者卷积层和至少一层全连接层。
11.根据权利要求8所述的装置,其特征在于,所述字符为数字。
12.根据权利要求11所述的装置,其特征在于,所述图片获取模块,包括:
图片切分子模块,适于从身份证明的图片的号码区域,切分各个图片数据。
13.根据权利要求12所述的装置,其特征在于,所述置信度计算模块,包括:
置信度计算子模块,适于将最大的第一概率与第二概率相乘,得到所述图片数据为最大的第一概率对应的数字的置信度。
14.根据权利要求13所述的装置,其特征在于,所述输出模块,包括:
输出子模块,适于从各个图片数据中,选择排序靠前的符合所述身份证规定个数的图片所对应的数字,并按序输出。
CN201610188113.8A 2016-03-29 2016-03-29 一种字符识别方法和装置 Active CN107239786B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610188113.8A CN107239786B (zh) 2016-03-29 2016-03-29 一种字符识别方法和装置
TW106105607A TWI766855B (zh) 2016-03-29 2017-02-20 一種字符識別方法和裝置
EP17773076.9A EP3422256B1 (en) 2016-03-29 2017-03-20 Character recognition method and device
PCT/CN2017/077254 WO2017167046A1 (zh) 2016-03-29 2017-03-20 一种字符识别方法和装置
US16/144,219 US10872274B2 (en) 2016-03-29 2018-09-27 Character recognition method and device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610188113.8A CN107239786B (zh) 2016-03-29 2016-03-29 一种字符识别方法和装置

Publications (2)

Publication Number Publication Date
CN107239786A true CN107239786A (zh) 2017-10-10
CN107239786B CN107239786B (zh) 2022-01-11

Family

ID=59963457

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610188113.8A Active CN107239786B (zh) 2016-03-29 2016-03-29 一种字符识别方法和装置

Country Status (5)

Country Link
US (1) US10872274B2 (zh)
EP (1) EP3422256B1 (zh)
CN (1) CN107239786B (zh)
TW (1) TWI766855B (zh)
WO (1) WO2017167046A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110555462A (zh) * 2019-08-02 2019-12-10 深圳索信达数据技术有限公司 基于卷积神经网络的无固定多字符验证码识别方法
CN110765870A (zh) * 2019-09-18 2020-02-07 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
WO2020155484A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 基于支持向量机的文字识别方法、装置和计算机设备
CN112530086A (zh) * 2020-12-16 2021-03-19 合肥美的智能科技有限公司 自动售货柜及其商品sku计算方法、系统以及远程服务器
CN116343232A (zh) * 2023-04-03 2023-06-27 内蒙古师范大学 一种基于预分类的古籍数学符号识别方法

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107239786B (zh) * 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
CN111527528A (zh) * 2017-11-15 2020-08-11 天使游戏纸牌股份有限公司 识别系统
CN109145891B (zh) * 2018-06-27 2022-08-02 上海携程商务有限公司 客户端及其识别身份证的方法、识别身份证的系统
CN109376731A (zh) * 2018-08-24 2019-02-22 北京三快在线科技有限公司 一种文字识别方法和装置
US11003937B2 (en) * 2019-06-26 2021-05-11 Infrrd Inc System for extracting text from images
EP3800577A1 (en) * 2019-10-01 2021-04-07 Sensormatic Electronics, LLC Classification and re-identification using a neural network
CN110909734A (zh) * 2019-10-29 2020-03-24 福建两岸信息技术有限公司 一种文献文字检测和识别的方法
CN110827333B (zh) * 2019-10-31 2022-05-03 国网河北省电力有限公司电力科学研究院 一种继电保护的压板拼接识别方法、系统及介质
CN111428552B (zh) * 2019-12-31 2022-07-15 深圳数联天下智能科技有限公司 黑眼圈识别方法、装置、计算机设备和存储介质
CN111428553B (zh) * 2019-12-31 2022-07-15 深圳数联天下智能科技有限公司 人脸色素斑识别方法、装置、计算机设备和存储介质
CN111914825B (zh) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 文字识别方法、装置及电子设备
CN111738269B (zh) * 2020-08-25 2020-11-20 北京易真学思教育科技有限公司 模型训练方法、图像处理方法及装置、设备、存储介质
CN112861648B (zh) * 2021-01-19 2023-09-26 平安科技(深圳)有限公司 文字识别方法、装置、电子设备及存储介质
US11842429B2 (en) 2021-11-12 2023-12-12 Rockwell Collins, Inc. System and method for machine code subroutine creation and execution with indeterminate addresses
US11915389B2 (en) 2021-11-12 2024-02-27 Rockwell Collins, Inc. System and method for recreating image with repeating patterns of graphical image file to reduce storage space
US11748923B2 (en) 2021-11-12 2023-09-05 Rockwell Collins, Inc. System and method for providing more readable font characters in size adjusting avionics charts
US11954770B2 (en) 2021-11-12 2024-04-09 Rockwell Collins, Inc. System and method for recreating graphical image using character recognition to reduce storage space
US11887222B2 (en) 2021-11-12 2024-01-30 Rockwell Collins, Inc. Conversion of filled areas to run length encoded vectors
US12002369B2 (en) 2021-11-12 2024-06-04 Rockwell Collins, Inc. Graphical user interface (GUI) for selection and display of enroute charts in an avionics chart display system

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630367A (zh) * 2009-07-31 2010-01-20 北京科技大学 基于多分类器的手写体字符识别拒识方法
CN102375991A (zh) * 2010-08-24 2012-03-14 北京中星微电子有限公司 分类器训练方法和装置以及字符识别方法和装置
US20120224765A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated Text region detection system and method
US20130315478A1 (en) * 2010-09-21 2013-11-28 Adobe Systems Incorporated Classifying Blur State of Digital Image Pixels
CN103530600A (zh) * 2013-06-06 2014-01-22 东软集团股份有限公司 复杂光照下的车牌识别方法及系统
CN103971091A (zh) * 2014-04-03 2014-08-06 北京首都国际机场股份有限公司 飞机机号自动识别方法
CN103996057A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于多特征融合的实时手写体数字识别方法
CN105224939A (zh) * 2014-05-29 2016-01-06 小米科技有限责任公司 数字区域的识别方法和识别装置、移动终端

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0574937B1 (en) 1992-06-19 2000-08-16 United Parcel Service Of America, Inc. Method and apparatus for input classification using a neural network
EP0663644B1 (en) 1994-01-13 2002-09-18 STMicroelectronics S.r.l. Alphanumeric characters images recognizing system
US5745599A (en) 1994-01-19 1998-04-28 Nippon Telegraph And Telephone Corporation Character recognition method
US5577135A (en) 1994-03-01 1996-11-19 Apple Computer, Inc. Handwriting signal processing front-end for handwriting recognizers
US5542006A (en) 1994-06-21 1996-07-30 Eastman Kodak Company Neural network based character position detector for use in optical character recognition
US5912986A (en) * 1994-06-21 1999-06-15 Eastman Kodak Company Evidential confidence measure and rejection technique for use in a neural network based optical character recognition system
US6026177A (en) 1995-08-29 2000-02-15 The Hong Kong University Of Science & Technology Method for identifying a sequence of alphanumeric characters
US5835633A (en) * 1995-11-20 1998-11-10 International Business Machines Corporation Concurrent two-stage multi-network optical character recognition system
JPH09223195A (ja) 1996-02-06 1997-08-26 Hewlett Packard Co <Hp> 文字認識方法
WO2002037933A2 (en) 2000-11-08 2002-05-16 New York University System, process and software arrangement for recognizing handwritten characters
AUPR824401A0 (en) 2001-10-15 2001-11-08 Silverbrook Research Pty. Ltd. Methods and systems (npw002)
US7016529B2 (en) * 2002-03-15 2006-03-21 Microsoft Corporation System and method facilitating pattern recognition
SE0202446D0 (sv) 2002-08-16 2002-08-16 Decuma Ab Ideon Res Park Presenting recognised handwritten symbols
AU2004271639B2 (en) 2003-09-05 2010-09-23 Gannon Technologies Group Systems and methods for biometric identification using handwriting recognition
US20070065003A1 (en) 2005-09-21 2007-03-22 Lockheed Martin Corporation Real-time recognition of mixed source text
US7646913B2 (en) 2005-12-19 2010-01-12 Microsoft Corporation Allograph based writer adaptation for handwritten character recognition
US7724957B2 (en) 2006-07-31 2010-05-25 Microsoft Corporation Two tiered text recognition
CN100535931C (zh) * 2006-09-06 2009-09-02 中国科学院自动化研究所 一种多分辨率退化字符自适应识别系统及方法
CN101373519B (zh) * 2007-08-20 2011-01-19 富士通株式会社 字符识别装置和方法
CN104346622A (zh) * 2013-07-31 2015-02-11 富士通株式会社 卷积神经网络分类器及其分类方法和训练方法
CN105095889B (zh) * 2014-04-22 2018-12-07 阿里巴巴集团控股有限公司 特征提取、字符识别、引擎生成、信息确定方法及装置
US20150347860A1 (en) * 2014-05-30 2015-12-03 Apple Inc. Systems And Methods For Character Sequence Recognition With No Explicit Segmentation
US9858496B2 (en) * 2016-01-20 2018-01-02 Microsoft Technology Licensing, Llc Object detection and classification in images
CN107239786B (zh) * 2016-03-29 2022-01-11 阿里巴巴集团控股有限公司 一种字符识别方法和装置
US10818398B2 (en) * 2018-07-27 2020-10-27 University Of Miami System and method for AI-based eye condition determinations

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101630367A (zh) * 2009-07-31 2010-01-20 北京科技大学 基于多分类器的手写体字符识别拒识方法
CN102375991A (zh) * 2010-08-24 2012-03-14 北京中星微电子有限公司 分类器训练方法和装置以及字符识别方法和装置
US20130315478A1 (en) * 2010-09-21 2013-11-28 Adobe Systems Incorporated Classifying Blur State of Digital Image Pixels
US20120224765A1 (en) * 2011-03-04 2012-09-06 Qualcomm Incorporated Text region detection system and method
CN103530600A (zh) * 2013-06-06 2014-01-22 东软集团股份有限公司 复杂光照下的车牌识别方法及系统
CN103971091A (zh) * 2014-04-03 2014-08-06 北京首都国际机场股份有限公司 飞机机号自动识别方法
CN105224939A (zh) * 2014-05-29 2016-01-06 小米科技有限责任公司 数字区域的识别方法和识别装置、移动终端
CN103996057A (zh) * 2014-06-12 2014-08-20 武汉科技大学 基于多特征融合的实时手写体数字识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
PIERRE SERMANET等: "OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks", 《ARXIV》 *
SHAOQING REN等: "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks", 《ARXIV》 *
刘荣荣: "基于卷积神经网络的手写数字识别软件的设计与实现", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020155484A1 (zh) * 2019-01-31 2020-08-06 平安科技(深圳)有限公司 基于支持向量机的文字识别方法、装置和计算机设备
CN110555462A (zh) * 2019-08-02 2019-12-10 深圳索信达数据技术有限公司 基于卷积神经网络的无固定多字符验证码识别方法
CN110765870A (zh) * 2019-09-18 2020-02-07 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN110765870B (zh) * 2019-09-18 2021-01-12 北京三快在线科技有限公司 一种ocr识别结果的置信度确定方法、装置及电子设备
CN111027529A (zh) * 2019-12-04 2020-04-17 深圳市新国都金服技术有限公司 减少深度学习ocr的参数量和计算量的方法与计算机设备及存储介质
CN112530086A (zh) * 2020-12-16 2021-03-19 合肥美的智能科技有限公司 自动售货柜及其商品sku计算方法、系统以及远程服务器
CN116343232A (zh) * 2023-04-03 2023-06-27 内蒙古师范大学 一种基于预分类的古籍数学符号识别方法

Also Published As

Publication number Publication date
WO2017167046A1 (zh) 2017-10-05
US10872274B2 (en) 2020-12-22
EP3422256A1 (en) 2019-01-02
EP3422256A4 (en) 2019-10-09
EP3422256B1 (en) 2023-06-07
US20190026607A1 (en) 2019-01-24
TWI766855B (zh) 2022-06-11
TW201734890A (zh) 2017-10-01
CN107239786B (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN107239786A (zh) 一种字符识别方法和装置
US10540572B1 (en) Method for auto-labeling training images for use in deep learning network to analyze images with high precision, and auto-labeling device using the same
US11823443B2 (en) Segmenting objects by refining shape priors
CN102982349B (zh) 一种图像识别方法及装置
CN110070085A (zh) 车牌识别方法和装置
CN105825243A (zh) 证件图像检测方法及设备
CN102156871B (zh) 基于类别相关的码本和分类器投票策略的图像分类方法
CN110991513B (zh) 一种具有类人连续学习能力的图像目标识别系统及方法
CN107563280A (zh) 基于多模型的人脸识别方法和装置
CN111461213A (zh) 一种目标检测模型的训练方法、目标快速检测方法
CN106257495A (zh) 一种数字识别方法及装置
CN106886785A (zh) 一种基于多特征哈希学习的航拍图像快速匹配算法
CN114519819B (zh) 一种基于全局上下文感知的遥感图像目标检测方法
CN111739037B (zh) 一种针对室内场景rgb-d图像的语义分割方法
CN113743417A (zh) 语义分割方法和语义分割装置
CN111104539A (zh) 细粒度车辆图像检索方法、装置及设备
US20230401427A1 (en) Training neural network with budding ensemble architecture based on diversity loss
CN114550189A (zh) 票据识别方法、装置、设备、计算机存储介质和程序产品
CN111553361B (zh) 一种病理切片标签识别方法
US11494431B2 (en) Generating accurate and natural captions for figures
CN111062385A (zh) 一种用于图像文本信息检测的网络模型构建方法与系统
CN113033518B (zh) 图像检测方法、装置、电子设备及存储介质
CN116311003B (zh) 一种基于双通道加载机制的视频检测方法及系统
US20230376765A1 (en) Performing operation in neural network with storage pointer and sparsity map
CN114882449B (zh) 一种基于Car-Det网络模型的车辆检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant