CN100489885C - 图像识别方法及实现该方法的设备 - Google Patents
图像识别方法及实现该方法的设备 Download PDFInfo
- Publication number
- CN100489885C CN100489885C CNB028041275A CN02804127A CN100489885C CN 100489885 C CN100489885 C CN 100489885C CN B028041275 A CNB028041275 A CN B028041275A CN 02804127 A CN02804127 A CN 02804127A CN 100489885 C CN100489885 C CN 100489885C
- Authority
- CN
- China
- Prior art keywords
- image
- combination
- area
- rectangle
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
- Character Discrimination (AREA)
- Image Processing (AREA)
Abstract
本发明提供图像识别方法,该方法包括以各字符中至少一个是由多个元素组成的识别精度有效识别包含在原始图像中的诸如字母和数字字符之类的各种字符。在本方法中,提取原始图像中的元素得到第二图像,其中每个元素被矩形框包围。然后,以第二图像中的矩形框的组合准备一个组合图像。在计算包含在组合图像中的元素的特征量之后,该特征量输入到反向传播网络,该反向传播网络已经完成了包含在所述第一图像中的参考特征的学习,以便得到所述组合图像特征量与所述参考特征之间的一致度。从反向传播网络相对于所述第二图像中所述矩形框的不同组合得到的结果中,确定具有所述组合图像特征量与参考特征之间最高一致度的组合图像,并将其作为识别数据输出。
Description
技术领域
本发明涉及一种图像识别的方法及实现该方法的设备,该方法以甚至在不清楚的图像和含有噪声的情况下有效识别诸如字母、数字字符和符号之类的字符的识别精度下进行识别。
背景技术
一直以来,从目标图像中识别字母是通过将目标图像与存储器中的参考图像相比较来进行的。例如,日本专利申请No.8-212290中公开了一种从原始图像中识别字母的方法,包括如下步骤:将要进行识别的字母二进制化,然后对得到的二进制图像进行规范化处理,并将规范化的数据输入到神经网络。根据这种方法,甚至是从移动着的汽车号牌上,也能精确地识别字母和/或数字符号。
然而,在上述方法中,当原始图像中包括一些噪声和污点时,就不能得到精确的识别结果。尤其是,原始图像的品质较差时,例如,原始图像中包含这样的一些诸如数字字符的字符,每个字符都由多个元素组成的,和/或在背景中还有不期望的点环绕在字符的周围,如图1A所示,这时恐怕识别时间会显著增加,同时识别精度会下降。
发明内容
因此,本发明的目的是提供一种图像识别方法,该方法甚至在包含在原始图像中至少一个字符是由多个元素组成的情况下仍能有效识别包括在原始图像中的诸如字母、数字字符和符号之类的符号的能力。
本发明的图像识别方法包括如下步骤:
(I)取得第一图像,该第一图像包括由多个元素组成的一个字符;
(II)提取该第一图像中的多个元素以得到第二图像,在该第二图像中,每个元素被一个矩形内框紧密包围;
(III)由第二图像中的多个矩形内框的组合形成一个组合图像,所述多个矩形内框被矩形外框紧密包围;
(IV)计算组合图像的特征量,所述特征量为所述组合图像中所述矩形外框的面积、所述多个矩形内框之间的距离以及所述矩形外框的纵横比中的至少一个;
(V)将该特征量输入一个图像分析单元,该图像分析单元已经完成了对包含在所述第一图像中的参考特征的学习,并提供该组合图像中的特征量与该参考特征的一致度;并且
(VI)从相对于所述第二图像中多个矩形内框的不同组合,重复步骤(III)到(V)得到的结果中,确定具有所述组合图像特征量与参考特征之间最高一致度的组合图像,并将其作为识别数据输出。
在上述的图像识别方法中,当所述第一图像包括至少两个字符彼此相连时,最好执行下述预处理。该预处理包括如下步骤:
准备包括所述至少两个字符的二进制图像;
确定显示沿二进制图像的至少两个字符排列方向的分布强度的轮廓;
在轮廓上设置具有预定分布强度的阈值线;
从轮廓上去除该轮廓的第一区域,该第一区域的分布强度低于该阈值线,从而得到补偿图像,在该补偿图像中,该至少两个字符彼此分离开来;并且
将补偿图像作为的第一图像。
特别是,上述预处理过程最好包括下述步骤:
在从轮廓线上去除第一区域后,在第一区域内的轮廓的最小分布强度值的位置处,将第一区域分割成两个区域;并且
分别将该两个区域叠加到分布强度大于阈值线的位于第一区域两侧轮廓的一对第二区域上,获得第二图像。
另外,在上述的图像识别方法中,当所述第一图像包括由多个点组成的字符时,最好执行如下所述的预处理,该预处理包括如下步骤:
准备包括由各个点构成的字符的二进制图像;
沿水平方向扩展二进制图像中字符的每个点,从而得到补偿图像,其中,每个扩展后的点与一个相邻扩展后的点相连接;并且
将该补偿图像作为第一图像。
特别是,该预处理最好包括如下步骤:
准备包括由各个点构成的字符的二进制图像;
沿水平方向和垂直方向扩展该二进制图像中字符的每个点,从而得到补偿图像,其中,每个扩展后的点与一个相邻扩展后的点相连接;并且
将该补偿图像作为第一图像。
本发明的另外一个目的是提供一种能实现上述图像识别方法显著效果的图像识别设备。
本发明的图像识别设备包括:
一个图像拾取装置,用于取得第一图像;
一个图像元素分割单元,用于提取构成第一图像中的字符的多个元素来得到第二图像,其中每个所述元素被一个矩形内框包围;
一组合图像产生单元,用于以第二图像中的多个矩形内框的组合形成一个组合图像,所述多个矩形内框被矩形外框紧密包围;
一个特征量计算单元,用于确定组合图像的特征量,所述特征量为所述组合图像中所述矩形外框的面积、所述多个矩形内框之间的距离以及所述矩形外框的纵横比中的至少一个;
一个图像分析单元,该图像分析单元已经完成对包含在第一图像中的参考特征的学习,当所述特征量输入到图像分析单元时,用于提供组合图像特征量与参考特征之间的一致度,并且所述图像分析单元相对于第二图像中各个矩形内框的不同组合得到的结果,确定具有组合图像特征量与参考特征之间最高一致度的组合图像,并将其作为识别数据输出。
本发明的上述的和其它的目的、优点能够从下述参考附图对本发明具体实施例的解释中变得更清楚。
附图说明
图1A~图1D表示本发明第一实施例的图像识别方法的图像;
图2是图1B的虚线圈中矩形内框的分布示意图;
图3A和图3B是表示矩形外框的例子的示意图;
图4表示通过面积检测步骤(II)的第一组合图像的例子的图像;
图5是第一实施例图像识别方法第一阶段的流程图;
图6A和6B是表示第一实施例的图像识别方法第二阶段例子的示意图;
图7是图像识别方法第二阶段的流程图;
图8是第一实施例的图像识别方法的第三阶段的流程图;
图9是表示通过图像识别方法的第二阶段的第一组合图像例子的图像;
图10A和10B是示意表示第二组合图像的例子图像;
图11A到11F表示从第二组合图像准备输入到神经网络中的数据的示意图;
图12是表示本实施例图像识别方法识别结果的例子的图像;
图13A到13E是表示根据本发明第二实施例的在图像处理方法之前执行的预处理的图像;
图14A和14B是表示这种预处理的示意图;
图15是质量较差的原始图像;
图16A到16D是表示根据本发明第三实施例的在图像处理方法之前执行的预处理的图像;及
图17A到17D是表示根据本发明第四实施例的在图像处理方法之前执行预处理的图像。
具体实施方式
第一实施例
作为本发明图像识别方法的优选实施例,以下详细描述从如图1A所示的一副原始图像中高效精确地识别数字字符序列的方法,该图像可以通过图像拾取设备例如TV摄像机或数码照相机来获得。
例如,在图1A的原始图像中,由于数字字符“1”的中间部分已经不在,所以该数字字符“1”由上部元素和下部元素(11,12)组成。同样,数字字符“2”由四个元素(21、22、23、24)组成,并且还有位于数字字符“2”的上侧和下侧的作为噪声的不期望的点(25、26)。
在本实施例的图像识别方法中,包含在原始图像中的每个元素,即构成相应各数字字符(“1”,“2”…)每一个元素(11、12、21、22、…)和作为原始图像噪声的不期望的点(25、26…),被提取出来,然后将其以矩形内框30包围,从而得到如图1B和图2所示的第二图像。也就是说,在第二图像中,每个矩形内框30布置为分别包围各个元素或点。第二图像可以由一个框分布单元来生成,该框分布单元提取组成原始图像中各个字符的多个元素,并设置矩形内框30以便每一个矩形内框包围各自的元素。
接下来,从第二图像中自由选取矩形内框30的组合,根据该组合,框合成器产生第一组合图像100。例如,如图3A所示,由包括数字字符“1”的两个元素11,12的两个矩形内框30可以得到第一组合图像100。并且如图3B所示,由包括组成数字字符“2”的元素21~24和不期望的点25的五个矩形内框30可以得到另一第一组合图像100。这样,第一组合图像100被矩形外框40所限定,该外框包围多个矩形内框30。在第二图像中,X轴定义为数字字符排列的方向,Y轴定义为数字字符的高度方向。
接下来,计算第一组合图像100的矩形外框40的面积。例如,如图3A所示,矩形外框40的面积根据矩形外框左上角的坐标(X1,Y1)和右下角的坐标(X2,Y2)能很容易地计算出来。然后,将矩形外框40计算得到的面积与预先存储在反向传播网络(back propagation network)中的要求值,例如,存储在反向传播网络中的数字字符平均宽度的2倍进行比较。当该面积小于或等于该要求值时,图形识别方法进行下一步骤。另一方面,当该面积大于该要求值时,第一组合图像被删除,通过选择第二图像中的另一矩形内框30的组合来生成另一第一组合图像100。根据上述方式,检测该另一第一组合图像外框的面积。在本实施例中,这个步骤叫做面积检测步骤(I)。
在面积检测步骤(I)之后,计算第一组合图像中的矩形内框之间的距离。例如,如图3所示,这个距离d能够根据两个矩形内框30的左上角坐标(x1,y1),(x3,y3)容易地确定。然后,计算出的距离值与预先存储在反向传播网络中的要求值,例如,存储在反向传播网络中的数字字符平均间隔宽度的40%相比较。当距离值等于或小于该要求值时,图像识别方法进行下一步骤。相反,当距离值大于该要求值时,删除第一组合图像100,并同时选择第二图像中的另一个矩形内框的组合生成另一第一组合图像。该另一第一组合图像中矩形内框之间的距离同样根据上述方法进行检测。在本实施例中,这个步骤叫做距离检测步骤(I)。
在距离检测步骤(I)之后,第一组合图像100中矩形外框40的面积与预先存储在反向传播网络中的一要求值,例如存储在反向传播网络中的数字字符平均宽度的一半进行比较。当该面积等于或大于该要求值时,图像识别方法进行下一步骤。相反,当该面积小于该要求值时,第二图像中的另一矩形内框被选中,并被添加到第一组合图像中,以便产生面积增大的另一第一组合图像。该另一第一组合图像的矩形外框100的面积以上述方式进行检测。这样,通过重复上述过程直到上述条件被满足,如图3B所示,在一个矩形外框中能够包括多个矩形内框。在本实施例中,这个步骤叫做面积检测步骤(II)。
如图1C所示,通过面积检测步骤(II)产生的第一组合图像100作为可靠的候选图像存储在存储器中。图4表示出通过面积检测步骤(II)产生的第一组合图像100的例子。在该图中,尽管在第一组合图像100中包含多个元素和点,但是应当注意所有构成数字字符“3”的元素都包含在第一组合图像100中。然而,也有构成数字字符的所有元素并没有包含在第一组合图像中的情况。因此,如果这种无用的第一组合图像能够在本发明的图像识别方法的接下来的重要步骤之前被发现并被删除,就能够缩减第一组合图像的总数量从而可以更有效地进行图像识别。因此,本实施例图像识别方法的第二阶段是能够达到此目的即“数据缩减”的可选阶段。因此,如果必要,第二阶段可以省略。
在解释第二阶段之前,上述本实施例图像识别方法第一阶段可以归纳为图5所示的流程图。也就是,包围第二图像中的各个元素和点的每一个矩形内框30被依次选择作为组合的基本元素(步骤50)。另外,另一个要与组合基本元素进行组合的矩形内框被选中(步骤51),由此准备具有矩形外框40的第一组合图像,该矩形外框包围那些被选中的矩形内框30(步骤52)。
然后,计算第一组合图像100的矩形外框40的面积(步骤53),并且,依次进行面积检测步骤(I),距离检测步骤(I)和面积检测步骤(II)(步骤54-56)。当第一组合图像100在面积检测步骤(I)或距离检测步骤(I)中被判定为“不合格(NG)”时,它就被删除,同时选择要与组合基本元素的矩形内框进行组合的新的矩形内框(步骤51),从而产生另一第一组合图像。另一方面,当第一组合图像100是在面积检测步骤(II)中被判定为“不合格(NG)”时,另一个矩形内框30被选择然后被添加到第一组合图像100中,以增加总面积。因此,即使在面积检测步骤(II)中将第一组合图像判定为“NG”,它也不会被删除。
如上所述,通过所有的面积检测步骤(I)、距离检测步骤(I)和面积检测步骤(II)产生的第一组合图像100(例如,图4)作为可靠的候选图像被存储在存储器中(步骤57)。顺便提及,当第一组合图像100作为可靠数据存储在存储器中后,下一个第一组合图像被以下述方式生成:将另一个被选择作为新的组合基本元素的矩形内框与并非已被用作组合基本元素的矩形内框(或多个内框)的至少一个剩余矩形内框相综合。根据这种方式,当所有的第二图像中的矩形内框都做过组合基本元素之后(步骤58)本发明的图像处理方法进行到如图6的流程图所示的下一阶段,也就是数据缩减处理阶段。
本实施例的图像处理方法的第二阶段是删除重叠的第一组合图像以提高识别速度的数据缩减处理阶段。也就是说,如图7的流程图所示,选择存储在存储器中的一个第一组合图像,和要与所选的一个第一组合图像比较的另一个第一组合图像(步骤60),以便能在他们之间进行比较。例如,如图6A所示,当第一组合图像100’被另一第一组合图像100完全包围时(步骤60),第一组合图像100’被删除(步骤62)。
另一方面,如图6B所示,当第一组合图像100与另一第一组合图像100’部分重叠时,计算这两个第一组合图像(100,100’)的重叠区的面积。当该面积达到或超过其中之一的第一组合图像面积的80%时(步骤63),这两个第一组合图像(100,100’)彼此连接形成新的第一组合图像100”(步骤64)。当重叠区小于80%时,每一第一组合图像保持其各自独立而不互相连接。当存储器中的所有第一组合图像都在第二阶段被检测处理过之后(步骤65),本实施例的图像识别方法进行到第三阶段。
在图像处理方法的第三阶段,如图8的流程图所示,与第一阶段的面积检测步骤(I),距离检测步骤(I)和面积检测步骤(II)相似的若干步骤相对于多个矩形内框30重复执行,该多个矩形内框包括在由第二阶段产生的组合图像100的矩形外框40之内。换言之,第一阶段是决定包括要被识别的数字字符的元素的粗略(宽)区域(=第一组合图像),相反,第三阶段是决定仅包括要被识别数字字符的元素的精细(窄)区域(=下文描述的第二组合图像),并根据第二组合图像完成图像识别。
在第三阶段,如图9和10A所示,自由选择第一组合图像100中的矩形内框30形成的组合,根据该组合以与第一阶段相同的方法形成第二组合图像200。该第二组合图像200被矩形外框70限定,该矩形外框70包围被选择的矩形内框30。
接下来,对于第二组合图像200,计算矩形外框70的面积,例如用与第一阶段基本相同的方法计算。矩形外框70计算得到的面积与预先存储在反向传播网络中的要求值,例如存储在反向传播网络中的数字字符平均宽度的1.2倍进行比较。在第三阶段,该比较以比第一阶段(例如,存储在反向传播网络中的数字字符平均宽度的2倍)更为严格的条件进行。当面积等于或小于该要求值时,图像处理方法进行第三阶段的下一步骤。另一方面,当该面积大于该要求值时,该第二组合图像被删除,并且选择第一组合图像100中的另一矩形内框30的组合来生成另一第二组合图像200。该另一第二组合图像矩形外框70的面积以上述方式检测。在本实施例中,本步骤被称为面积检测步骤(III)。
在面积检测步骤(III)之后,计算第二组合图像200中的矩形内框30之间的距离,例如,采用基本上与第一阶段相同的方式。然后,计算得到的距离与预先存储在反向传播网络中的要求值,例如存储在反向传播网络中的数字字符平均间隙宽度的40%进行比较。当该距离等于或者小于该要求值时,图像识别方法进行第三阶段的下一步骤处理。另一方面,当该距离大于该要求值时,第二组合图像200被删除,并且选择第一组合图像100中的另一矩形内框30的组合来生成另一第二组合图像200。另一第二组合图像200中的矩形内框30之间的距离以上述方式被检测。在本实施例中,本步骤叫做距离检测步骤(II)。
在距离检测步骤(II)之后,第二组合图像200的矩形外框70的面积与预先存储在反向传播网络中的一个要求值,例如存储在反向传播网络中的数字字符平均宽度的0.8倍进行比较。在第三阶段,比较是在比第一阶段(例如,存储在反向传播网络中的是数字字符平均宽度的一半)的更为严格的条件下进行的。当面积等于或大于要求值时,本发明的图像识别方法进行第三阶段的下一步骤。另一方面,当面积小于要求值时,选择第一组合图像100中的另一个矩形内框30,并将其添加到第二组合图像,以便产生面积增大的新的第二组合图像。该新的第二组合图像200的矩形外框70的面积以上述方式进行检测。这样,通过重复上述过程,直到上述条件被满足,第二组合图像200的矩形外框70能够包含第一组合图像100的多个矩形内框30,如图10B所示。在本实施例中,该步骤称作面积检测步骤(IV)。
图8所示的流程图归纳了本实施例的图像识别方法的第三阶段。即,依次选择第一组合图像100中包围元素和点的矩形内框30作为组合基本元素(步骤80)。另外,选择另一个将要与该组合基本元素的矩形内框进行的组合的另一个矩形内框30(步骤81),然后如图10A所示,得到一个具有包围那些选中的矩形内框30的矩形外框70的第二组合图像200(步骤82)。
然后,计算第二组合图像200的矩形外框70的面积(步骤83),并依次进行面积检测步骤(III),距离检测步骤(II)和面积检测步骤(IV)(步骤85-87)。当第二组合图像200在面积检测步骤(III)或距离检测步骤(II)被判定为“不合格(NG)”时,它被删除,并且选择另一将要与该组合基本元素进行组合的矩形内框30(步骤81),然后产生另一第二组合图像200(步骤82)。另一方面,当在面积检测步骤(IV)中判定该第二组合图像200为“不合格(NG)”时,选择另外一个矩形内框30,并将其添加到该被判定为“NG”的第二组合图像中,以便生成面积增大的新的第二组合图像200。因此,在面积检测步骤(IV)中判定为“NG”的第二组合图像不被删除。顺便提及,第三阶段包括步骤84,用以检测接下来的步骤,例如,面积检测步骤(III)是否已经对第二组合图像200进行过,如果是,该第二组合图像被删除,以避免不必要的重复同样的处理。
接下来,计算纵横比,即由面积检测步骤(IV)提供的第二组合图像200的矩形外框70的垂直宽度与水平宽度之比,并将该值与存储在反向传播网络中的预定值比较(步骤88)。在本实施例中,执行叫做纵横比检测步骤(I)的步骤,用于检测纵横比是否落在存储在反向传播网络中的数字字符的纵横比的最小值的0.5倍至1.5倍范围之间。当纵横比落在这个范围内时,图像处理方法进行第三处理阶段的下一步骤。当纵横比不在此范围内时,删除该第二组合图像,并且选择第一组合图像100中的另一矩形内框30来生成新的第二组合图像200。
接下来,由在纵横比检测步骤(I)中判定为“合格”的第二组合图像200准备将要输入神经网络中的数据(步骤90)。首先,提取包括在第二组合图像200中的元素。在本实施例中,例如,如图11A所示,组成数字字符“4”的两个元素被从第二组合图像200中提取出来。然后,规范化被提取图像的尺寸,例如,规范化是将被提取图像的X轴和Y轴的长度(Lx,Ly)中的较长者设定为40个像素。
然后,对于规范化后的图像的元素边界线上的每一像素,计算轮廓方向。在本实施例中,如图11B所示,设定了4个轮廓方向(D1到D4)。例如,在图11B中圆圈标出的区域,当目标点Pt的轮廓方向被定义为从目标点Pt延伸到位于该目标点后方仅1个像素的参考点Ps直线的方向时,目标像素点Pt的轮廓方向是倾斜的D2方向。然而,这个结果与目标像素点Pt正确的轮廓方向应当是D3的事实不一致。在本实施例中,由于目标像素点Pt的轮廓方向被定义为从目标像素点Pt延伸到距离目标像素点6个像素的参考像素点Ps’的直线方向,目标像素点Pt的轮廓方向就可以认为是垂直方向轮廓方向D3。这个结果与上述的正确的轮廓方向是D3的事实相符。
接下来,如图11E所示,放置一个网格图案45,规范后的图像中的每一元素包含在该网格图案中。在本实施例中,该网格图案45被配置为40 X 40像素的方形。该网格图案45的网格数是36。对于包括在每一网格中的边界线上的像素,准备了轮廓方向的柱状图,如图11F所示。对于每一柱状图,在将每一轮廓方向的高度除以轮廓方向的最大高度之后,结果数据输入到神经网络(步骤91)。在本实施例中,神经网络的输入维数是144,是由轮廓方向数(=4维)乘以网格数(=36维)得到的。神经网络的计算结果显示包含在第二组合图像200中的数字字符是“4”(步骤92)。
为了以最高的精度得到计算结果,计算待识别数字字符(例如,“4”)的纵横比,并将计算结果与存储在反向传播网络中的参考纵横比(例如,“4”的参考纵横比)相比较来检查他们之间的一致度(步骤93)。在本实施例中,被叫做纵横比检测步骤(II)。当得到一个具有一致度的识别结果后,该识别结果被临时存储在存储器中。随后,如果得到具有更高的一致度的新的识别结果,该数据被更新(步骤94和95)。通过重复这种过程可以得到具有最高一致度的识别结果。在本实施例中,例如,如图12所示,由数字4的两元素组成的组合具有比包括点“X”的任何组合更高的纵横比一致度。因此,具有最高一致度的矩形内框30的组合作为组成数字字符“4”的元素的正确的组合被输出。
第三阶段的步骤96是检测第二阶段的第一组合图像的所有矩形内框30是否已经作为第三阶段的组合基本元素使用过。如果是,本实施例的图像处理方法进行下一步骤97,该步骤是检测是否图1A的原始图像的所有数字字符的识别已经完成。结果是,如图1D所示,本发明的图像识别方法提供一个图像,该图像包括第二组合图像200的矩形外框70,在该每一图像中仅包括构成数字字符的元素。
顺便提及,在本实施例中,诸如面积、距离和纵横比的特征量可以由特征量计算单元计算得出。另外,特征量一致度可以由图像分析单元确定。因此,本实施例也提供了一种图像识别装置或系统,来实现上述的图像识别方法。
第二实施例
本实施例提供了一种最好在第一实施例的图像识别方法之前执行的一个预处理过程,例如,当待识别原始图像包括数字字符序列,但相邻的数字字符是彼此部分连在一起的,如图13A所示,因为原始图像是在恶劣的条件下产生的。因此,省略对在此预处理之后执行的第一实施例的图像识别方法的重复解释。
首先,如图13B所示,准备图13A所示的原始图像的二进制图像。然后,确定该二进制图像中的数字字符沿一个排列方向(X轴方向)分布强度的轮廓显示,如图13C所示。图13D是图13C中轮廓的顶视图,其中,每一个明亮区域代表数字字符的一个高分布强度。当区域变暗,意味着数字字符的分布强度较小,或者是零(=相邻数字字符之间的区域)。
作为一个例子,介绍一种确定该轮廓的方法。首先,沿一个叫做投影轴(=X轴)的一个轴线投影该二进制图像中(图13B)的数字字符区域,该轴线平行于数字字符的排列方向延伸。在该投影处理过程中,沿垂直与该投影轴的一个方向(Y轴)进行扫描,以计量扫描线上的像素数。例如,如图13B所示,当代表数字字符的白色区域的像素提供一个聚集度值“1”,而代表背景的黑色区域的像素提供一个聚集度值“0”时,计算具有聚集度“1”的像素的数目。通过确定从投影轴上的每一点延伸的扫描线上的具有聚集度“1”的像素的数目作为一个投影值,得到分布强度的轮廓,如图13C所示。
接下来,如图13B所示,当相邻的数字字符(例如,“9”和“0”)彼此以一相对较大的区域相连,需要将相连区的白色区域从构成数字字符的白色区域中区分出来。在本方法中,通过将该投影值扩大为扫描线上孤岛区数目的倍数,可以将具有聚集度值“1”的数字字符的像素从具有聚集度值“1”的相连区域中区别出来,在每个孤岛区中,具有聚集度值“1”的像素是连续分布的。例如,图13B中,位于穿过相连区的扫描线Ls1上的像素“1”的数目大致与位于穿过数字字符“0”的扫描线Ls2上的像素“1”的数目相等。然而,通过进行上述的扩大处理,扫描线Ls1上的分布强度变得比扫描线Ls2上的分布强度低,如图13C中方形区域“Q1”、“Q2”所示。
然后,如图13C所示,在该轮廓中设置具有预定分布值强度值的一个阈值线L。例如,分布强度值小于该阈值线L的轮廓上的一下部区域S2位于分布强度值大于该阈值线L的轮廓上的一对上部区域(S1L,S1R)之间,下部区域S2在下部区域轮廓的最小分布强度值“Pm”的位置处被分割成两个区域(S2L,S2R)。图13E是图13C轮廓的仰视图,其中沿Y轴延伸的每一白线代表该轮廓的相应下部区域S2的最小分布强度位置“Pm”。
如图14A和14B所示,将这些区域(S2L,S2R)从该轮廓中移出,然后分别叠加到相邻的上部区域(S1L,S1R),以便上部区域S1L’,能够从相邻的上部区域SIR’中分离开来。这样,得到一个补偿图像,其中,原始图像中相邻的数字字符彼此分离开来。通过对该补偿图像执行第一实施例中的图像识别方法,矩形内框能够被设置为每一个矩形内框仅包含一个数字字符。因此,能够避免一个矩形内框包含彼此相连的相邻的多个数字字符的不利的情况发生,该情况可能导致识别精度的降低。
该阈值线可以下述方法确定。首先将阈值线设置在“0”位置,提取轮廓的上部区域。然后该上部区域的纵横比与预定值相比较,该预定值例如可以是预先存储在反向传播网络中的数字字符的平均纵横比。当上部区域的纵横比大于该平均纵横比时,采用该阈值线。但是,如果条件不满足,改变阈值线的位置后重复进行上述过程,一直到确定该阈值线满足上述条件。作为一种修改,数字字符水平方向的平均宽度能够用来代替平均纵横比。
这样,根据本发明具有第二实施例的预处理过程的图像识别方法,能以甚至从例如图15所示的质量较差的原始图像中进行识别的识别精度有效识别诸如数字字符和字母之类的各种字符。在图15中,一些字符被分为多个元素(例如,“8”和“9”),在字符周围有不期望的点,一些字符彼此连在一起(例如,“S”和“H”)。
第三实施例
本实施例提供了一种最好在第一实施例的图像识别方法之前执行的一个预处理过程,例如,当待识别原始图像包括诸如数字字符和字母的字符序列,其中每一字符均由多个点组成,如图16A所示。因此,省略对在此预处理之后执行的第一实施例的图像识别方法的重复解释。
在该预处理过程中,如图16B所示,首先准备如图16A所示的原始图像的二进制图像。然后,每一个字符的点沿两个方向扩展,即,二进制图像的水平方向和垂直方向,从而得到补偿后的图像,如图16C所示,其中,每一个扩展后的点与邻接的扩展后的点连接。这种扩展处理可以通过沿二进制图像指定方向上,将各个点周围具有值“0”的像素以具有值“1”的像素代替来进行。这样得到补偿后的图像,每个字符仅包括一个元素。
当对原始图像16A由本发明的图像识别方法进行识别时,有图像识别时间延长的担忧,因为对字符的每一个点设置矩形内框,以至于矩形内框的数目显著增长。另外,这可能引起识别精度的降低。然而,但本发明的图像识别方法是对图16C的补偿后的图像进行识别时,设置的矩形内框的数目可被显著缩减,如图16D所示。因此可以实现识别精度的改善,同时节省图像识别时间。当然,也有补偿后图像中相邻的字符彼此相连的情况,在这种情况下,可对图16C的补偿后的图像进行第二实施例描述的预处理。
第四实施例
本实施例提供了一种最好在第一实施例的图像识别方法之前执行的一个预处理过程,例如,如图17A所示,当原始图像中相邻字符的相连区远大于图13A中的原始图像的情况时,由第二实施例的预处理就不能获得足够精度。因此,省略对在此预处理之后执行的第一实施例的图像识别方法的重复解释。
在本实施例中,当在如图17A所示的原始图像中设置矩形内框时,两相邻字符(图17A中的“2”和“3”)彼此相连包括在一个大的矩形内框中。然后该大的矩形内框被强制分割成具有预定面积的多个区域以得到补偿后的图像。例如,该大的矩形内框被分割为多个小的矩形内框,每个小的矩形内框的一条边基本上等于存储在反向传播网络中的字符的水平和垂直方向的最小宽度的一半。在图17C中,单一大矩形内框被分成16(4 X 4)个小的矩形内框。
通过对得到的补偿后的图像执行第一实施例的图像识别方法,能甚至从质量差的原始图像(例如图17A)中以如图17D的识别精度有效识别诸如数字字符和字母之类的字符,图17A中相邻字符之间的连接面积相对较大。当然,当该大矩形内框的面积小于一个预定值,例如,预先存储在反向传播网络中的字符平均面积的1.2倍时,最好不要进行本预处理而直接进行本发明的图像识别处理。
工业实用性
根据本发明,由于包含在原始图像中诸如字母和数字的每一字符是由多个元素和字符周围不期望的点组成,传统的二进制化和投影的图像处理不能精确识别该原始图像,而本发明提供了一种可靠的图像识别方法。另外,其优点还在于消除了,例如当待识别字符具有下划线,或者由于打印表面是非常光滑的表面从而难以从背景中分离出字符时,图像识别精度低的难题。另外,其优点还在于,当原始图像在背景和/或字符中包括一些噪声,例如由喷墨打印机打印的字母中包括许多点时,提高了高效得到精确识别结果的便利性。
这样,由于本发明的图像识别方法能够从甚至是质量较差的原始图像中精确地识别出字符,其应用预期是广泛的。
Claims (6)
1.一种图像识别方法,包括下述步骤:
(I)取得第一图像,该第一图像包括由多个元素组成的一个字符;
(II)提取所述第一图像中的多个元素以得到第二图像,在该第二图像中,每个所述的元素被一个矩形内框紧密包围;
(III)由所述第二图像中的多个矩形内框的组合形成一个组合图像,所述多个矩形内框被矩形外框紧密包围;
(IV)计算所述组合图像的特征量,所述特征量为所述组合图像中所述矩形外框的面积、所述多个矩形内框之间的距离以及所述矩形外框的纵横比中的至少一个;
(V)将上述特征量输入图像分析单元,该图像分析单元已经完成了对包含在所述第一图像中的参考特征的学习,并提供所述组合图像中的特征量与所述参考特征的一致度;并且
(VI)从相对于所述第二图像中所述多个矩形内框的不同组合,重复步骤(III)到(V)得到的结果中,确定具有所述组合图像的特征量与参考特征之间最高一致度的所述组合图像,并将其作为识别数据输出。
2.如权利要求1所述的图像识别方法,当所述第一图像包括至少两个字符彼此相连时,包括执行从构成所述至少两个字符的区域中区别出来在这些字符之间的相连区的预处理,所述预处理包括如下步骤:
准备包括所述至少两个字符的二进制图像;
确定一个能显示分布强度的轮廓,该分布强度的轮廓是沿所述二进制图像的至少两个字符的排列方向的分布强度的轮廓;
在所述轮廓上设置具有预定分布强度的阈值线;
从所述轮廓上去除所述轮廓的第一区域,该第一区域的分布强度低于该阈值线,从而得到补偿图像,在该补偿图像中,该至少两个字符彼此分离开来;并且
将所述补偿图像作为所述的第一图像。
3.如权利要求2所述的图像识别方法,所述预处理包括如下步骤:
在从所述轮廓线上去除该第一区域之后,在第一区域内的轮廓的最小分布强度值的位置处,将该第一区域分割成两个区域;并且
分别将所述两个区域叠加到所述轮廓的一对第二区域上形成所述的补偿图像,该对第二区域位于所述第一区域的两侧,其分布强度大于所述阈值线。
4.如权利要求1所述的图像识别方法,当所述第一图像包括由多个点组成的字符时,包括执行预处理,所述预处理包括如下步骤:
准备包括所述由点构成的字符的二进制图像;
沿水平方向扩展所述二进制图像中所述字符的每一个点,从而得到补偿图像,其中每个扩展后的点与一个相邻的扩展后的点相连接;并且
将该补偿图像作为所述第一图像。
5.如权利要求1所述的图像识别方法,当所述第一图像包括由多个点组成的字符时,包括执行预处理,所述预处理包括如下步骤:
准备包括所述由点构成的字符的二进制图像;
沿水平方向和垂直方向扩展所述二进制图像中所述字符的每一个点,从而得到补偿图像,其中,每一扩展后的点与一临近的扩展后的点相连接;并且
将该补偿图像作为所述第一图像。
6.一种图像识别设备,包括:
一个图像获取装置,用于取得第一图像;
一个图像元素分割单元,用于提取构成所述第一图像中的字符的多个元素来得到第二图像,其中每个所述元素被矩形内框包围;
一组合图像产生单元,用于以所述第二图像中的多个矩形内框的组合形成组合图像,所述多个矩形内框被矩形外框紧密包围;
一个特征量计算单元,用于确定所述组合图像的特征量,所述特征量为所述组合图像中所述矩形外框的面积、所述多个矩形内框之间的距离以及所述矩形外框的纵横比至少其中之一;
一个图像分析单元,该图像分析单元已经完成了对包含在所述第一图像中的参考特征的学习,当所述特征量输入到所述图像分析单元时,用于提供所述组合图像特征量与所述参考特征之间的一致度,并且所述图像分析单元相对于所述第二图像中所述多个矩形内框的不同组合得到的结果,确定具有所述组合图像特征量与参考特征之间最高一致度的所述组合图像,并将其作为识别数据输出。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP367675/2001 | 2001-11-30 | ||
JP367675/01 | 2001-11-30 | ||
JP2001367675A JP3965983B2 (ja) | 2001-11-30 | 2001-11-30 | 画像処理方法およびその装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1489745A CN1489745A (zh) | 2004-04-14 |
CN100489885C true CN100489885C (zh) | 2009-05-20 |
Family
ID=19177389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB028041275A Expired - Fee Related CN100489885C (zh) | 2001-11-30 | 2002-11-28 | 图像识别方法及实现该方法的设备 |
Country Status (8)
Country | Link |
---|---|
US (1) | US7480410B2 (zh) |
EP (1) | EP1449153B1 (zh) |
JP (1) | JP3965983B2 (zh) |
KR (1) | KR100567362B1 (zh) |
CN (1) | CN100489885C (zh) |
DE (1) | DE60208817T2 (zh) |
TW (1) | TWI221587B (zh) |
WO (1) | WO2003046807A1 (zh) |
Families Citing this family (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060193520A1 (en) * | 2005-02-28 | 2006-08-31 | Takeshi Mita | Object detection apparatus, learning apparatus, object detection system, object detection method and object detection program |
KR100987110B1 (ko) * | 2008-12-12 | 2010-10-12 | (주)씨프로 | 카메라 모듈용 지지장치 |
JP5292643B2 (ja) * | 2010-07-28 | 2013-09-18 | 武蔵エンジニアリング株式会社 | 投票用紙の読取装置および読取方法 |
CN102385707A (zh) * | 2010-08-30 | 2012-03-21 | 阿里巴巴集团控股有限公司 | 一种数字图像识别的方法、装置及爬虫服务器 |
JP2012194705A (ja) * | 2011-03-15 | 2012-10-11 | Omron Corp | 画像処理装置、画像処理方法および画像処理プログラム |
TWI602155B (zh) * | 2013-02-08 | 2017-10-11 | 威聯通科技股份有限公司 | 利用影像內容不連續性增強物件偵測之方法 |
EP3169146B1 (en) * | 2014-07-10 | 2018-10-31 | FUJI Corporation | Method for producing component placement coordinates and device for producing component placement coordinates |
US9361536B1 (en) * | 2014-12-16 | 2016-06-07 | Xerox Corporation | Identifying user marks using patterned lines on pre-printed forms |
CN105138963A (zh) * | 2015-07-31 | 2015-12-09 | 小米科技有限责任公司 | 图片场景判定方法、装置以及服务器 |
TWI607387B (zh) * | 2016-11-25 | 2017-12-01 | 財團法人工業技術研究院 | 字符辨識系統及其字符辨識方法 |
CN108229470B (zh) | 2017-12-22 | 2022-04-01 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
CN111598076B (zh) * | 2020-05-25 | 2023-05-02 | 北京明略软件系统有限公司 | 一种标签图像中日期检测处理方法及装置 |
JP7137170B1 (ja) * | 2021-03-22 | 2022-09-14 | 楽天グループ株式会社 | 情報処理装置、情報処理方法およびプログラム |
Family Cites Families (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5991582A (ja) | 1982-11-16 | 1984-05-26 | Nec Corp | 文字読取装置 |
JPH0782524B2 (ja) | 1983-03-31 | 1995-09-06 | 株式会社東芝 | 光学的文字読取装置 |
JPH0614372B2 (ja) | 1984-01-23 | 1994-02-23 | 日本電信電話株式会社 | 文字読取方法 |
JPS6129982A (ja) | 1984-07-21 | 1986-02-12 | Nippon Telegr & Teleph Corp <Ntt> | オンライン手書き文字列認識方式 |
JPS62190574A (ja) | 1986-02-18 | 1987-08-20 | Mitsubishi Electric Corp | 文字パタ−ン切り出し装置 |
JPS62223890A (ja) | 1986-03-26 | 1987-10-01 | Hitachi Ltd | ダイナミツク型ram |
US5048100A (en) * | 1988-12-15 | 1991-09-10 | Michael Kuperstein | Self organizing neural network method and system for general classification of patterns |
JP2944102B2 (ja) | 1989-05-26 | 1999-08-30 | 烈 山川 | ファジィニューロン |
US5151951A (en) * | 1990-03-15 | 1992-09-29 | Sharp Kabushiki Kaisha | Character recognition device which divides a single character region into subregions to obtain a character code |
CA2081406C (en) * | 1991-12-23 | 1997-09-16 | Chinmoy Bhusan Bose | Method and apparatus for connected and degraded text recognition |
JP3187899B2 (ja) | 1991-12-25 | 2001-07-16 | 松下電器産業株式会社 | 文字認識装置 |
US5481621A (en) * | 1992-05-28 | 1996-01-02 | Matsushita Electric Industrial Co., Ltd. | Device and method for recognizing an image based on a feature indicating a relative positional relationship between patterns |
US6041141A (en) * | 1992-09-28 | 2000-03-21 | Matsushita Electric Industrial Co., Ltd. | Character recognition machine utilizing language processing |
US6212299B1 (en) * | 1992-12-11 | 2001-04-03 | Matsushita Electric Industrial Co., Ltd. | Method and apparatus for recognizing a character |
JPH06180771A (ja) | 1992-12-11 | 1994-06-28 | Matsushita Electric Ind Co Ltd | 英文字認識装置 |
WO1994027251A1 (en) * | 1993-05-18 | 1994-11-24 | Massachusetts Institute Of Technology | Automated reading system and method |
JPH07175894A (ja) | 1993-11-05 | 1995-07-14 | Toshiba Corp | ニューラルネットワークと文字認識方法と電子部品実装検査装置及びそれを用いた管理方法 |
US5542006A (en) * | 1994-06-21 | 1996-07-30 | Eastman Kodak Company | Neural network based character position detector for use in optical character recognition |
JPH08212290A (ja) | 1995-02-06 | 1996-08-20 | Nippon Signal Co Ltd:The | パターン識別における特徴量作成装置 |
JPH09305710A (ja) | 1996-05-15 | 1997-11-28 | Mitsubishi Heavy Ind Ltd | 2値化装置 |
US6266445B1 (en) * | 1998-03-13 | 2001-07-24 | Canon Kabushiki Kaisha | Classification-driven thresholding of a normalized grayscale image |
GB2343045B (en) * | 1998-10-21 | 2003-03-05 | Racal Res Ltd | Systems and methods for processing digital image data |
EP1089214A3 (en) * | 1999-09-30 | 2005-01-26 | Matsushita Electric Industrial Co., Ltd. | Apparatus and method for image recognition |
-
2001
- 2001-11-30 JP JP2001367675A patent/JP3965983B2/ja not_active Expired - Fee Related
-
2002
- 2002-11-28 DE DE60208817T patent/DE60208817T2/de not_active Expired - Fee Related
- 2002-11-28 KR KR1020037009646A patent/KR100567362B1/ko not_active IP Right Cessation
- 2002-11-28 EP EP02783679A patent/EP1449153B1/en not_active Expired - Fee Related
- 2002-11-28 US US10/466,765 patent/US7480410B2/en not_active Expired - Fee Related
- 2002-11-28 WO PCT/JP2002/012470 patent/WO2003046807A1/en active IP Right Grant
- 2002-11-28 CN CNB028041275A patent/CN100489885C/zh not_active Expired - Fee Related
- 2002-11-29 TW TW091134716A patent/TWI221587B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP1449153A1 (en) | 2004-08-25 |
JP3965983B2 (ja) | 2007-08-29 |
WO2003046807A1 (en) | 2003-06-05 |
KR20030076620A (ko) | 2003-09-26 |
EP1449153B1 (en) | 2006-01-18 |
KR100567362B1 (ko) | 2006-04-03 |
CN1489745A (zh) | 2004-04-14 |
US7480410B2 (en) | 2009-01-20 |
JP2003168076A (ja) | 2003-06-13 |
TWI221587B (en) | 2004-10-01 |
TW200300539A (en) | 2003-06-01 |
US20040071345A1 (en) | 2004-04-15 |
DE60208817T2 (de) | 2006-09-14 |
DE60208817D1 (de) | 2006-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100489885C (zh) | 图像识别方法及实现该方法的设备 | |
CN101453575B (zh) | 一种视频字幕信息提取方法 | |
US5629989A (en) | Image line-segment extracting apparatus | |
US7403656B2 (en) | Method and apparatus for recognition of character string in scene image | |
US20030198386A1 (en) | System and method for identifying and extracting character strings from captured image data | |
Lee et al. | Automatic extraction of characters in complex scene images | |
EP0332471A2 (en) | Character recognition apparatus | |
US20050219581A1 (en) | Image processing apparatus and image processing method | |
JP2002133426A (ja) | 多値画像から罫線を抽出する罫線抽出装置 | |
CN101777124A (zh) | 一种提取视频文本信息的方法及装置 | |
JPH06309498A (ja) | 画像抽出方式 | |
EP0961218A1 (en) | Method of binarization in an optical character recognition system | |
JPH06215293A (ja) | 車番認識装置 | |
JPH09311905A (ja) | 行検出方法および文字認識装置 | |
JP3378439B2 (ja) | 帳票画像作成装置 | |
US5119441A (en) | Optical character recognition apparatus and method using masks operation | |
JP2001109887A (ja) | 領域抽出方法、宛名領域抽出方法、宛名領域抽出装置、及び画像処理装置 | |
CN106023191A (zh) | 一种基于结构特征的光学刻划字符边缘提取和边缘拟合方法 | |
KR100713335B1 (ko) | 이미지 인식방법 | |
US4607387A (en) | Pattern check device | |
JP4194309B2 (ja) | 文書方向推定方法および文書方向推定プログラム | |
JPH08339421A (ja) | 画像の文字領域決定方法 | |
CN113947777A (zh) | 图像识别转换装置、方法及计算机可读取的记录媒介物 | |
JPH11250256A (ja) | 図形認識処理方法及びそのプログラムを記録した記録媒体 | |
JPH09147105A (ja) | 図面閉領域の抽出方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20090520 Termination date: 20091228 |