CN111144399B - 处理图像的装置和方法 - Google Patents
处理图像的装置和方法 Download PDFInfo
- Publication number
- CN111144399B CN111144399B CN201811312165.7A CN201811312165A CN111144399B CN 111144399 B CN111144399 B CN 111144399B CN 201811312165 A CN201811312165 A CN 201811312165A CN 111144399 B CN111144399 B CN 111144399B
- Authority
- CN
- China
- Prior art keywords
- character block
- character
- convolutional network
- seed
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 238000012545 processing Methods 0.000 title claims abstract description 27
- 241000405217 Viola <butterfly> Species 0.000 claims description 6
- 230000000694 effects Effects 0.000 abstract description 2
- 230000010365 information processing Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000012015 optical character recognition Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
- G06V10/23—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on positionally close patterns or neighbourhood relationships
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/635—Overlay text, e.g. embedded captions in a TV program
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2431—Multiple classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Discrimination (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本公开内容涉及处理图像的装置和方法。根据本公开内容的一个实施方式,该装置包括:选择单元,被配置成通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别图像中的字符块来在图像中选择满足条件的种子字符块,该条件为:种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“‑”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合的元素之一;以及确定单元,被配置成以该种子字符块为起始在图像中确定日文收件人地址的中地址的区域。使用该装置和方法至少能实现如下效果之一:提高识别日文收件人地址的中地址的准确程度和识别效率。
Description
技术领域
本公开总体上涉及图像处理领域,具体地,涉及用于处理含有日文收件人地址的图像的装置和方法。
背景技术
随着计算机性能的发展,OCR(Optical Character Recognition,光学字符识别)技术已经广泛地应用于人们日常生活的众多领域。例如,利用OCR技术识别文档图像中的文字以便于进一步进行处理。
收件人地址是常见的,如包裹、信件等邮件上的收件人地址。对于日文收件人地址,其通常被标识在3个相邻行中。处于3个相邻行的上方的行的地址分段被称为上地址。上地址包含例如省、城市、行政区的地址信息。处于3个相邻行中间的行的地址分段被称为中地址。中地址中的字符选自由字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合S。处于3个相邻行的下方的行的地址分段被称为下地址。下地址包含本地的具体的地址信息。
根据对象上标识的收件人地址对对象进行自动分类是期望的。进一步的,希望提高分类(即,识别)的效率和准确度。
发明内容
在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本公开内容的一个方面,提供了一种处理图像的装置,包括:选择单元,被配置成通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别图像中的字符块来在图像选择满足条件的种子字符块,条件为:该种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合S的元素之一;以及确定单元,被配置成以种子字符块为起始在图像中确定日文收件人地址的中地址的区域。
根据本公开内容的一个方面,提供了一种处理图像的方法,包括以下步骤:通过使用卷积网络分类器或全卷积网络分类器识别图像中的字符块来在图像中选择满足条件的种子字符块,条件为:种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合的元素之一;以及以种子字符块为起始在图像中确定日文收件人地址的中地址的区域。
根据本公开内容的一个方面,提供了一种识别图像中的日文收件人地址的方法,包括:使用本公开内容的方法确定中地址的区域;使用FCN分类器识别结果确定图像中中地址中的字符;使用CNN分类器识别结果确定图像中上地址中的字符;以及使用CNN分类器识别结果确定图像中下地址中的字符。
根据本公开内容的一个方面,提供了一种对具有日文收件人地址的邮件进行分类的方法。该方法包括:基于本公开内容的识别的日文收件人地址对邮件进行分类。
根据本公开内容的一个方面,提供了一种对具有日文收件人地址的邮件进行分类的装置。该装置被配置成:基于本公开内容的识别的日文收件人地址对邮件进行分类。
根据本公开内容的一个方面,提供了一种存储介质。存储介质上存储有信息处理设备可读的程序代码,当在信息处理设备上执行程序代码时,程序代码使得信息处理设备执行根据本公开内容的上述方法。
根据本公开内容的一个方面,提供了一种信息处理设备,包括中央处理单元,中央处理单元被配置成执行根据本公开内容的上述方法。
使用该装置和方法至少能实现如下效果之一:提高识别日文收件人地址的中地址的准确程度和识别效率。
附图说明
本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中:
图1是根据本公开内容的一个实施方式的处理图像的装置的示例性框图;
图2示出了本公开内容中的被处理的图像的示例图像;
图3示出了图像被执行过分割后的各字符块;
图4是根据本公开内容的一个实施方式的用于选择种子字符块的方法的示例性流程图;
图5是根据本公开内容的一个实施方式的用于选择种子字符块的方法的示例性流程图;
图6是根据本公开内容的另一个实施方式的用于选择种子字符块的方法的示例性流程图;
图7是根据本公开内容的一个实施方式的用于确定日文收件人地址的中地址的区域的左边界的方法的示例性流程图;
图8是根据本公开内容的一个实施方式的用于确定日文收件人地址的中地址的区域的右边界的方法的示例性流程图;
图9是根据本公开内容的一个实施方式的处理图像的方法的示例性流程图;
图10是根据本公开内容的一个实施方式的识别图像中的日文收件人地址的方法的示例性流程图;以及
图11是根据本公开内容的一个实施方式的信息处理设备的示例性框图。
具体实施方式
在下文中将结合附图对本公开内容的示例性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开关系不大的其他细节。
应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施方式可以相互组合、不同实施方式之间的特征替换或借用、在一个实施方式中省略一个或多个特征。
本公开内容的一个方面涉及对邮件上标识的日文收件人地址的图像进行的图像处理的装置。
下面参考图1介绍本公开内容的一种处理图像的装置。
图1是根据本公开内容的一个实施方式的处理图像的装置10的示例性框图。
装置10包括选择单元11和确定单元13。选择单元11被配置成通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别图像中的字符块来在图像选择满足条件的种子字符块,该条件为:该种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合S的元素之一。
确定单元13被配置成以该种子字符块为起始在图像中确定日文收件人地址的中地址的区域。
在本公开内容中,邮件上标识的日文收件人地址可以为呈标准字体(例如,计算机使用的各种日文字体)格式的字符串,可以为手写形式的字符串,或者可以为混合形式,即,既包含标准字体格式的至少一个字符又包含手写形式的至少一个字符。本公开内容的技术方案尤其适于处理如下图像:该图像中的日文收件人地址中的至少部分字符为手写字符。
装置10中的图像是对应邮件上标识的日文收件人地址的图像。该图像(也称:单行日文收件人地址图像)包括从左至右在同一行中依次布置的上地址、中地址及下地址。该图像可以例如通过以下方式获得:获得邮件上标识的日文收件人地址的图片,然后利用信息处理装置将图片中对应中地址的中地址块、对应下地址的下地址块依次布置在对应上地址的上地址块之后。当然,如果邮件上标识的日文收件人地址是采用上地址、中地址、下地址依次布置在一行的方式布置的,则直接使用该日文收件人地址的图片即可。
图2示出了本公开内容中的被处理的图像的示例图像200,其包括上地址块201、中地址块203和下地址块205。注意:图像200不包括图2中的矩形框以及矩形框下方的4条竖线;图中示出的4竖线仅仅是为了说明各地址块所转矩的区域。
装置10中CNN分类器是基于神经网络的分类器。该CNN分类器已使用样本进行过训练。针对要被分类的字符块,该CNN分类器能够给出作为识别结果的至少一个候选字符,以及各候选字符的CNN分类置信度。该置信度用于指示该字符块被分类为相应候选字符的可信程度,即,对每个字符块的各候选字符,其具有对应的CNN分类置信度。给出的候选字符的数量与CNN分类器的配置有关。可以配置CNN分类器,使得其在对目标字符块分类时,仅给出该目标字符块的关于一特定字符集合的CNN分类结果(即,给出该目标字符块内字符和该特定字符集合中的哪些/哪个字符相似,并给出CNN分类置信度),而不管该目标字符块对应的字符是否可能属于该特定字符集合以外字符。该特定字符集合可以例如是字符集合S、数字集合,其中,数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。在使用CNN分类器对图像中的日文地址中各字符进行分类时,优选设置CNN分类器,对每个字符块仅输出具有最大置信度的分类。在使用CNN分类器对图像中的日文地址中的多个字符进行分类后,各字符的分类构成的集合中,可能包含相同的分类,但各相同分类所对应的字符块的位置显然是不同的,并且对应的置信度也很可能不同。
对单行日文收件人地址图像可以进行分割以确定各字符块所在区域或位置,从而便于进行有针对性的识别。具体的分割方法可以为过分割方法。
图3示出了图像200执行过分割后的各字符块。图中用矩形框示出了各字符块所在区域。在一个实施方式中,基于各字符块计算了相邻字符块之间的间隙(即,间隙的宽度值),并确定多个间隙的中值,该中值可以用于判断日文收件人地址的中地址的区域,这将在稍后描述。
装置10中FCN分类器也是基于神经网络的分类器。该FCN分类器已使用样本进行过训练。针对要被分类的字符块,该FCN分类器能够给出作为识别结果的至少一个候选字符,以及各候选字符的FCN分类置信度。该置信度用于指示该字符块被分类为相应候选字符的可信程度,即,对每个字符块的各候选字符,其具有对应的FCN分类置信度。给出的候选字符的数量与FCN分类器的配置有关。该FCN分类器被可以配置成用于确定图像中要分类的字符块对应字符集合S中的字符的可信程度,而不管要分类的日文块是否为除字符集合S中的字符以外的字符。例如,该FCN分类器被配置成给出中心点位于Pk处的字符块的关于字符集合S的FCN分类结果(其包括至少一个候选字符,以及各候选字符的FCN分类置信度,候选字符属于字符集合S),该FCN分类器不会就中心点位于Pk处的字符块的分类是否是字符集合S中的元素以外的元素(即,字符)作出判断。在使用FCN分类器对图像中的日文地址中各字符进行分类时,优选设置FCN分类器,对每个字符块仅输出具有最大置信度的分类。在使用FCN分类器对图像中的日文地址中的多个字符进行分类后,各字符的分类构成的集合中,可能包含相同的分类,但各相同分类所对应的字符块的位置显然是不同的,并且对应的置信度也很可能不同。
在一个实施方式中,针对单行日文收件人地址图像,该FCN分类器能够找出属于字符集合S的字符块,给出这些字符块的位置(例如坐标)、置信度、类别(即,字符集合S中的哪个字符)。例如:对于该单行日文收件人地址图像中的字符集合S以外字符X,类别将被选择为字符集合S中与字符X接近的字符类别,置信度会是较小的值,例如,0或接近0的值;对于该单行日文收件人地址图像中的属于字符集合S的字符Y,类别将被选择为字符集合S中的Y字符类别和/或与Y字符相似的字符类别,置信度会是较大的值,例如,255或接近255的值(其中,可信程度用0到255之间的数值来表示,数值越大,表示可信程度越高)。
图4是根据本公开内容的一个实施方式的用于选择种子字符块的方法101a的示例性流程图。装置10中的选择单元11可以被配置成实现方法101a。
在步骤401中,使用CNN分类器确定是否出现了第一CNN种子字符块。如果使用CNN分类器对图像中的字符块进行分类时出现了第一CNN种子字符块,则执行步骤421:将第一CNN种子字符块选择为种子字符块。其中,第一CNN种子字符块满足以下条件:该第一CNN种子字符块的关于第一字符子集合的CNN分类的最大CNN分类置信度大于第一CNN阈值,并且该第一CNN种子字符块具有与该第一CNN种子字符块直接相邻的数字字符块;其中,第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且数字字符块满足以下条件:该数字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。和数字字符块直接相邻的情形包括:数字字符块在感兴趣字符块的左侧与感兴趣字符块直接相邻,以及数字字符块在感兴趣字符块的右侧与感兴趣字符块直接相邻。在本公开内容中,只要满足两种直接相邻情况中的一种,就认为感兴趣字符块与数字字符块之间相邻。
在使用CNN分类器确定图像中的字符块的分类时,可以是从左到右逐个识别、从右到左逐个识别,或者以其他预定顺序识别。
在步骤401中,确定数字字符块时,可以仍使用CNN分类器。在替选实施方式中,也可以用其他能够识别数字字符块的分类器来确定字符块是否为数字字符块,例如,FCN分类器或者专用于识别数字字符块的分类器。字符块的位置可以用字符块的序号(索引)来表示,也可以用其字符块的中心位置的坐标来表示,这两种表示方法存在对应关系,可以相互转换。
如果在步骤401中使用CNN分类器对图像中的字符块进行分类时始终未出现第一CNN种子字符块(即,直到对图像中的最后一个字符块进行了CNN分类后,都未出现满足条件的第一CNN种子字符块),则执行步骤403:使用FCN分类器确定是否出现了第一FCN种子字符块。如果使用FCN分类器对图像中的字符块进行分类时出现了第一FCN种子字符块,则执行步骤423:将第一FCN种子字符块选择为种子字符块;其中,第一FCN种子字符块满足以下条件:该第一FCN种子字符块的关于第一字符子集合的FCN分类的最大FCN分类置信度大于第一FCN阈值,并且该第一FCN种子字符块具有与该第一FCN种子字符块直接相邻的数字字符块。
在步骤403中,确定数字字符块时,可以仍使用FCN分类器。在替选实施方式中,也可以用其他能够识别数字字符块的分类器来确定字符块是否为数字字符块,例如,CNN分类器或者专用于识别数字字符块的分类器。
如果在步骤403中使用FCN分类器对图像中的字符块进行分类时始终未出现第一FCN种子字符块(即,直到对图像中的最后一个字符块进行了FCN分类后,都未出现满足条件的第一FCN种子字符块),则执行步骤405:使用FCN分类器确定是否出现了第二FCN种子字符块。如果使用FCN分类器对图像中的多个字符块进行分类时出现了第二FCN种子字符块,则执行步骤425:将第二FCN种子字符块选择为种子字符块,其中,第二FCN种子字符块满足以下条件:该第二FCN种子字符块的关于字符“-”的FCN分类的FCN分类置信度大于第二FCN阈值,并且该第二FCN种子字符块具有与该第二FCN种子字符块直接相邻的数字字符块。确定数字字符块的方法可以参考步骤403中采用的方法,例如,使用FCN分类器确定数字字符块。
如果在步骤405中使用FCN分类器对图像中的字符块进行分类时始终未出现第二FCN种子字符块(即,直到对图像中的最后一个字符块进行了FCN分类后,都未出现满足条件的第二FCN种子字符块),则执行步骤407:使用CNN分类器确定是否出现了第二CNN种子字符块。如果使用CNN分类器对图像中的字符块进行分类时出现了第二CNN种子字符块,则执行步骤427:将第二CNN种子字符块选择为种子字符块;其中,第二CNN种子字符块满足以下条件:该第二CNN种子字符块的关于数字集合的CNN分类的最大CNN分类置信度大于第二CNN阈值,并且,该第二CNN种子字符块具有与该第二CNN种子字符块直接相邻的数字字符块。其中,数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
如果在步骤407中使用CNN分类器对图像中的字符块进行分类时始终未出现第二CNN种子字符块(即,直到对图像中的最后一个字符块进行了CNN分类后,都未出现满足条件的第二CNN种子字符块),则执行步骤409:使用FCN分类器确定是否出现了第三FCN种子字符块。如果使用FCN分类器对图像中的字符块进行分类时出现了第三FCN种子字符块,则执行步骤429:将第三FCN种子字符块选择为种子字符块;其中,第三FCN种子字符块满足以下条件:该第三FCN种子字符块的关于数字集合的FCN分类的最大FCN分类置信度大于第三FCN阈值,并且该第三FCN种子字符块具有与该第三FCN种子字符块直接相邻的数字字符块。确定数字字符块的方法可以参考步骤403中采用的方法,例如,使用FCN分类器确定数字字符块。
如果在步骤409中使用FCN分类器对图像中的字符块进行分类时始终未出现第三FCN种子字符块(即,直到对图像中的最后一个字符块进行了FCN分类后,都未出现满足条件的第三FCN种子字符块),则执行步骤411:输出提示信息,以便于用户对此种情况的图像作出相应的处理。提示信息可以是指示未找到种子字符块的信息,例如“未找到种子字符块”或“未发现种子字符块”。
注意:上面提到的最后一个字符块,不是指图像中的字符串的最末尾的字符块,而是指对图像中的整个字符串中的字符块分类时,该字符串中最后一个要分类字符块。
在选择种子字符块的方法101a中,通过使用CNN分类器、FCN分类器来选择种子字符块,以准确且快速的确定种子字符块。并且,将中地址中的字符分为3类(第一字符子集合、字符“-”、数字集合),在识别时根据类别,分优先级进行识别,有利于进一步提高识别的准确度。在方法101a中,对一个字符块进行识别后,就进行起是否为种子字符块的判断,如果是种子字符块,则执行选择步骤,然后方法101a结束,这有利于节约处理时间。
图5是根据本公开内容的一个实施方式的用于选择种子字符块的方法101b的示例性流程图。装置10中的选择单元11可以被配置成实方法101b。
在步骤501中,通过使用CNN分类器对各字符块关于字符集合S进行分类来确定各字符块的CNN分类及该CNN分类的CNN分类置信度。其中,对各字符块而言,其CNN分类可以为该字符块的关于字符集合S的CNN候选分类中置信度最大的分类。在本公开内容的一个实施方式中,可以存储CNN分类器对各字符块的识别结果(例如:对每个字符块,存储置信度由高到低排序的前5个识别结果,每个识别结果包括分类及置信度),以便于后续使用,而无需对字符块进行重复识别。
在步骤503中,通过使用FCN分类器对图像中的各字符块关于字符集合S进行分类来确定各字符块的FCN分类及该FCN分类的FCN分类置信度。其中,对各字符块而言,其FCN分类可以为该字符块的关于字符集合S的FCN候选分类中置信度最大的分类。在本公开内容的一个实施方式中,可以存储FCN分类器对各字符块的识别结果(例如:对每个字符块,存储置信度由高到低排序的前5个识别结果,每个识别结果包括分类及置信度),以便于后续使用,而无需对字符块进行重复识别。
在步骤505中,确定由各CNN分类构成的CNN分类集中是否包括满足以下条件的第一CNN分类:该第一CNN分类属于第一字符子集合,该第一CNN分类所对应的第一CNN分类置信度大于第一CNN阈值,并且该第一CNN分类所对应的字符块具有与该字符块直接相邻的数字字符块。第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成。数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
如果在步骤505中确定CNN分类集中包括第一CNN分类,则执行步骤525:将第一CNN分类所对应的字符块选择为种子字符块。
如果在步骤505中确定CNN分类集中不包括第一CNN分类,则执行步骤507:确定由各FCN分类构成的FCN分类集中是否包括满足以下条件的第一FCN分类,该第一FCN分类属于第一字符子集合,该第一FCN分类所对应的第一FCN分类置信度大于第一FCN阈值,并且该第一相应FCN分类所对应的字符块具有与该字符块直接相邻的数字字符块。数字字符块的判断可以直接使用已生成的FCN分类结果,也可以使用其他分类器。
如果在步骤507中确定FCN分类集中包括第一FCN分类,则执行步骤527:将第一FCN分类所对应字符块确定为种子字符块。
如果在步骤507中确定FCN分类集中不包括第一FCN分类,则执行步骤509:确定FCN分类集中是否包括满足以下条件的第二FCN分类,该第二FCN分类为字符“-”,该第二FCN分类所对应的第二FCN分类置信度大于第二FCN阈值,并且该第二FCN分类所对应的字符块具有与该字符块直接相邻的数字字符块。
如果在步骤509中确定FCN分类集中包括第二FCN分类,则执行步骤529:将第二FCN分类所对应的字符块选择为种子字符块。
如果在步骤509中确定FCN分类集中不包括第二FCN分类,则执行步骤511:确定CNN分类集中是否包括满足以下条件的第二CNN分类,该第二CNN分类属于数字集合,该第二CNN分类所对应的第二CNN分类置信度大于第二CNN阈值,并且该第二CNN分类所对应的字符块具有与该字符块直接相邻的数字字符块。数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
如果在步骤511中确定CNN分类集中包括第二CNN分类,则执行步骤531:将第二CNN分类所对应的字符块选择为种子字符块。
如果在步骤511中确定CNN分类集中不包括第二CNN分类,则执行步骤513:确定FCN分类集中是否包括满足以下条件的第三FCN分类,该第三FCN分类属于数字集合,该第三FCN分类所对应的第三FCN分类置信度大于第三FCN阈值,并且该第三FCN分类所对应的字符块具有与该字符块直接相邻的数字字符块。
如果在步骤513中确定FCN分类集中包括第三FCN分类,则执行步骤533:将第三FCN分类所对应的字符块选择为种子字符块。
如果在步骤513中确定FCN分类集中不包括第三FCN分类,则执行步骤515:输出提示信息,以便于用户对此种情况的图像作出相应的处理。提示信息可以是指示未找到种子字符块的信息,例如“未找到种子字符块”、“未发现种子字符块”。
在选择种子字符块的方法101b中,通过使用CNN分类器、FCN分类器来选择种子字符块,以准确且快速的确定种子字符块。并且,将中地址中的字符分为3类(第一字符子集合、字符“-”、数字集合),在选择种子字符块时根据类别,分优先级进行选择,有利于进一步提高识别的准确度。在方法101b中,对整个日文收件人地址的图像进行文字识别后,再对各类字符分优先级判断对应的字符块是否为种子字符块。
图6是根据本公开内容的另一个实施方式的用于选择种子字符块的方法101c的示例性流程图。装置10中的选择单元11可以被配置成实现方法101c。
在步骤601中,通过使用CNN分类器对各字符块关于字符集合S进行分类来确定各字符块的CNN分类及该CNN分类的CNN分类置信度。其中,对各字符块而言,其CNN分类为该字符块的关于字符集合S的CNN候选分类中置信度最大的分类。
在步骤603中,通过使用FCN分类器对图像中的各字符块关于字符集合S进行分类来确定各字符块的FCN分类及该FCN分类的FCN分类置信度。其中,对各字符块而言,其FCN分类为该字符块的关于字符集合S的FCN候选分类中置信度最大的分类。
在步骤605中,确定第一CNN分类集中具有最大置信度的第一最可信CNN分类的置信度是否大于第一CNN阈值。第一CNN分类集是由各CNN分类中满足以下条件的分类构成:该分类属于第一字符子集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成。数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。数字字符块的判断可以直接使用已生成的CNN分类结果,也可以使用其他分类器分类的结果,例如FCN的分类结果。
如果在步骤605中,确定第一CNN分类集中具有最大置信度的第一最可信CNN分类的置信度大于第一CNN阈值,则执行步骤625:将第一最可信CNN分类所对应的字符块选择为种子字符块。
如果在步骤605中,确定第一CNN分类集中具有最大置信度的第一最可信CNN分类的置信度不大于第一CNN阈值,则执行步骤607:确定第一FCN分类集中具有最大置信度的第一最可信FCN分类的置信度是否大于第一FCN阈值。第一FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类属于第一字符子集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。数字字符块的判断可以直接使用已生成的FCN分类结果,也可以使用其他分类器。
如果在步骤607中确定第一FCN分类集中具有最大置信度的第一最可信FCN分类的置信度大于第一FCN阈值,则执行步骤627:将第一最可信FCN分类所对应的字符块确定为种子字符块。
如果在步骤607中确定第一FCN分类集中具有最大置信度的第一最可信FCN分类的置信度不大于第一FCN阈值,则执行步骤609:确定第二FCN分类集中具有最大置信度的第二最可信FCN分类的置信度是否大于第二FCN阈值。第二FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类为字符“-”,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。
如果在步骤609中确定第二最可信FCN分类的置信度大于第二FCN阈值,则执行步骤629:将第二FCN分类所对应的字符块选择为种子字符块。
如果在步骤609中确定第二最可信FCN分类的置信度不大于第二FCN阈值,则执行在步骤611:确定第二CNN分类集中具有最大置信度的第二最可信CNN分类的置信度是否大于第二CNN阈值。第二CNN分类集是由各CNN分类中满足以下条件的分类构成:该分类属于数字集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。数字字符块的判断可以直接使用已生成的CNN分类结果,也可以使用其他分类器分类的结果,例如FCN的分类结果。
如果在步骤611中确定第二CNN分类集中具有最大置信度的第二最可信CNN分类的置信度大于第二CNN阈值,则执行步骤631:将第二最可信CNN分类所对应的字符块选择为种子字符块。
如果在步骤611中确定第二CNN分类集中具有最大置信度的第二最可信CNN分类的置信度不大于第二CNN阈值,则执行步骤613:确定第三FCN分类集中具有最大置信度的第三最可信FCN分类的置信度是否大于第三FCN阈值。第三FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类属于数字集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。数字字符块的判断可以直接使用已生成的CNN分类结果,也可以使用其他分类器分类的结果,例如FCN的分类结果。
如果在步骤613中确定第三FCN分类集中具有最大置信度的第三最可信FCN分类的置信度大于第三FCN阈值,则执行步骤633:将第三最可信FCN分类所对应的字符块选择为种子字符块。
如果在步骤613中确定第三FCN分类集中具有最大置信度的第三最可信FCN分类的置信度不大于第三FCN阈值,则执行步骤615:输出提示信息,以便于用户对此种情况的图像作出相应的处理。提示信息可以是指示未找到种子字符块的信息,例如“未找到种子字符块”、“未发现种子字符块”。
在选择种子字符块的方法101c中,通过使用CNN分类器和FCN分类器来选择种子字符块,以准确且快速的确定种子字符块。并且,将中地址中的字符分为3类(第一字符子集合、字符“-”、数字集合),在选择种子字符块时根据类别,分优先级进行选择,这有利于进一步提高识别的准确度。在方法101c中,对整个日文收件人地址的图像进行文字识别后,再对各类字符分优先级判断是否为种子字符块,并且选择各类分类集中置信度最高的满足条件的字符块为种子字符块,这有利于进一步提高识别种子字符块的准确程度。
本公开内容的确定种子字符块的方法不限于方法101a-101c,还包括组合使用CNN分类器和FCN分类器的该些方法的变型例。
在确定种子字符块后,就可以以该种子字符块为起始在图像中确定日文收件人地址的中地址的区域。
将左边界字符块与右边界字符块之间的区域(包括左边界字符块区域与右边界字符块区域)定义为日文收件人地址的中地址的区域。
下面参考图7介绍本公开内容的确定日文收件人地址的中地址的区域的左边界的方法。
图7是根据本公开内容的一个实施方式的用于确定日文收件人地址的中地址的区域的左边界的方法700的示例性流程图。
在步骤701,确定种子字符块与左候选种子字符块之间的间隙。左候选种子字符块是指种子字符块最近邻左侧的字符块。
在步骤703中,确定间隙是否小于间隙阈值。间隙阈值可以被设置为图像中的日文收件人地址的相邻字符块之间的间隙的中值的1.5至2.5倍,或者根据间隙的平均值的1.5至2.5倍。
如果确定间隙不小于间隙阈值,则执行步骤705:基于种子字符块的位置设定中地址的左边界。例如,将种子字符块设定为左边界字符块。
如果确定间隙小于间隙阈值,则执行步骤707:确定左候选种子字符块的关于字符集合S的CNN分类的最大置信度是否大于CNN边界阈值。关于字符集合S的CNN分类是由CNN分类器对该字符块进行分类时给出的属于字符集合S的分类。
如果步骤707确定左候选种子字符块的关于字符集合S的CNN分类的最大置信度大于CNN边界阈值,则执行步骤709:将左候选种子字符块设置为下一种子字符块。然后返回到步骤701,以基于新设置的种子字符块确定种子字符块与左候选种子字符块之间的间隙。
如果步骤707的确定结果为否,则执行步骤711:确定左候选种子字符块的关于字符集合S的FCN分类的最大置信度是否大于FCN边界阈值。关于字符集合S的FCN分类是由FCN分类器对该字符块进行分类时给出的属于字符集合S的分类。
下面参考图8介绍本公开内容的确定日文收件人地址的中地址的区域的右边界的方法。
图8是根据本公开内容的一个实施方式的用于确定日文收件人地址的中地址的区域的右边界的方法800的示例性流程图。
在步骤801,确定种子字符块与右候选种子字符块之间的间隙。右候选种子字符块是指种子字符块最近邻右侧的字符块。
在步骤803中,确定间隙是否小于间隙阈值。间隙阈值可以被设置为图像中的日文收件人地址的相邻字符块之间的间隙的中值的1.5至2.5倍,或者根据间隙的平均值的1.5至2.5倍。
如果确定间隙不小于间隙阈值,则执行步骤805:基于种子字符块设定中地址的右边界,例如,将种子字符块设定为右边界字符块。
如果确定间隙小于间隙阈值,则执行步骤807:确定右候选种子字符块的关于字符集合S的CNN分类的最大置信度是否大于CNN边界阈值。关于字符集合S的CNN分类是由CNN分类器对该字符块进行分类时给出的属于字符集合S的分类。
如果步骤807确定右候选种子字符块的关于字符集合S的CNN分类的最大置信度大于CNN边界阈值,则执行步骤809:将右候选种子字符块设置为下一种子字符块。然后返回到步骤801,以基于新设置的种子字符块确定种子字符块与右候选种子字符块之间的间隙。
如果步骤807的确定结果为否,则执行步骤811:确定右候选种子字符块的关于字符集合S的FCN分类的最大置信度是否大于FCN边界阈值。关于字符集合S的FCN分类是由FCN分类器对该字符块进行分类时给出的属于字符集合S的分类。
虽然方法700及方法800可以用边界字符块确定中地址的区域,但是由于边界字符块具有中心位置坐标、左边界坐标、右边界坐标,所以也可以使用这些坐标来界定中地址的区域,或者将一种中地址的区域的表示显示转换为另一种表示显示。
发明人发现本公开内容分优先级选择使用CNN、FCN分类器确定种子字符块,这会改善了确定的种子字符块的准确程度,在此基础上,进一步组合使用CNN、FCN分类器通过向左、右延伸来得出日文收件人地址的中地址的区域,这有利于提高确定的中地址的区域的准确程度。
下面介绍本公开内容的处理图像的方法。
图9是根据本公开内容的一个实施方式的处理图像的方法900的示例性流程图。方法900包括以下步骤:步骤901和903。在步骤901中,通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别图像中的字符块来在图像选择满足条件的种子字符块,该条件为:该种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合S的元素之一。在步骤903中,以该种子字符块为起始在图像中确定日文收件人地址的中地址的区域。方法900和装置10的配置可以存在对应关系,因此,在一些实施方式中方法900的更详细的设计可以参考本公开内容公开的对应的装置的具体描述。
发明人发现,组合使用CNN、FCN分类器对中地址字符分类别进行判断,是优选的方案。这有利于提高确定中地址的区域的准确程度,进一步的有利于后期准确且高效的识别中地址字符以及整个日文收件人地址。
本公开内容和涉及识别图像中的日文收件人地址的方法。图10是根据本公开内容的一个实施方式的识别图像中的日文收件人地址的方法100的示例性流程图。
在步骤101中使用本公开内容的方法900确定中地址的区域。
在步骤103中使用FCN分类器识别结果确定图像中中地址中的字符。
在步骤105中使用CNN分类器识别结果确定图像中上地址中的字符。
在步骤107中使用CNN分类器识别结果确定图像中下地址中的字符。
替选的,图像中上地址、下地址中的字符也可以使用其他分类器来识别。
本公开内容还涉及对具有日文收件人地址的邮件进行分类的方法。该方法包括:基于本公开内容的识别的日文收件人地址对邮件进行分类。
本公开内容还涉及对具有日文收件人地址的邮件进行分类的装置。该被配置成基于本公开内容的识别的日文收件人地址对邮件进行分类。
在一个实施方式中,本公开内容还提供一种存储介质。存储介质上存储有信息处理设备可读的程序代码,当在信息处理设备上执行程序代码时,程序代码使得信息处理设备执行根据本公开内容的上述方法。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。
图11是根据本公开内容的一个实施方式的信息处理设备1100的示例性框图。
在图11中,中央处理单元(CPU)1101根据存储在只读存储器(ROM)1102中的程序或从存储部分1108加载到随机存取存储器(RAM)1103的程序来进行各种处理。在RAM 1103中,也根据需要来存储在CPU 1101执行各种处理时所需的数据等。
CPU 1101、ROM 1102以及RAM 1103经由总线1104彼此连接。输入/输出接口1105也连接至总线1104。
以下部件连接至输入/输出接口1105:包括软键盘等的输入部分1106;包括诸如液晶显示器(LCD)等的显示器以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括网络接口卡如LAN卡、调制解调器等的通信部分1109。通信部分1109经由诸如英特网、局域网的网络执行通信处理。
驱动器1110根据需要也连接至输入/输出接口1105。可拆卸介质1111如半导体存储器等根据需要安装在驱动器1110上,使得从其中读取的计算机程序根据需要被安装到存储部分1108。
CPU 1101可以运行用于实现本公开内容的方法的程序代码。
本公开内容的方法和装置对中地址中的不同类型的字符分优先级选用多种方法组合进行识别,至少具有以下有益效果:提高了识别的效率和准确度。
尽管上面已经通过对本发明的具体实施方式的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下,各实施方式之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。
应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。
此外,本发明的各实施方式的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。
附记
1.一种处理图像的装置,包括:
选择单元,其被配置成通过使用卷积网络分类器或全卷积网络分类器识别所述图像中的字符块来在所述图像中选择满足条件的种子字符块,所述条件为:所述种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合的元素之一;以及
确定单元,其被配置成以所述种子字符块为起始在所述图像中确定日文收件人地址的中地址的区域。
2.根据附记1所述的装置,其中,所述全卷积网络分类器被配置成用于确定所述图像中要分类的字符块为所述字符集合中的字符的可信程度,而不管所述要分类的字符块是否为除所述字符集合中的字符以外的字符。
3.根据附记1所述的装置,其中,使用卷积网络分类器识别所述图像中的字符块包括对所述图像中的字符所在区域进行过分割。
4.根据附记3所述的装置,其中,所述选择单元被配置成:
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时出现了第一CNN种子字符块,则将所述第一CNN种子字符块选择为所述种子字符块;其中,所述第一CNN种子字符块满足以下条件:该第一CNN种子字符块的关于第一字符子集合的CNN分类的最大CNN分类置信度大于第一CNN阈值,并且该第一CNN种子字符块具有与该第一CNN种子字符块直接相邻的数字字符块;
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第一CNN种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第一FCN种子字符块,则将所述第一FCN种子字符块选择为所述种子字符块;其中,所述第一FCN种子字符块满足以下条件:该第一FCN种子字符块的关于所述第一字符子集合的FCN分类的最大FCN分类置信度大于第一FCN阈值,并且该第一FCN种子字符块具有与该第一FCN种子字符块直接相邻的所述数字字符块;
其中,所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
5.根据附记4所述的装置,其中,所述选择单元被配置成:
如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第一FCN种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第二FCN种子字符块,则将所述第二FCN种子字符块选择为所述种子字符块,其中,所述第二FCN种子字符块满足以下条件:该第二FCN种子字符块的关于字符“-”的FCN分类的FCN分类置信度大于第二FCN阈值,并且该第二FCN种子字符块具有与该第二FCN种子字符块直接相邻的所述数字字符块。
6.根据附记5所述的装置,其中,所述选择单元被配置成:
如果通过使用所述全卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第二FCN种子字符块,则
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时出现了第二CNN种子字符块,则将所述第二CNN种子字符块选择为所述种子字符块;其中,所述第二CNN种子字符块满足以下条件:该第二CNN种子字符块的关于数字集合的CNN分类的最大CNN分类置信度大于第二CNN阈值,并且该第二CNN种子字符块具有与该第二CNN种子字符块直接相邻的所述数字字符块;
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第二CNN种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第三FCN种子字符块,则将所述第三FCN种子字符块选择为所述种子字符块;其中,所述第三FCN种子字符块满足以下条件:该第三FCN种子字符块的关于所述数字集合的FCN分类的最大FCN分类置信度大于第三FCN阈值,并且该第三FCN种子字符块具有与该第三FCN种子字符块直接相邻的所述数字字符块;
其中,所述数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
7.根据附记1所述的装置,其中,所述选择单元被配置成:
通过使用所述卷积网络分类器对各字符块关于所述字符集合进行分类来确定各字符块的CNN分类及CNN分类置信度;
通过使用所述全卷积网络分类器对各字符块关于所述字符集合进行分类来确定各字符块的FCN分类及FCN分类置信度。
8.根据附记7所述的装置,其中,所述选择单元被配置成:
如果由各CNN分类构成的CNN分类集中包括满足以下条件的第一CNN分类,则将所述第一CNN分类所对应的字符块选择为种子字符块:该第一CNN分类属于第一字符子集合,该第一CNN分类所对应的第一CNN分类置信度大于第一CNN阈值,并且该第一CNN分类所对应的字符块具有与该字符块直接相邻的数字字符块;
其中,所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
9.根据附记8所述的方法,其中,所述选择单元被配置成:
如果所述CNN分类集中不包括所述第一CNN分类,则:
如果由各FCN分类构成的FCN分类集中是否包括满足以下条件的第一FCN分类,则将所述第一FCN分类所对应字符块确定为种子字符块:该第一FCN分类属于所述第一字符子集合,该第一FCN分类所对应的第一FCN分类置信度大于第一FCN阈值,并且该第一相应FCN分类所对应的字符块具有与该字符块直接相邻的所述数字字符块。
10.根据附记9所述的装置,其中,所述选择单元被配置成:
如果所述FCN分类集中不包括所述第一FCN分类,则:
如果所述FCN分类集中包括满足以下条件的第二FCN分类,则将所述第二FCN分类所对应的字符块选择为种子字符块:该第二FCN分类为字符“-”,该第二FCN分类所对应的第二FCN分类置信度大于第二FCN阈值,并且该第二FCN分类所对应的字符块具有与该字符块直接相邻的所述数字字符块。
11.根据附记10所述的装置,其中,所述选择单元被配置成:
如果所述FCN分类集中不包括所述第二FCN分类,则:
如果所述CNN分类集中包括满足以下条件的第二CNN分类,则将所述第二CNN分类所对应的字符块选择为种子字符块:该第二CNN分类属于数字集合,该第二CNN分类所对应的第二CNN分类置信度大于第二CNN阈值,并且该第二CNN分类所对应的字符块具有与该字符块直接相邻的所述数字字符块;
其中,所述数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
12.根据附记11所述的装置,其中,所述选择单元被配置成:
如果所述CNN分类集中不包括所述第二CNN分类,则:
如果所述FCN分类集中包括满足以下条件的第三FCN分类,则将所述第三FCN分类所对应的字符块选择为所述种子字符块:该第三FCN分类属于所述数字集合,该第三FCN分类所对应的第三FCN分类置信度大于第三FCN阈值,并且该第三FCN分类所对应的字符块具有与该字符块直接相邻的所述数字字符块。
13.根据附记7所述的装置,其中,所述选择单元被配置成:
如果第一CNN分类集中具有最大置信度的第一最可信CNN分类的置信度大于第一CNN阈值,则将所述第一最可信CNN分类所对应的字符块选择为所述种子字符块;
其中,所述第一CNN分类集是由各CNN分类中满足以下条件的分类构成:该分类属于第一字符子集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块;
所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
14.根据附记13所述的装置,其中,所述选择单元被配置成:
如果所述第一CNN分类集中具有最大置信度的所述第一最可信CNN分类的置信度不大于所述第一CNN阈值,则:
如果第一FCN分类集中具有最大置信度的第一最可信FCN分类的置信度大于第一FCN阈值,则将所述第一最可信FCN分类所对应的字符块确定为所述种子字符块;其中,所述第一FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类属于所述第一字符子集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。
15.根据附记14所述的装置,其中,所述选择单元被配置成:
如果所述第一FCN分类集中具有最大置信度的所述第一最可信FCN分类的置信度不大于所述第一FCN阈值,则:
如果第二FCN分类集中具有最大置信度的第二最可信FCN分类的置信度大于第二FCN阈值,则将所述第二最可信FCN分类所对应的字符块选择为所述种子字符块;
其中,所述第二FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类为字符“-”,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块。
16.根据附记15所述的装置,其中,所述选择单元被配置成:
如果第二CNN分类集中具有最大置信度的第二最可信CNN分类的置信度大于第二CNN阈值,则将所述第二最可信CNN分类所对应的字符块选择为所述种子字符块;
其中,所述第二CNN分类集是由各CNN分类中满足以下条件的分类构成:该分类属于数字集合,并且该分类所对应的字符块具有与该字符块直接相邻的所述数字字符块;并且
其中,所述数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
17.根据附记16所述的装置,其中,所述选择单元被配置成:
如果所述第二最可信CNN分类的置信度不大于所述第二CNN阈值,则:
如果第三FCN分类集中具有最大置信度的第三最可信FCN分类的置信度大于第三FCN阈值,则将所述第三最可信FCN分类所对应的字符块选择为所述种子字符块;
其中,所述第三FCN分类集是由各FCN分类中满足以下条件的分类构成:该分类属于所述数字集合,并且该分类所对应的字符块具有与该字符块直接相邻的所述数字字符块。
18.根据附记1所述的装置,其中,所述确定单元被配置成:
检测所述种子字符块与所述种子字符块左侧的左候选种子字符块之间的间隙;以及
如果所述间隙大于间隙阈值,则基于所述种子字符块的位置设定所述中地址的左边界;否则
如果所述卷积网络分类器确定所述左候选种子字符块所对应的字符属于所述字符集合,则将所述左候选种子字符块设定为下一种子字符块;否则,执行以下步骤:
如果所述全卷积网络分类器确定所述左候选种子字符块所对应的字符属于所述字符集合,则将所述左候选种子字符块设定为下一种子字符块,否则基于所述种子字符块设定所述中地址的左边界。
19.根据附记1所述的装置,其中,所述确定单元被配置成:
检测所述种子字符块与所述种子字符块右侧的右候选种子字符块之间的间隙;以及
如果所述间隙大于间隙阈值,则基于所述种子字符块设定所述中地址的右边界;否则
如果所述卷积网络分类器确定所述右候选种子字符块所对应的字符属于所述字符集合,则将所述右候选种子字符块设定为下一种子字符块;否则,执行以下步骤:
如果所述全卷积网络分类器确定所述右候选种子字符块所对应的字符属于所述字符集合,则将所述右候选种子字符块设定为下一种子字符块,否则基于所述种子字符块设定所述中地址的右边界。
20.一种处理图像的方法,包括:
通过使用卷积网络分类器或全卷积网络分类器识别图像中的字符块来在图像选择满足条件的种子字符块,所述条件为:该种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合S的元素之一;以及
以所述种子字符块为起始在所述图像中确定日文收件人地址的中地址的区域。
Claims (10)
1.一种处理图像的装置,包括:
选择单元,被配置成通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别所述图像中的字符块来在所述图像中选择满足条件的种子字符块,所述条件为:所述种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合的元素之一;以及
确定单元,被配置成以所述种子字符块为起始在所述图像中确定日文收件人地址的中地址的区域;
其中,所述选择单元被配置成:
通过使用所述卷积网络分类器对各字符块关于所述字符集合进行分类,以确定各字符块的卷积网络分类及卷积网络分类置信度;
通过使用所述全卷积网络分类器对各字符块关于所述字符集合进行分类,以确定各字符块的全卷积网络分类及全卷积网络分类置信度。
2.根据权利要求1所述的装置,其中,所述全卷积网络分类器被配置成用于确定所述图像中要分类的字符块为所述字符集合中的字符的可信程度,而不管所述要分类的字符块是否为除所述字符集合中的字符以外的字符。
3.根据权利要求1所述的装置,其中,使用卷积网络分类器识别所述图像中的字符块包括对所述图像中的字符所在区域进行过分割。
4.根据权利要求3所述的装置,其中,所述选择单元被配置成:
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时出现了第一卷积网络种子字符块,则将所述第一卷积网络种子字符块选择为所述种子字符块;其中,所述第一卷积网络种子字符块满足以下条件:该第一卷积网络种子字符块的关于第一字符子集合的卷积网络分类的最大卷积网络分类置信度大于第一卷积网络阈值,并且该第一卷积网络种子字符块具有与该第一卷积网络种子字符块直接相邻的数字字符块;
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第一卷积网络种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第一全卷积网络种子字符块,则将所述第一全卷积网络种子字符块选择为所述种子字符块;其中,所述第一全卷积网络种子字符块满足以下条件:该第一全卷积网络种子字符块的关于所述第一字符子集合的全卷积网络分类的最大全卷积网络分类置信度大于第一全卷积网络阈值,并且该第一全卷积网络种子字符块具有与该第一全卷积网络种子字符块直接相邻的所述数字字符块;
其中,所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
5.根据权利要求4所述的装置,其中,所述选择单元被配置成:
如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第一全卷积网络种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第二全卷积网络种子字符块,则将所述第二全卷积网络种子字符块选择为所述种子字符块,其中,所述第二全卷积网络种子字符块满足以下条件:该第二全卷积网络种子字符块的关于字符“-”的全卷积网络分类的全卷积网络分类置信度大于第二全卷积网络阈值,并且该第二全卷积网络种子字符块具有与该第二全卷积网络种子字符块直接相邻的所述数字字符块。
6.根据权利要求5所述的装置,其中,所述选择单元被配置成:
如果通过使用所述全卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第二全卷积网络种子字符块,则
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时出现了第二卷积网络种子字符块,则将所述第二卷积网络种子字符块选择为所述种子字符块;其中,所述第二卷积网络种子字符块满足以下条件:该第二卷积网络种子字符块的关于数字集合的卷积网络分类的最大卷积网络分类置信度大于第二卷积网络阈值,并且该第二卷积网络种子字符块具有与该第二卷积网络种子字符块直接相邻的所述数字字符块;
如果使用所述卷积网络分类器对所述图像中的字符块进行分类时始终未出现所述第二卷积网络种子字符块,则执行以下步骤:如果使用所述全卷积网络分类器对所述图像中的字符块进行分类时出现了第三全卷积网络种子字符块,则将所述第三全卷积网络种子字符块选择为所述种子字符块;其中,所述第三全卷积网络种子字符块满足以下条件:该第三全卷积网络种子字符块的关于所述数字集合的全卷积网络分类的最大全卷积网络分类置信度大于第三全卷积网络阈值,并且该第三全卷积网络种子字符块具有与该第三全卷积网络种子字符块直接相邻的所述数字字符块;
其中,所述数字集合由字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成。
7.根据权利要求1所述的装置,其中,所述确定单元被配置成:
检测所述种子字符块与所述种子字符块左侧的左候选种子字符块之间的间隙;以及
如果所述间隙大于间隙阈值,则基于所述种子字符块的位置设定所述中地址的左边界;否则
如果所述卷积网络分类器确定所述左候选种子字符块所对应的字符属于所述字符集合,则将所述左候选种子字符块设定为下一种子字符块;否则,执行以下步骤:
如果所述全卷积网络分类器确定所述左候选种子字符块所对应的字符属于所述字符集合,则将所述左候选种子字符块设定为下一种子字符块,否则基于所述种子字符块设定所述中地址的左边界。
8.根据权利要求1所述的装置,其中,所述选择单元被配置成:
如果由各卷积网络分类构成的卷积网络分类集中包括满足以下条件的第一卷积网络分类,则将所述第一卷积网络分类所对应的字符块选择为种子字符块:该第一卷积网络分类属于第一字符子集合,该第一卷积网络分类所对应的第一卷积网络分类置信度大于第一卷积网络阈值,并且该第一卷积网络分类所对应的字符块具有与该字符块直接相邻的数字字符块;
其中,所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;并且
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
9.根据权利要求1所述的装置,其中,所述选择单元被配置成:
如果第一卷积网络分类集中具有最大置信度的第一最可信卷积网络分类的置信度大于第一卷积网络阈值,则将所述第一最可信卷积网络分类所对应的字符块选择为所述种子字符块;
其中,所述第一卷积网络分类集是由各卷积网络分类中满足以下条件的分类构成:该分类属于第一字符子集合,并且该分类所对应的字符块具有与该字符块直接相邻的数字字符块;
所述第一字符子集合由字符“番”、“地”、“丁”、“目”和“号”构成;
所述数字字符块是满足以下条件的字符块:该字符块被识别为字符“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”中的一个的置信度大于预定阈值。
10.一种处理图像的方法,包括以下步骤:
通过使用卷积网络(CNN)分类器或全卷积网络(FCN)分类器识别所述图像中的字符块来在所述图像中选择满足条件的种子字符块,所述条件为:所述种子字符块的识别结果为字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合的元素之一;以及
以所述种子字符块为起始在所述图像中确定日文收件人地址的中地址的区域;
其中,所述卷积网络分类器被配置成通过对各字符块关于所述字符集合进行分类,来确定各字符块的卷积网络分类及卷积网络分类置信度;
所述全卷积网络分类器被配置成对各字符块关于所述字符集合进行分类来确定各字符块的全卷积网络分类及全卷积网络分类置信度。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312165.7A CN111144399B (zh) | 2018-11-06 | 2018-11-06 | 处理图像的装置和方法 |
JP2019196307A JP7351178B2 (ja) | 2018-11-06 | 2019-10-29 | 画像を処理する装置及び方法 |
US16/669,543 US20200143160A1 (en) | 2018-11-06 | 2019-10-31 | Device and method for processing image |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811312165.7A CN111144399B (zh) | 2018-11-06 | 2018-11-06 | 处理图像的装置和方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111144399A CN111144399A (zh) | 2020-05-12 |
CN111144399B true CN111144399B (zh) | 2024-03-05 |
Family
ID=70459968
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811312165.7A Active CN111144399B (zh) | 2018-11-06 | 2018-11-06 | 处理图像的装置和方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20200143160A1 (zh) |
JP (1) | JP7351178B2 (zh) |
CN (1) | CN111144399B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10963757B2 (en) * | 2018-12-14 | 2021-03-30 | Industrial Technology Research Institute | Neural network model fusion method and electronic device using the same |
CN110197179B (zh) * | 2019-03-14 | 2020-11-10 | 北京三快在线科技有限公司 | 识别卡号的方法和装置、存储介质及电子设备 |
US11275934B2 (en) * | 2019-11-20 | 2022-03-15 | Sap Se | Positional embeddings for document processing |
DE102019218947A1 (de) * | 2019-12-05 | 2021-06-10 | Robert Bosch Gmbh | Hardwarebeschleunigter Betrieb künstlicher neuronaler Netzwerke |
CN112733858B (zh) * | 2021-01-08 | 2021-10-26 | 北京匠数科技有限公司 | 基于字符区域检测的图像文字快速识别方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5617481A (en) * | 1994-03-22 | 1997-04-01 | Kabushiki Kaisha Toshiba | Address reading apparatus and address printing apparatus using mail address position mark |
JP2006031099A (ja) * | 2004-07-12 | 2006-02-02 | Fujitsu Ltd | 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN108460772A (zh) * | 2018-02-13 | 2018-08-28 | 国家计算机网络与信息安全管理中心 | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 |
CN108734184A (zh) * | 2017-04-17 | 2018-11-02 | 苏宁云商集团股份有限公司 | 一种对敏感图像进行分析的方法及装置 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3088038B2 (ja) * | 1991-12-26 | 2000-09-18 | 株式会社東芝 | 郵便物区分装置と郵便物区分方法 |
JP5169033B2 (ja) | 2007-06-12 | 2013-03-27 | 日本電産株式会社 | 軸流ファン |
US20150347860A1 (en) * | 2014-05-30 | 2015-12-03 | Apple Inc. | Systems And Methods For Character Sequence Recognition With No Explicit Segmentation |
-
2018
- 2018-11-06 CN CN201811312165.7A patent/CN111144399B/zh active Active
-
2019
- 2019-10-29 JP JP2019196307A patent/JP7351178B2/ja active Active
- 2019-10-31 US US16/669,543 patent/US20200143160A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5617481A (en) * | 1994-03-22 | 1997-04-01 | Kabushiki Kaisha Toshiba | Address reading apparatus and address printing apparatus using mail address position mark |
JP2006031099A (ja) * | 2004-07-12 | 2006-02-02 | Fujitsu Ltd | 文字認識をコンピュータに行なわせるためのコンピュータ実行可能なプログラム |
CN107025452A (zh) * | 2016-01-29 | 2017-08-08 | 富士通株式会社 | 图像识别方法和图像识别设备 |
CN108734184A (zh) * | 2017-04-17 | 2018-11-02 | 苏宁云商集团股份有限公司 | 一种对敏感图像进行分析的方法及装置 |
CN108460772A (zh) * | 2018-02-13 | 2018-08-28 | 国家计算机网络与信息安全管理中心 | 基于卷积神经网络的广告骚扰传真图像检测系统及方法 |
Non-Patent Citations (2)
Title |
---|
Evaluation of Neural Network Language Models In Handwritten Chinese Text Recognition;Yi-Chao Wu等;《2015 13th International Conference on Document Analysis and Recognition (ICDAR)》;第166-169页 * |
Qingqing Wang等.Similar Handwritten Chinese Character Recognition Using Hierarchical CNN Model.《2017 14th IAPR International Conference on Document Analysis and Recognition》.2018,第1卷603-608. * |
Also Published As
Publication number | Publication date |
---|---|
JP2020077413A (ja) | 2020-05-21 |
JP7351178B2 (ja) | 2023-09-27 |
US20200143160A1 (en) | 2020-05-07 |
CN111144399A (zh) | 2020-05-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111144399B (zh) | 处理图像的装置和方法 | |
Antonacopoulos et al. | ICDAR2005 page segmentation competition | |
JP6151763B2 (ja) | 再帰的な区分化を用いた文書画像についての単語区分化 | |
US7466861B2 (en) | Method for outputting character recognition results | |
US8606010B2 (en) | Identifying text pixels in scanned images | |
US8233726B1 (en) | Image-domain script and language identification | |
US20070263930A1 (en) | Character recognition processing system and computer readable medium storing program for character recognition processing | |
JP2001167131A (ja) | 文書シグネチュアを使用する文書の自動分類方法 | |
JP6897749B2 (ja) | 学習方法、学習システム、および学習プログラム | |
CN112508011A (zh) | 一种基于神经网络的ocr识别方法及设备 | |
US20110295778A1 (en) | Information processing apparatus, information processing method, and program | |
CN113420669B (zh) | 基于多尺度训练和级联检测的文档版面分析方法和系统 | |
US11270143B2 (en) | Computer implemented method and system for optical character recognition | |
JP4077919B2 (ja) | 画像処理方法及び装置及びその記憶媒体 | |
WO2002019248A9 (en) | Character recognition system | |
CN104966109A (zh) | 医疗化验单图像分类方法及装置 | |
CN111832497B (zh) | 一种基于几何特征的文本检测后处理方法 | |
CN111553442B (zh) | 一种分类器链标签序列的优化方法及系统 | |
CN111340029A (zh) | 用于识别收件人地址中的至少部分地址的装置和方法 | |
CN112560849B (zh) | 基于神经网络算法的文理分割方法及系统 | |
CN112132150A (zh) | 文本串识别方法、装置及电子设备 | |
JPH11184976A (ja) | 辞書学習方式および文字認識装置 | |
JPH08241378A (ja) | 低品質文字の認識方法 | |
JP3374762B2 (ja) | 文字認識方法及びその装置 | |
VISHWANATH et al. | Classification Of Scripts Using Vertical Stroke Feature |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |