CN1538342A - 一种通过多个图象光识别邮件的方法 - Google Patents

一种通过多个图象光识别邮件的方法 Download PDF

Info

Publication number
CN1538342A
CN1538342A CNA200410043081XA CN200410043081A CN1538342A CN 1538342 A CN1538342 A CN 1538342A CN A200410043081X A CNA200410043081X A CN A200410043081XA CN 200410043081 A CN200410043081 A CN 200410043081A CN 1538342 A CN1538342 A CN 1538342A
Authority
CN
China
Prior art keywords
address information
image
statistics
time
bianry image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA200410043081XA
Other languages
English (en)
Other versions
CN100350421C (zh
Inventor
������ɪķ�����ȱ�
伯尔卡瑟姆·本尤彼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SOLISTEC
Solystic SAS
Original Assignee
SOLISTEC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=32732022&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN1538342(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by SOLISTEC filed Critical SOLISTEC
Publication of CN1538342A publication Critical patent/CN1538342A/zh
Application granted granted Critical
Publication of CN100350421C publication Critical patent/CN100350421C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"
    • G06V30/2504Coarse or fine approaches, e.g. resolution of ambiguities or multiscale approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Sorting Of Articles (AREA)

Abstract

一种在一自动地址读取系统中处理邮件的方法,其中一多级灰度图像(MNG)由包含地址信息(ADR)的每件物品的表面构成,该多级灰度图像被转换成第一个二值图像(NB1),并且该二值图像被发送至一个OCR单元用于对地址信息进行第一次自动估计(OCR1),该方法具有以下特征:从多级灰度图像和/或二值图像和/或自动数据估计的结果中提取出代表某一类别的地址信息标志的标记(SGN1、SGN2),然后考虑所述标记代表的类别,所述多级灰度图像再次被转换成第二个二值图像(NB2),并且该第二个二值图像被传送到一个OCR单元用于进行第二次自动估计(OCR2)。

Description

一种通过多个图象光识别邮件的方法
技术领域
本发明涉及一种在一自动地址读取系统中处理邮件的方法,其中一多级灰度图像由包含地址信息的每件物品的表面构成,该多级灰度图像被转换成第一个二值图像,该二值图像被送至一光学字符读取(OCR)单元,对所述地址信息进行第一次自动估计。
该方法特别适用于自动邮件分类装置,其中对地址信息进行自动估计,从而对邮件进行向外或向内的分类。
背景技术
在上述这类处理邮件的已知方法中,在处理大量图像时,将多级灰度图像转换成二值图像的过程涉及到越来越复杂的运算方法。尤其是,在地址信息的标志和图像背景之间的对比度较低,地址信息很难读取的情况下,已经研发出运算方法用于将多级灰度图像二进制化,其中地址信息的字符间距或多或少地比较远,所述间距依赖于字符是手写的还是由机器打印出来的,所述机器可以是点矩阵打印机、激光打印机等等。
尽管这些二进制算法的性能得到了改进,然而实际上,由于不适当的二进制化使得不能对地址信息进行明确地确认,或者由于不适当的二进制化使得地址信息被读错,在自动邮件分类装置中成批次的邮件仍然含有被拒绝的邮件。
美国专利No.6282314公开一种分析可能含有字符和表格的图像的方法,其中图像被二进制化从而隔离可由OCR读取的含有字符和图像的各部分。美国专利No.4747149公开了一种分析图像的方法,其中以多种不同方式并行地进行二进制化,并且对最佳的二值图像OCR处理。
发明内容
为了提高读取成功率并降低出错率,本发明的目的是对上述处理物品的方法提出改进。
为此目的,本发明提出一种在一自动地址读取系统中处理邮件的方法,其中一多级灰度图像由包含地址信息的每件物品的表面构成,该多级灰度图像被转换成第一个二值图像,该二值图像被送至一光学字符读取(OCR)单元对所述地址信息进行第一次自动估计,该方法具有以下特征:从多级灰度图像和/或二值图像和/或自动数据估计的结果中提取出代表某一类别地址信息标志的标记,考虑到所述标记所代表的类别,将所述多级灰度图像再次转换成第二个二值图像,并且将第二个二值图像传送至一OCR单元,以进行第二次自动估计。
本发明的方法具有下列特征:
·构成上述信号的数据包括指示在多级灰度图像的地址信息标志中对比度的第一统计数据、指示在第一个二值图像中地址信息标志的印刷质量的第二统计数据、指示地址信息标志类型(手写图像或机器打印标志)的第三统计数据,以及有关单词和字符识别质量的第四统计数据;
·将多级灰度图像第二次转换成二值图像包括根据地址信息标志类别从多个二进制过程中选择一个特定的二进制处理过程;
·通过一分类器选择出上述特定的处理过程,所述分类器接收构成标记的数据作为其输入;和
·组合第一次自动估计结果和第二次自动估计结果,从而得到地址信息。
在本发明的方法中,多级灰度图像的第一次转换采用一种所谓“通用”的二进制算法,也就是说,这种算法并不特别适用于一特定的地址信息标志类别。术语“标志类别”表示根据标志是手写的还是机器打印的结果对标志进行分类;在多级灰度图像中标志是低对比度写成的,或者在多级灰度图像中标志是高对比度写成的;标志是用点矩阵打印机打印的,或者标志的字符是用激光打印机打印的;标志中的字符是拆开的,或者标志中的字符是连在一起的等等。本技术领域的技术人员知道“通用”二进制算法在地址信息标志的多个类别中具有令人满意的统计效果。
与此相比,多级灰度图像的第二次转换采用一种特定的二进制算法,也就是说,该算法特定适用于一种地址信息标志类别。作为非限制性实例,本技术领域的技术人员知道,基于拉普拉斯型卷积的二进制算法适用于低对比度的图像;基于统计阈值的二进制算法适用于高对比度的图像;使像素值达到平均数的低通滤波的二进制算法适用于由点阵打印机打印出的标志。
附图说明
下面对本发明方法的实施过程进行描述,并在附图中表示出来。
图1为本发明方法的方块示意图。
图2表示如何将两个自动估计结果组合起来的示意图。
具体实施方式
本发明所依据的思想是:在对地址信息进行第一次自动估计之后,对包括地址信息的多级灰度图像进行第二次二值处理,对于地址信息标志的某些特定的特征,第二次二值处理将比第一次二值处理更加合适。
在图1中,邮件表面的包含地址信息的多级灰度图像MNG首先被通用的第一次二值处理Bin1转换成第一个二值图像NB1。
为了对地址信息进行第一次自动估计OCR1,该第一个二值图像NB1被传送至一个OCR单元。
从多级灰度图像MNG和/或从二值图像NB1和/或从自动估计OCR1的结果中提取出构成标记SGN1、SGN2的数据。这些数据的提取用箭号E1和E2表示。
举例来说,SGN1标记部分包含:
·从自动估计OCR1连同有关地址信息标志类别(手写/机打)的指示中所提取的数据;
·由处理OCR1所得到的二值图像中二维地址模块的坐标;
·从二值图像Bin1、自动估计OCR1和有关地址信息标志印刷质量的指示中所提取的统计数据:互连组份(interconnected components)(二值图象的象素串)的平均密度;地址信息中每一字符的互连组份数;每一互连组份的字符数;每一字符的寄生(parasite)数;整个地址模块中最佳侯选物的识别得分的平均值。
SGN2信号部分包含,例如,从多级灰度图像中提取出的统计数据,代表多级灰度图像中地址信息标志的对比度:多级灰度图象中字符的平均灰度水平;字符灰度直方图的标准差;多级灰度图像的背景的平均灰度水平;多级灰度图像背景的直方图的标准差。
在每个多级灰度图像MNG中,所提取出的数据构成标记SGN1、SGN2,对地址信息标志进行分类。类型数据可以输入至一个适于识别地址信息标志类别的分类器CLA中,然后从多个专用二进制处理方法中识别一个特定的二进制处理方法,所述处理方法最适于该类型的标志。此后,对所述多级灰度图像MNG进行上述由Bin2提供并经分类器CLA确定的特定的二进制处理。
本技术领域技术人员知道,对图像进行二进制化的特定二进制运算方法,例如Bin2,具有一个噪声背景,地址信息为手写的图像,地址信息为机器打印的图像等。根据不同情况,这些算法在其他选择中采用了自适应对比、微分运算符、低通运算符,或者动态阈值等。
为了对地址信息进行第二次自动估计OCR2,所述第二个二值图像NB1可以被传送至一个OCR单元。
举例来说,分类器CLA可以是一个具有监督训练的神经网络,或者是一个具有模糊逻辑基本操作知识的专家系统。
根据本发明的方法,我们发现,将两个自动估计OCR1和OCR2的结果T1和T2组合起来之后,其读取成功率就有可能既优于第一次自动估计OCR1后的读取成功率,也优于第二次自动估计OCR2后的读取成功率。
我们发现通过将第一次自动估计OCR1的结果T1和第二次自动估计OCR2的T2组合起来并作为输出,通过比较第一次自动估计输出的特定出错率以及第二次自动估计输出的出错率,有可能降低整体出错率。
在图1中,用CMB表示的方块代表将T1和T2组合起来的过程。这个组合过程在于采用从执行第一次和第二次自动估计的OCR单元输出产生的结果向量,以及所述结果向量的可信度。组合过程还可以利用专家系统,通过地址数据库在语义水平上获得的联系,使得地址假设之间相关联。所述组合结果T1和T2的过程的优点是:如果经过OCR1处理的地址信息被拒绝,其有可能提高二值图像NB2的读取成功率;通过OCR2再次循环处理经OCR1得到的分类结果从而提高整体读取成功率。
更具体地,参照图2,经过OCR1和OCR2处理有可能提取出一条或者两条与上下文有关的地址信息,或者当两个二值图像NB1和NB2都失败时,上述处理没有提取出任何信息。按照本发明,组合CMB与上下文有关的地址信息T1和T2在于形成地址信息ADR,当与上下文有关的两条信息T1和T2被读取,而且相互关联时,可以用T1=T2=>ADR=T1表示。如果与上下文有关的地址信息T1和T2中只有一个被读取时,其被保留作为所寻找的地址信息,用模块ADR=T1或者ADR=T2表示。如果与上下文有关并且相互矛盾的信息T1和T2被读取时,此时需要进行裁决,考虑所述与上下文有关的信息T1和T2各自的可信度,以决定保留哪个地址ADR,在图2中用T1≠T2=>T1或者T2或者“拒绝”表示。最后,如果从二值图像NB1和NB2中没有提取出任一条与上下文有关的信息,则没有地址信息形成,对应于模块ADR=拒绝。

Claims (7)

1.一种在一自动地址读取系统中处理邮件的方法,其中一多级灰度图像(MNG)由包含地址信息(ADR)的每件物品的表面构成,该多级灰度图像被转换成第一个二值图像(NB1),并且该二值图像被发送至一个OCR单元用于对地址信息进行第一次自动估计(OCR1),该方法具有以下特征:从多级灰度图像和/或二值图像和/或自动数据估计的结果中提取出代表某一类别的地址信息标志的标记(SGN1、SGN2),然后考虑所述标记代表的类别,所述多级灰度图像再次被转换成第二个二值图像(NB2),并且该第二个二值图像被传送到一个OCR单元用于进行第二次自动估计(OCR2)。
2.如权利要求1所述的方法,其中组成标记(SGN1,SGN2)的数据包括关于多级灰度图像的统计数据,关于第一个二值图像的统计数据,和关于由第一次自动估计(OCR1)传送的单词和字符的识别的统计数据。
3.如权利要求1或2所述的方法,其中组成标记(SGN1,SGN2)的数据包括指示在多级灰度图像的地址信息标志中对比度的第一统计数据、指示在第一个二值图像中地址信息标志印刷质量的第二统计数据、指示地址信息标志类型(手写图像/机打标志)的第三统计数据以及有关单词和字符识别质量的第四统计数据。
4.如权利要求1至3中任一项所述的方法,其中将多级灰度图像第二次转换成二值图像在于,根据地址信息标志类别从多个二进制处理过程中选择一个特定的二进制处理方法。
5.如权利要求4所述的方法,其中该特定处理过程通过一个分类器(CLA)被选择出,所述分类器接收构成标记的数据作为其输入。
6.如权利要求5所述的方法,其中分类器(CLA)是一个具有监督训练的神经网络。
7.如权利要求1至6中任一项所述的方法,其中为了得到地址信息(ADR),将第一次自动估计(OCR1)和第二次自动估计(OCR2)的结果组合起来。
CNB200410043081XA 2003-02-19 2004-02-18 一种通过多个图象光识别邮件的方法 Expired - Fee Related CN100350421C (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR0301997 2003-02-19
FR0301997A FR2851357B1 (fr) 2003-02-19 2003-02-19 Procede pour la reconnaissance optique d'envois postaux utilisant plusieurs images

Publications (2)

Publication Number Publication Date
CN1538342A true CN1538342A (zh) 2004-10-20
CN100350421C CN100350421C (zh) 2007-11-21

Family

ID=32732022

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB200410043081XA Expired - Fee Related CN100350421C (zh) 2003-02-19 2004-02-18 一种通过多个图象光识别邮件的方法

Country Status (9)

Country Link
US (2) US20040197009A1 (zh)
EP (1) EP1450295B2 (zh)
CN (1) CN100350421C (zh)
AT (1) ATE394752T1 (zh)
CA (1) CA2457271C (zh)
DE (1) DE602004013476D1 (zh)
ES (1) ES2306970T5 (zh)
FR (1) FR2851357B1 (zh)
PT (1) PT1450295E (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100350422C (zh) * 2004-11-16 2007-11-21 国际商业机器公司 用于使用多重扫描技术进行欺诈检测的装置、系统和方法
CN102708116B (zh) * 2005-09-22 2016-01-20 谷歌公司 用于图像处理的系统和方法
CN107220655A (zh) * 2016-03-22 2017-09-29 华南理工大学 一种基于深度学习的手写、印刷文本的分类方法

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2899359B1 (fr) * 2006-03-28 2008-09-26 Solystic Sas Procede utilisant la multi-resolution des images pour la reconnaissance optique d'envois postaux
DE102006016602B4 (de) * 2006-04-06 2007-12-13 Siemens Ag Verfahren zur Erkennung einer Postsendungsinformation
US9202127B2 (en) * 2011-07-08 2015-12-01 Qualcomm Incorporated Parallel processing method and apparatus for determining text information from an image
EP2806374B1 (en) * 2013-05-24 2022-07-06 Tata Consultancy Services Limited Method and system for automatic selection of one or more image processing algorithm
CN105550524B (zh) * 2013-07-17 2018-02-13 中国中医科学院 一种临床病例数据采集系统及采集方法
US9940511B2 (en) * 2014-05-30 2018-04-10 Kofax, Inc. Machine print, hand print, and signature discrimination
US9563825B2 (en) * 2014-11-20 2017-02-07 Adobe Systems Incorporated Convolutional neural network using a binarized convolution layer
US9418319B2 (en) 2014-11-21 2016-08-16 Adobe Systems Incorporated Object detection using cascaded convolutional neural networks
US9547821B1 (en) * 2016-02-04 2017-01-17 International Business Machines Corporation Deep learning for algorithm portfolios
WO2018117791A1 (es) * 2016-12-20 2018-06-28 Delgado Canez Marco Alberto Método para el pre-procesamiento de la imagen de una firma utilizando visión artificial
CN107833600A (zh) * 2017-10-25 2018-03-23 医渡云(北京)技术有限公司 医疗数据录入核查方法及装置、存储介质、电子设备
US11164025B2 (en) * 2017-11-24 2021-11-02 Ecole Polytechnique Federale De Lausanne (Epfl) Method of handwritten character recognition confirmation
US11195172B2 (en) 2019-07-24 2021-12-07 Capital One Services, Llc Training a neural network model for recognizing handwritten signatures based on different cursive fonts and transformations

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62214481A (ja) * 1986-03-17 1987-09-21 Nec Corp 画質判定装置
US5081690A (en) 1990-05-08 1992-01-14 Eastman Kodak Company Row-by-row segmentation and thresholding for optical character recognition
TW222337B (zh) 1992-09-02 1994-04-11 Motorola Inc
JP3335009B2 (ja) * 1994-09-08 2002-10-15 キヤノン株式会社 画像処理方法及び画像処理装置
JP3738781B2 (ja) * 1994-11-09 2006-01-25 セイコーエプソン株式会社 画像処理方法および画像処理装置
DE19508203C2 (de) 1995-03-08 1997-02-13 Licentia Gmbh Verfahren zur Schräglagenkorrektur bei maschinellem Lesen von Schriften
DE19531392C1 (de) 1995-08-26 1997-01-23 Aeg Electrocom Gmbh Verfahren zur Erzeugung einer Graphrepräsentation von Bildvorlagen
DE19646522C2 (de) * 1996-11-12 2000-08-10 Siemens Ag Verfahren und Vorrichtung zur Erkennung von Verteilinformationen auf Sendungen
CN1154879A (zh) * 1996-12-19 1997-07-23 邮电部第三研究所 信函分拣过程中邮政编码识别的处理方法及其装置
US5815606A (en) * 1996-12-23 1998-09-29 Pitney Bowes Inc. Method for thresholding a gray scale matrix
US6411737B2 (en) * 1997-12-19 2002-06-25 Ncr Corporation Method of selecting one of a plurality of binarization programs
JP4338155B2 (ja) * 1998-06-12 2009-10-07 キヤノン株式会社 画像処理装置及びその方法、コンピュータ可読メモリ
DE19843558B4 (de) 1998-09-23 2004-07-22 Zf Boge Elastmetall Gmbh Hydraulisch dämpfendes Gummilager
FR2795205B1 (fr) * 1999-06-15 2001-07-27 Mannesmann Dematic Postal Automation Sa Procede pour binariser des images numeriques a plusieurs niveaux de gris
US6741724B1 (en) * 2000-03-24 2004-05-25 Siemens Dematic Postal Automation, L.P. Method and system for form processing
EP2317458A1 (en) 2000-07-28 2011-05-04 RAF Technology, Inc. Orthogonal technology for multi-line character recognition
US7283676B2 (en) * 2001-11-20 2007-10-16 Anoto Ab Method and device for identifying objects in digital images
US6970606B2 (en) * 2002-01-16 2005-11-29 Eastman Kodak Company Automatic image quality evaluation and correction technique for digitized and thresholded document images

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100350422C (zh) * 2004-11-16 2007-11-21 国际商业机器公司 用于使用多重扫描技术进行欺诈检测的装置、系统和方法
CN102708116B (zh) * 2005-09-22 2016-01-20 谷歌公司 用于图像处理的系统和方法
CN107220655A (zh) * 2016-03-22 2017-09-29 华南理工大学 一种基于深度学习的手写、印刷文本的分类方法

Also Published As

Publication number Publication date
FR2851357A1 (fr) 2004-08-20
US20080159589A1 (en) 2008-07-03
CN100350421C (zh) 2007-11-21
FR2851357B1 (fr) 2005-04-22
PT1450295E (pt) 2008-07-11
US20040197009A1 (en) 2004-10-07
ATE394752T1 (de) 2008-05-15
CA2457271C (fr) 2012-10-23
DE602004013476D1 (de) 2008-06-19
EP1450295B2 (fr) 2011-02-23
CA2457271A1 (fr) 2004-08-19
ES2306970T3 (es) 2008-11-16
EP1450295B1 (fr) 2008-05-07
ES2306970T5 (es) 2011-06-21
EP1450295A1 (fr) 2004-08-25

Similar Documents

Publication Publication Date Title
CN100350421C (zh) 一种通过多个图象光识别邮件的方法
Srihari et al. Document Image Understanding.
US8644616B2 (en) Character recognition
US7233697B2 (en) Character recognition device and a method therefor
Sharma et al. Character recognition using neural network
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
CA2502529A1 (en) Model of documents and method for automatically classifying a document
Anugrah et al. Latin letters recognition using optical character recognition to convert printed media into digital format
Nagarajan et al. A real time marking inspection scheme for semiconductor industries
CN1438604A (zh) 基于贝叶斯分类器的文字字体判断设备及其方法
Oladele et al. Offline yorùbá handwritten word recognition using geometric feature extraction and support vector machine classifier
Thilagavathy et al. Recognition of distorted character using edge detection algorithm
Shirdhonkar et al. Discrimination between printed and handwritten text in documents
Ajao et al. Yoruba handwriting word recognition quality evaluation of preprocessing attributes using information theory approach
Suliman et al. Chain coding and pre processing stages of handwritten character image file
Murugeswari et al. Complex Background and Foreground Extraction in color Document Images using Interval Type 2 Fuzzy
Sahu et al. A survey on handwritten character recognition
Aparna et al. A complete OCR system development of Tamil magazine documents
Wang et al. Hierarchical content classification and script determination for automatic document image processing
Alginahi Thesholding and Character Recognition in Security Documents with Watermarked Background
Siras et al. A Deep Learning Approach for Digitization of Invoices
Maghrabi An offline Arabic handwritten character recognition system using template matching
JP3463255B2 (ja) 多値画像パターンの認識処理方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20071121

Termination date: 20160218