CN1237742A - 邮件等的地址阅读器、分类机以及字符串识别方法 - Google Patents

邮件等的地址阅读器、分类机以及字符串识别方法 Download PDF

Info

Publication number
CN1237742A
CN1237742A CN99101790A CN99101790A CN1237742A CN 1237742 A CN1237742 A CN 1237742A CN 99101790 A CN99101790 A CN 99101790A CN 99101790 A CN99101790 A CN 99101790A CN 1237742 A CN1237742 A CN 1237742A
Authority
CN
China
Prior art keywords
address
candidate item
character string
character
mail
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN99101790A
Other languages
English (en)
Other versions
CN1168040C (zh
Inventor
古贺昌史
影広达彦
上田洋
渡边成
藤泽浩道
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Omron Financial System Co Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Publication of CN1237742A publication Critical patent/CN1237742A/zh
Application granted granted Critical
Publication of CN1168040C publication Critical patent/CN1168040C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S209/00Classifying, separating, and assorting solids
    • Y10S209/90Sorting flat-type mail

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Sorting Of Articles (AREA)
  • Character Input (AREA)

Abstract

用于识别邮件表面上的收件人地址的地址阅读方法和装置。在本发明中,输入邮件表面的图象,并将其分割为至少一个字符串候选项。根据分割的字符串候选项从图象中提取至少一个地址区域候选项。根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析每个地址区域候选项,将地址区域候选项之一选择为邮件的收件人地址区域。将选择的地址区域候选项的字符串中的字符识别为用于对邮件进行分类的收件人地址。

Description

邮件地址阅读器、分类机 及字符串识别方法
本发明涉及一种用于识别邮件(信函、包裹、明信片、期刊)表面上的地址或者姓名的地址阅读方法及装置。更具体地,本发明涉及一种用于通过确定一个地址区域是否最可能是含有与特定地址或者姓名比如邮件的收件人相应的地址或者姓名的地址区域来识别邮件表面上的地址和姓名的地址阅读方法及装置。
在从邮件表面识别地址的常规方法中,执行下述步骤:
(1)将邮件的图象进行光电转换并作为数字图象输入到地址识别器中,
(2)从邮件的数字图象中提取地址区域候选项,其中每个地址区域候选项包括多个字符行和地址行候选项,以及
(3)读取地址区域候选项中所包括的字符,并解释为字符串。
在Proc.of International Workshop on Industrial Applications ofMachine Intelligence and Vision(MIV-89),IEEE,April 10,1989中H.Yashiro等人著的“A New Method of Document Structure ExtractionUsing Generic Layout Knowledge”中公开了用于完成上述步骤(2)的技术。该篇文件描述了如果图象区域包括一个字符行,则提取包括该图象区域的区域作为地址区域候选项。
在T.Akiyama等人著的“Document Image Segmentation MethodBased on Projection Profiles and State Densities”中公开了用于完成上述步骤(2)的另一种技术。该篇文件描述到,首先提取可能说明了一个地址的区域,然后提取该区域内的一个字符行。当提取该地址区域候选项时,拾取几个地址区域。
在Proc.of Icpr’96,IEEE,1996中N.Nakajima著的“Analysis ofAddress Layout on Japanese Handwritten Mail”中描述了另外一种技术。该篇文件说明了一种使用格式信息的方法,格式信息比如是图象中地址区域候选项的排列、地址区域候选项的形状、地址区域候选项中字符行的排列以及邮件图象的形状。
一般地,即使根据格式信息选择了一个地址区域,选择结果也取决于字符方向和处理结果。仅利用格式信息难于正确区分字符方向。例如,在图3A所示的地址区域300中,字符行“Flower,AZ 11111”显示为部分地址。
在某些情况下,根据字符行在地址区域300中的位置或者形状,不能确定邮件形状与地址区域中字符行方向之间的关系。字符行方向是一行字符中各连续字符的布置方向。在一行字符中,通常将一个字符写在前一个字符的右侧。在图3A的情况下,字符行方向是从左到右。
矩形邮寄品的常规地址识别设备在以下情况下不能确定正确的字符行方向:
(1)当邮件形状是长方形,地址区域候选项中的字符行方向是横向的,从左向右书写时。图3A的较上方向是字符的上部。
(2)当邮件的形状是长方形,地址区域候选项中的字符行方向是横向的,与从字符顶到底相反的方向书写时。字符行是横向的,从右到左书写。
(3)当字符行的方向和字符的方向是向右的时。在图3A中,字符行是垂直的,从左向右书写。
(4)当邮件形状为长方形,在上述情形(3)中,字符行方向和字符下的方向都为向右方向。字符行是垂直的,从右向左书写。
因此,根据上述,通过利用格式信息不能从几个地址区域候选项中选择一个正确的地址区域,因为格式信息不针对这些情况。
日本专利公开出版物8-224550公开一种通过获得地址区域信息来执行地址处理的装置。在该篇文件中,第一步骤分析作为候选项提取的地址区域中的字符行候选项的排列,第二步骤选择该地址区域候选项的首行。第三步骤识别该首行中的模式,并且识别所识别的模式是否是有效地址。第四步骤和最后步骤如果确定有效则选择包括该地址首行的地址区域作为正确地址。
当将上述常规技术应用于地址识别设备比如邮件分类机时,存在以下问题。在读邮件地址时,需要时间通过提取特定区域在地址区域候选项中精确地执行收件人地址字符识别。因此,处理大量邮件的邮件分类机,在机器需要速度和精度时,不能使用上述常规技术,因为它非常费时。另外,象图画或标记这样的噪声,它相对于邮件中所述的邻近地址中的字符是模糊的,和相对于邮政编码不清楚的字符以及象广告这样的地址能够产生问题。另外,根据与格式有关的信息难于确定地址区域候选项中的字符方向,因为字符方向取决于字符本身以及含有该字符的字符串的信息。
本发明提供一种地址阅读方法和装置,用于从由邮件表面获得的几个地址区域候选项中选择一个特定的地址,作为一个最可能的含有例如收件人地址的地址区域,并且用于识别所选择的地址区域中所含的字符串。邮件包括信函、明信片、包裹、期刊等。地址例如包括收件人和目的地址。收件人例如可能是个人、公司、单位、部门等。目的地址例如可能包括套房、公寓或者楼层号等、城市、州和邮政编码、国家。
本发明提供一种地址阅读方法和装置,用于识别在一个特定地址区域中所含的字符,该特定地址区域是从多个地址区域候选项中选择出来的最可能含有收件人地址的地址区域。本发明通过输入邮件表面的图象并且将该图象分割为至少一个字符串候选项来完成以上所述。然后,根据该字符串候选项提取至少一个地址区域候选项,并且将至少一个地址区域候选项选择为邮件的收件人地址区域。该选择是通过根据预定位置信息、适于预定位置信息的字符方向信息、以及关键字符串信息对至少一个地址区域候选项中的每一个进行分析实现的。然后,通过分析其内所含的字符串,识别所选择的地址区域候选项中所含的收件人地址。
本发明的地址阅读方法和装置例如可以构成邮件分类机的一部分,邮件分类机包括一个扫描器和一个分类器。扫描器扫描邮件表面,将表面图象输入到本发明的地址阅读方法和装置中。分类器接收本发明的地址阅读方法和装置所输出的已识别的收件人地址,并且根据所识别的收件人地址对邮件进行分类。
将一个地址区域候选项选择为例如最可能含有收件人地址,是通过对地址区域候选项中的字符串与关键字符串进行比较实现的。该关键字符串是对于待考虑的地址区域,例如收件人地址的一部分,最可能存在于地址区域候选项中的字符串。如果该关键字符串存在于地址区域候选项的字符串中,并且对于位置信息和字符方向,该关键字符串位于适当的位置和字符方向,则将该地址区域候选项选择为一个最可能含有收件人地址的地址区域候选项。
参照附图,通过以下详细描述,本发明的范围会更加明显,虽然这种详细描述和具体例子指示了本发明的优选实施方式,但是只是用于说明,因为对于本领域内熟练的技术人员而言,根据这种详细描述,在本发明的实质和范围内做出各种改变和修改将是明显的。
图1示出本发明的一个实施方式的数据流;
图2示出本发明的一个实施方式的处理流;
图3A至图3C示出地址区域候选项的例子;
图4A至图4H示出利用预定信息将被识别的字符串方向的例子;
图5示出本发明中使用的字符串搜索处理的数据流;
图6示出分割字符串网络的例子;
图7示出分类结果网络的例子;
图8示出根据分类结果网络形成的分类结果表;
图9A和图9B示出一个搜索树和根据搜索树形成的搜索树表;
图10示出字符串搜索处理的处理流;
图11A至图11E示出在位置关系分析处理中使用预定信息的例子;以及
图12示出本发明的装置的一个实施方式。
用于描述本发明的数据流图符合现代科学公司出版的J.Martin著的《软件结构化技术》中公开的这种数据流图。
本发明提供一种地址阅读方法和装置,它检测邮件表面上的地址区域候选项,并且确定哪一个地址区域候选项是最可能的有效收件人地址。在图1中,提供一种数据流图,以图形方式示出执行本发明的处理时的数据流。
图12绘出包括本发明的特征的邮件分捡机装置的例子。图12所示的本发明的邮件分捡机包括一个与外部存储器1206连接的地址阅读器1205、一个扫描器1201和一个分类器1203。扫描器1201经过延迟线1202以及象传送带这样的装置与分类器1203连接。
地址阅读器1205根据图1所示的处理,利用存储器1212的存储器地址区域中存储的信息或者外部存储器1206中存储的文件,对扫描器1201获得的邮件表面图象进行处理。另外,图12所示的本发明的邮件分捡机的细节将在下面说明。以下是利用图1的数据流图对本发明所执行的处理的描述。
根据图1,地址阅读器例如包括图象输入装置115、字符串提取装置101、地址区域候选项提取装置102、地址区域候选项选择装置116和地址识别装置117。图象输入装置115与图12的扫描器1201相对应。图象输入装置115例如利用光电装置输入邮件表面的数字图象。字符串提取装置101将该图象分割为字符串候选项。
地址区域候选项提取装置102提取每个包括至少一个字符串候选项的地址区域候选项。一般地,根据每个字符串候选项提取至少一个地址区域候选项。地址区域候选项选择装置116从所提取的地址区域候选项中选择一个候选地址区域,它最可能是收件人地址。当已经提取了仅一个地址区域候选项时,地址区域候选项选择装置116确认该地址区域候选项含有一个收件人地址。地址识别装置117识别在所选择的地址区域候选项中所含的地址,并且输出一个地址识别结果。分类器1203利用该地址识别结果对邮件进行分类。
本发明的邮件分捡机执行的如图1的数据流图所示的上述处理可以利用一个可以由图12所示的邮件分捡机执行的计算机程序(软件)实现。该数据流图的每个元素例如与该计算机程序的一条或多条指令相对应。该计算机程序例如可以存储在图12所示的邮件分捡机的存储器1212或者外部存储器1206中。该计算机程序,例如可以利用其上存储了该计算机程序的存储媒体而提供,以便安装到本发明的邮件分捡机中。存储媒体例如可以是软盘、CD-ROM等。该计算机程序也可以利用网络提供给邮件分捡机,以便安装到邮件分捡机中。
将邮件表面的整个图象以及地址区域候选项输入到地址区域候选项选择装置116中。地址区域候选项选择装置116在处理中参照地址禁止区域信息118、参考字符信息109、关键字符串字典110、字符串禁止区域信息120、位置信息121以及发件人信息114。根据上述信息,从邮件表面的整个图象中选择最可能含有收件人地址的地址区域候选项。
参考字符信息109通过一个表提供,该表存储了字符模式的标准特征数量矢量。参考字符信息109在字符分类处理时受到地址区域候选项选择装置116的引用。
关键字符串字典110存储最可能包括在收件人地址中的字符串,以便能够在含有有效收件人地址的地址区域中考虑该地址区域候选项。也就是说,关键字符串字典110存储关键字符串。一个关键字符串例如可以包括收件人地址的一部分,比如收件人姓名(接收方)、目的地址名称等。在一个地址区域候选项中包括这些关键字符串中的一个,指示该地址区域候选项是最(大)可能含有适当收件人地址的地址区域。关键字符串例如可以包括需要作为部分收件人地址而被包括以使地址有效的特定词。例如,在日本、韩国和中国地址的情形下,这种词例如可以是区、市、镇或村名。在美国地址的情形下,这种词例如可以是街、区或州名。
地址禁止区域信息118存储在其上禁止设置地址区域的邮件表面区域的信息。也可以存储禁止设置一个与某关键字符串相对应的字符串的区域信息,作为字符串禁止区域信息120。字符串禁止区域信息120为每个方向提供这样的信息:字符串可以设置在邮件表面上。
各地址区域候选项之间的用于选择含有关键字符串的地址候选项的适当位置关系,作为位置关系信息121得到提供。该位置关系信息121例如提供指示发件人地址区域与收件人地址区域之间的位置关系的信息。发件人信息,比如邮件的发件人所位于的附近或地区的信息,作为发件人信息114得到提供。
地址区域候选项选择装置116包括一个地址区域候选项测试装置103、位置关系分析装置112和发件人信息参照装置113。将地址区域候选项提取装置102的输出,输入到地址区域候选项测试装置103。对于输入地址区域候选项(在其上进行搜索)是否是含有与关键字符串相对应的字符串的地址区域候选项的指示,由地址区域候选项测试装置103输出。
如果未检测到一个关键字符串包含于地址区域候选项中,则地址区域候选项测试装置103拒绝该地址区域候选项,并且将它排除于含有收件人地址的地址区域。如果地址区域候选项测试装置103收到几个地址区域候选项,则为每个地址区域候选项提供一个指示,指示它是否含有收件人地址。
利用位置关系分析装置112,对含有关键字符串的地址区域候选项之间的位置关系进行分析,将相对于其他地址区域候选项处于适当位置中的一个地址区域候选项选择为最可能含有收件人地址的地址区域。
发件人信息参照装置113利用发件人信息114,从几个地址区域候选项中确定哪一个地址区域候选项是最可能含有收件人地址而不是发件人地址的地址区域。假设发件人从含有或接近发件人地址的某些地区或附近发送了邮件。于是,发件人信息例如包括含有或接近发件人地址的地区或附近的信息。通常,发件人信息具有邮件分捡机所处的附近或地区的信息。假设发件人位于邮件分捡机位置附近。利用发件人信息,将具有一个在含有或者接近发件人地址的附近或地区内的地址的地址区域候选项排除为不可能是含有收件人地址的地址区域候选项。
地址区域候选项测试装置103包括方向收缩装置104和单向假设地址区域候选测试装置106。将来自地址区域候选项提取装置102的地址区域候选项的输出,输入到方向收缩装置104。由方向收缩装置104对输入的地址区域候选项进行处理,确定地址区域候选项中的字符排列在多个方向中的一个适于所允许的地址类型的方向上具有一个字符串,所允许的地址类型例如如图4A至图4E所示。字符串的方向例如可以是图4A至图4E所示的水平方向(x)或者垂直方向(y)中的一个。水平方向和垂直方向是根据字符串检测装置101提供的信息检测的。方向收缩装置104输出字符方向候选项作为处理结果。
单向假设地址区域候选项测试装置106,根据字符方向收缩装置104确定的候选字符方向,假设字符串在单个候选字符方向上延伸。根据所假设的候选字符方向,搜索地址区域候选项中的字符串,确定在该地址区域候选项中是否存在一个关键字符串。
启动单向假设地址区域候选项测试装置106,按照顺序处理在所有候选字符方向上处理地址区域候选项中的字符串。候选字符方向的数量随每个国家中书写地址方式不同而不同。
在美国,邮件表面比如信封上的地址的字符方向例如可以是水平的,位于邮件表面的顶部或底部。在日本、中国和韩国,邮件表面比如信封上的地址的字符方向例如可以是水平的或垂直的,位于邮件表面的顶部、底部、左侧或右侧。
单向假设地址区域候选项测试装置106中的处理,有助于根据所假设的字符方向中是否存在关键字符串来指示一个地址区域候选项是否是最可能含有收件人地址的地址区域。单向假设地址区域候选项测试装置106包括字符串检测装置107和字符串位置测试装置111。
字符串检测装置107从地址区域候选项中的字符串中分割出一个字符的至少一部分。检查该至少部分的字符与参考字符109的相似度。如果相似性高,则将该至少部分字符确定为参考字符。一旦已经确定了字符串的各个字符,则进行搜索,以确定在该字符串中是否存在一个关键字符串。如果找到一个关键字符串,则字符串位置测试装置111参照字符串禁止区域信息120,并且检查该关键字符串的位置和字符方向是否适当。字符串禁止区域信息120指示邮件表面上的一个不应该存在关键字符串的区域。如果在字符串禁止区域信息120所指示的区域中存在关键字符串,则将该关键字符串排除于含有收件人地址的候选地址区域。否则,由字符串位置测试装置输出该地址区域候选项,作为验证的地址区域候选项(测试结果)。
当已经选择了一个地址区域候选项时,启动地址识别装置117。字符串检测装置107对于所有字符串执行的处理,是通过参照关键字符串字典110中存储的信息进行的。由地址识别装置117对地址区域候选项选择装置116输出的所选择的地址区域候选项进行分析,以识别地址中的字符。
地址识别装置117,根据字符串检测装置107输出的地址字符串位置的信息,以及方向收缩装置104输出的候选字符方向,对所选择的地址区域候选项执行处理。产生所选择的地址区域候选项的部分处理可以略去,从而缩短处理时间。特别是,例如可以通过使用特定词略去发件人信息参照装置113所执行的处理,其中作为一个关键字符串删除了一个或者两个字符。
图2所示的流程图示出了本发明的地址区域候选项选择装置116所执行的处理的例子。应注意到,该流程图的每个步骤例如与地址阅读器1205可执行的计算机程序的一个或者多个指令相对应,以便实现地址区域候选项选择装置116。该计算机程序例如可以存储在图12所示的邮件分捡机的存储器1212中或者在外部存储器1206中。也可以用一种存储媒体或者与邮件分捡机连接的网络提供该计算机程序,以便安装到邮件分捡机中。该存储媒体例如可以是软盘、CD-ROM等。
在流程图中,第一控制循环处理203用于使地址区域候选项选择装置116对地址区域候选项提取装置102所检测的每个地址区域候选项进行处理。第一控制循环处理203中包括一个候选字符方向检测处理204和一个第二控制循环处理206,前一个处理204检测地址区域候选项中所包括的字符串的字符方向,后一个处理206用于处理字符方向检测处理204所检测的每个候选字符方向。第二控制循环处理206包括一个字符串检测处理207和一个第三控制循环处理208,前一个处理207检测在字符串方向上是否存在一个字符串以及该字符串是否是一个关键字符串,后一个处理208是对于字符串检测处理207所检测的所有关键字符串进行的。
第三控制循环处理208包括一个关键字符串位置测试处理209,它测试每个关键字符串是否实际上是一个关键字符串,因为需要将这种关键字符串设置在邮件表面上的某个位置。如果该关键字符串设置在邮件表面上的适当位置,则包括该关键字符串的地址区域候选项被指示为最可能具有适当收件人地址的地址区域。
在对每个地址区域候选项进行了第一控制循环处理203之后,进行处理210,以确定是否已经将几个地址区域候选项指示为含有关键字符串。若为真,则进行位置关系分析处理211,以便确定已被指示为含有关键字符串的每个地址候选项之间的位置关系。该位置关系分析处理211试图对于每个地址区域候选项,根据某地址区域候选项对其他地址区域候选项的位置,确定该地址区域候选项是否是最可能含有收件人地址的地址区域。例如,如上在美国所述,在信封上,发件人地址一般位于收件人地址之上的位置。因此,如果确定地址区域候选项之一低于另一地址区域候选项,则很可能比另一地址区域候选项低的地址区域候选项中含有一个收件人地址。
如果位置关系分析处理211,根据每个地址区域候选项之间的位置关系,即处理212,不能确定含有收件人地址的地址区域,则进行发件人信息参照处理213。发件人信息参照处理213对每个地址区域候选项的关键字符串与发件人信息(例如,发送邮件时的地区或附近)比较。收件人地址与发件人地址位于同一地区或附近是不太可能的。因此,含有一个不位于与发件人信息相同地区的关键串的地址区域候选项将被指示为最可能含有收件人地址。
图3A至图3C以及图11A至图11E示出各地址区域候选项,在其上进行字符行提取装置101和地址区域候选项提取装置102的处理。
图3A是邮件的整个图象的例子,例如是信封或者明信片的表面。如图3A所示,该信封包括一个收件人地址区域300、一个发件人地址区域400和一个邮票区域500。收件人地址区域300包括收件人姓名“Mr.XYZ”和目的地址“36 Poodle Spring Street,Flower AZ 11111”。收件人地址区域300还包括一个外加标记或阴影,图中示为一个检查标记。发件人地址区域400包括发件人名称“ABC Company,Customer Service”和源地址“RockCity,MI 22222”。邮票区域500包括一个邮票和与邮票有关的信息。
例如在地址区域包括一个外加标记比如收件人地址区域300中所示的那样时,常规装置难于检测适当的字符串。因此,常规装置将检测收件人地址区域300中的字符串,如图3B中所示的那样。如图3B所示,外加标记由常规装置检测为一个字符串。常规装置在字符尺寸太小时也难于检测字符串。因此,例如常规装置将所有字符串指示为单个字符串,比如图3C中所示的那样。
本发明例如通过提供方向收缩104克服了上述缺点,方向收缩104根据地址区域候选项中的所检测的字符串方向确定一个或多个候选字符方向。方向收缩装置104根据地址禁止区域信息118确定以上候选字符方向,例如如图4A至图4H所示。尽管图4A至图4H所示的例子与日本邮件的寻址规则有关,但是对于本领域内的普通技术人员显然可以在地址禁止区域信息118中采用比如美国的其他寻址规则。
如图4A至图4H所示,阴影示出不适于设置地址的邮件表面区域。因此,例如在图4A中,邮件表面底部不能设置地址。
为进一步解释,如图4A至图4H所示,邮件具有一个相应于X方向的长边和一个相应于Y方向的短边。图4A示出一种寻址格式,其中正向输入邮件由扫描器1201扫描时,地址禁止区域是邮件表面的较下部分。图4B示出一种寻址格式,其中如果反向将邮件输入到扫描器,则地址禁止区域是邮件表面的较上部分,可以存在地址的区域是敞开的。
图4C和图4D示出其他寻址格式,地址的各字符是在垂直方向紧接另一个书写的,而不是在水平方向书写。因此,在图4C和图4D中,如果正向输入邮件,则地址禁止区域将在邮件的顶部,如果反向输入邮件,则地址禁止区域将在邮件的底部,字符串区域除外。
图4E和图4F示出其他寻址格式,其中地址设置得与Y轴即邮件的短边平行。因此,在图4E和图4F中,如果正向输入邮件,则地址禁止区域将在邮件的左侧,如果反向输入邮件,则地址禁止区域将在邮件的右侧,字符串区域除外。
图4G和图4H仍然示出其他寻址格式,其中字符串的各字符在垂直方向紧接另一个地放置,与Y轴即邮件的短边平行。因此,在图4G和图4H中,地址禁止区域将是邮件的整个表面,字符串区域除外。
对于图4A至图4H中所示的每种寻址格式,可以根据以下公式计算地址禁止区域信息118。一种地址禁止区域(X或Y的范围)如下确定:
在图4A中,当字符行方向平行于X轴,且Y=0是邮件的上侧,则地址禁止区域如下确定:
Y>W×2/3(W是邮件图象的Y轴方向的宽度)。
在图4B中,当字符行方向平行于X轴,且Y=0是邮件的上侧,则地址禁止区域如下确定:
Y<W/3。
在图4D中,当字符行方向平行于X轴,且X=0是邮件的上侧,则地址禁止区域如下确定:
Y>W/2。
在图4C中,当字符行方向平行于X轴,且X=0是邮件的上侧,则地址禁止区域如下确定:
Y<W/2。
在图4E中,当字符行方向平行于Y轴,且X=0是邮件的上侧,则地址禁止区域如下确定:
X<W/2。
在图4F中,当字符行方向平行于Y轴,且X=0是邮件的上侧,则地址禁止区域如下确定:
X>L×2/3。
在图4G中,当字符行方向平行于Y轴,且字符方向是垂直向下方向,则邮件上的所有区域是地址禁止区域。
在图4G中,当字符行方向平行于Y轴,且字符方向是垂直向上方向,则邮件上的所有区域是地址禁止区域。
下面解释地址区域候选项提取装置102进行的处理。地址区域候选项提取装置102从字符串提取装置101接收字符串候选项,从图象输入装置115接收邮件整个表面的图象。更具体地,输入到地址区域候选项提取装置102的邮件表面的整个图象例如与图4A至图4H任一个所示的图象相对应。根据图4A至图4H所示的邮件表面的一个图象,输出一个地址区域候选项。
根据图5和图10解释字符串检测装置107进行的处理。图5示出一个数据流图,图10示出字符串检测装置107进行的处理的流程图。数据流图和流程图每一个的元素例如可以与可由地址阅读器1205执行的计算机程序的一条或多条指令相对应。可将该计算机程序存储到例如图12所示的邮件分捡机的存储器1212或者外部存储器1206中。也可以通过存储媒体或者网络提供该计算机程序以便安装到邮件分捡机中。存储媒体例如可以是软盘、CD-ROM等。
图5所示的字符串检测装置107的数据流图包括用于形成分段字符串网络的装置502、字符分类装置503、分类结果路径搜索装置504和地址字符串选择装置505。用于形成分段字符串网络的装置502,例如在图3A所示的作为地址区域候选项的收件人地址区域300上操作时,形成一个如图6所示的分段字符串网络。
以下是根据图5所示的数据流图由字符串检测装置107进行的处理。用于形成分段字符串网络的装置502,从方向收缩装置104接收候选字符方向的信息,并且从地址区域候选项提取装置102接收地址区域候选项的信息。作为对候选字符方向和地址区域候选项的处理结果,用于形成分段字符串网络的装置502输出一个分段字符串网络,比如图6所示的那样。
图6所示的分段字符串网络,是通过从比如图3A所示的实际字符串中切割最小部分的字符串而由用于形成分段字符串网络的装置502形成的。用于形成分段字符串网络的装置在必要时还提出字符串各部分的候选字符。因此,例如如图6所示,当从图3A所示的收件人地址区域300读收信人的地址时,用于形成分段字符串网络的装置识别并且分隔字符部分“3”、“6”、“P”,但是为字符“o”和“o”提供两个候选字符部分“o”和“o”以及“oo”。对于该字符串的每个部分继续这种处理,直到已经到达字符串结尾。用于形成分段字符串网络的装置502然后输出分段字符串网络。
将分段字符串网络与候选字符方向一起,以及参考字符信息109输入到字符分类装置503。字符分类装置503根据这种信息进行处理,并且输出如图7所示的分类结果网络。该分类结果网络示出已经由字符分类装置503识别的字符,它们相应于图6所示的分段字符串网络中所排列的字符串部分。
如图7所示,相互连接已经由字符分类装置503识别为有效字符的字符。当几个字符被识别为有效时,这样的字符在网络中连接起来作为候选字符。所得的分类结果网络输出到分类结果路径搜索装置504,它进行处理,在分类结果网络中确定一条路径,在该路径中相互连接关键字符串的关键字符。因此,例如如果关键字符串的“Poodle Springs”,则分类结果路径搜索装置504对分类结果网络的每个字符与关键字符串的各个字符进行比较。与关键字符串的字符相对应的分类结果网络中的字符由实线相互连接,该线由网络开头延续到网络结束。因此,例如,识别出关键字符串的以下关键字符:“P”、“O”、“O”、“D”、“L”、“E”、“S”、“P”、“R”、“I”、“N”、“G”和“S”。分类结果路径搜索装置504,根据分类结果网络和关键字符串字典110提供的关键字符串信息,输出一个地址字符串。该地址字符串提供给地址字符串选择装置505,后者选择和输出关键字符串位置的信息。
如字符分类装置503的部分处理所进行的字符识别处理与电视协会出版的Toriwaki著的《识别工程》第52至53页和179至181页公开的类似。
在图6中,每一对字符串部分之间提供的节点指示每一对字符串部分之间的边界。当产生如图7所示的分类结果网络时,为这些节点中的每一个给定一个标识号码。例如图7所示的分类结果网络示出,对于在图6所示的分段字符串网络中排列的字符串各部分已经识别的几个候选字符。例如,将字符“W”、“O”和“O”、“0”和“0”识别为与分段字符串网络中给出的字符串各部分比如手写体“o”和“o”相对应的候选项。分类结果网络的信息作为分类结果表存储在存储器中,比如图8中所示。
如图8所示的分类结果表对于每个表项包括起始点节点(PDN)、结束点节点(NND)、分类结果字符代码(CD)、确定性因子(CRD)和指向字符信息的指针(PTN)的信息。因此,当查看如图8所示的分类结果网络时,第一个表项例如将包括起始点节点“31”、结束点节点“32”、分类结果字符代码“6”、确定性因子“0.6”和指向与字符“6”相对应的字符串部分的指针。上述对于计算分类结果表的确定性因子的信息例如公开在电子智能通信协会出版的Mori著的《模式识别》中。该著作中将确定性因子描述为一种确定已经进行的字符识别是如何精确的量度。
分类结果路径搜索装置504利用来自关键字符串字典110的关键字符串信息以及如图7所示的分类结果网络所进行的处理,是根据一个宽度优先搜索算法进行的。该宽度优先搜索算法例如公开在现代科学公司出版的Tahara著的《人工智能基础知识》中。
分类结果路径搜索装置504进行的处理导致产生比如图9A所示的搜索树。图9A所示的搜索树中所用的每个节点具有与图7中所示的分类结果网络中相应节点相同的标识号码。另外,每个节点之间的字符代码代表识别为与字符串部分相对应的字符代码。因为在两个位置检测到与字符“P”相对应的分类结果代码,所以提供了两个搜索树。
当搜索一个关键字符串时,分类结果路径搜索装置504相对于字符串评价每个字符。例如,如果将“Poddle Springs”认为是一个关键字符串,则分类结果路径搜索装置504经过节点“32”、“33”、“34”、“35”、“36”、“37”、“38”、“39”、“40”、“42”、“43”、“45”和“46”。搜索例如不从节点“38”、“39”和“41”开始,因为在节点“38”和“40”之间识别出字符“P”之后,节点“40”与“41”之间的代码以及节点“41”与“42”之间的代码不与关键字符串中后续字符中的任一个相对应。存在于节点“40”与“42”之间的字符代码“R”确实与节点“39”与“40”之间的字符代码“P”之后的关键字符串中的字符相符。一旦评价了所有的字符代码,并且字符串的所有的字符代码与关键字符串匹配,则输出该字符串作为一个关键字符串。
分类结果路径搜索装置504所提供的搜索树作为一个搜索树表存储在存储器中,比如如图9B中所示。搜索树表的每个表项相对应于搜索树的一个分支。对于每条记录,搜索树表提供了指向搜索树的前一分支的指针(PRV)、指示分支存在于搜索树中的层的搜索深度(DPT)以及指向分类结果数据的指针(PCLS)的信息。如果一个分支邻接于搜索树的路由,比如节点“32”和“33”或者节点“41”和“42”,则PRV值设为等于空。
图10中的流程图示出了分类结果路径搜索装置504进行的处理。应注意到,该流程图的每个步骤例如对应于可由地址阅读器1205执行的以便实现分类结果路径搜索装置504的计算机程序的一条或者多条指令。该计算机程序例如可以存储在图12所示的邮件分捡机的存储器1212中或者在外部存储器1206中。也可以用一种存储媒体或者与邮件分捡机连接的网络提供该计算机程序,以便安装到邮件分捡机中。该存储媒体例如可以是软盘、CD-ROM等。另外,可以用“C”语言编写该计算机程序,可将该计算机程序使用的数据设计为符合“C”语言的要求。
以下是如图10中的流程图所示的分类结果路径搜索装置504的处理。将指向搜索树分板数据特定分支的指针(PC)以及指向在搜索树分支数据中的将要在其中写入新分支数据的存储单元的另一个指针(PW)设为如图9B所示的搜索树表的第一个表项(步骤1001)。然后,对于所有关键字符串进行第一个控制循环处理(步骤1002)。利用每个关键字符串和来自如图8所示的分类结果表的信息,进行第二个控制循环处理(步骤1003)。
第二控制循环处理(步骤1003)使得输出一个指示,指示一个分类结果字符代码是否对应于一个关键字符串的第一个字符。如果该分类结果字符代码被确定为对应于一个关键字符串的第一个字符,则产生与该分类结果字符代码相应的分支。因此,将这样一个分支的起始节点设为与一个搜索树的根等价(步骤1003-A至1003-E)。
如果第一指针PC和第二指针PW不相等(步骤1004),则进行以下处理。如果一个搜索深度(DPT)具有比关键字符串少的字符,并且所考虑的分支对应于一个关键字符串的最后一个字符,则确定为已经检测到一个关键字符串。然后,输出与一条通过分类结果网络的搜索路由相应的字符串,作为包括关键字符串的字符串(步骤1004-A至1004-D),其中该网络具有与关键字符串中所包括的字符相应的字符。
如果搜索深度(DPT)不具有比关键字符串少的字符,则相对于分类结果表的每个表项进行第三个控制循环处理(步骤1005)。在第三个控制循环处理(步骤1005)中,对分类结果表的每个表项进行分析,以确定它的一个分类结果字符代码是否与一个关键字符串的第二个字符对应,以及该分类结果代码的分支是否与分类结果网络相连(步骤1005-A至1005-D)。如果分类结果字符代码与关键字符串的第二个字符对应,则检索与该分类结果字符代码相应的搜索树分支,并且第二指针(PW)增值(步骤1005-E)。
在重复第二和第三控制循环处理(步骤1004和1005)中所设定的上述处理之后,如果第一指针PC和第二指针PW变为相等,指示在搜索路径中部没有节点,则结束第三控制循环处理(步骤1004),并且第一指针PC增值(步骤1004-E)。
在某些情况下,在分类结果路径搜索装置504进行分类结果路径搜索处理时,可以输出几个候选项。地址字符串选择装置116从分类结果路径搜索装置504输出的信息中选择一个最佳关键字符串。该最佳关键字符串是根据指示已经识别一个字符的确定性信息选择的。该信息例如在分类结果表中作为确定性因子(CCR)提供。
另外,对于图1所示的本发明,字符串检测装置107检测含有一个关键字符串的字符串。字符串检测装置107输出的信息,与来自方向收缩装置104的候选字符方向信息以及字符串禁止区域120的信息一起,由字符串位置测试装置111使用,以便输出一个验证的测试结果。特别是,字符串位置测试装置111确定所检测的字符串是否在字符串禁止区域信息120所指示的字符串禁止区域范围内。这种测试利用了字符串的字符方向信息。
字符串位置测试装置111进行的处理,如图4D和图4F所示,例如是为了确定字符串是否在禁止一个地址的区域内以及字符串的字符方向对于设置一个地址的区域是否适当。这种处理的结果是,字符串位置测试装置111向位置关系分析装置112输出一个验证的测试结果。
如果地址区域候选项测试装置103输出了几个地址区域候选项,则由位置关系分析装置112根据位置关系信息121选择一个最可能含有一个有效收件人地址的地址区域候选项。该位置关系信息121例如对于各个国家中所用的寻址格式是唯一的。位置关系信息121例如指示例如在美国的邮件表面上收件人和发件人地址区域之间的适当位置关系。
除了图4A至图8所示的各种寻址格式外,图11A至图11E中示出了包括收件人和发件人地址的其他格式。
图11A示出一个形状为矩形的邮件图象,其中横向检测到两个地址区域候选项。第一个地址区域候选项在邮件表面图象的左上区域,而第二个地址区域候选项在右下区域。一般地,在这种结构中,左上区域的地址区域候选项是发件人地址,而右下区域的地址区域候选项是收件人地址。
图11B示出邮件表面上的一个矩形图象,其中在图象的极左上区域中检测到第一地址区域候选项,而在图象的中心检测到另一地址区域候选项。一般地,在图象极左上区域的地址区域候选项是发件人地址,而图象中心的地址区域候选项是收件人地址。
图11C示出一个矩形的邮件表面图象,其中字符位于在垂直方向上,一个字符紧随另一个字符。在图象上部检测到第一地址区域候选项,而在图象下部检测到第二地址区域候选项。在这种结构中,认为图象上部的地址区域候选项是发件人地址,而认为图象下部的地址区域候选项是收件人地址。
图11D示出具有矩形形状的邮件表面图象。在与矩形图象的短边最接近的区域中检测到第一地址区域,其中该地址区域候选项内的字符串与图象的短边平行。在矩形图象的两条短边之间的中心检测到第二地址区域。在第二地址区域候选项中的字符串与矩形图象的短边平行。在这种结构中,认为第一地址区域候选项是发件人地址,而认为第二地址区域是收件人地址。
图11E示出邮件表面的一个图象,它具有一种不是美国常用邮件的结构。具体地,在矩形图象的右上区域内检测到第一地址区域候选项,而在图象的左下区域内检测到第二地址区域候选项。如果检测到这种结构,则难于确定哪个地址区域候选项含有发件人地址和收件人地址。
在图11A中,当邮件图象是长方形时,字符串行是在水平方向,收件人地址字符串在较下区域。
选择条件如下:
(X1,Y1)是地址区域候选项1的重心的坐标;(X2,Y2)是地址区域候选项2的重心的坐标;L是邮件图象长边的长度;
如果X1<X2,Y1<Y2且|X2-L/2|>L/5,则选择地址区域候选项1。
在图11B中,当邮件图象是长方形时,字符串行是在水平方向,收件人地址字符串在较下区域。条件如下:
如果X1<X2,Y1<Y2且|X2-L/2|<L/5,则选择地址区域候选项2。
在图11C中,当邮件图象是长方形时,字符串与图象长边平行,且收件人地址字符串在以下条件下位于较下区域:
如果Y1>Y2,则选择地址区域候选项1。
在图11D中,当邮件图象为长方形时,字符串与图象短边平行,且收件人地址字符串在以下条件下位于中心区域:
如果X1>X2,则选择地址区域候选项1。
在图11E中,当不满足任何位置关系的预定条件时,不能判断适当的地址区域候选项。于是地址位置关系分析装置112输出比如不能判断该种邮件的信息。
例如,如果检测到象“to”这样的特定关键字符串,则将带有这样的特定关键字符串的地址区域候选项选择为收件人地址,而不考虑地址区域候选项的位置。关键字符串“to”一般指示其后的地址是收件人地址。
当根据位置关系分析装置112基于位置关系信息121进行的处理而选择了单个地址区域候选项时,将该单个地址区域候选项输出给发件人信息参照装置113以便处理。发件人信息参照装置113,利用发件人信息114,对地址区域候选项中所含的字符串进行分析,确定该地址区域候选项是否含有比如发件人地址这样的信息。如果在该地址区域候选项的字符串中含有发件人地址,则将该地址区域候选项指示为不是一个有效的收件人地址。如上所述,发件人信息114例如可以包括发件人所处的地区或附近的信息或者邮件分捡机的位置的信息。地址区域候选项的字符串中所含的这种信息例如将指示该地址区域候选项是发件人地址而不是收件人地址。
如果选择了多个地址区域候选项,则发件人信息参照装置113利用在选择了单个地址区域候选项时所进行的上述处理对每个地址区域候选项进行分析。假设不含有发件人信息的地址区域候选项是一个含有收件人地址的地址区域候选项。如果确定没有一个地址区域候选项含有一个收件人地址,则地址区域候选项选择装置116提供一种在具有收件人地址的邮件表面上未找到地址区域候选项的指示。这种指示允许邮件分捡机进行其他种类的处理。
在图12所示的邮件分捡机中实现了参照图1、2、5和10所述的本发明的上述特征。如上所述,邮件分捡机包括一个扫描器1201、延迟线1202、分类器1203、地址阅读器1205和外部存储器1206。邮件分捡机的基本操作如下。
扫描器1201对待分类的邮件进行扫描,向地址阅读器1205提供邮件表面的图象。由传送带等向延迟线1202移动邮件,以便在地址阅读器1205进行处理以使识别邮件表面上的收件人地址时保持邮件。一旦已经识别了收件人地址,则再次由传送带等向分类器1203移动邮件,分类器1203根据从地址阅读器1205输出的所识别的收件人地址对邮件进行分类。地址阅读器1205根据地址阅读器1205所含的存储器1212提供的信息和计算机程序以及与地址阅读器1205连接的外部存储器1206提供的信息和计算机程序进行处理。
地址阅读器1205包括一个预处理模块1204,它对来自扫描器1201的邮件表面图象进行预处理,并向输入/输出接口1207提供预处理的图象信息。输入/输出接口1207将预处理的图象信息输入到总线1210上,并且例如向已经设置在总线上的预处理模块1204和扫描器1201输出控制信号。
在地址阅读器1205上设置一个处理器1211,用于从输入/输出接口1207输入图象信息,并且例如执行在存储器1212中所含的计算机程序1212-A和/或在外部存储器1206中所含的计算机程序1206-A。执行这种计算机程序使得处理器1211进行例如在图1、2、5和10的数据流图和流程图中所示的前述处理。另外,处理器1211根据这种计算机程序的执行对存储器1212中各种存储器地址区域中所含的各种信息以及外部存储器1206中的文件进行利用。
存储器1212的各种存储器地址区域例如可包括参考字符字典1212-B、地址禁止区域信息1212-C、字符串禁止区域字典1212-D、关键字符串字典1212-E、位置关系信息1212-F、发件人信息1212-G、字符串图象信息1212-H、地址区域候选项1212-I、分段字符串网络1212-J、分类结果网络1212-K和搜索树1212-L。外部存储器1206中的文件例如包括参考字符字典文件1206-B、地址禁止区域文件1206-C、字符串禁止区域字典1206-D、关键字符串字典文件1206-E、位置关系文件1206-F以及发件人信息1206-G。
一旦处理器1211进行了图1、2、5和10中所示的处理,则从处理器1211向总线1210输出与所识别的收件人地址有关的信息。然后通过输入/输出接口1208从总线1210向地址识别模块1213输出所识别的收件人地址的信息。地址识别模块1213接收这种信息,并且提供相对于所识别的收件人地址的处理,以便适当地控制分类器1203。分类器1203相对于所识别的收件人地址对邮件进行分类。来自分类器1203的信息也可经过地址识别模块1213和输入/输出模块1208输入到总线1210。然后将这种信息提供到总线1210上,并由处理器1211使用,以进行各种处理,包括向地址识别模块1213和分类器1203提供控制信号。
虽然已经结合附图详细地描述了本发明,但是并不限于这些细节,因为在不背离本发明实质和范围的情况下,可以对本发明做出许多具有本发明优点的并可由本领域内普通技术人员认识到的变更和修改,并且所述这些变更和修改对于本领域内熟练的技术人员将是明显的,并且可能成为技术发展,因此试图将它们包括在权利要求书的范围内。

Claims (33)

1.一种识别邮件表面上的收件人地址的地址阅读方法,所述地址阅读方法包括以下步骤:
输入邮件表面的图象;
将所述图象分割为至少一个字符串候选项;
根据所述至少一个字符串候选项提取至少一个地址区域候选项;
根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析所述至少一个地址区域候选项中的每一个,将所述至少一个地址区域候选项中的一个选择为邮件的收件人地址区域;以及
将所选择的地址区域候选项中字符串中的字符识别为收件人地址。
2.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
确定每个地址区域候选项中所包括的每个字符串的一个方向。
3.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,每个关键字符串具有最可能存在于收件人地址中的字符。
4.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,关键字符串指示最可能包括在收件人地址区域中的城市。
5.根据权利要求1的地址阅读方法,其中所述位置信息包括指示收件地址区域中的一个关键字符串的通常位置的信息。
6.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
测试每个地址区域候选项,以确定所述地址区域候选项是否是最可能含有一个收件人地址的地址区域候选项。
7.根据权利要求6的地址阅读方法,其中所述测试步骤包括:
假定所述地址区域候选项中所含的字符串位于一个特定字符方向,并且根据所述假定分析所述字符串。
8.根据权利要求7的地址阅读方法,其中所述假定步骤包括:
根据参考字符信息检测一个字符串的字符。
9.根据权利要求8的地址阅读方法,其中所述假定步骤包括:
根据字符串禁止区域信息,测试由检测步骤检测的字符串的字符是否设置在邮件表面上的一个禁止收件人地址的区域中。
10.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
根据位置关系信息,对包括关键字符串的地址区域候选项之间的相对位置进行分析,以区别含有收件人地址的地址区域候选项和含有发件人地址的地址区域候选项。
11.根据权利要求1的地址阅读方法,其中所述选择步骤包括:
参照发件人信息,确定每个被指示为含有一个关键字符串的地址区域候选项是否含有发件人信息。
12.一种用于识别邮件表面上的收件人地址的地址阅读装置,所述地址阅读装置包括:
一个图象输入装置,用于输入邮件表面的图象;
一个地址处理装置,该装置将所述图象分割为至少一个字符串候选项,根据所述至少一个字符串候选项提取至少一个地址区域候选项,根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析所述至少一个地址区域候选项中的每一个,将所述至少一个地址区域候选项中的一个选择为邮件的收件人地址区域;以及
一个地址识别模块,它将所选择的地址区域候选项中字符串中的字符识别为收件人地址。
13.根据权利要求12的地址阅读装置,其中所述地址处理装置确定每个地址区域候选项中所包括的每个字符串的一个方向。
14.根据权利要求12的地址阅读装置,其中所述地址处理装置对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,每个关键字符串具有最可能存在于收件人地址中的字符。
15.根据权利要求12的地址阅读装置,其中所述地址处理装置对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,关键字符串指示最可能包括在收件人地址区域中的城市。
16.根据权利要求12的地址阅读装置,其中所述位置信息包括指示收件地址区域中的一个关键字符串的通常位置的信息。
17.根据权利要求12的地址阅读装置,其中所述地址处理装置测试每个地址区域候选项,以确定所述地址区域候选项是否是最可能含有一个收件人地址的地址区域候选项。
18.根据权利要求17的地址阅读装置,其中所述地址处理装置在进行所述测试时假定所述地址区域候选项中所含的字符串位于一个特定字符方向,并且根据所述假定分析所述字符串。
19.根据权利要求18的地址阅读装置,其中所述地址处理装置在进行所述假定时根据参考字符信息检测一个字符串的字符。
20.根据权利要求19的地址阅读装置,其中所述地址处理装置在进行所述假定测试时,根据字符串禁止区域信息,测试由检测处理检测的字符串的字符是否设置在邮件表面上的一个禁止收件人地址的区域中。
21.根据权利要求12的地址阅读装置,其中所述地址处理装置根据位置关系信息,对包括关键字符串的地址区域候选项之间的相对位置进行分析,以区别含有收件人地址的地址区域候选项和含有发件人地址的地址区域候选项。
22.根据权利要求12的地址阅读装置,其中所述地址处理装置参照发件人信息,确定每个被指示为含有一个关键字符串的地址区域候选项是否含有发件人信息。
23.一种用于对邮件分类的邮件分捡机,包括:
一个扫描器,扫描邮件表面,并且根据扫描输出邮件表面的图象;
一个地址阅读装置,用于识别邮件表面上的收件人地址,所述地址阅读装置包括:
一个图象输入装置,用于从所述扫描器输入邮件表面的图象,
一个地址处理装置,该装置将所述图象分割为至少一个字符串候选项,根据所述至少一个字符串候选项提取至少一个地址区域候选项,根据指示收件人地址区域的通常位置的预定位置信息、指示适于所述预定位置信息的字符串的字符方向的字符方向信息、以及指示最可能存在于收件人地址中的字符串的关键字符串信息,通过分析所述至少一个地址区域候选项中的每一个,将所述至少一个地址区域候选项中的一个选择为邮件的收件人地址区域,以及
一个地址识别模块,它将所选择的地址区域候选项中字符串中的字符识别为收件人地址;以及
一个分类器,根据所述地址识别模块所识别的收件人地址对邮件进行分类。
24.根据权利要求23的邮件分捡机,其中所述地址处理装置确定每个地址区域候选项中所包括的每个字符串的一个方向。
25.根据权利要求23的邮件分捡机,其中所述地址处理装置对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,每个关键字符串具有最可能存在于收件人地址中的字符。
26.根据权利要求23的邮件分捡机,其中所述地址处理装置对每个地址区域候选项中所包括的每一个字符串与关键字符串进行比较,关键字符串指示最可能包括在收件人地址区域中的城市。
27.根据权利要求23的邮件分捡机,其中所述位置信息包括指示收件地址区域中的一个关键字符串的通常位置的信息。
28.根据权利要求23的邮件分捡机,其中所述地址处理装置测试每个地址区域候选项,以确定所述地址区域候选项是否是最可能含有一个收件人地址的地址区域候选项。
29.根据权利要求28的邮件分捡机,其中所述地址处理装置在进行所述测试时假定所述地址区域候选项中所含的字符串位于一个特定字符方向,并且根据所述假定分析所述字符串。
30.根据权利要求29的邮件分捡机,其中所述地址处理装置在进行所述假定时根据参考字符信息检测一个字符串的字符。
31.根据权利要求30的邮件分捡机,其中所述地址处理装置在进行所述假定测试时根据字符串禁止区域信息,测试由检测处理检测的字符串的字符是否设置在邮件表面上的一个禁止收件人地址的区域中。
32.根据权利要求23的邮件分捡机,其中所述地址处理装置根据位置关系信息,对包括关键字符串的地址区域候选项之间的相对位置进行分析,以区别含有收件人地址的地址区域候选项和含有发件人地址的地址区域候选项。
33.根据权利要求23的邮件分捡机,其中所述地址处理装置参照发件人信息,确定每个被指示为含有一个关键字符串的地址区域候选项是否含有发件人信息。
CNB991017900A 1998-02-10 1999-02-10 邮件地址阅读器、分类机以及字符串识别方法 Expired - Fee Related CN1168040C (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP028077/1998 1998-02-10
JP02807798A JP3246432B2 (ja) 1998-02-10 1998-02-10 宛名読取り装置および郵便物等区分機
JP028077/98 1998-02-10

Publications (2)

Publication Number Publication Date
CN1237742A true CN1237742A (zh) 1999-12-08
CN1168040C CN1168040C (zh) 2004-09-22

Family

ID=12238719

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB991017900A Expired - Fee Related CN1168040C (zh) 1998-02-10 1999-02-10 邮件地址阅读器、分类机以及字符串识别方法

Country Status (4)

Country Link
US (2) US6291785B1 (zh)
JP (1) JP3246432B2 (zh)
KR (1) KR100324847B1 (zh)
CN (1) CN1168040C (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444751A (zh) * 2019-01-17 2020-07-24 富士施乐株式会社 信息处理装置、储存介质及信息处理方法

Families Citing this family (77)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NZ514051A (en) * 1999-02-12 2003-10-31 Siemens Ag Method for reading document entries and addresses
DE19933984C2 (de) * 1999-07-20 2001-05-31 Siemens Ag Verfahren zur Bildung und/oder Aktualisierung von Wörterbüchern zum automatischen Adreßlesen
US7060925B1 (en) * 1999-08-31 2006-06-13 United States Of America Postal Service Apparatus and methods for processing mailpiece information by an identification code server
US7081595B1 (en) 1999-08-31 2006-07-25 United States Postal Service Apparatus and methods for processing mailpiece information in a mail processing device using sorter application software
US6977353B1 (en) 1999-08-31 2005-12-20 United States Postal Service Apparatus and methods for identifying and processing mail using an identification code
JP4409702B2 (ja) * 2000-03-14 2010-02-03 株式会社東芝 認識装置
US7712024B2 (en) 2000-06-06 2010-05-04 Microsoft Corporation Application program interfaces for semantically labeling strings and providing actions based on semantically labeled strings
US7421645B2 (en) * 2000-06-06 2008-09-02 Microsoft Corporation Method and system for providing electronic commerce actions based on semantically labeled strings
US7770102B1 (en) 2000-06-06 2010-08-03 Microsoft Corporation Method and system for semantically labeling strings and providing actions based on semantically labeled strings
US7716163B2 (en) 2000-06-06 2010-05-11 Microsoft Corporation Method and system for defining semantic categories and actions
US7788602B2 (en) 2000-06-06 2010-08-31 Microsoft Corporation Method and system for providing restricted actions for recognized semantic categories
DE10111885C2 (de) * 2001-03-13 2003-02-20 Siemens Production & Logistics Verfahren zum Ermitteln gültiger Adresskodes
US7386458B2 (en) 2001-03-27 2008-06-10 Pitney Bowes Inc. Recipient elected messaging services for mail that is transported in trays or tubs
US20040094615A1 (en) * 2001-03-27 2004-05-20 Pitney Bowes Incorporated Recipient elected messaging services enabled by processing codes printed on mail
US7346591B2 (en) 2001-03-27 2008-03-18 Pitney Bowes Inc. Messaging services for uniquely identified mail
US6993491B2 (en) * 2001-03-27 2006-01-31 Pitney Bowes Inc. Method for a carrier to determine the location of a missing person
US7389238B2 (en) * 2001-03-27 2008-06-17 Pitney Bowes Inc. Recipient elected messaging services
US7085811B2 (en) * 2001-03-27 2006-08-01 Pitney Bowes Inc. Sender elected messaging services
US7386457B2 (en) 2001-03-27 2008-06-10 Pitney Bowes Inc. Messaging services for the visually impaired
US7778816B2 (en) 2001-04-24 2010-08-17 Microsoft Corporation Method and system for applying input mode bias
EP1417044B1 (de) * 2001-08-13 2005-10-26 Siemens Aktiengesellschaft Verfahren zum sortieren von sendungen nach ihren verteiladressen
US7707496B1 (en) 2002-05-09 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting dates between calendars and languages based upon semantically labeled strings
US7707024B2 (en) 2002-05-23 2010-04-27 Microsoft Corporation Method, system, and apparatus for converting currency values based upon semantically labeled strings
US7742048B1 (en) 2002-05-23 2010-06-22 Microsoft Corporation Method, system, and apparatus for converting numbers based upon semantically labeled strings
US7827546B1 (en) 2002-06-05 2010-11-02 Microsoft Corporation Mechanism for downloading software components from a remote source for use by a local software application
US7356537B2 (en) 2002-06-06 2008-04-08 Microsoft Corporation Providing contextually sensitive tools and help content in computer-generated documents
US20040065598A1 (en) * 2002-06-17 2004-04-08 Ross David Justin Address disambiguation for mail-piece routing
US7716676B2 (en) * 2002-06-25 2010-05-11 Microsoft Corporation System and method for issuing a message to a program
US7209915B1 (en) 2002-06-28 2007-04-24 Microsoft Corporation Method, system and apparatus for routing a query to one or more providers
US7084365B2 (en) * 2002-08-19 2006-08-01 Lands' End Direct Merchants, Inc. Methods and apparatus for a non-discrete sortation process
RU2251738C2 (ru) * 2003-01-28 2005-05-10 "Аби Софтвер Лтд." Способ приведения в соответствие заполненной машиночитаемой формы и ее шаблона при наличии искажений (варианты)
US7783614B2 (en) 2003-02-13 2010-08-24 Microsoft Corporation Linking elements of a document to corresponding fields, queries and/or procedures in a database
US7711550B1 (en) * 2003-04-29 2010-05-04 Microsoft Corporation Methods and system for recognizing names in a computer-generated document and for providing helpful actions associated with recognized names
US7266218B2 (en) * 2003-05-08 2007-09-04 Lockheed Martin Corporation Method and system for providing a measure of performance of region of interest identification algorithms
US7739588B2 (en) 2003-06-27 2010-06-15 Microsoft Corporation Leveraging markup language data for semantically labeling text strings and data and for providing actions based on semantically labeled text strings and data
US7788590B2 (en) 2005-09-26 2010-08-31 Microsoft Corporation Lightweight reference user interface
US7992085B2 (en) 2005-09-26 2011-08-02 Microsoft Corporation Lightweight reference user interface
US20080110810A1 (en) * 2006-11-01 2008-05-15 Raf Technology, Inc. Mailpiece reject processing and labeling
US20090046938A1 (en) * 2007-08-15 2009-02-19 Lockheed Martin Corporation Character contour correction
US20100100233A1 (en) * 2008-10-22 2010-04-22 Lockheed Martin Corporation Universal intelligent postal identification code
US8176080B2 (en) * 2009-03-06 2012-05-08 Hewlett-Packard Development Company, L.P. Desensitizing character strings
JP4875723B2 (ja) * 2009-04-24 2012-02-15 シャープ株式会社 画像形成装置
EP2478463A4 (en) * 2009-06-23 2013-10-09 Raf Technology Inc TECHNOLOGY FOR THE DISTINCTION OF SENDER AND RECIPIENT ADDRESSES
JP2011086178A (ja) * 2009-10-16 2011-04-28 Toshiba Corp 料額印検出方法及び料額印検出装置
JP5591578B2 (ja) * 2010-04-19 2014-09-17 日本電産サンキョー株式会社 文字列認識装置および文字列認識方法
JP5204803B2 (ja) * 2010-05-10 2013-06-05 株式会社エヌ・ティ・ティ・ドコモ データ処理装置、入力支援方法及びプログラム
US8526743B1 (en) 2010-11-01 2013-09-03 Raf Technology, Inc. Defined data patterns for object handling
US9443298B2 (en) 2012-03-02 2016-09-13 Authentect, Inc. Digital fingerprinting object authentication and anti-counterfeiting system
US9152862B2 (en) 2011-09-15 2015-10-06 Raf Technology, Inc. Object identification and inventory management
US8774455B2 (en) 2011-03-02 2014-07-08 Raf Technology, Inc. Document fingerprinting
US9361596B2 (en) 2011-10-04 2016-06-07 Raf Technology, Inc. In-field device for de-centralized workflow automation
US10346852B2 (en) 2016-02-19 2019-07-09 Alitheon, Inc. Preserving authentication under item change
US9390393B2 (en) * 2013-05-24 2016-07-12 Bank Of America Corporation Routing from a mail sorting assembly similarly addressed mail items to different destinations
CN104346801B (zh) * 2013-08-02 2018-07-20 佳能株式会社 图像构图评估装置、信息处理装置及其方法
JP6131765B2 (ja) * 2013-08-06 2017-05-24 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US10867301B2 (en) 2016-04-18 2020-12-15 Alitheon, Inc. Authentication-triggered processes
US10614302B2 (en) 2016-05-26 2020-04-07 Alitheon, Inc. Controlled authentication of physical objects
US10740767B2 (en) 2016-06-28 2020-08-11 Alitheon, Inc. Centralized databases storing digital fingerprints of objects for collaborative authentication
US10915612B2 (en) 2016-07-05 2021-02-09 Alitheon, Inc. Authenticated production
US10902540B2 (en) 2016-08-12 2021-01-26 Alitheon, Inc. Event-driven authentication of physical objects
US10839528B2 (en) 2016-08-19 2020-11-17 Alitheon, Inc. Authentication-based tracking
JP6949596B2 (ja) * 2017-07-20 2021-10-13 東芝テック株式会社 商品データ処理装置及び商品データ処理プログラム
EP3435287A3 (en) 2017-07-25 2019-05-01 Alitheon, Inc. Model-based digital fingerprinting
US11087013B2 (en) 2018-01-22 2021-08-10 Alitheon, Inc. Secure digital fingerprint key object database
CN108683589B (zh) * 2018-07-23 2020-07-14 清华大学 垃圾邮件的检测方法、装置及电子设备
JP7172351B2 (ja) * 2018-09-21 2022-11-16 富士フイルムビジネスイノベーション株式会社 文字列認識装置及び文字列認識プログラム
US10963670B2 (en) 2019-02-06 2021-03-30 Alitheon, Inc. Object change detection and measurement using digital fingerprints
EP3734506A1 (en) 2019-05-02 2020-11-04 Alitheon, Inc. Automated authentication region localization and capture
EP3736717A1 (en) 2019-05-10 2020-11-11 Alitheon, Inc. Loop chain digital fingerprint method and system
US11238146B2 (en) 2019-10-17 2022-02-01 Alitheon, Inc. Securing composite objects using digital fingerprints
EP3859603A1 (en) 2020-01-28 2021-08-04 Alitheon, Inc. Depth-based digital fingerprinting
EP3885982A3 (en) 2020-03-23 2021-12-22 Alitheon, Inc. Hand biometrics system and method using digital fingerprints
EP3885984A1 (en) 2020-03-23 2021-09-29 Alitheon, Inc. Facial biometrics system and method of using digital fingerprints
EP3929806A3 (en) 2020-04-06 2022-03-09 Alitheon, Inc. Local encoding of intrinsic authentication data
US11663849B1 (en) 2020-04-23 2023-05-30 Alitheon, Inc. Transform pyramiding for fingerprint matching system and method
US11983957B2 (en) 2020-05-28 2024-05-14 Alitheon, Inc. Irreversible digital fingerprints for preserving object security
US11700123B2 (en) 2020-06-17 2023-07-11 Alitheon, Inc. Asset-backed digital security tokens

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61103282A (ja) * 1984-10-26 1986-05-21 Nippon Telegr & Teleph Corp <Ntt> イメ−ジ情報処理方式
JPS6394384A (ja) * 1986-10-08 1988-04-25 Nec Corp 文字行方向判定方式
JP3038344B2 (ja) * 1987-02-24 2000-05-08 株式会社東芝 郵便物読取処理装置
US5031223A (en) * 1989-10-24 1991-07-09 International Business Machines Corporation System and method for deferred processing of OCR scanned mail
US5315668A (en) * 1991-11-27 1994-05-24 The United States Of America As Represented By The Secretary Of The Air Force Offline text recognition without intraword character segmentation based on two-dimensional low frequency discrete Fourier transforms
US5321768A (en) * 1992-09-22 1994-06-14 The Research Foundation, State University Of New York At Buffalo System for recognizing handwritten character strings containing overlapping and/or broken characters
JP2977431B2 (ja) * 1993-12-27 1999-11-15 株式会社東芝 ビデオコーディング装置
JP3388867B2 (ja) * 1994-03-31 2003-03-24 株式会社東芝 宛名領域検出装置および宛名領域検出方法
JP2734386B2 (ja) * 1994-12-20 1998-03-30 日本電気株式会社 文字列読み取り装置
JP3441249B2 (ja) * 1995-07-24 2003-08-25 株式会社東芝 コーディングシステム及び郵便物処理システム
JP3232991B2 (ja) * 1995-12-13 2001-11-26 株式会社日立製作所 文字読取り方法及び住所読取り方法
JPH09245120A (ja) * 1996-03-11 1997-09-19 Hitachi Ltd 文字切出し方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111444751A (zh) * 2019-01-17 2020-07-24 富士施乐株式会社 信息处理装置、储存介质及信息处理方法
CN111444751B (zh) * 2019-01-17 2024-01-05 富士胶片商业创新有限公司 信息处理装置、储存介质及信息处理方法

Also Published As

Publication number Publication date
US20010021261A1 (en) 2001-09-13
KR100324847B1 (ko) 2002-02-20
CN1168040C (zh) 2004-09-22
JP3246432B2 (ja) 2002-01-15
US6291785B1 (en) 2001-09-18
US6470091B2 (en) 2002-10-22
JPH11232391A (ja) 1999-08-27
KR19990072440A (ko) 1999-09-27

Similar Documents

Publication Publication Date Title
CN1168040C (zh) 邮件地址阅读器、分类机以及字符串识别方法
CN1151464C (zh) 读取字符的方法和读取邮政地址的方法
US6151423A (en) Character recognition with document orientation determination
Palumbo et al. Postal address block location in real time
CN1103087C (zh) 光学扫描表单识别及更正方法
EP1358622B1 (en) Identification , separation and compression of multiple forms with mutants
JP2011166768A (ja) 微細固有特徴生成方法およびドキュメント画像処理システム
CN1904906A (zh) 地址识别装置和方法
JP3485020B2 (ja) 文字認識方法及び装置ならびに記憶媒体
RU2648638C2 (ru) Способы и системы эффективного автоматического распознавания символов, использующие множество кластеров эталонов символов
CN1158146C (zh) 利用记录所得的地址记录更新地址数据库的设备和方法
CN111144399A (zh) 处理图像的装置和方法
JP3388867B2 (ja) 宛名領域検出装置および宛名領域検出方法
US9378414B2 (en) Chinese, Japanese, or Korean language detection
US20010043742A1 (en) Communication document detector
KR100655916B1 (ko) 방대한 데이터의 디지털화를 위한 문서영상처리 및검증시스템 및 그 방법
CN1228733C (zh) 在图像中探测对象的方法
US6683967B1 (en) Area extraction method, address area extraction method, address area extraction apparatus, and image processing apparatus
CN1107280C (zh) 中英文表单的识别系统及识别方法
JP4810853B2 (ja) 文字画像切出装置、文字画像切出方法およびプログラム
CN1110018C (zh) 特征值抽取方法及设备
CN1452098A (zh) 文档分类系统及其实现程序
JP3105918B2 (ja) 文字認識装置、および文字認識方法
JP2000207491A (ja) 文字列読取方法及び装置
Lee et al. Rapid analytical verification of handwritten alphanumeric address fields

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1025693

Country of ref document: HK

ASS Succession or assignment of patent right

Owner name: HITACHI OMRON FINANCIAL SYSTEM CO., LTD.

Free format text: FORMER OWNER: HITACHI, LTD.

Effective date: 20111208

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20111208

Address after: Tokyo, Japan

Patentee after: Hitachi Omron Financial System Co., Ltd.

Address before: Tokyo, Japan

Patentee before: Hitachi Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20040922

Termination date: 20140210