CN1158146C - 利用记录所得的地址记录更新地址数据库的设备和方法 - Google Patents
利用记录所得的地址记录更新地址数据库的设备和方法 Download PDFInfo
- Publication number
- CN1158146C CN1158146C CNB008100098A CN00810009A CN1158146C CN 1158146 C CN1158146 C CN 1158146C CN B008100098 A CNB008100098 A CN B008100098A CN 00810009 A CN00810009 A CN 00810009A CN 1158146 C CN1158146 C CN 1158146C
- Authority
- CN
- China
- Prior art keywords
- address
- data
- database
- date
- address date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Images
Classifications
-
- B—PERFORMING OPERATIONS; TRANSPORTING
- B07—SEPARATING SOLIDS FROM SOLIDS; SORTING
- B07C—POSTAL SORTING; SORTING INDIVIDUAL ARTICLES, OR BULK MATERIAL FIT TO BE SORTED PIECE-MEAL, e.g. BY PICKING
- B07C3/00—Sorting according to destination
- B07C3/10—Apparatus characterised by the means used for detection ofthe destination
- B07C3/14—Apparatus characterised by the means used for detection ofthe destination using light-responsive detecting means
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99937—Sorting
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99941—Database schema or data structure
- Y10S707/99944—Object-oriented database structure
- Y10S707/99945—Object-oriented database structure processing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
- Communication Control (AREA)
- Sorting Of Articles (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Telephonic Communication Services (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
- Information Transfer Between Computers (AREA)
Abstract
对含有记录所得的地址记录的数据库存储器(44),更新其中地址数据库的设备和方法采用如下步骤:接受和处理邮件所示的地址数据;存储该地址数据;根据预先定义的准则确定该地址数据的品质等级;将该地址数据与存储在数据库存储器(44)中的地址记录相比较;根据该地址数据的品质等级以及与储存的地址记录的比较结果来更新数据库存储器(44)中的内容。
Description
技术领域
本发明涉及利用记录所得的地址记录更新地址数据库的设备和方法,包括:
·至少一个接受和处理邮件所示地址数据的处理器;
·一个存储地址数据的存储器,它连接到至少一个处理器;
·一个其中存储有地址数据库的数据库存储器,它连接到至少一个处理器。
一个这种类型的设备在JP-A 9/57204中公开。
背景技术
JP-A 8/323299涉及一个地址数据库管理系统,该系统用于根据已改正的退回邮件更新地址数据库。该退回的邮件由某个阅读机读取,改正后的数据存储在某个存储器中。该管理系统根据该退回邮件上给出的数据自动更新数据库。一个能够按照改正后地址对邮件进行分拣的邮件分拣机连接到该数据库管理系统。这份文件不涉及不采用改正后退回的邮件更新现有数据库的问题。
JP-A 9/314067描述一个邮件分拣装置和方法。所示设备包括从邮件读取地址信息和按该地址信息产生一个地址编码的手段。作为一个替代方法,地址信息也可以手工输入。该地址编码与某个地址信息数据库中的内容进行比较。如果该地址编码不能准确和该数据库中的某个地址相符,则向操作人员显示该地址编码和可能的正确地址。该操作人员就能够,譬如说,将该邮件上的收件人名称与那些可能正确的地址中的各收件人名称比较,确定后者中哪一个是正确的。然后这个正确地址就被打印到该邮件上供进一步自动分拣。这份文件在假设地址数据库正确时有效。
JP-A 9/75862描述一个邮件分拣机。它包括一个视频编码终端。机器操作人员输入某个用户的编码。该机器通过与某个数据库进行比较来评估该用户编码的正确性。这份文件没有提到更新地址数据库。
JP-A 9/57204涉及一个自动邮件分拣设备中采用的更新地址数据库的问题,本权利要求书以此为界定。
在这样一个邮件分拣设备中,有一个阅读邮件并将该地址数据转换为一个地址编码的视频编码单元,譬如采用一个光学字符识别单元。该地址编码被存储在某个存储器中。在这一分拣过程中,该地址编码与存储在地址数据库中的地址数据进行比较。如果比较结果表明,该地址编码与存储在该地址数据库中的某个地址相符,它就被认为是正确的,可供进一步分拣。
某些地址编码不与该数据库中的任何地址相符。屏幕上就可能显示出由该视频编码单元记录下的该邮件的图像。该邮件分拣设备的操作人员就仔细察看屏幕上出现的信息,并手工,譬如通过键盘,输入后续分拣过程中必须使用的地址。然而,上述JP-A 9/57204也建议数据库本身的更新,以使发生错误和/或出现地址编码与该数据库中某个地址不相符的情况越来越不频繁。
为此,JP-A 9/57204实质上建议如下:与该数据库中某个地址不相符的邮件地址编码被存储在某个存储器内。用单独一行来移去有关的被拒识邮件。在合适的时刻,该被拒识的邮件又被送回机器以便根据更新后的读数来更新数据库。原则上,邮件被拒识可能有两个原因。第一个原因是,光学字符识别系统也许没能识别一个或多个字符。另一个可能是,所有字符均已被识别,但这样产生的地址编码并不与该数据库中的某个地址相符。
在第一种情况下,会向系统操作人员显示视频编码单元记录的图像。操作人员根据这个图像决定如何改正这些不正确的字符。作为一个可选的操作,该数据库也可以通过对该手工改正后的地址进行模式识别来加以更正或补充。在第二种情况下,则用被认为是正确的新地址信息对该数据库加以补充。
用本发明解决的问题涉及尽可能自动地更新一个地址数据库。随这样一种操作出现的问题可举例如下:该地址数据库将始终包含某些准确性可以加以改善或含有少量错误的地址数据。进一步讲,许多人常常居住在并非他们家庭地址的临时地址内,譬如说他们在度假或在医院住了一段时间。在那段时间内,寄给他们的邮件就被投送到并非他们家庭地址的某个地址。不过,寄给他们的邮件上的地址是正确的,应该不会引起分拣的混淆。相应地,在这种情况下地址数据库不应进行修改。再有,许多人搬家时没有及时或没有以正确方式向邮政投递部门通报他们的新家庭地址。这时就需要修改地址数据库。许多人还接受寄到不同地址的邮件,譬如因为他们有一个家庭地址和一个营业地址。最后,邮政投递部门完全不知道某些人(譬如儿童)的任何地址,而那些地址对监视分拣过程可能是有用的。
发明内容
本申请的目的首先在于更新地址数据库时尽量避免这一类问题,并获得尽可能可靠的数据。
为此,在导言中提到的这类设备的特征是,安装有一个或多个处理器来按照预先定义的准则确定该地址数据的品质等级,该品质等级显示了该地址数据如何好,将该地址数据和存储在数据库存储器中的地址记录加以比较,并根据该地址数据的品质等级和与存储的地址记录的比较结果来更新数据库存储器的内容。
在本发明的设备中,一个含有记录所得的地址记录的地址数据库将根据邮件上打印的以及该设备接受到的地址数据被不断更新。为实现这一操作,另一种可选用的的方法是,邮件所示的这些数据可以由以后手工输入这些数据的人读取。不过,这些地址数据的读取最好还是自动进行。自动读取可以通过任何一种能用于这一目的已知技术来实现。地址数据库的更新完全自动进行,而不像以前的技术那样,要在其地址数据读数与存储的地址记录不相符、并被该设备拒识的邮件的基础上,依靠对地址数据库的手工改进来进行。为此,符合本发明的设备采用了某个根据预先定义的准则确定的、能显示该地址数据如何好的品质等级。该设备完全自动确定,这一品质能否使该地址数据库按照这个地址数据加以更新。
在更新该地址数据库时,可以采用对所有邮件自动读取的地址数据。当然,也可以采用从中选择的一组数据。譬如,在向不可用地址投寄大量邮件的特殊时期,如圣诞节期间,可以考虑随机采样或避免修该数据库。又譬如,可以不处理手写地址或不理会明信片上的地址。
本发明也涉及利用记录所得的地址记录更新数据库存储器中地址数据库的方法,包括
·接受和处理邮件所示的地址数据;
·存储该地址数据;
其特征为
根据预先定义的准则确定该地址数据的品质等级,该品质等级显示了该地址数据如何好,将该地址数据与存储在数据库存储器中的地址记录加以比较,并根据该地址数据的品质等级以及它与存储的地址记录的比较结果来更新数据库存储器中的内容。
附图描述
下面将参考几幅例图对本发明加以说明,这些例图只用于演示本发明,而不仅限于图形本身。
图1是一件邮件的示例,它提供某个收件人的地址数据和某个寄件人的地址数据;
图2是一个设备的示例,该设备能在更新某个具有地址记录的数据库时使用;
图3是一个流程图,它显示更新某个数据库内地址记录的过程中的几个步骤;
图4、图5和图6给出了图3中某几个步骤的详细说明。
具体实施方式
图1所示为一封信,它提供某个收件人的地址数据2和某个寄件人的地址数据7。信件1可能已有一枚邮票8。也可能该邮件已经由机器或类似装置盖了邮资已付印戳而没有邮票8。还有一种可能情况是,邮件上提供的地址数据也许还有一个编码形式的增补或者只有编码。这个编码可以是一维或两维条形码。该邮资已付印戳的邮资也可能已经合并在这样的一个条形码中。这时,该条形码也称为“电子邮票”。
举例来说,收件人的地址数据包括名称行3、公司名称4、街道地址5、城镇及邮政编码6。寄件人的地址数据可以按类似的样式组成。
这样的一封信1可以用某个自动分拣机来分拣。自动分拣的一个示例如图2所示。譬如说,信件1被放在传送带10上。传送带10引导信件1通过图象扫描仪12,该扫描仪产生邮件上显示收件人地址数据2、或者如图所示还包括寄件人地址数据7的那一面的图象。图象扫描仪12将记录下的图象送到处理器14。
经过图象扫描仪12扫描后,信件1由传送带10送到能在信件1上打印条形码的条形码打印机26。这个条形码包含最后分拣时要使用的更详细的信息。通过条形码打印机26后,信件1被传送带10送到分拣机28,它阅读打印的条形码并据此将信件1送到专门的通道30、32、34、36ΛΛ。
图象扫描仪12、条形码打印机26和分拣机28被连接到处理器14。处理器14也被连接到操作人员可以借以输入数据的工具,如一个鼠标18和一个键盘16。处理器14还被连接到合适的存储器,举例说,包括一个硬盘20和一个图象存储器22,处理器14在图象存储器中存储由图象扫描仪12读取的、含有地址数据的图象,既包括收件人的地址,也包括寄件人(如果有的话)的地址。
处理器14也被连接到显示工具24,譬如一个监视器。
处理器14自动控制图象扫描仪12、条形码打印机26和分拣机28来完成分拣过程。其中进行分拣的方法本身是已知的,这里无须进一步说明。条形码打印机26和分拣机28构成本发明的邮件分拣单元
在符合图2的装置中,处理器14被连接到一个电话网,譬如PSTN 40(公共交换电话网)。
作为一个补充,可以在处理器14和PSTN 40之间接一个附加处理器15,这个附加处理器15,譬如说,可以执行通过PSTN发送和接受数据的操作来减轻处理器14的负荷。这可以包括数据缓冲、通过PSTN 40建立和其它处理器的通信,特别是执行一项或多项本发明框架下需要的、但不是分拣过程本身已经要求的操作。譬如对分拣过程而言,通过图象扫描仪提供的图象来获得收件人的名称(公司名称和/或私人)或者寄件人数据7就不是必须的。
一个中央处理器42也连接到PSTN 40。该中央处理器42还连接到中央数据库存储器44。
图2中标明,处理器14通过电缆38(1)(作为另一种选择,也可以先通过处理器15)连接到PSTN 40,图中有几个这样的连接38(2)、38(3)、38(4)ΛΛ。其它的这些连接是要表明,几个这种具有本地处理器和本地分拣手段的装置可以连接到该PSTN 40。它们都可以通过PSTN 40与中央处理器42通信。
然而也能想到,本发明还可应用于本地装置,处理器14(作为另一种选择,也许还连同处理器15)也可以直接连接到中央数据库存储器44。
中央数据库存储器44由一个包含地址记录的数据库组成。在本发明的情况下,一个地址记录至少包括一个名称行3、一个街道地址5、以及一个城镇和邮政编码6。名称行中的名称可以是个人姓名,但也可以是公司名称,或者两者都有。有时会出现两个(或多个)名称行,譬如既显示个人姓名,又显示公司名称。当然,在地址记录中也可能加入更多的相关数据。
图3按粗轮廓显示了更新中央数据库存储器44中的地址记录时采取的步骤。在这一更新过程中采用的步骤大致如下。
该邮件上的数据被提交给某个人和/或者某个机器识别过程,目的在于获得与邮政服务有关的数据。
存储在图象存储器22中的图象经过处理器14(作为另一种选择,也可能和处理器15联合)分析,建立与收件人、也可能还与寄件人相关的一个或多个地址块。对每个地址块进行分析,在分析时评估该地址块中各行的性质。该地址块中的每一行都被分段,就是说,评估是对构成该行的逻辑上一致的元素进行的,譬如“首字母”或“街道地址”。作为一种可选的方式,对被发现的元素的内容可以进行标准化处理,各种情况都以标准格式显示。
在识别过程中所作的每一个评估都产生一个评估记分来表示该识别结果的(不)可靠性程度。差的识别结果会导致检测结果被认为不可使用而遭到拒绝。在识别过程中可以使用已有的、经过确认的参考数据,在这种情况下可以考虑那些包含姓氏、邮政编码、街道地址、城镇和某个特定国家(譬如荷兰)的取件地点的文件。这些参考数据储存在一个存储器中,可以用于对该识别结果作更仔细的评估,甚至可以用来改正以前的识别结果。譬如,一个已经识别但却不存在的邮政编码在与包含已有邮政编码的、经过确认的文件比较后就可能得到改正。
现在更详细地解释图3。
目前荷兰每天大约有2400万件邮件在6个不同的分拣中心通过自动邮政分拣系统(APSS)自动处理。按功能来讲,一个这种分拣中心相当于图2的中央部分。图象扫描仪12生成每个邮件1上地址这一面的数字图象,该图象被送到处理器14,该处理器将图象存储到图象存储器22。数字图象中的地址被处理器14定位,然后该地址被自动读取。在图3流程图的第一步“APSS收集”46,邮件上的地址数据暂时被就地存储在图象存储器22中。图象中地址数据内出现的字符借助人们已知的光学字符识别(OCR)技术加以认定。可以为邮件上出现的字符到数字字符的转换确定一个字符识别可靠性等级,该字符识别可靠性等级取决于邮件上字符的准确程度、图象扫描仪12的读取过程和OCR过程的品质。手写字符要比印刷字符更可能给出不正确的结果。
最好只用邮件1上那些机器书写的、而且邮政编码/门牌号码组合6被正确读取的地址数据来更新中央数据库44中的地址数据。对邮件分拣过程本身而言,要尽可能考虑OCR过程产生的所有数据,自然也包括那些手写地址的数据。对于更新中央数据库存储器44而言,手写地址邮件上的地址数据最好被认为是不够可靠的。
要对借助OCR技术从记录下的图象获得的地址数据进行补充,可以采用由人手工输入的数据。这里所说的数据是指邮件上已经由处理器14认定、但却无法根据图象中的字符针对街道地址、邮政编码和城镇自动获得实际地址数据的数据。在分拣过程中这些邮件被拒绝,并被放到一边供手工处理。某个雇员通过监视器24尽可能多地从图象读取该地址并手工处理这些邮件,再通过输入工具16、18手工输入他/她确认的地址,此后处理器14仍然能够将该正确指令送到条形码打印机和分拣机。进一步可以想到的是,上述雇员亲自从原始邮件上读取地址数据。
也可以想到,从邮件获得的、用于更新数据库的地址数据已经在别处手工输入,生成了含有地址数据的数据文件,譬如用软盘或通过互联网,文件被读取后就提交到中央处理器42。
中央处理器42可以通过网络连接PSTN 40(或通过任何其它的通信连接)和处理器14(或15)通信,以便请求调用存储在图象存储器22中的图象。请求被接收后,中央处理器42可以在扫描所得的地址数据中添加任何需要的管理数据。举例说,管理数据包括扫描该地址数据的分拣中心、扫描该地址数据的日期和一个序列号。中央处理器42然后就能够将已经接受到的扫描地址数据集中存储在任何合适的存储器中。譬如,它可以是中央数据库存储器44之外的一个独立的数据库。
“APSS收集步骤”46之后,执行分段/标准化步骤48。如图4所示,在这一步,扫描得到的、被调用(步骤482)的每一个邮件的地址数据被分离成有关的元素。步骤483从收件人的地址数据中选择姓名行3,步骤484再将它分离成元素。对单个元素赋予含义,如称谓、教名、头衔等等。然后单个元素可以标准化处理,各种情况按标准格式显示。如果有公司名称4,也要进行分析。这样就产生了一个地址记录,它包括姓氏和/或公司名称以及有关属性,如首字母、中缀、后缀等等。
按照预先定义的算法,步骤485根据地址记录的数据确定某个总体识别可靠性等级。字符识别可靠性等级被当作一个要素包括到这个总体识别可靠性等级之中。该总体识别可靠性等级也考虑到了邮件自身地址数据的书写错误和/或打印错误。
步骤486对分段(分离为单个元素)过程中的分段品质也确定一个评分。总体识别可靠性等级和分段品质都包括在地址记录之中。这两种等级,即总体识别可靠性等级和分段品质就可以在随后实际更新中央数据库存储器44中的地址记录时加以利用。
然后由中央处理器42执行常用性测试50(见图5)。为此,中央处理器42有一份荷兰现有姓氏的文件。这个文件存储在连接到中央处理器42的一个存储器(未画出)中。经步骤48从地址数据分离出来的每一个姓氏都在步骤501中和现有姓氏比较,并在步骤502中检查是否符合语法规则。对出现的教名和任何公司名称也进行同样的操作。借助于预先定义的算法,在步骤503中对每一个姓氏、教名和任何公司名称都确定一个常用性等级,并添加到地址记录中去。
街道地址数据5(或邮政信箱号)以及邮政编码和城镇组合6一经图象扫描仪12显示就由处理器14进行检查以便确定它们是否存在,因为这些数据是邮件分拣过程需要的。在当前的实际应用中,门牌号码的后缀,如“上面”、“背面”、“第二层”、“II”等等没有被检查。在步骤52“编址”中,这些门牌号码后缀都根据常用缩写词清单作标准化处理。譬如,“TO”(“opp”)与“togenover”(“对面”)同义。又如,“1-hoog”(“一楼”)与“1c”(“1st”)以及“i”同义。
在步骤52中,对每一组街道或路名、号码、邮政编码及城镇的组合,中央处理器42检查中央数据库存储器44存储的数据库中有没有与之相符的数据。如果没有,该地址就显示为 “新的”。这一事实被添加到扫描所得的地址记录中(步骤522)。
中央处理器42然后从中央数据库存储器44的中央数据库中读取扫描得到的地址记录内该地址(包括后缀)中记录下的所有名称。扫描得到的名称3和4与中央数据库内记录下的名称相比较。如果可能,任何首字母、教名、称谓、姓氏和后缀都会相互比较。对某个地址扫描得到的名称3和名称4会被赋予一个比较评分,该评分包括了与记录下的名称的各个组成部分,譬如说与首字母、称谓、教名、姓氏、后缀等等比较的品质和结果。
根据对某个扫描所得地址数据的比较评分、分段品质、常用性等级和总体识别可靠性等级,中央处理器42确定某个扫描所得地址记录是否为新地址、已知地址或未知地址。实现这一操作要采用品质等级,它最好至少依据如下准则中的一个:分段品质、常用性等级和总体识别可靠性等级。譬如说,品质等级可以是这三个准则的算术平均值。举例说,将状态设置为“新”、“已知”和“未知”可以按如下规则进行:
—如果比较评分较低,品质等级较高则扫描所得的地址数据是新的;
—如果比较评分较高,品质等级也较高则扫描所得的地址数据是已知的;
—如果比较评分较低,但品质等级也较低则扫描所得的地址数据是未知的。
这一状态的赋值在步骤56“决策”中进行。
对已知地址记录,其统计数据在同一步骤中更新。对此下面将更详细地进行讨论。
对新的和/或未知的地址记录,中央处理器42可以在中央数据库存储器44中生成一个新地址记录。
更新与已知地址记录有关的统计数据,举例来说,可以采用如下步骤。
数据元素出现的频度可以按分拣中心记录,从而确定某个地址元素的分布区域。也可以记录上次在一个分拣中心读取某个地址记录的日期。这样就可能在中央数据库中记录下,譬如说,去年某个特定地址记录在某处出现于一件邮件上的日期。这样就可以确定该地址记录在某邮件上连续两次使用的时间间隔。举例来说,为了确定这一时间间隔,可以查看某个近期的间隔或更早先的间隔。也可以确定在一个分拣中心连续两次读取该地址记录的平均时间长度。如果该平均时间间隔随着时间推移发生显著变化,就说明该地址记录必须加以修正。
寄件人的地址数据7也能够被记录并存储到某个存储器。那么确定品质等级值时也就可以采用寄件人的地址7。总之可以假定,从当地官方注册机构发出的邮件包含非常可靠的收件人地址数据2。最好不用数据库44本身产生的目的地地址来确定数据库44中地址的准确性程度。
如果存储了寄件人的地址数据,也能够记录下同一个地址是否经常向某个地址元素发送邮件。如果某个目的地地址仅被一个寄件人地址频繁使用,那么准确性不一定很高。使用同一个目的地地址的寄件人地址越多,准确性也越高。
根据这些数据,每一个地址记录都可以被赋予一个状态,譬如新、常用、可靠或旧。举例来说,可以采用如下规则进行赋值。当第一次编辑某个地址记录时,状态为新。从不同的寄件人和/或不同的分拣中心数次接收到某个地址记录后,它就变成常用的。如果在邮件中有规律地遇到一个常用地址记录,该地址记录就可以是可靠的。规律性是根据某邮件上连续两次读到该地址记录的平均时间间隔来确定的。如果上述间隔的平均持续时间变得比预先定义的间隔长,就可以将一个可靠地址反过来转变为常用地址。如果不再遇到某个地址记录,它的状态就成为旧。
如果近来在某邮件上读到某个地址记录的时间间隔越来越长,这就表示,举例来说,收件人搬家了,就可以判定该地址记录应当废止。
示例
现在举例说明一个识别过程。假定被提交的仅仅是一个只读出有效邮政编码的数据。举例说,一个地址块内容如下:
BTT Port Medapersice
Pohtnus 5838
5858GJ Riksdijk NL
而被读邮件1上显示的却是:
PTT Post Mediaservice
Postbus 5858
5858GJ Rijswijk NL
每个字符被读取时都有一定的识别准确性,对每一行可以确定一个平均可靠性等级。譬如,第一行为60%,第二行为75%,最后一行为65%。总体识别可靠性等级就是60%、75%和65%的平均值66.6%。另一种方法是,在确定识别准确性时认为第一行是决定性的。
在这种情况下,分段后生成3行。第一行划分为3个词,第二行划分为2个词,第三行也划分为2个词外加一个单独的标志。假定地址第三行是一个邮政编码和城镇,但仅因为两个元素之间有很大的间隔(Riksdijk和NL),第三行就被赋予一个低的分段评分,譬如40%。第二行应当包括道路或街道名称和号码(也可能还有后缀),因为其结构与预期的相符,所以有高的分段评分,譬如90%。第一行有三个元素,各有3、4、7个字符,对姓氏和公司名称而言是一个好的结构。它的分段评分,譬如取为80%。平均分段评分就是70%。
该名称行中没有已知的前缀、中缀或后缀,也没有头衔和类似内容。这说明它牵涉到一个公司名称。在第二行中进行查看可以认定门牌号码有无后缀,如果有的话,后缀是什么。在本例中没有后缀,从而可以识别,这里涉及的内容是邮政信箱。所以没有什么需要进行标准化处理。
常用性检查可以是与现有个人姓名和公司名称比较。比较会产生一个评分。在完全对应的情况下评分就是100%,如果完全不同就是0%。举例说,与“PTT Post Mediaservice”比较评分可能为65%,而与“PTT PostBrieven”比较为25%,与SijthofPers比较为0%。
比较评分可以通过匹配算法计算,但要与向所读地址(Postbus 5858)注册的个人和/或公司名称比较。譬如说,后者可能是如下公司:PTT PostMediaservice、DMdata和Dataprofs。与PTT Post Mediaservice比较是65%,与DMdata和Dataprofs比较是0%。显然,与PTT Post Mediaservice的比较评分是最高的。
现在,一个基于规则的系统就能确定在当前情况下(准确性66.6%、分段70%、常用性65%、比较评分65%),该数据元素能否被认为是已知的、未知的或是新的。举例说,对新数据元素的要求是品质等级(譬如总体识别可靠性等级、分段和常用性的平均值)大于80%且比较评分低于80%。再举例说,对已知数据元素的要求是品质等级和比较评分均高于95%。任何不在这一范围内的数据都被认为是未知的。
进一步实施计划
图2表明中央数据库存储器具有一个数据库的情形。不过,在中央数据库存储器的数据库的基础之上,还能够加一个包含全体中央数据库之部分地址记录的附加数据库。这部分数据的选择根据特殊的决策规则进行。譬如,这部分选中的地址记录只包括那些准确性超过特定界限的地址记录。这些可靠的地址记录,举例说,可以供第三方使用。
在提供一个包含从中央数据库存储器选择数据的附加数据库的情况下,可以有一项规定,即作为包括在该附加数据库存储器中的一项附加决策规则,数据选择必须符合私有立法下的相关法规。为使数据存储符合私有立法,中央数据库本身可以放在一个黑匣内。存储在其中的数据,举例说,只能通过也放在这个黑匣内的可靠的输出路径存取。在这种场合下,可能采用一个电子密钥,作为另一种选择,它也可以是公用的。
这样,在对扫描所得的地址数据元素的可用性的决策过程中,最好采用:(1)它的出现频度,(2)其中的变化和(3)寄件人的分布区域。原则上,可以为此建立一个基于规则的系统。另一种方法是,中央处理器可以带有一个神经元网络或类似装置。一般来说,一个地址数据元素在某个邮件上读取的日期越近,它的可用性就越好。如果它出现得足够频繁(常用状态),那么向该地址发送邮件的不同寄件人的数量越大(常用状态),它的品质等级,譬如用分段品质和识别可靠性等级表示的品质等级,也就越高。
上面已经描述了更新中央数据库的各个步骤由中央处理器42执行的一个实施计划。然而正如前面所述,这些步骤也可以由处理器14(或者作为一个可选情况,部分地由处理器15)执行,尤其是当需要更新的数据库是一个只在本地存在的地址数据库、而且它储存在与处理器14(或15)相连的存储器之中。
对该设备和方法的附加可能性叙述如下。
当用图象扫描仪12进行显示时,寄件人地址数据7也可以被扫描。譬如处理器14可以认定寄件人地址数据7与PTT POST(即邮政电报电话局)(或分拣处)本身的数据相符。从后者产生的数据将与中央数据库存储器中44的数据相符。这样的数据最好不要合并到图象存储器22中,以预防中央数据库存储器中可能出现的错误每次都会对自身加以确认。
对名称行3的各个名称,除了头衔之类以外,有时在邮件上还添加了人们的工作头衔。这些数据也可以存储在中央数据库存储器44之中。这些工作头衔在编辑上述附加数据库时可能是重要的。
当然,在前面说明的分拣过程中也可以使用中央数据库44。
Claims (24)
1、一种利用记录所得的地址记录更新地址数据库的设备,包括:
·一个或多个处理器(14、15、42),它接受和处理邮件所示的地址数据;
·一个存储地址数据的图像存储器(22),它连接到一个或多个处理器(14、15、42);
·一个数据库存储器(44),它连接到一个或多个处理器(14、15、42),并包含存储在其中的地址数据库;
其特征为
安装一个或多个处理器(14、15、42)来根据预先定义的准则为地址数据确定显示该地址数据如何好的品质等级,将该地址数据与数据库存储器(44)中存储的地址记录相比较,根据该地址数据的品质等级以及地址数据与存储的地址记录的比较结果来更新数据库存储器(44)中的内容。
2.根据权利要求1的设备,其中安装一个或多个处理器来确定地址数据识别的可靠性等级,并部分地依据该识别可靠性等级来确定品质等级。
3.根据权利要求1或2的设备,其中安装一个或多个处理器从地址数据中选出各名称行,按预先定义的规则将这些名称行分离为单个元素,并部分地依据这些名称行的选择和它们的分离来确定品质等级。
4.根据权利要求3的设备,进一步包括存储的常用名称,其中安装一个或多个处理器将这些名称行的单个元素与常用名称比较,据此确定常用性评分,并部分地依据常用性评分来确定品质等级。
5.根据权利要求3的设备,其中安装一个或多个处理器以便从这些名称行获得某个收件人的名称,从地址数据获得该收件人的地址,从地址数据库读取居住在该地址的人员的登记姓名,将它们与收件人姓名比较,并根据这一比较确定每个登记姓名的比较评分,某个比较评分越高,收件人姓名和各自的登记姓名的符合程度越高。
6.根据权利要求5的设备,其中安装一个或多个处理器以在该比较评分较低且品质等级较高时将该地址数据认定为新数据。
7.根据权利要求5的设备,其中安装一个或多个处理器以在该比较评分较高且品质等级也较高时将该地址数据认定为已知数据。
8.根据权利要求5的设备,其中安装一个或多个处理器以在该比较评分较低且品质等级也较低时将该地址数据认定为未知数据。
9.根据权利要求6的设备,其中安装一个或多个处理器,以便如果该地址是新的,它能产生一个附加的包含该地址数据的地址记录。
10.根据权利要求9的设备,其中安装一个或多个处理器能对每一个地址记录记载如下4个状态之一:
·如果该地址记录是生成的,则记为新状态;
·如果有关地址数据来自不同的寄件人,则记为常用状态;
·如果有关地址数据有规律地被重新读取,则记为可靠状态;
·如果地址记录失效,则记为旧状态;
11.根据权利要求1的设备,其中地址数据库被保密存储,使得存储在中央数据库中的数据只能通过预先定义的规则处理,或者存储在中央数据库中的数据能够通过一输出路径存取。
12.权利要求1的设备,进一步包括使用地址数据库自动分拣邮件的邮政分拣单元(26、28)。
13.一种利用记录所得的地址记录更新数据库存储器(44)中地址数据库的方法,包括:
·接受和处理邮件所呈现的地址数据;
·分拣该地址数据;
其特征为
根据预先定义的准则确定该地址数据的品质等级,该品质等级显示了该地址数据如何好,将该地址数据与存储在中央数据库(44)中的数据记录比较并根据该地址数据的品质等级以及地址数据与存储的地址记录的比较结果来更新数据库存储器(44)的内容。
14.根据权利要求13的方法,包括确定地址数据识别的可靠性等级,并部分地依据该识别可靠性等级来确定品质等级的步骤。
15.根据权利要求13或14的方法,包括从地址数据中选择各名称行,按预先定义的规则将这些名称行分离为单个元素,并部分地依据这些名称行的选择和它们的分离来确定品质等级的步骤。
16.根据权利要求15的方法,包括将这些名称行的单个元素与常用名称比较,据此确定常用性评分,并部分地依据常用性评分来确定品质等级的步骤。
17.根据权利要求15的方法,包括从这些名称行获得某个收件人的一个姓名,从该地址数据获得该收件人的一个地址,从地址数据库读取居住在该地址的人员的登记姓名,将它们与收件人姓名比较,并根据这一比较确定每个登记姓名的比较评分的步骤,某个比较评分越高,收件人姓名和各自的登记姓名的符合程度越大。
18.根据权利要求17的方法,包括能在该比较评分较低且品质等级较高时将该地址数据认定为新数据的步骤。
19.根据权利要求17的方法,包括能在该比较评分较高且品质等级也较高时将该地址数据认定为已知数据的步骤。
20.根据权利要求17的方法,包括能在该比较评分较低且品质等级也较低时将该地址数据认定为未知数据的步骤。
21.根据权利要求18的方法,包括在该地址为新地址时能产生一个附加的包含该地址数据的地址记录的步骤。
22.根据权利要求21的方法,包括能对每一个地址记录记载如下4个状态之一的步骤:
·如果该地址记录是生成的,则记为新状态;
·如果有关地址数据来自不同的寄件人,则记为常用状态;
·如果有关地址数据有规律地被重新读取,则记为可靠状态;
·如果该地址记录失效,则记为旧状态;
23.权利要求13的方法,其中地址数据库被保密存储,使得存储在中央数据库中的数据只能通过预先定义的规则处理,或者存储在中央数据库中的数据能够通过一个输出路径存取。
24.权利要求13的方法,包括使用地址数据库分拣邮件的步骤。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
NL1012519A NL1012519C2 (nl) | 1999-07-05 | 1999-07-05 | Inrichting en werkwijze voor het actualiseren van een adressendatabase met geregistreerde adresrecords. |
NL1012519 | 1999-07-05 | ||
NL1013177 | 1999-09-29 | ||
NL1013177 | 1999-09-29 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1360524A CN1360524A (zh) | 2002-07-24 |
CN1158146C true CN1158146C (zh) | 2004-07-21 |
Family
ID=26643014
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB008100098A Expired - Lifetime CN1158146C (zh) | 1999-07-05 | 2000-07-05 | 利用记录所得的地址记录更新地址数据库的设备和方法 |
Country Status (11)
Country | Link |
---|---|
US (1) | US7219095B1 (zh) |
EP (1) | EP1196252B1 (zh) |
CN (1) | CN1158146C (zh) |
AT (1) | ATE246550T1 (zh) |
AU (1) | AU6027000A (zh) |
DE (1) | DE60004370T2 (zh) |
DK (1) | DK1196252T3 (zh) |
ES (1) | ES2202151T3 (zh) |
NO (1) | NO323220B1 (zh) |
PT (1) | PT1196252E (zh) |
WO (1) | WO2001002104A1 (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB0114904D0 (en) * | 2001-06-19 | 2001-08-08 | Hewlett Packard Co | Portable audio device and network including an audio device |
DE10216336A1 (de) * | 2002-04-13 | 2003-11-06 | Siemens Ag | Verfahren zum Verteilen von Massensendungen |
DE10345047B4 (de) * | 2003-09-26 | 2005-12-15 | Siemens Ag | Verfahren zum Erzeugen und/oder Aktualisieren von Lern- und/oder Teststichproben |
DE102004030415A1 (de) * | 2004-06-24 | 2006-01-19 | Siemens Ag | Verfahren zur automatischen Ermittlung operativer Leistungsdaten von Lesesystemen |
DE102004040600B3 (de) * | 2004-08-21 | 2005-12-08 | Siemens Ag | Verfahren zum Ermitteln von Fehlern in Adressdatenbanken |
US7258277B2 (en) * | 2004-12-17 | 2007-08-21 | Pitney Bowes Inc. | Method for enhancing mail piece processing system |
CN100483466C (zh) * | 2006-12-06 | 2009-04-29 | 深圳市络道科技有限公司 | 一种商函制作的方法及系统 |
US10007739B1 (en) * | 2007-07-03 | 2018-06-26 | Valassis Direct Mail, Inc. | Address database reconciliation |
KR100926565B1 (ko) * | 2007-12-13 | 2009-11-12 | 한국전자통신연구원 | 주소 데이터베이스 구축 장치 및 그 방법 |
GB2456216A (en) * | 2008-01-11 | 2009-07-15 | Lockheed Martin Uk Ltd | Block analyser in mail sorting system |
EP2259210A2 (de) * | 2009-06-05 | 2010-12-08 | Siemens Aktiengesellschaft | Verfahren und Vorrichtung zur Analyse einer Datenbank |
US8972277B2 (en) * | 2009-06-18 | 2015-03-03 | Action Wobble, Inc. | System and method of marketing using an intelligent coupon for passive data capture in an applied layered image assembly |
JP5433470B2 (ja) * | 2010-03-17 | 2014-03-05 | 株式会社東芝 | 住所データベース構築装置および住所データベース構築方法 |
JP5875909B2 (ja) * | 2012-03-15 | 2016-03-02 | 株式会社東芝 | 住所認識装置、及び住所認識システム |
KR20140075840A (ko) * | 2012-11-29 | 2014-06-20 | 한국전자통신연구원 | 우편물 구분 자동화기기의 성능 향상을 위한 주소 데이터베이스 정제 시스템 및 방법 |
JP2015176241A (ja) * | 2014-03-13 | 2015-10-05 | 株式会社東芝 | データベース管理装置、および住所認識装置 |
CN112774998B (zh) * | 2020-12-21 | 2022-07-01 | 华晟(青岛)智能装备科技有限公司 | 一种高速分拣系统的上位机和下位机交互方法及系统 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5079714A (en) | 1989-10-03 | 1992-01-07 | Pitney Bowes Inc. | Mail deliverability by mail and database processing |
US5422821B1 (en) * | 1992-04-06 | 1998-07-21 | Electrocom Automation Lp | Apparatus for intercepting and forwarding incorrectly addressed postal mail |
US5754671A (en) * | 1995-04-12 | 1998-05-19 | Lockheed Martin Corporation | Method for improving cursive address recognition in mail pieces using adaptive data base management |
US5770841A (en) | 1995-09-29 | 1998-06-23 | United Parcel Service Of America, Inc. | System and method for reading package information |
US5832480A (en) * | 1996-07-12 | 1998-11-03 | International Business Machines Corporation | Using canonical forms to develop a dictionary of names in a text |
DE19644163A1 (de) * | 1996-10-24 | 1998-05-07 | Siemens Ag | Verfahren und Vorrichtung zur online-Bearbeitung von weiterzuleitenden Sendungen |
US6088796A (en) * | 1998-08-06 | 2000-07-11 | Cianfrocca; Francis | Secure middleware and server control system for querying through a network firewall |
US6249605B1 (en) * | 1998-09-14 | 2001-06-19 | International Business Machines Corporation | Key character extraction and lexicon reduction for cursive text recognition |
US6557000B1 (en) * | 1999-11-30 | 2003-04-29 | Pitney Bowes Inc. | Method of updating an addressee database in a mail sorting apparatus |
US6508365B1 (en) * | 1999-12-28 | 2003-01-21 | Pitney Bowes Inc. | Method of removing mail from a mailstream using an incoming mail sorting apparatus |
-
2000
- 2000-07-05 EP EP00946529A patent/EP1196252B1/en not_active Expired - Lifetime
- 2000-07-05 AT AT00946529T patent/ATE246550T1/de active
- 2000-07-05 PT PT00946529T patent/PT1196252E/pt unknown
- 2000-07-05 DE DE60004370T patent/DE60004370T2/de not_active Expired - Lifetime
- 2000-07-05 CN CNB008100098A patent/CN1158146C/zh not_active Expired - Lifetime
- 2000-07-05 DK DK00946529T patent/DK1196252T3/da active
- 2000-07-05 US US10/019,941 patent/US7219095B1/en not_active Expired - Lifetime
- 2000-07-05 ES ES00946529T patent/ES2202151T3/es not_active Expired - Lifetime
- 2000-07-05 AU AU60270/00A patent/AU6027000A/en not_active Abandoned
- 2000-07-05 WO PCT/NL2000/000473 patent/WO2001002104A1/en active IP Right Grant
-
2002
- 2002-01-04 NO NO20020034A patent/NO323220B1/no not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
EP1196252A1 (en) | 2002-04-17 |
ATE246550T1 (de) | 2003-08-15 |
ES2202151T3 (es) | 2004-04-01 |
NO323220B1 (no) | 2007-01-29 |
NO20020034L (no) | 2002-01-16 |
EP1196252B1 (en) | 2003-08-06 |
DK1196252T3 (da) | 2003-11-03 |
WO2001002104A1 (en) | 2001-01-11 |
US7219095B1 (en) | 2007-05-15 |
DE60004370D1 (de) | 2003-09-11 |
PT1196252E (pt) | 2003-12-31 |
CN1360524A (zh) | 2002-07-24 |
DE60004370T2 (de) | 2004-07-01 |
NO20020034D0 (no) | 2002-01-04 |
AU6027000A (en) | 2001-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1158146C (zh) | 利用记录所得的地址记录更新地址数据库的设备和方法 | |
US7436979B2 (en) | Method and system for image processing | |
US8014039B2 (en) | Document management system, a document management method, and a document management program | |
US5734568A (en) | Data processing system for merger of sorting information and redundancy information to provide contextual predictive keying for postal addresses | |
US6647385B2 (en) | Method of updating an addressee database in a mail sorting apparatus | |
US8121344B2 (en) | System and method for routing imaged documents | |
US8099384B2 (en) | Operation procedure extrapolating system, operation procedure extrapolating method, computer-readable medium and computer data signal | |
US20050137991A1 (en) | Method and system for name and address validation and correction | |
CN1149502C (zh) | 标准化电子文档中字符信息的方法 | |
CN1869981A (zh) | 电子文件保存系统 | |
JP4661921B2 (ja) | 文書処理装置およびプログラム | |
US20100014706A1 (en) | Method and apparatus for video coding by validation matrix | |
US20040202386A1 (en) | Automatic paper to digital converter and indexer | |
US8326898B2 (en) | Method and system for run time directories for address services on a mail processing system | |
JP5407461B2 (ja) | 郵便物誤区分データ収集システム、郵便物誤区分データ収集方法及びその制御プログラム | |
JPH0957204A (ja) | 郵便物の宛先自動読取システム | |
JP3872923B2 (ja) | 情報処理型郵便区分システム | |
CN1107280C (zh) | 中英文表单的识别系统及识别方法 | |
JP5609236B2 (ja) | 書状物区分システムおよび宛先推定方法 | |
JP2001256438A (ja) | 手書き文字管理装置、手書き文字管理方法、手書き文字照会システムおよび手書き文字照会方法 | |
CN115311671A (zh) | 一种纸质公文批量电子化的方法和系统 | |
JPH0957207A (ja) | ビデオコ−ディングシステム、郵便物処理装置及び郵便物処理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CX01 | Expiry of patent term |
Granted publication date: 20040721 |
|
CX01 | Expiry of patent term |