发明内容
针对现有技术中存在的缺陷,本发明的目的是提供一种图像信息和网络信息相校验的给据邮件分拣方法及其系统,将基于条码识别技术的自动分拣和基于字符识别技术的自动分拣相结合,将图像识别获得的格口信息和邮政信息系统网络数据库中的格口信息相互验证,按照正确的地址或邮编信息分拣,以降低给据邮件的自动分拣差错率。
为达到上述目的,本发明采用如下的技术方案:
根据本发明的一方面,提供了一种图像信息和网络信息相校验的给据邮件分拣方法,该给据邮件分拣方法的具体步骤为:
A.采集每个给据邮件的图像;
B.通过每个给据邮件的唯一条码信息从邮政信息系统数据库中分别获取该给据邮件的收件人邮政编码以及收件人地址;
C.通过字符识别法从给据邮件的图像中直接获取收件人的地址信息以及收件人邮政编码信息;
D.采用地址信息库驱动下的邮政信函按址分拣方法分别计算步骤B以及步骤C中获得的邮政编码的对应格口码以及收件人地址的对应格口码共4个格口码信息;
E.对于步骤D中获得的4个格口码信息进行判断,若符合以下的条件则发送格口码信号给邮件控制系统,邮件控制系统将有格口的给据邮件分拣入格并上传信息;否则送至人工台进行手工分拣;
条件为:1)必须存在采用字符识别法获得的与收件人的地址信息相对应的格口码;
2)其余三个格口码中至少有二个与条件1中的格口码相同。
所述步骤A的具体步骤为:邮件控制系统将给据邮件逐个送上自动分拣设备的传输线,在传输过程中采集每个给据邮件的图像。
所述步骤B的具体步骤为:
条码识别模块从给据邮件的图像中识别出相对应给据邮件的条码后,通过网络远程访问邮政信息系统数据库中的邮件信息表,根据识别出的条码从邮件信息表中分别获取该给据邮件的收件人邮政编码以及收件人地址。
所述条码识别模块设于图像分析系统中。
所述步骤C中的字符识别法由图像分析系统中的字符识别模块实现。
所述步骤D中的地址信息库驱动下的邮政信函按址分拣方法由图像分析系统中的格口码计算与判断模块实现。
根据本发明的另一方面,还提供了一种图像分析系统,包括控制模块,所述控制模块分别与条码识别模块、字符识别模块以及格口码计算与判断模块相连,
字符识别模块,用于从给据邮件的图像中直接获取收件人的地址信息以及收件人邮政编码信息以及每个给据邮件的唯一条码信息;
条码识别模块,用于通过每个给据邮件的唯一条码从邮政信息系统数据库中的邮件信息表中获取该给据邮件的收件人邮政编码以及收件人地址;
格口码计算与判断模块,采用地址信息库驱动下的邮政信函按址分拣方法分别计算由字符识别模块获得的收件人地址的对应格口码与收件人邮政编码的对应格口码,以及通过条码识别模块从邮政信息系统数据库中获得的收件人地址的对应格口码与收件人邮政编码的对应格口码;对上述4个格口码信息进行判断,若符合以下的条件则发送格口码信号给邮件控制系统,邮件控制系统将有格口的给据邮件分拣入格并上传信息;否则送至人工台进行手工分拣;
条件为:1)必须存在采用字符识别法获得的与收件人的地址信息相对应的格口码;
2)其余三个格口码中至少有二个与条件1中的格口码相同。
所述条码识别模块中每个给据邮件对应的条码从字符识别模块中获得。
本发明提出的一种图像信息和网络信息相校验的给据邮件分拣方法及其系统,能够将条码识别技术和字符识别技术相结合,将图像识别获得的收件人地址的对应格口码与收件人邮编的对应格口码同网络数据库中的收件人地址的对应格口码和邮编的对应格口码相互验证,然后按照正确的地址或邮编信息分拣,以降低给据邮件的自动分拣差错率。
具体实施方式
下面结合附图和实施例进一步说明本发明的技术方案。
实施例1
本发明中提及的给据邮件是指挂号信件、邮包、保价邮件等由邮政企业及其分支机构在收寄时出具收据,投递时要求收件人签收的邮件。这类邮件的表面除了收寄信息外还有一个可唯一标识邮件的条码。通过条码可以在邮政信息系统中查询到该邮件的收寄信息和邮路等信息。
本发明的技术方案中涉及了两种信息的获取:图像信息的获取和网络信息的获取。图像信息的获取是通过扫描技术采集邮件表面的图像,运用图像定位技术获取图像上的收寄信息区域,运用字符识别技术识读收寄信息,包括收件地址、收件邮编、收件人姓名、寄件地址、寄件邮编、寄件人姓名等。本发明将字符识别技术获取的收件地址标记为REC地址,收件邮编标记为REC邮编。网络信息的获取是通过条码识别技术读取给据邮件的条码,根据条码通过网络访问邮政信息系统查询该邮件的收件地址和收件邮编,在本发明中将这两者分别标记为NET地址和NET邮编。
每一个给据邮件都具备REC地址、REC邮编、NET地址和NET邮编这四项基本信息,但不一定每一项信息都有。比如由于字符识别技术存在一定的拒识率,REC地址和REC邮编可能无法读取;或者,给据邮件的收寄信息在自动或半自动录入到邮政信息系统时出现的差错造成NET地址和NET邮编缺失。本发明利用一种地址信息库驱动下的邮政信函按址分拣方法来计算出REC地址、REC邮编、NET地址和NET邮编各自对应的格口码,根据四个格口码来比较这四种信息的差异,并在确保高分拣正确率的前提下来选择最可靠的格口用于实际分拣。本发明将NET邮编对应的格口码记为NETPOSTBIN,NET地址对应的格口码记为NETADDRBIN,REC邮编对应的格口吗记为RECPOSTBIN,REC地址对应的格口码记为RECADDRBIN。
图1描述了本发明方法的处理流程,首先需要分别获取每个给据邮件的网络信息和图像信息。运用条码识别技术读取给据邮编图像上的条码,并根据条码从邮政信息系统的网络数据库中获取给据邮件的NET邮编和NET地址;同时运用收件信息区域相对规定的先验信息在邮件图像上定位出收件信息区域,再用字符识别技术识读给据邮件的REC邮编和REC地址。其次利用公开号为“101844135A”、名称为“一种地址信息库驱动下的邮政信函按址分拣方法”来计算NET邮编、NET地址、REC邮编和REC地址这四种信息所对应的格口码NETPOSTBIN、NETADDRBIN、RECPOSTBIN和RECADDRBIN。再次将四种格口码按照本发明提出的规则进行校验。规则是由条件和处理方式两部分构成,对于四个格口码满足规则条件的给据邮件按照规则中指定的处理方法进行处理。处理方法分为2类,一类是将邮件按照指定的格口码进行分拣,并上传邮件的信息,一类是无法确定用于分拣的格口码,不将邮件进行自动分拣,而是送至人工台手动分拣。
校验中使用的规则根据给据邮件的NET邮编、NET地址、REC邮编和REC地址四项信息内容的有无可分为16种情况如表1所示,表1为给据邮件在四项信息各种情况下的校验规则,表1中概述了每种情况下用于校验四项信息的规则编号。其中表1的第4行与第4列共7个单元格都标记为“/”,表示符合上述情况的邮件不进行分拣,即当一个给据邮件的NET邮编和NET地址同时无内容,或者REC邮编和REC地址同时无内容时,无法进行图像信息和网络信息的相校验。其余的9种情况则分别使用对应的规则来处理。
表1
根据实验统计可知四项信息的用于分拣的可信度是:REC地址大于NET地址,NET地址大于REC邮编,NET地址大于NET邮编,而REC邮编和NET邮编的可信度相近的实验结果。由此,本发明给出了各项规则中需要满足的条件和满足条件时对邮件所作的处理,见表2。
表2
表2为表1中各项校验规则细则:
1.从规则R1111.1到规则R1111.4描述的是给据邮件同时具备NET邮编、NET地址、REC邮编和REC地址四项信息满足一定条件时进行分拣的规则。根据四项信息对应的四个格口码的异同,给据邮件可分为以下几种情况:
a)规则R1111.1:当NETPOSTBIN、NETADDRBIN、RECPOSTBIN和RECADDRBIN四个格口码相同时,符合这个条件的邮件则可以按照统一的格口码进行分拣。该规则的可靠性最高。
b)规则R1111.2:当NETPOSTBIN、NETADDRBIN和RECADDRBINNET三者的值相同,而RECPOSTBIN和前三者不相同时,可按照RECADDRBIN来分拣给据邮件。
c)规则R1111.3:当NETADDRBIN、RECPOSTBIN和RECADDRBINNET三者的值相同,而NETPOSTBIN和前三者不相同时,可按照RECADDRBIN来分拣给据邮件。
d)规则R1111.4当NETPOSTBIN、RECPOSTBIN、RECADDRBIN三者的值相同,而NETADDRBIN和前三者不相同时,可按照RECADDRBIN来分拣给据邮件。
规则R1111.2、规则R1111.3、规则R1111.4的可靠性比规则R1111.1的可靠性略低。
2.规则R1101描述的是给据邮件同时具备NET邮编、NET地址和REC地址三项信息,而REC邮编缺省时如何处理。即当前三者对应的格口码NETPOSTBIN、NETADDRBIN和RECADDRBIN相同时,按照RECADDRBIN进行分拣。该规则的可靠性与R1111.2接近。
3.规则R0111描述的是给据邮件同时具备NET地址、REC邮编和REC地址三项信息,而NET邮编缺省时如何处理。即当前三者对应的格口码NETADDRBIN、RECPOSTBIN和RECADDRBIN都相同时按照RECADDRBIN进行分拣。该规则的可靠性与R1111.3接近。
4.规则R1011描述的是给据邮件同时具备NET邮编、REC邮编和REC地址三项信息,而NET地址缺省时如何处理。即当前三者对应的格口码NETPOSTADDR、RECPOSTBIN和RECADDRBIN相同时,按照RECADDRBIN进行分拣。该规则的可靠性与R1111.4接近。
5.规则R1110描述的是给据邮件同时具备NET邮编、NET地址和REC邮编三项信息,而REC地址缺省时如何处理。由于缺少了最可靠的REC地址,而NET邮编、NET地址和REC邮编三者都存在一定程度的差错率,因此符合该规则条件的邮件不分拣。
6.规则R0101描述的是给据邮件仅具备NET地址和REC地址和,而NET邮编和REC邮编都缺省的情况;规则R1001描述的是给据邮件仅具备NET邮编和REC地址,而NET地址和REC邮编缺省的情况;规则R0110描述的是给据邮件仅具备NET地址和REC邮编,而NET邮编和REC地址缺都缺省的情况;规则R1010描述的是给据邮件仅具备NET邮编和REC邮编,而NET地址和REC地址都缺省的情况。由于仅有两项信息对应的格口相同的可靠性较弱,故规则R0101、规则R1001、规则R0110和规则R1010描述的邮件都不进行自动分拣。
实施例2
再请参见图2所示的一种图像分析系统,包括控制模块,所述控制模块分别与条码识别模块、字符识别模块以及格口码计算与判断模块相连,
字符识别模块,用于从给据邮件的图像中直接获取收件人的地址信息以及收件人邮政编码信息以及每个给据邮件的唯一条码信息;
条码识别模块,用于通过每个给据邮件的唯一条码从邮政信息系统数据库中的邮件信息表中获取该给据邮件的收件人邮政编码以及收件人地址;
格口码计算与判断模块,采用地址信息库驱动下的邮政信函按址分拣方法分别计算由字符识别模块获得的收件人地址的对应格口码与收件人邮政编码的对应格口码,以及通过条码识别模块从邮政信息系统数据库中获得的收件人地址的对应格口码与收件人邮政编码的对应格口码;对上述4个格口码信息进行判断,若符合以下的条件则发送格口码信号给邮件控制系统,邮件控制系统将有格口的给据邮件分拣入格并上传信息;否则送至人工台进行手工分拣;
条件为:1)必须存在采用字符识别法获得的与收件人的地址信息相对应的格口码;
2)其余三个格口码中至少有二个与条件1中的格口码相同。
较佳地,所述条码识别模块中每个给据邮件对应的条码从字符识别模块中获得。
本发明应用于同时具备条码识别技术和字符识别技术的邮件自动分拣设备。此类邮件自动分拣设备由图像分析系统和邮件控制系统完成邮件的自动分拣,见图2。邮件控制系统将邮件逐个送上自动分拣设备的传输线,在传输过程中采集邮件的图像,并将图像交给图像分析系统,在指定时间内等待由图像分析系统计算出格口码,若有计算结果则邮件送到指定的分拣设备的格口中并上传信息,若超出指定时间还未收到结果或者计算结果是无格口码则将邮件送至人工台处理。图像分析系统同时具备两种不同的计算格口码的方式,基于条码识别技术的方式和基于字符识别技术的方式。前者是指在控制系统提供的图像上识别出条码,通过网络远程访问邮政信息系统数据库中邮件信息表的方式根据识别出的条码获取该邮件NET邮编对应的格口码,并将格口码告知控制系统,用于分拣和信息上传。后者是利用收件区域在邮件上处于相对固定位置这一信息从邮件图像上定位出收件区域,运用字符识别技术获取收件人的REC地址和REC邮编,采用一种基于一种地址信息库驱动下的邮政信函按址分拣方法计算出REC地址和REC邮编对应的格口码,将格口码告知邮件控制系统。
本发明是在图像分析系统中采用图像信息和网络信息相校验的方法来实现给据邮件的自动分拣。首先要按照表2在图像分析系统中建立校验规则细则表,即罗列出每一种规则需要符合的条件和对应的分拣格口码。
其次在收到控制系统提供的邮件图像后,按照以下步骤进行处理:
1、识别邮件条码,根据条码读取邮政信息系统中的NET地址和NET邮编。
2、运用定位技术获取邮件的收件区域,运用字符识别技术读取收件区域的REC地址和REC邮编。
3、运用一种地址库驱动下的邮政信函按址分拣方法计算出NET地址、NET邮编、REC地址和REC邮编对应的格口码NETPOSTBIN、NETADDRBIN、RECPOSTBIN和RECADDRBIN。根据表2判断四个格口是否符合规则的条件,对符合条件的邮件将规则指定的格口码发送给控制系统,对不符合条件的邮件则告知控制系统本邮件无格口码。控制系统将有格口的邮件分拣入格并上传信息,将无格口码的邮件送至人工台进行手工分拣。
需要指出的是,实施例2的原理和实现过程与实施例1是相同或类似的,故其重复部分在此不再赘述。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发明的目的,而并非用作对本发明的限定,只要在本发明的实质范围内,对以上所述实施例的变化、变型都将落在本发明的权利要求的范围内。