CN1300739C

CN1300739C - 信函校验识别方法

Info

Publication number: CN1300739C
Application number: CNB2005100235493A
Authority: CN
Inventors: 吕岳; 邬建中; 徐海堰; 原晓梅
Original assignee: SHANGHAI INST OF POSTAL SCIENCE
Current assignee: SHANGHAI INST OF POSTAL SCIENCE
Priority date: 2005-01-25
Filing date: 2005-01-25
Publication date: 2007-02-14
Anticipated expiration: 2025-01-25
Also published as: CN1645407A

Abstract

本发明提供一种信函校验识别方法，包括以下步骤：建立邮政编码与汉字地址对照表；进行邮政编码数字识别获得第一数字识别结果及识别自信度；进行汉字地址识别获得汉字识别结果及识别自信度，并根据所述对照表获得邮政编码第二数字识别结果及识别自信度；根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。本发明将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别，实现目的地信息的补全和纠错，提高了识别系统的效率和正确率。降低了邮件分检的成本。

Description

信函校验识别方法

技术领域

本发明属于邮政信函校验识别技术领域，特别涉及一种邮件的目的地信息的校验识别方法。

背景技术

一封邮件的目的地信息主要由两部分组成，即邮政编码信息和汉字地址信息。目前在邮政自动化领域主要是依靠对邮政编码进行光学字符识别(OCR)来达到邮件自动化分拣处理的；与此同时，近年来汉字尤其是打印体汉字的光学字符识别(OCR)技术也得到了长足的进步，在邮政自动化领域，这项技术在目标汉字地址识别上也是大有用武之地的。然而，无论是邮政编码还是汉字地址识别技术在单一使用时都不同程度地存在一些弊端。

一、单纯依靠邮件的邮政编码识别结果来进行邮件自动化处理的缺点

我国地域广阔，国家邮政局从很早开始就使用6位邮政编码针对不同的地域进行了划分，但由于各地的推广力度不一以及一直以来人们的书写习惯等原因导致邮政编码在实际的书写或打印中存在不少问题，从而使单纯依靠邮政编码识别结果来进行邮件自动化处理的效率有时并不是很高，以下罗列了一些主要的问题点：

1、邮政编码书写错误或手工书写不规范导致邮件被错分

有些用户虽然不知道邮件目的地的确切邮编，但是仍会凭印象或凭想象信手写上一个，虽然汉字地址书写得完全正确，但是如果分拣机的OCR只识别邮编的话就势必会造成该邮件被分到一个错误的地方，有时甚至是大相径庭的方向，对用户来说耽搁了邮件的到达时间，对邮局来说也增加了邮运的成本。

例如，手写体邮编(233500)由于个别数字的书写较随意则被识别成“2R3500”，(R表示OCR拒识)，造成邮件被拒识。

2、邮政编码打印不规范或不清晰导致邮件被错分或拒分

这部分信由于邮编是用打印机打印的，所以在很多情况下邮编可能被打偏位置例如出红框或压红框，从而导致邮编的OCR拒识或者错识。另外在实际情况中由于不少邮编是用针式打印机打印的，所以使得邮编数字字符的分辨率不高，由于数字的点特征本来就较汉字要少很多，所以这种情况下也很容易导致邮编拒识。如果信件邮编的打印位置偏移情况严重，则可能导致该封信的多位数字不能识别，从而无法被有效分拣。

3、简写邮政编码的情况大量存在

随着商业邮件和广告邮件的大量增加，特别是寄往外地的，很多情况下对其确切邮政编码不清楚的。现在出现了越来越多的只写寄达目的地简码的邮件，这部分邮件即使能被OCR全部识别正确也无法分拣到位。

例如，寄到安徽省的一封信，发信人采用简码“230000”的方式表示，即使OCR已经识别出了全部数字，也只能确定其是寄到安徽省的，虽然汉字地址写得很详细，但事实上这封信仍然需要手工分拣。

二、单纯依靠邮件的汉字地址识别结果来进行邮件自动化处理的缺点

汉字的地址信息虽然详细，但完全按照汉字地址识别结果来进行邮件自动化处理的结果却不能让人满意，原因主要有以下几点：

1、汉字的书写变化情况较阿拉伯数字要复杂得多，所以在识别技术本身的准确率上存在一定问题，这一点在手写体汉字的识别上尤为突出。

2、从地址的识别结果中提取有效或者说正确的地址信息也是一个技术点，因为在我国大部分城市中许多街道和马路是以全国各地的地名或本地邻近地区的地名命名的，因此在处理汉字地址结果时特别容易混淆，需特别注意地名和路名的区别。例如地址信息识别结果中如果有“上海”字样，但并不能就此认定该邮件的目的地就是上海，因为在全国很多城市中都有“上海路”，另外也有可能是“上海市人民政府驻北京办事处”，此外还存在一些特殊情况，例如省名和市名相同的“吉林省吉林市”等等。

如何根据邮政编码信息和汉字地址信息准确有效地识别出邮件的目的地信息，是当前需要解决的技术问题。

发明内容

本发明的目的在于提供一种信函校验识别方法，将信函上的邮政编码和汉字地址信息识别这两项识别技术综合使用提高邮件自动化处理的效率和正确率。

为达上述目的，本发明采用如下技术方案，

一种信函校验识别方法，包括以下步骤：

建立邮政编码与汉字地址对照表；

进行邮政编码数字识别获得第一数字识别结果及识别自信度；

进行汉字地址识别获得汉字识别结果及识别自信度，并根据所述对照表获得邮政编码第二数字识别结果及识别自信度；

根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。

上述校验识别可以采用多种方式，如直接根据第一、第二数字识别结果及识别自信度的大小进行校验识别，即当第一、第二数字识别结果不相同时，则以自信度大的数字识别结果为最后识别结果。

作为本发明校验识别方法的一种优选方式，上述根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别的方法为，

假设邮政编码数字识别获得第一数字识别结果为(S₁，S₂，…，S_M)及第一识别自信度为(p₁，p₂，…，p_M)；用一个二元组表示为((S₁，S₂，…，S_M)，(p₁，p₂，…，p_M))

假设汉字识别获得地址的地名，根据所述对照表得知该地名对应于长度为M的第二邮政编码数字为(T₁，T₂，…，T_M)，且汉字地名识别的第二自信度是q，用一个二元组表示为((T₁，T₂，…，T_M)，q)，

首先根据以下公式判断(S₁，S₂，…，S_M)与(T₁，T₂，…，T_M)的相似度，

Sim = \frac{1}{M} Σ_{k = 1}^{M} f (S_{k}, T_{k})

其中，如果S_k＝T_k，那么f(S_k，T_k)＝1；

否则如果S_k＝R，那么f(S_k，T_k)＝0.5；

否则f(S_k，T_k)＝0；

如果Sim＞0.5，则采用如下规则，使两个字符串中的S_k和T_k两个识别结果相互检验，形成最后的识别结果：

(1)如果S_k＝T_k，结果一致；结果为T_k或S_k；

(2)如果S_k＝R，这里R表示拒识，则结果为T_k；

(3)如果S_k与T_k不相等，

如果p_k＞α，并且q＜β，则结果为S_k；

如果q＞α，并且p_k＜β，则结果为T_k。

这里α和β是两个阈值，分别取值为0.8和0.5。

本发明将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别，实现目的地信息的补全和纠错，提高了识别系统的效率和正确率。降低了邮件分检的成本。

附图说明

以下结合附图及实施方式进一步说明本发明。

图1为本发明的原理框图

图2为本发明校验识别信件实施例

具体实施方式

如图1所示，一种信函校验识别方法，包括以下步骤：

建立邮政编码与汉字地址对照表；

进行收件人汉字地址识别获得汉字识别结果及识别自信度，并根据所述对照表获得邮政编码第二数字识别结果及识别自信度；

假设汉字识别获得地址的地名，根据邮政编码与汉字地址对照表得知该地名对应于长度为M的邮政编码数字串(T₁，T₂，…，T_M)，而且汉字地名识别的自信度是q。用一个二元组表示为((T₁，T₂，…，T_M)，q)。假设该识别结果对应于邮政编码识字识别中的(S₁，S₂，…，S_M)，其自信度为(p₁，p₂，…，p_M)，用一个二元组表示为((S₁，S₂，…，S_M)，(p₁，p₂，…，p_M))

本发明首先判断(S₁，S₂，…，S_M)与(T₁，T₂，…，T_M)的相似度：

Sim = \frac{1}{M} Σ_{k = 1}^{M} f (S_{k}, T_{k})

其中，如果S_k＝T_k，那么f(S_k，T_k)＝1；

否则如果S_k＝R，那么f(S_k，T_k)＝0.5；

否则f(S_k，T_k)＝0；

(4)如果S_k＝T_k，结果一致；

(5)如果S_k＝R，这里R表示拒识

则结果为T_k；

(6)如果S_k与T_k不相等

(a)如果p_k＞α，并且q＜β，则结果为S_k；

(b)如果q＞α，并且p_k＜β，则结果为T_k；

这里α和β是两个阈值，分别取值为0.8和0.5。

本发明方法利用邮件的汉字地址识别结果对邮编识别结果进行补全和纠错。

如图2所示的信件，由于红框内的第一个数字“2”打印得过于靠下以致于最后的一横与红框几乎重合，另外第四个数字“5”由于中间有断笔的现象，所以最后这封信的识别结果为“731R00”。

如果此时分拣机只按这一邮编结果处理的话，那么这封信就会被送到甘肃，这是一个完全错误的处理。但是如果把汉字地址的识别结果作为校验，可以使这一错误得以纠正。由于这封信的汉字地址打印得比较清晰，所以OCR算法会从中识别出“安徽省庐江”，同时返回一个该地址结果高度自信的标志，由于自信度标志级别很高，所以本发明的方法会采用根据这一地址结果转换而来的标准的安徽省庐江的邮编“2315”，对应于邮政编码的前四位，此时结合比较红框内邮政编码数字识别的前四位结果为“731R”，比较两个字符串相似度为0.625。进一步逐个校验每一位结果，可以得到这封信的前四位邮编应该是“2315”，再加上已有的最后两位数字“00”，即得到了最后正确的邮编“231500”。

这一例子中既出现了邮编纠错(第一位的“7”被纠正成了“2”)又出现了邮编补全(第四位的拒识“R”被“5”补全)。

Claims

1、一种信函校验识别方法，包括以下步骤：

建立邮政编码与汉字地址对照表；

根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别，

其中，所述根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别的方法为，

Sim = \frac{1}{M} Σ_{k = 1}^{M} f (S_{k}, T_{k})

其中，如果 S_k＝T_k，那么f(S_k，T_k)＝1；

否则如果S_k＝R，那么f(S_k，T_k)＝0.5；

否则 f(S_k，T_k)＝0；

(1)如果S_k＝T_k，结果一致；结果为T_k或S_k；

(2)如果S_k＝R，这里R表示拒识，则结果为T_k；

(3)如果S_k与T_k不相等，

如果p_k＞α，并且q＜β，则结果为S_k；其中α和β是两个阈值，

如果q＞α，并且p_k＜β，则结果为T_k。

2、根据权利要求1所述的信函校验识别方法，其特征在于：所述α和β的取值分别为0.8和0.5。