CN1300739C - 信函校验识别方法 - Google Patents
信函校验识别方法 Download PDFInfo
- Publication number
- CN1300739C CN1300739C CNB2005100235493A CN200510023549A CN1300739C CN 1300739 C CN1300739 C CN 1300739C CN B2005100235493 A CNB2005100235493 A CN B2005100235493A CN 200510023549 A CN200510023549 A CN 200510023549A CN 1300739 C CN1300739 C CN 1300739C
- Authority
- CN
- China
- Prior art keywords
- identification
- chinese character
- result
- postcode
- letter
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Sorting Of Articles (AREA)
- Character Discrimination (AREA)
Abstract
本发明提供一种信函校验识别方法,包括以下步骤:建立邮政编码与汉字地址对照表;进行邮政编码数字识别获得第一数字识别结果及识别自信度;进行汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度;根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。本发明将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别,实现目的地信息的补全和纠错,提高了识别系统的效率和正确率。降低了邮件分检的成本。
Description
技术领域
本发明属于邮政信函校验识别技术领域,特别涉及一种邮件的目的地信息的校验识别方法。
背景技术
一封邮件的目的地信息主要由两部分组成,即邮政编码信息和汉字地址信息。目前在邮政自动化领域主要是依靠对邮政编码进行光学字符识别(OCR)来达到邮件自动化分拣处理的;与此同时,近年来汉字尤其是打印体汉字的光学字符识别(OCR)技术也得到了长足的进步,在邮政自动化领域,这项技术在目标汉字地址识别上也是大有用武之地的。然而,无论是邮政编码还是汉字地址识别技术在单一使用时都不同程度地存在一些弊端。
一、单纯依靠邮件的邮政编码识别结果来进行邮件自动化处理的缺点
我国地域广阔,国家邮政局从很早开始就使用6位邮政编码针对不同的地域进行了划分,但由于各地的推广力度不一以及一直以来人们的书写习惯等原因导致邮政编码在实际的书写或打印中存在不少问题,从而使单纯依靠邮政编码识别结果来进行邮件自动化处理的效率有时并不是很高,以下罗列了一些主要的问题点:
1、邮政编码书写错误或手工书写不规范导致邮件被错分
有些用户虽然不知道邮件目的地的确切邮编,但是仍会凭印象或凭想象信手写上一个,虽然汉字地址书写得完全正确,但是如果分拣机的OCR只识别邮编的话就势必会造成该邮件被分到一个错误的地方,有时甚至是大相径庭的方向,对用户来说耽搁了邮件的到达时间,对邮局来说也增加了邮运的成本。
例如,手写体邮编(233500)由于个别数字的书写较随意则被识别成“2R3500”,(R表示OCR拒识),造成邮件被拒识。
2、邮政编码打印不规范或不清晰导致邮件被错分或拒分
这部分信由于邮编是用打印机打印的,所以在很多情况下邮编可能被打偏位置例如出红框或压红框,从而导致邮编的OCR拒识或者错识。另外在实际情况中由于不少邮编是用针式打印机打印的,所以使得邮编数字字符的分辨率不高,由于数字的点特征本来就较汉字要少很多,所以这种情况下也很容易导致邮编拒识。如果信件邮编的打印位置偏移情况严重,则可能导致该封信的多位数字不能识别,从而无法被有效分拣。
3、简写邮政编码的情况大量存在
随着商业邮件和广告邮件的大量增加,特别是寄往外地的,很多情况下对其确切邮政编码不清楚的。现在出现了越来越多的只写寄达目的地简码的邮件,这部分邮件即使能被OCR全部识别正确也无法分拣到位。
例如,寄到安徽省的一封信,发信人采用简码“230000”的方式表示,即使OCR已经识别出了全部数字,也只能确定其是寄到安徽省的,虽然汉字地址写得很详细,但事实上这封信仍然需要手工分拣。
二、单纯依靠邮件的汉字地址识别结果来进行邮件自动化处理的缺点
汉字的地址信息虽然详细,但完全按照汉字地址识别结果来进行邮件自动化处理的结果却不能让人满意,原因主要有以下几点:
1、汉字的书写变化情况较阿拉伯数字要复杂得多,所以在识别技术本身的准确率上存在一定问题,这一点在手写体汉字的识别上尤为突出。
2、从地址的识别结果中提取有效或者说正确的地址信息也是一个技术点,因为在我国大部分城市中许多街道和马路是以全国各地的地名或本地邻近地区的地名命名的,因此在处理汉字地址结果时特别容易混淆,需特别注意地名和路名的区别。例如地址信息识别结果中如果有“上海”字样,但并不能就此认定该邮件的目的地就是上海,因为在全国很多城市中都有“上海路”,另外也有可能是“上海市人民政府驻北京办事处”,此外还存在一些特殊情况,例如省名和市名相同的“吉林省吉林市”等等。
如何根据邮政编码信息和汉字地址信息准确有效地识别出邮件的目的地信息,是当前需要解决的技术问题。
发明内容
本发明的目的在于提供一种信函校验识别方法,将信函上的邮政编码和汉字地址信息识别这两项识别技术综合使用提高邮件自动化处理的效率和正确率。
为达上述目的,本发明采用如下技术方案,
一种信函校验识别方法,包括以下步骤:
建立邮政编码与汉字地址对照表;
进行邮政编码数字识别获得第一数字识别结果及识别自信度;
进行汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度;
根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。
上述校验识别可以采用多种方式,如直接根据第一、第二数字识别结果及识别自信度的大小进行校验识别,即当第一、第二数字识别结果不相同时,则以自信度大的数字识别结果为最后识别结果。
作为本发明校验识别方法的一种优选方式,上述根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别的方法为,
假设邮政编码数字识别获得第一数字识别结果为(S1,S2,…,SM)及第一识别自信度为(p1,p2,…,pM);用一个二元组表示为((S1,S2,…,SM),(p1,p2,…,pM))
假设汉字识别获得地址的地名,根据所述对照表得知该地名对应于长度为M的第二邮政编码数字为(T1,T2,…,TM),且汉字地名识别的第二自信度是q,用一个二元组表示为((T1,T2,…,TM),q),
首先根据以下公式判断(S1,S2,…,SM)与(T1,T2,…,TM)的相似度,
其中,如果Sk=Tk,那么f(Sk,Tk)=1;
否则如果Sk=R,那么f(Sk,Tk)=0.5;
否则f(Sk,Tk)=0;
如果Sim>0.5,则采用如下规则,使两个字符串中的Sk和Tk两个识别结果相互检验,形成最后的识别结果:
(1)如果Sk=Tk,结果一致;结果为Tk或Sk;
(2)如果Sk=R,这里R表示拒识,则结果为Tk;
(3)如果Sk与Tk不相等,
如果pk>α,并且q<β,则结果为Sk;
如果q>α,并且pk<β,则结果为Tk。
这里α和β是两个阈值,分别取值为0.8和0.5。
本发明将函件的数字邮政编码和收信人汉字地址信息结合起来进行校验识别,实现目的地信息的补全和纠错,提高了识别系统的效率和正确率。降低了邮件分检的成本。
附图说明
以下结合附图及实施方式进一步说明本发明。
图1为本发明的原理框图
图2为本发明校验识别信件实施例
具体实施方式
如图1所示,一种信函校验识别方法,包括以下步骤:
建立邮政编码与汉字地址对照表;
进行邮政编码数字识别获得第一数字识别结果及识别自信度;
进行收件人汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度;
根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别。
假设汉字识别获得地址的地名,根据邮政编码与汉字地址对照表得知该地名对应于长度为M的邮政编码数字串(T1,T2,…,TM),而且汉字地名识别的自信度是q。用一个二元组表示为((T1,T2,…,TM),q)。假设该识别结果对应于邮政编码识字识别中的(S1,S2,…,SM),其自信度为(p1,p2,…,pM),用一个二元组表示为((S1,S2,…,SM),(p1,p2,…,pM))
本发明首先判断(S1,S2,…,SM)与(T1,T2,…,TM)的相似度:
其中,如果Sk=Tk,那么f(Sk,Tk)=1;
否则如果Sk=R,那么f(Sk,Tk)=0.5;
否则f(Sk,Tk)=0;
如果Sim>0.5,则采用如下规则,使两个字符串中的Sk和Tk两个识别结果相互检验,形成最后的识别结果:
(4)如果Sk=Tk,结果一致;
(5)如果Sk=R,这里R表示拒识
则结果为Tk;
(6)如果Sk与Tk不相等
(a)如果pk>α,并且q<β,则结果为Sk;
(b)如果q>α,并且pk<β,则结果为Tk;
这里α和β是两个阈值,分别取值为0.8和0.5。
本发明方法利用邮件的汉字地址识别结果对邮编识别结果进行补全和纠错。
如图2所示的信件,由于红框内的第一个数字“2”打印得过于靠下以致于最后的一横与红框几乎重合,另外第四个数字“5”由于中间有断笔的现象,所以最后这封信的识别结果为“731R00”。
如果此时分拣机只按这一邮编结果处理的话,那么这封信就会被送到甘肃,这是一个完全错误的处理。但是如果把汉字地址的识别结果作为校验,可以使这一错误得以纠正。由于这封信的汉字地址打印得比较清晰,所以OCR算法会从中识别出“安徽省庐江”,同时返回一个该地址结果高度自信的标志,由于自信度标志级别很高,所以本发明的方法会采用根据这一地址结果转换而来的标准的安徽省庐江的邮编“2315”,对应于邮政编码的前四位,此时结合比较红框内邮政编码数字识别的前四位结果为“731R”,比较两个字符串相似度为0.625。进一步逐个校验每一位结果,可以得到这封信的前四位邮编应该是“2315”,再加上已有的最后两位数字“00”,即得到了最后正确的邮编“231500”。
这一例子中既出现了邮编纠错(第一位的“7”被纠正成了“2”)又出现了邮编补全(第四位的拒识“R”被“5”补全)。
Claims (2)
1、一种信函校验识别方法,包括以下步骤:
建立邮政编码与汉字地址对照表;
进行邮政编码数字识别获得第一数字识别结果及识别自信度;
进行汉字地址识别获得汉字识别结果及识别自信度,并根据所述对照表获得邮政编码第二数字识别结果及识别自信度;
根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别,
其中,所述根据所述第一、第二数字识别结果及识别自信度对信函地址进行校验识别的方法为,
假设邮政编码数字识别获得第一数字识别结果为(S1,S2,…,SM)及第一识别自信度为(p1,p2,…,pM);用一个二元组表示为((S1,S2,…,SM),(p1,p2,…,pM))
假设汉字识别获得地址的地名,根据所述对照表得知该地名对应于长度为M的第二邮政编码数字为(T1,T2,…,TM),且汉字地名识别的第二自信度是q,用一个二元组表示为((T1,T2,…,TM),q),
首先根据以下公式判断(S1,S2,…,SM)与(T1,T2,…,TM)的相似度,
其中,如果 Sk=Tk,那么f(Sk,Tk)=1;
否则 如果Sk=R,那么f(Sk,Tk)=0.5;
否则 f(Sk,Tk)=0;
如果Sim>0.5,则采用如下规则,使两个字符串中的Sk和Tk两个识别结果相互检验,形成最后的识别结果:
(1)如果Sk=Tk,结果一致;结果为Tk或Sk;
(2)如果Sk=R,这里R表示拒识,则结果为Tk;
(3)如果Sk与Tk不相等,
如果pk>α,并且q<β,则结果为Sk;其中α和β是两个阈值,
如果q>α,并且pk<β,则结果为Tk。
2、根据权利要求1所述的信函校验识别方法,其特征在于:所述α和β的取值分别为0.8和0.5。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100235493A CN1300739C (zh) | 2005-01-25 | 2005-01-25 | 信函校验识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB2005100235493A CN1300739C (zh) | 2005-01-25 | 2005-01-25 | 信函校验识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1645407A CN1645407A (zh) | 2005-07-27 |
CN1300739C true CN1300739C (zh) | 2007-02-14 |
Family
ID=34875907
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB2005100235493A Expired - Fee Related CN1300739C (zh) | 2005-01-25 | 2005-01-25 | 信函校验识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1300739C (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9858385B2 (en) * | 2015-07-23 | 2018-01-02 | International Business Machines Corporation | Identifying errors in medical data |
CN109784445A (zh) * | 2019-01-15 | 2019-05-21 | 上海通方信息系统有限公司 | 一种32位喷码智能识别系统 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148221A (zh) * | 1994-08-08 | 1997-04-23 | 日本电气株式会社 | 住址识别方法、住址识别装置及纸件类自动处理系统 |
CN1154879A (zh) * | 1996-12-19 | 1997-07-23 | 邮电部第三研究所 | 信函分拣过程中邮政编码识别的处理方法及其装置 |
JPH1185901A (ja) * | 1997-09-03 | 1999-03-30 | Toshiba Corp | 文書画像理解装置と方法、及び郵便宛名自動認識装置と方法、及び記録媒体 |
JP2000246184A (ja) * | 1999-02-25 | 2000-09-12 | Toshiba Corp | 宛先特定装置 |
CN1273542A (zh) * | 1997-11-04 | 2000-11-15 | 西门子公司 | 识别邮件发送信息的方法和装置 |
JP2001009381A (ja) * | 1999-07-01 | 2001-01-16 | Hitachi Ltd | 情報処理型郵便区分システム |
JP2002042056A (ja) * | 2000-07-28 | 2002-02-08 | Toshiba Corp | 文字認識装置及び文字認識方法 |
-
2005
- 2005-01-25 CN CNB2005100235493A patent/CN1300739C/zh not_active Expired - Fee Related
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148221A (zh) * | 1994-08-08 | 1997-04-23 | 日本电气株式会社 | 住址识别方法、住址识别装置及纸件类自动处理系统 |
CN1154879A (zh) * | 1996-12-19 | 1997-07-23 | 邮电部第三研究所 | 信函分拣过程中邮政编码识别的处理方法及其装置 |
JPH1185901A (ja) * | 1997-09-03 | 1999-03-30 | Toshiba Corp | 文書画像理解装置と方法、及び郵便宛名自動認識装置と方法、及び記録媒体 |
CN1273542A (zh) * | 1997-11-04 | 2000-11-15 | 西门子公司 | 识别邮件发送信息的方法和装置 |
JP2000246184A (ja) * | 1999-02-25 | 2000-09-12 | Toshiba Corp | 宛先特定装置 |
JP2001009381A (ja) * | 1999-07-01 | 2001-01-16 | Hitachi Ltd | 情報処理型郵便区分システム |
JP2002042056A (ja) * | 2000-07-28 | 2002-02-08 | Toshiba Corp | 文字認識装置及び文字認識方法 |
Also Published As
Publication number | Publication date |
---|---|
CN1645407A (zh) | 2005-07-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1082848C (zh) | 处理邮件的方法和实施该方法的装置 | |
CN1120757C (zh) | 识别信件发送信息的方法和装置 | |
US7436979B2 (en) | Method and system for image processing | |
CN103577818B (zh) | 一种图像文字识别的方法和装置 | |
CN1701863A (zh) | 利用改进的条码读取处理邮件项目的方法 | |
US20050137991A1 (en) | Method and system for name and address validation and correction | |
CN1163841C (zh) | 在线手写中文字识别装置 | |
JPH0694026B2 (ja) | 配達物処理方法及びシステム | |
Roy et al. | A system towards Indian postal automation | |
CN1804863A (zh) | 纸质矢量地图自动数字化的方法 | |
CN1243462A (zh) | 识别分配信息的方法和装置 | |
CN1158146C (zh) | 利用记录所得的地址记录更新地址数据库的设备和方法 | |
CN101046858A (zh) | 电子信息比较系统和方法以及反垃圾邮件系统 | |
CN1300739C (zh) | 信函校验识别方法 | |
CN1106620C (zh) | 信息处理方法和设备 | |
Wu et al. | License plate recognition system | |
CN110705486B (zh) | 一种基于视频图像识别快递面单上倾斜数字的方法 | |
CN1691989A (zh) | 处理邮件的方法和装置 | |
CN106682861A (zh) | 一种物流包裹分拣识别方法 | |
CN1763766A (zh) | 一种有约束手写机读数码的书写和识别方法及应用 | |
US20110213491A1 (en) | Systems and methods for mail forwarding and special handling services | |
CN1102461C (zh) | 住址识别方法、住址识别装置及纸件类自动处理系统 | |
CN1680972A (zh) | 在邮件上延迟印刷身份码的方法 | |
CN1894049A (zh) | 通过验证矩阵进行视频编码的方法和设备 | |
CN1484173A (zh) | 基于汉字形状的中文单词拼写错误校正方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070214 Termination date: 20150125 |
|
EXPY | Termination of patent right or utility model |