CN101482862A

CN101482862A - 一种英文信件地址的中文自动批译方法

Info

Publication number: CN101482862A
Application number: CNA2009100455839A
Authority: CN
Inventors: 吕岳; 屠晓
Original assignee: SHANGHAI POST SCIENCE INST
Current assignee: SHANGHAI POST SCIENCE INST
Priority date: 2009-01-20
Filing date: 2009-01-20
Publication date: 2009-07-15

Abstract

本发明涉及邮政处理自动化技术领域中的一种英文信件地址的中文自动批译方法，其特征在于，包括以下步骤：自动识别以英文印刷字符书写的信件地址；按照地址信息库的形式结构化所述的信件地址，得到信件地址信息集；对所述信件地址信息集与地址信息数据库中的记录做相似度计算，以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。本发明将识别得到的非结构化文本地址转换为结构化的地址信息集，运用模糊匹配方法与地址库中的进行比较，从而获得中文结果。本发明方法具有一定的容错性，降低了字符误识、书写不规范和书写错误对翻译性能的影响。

Description

一种英文信件地址的中文自动批译方法

技术领域

本发明属于邮政处理自动化技术领域，尤其涉及一种英文信件地址的中文自动批译方法。

背景技术

在国际邮件处理技术领域，所述的批译是指将国际邮件上的地址、单位名称、收件人名等投递信息翻译成中文批注到邮件上，以便邮件下一步的分拣和投递。国际邮件的投递信息中涉及到的文种主要有中文、英文、日文、法文、俄文、德文、西班牙文、意大利文等，其中英文站总量的90％。邮政部门的专业批译人员将国际寄达中国的英文信件的收信人地址翻译成中文，并批注在信封上，以便于投递人员送达目的地。批译人员除了要熟悉英文，还要熟悉邮件分拣业务，具有行政区划的地理常识，掌握主要国家机关、外事单位、公共服务机构和大型企业的地址，因此对于批译人员的要求非常之高达到了几乎不可能的程度。

幸运的是，随着计算机技术的发展和普及，出现了机器自动翻译批译处理系统，随着需求的演变，采用打印地址的商业信函的数量急剧增加，占到了通常信件数量的主要部分，商业信函的地址的重复性高，运用字符识别技术和机器翻译技术的地址批译系统针对此种情况更使得信件的批译处理效率倍增。

然而，现有的英文信件地址的自动批译系统由于固有的技术上的限制仍然存在不少缺点，具体说，有以下几种情况：

1)、字符识别技术的缺点

目前印刷体的字符识别率可以达到99％以上，但是误识率是所有识别技术无法避免的。比如将“H”错误识别为“M”，将“I”错误识别为“1”等等。这就增加了批译系统的拒翻率(即无翻译结果的概率)和误翻率(即错误翻译的概率)。

2)机器翻译技术的问题

1.地址中使用的语言是自然语言的一个子集，但对自然语言中字词句类型的定义和规则却不能直接用在批译系统中，需要针对地址的用语下新的定义，提取新的规则。

2.地址书写的不规范

目前还没有统一规定中国地址如何确切地用英文表示。如“南京西路”的英文表示方法就可以写为以下几种：Nanjing xi lu，Nanjing West Road，West Nanjing Road等。

3.地址书写错误

有些用户可能对中文拼音不是很熟悉，不会区分前后鼻音或者平翘舌音，在书写地址时凭印象或或者信手写上一个。比例如把“ling ling lu”(零陵路)写成“lin lin lu”。虽然识别出来的字符是正确的，但是对照标准的地址库时却无法翻译出结果。

发明内容

本发明的目的是提供一种英文信件地址的中文自动批译方法，解决目前由于OCR误识、地址书写不规范或者书写错误对翻译性能的影响所造成的英文信件地址批译中误翻或者拒翻的问题。

本发明的技术方案是，一种英文信件地址的中文自动批译方法，其特征在于，包括以下步骤：

A1、自动识别以英文印刷字符书写的信件地址；

A2、按照地址信息库的形式结构化所述的信件地址，得到信件地址信息集；

A3、对所述信件地址信息集与地址信息数据库中的记录做相似度计算，以相似度计算结果为依据判定对应的记录所对应的中文表述为翻译结果。

所述的步骤A3中的相似度计算过程由以下步骤组成：

B1、将所述信件地址信息集记为：AddrX(Sec₀，Sec₁，...，Sec₁₀)，其中Sec_j(1≤j≤10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容；

B2、将所述地址信息数据库中某一地址记录记为：DB_k(Item₁，Item₂，...，Item₁₀，CItem₁，CItem₂，...，CItem₁₀)，其中Item_j(1≤j≤10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容，CItem_j(1≤j≤10)是对应于Item_j的中文表述，1≤k≤N，N为数据库中的记录总数；

B3、将地址AddrX和数据库中某记录DB_k的相似度定义为：

其中Sim(Sec_j，Item_j)是Sec_j和Item_j两个字符串之间的相似度，μ_j表示某个地址信息项是否为空，空则为0，非空则为1；

B4、令

若则认为AddrX与DB_i相匹配，DB_i(CItem₁，CItem₂，...，CItem₉)为AddrX的中文表述，其中λ是相似度阈值，取值在0～1之间。

所述步骤B4中的相似度阈值λ取为0.85。

所述步骤B3中的两个字符串之间的相似度Sim(Sec_j，Item_j)的取得过程由以下步骤组成：

C1、设A＝Item_j为标准字符串，有m个字符组成，用[a₁，a₂，...，a_m]表示；B＝Sec_j为字符识别结果，有n个字符串组成，用[b₁，b₂，...，b_n]表示；

C2、以编辑距离的比对法来计算B与A之间的相似度，用一个(m+1)×(n+1)的矩阵V记录比较结果，即令

矩阵V初始化：V(i，j)＝0，0≤i≤n，0≤j≤m.，

V(i，j)的值按如下i，j双循环计算：

1≤i≤m，1≤j≤n，

V (i, j) = \max \{\begin{matrix} V (i - 1, j - 1) + σ (a_{i}, b_{j}) \\ V (i - 1, j) \\ V (i, j - 1) \end{matrix},

其中σ(a_i，b_j)表示字符a_i与字符b_j是否相同，定义为：

σ (a_{i}, b_{j}) = \{\begin{matrix} 2 & a_{i} = b_{j} \\ - 2 & a_{i} &NotEqual; b_{j} \end{matrix},

那么字符串B与A的比较结果定义为：

Sim (B, A) = \frac{V (m, n)}{{\tilde{V}}_{A}}

其中

{\tilde{V}}_{A} = m \times σ (a_{i}, a_{i}) = 2 m,

是A与其本身的比较结果，取一定的阈值θ，当Sim(B，A)大于θ时，则判定两个字符串是相同的。

前述的英文信件地址的中文自动批译方法，还包括以下步骤：

D1、根据预定义的词类建立地址常用词词典，每个词有四个属性：词、匹配阈值、词类以及词类规则序号，其中

匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数，

词类属性表示本词所属的类别，同一个词可以属于多种词类，词又分为单类词和兼类词，词类规则序号属性这是用序号来表示确定本词的类别的词类规则；

D2、计算待定词和词典中所有词的比较结果，假设最高值为SIMMAX，其对应词的匹配阈值的值为θ，如果SIMMAX≥θ，则按照该词后两个属性词类和词类规则序号来确定词的类别，关键词的匹配阈值设置为1.0，不包括关键词的其他的词的匹配阈值设置为0.9；

D3、对于无法定义于词典中的词标为“字母串”。

本发明的方法是以字符识别技术获得的收信人地址作为自动批译的输入，针对识别错误不可避免的误识率以及地址中的用语规律，创建了具有容错性地址结构化转换方法，将非结构化的地址文本转化为结构化的地址信息集；再应用一种模糊匹配的方法与地址库中的中英文地址信息进行比较，自动翻译出对应的中文地址。整个批译过程是一个全自动过程，无须人工干预。

附图说明

图1是本发明一实施例中以向前搜索确定路名前缀的有限状态自动机DFA1状态图

图2是本发明一实施例中以向后搜索确定路名后缀的有限状态自动机DFA2状态图

图3是本发明一实施例中各个不同地址信息项的有限状态自动机

具体实施方式

以下结合附图详细说明本发明技术方案的具体实施方式。本发明的实施中首先需要完成具有容错性的地址结构化转换，具体说，这个过程主要是一种将非结构性的文本地址转换为结构化的地址信息集。地址信息集有以下几个信息项构成：市、行政区、路名、门牌号、大楼名、居民小区、收信人、公司、邮编、邮箱等。针对地址的行文语言的特殊性，定义了专门的词类和词类规则。本发明的一实施例将词的类别归纳为18种大类，个别大类又细分为若干子类，参见表1。

表1 词类(Tag)

根据定义的词类建立地址常用词词典，每个词有四个属性：词，匹配阈值，词类以及词类规则序号。其中匹配阈值是根据字符模糊比较方法判断待定词与词典中的词是否一致的参数。计算待定词和词典中所有词的比较结果，假设最高值为SIMMAX，其对应词的匹配阈值的值为θ，如果SIMMAX≥θ，则按照该词后两个属性词类和词类规则序号来确定词的类别。一般，关键词的匹配阈值设置为1.0，而其它设置为0.9。词类属性表示本词所属的类别，同一个词可以属于多种词类。将词分为单类词(只有属于一种词类)和兼类词(属于多种词类)。词类规则序号属性这是用来表示采用那条词类规则来确定本词的类别。对于不存在于词典中的词标为“字母串”。

大部分由英文单词构成的关键词的词类是唯一的，而由拼音构成的关键词则具有多种词类，因此词类规则主要是用于确定拼音构成的词的类别。词类规则是根据前后相邻的词的词类以及在文本行中的位置确定当前词的词类，其表示形式如下：

<Num><Word><[condition 1]，[condition 1’]，tag1><[condition 2]，[condition 2’]，

tag2>...<[condition N]，[condition N’]，tag n><tag0>

[condition X]是关于词类的逻辑组合，即±tag1|±tag2|...|±tag m，其中“-”表示非，“|”表示逻辑或，。若当前词前一个词的词类符合condition 1且后一个词的词类符合condition 1’，则当前词的词类为tag1。如果前面条件都不满足，则该词的词类tag0。具体有如下：

<01><shi><CityRegion，，Ck-c><Number，，NK3-c><CharacterString>

<02><qu><DistrictKeyword，，DK-c><CharacterString>

<03><lu><CharacterString，Number|Punctuation|NumberKeyword，RoadKeyword><CharacterString>

<04><e><RoadKeyword，-NK，OrientalWoad><CharacterString，RoadKeyword，OrientalWoad><SingleDigital>

<05><hao><Number，Number|Punctuation|NumberKeyword，NK2-c><CharacterString>

<06><nong><Number，Number|Punctuation|NumberKeyword，NK1-c><CharacterString>

<07><lou><Number，Number|Punctuation|NumberKeyword，NK2-c><CharacterString>

<08><cun><Number，，AK-c><CharacterString>

以<04>号规则为例，解释为：若当前词“e”的前一个词是RoadKeyword且后一个词不是NK，则该词的词类为OrientalWoad；若前一个词是CharacterString且后一个词为RoadKeyword，则“e”的词类为OrientalWoad；若都不成立，则“e”的词类为SingleDigital。

地址结构化转换方法可以采用有限自动机从标注了词类的非结构化的收信人地址转中提取各个地址信息项。

路名是一个地址中比较的重要的信息。常见的路名有以下6种形式：

A.CharacterString...CharacterString RoadKeyword

如Century Boulevard(世纪大道)

B.CharacterString...CharacterString OrientalWord RoadKeyword

如Zhong Shan North Road(中山北路)

C.CharacterString...CharacterString Number RoadKeyword

如Rui Jin 1 Lu(瑞金一路)

D.OrientalWord CharacterString...CharacterString RoadKeyword

如West Nan Jing Road(南京西路)

E.CharacterString...CharacterString RoadKeyword OrientalWord

如Guang Yuan Road West(广元西路)

F.CharacterString...CharacterString No Number Road Keyword OrientalWord

如Zhong Shan No 2 Road South.(中山南二路)

将一个完整的路名定义为三个部分：前缀、路名关键词和后缀，其中后缀可缺省。以“Guang Yuan Road West”为例，“Guan Yuan”为前缀，“Road”为路名关键词，“West”为后缀。采用有限状态自动机的方法，对路名前后缀进行确定。图1、图2分别给出了用于确定前缀和后缀的有限状态自动机DFA1和DFA2。将词类标定好后的地址以路名关键词为界，分为两个部分，前部分作为DFA1的输入串，从路名关键词开始向前逐词输入，以DFA1可以接受的最大子串为路名的前缀，再将地址后半部分作为DFA2的输入串，向后逐词输入，同样以DFA2可接受的最大子串为路名后缀，合并前缀、路名关键词和后缀可等到完整的路名。

对于收信人姓名、公司、小区/园区名、大楼等地址信息项，同样可以由有限状态自动机获得，它们对应的有限状态自动机如图3所示。

对于门牌号码串，首先标识出地址中的号码，数字串、单字母和序数词。对于长度超过5的数字串和路名中长度为1的数字不作处理。对用‘-’或‘/’连接的多个号码作为一个号码处理。对中间没有空格隔开的单个字符和单个数字也作为一个号码处理。

号码关键词(或者路名)与号码存在对应的词组关系，举例如下：

G.NK1-e和Number组成一级号码词组，如Lane 1885(1885弄)

H.NK2-e和Number组成二级号码词组，如No 9(9号)

I.NK3-e和Number组成三级号码词组，如Room 502(502室)

J.Number和NK1-c组成一级号码词组，如1885 Nong(1885弄)

K.Number和NK2-c组成二级号码词组，如9 hao(9号)

L.Number和NK3-c组成三级号码词组，如502 shi(502室)

M.Number和FloorKeyword组成楼层号码词组，如5/F(5层)

N.Number和NK1-e组成一级号码词组，如1885 Lane(1885弄)

O.Number和路名组成一级号码词组，如161 EAST LUJIAZUI LU(陆家嘴东路161号)

P.路名和Number组成一级号码词组，如Zhong Shan North 3663(中山北路3663号)

将词组按一级号码、二级号码、楼层、三级号码排序，即得到地址的号码串。

对于邮政编码这一项，直接由词类为Postcode的词得到。

对于邮箱这一项，紧接着词类为PostboxKeyword的词的后一个号码为邮箱号码。

对于市这一项，根据CityKeyword和CityName构成的词组得到市名。

对于区这一项，根据DistKeyword和DistName构成的词组得到区名。

这样，非格式化的文本地址转换为由市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名等多个地址信息项构成的信息集。

其次，完成基于模糊比较的地址翻译。地址信息库中的地址按照地址信息集的形式放置，且每个地址信息项有其对应的中文表述。计算转换后的地址信息集与地址库中的记录进行的相似度，若得到的最高相似度满足一定判断条件，则对应记录中的中文表述就是信件地址的翻译结果。

将地址信息集记为：AddrX(Sec₀，Sec₁，...，Sec₁₀)，其中Sec_j(1≤j≤10)分别表示地址信息集中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容。将数据库中某一地址记录记为：DB_k(Item₁，Item₂，...，Item₁₀，CItem₁，CItem₂，...，CItem₁₀)，其中Item_j(1≤j≤10)分别表示地址信息项中的市、区、邮编、路、小区/园区、大楼、号码串、邮箱号码、公司、收信人姓名的内容，CItem_j(1≤j≤10)是对应于Item_j的中文表述，1≤k≤N，N为数据库中的记录总数。

将地址AddrX和数据库中某记录DB_k的相似度定义为：

其中Sim(Sec_j，Item_j)是Sec_j和Item_j两个字符串之间的相似度；μ_j表示某个地址信息项是否为空，空则为0，非空则为1。

假设

(AddrX，DB_k)。若

则认为AddrX与DB_i相匹配，DB_i(CItem₁，CItem₂，...，CItem₉)为AddrX的中文表述，其中λ是相似度阈值，取值在0～1之间。通过大量实验后得到λ取0.85比较适合。

在上述的方法中，字符串的模糊比较非常关键，也是本发明的技术方案基础和关键。设A为标准字符串，有m个字符组成，用[a₁，a₂，...，a_m]表示；B为字符识别结果，有n个字符串组成，用[b₁，b₂，...，b_n]表示。如何计算B与A之间的相似度是本发明的基础和关键。这里采用的是编辑距离的比对法来计算B与A之间的相似度，用一个(m+1)×(n+1)的矩阵V记录比较结果。

矩阵V初始化：V(i，j)＝0，0≤i≤n，0≤j≤m.

V(i，j)的值按如下循环计算：

For 1≤i≤m，1≤j≤n

V (i, j) = \max \{\begin{matrix} V (i - 1, j - 1) + σ (a_{i}, b_{j}) \\ V (i - 1, j) \\ V (i, j - 1) \end{matrix}

其中σ(a_i，b_j)表示字符a_i与字符b_j是否相同，定义为：

σ (a_{i}, b_{j}) = \{\begin{matrix} 2 & a_{i} = b_{j} \\ - 2 & a_{i} &NotEqual; b_{j} \end{matrix}

那么字符串B与A的比较结果定义为：

Sim (A, B) = \frac{V (m, n)}{{\tilde{V}}_{A}}

其中

{\tilde{V}}_{A} = m \times σ (a_{i}, a_{i}) = 2 m,

是A与其本身的比较结果。取一定的阈值θ，当Sim(A，B)(也可以写作Sim(B，A))大于θ时，则认为两个字符串是相同的。

由此本发明公开了一种英文信件地址的自动批译方法，将识别得到的非结构化文本地址转换为结构化的地址信息集，运用模糊匹配方法与地址库中的进行比较，从而获得中文结果。本方法具有一定的容错性，降低了字符误识、书写不规范和书写错误对翻译性能的影响。

Claims

1、一种英文信件地址的中文自动批译方法，其特征在于，包括以下步骤：

A1、自动识别以英文印刷字符书写的信件地址；

2、如权利要求1所述的英文信件地址的中文自动批译方法，其特征在于，所述的步骤A3中的相似度计算过程由以下步骤组成：

B3、将地址AddrX和数据库中某记录DB_k的相似度定义为：

B4、令

若

则认为AddrX与DB_i相匹配，DB_i(CItem₁，CItem₂，...，CItem₉)为AddrX的中文表述，其中λ是相似度阈值，取值在0～1之间。

3、如权利要求2所述的英文信件地址的中文自动批译方法，其特征在于，所述步骤B4中的相似度阈值λ取为0.85。

4、如权利要求2所述的英文信件地址的中文自动批译方法，其特征在于，所述步骤B3中的两个字符串之间的相似度Sim(Sec_j，Item_j)的取得过程由以下步骤组成：

矩阵V初始化：V(i，j)＝0，0≤i≤n，0≤j≤m.，

V(i，j)的值按如下i，j双循环计算：

1≤i≤m，1≤j≤n，

V (i, . j) = \max \{\begin{matrix} V (i - 1, j - 1) + σ (a_{i}, b_{j}) \\ V (i - 1, j) \\ V (i, j - 1) \end{matrix},

其中σ(a_i，b_j)表示字符a₁与字符b_j是否相同，定义为：

σ (a_{i}, b_{j}) = \{\begin{matrix} 2 & a_{i} = b_{j} \\ - 2 & a_{i} &NotEqual; b_{j} \end{matrix},

那么字符串B与A的比较结果定义为：

Sim (B, A) = \frac{V (m, n)}{{\tilde{V}}_{A}}

其中

{\tilde{V}}_{A} = m \times σ (a_{i}, a_{i}) = 2 m,

5、如权利要求1所述的英文信件地址的中文自动批译方法，其特征在于，还包括以下步骤：

D3、对于无法定义于词典中的词标为“字母串”。