CN110377897A

CN110377897A - 中英文地址自动检测方法及系统

Info

Publication number: CN110377897A
Application number: CN201810330903.4A
Authority: CN
Inventors: 钟萍
Original assignee: SF Technology Co Ltd
Current assignee: SF Technology Co Ltd; SF Tech Co Ltd
Priority date: 2018-04-13
Filing date: 2018-04-13
Publication date: 2019-10-25

Abstract

本发明涉及一种中英文地址自动检测方法及系统。所述方法包括：对中英文地址进行数据预处理；采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理，得到若干词组；对词组中的门牌号及街区号进行数字、字符校验，对词组中的地址要素词进行拼音及英文校验；对经拼音和英文校验后的词组进行词相似模糊匹配校验；输出经自动检测后的中英文地址及提示信息。所述方法可实现通关件中英文地址对应关系的自动识别与校验；可以自动检测中英文地址是否对应，可兼容不同用户风格各异的英文地址书写习惯以及翻译风格，还可以自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误，给出相应提示信息等。

Description

中英文地址自动检测方法及系统

技术领域

本发明涉及自然语言处理领域，尤其涉及一种中英文地址自动检测方法及系统。

背景技术

随着电子商务及快递物流产业的发展，通关快件的数量规模在不断扩大，与此同时产生了海量的地址数据。通关件的收件地址包括英文地址及中文地址，英文地址必须与中文地址一一对应。

目前的通关地址处理模式为，关务人员对大量的中英文地址逐条进行人工审查，判断收件中英文地址是否对应正确。该处理模式对审核人员的英文水平，拼音水平，地址信息储备能力都有较高的要求。此外，不同用户的英文地址书写顺序、缩写习惯、翻译水平、字迹工整程度也各不相同，进一步增加了人工审查的难度。而尝试使用google翻译，有道翻译，百度翻译等方式直接对通关件地址翻译效果也很不理想，仍需大量人工辨识、理解、纠错工作。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

鉴于上述问题，本发明的一个目的在于提供一种中英文地址自动检测方法。该方法可实现通关件中英文地址对应关系的自动识别与校验，大量减轻或替代人工审核标注工作。

本发明的第二个目的在于提供一种中英文地址自动检测系统。该系统在运行时能够实现如上所述方法的步骤。

本发明的第三个目的在于提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如上方法所述的步骤。

本发明的第四个目的在于提供一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上方法所述的步骤。

为了实现上述第一个目的，本发明采用如下技术方案：

一种中英文地址自动检测方法，包括如下步骤：

对中英文地址进行数据预处理；

采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理，得到若干词组；

对词组中的门牌号及街区号进行数字、字符校验，对词组中的地址要素词进行拼音及英文校验；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

优选地，所述方法还包括：得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。

优选地，采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。

优选地，所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。

优选地，所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。

优选地，所述分词方法包括pattern split分词方法。

优选地，所述对词组中的门牌号及街区号进行数字、字符校验，包括通过比较中英文地址中该部分的jaccard距离，校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中，并给出提示信息。

优选地，所述对词组中的地址要素词进行拼音及英文校验，包括通过比较中英文地址中该部分的编辑距离，校验中文地址中出现的地址要素词是否对应出现在英文地址中，并给出提示信息

优选地，所述方法还包括：当对所述词组中的地址要素词进行拼音校验失败后，启动本地自定义词库和/或在线字典对所述地址要素词进行查询，通过比较编辑距离再次进行校验。

优选地，所述方法还包括：当使用在线字典完成所述地址要素词的查询和再次校验后，将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。

优选地，所述对经拼音和英文校验后的词组进行词相似模糊匹配校验包括通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验；当jaccard距离和编辑距离满足特定阈值限制，则认为匹配成功，给出提示信息。

优选地，所述方法还包括：得到若干词组后、对词组进行校验前，根据自定义的停用词库去掉词组中的停用词的步骤。

本发明还公开一种中英文地址自动检测系统，所述系统包括：

数据预处理模块，用于对中英文地址进行数据预处理；

切词分词模块，用于对经预处理后的中英文地址进行分词和取词性处理，得到若干词组；

校验模块，用于对词组中的门牌号及街区号进行数字、字符校验，对词组中的地址要素词进行拼音及英文校验；以及对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出模块，用于输出经自动检测后的中英文地址及提示信息。

本发明还公开一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

本发明还公开一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

本发明有益效果：

1、使用基于DAG、Viterbi及HMM的中英文地址要素切词算法，结合中英文地址词性特点，自定义停用词库，自动检测中英文地址的匹配关系。

2、使用自定义词库的创建和扩充技术，解决网页爬取过于频繁及次数限制问题，同时提升程序效率。

3、使用jaccard距离及编辑距离算法，自动辨别用户可能存在的拼写错误、或系统录入时的人工辨认错误；辨识中英文地址不对应的部分，并给出提示信息。

4、可兼容不同用户风格各异的英文地址书写习惯以及中文拼音及英文混用的翻译方法。

5、大量减轻或替代人工审核标注工作。

附图说明

图1示出了实施例1中的中英文地址自动检测方法流程图。

具体实施方式

为使本领域技术人员更好地理解本发明的技术方案，下面结合附图和具体实施方式对本发明进行详细描述。在这些附图中，对于相同或者相当的构成要素，标注相同标号。以下仅为本发明的最佳实施方式，本发明并不仅限于下述内容。

实施例1

图1示出了实施例1中的中英文地址自动检测方法流程图。

如图1所示，中英文地址自动检测方法包括如下步骤：

首先，步骤S1中，对中英文地址进行数据预处理。该数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。

例如具体可为：从Hive数据仓库中抽取中英文地址数据，进行中文编码转换，数据筛选等数据预处理，进入数据结构Bunch类中。

其中，Hive是hadoop生态系统中的一个常用组件，是一个数据仓库工具。数据结构Bunch类是一个根据待处理的数据结构设计的Python类。

其中，数据筛选是指源数据的内容栏位很多，需要使用HQL及python写相关代码，提取出地址校验需要的信息，并按照一定格式进行输出，以待后续处理。

步骤S2中，采用切词算法和分词方法对经预处理后的中英文地址进行分词和取词性处理，得到若干词组。切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。分词方法包括pattern split分词方法。

例如具体可为：针对步骤S1中经数据预处理后的中英文地址数据，使用基于DAG、Viterbi及HMM的切词算法，及pattern split方法进行切词和分词，做取词性处理，根据词组的细分属性得到若干词组，如地名，音译地名，其他专名，名词惯用语等等。

其中，“取词性处理”，是指先利用DAG切词算法、Viterbi切词算法、HMM切词算法、pattern split方法来切词和分词后，然后取词性。所谓词性就是名词、动词、副词、介词等等，名词里面又可以细分成地名、音译地名、机构团体名、其它专名、名词性惯用语，名词性语素等等。“取词性”就是按照词性将中英文地址细分为若干属性的词组。

使用基于DAG、Viterbi及HMM的中英文地址要素切词算法，结合中英文地址词性特点，能够高效自动检测中英文地址的匹配关系。

步骤S3中，对步骤S2中得到的若干词组，区分词组中的中文数字是否转化为阿拉伯数字。

例如具体可为：采用结合上下文的二元语言模型来区分地址元素词组中的中文数字是否转化为阿拉伯数字。如“文心五路”中的“五”不进行转换。“长安大厦三零六室”中的“三零六”转换为“306”。

步骤S4中，对经步骤S3处理后的词组中的门牌号及街区号进行数字、字符校验。

具体为：对门牌号及街区号的数字、字符校验，是指通过比较中英文地址中该部分的jaccard距离，校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中，并给出提示信息。

例如针对如下的中英文地址进行数字、字符校验：

英文地址：7F BLFG 1S AREA 3 CHANGAN INDUSTRIAL ZONE CHANGAN TOWNCHANGAN DIST CAHNGAN CITY；

中文地址：长安市长安区长安镇长安工业3区A2栋2楼；

校验结果：高亮英文地址中的“7F BLFG 1S”以及中文地址中的“A2栋2楼”，并给出提示信息“请检查门牌号或街道号字符是否一致，及是否存在缺失！”。

步骤S5中，对经步骤S3处理后的词组中的地址要素词进行拼音及英文校验；通过比较中英文地址中该部分的编辑距离，校验中文地址中出现的地址要素词是否对应出现在英文地址中，并给出提示信息

具体为：对分词后的地址要素(如省市区大厦名称)进行拼音校验及英文校验，比较中英文地址中该部分的编辑距离，校验中文地址中出现的省市街区大厦名称等地址要素是否对应出现在英文地址中，并给出提示信息。

当然，步骤S4和步骤S5的先后顺序不受限制。

步骤S6中，对经拼音和英文校验后的词组进行词相似模糊匹配校验，并给出校验提示信息。

具体为：通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验；当jaccard距离和编辑距离满足特定阈值限制，则认为完全/模糊匹配成功，给出提示信息。

例如针对如下的中英文地址进行拼音、英文校验：

英文地址：2F BLFG A2 AREA 3 CHANGAN INDUSTRIAL ZONE CHANGAN TOWNCHANGAN DIST CAHNGAN CITY；

中文地址：长安市长安区长安镇长安工业3区A2栋2楼；

校验结果：英文地址与中文地址完全匹配成功。

步骤S7，输出经自动检测后的中英文地址及提示信息。

上述步骤S4-S6中，使用短文本相似jaccard距离及词编辑距离算法，自动辨别用户可能存在的拼写错误、或系统录入时的人工辨认错误；辨识中英文地址不对应的部分，并给出校验提示信息。

同时，还可兼容不同用户风格各异的英文地址书写习惯以及中文拼音及英文混用的翻译方法。

例如，可以设定：

当输出结果的类别显示为1时，中英文地址匹配成功，可兼容不同用户风格各异的英文地址书写习惯以及翻译方法。

当输出结果的类别显示为2时，中英文地址匹配失败，并给出匹配失败的原因及提示。如“请检查门牌号或街道号字符是否一致，及是否存在缺失！”、“请检查大厦、街区、省市名称是否正确！”等等。

当输出结果的类别显示为3时，自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误等，给出检查建议。在某些情况下，中英文地址较大可能对应，但可能由于用户笔误，极少数单词有轻微错误，如industrial zone写成industry zone，黄埔(huang bu)英文写成(huang pu)之类，或者用户英文地址缺失少量成分，如没有写省名称。此时就会输出结果类别3，并给出检查建议。如“请检查英文拼写是否正确！”等。

作为本实施方式的进一步改进，上述的中英文地址自动检测方法中，对分词后的地址要素(如省市区大厦名称)进行拼音校验，比较中英文地址中该部分的编辑距离，并给出提示信息。当步骤S5中的对所述词组中的地址要素词进行拼音校验失败后，上述的中英文地址自动检测方法还包括，步骤S8启动本地自定义词库对所述地址要素词进行查询，通过比较编辑距离再次进行校验；和/或步骤S9启动在线字典对所述地址要素词进行查询，通过比较编辑距离再次进行校验。

作为优选实施方式，对在上一步的拼音校验失败的地址要素词，先使用本地自定义词库进行查询，若本地没有则再调用在线中英文词典(例如有道词典网页版)进行查询，使用编辑距离再次进行校验，即优先进行步骤S8进行查询和校验。

作为本实施方式的进一步改进，上述的中英文地址自动检测方法还包括步骤S10，即当使用在线字典完成所述地址要素词的查询和再次校验后，将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。

上述在线字典可以为有道网页版字典、有道翻译、金山词霸、灵格斯词典等等。

步骤S8、S9和S10结合起来，通过自定义词库及在线字典爬虫完成英文校验词库冷启动。具体来说就是对在上一步的拼音校验失败的地址要素词使用本地自定义词库进行查询，若本地没有则再调用在线字典典进行查询，使用编辑距离校验。在线查询过的中英文词组添加到本地自定义词库中，在处理的查询量大到一定程度时，完成自定义词库冷启动。

将在线查询过的中英文词组添加到本地自定义词库中，在处理的查询量大到一定程度时，完成自定义词库的创建和扩充。

使用自定义词库的建立和扩充技术，解决网页爬取过于频繁及次数限制问题，同时提升程序效率

作为本实施方式的进一步改进，上述的中英文地址自动检测方法中，在步骤S2后，步骤S4和S5前，还包括根据自定义的停用词库去掉词组中的停用词的步骤S11。

停用词库是自然语言处理中的一部分，停用词库中的词是指需要去除掉的内容。本实施方式中的停用词库是根据地址文本的特点和处理需要，自定义的停用词库。在前面切词、分词和取词性等处理后得到的若干词组中，对照停用词库，去掉词组中存在的停用词。

上述中英文自动检测方法，使用基于DAG、Viterbi及HMM的切词算法，自定义词库创建和扩充技术以及短文本相似算法jaccard距离和编辑距离，结合中英文地址要素特点，可实现通关件中英文地址对应关系的自动识别与校验。可以自动检测中英文地址是否一一对应，可兼容不同用户风格各异的英文地址书写习惯以及翻译风格，还可以自动辨别用户可能存在的拼写错误、或因为用户书写潦草而引起的系统录入时的辨认错误，给出相应提示信息等。

实施例2

一种中英文地址自动检测系统，所述系统包括：

数据预处理模块，用于对中英文地址进行数据预处理；

该中英文地址自动检测系统在运行时可实现如实施例1中所述方法的步骤。

实施例3

一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；输出经自动检测后的中英文地址及提示信息。

更进一步地，该计算机可读介质上存储的计算机程序被处理器执行时可实现如实施例1中所述方法的步骤。

实施例4

一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

更进一步地，该设备上的处理器执行程序时实现如实施例1中所述方法的步骤。

以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式，然而本发明并不局限于此。对于本领域内的普通技术人员而言，在不脱离本发明的精神和实质的情况下，可以做出各种变型和改进。这些变型和改进也视为本发明的保护范围。

Claims

1.一种中英文地址自动检测方法，其特征在于，包括如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

2.根据权利要求1所述的中英文地址自动检测方法，其特征在于，所述方法还包括：得到若干词组后、对词组进行校验前的区分词组中的中文数字是否转化为阿拉伯数字的步骤。

3.根据权利要求2所述的中英文地址自动检测方法，其特征在于，采用结合上下文的二元语言模型来区分词组中的中文数字是否转化为阿拉伯数字。

4.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述数据预处理包括中文编码转换和/或数据筛选和/或中文数字转换阿拉伯数字。

5.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述切词算法包括DAG切词算法、Viterbi切词算法、HMM切词算法中的一种或多种。

6.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述分词方法包括pattern split分词方法。

7.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述对词组中的门牌号及街区号进行数字、字符校验包括通过比较中英文地址中该部分的jaccard距离，校验中文地址中出现的门牌号及街区号是否对应出现在英文地址中，并给出提示信息。

8.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述对词组中的地址要素词进行拼音及英文校验包括通过比较中英文地址中该部分的编辑距离，校验中文地址中出现的地址要素词是否对应出现在英文地址中，并给出提示信息。

9.根据权利要求1所述的中英文地址自动检测方法，其特征在于，所述方法还包括：当对所述词组中的地址要素词进行拼音校验失败后，启动本地自定义词库和/或在线字典对所述地址要素词进行查询，通过比较编辑距离再次进行校验。

10.根据权利要求9所述的中英文地址自动检测方法，其特征在于，所述方法还包括：当使用在线字典完成所述地址要素词的查询和再次校验后，将所述地址要素词的查询和再次校验信息存储于所述本地自定义词库中。

11.根据权利要求1所述的中英文地址自动检测方法，其特征在于：所述对经拼音和英文校验后的词组进行词相似模糊匹配校验包括通过比较jaccard距离及编辑距离对经拼音和英文校验后的词组进行词相似模糊匹配校验；当jaccard距离和编辑距离满足特定阈值限制，则认为匹配成功，给出提示信息。

12.根据权利要求1所述的中英文地址自动检测方法，其特征在于，所述方法还包括：得到若干词组后、对词组进行校验前，根据自定义的停用词库去掉词组中的停用词的步骤。

13.一种中英文地址自动检测系统，其特征在于，所述系统包括：

数据预处理模块，用于对中英文地址进行数据预处理；

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述程序被处理器执行时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。

15.一种设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

对中英文地址进行数据预处理；

对经拼音和英文校验后的词组进行词相似模糊匹配校验；

输出经自动检测后的中英文地址及提示信息。