CN109033086A

CN109033086A - 一种地址解析、匹配的方法及装置

Info

Publication number: CN109033086A
Application number: CN201810876680.1A
Authority: CN
Inventors: 卢翠兰; 章磊; 李翔宇
Original assignee: Unionpay Marketing Data Services Ltd
Current assignee: Unionpay Marketing Data Services Ltd
Priority date: 2018-08-03
Filing date: 2018-08-03
Publication date: 2018-12-18

Abstract

本发明涉及地址匹配技术领域，尤其涉及一种地址解析、匹配的方法及装置。本发明实施例公开了一种地址解析、匹配的方法，包括：获取待匹配地址；根据行政区分层词典库，将所述待匹配地址解析为第一地址和第二地址；其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；对所述第一地址进行规范化处理；根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据地址库对各地址要素进行规范化处理；将解析完成的待匹配地址与黑名单地址库进行相似度匹配。

Description

一种地址解析、匹配的方法及装置

技术领域

本发明涉及地址匹配技术领域，尤其涉及一种地址匹配的方法和设备。

背景技术

随着业务量的增长，企业积累了海量的地址信息。地址信息可应用在商业活动的各个方面，如银行自动化审批中，需要将申请人的申请信息中的地址与黑名单地址库进行相似性匹配，作为判定申请信息的风险的辅助手段。但是由于人工填写地址容易出现重复、错别字及缺漏，输入的地址中地址文本的表达方式多样，导致地址录入标准不规范，直接进行相似度匹配会导致很大的误差。此外，由于地址专名较多，不规则的小区名、公司名等难以规范化，导致地址解析正确率低。

地址重复的问题很大概率是由录入方式导致的。现有的地址录入系统往往采取下拉选择三级行政区，再由客户或工作人员手工录入其余地址信息的方式。这种录入方式容易导致行政区重复录入问题。如，在下拉中选择了“广东省”“惠州市”“博罗县”后，再填入“惠州博罗城市花园A栋601”，后台会将地址表示成“广东省惠州市博罗县惠州博罗城市花园A栋601”。重复录入的行为会直接影响地址相似度匹配的结果。

地址信息冗余会导致地址表达的多样性问题。为了便捷，人们往往倾向于在不失指向性的情况下，省略一个或多个地址层级信息。另外，由于信息冗余，可以对同一地址使用不同的地址要素组合进行描述。比如，在地址“上海市浦东新区益丰路55弄春港丽园A栋601”中，四级行政区“张江镇”被省略了。而且，“益丰路55弄”与“春港丽园”实际上指向同一地址，因此该地址可表达为“上海市浦东新区益丰路55弄A栋601”或“上海市浦东新区春港丽园A栋601”。

上述问题，都会导致现有技术在地址解析和匹配的过程中，解析正确率较低或匹配召回率较低的问题，极大的影响了地址匹配的后续应用。

发明内容

本发明实施例提供的一种地址解析、匹配的方法及装置，用以解决现有技术中地址解析正确率低，地址匹配召回率低的问题。

本发明实施例提供一种地址匹配与解析的方法，所述方法包括：

获取待匹配地址；

根据行政区分层词典库，将所述待匹配地址切分为第一地址和第二地址；其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；

对所述第一地址进行规范化处理，；

根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据所述地址库对所述各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

本发明实施例提供的地址匹配方法及装置，通过根据行政区域的解析，以及对除行政区域以外的地址进行地址要素的解析，通过提高地址解析的正确率与规范化待匹配的地址，有效地解决了在地址匹配的过程中召回率较低的问题。

一种可能的实现方式，所述根据行政区分层词典库，将所述待匹配地址切分为第一地址和第二地址，包括：

按照行政区的层级级数依次匹配所述待匹配地址，确定解析成功的字段的行政区的级数，直至所述行政区的层级级数的最后一级；

将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址；所述待匹配地址中除所述第一地址之外的字段作为第二地址。

通过上述解析方法，可以使得待匹配地址中的行政区地址通过行政区分层词典库有效的解析出来，并根据解析出的行政区地址，将出非行政区地址确定为第二地址，有利于后续通过地址要素的方法解析第二地址，进而实现针对行政区和非行政区分别解析，提高解析待匹配地址的准确率。

一种可能的实现方式，所述对所述第一地址进行规范化处理，包括：

若确定所述第一地址中，存在与解析成功的层级地址的字段含义相同的重复字段，则删除所述重复字段；

若确定所述第一地址中存在缺失的行政区的层级级数，则根据解析成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全；若确定所述第一地址中存在的行政区为已撤销行政区，则根据所述行政区分层词典库将所述已撤销行政区对应的字段最新为当前行政区对应的字段。

通过对所述第一地址进行规范化处理，将解析结果标准化，提高了解析的正确率和规范性，以便提高地址匹配的准确度。

一种可能的实现方式，所述根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，包括：

按照预设的地址要素的组合规则，依次对所述第二地址进行基于非贪婪规则的正向匹配；

若确定有解析成功的字段，则对解析成功的字段进行地址要素的标记；

将未完成解析的各字段，按照预设的地址要素的解析顺序，依次进行基于非贪婪规则的正向匹配；

若仍存在未完成解析的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素。

通过地址要素关键词与组合规则，进行正向匹配和逆向匹配，提高了第二地址中不规则地址解析的准确率；提高后续匹配的召回率。

一种可能的实现方式，所述根据地址库对所述各地址要素进行规范化处理，包括：

根据所述地址库，查找到所述地址库中存储的第二地址；

根据确定所述待匹配地址中的第二地址，确定所述待匹配地址中的第二地址中缺失的地址要素；

根据所述地址库中存储的第二地址对所述待匹配地址中的第二地址中缺失的地址要素进行补全。

将第二地址进行规范化处理，以获得所述待匹配地址的规范化地址，提高后续匹配的召回率；另外，还可以根据规范化后的地址，对所述地址库进行优化，提高通过地址库进行解析和匹配的准确度。

本发明实施例提供一种地址匹配方法，适用于通过本发明实施例提供的任一项方法解析出的待匹配地址，所述方法包括：

根据待匹配地址中的第一地址，将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址；

将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。

通过对黑名单地址库中的黑名单地址中的第一地址的筛选，缩小了匹配的范围，有助于加快匹配的速度。

本发明实施例提供一种地址解析的装置，所述装置包括：

获取单元，用于获取待匹配地址；

处理单元，用于根据行政区分层词典库，将所述待匹配地址切分为第一地址和第二地址；其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；对所述第一地址进行规范化处理；根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据所述地址库对所述各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

一种可能的实现方式，所述处理单元，具体用于：

按照行政区的层级级数依次解析所述待匹配地址，确定解析成功的字段的行政区的级数，直至所述行政区的层级级数的最后一级；将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址；所述待匹配地址中除所述第一地址之外的字段作为第二地址。

一种可能的实现方式，所述处理单元，具体用于：

若确定所述第一地址中，存在与解析成功的层级地址的字段含义相同的重复字段，则删除所述重复字段；若确定所述第一地址中存在缺失的行政区的层级级数，则根据解析成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全；若确定所述第一地址中存在的行政区为已撤销行政区，则根据所述行政区分层词典库将所述已撤销行政区对应的字段更新为当前行政区对应的字段。

一种可能的实现方式，所述处理单元，具体用于：

按照预设的地址要素的组合规则，依次对所述第二地址进行基于非贪婪规则的正向匹配；若确定有解析成功的字段，则对解析成功的字段进行地址要素的标记；将未完成解析的各字段，按照预设的地址要素的组合规则，依次进行基于非贪婪规则的正向匹配；若仍存在未完成解析的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素。

一种可能的实现方式，所述处理单元，具体用于：

根据所述地址库，查找到所述地址库中存储的第二地址；根据确定所述待匹配地址中的第二地址，确定所述待匹配地址中的第二地址中缺失的地址要素；根据所述地址库中存储的第二地址信息对所述待匹配地址中的第二地址中缺失的地址要素进行补全。

本发明实施例提供一种地址匹配装置，适用于通过本发明实施例提供的任一项装置对待匹配地址进行匹配，所述装置包括：

筛选单元，用于根据待匹配地址中的第一地址，将黑名单地址的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址；

匹配单元，用于将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如本发明实施例中任一项所述的方法。

本发明实施例提供一种地址匹配的计算设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行本发明实施例提供任一项所述的方法。

附图说明

图1为本发明实施例提供的一种地址解析的方法流程示意图；

图2为本发明实施例提供的一种地址匹配的方法流程示意图；

图3为本发明实施例提供的一种地址解析的装置的结构示意图；

图4为本发明实施例提供的一种地址匹配的装置的结构示意图。

具体实施方式

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

随着业务量的增长，企业积累了海量的地址信息，例如，通讯地址中的家庭地址与工作地址，是定位与触达客户的重要标签信息。通讯地址可应用在商业活动的各个方面，如银行自动化审批中，考虑欺诈进件会对地址进行少量数字符更改，需要将进件地址与黑名单地址库进行相似度匹配，作为判定进件的风险的辅助手段。

目前，确定地址间的相似度的方法主要有三种。第一种依赖空间地理位置坐标，通过将地址转化为经纬度并利用经纬度的距离作为相似度，但是GIS数据库的采集费时费力，购入则需要大量资金成本，另外出于安全考虑，企业的生产系统数据必须严格地规定互联网的接入，导致访问公开GIS的API的困难。

第二种是将连续的地址作为一个整体，使用基于字符的相似度确定地址间的相似度，如编辑距离等。但是，地址文本的表达方式会影响相似度的计算，如与①(上海市普陀区长寿路,上海市静安区长寿路)的相似度相比，②(上海市普陀区长寿路,上海市市辖区普陀区长寿路)的相似度比较低，但实际上后者的相似度比前者高。因此，在地址录入标准不统一，录入的信息无法规范化的前提下，直接进行相似度计算会导致很大的误差。

第三种是将地址序列解析为各种地址要素，再分别计算地址要素间的字符相似度，并以加权求和后的地址要素间的字符相似度确定为地址间的相似度。相对而言，将地址序列解析后计算相似度的方法更准确。但是，这种方法直接依赖于地址序列解析的效果。

针对地址序列解析的方法可以包括以下三种。第一种，可以基于词典对地址进行解析，具体的，是使用事先准备好的地址元词典库对地址进行层级解析。这种方法一方面是受词库的完整性限制，目前仍未有成熟、一致的四级以上地址库。另一方面受词库的表达形式限制：词库的形式若为层级式的，由于人工填写地址容易出现重复、错别字及缺漏，一旦某一层级的地址要素匹配不上，则无法进一步解析后续地址；词库的形式若为列表式的，由于相同的字符串可能表示不同层级的地名，造成地址解析与标注的错误，如“大同”可能指代山西大同市(二级)、山西大同县(三级)、黑龙江大同区(四级)。因此，直接采用该方法，会导致地址解析的正确率较低。

第二种，是通过基于统计学习的方法对地址进行解析，使用词频的统计对地址进行切分，从而实现地址的解析。其原理是将两个或以上字符经常一起出现的字符，认为很大概率是一个词汇，常用的算法有n-gram模型、HMM模型、CRF模型等。当手工标注的语料充分大时，这种方法可以很好地对地址进行解析，可是仍无法根据上下文进行准确的层级标注。另外，由于地址专名较多，不规则的小区名、公司名等仍然比较难通过统计学习方法解析，造成了人工成本很高，更新不及时，正确率很低的问题。

第三种是基于规则的方法对地址进行解析。具体的，是根据各类地址要素的地址通名作为关键字，如道路的通名有路、大道、街、胡同等，以及通讯地址的组合规则，如道路名+路弄+小区名+楼室号，道路名+路弄+楼室号等对地址进行解析。这种方法对关键字敏感而对顺序不敏感，容易造成切分错误。另外，针对地址信息冗余的情况，采用地址要素进行相似度计算的方法，可能导致相似度的结果不能反映地址的真实相似情况。比如对地址“上海市浦东新区益丰路55弄春港丽园”而言，小区名与道路+路弄属于不同的地址要素，二者虽指向同一个地址，但使用地址要素的方法对“上海市浦东新区益丰路55弄，上海市浦东新区春港丽园”得到的相似度低于(上海市浦东新区益丰路55弄，上海市浦东新区益丰路20弄)的相似度。

因此，目前的地址解析、匹配方法中，很难快速地将连续的地址文本解析成标准化的地址单元、并准确地将地址单元与地址库进行匹配，进而获得完整、准确的匹配结果。

本发明实施例可以针对通讯地址这一特殊短文本的特点，准确、快速、灵活进行地址解析与匹配。如图1所示，本发明实施例提供一种地址解析的方法，所述方法包括：

步骤101：获取待匹配地址；

步骤102：根据行政区分层词典库，解析所述待匹配地址为第一地址和第二地址；

其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；

步骤103：对所述第一地址进行规范化处理；

步骤104：根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据所述地址库对所述各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

在步骤101之前，所述方法还包括对获取的待匹配地址进行预处理。

具体的，可以对获取的地址根据应用的需要进行预处理，进行处理主要包括：简繁体转换、全角半角转换、特殊字符处理、关键字处理等。例如，(1)删除以“中国”、“中华人民共和国”的开头；(2)删除以符号、null、数字等无效地址字符开头；(3)将常用缩写替换为全称，例如，“经开区”替换为“经济技术开发区”，“街办”替换为“街道办事处”等；(4)将数字、字母的全角改为半角。

在步骤102中，一种可能的实现方式，所述根据行政区分层词典库，解析所述待匹配地址为第一地址和第二地址，包括：

步骤一、按照行政区的层级级数依次解析所述待匹配地址，确定解析成功的字段的行政区的级数，直至所述行政区的层级级数的最后一级；

步骤二、将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址；所述待匹配地址中除所述第一地址之外的字段作为第二地址。

在具体实施过程中，实施行政区分层词典库可以为统计局四级行政区划信息，如表1所示：

表1

其中，上述行政区分层词典库根据行政区的级别进行划分，例如，第一级为省级，第二级为市级，第三级为区，第四级为街道，以层级JSON格式存储，例如：

在步骤一的具体实施过程中，可以采取递归进行正向最大匹配的方式，以“上海浦东新区张江益丰路55弄”为例，从左往右对输入地址的字符串与行政区分层词典库的第一级匹配，“上海”匹配到词典的“上海市”，且“上海浦”无法匹配词典的第一级任一行政区，解析成功；剩余未完成解析的字符串进入词典第二级进行匹配；若无法匹配到词典第二层的任一市级行政区名称，则取成功匹配的第一级行政区下所有三级行政区，匹配到“浦东新区”，解析成功，进入词典第四级，匹配到“张江镇”，此时地址完成四级解析；在确定剩余未完成解析的字符串中没有其余字符串可以匹配到行政区分层词典库后，将待匹配地址切分为第一地址和第二地址。此时第一地址已完成解析。

当然，在步骤102中，还可以通过其他现有技术的方式，进行行政区的匹配，在此不再赘述。

步骤103中，一种可能的实现方式，根据所述行政区分层词典库，对所述第一地址进行规范化处理，包括：

若确定所述第一地址中，存在与解析成功的层级地址的字段含义相同的重复字段，则删除所述重复字段。

由于现有的地址录入系统往往采取下拉选择三级行政区，再由客户或工作人员手工录入其余地址信息的方式。这种录入系统会导致行政区重复录入问题。如在下拉中选择了“广东省”“惠州市”“博罗县”后，再填入“惠州博罗城市花园A栋601”，后台会将地址表示成“广东省惠州市博罗县惠州博罗城市花园A栋601”，为处理录入地址重复问题，还可以进行重复录入字段的删除和替换，例如可以将第一地址中与成功匹配字符串相同或前两位相同的字符串的替换为标准格式的字符串。

当然，还可以在匹配每一级的过程中，每匹配成功一次，可以将剩余地址字符串与成功匹配字符串相同或前两位相同的字符串的替换掉。

若确定所述第一地址中存在某层级行政区缺失，则根据匹配成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全。

具体的，结合上述举例，由于地址无法匹配到词典第二层的任一市级行政区；可以将待匹配地址的第二级置空；并且通过匹配成功的第三级行政区与所述行政区分层词典库，将缺失的第二级补全为“上海市”。最终，可以得到解析后的地址为“上海市/上海市/浦东新区/张江镇/益丰路55弄”。其中，“上海市/一级，上海市/二级，浦东新区/三级，张江镇/四级”为解析完成的第一地址，“益丰路55弄”作为未完成解析的第二地址。

可见，本发明实施例可以在补全行政区缺失的同时，将解析结果标准化，提高了解析的正确率和规范性。也就是说，对于“上海市上海”、“上海市”、“上海”若使用基于统计学习的分词工具，将分别得到“上海市/一级，上海/一级”、“上海市/一级”、“上海/一级”这样不规整的解析结果，而使用我们的方法将统一得到“上海市/一级，上海市/二级”的结果，提高了解析的正确率和规范性。

若确定所述第一地址中存在的行政区为已撤销行政区，则根据所述行政区分层词典库将所述已撤销行政区对应的字段更新为当前行政区对应的字段。

所述行政区分层词典库可以包括行政区分层词典库(含已撤销行政区信息)以及已撤销行政区划与现行行政区划关系的更新词典库；统计局每季度更新行政区划时，行政区分层词典库也会进行更新，同时保留历史行政区划与现行行政区划，并使用词典记录变更历史，因此即使客户习惯将地址填写成“上海闸北”也能对地址进行正确解析成“上海市/上海市/闸北区”,并使用词典库中的变更字典“{闸北区:静安区}”，最终得到“上海市/上海市/静安区”。

在步骤104中，一种可能的实现方式，所述确定所述第二地址中的各地址要素，包括：

步骤一、按照预设的地址要素的组合规则，依次对所述第二地址进行基于非贪婪规则的正向匹配；

步骤二、若确定有解析成功的字段，则对解析成功的字段进行地址要素的标记；

步骤三、将未完成解析的各字段，按照预设的地址要素的组合规则，依次进行基于非贪婪规则的正向匹配；

步骤四、若仍存在未解析成功的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素。

在具体实施过程中，地址要素的示意可以如表2所示：

表2

在本发明实施方式中，可以基于考虑上下文的非贪婪规则解析第二地址的地址要素。其中，考虑上下文是，在关键字前后设定一定的规则，如村镇级的关键字“区”、“镇”前不能是“小”字：(×小)区、(×小)镇，“村”后不能是“委会”等：村(×委会)，路弄的关键字之前的字符只能是“东南西北”、天干地支、数字、中文数字、英文字符等类型。

在步骤一中，解析的顺序可以根据所示，由于地址的顺序异常、村镇和道路等匹配不能完全解析出来，因此，可能出现未解析成功的字段，此时，可以在第一次解析完，将未完成解析的字段作为下一次解析的字段，以同样的规则进行再次解析。需要说明的是，在具体实施过程中，可以根据具体情况设置解析的次数，直至将第二地址全部解析完毕。

在第一次解析完后，对剩余地址信息进行第二次解析，若解析完成，则将两次解析的结果合并起来，最终得到剩余地址要素的解析结果。例如“斜土路漕溪北路777弄汇翠花园1号3104”，最终解析得到的结果为：

{Town:”,

Road:’斜土路漕溪北路’,

Roadno:’777弄’,

CrossRoad:”,

Poi:”,

RC:’汇翠花园’,

RCNo:’1号3104’}

若出现了不规则小区名，由于地址要素中使用的是常用小区名结尾词汇作为切分标志，如“xx花园”、“xx公寓”、“xx园”、“xx苑”等，而且小区名属于专有名词，因此使用基于规则和基于统计学习的方法都无法很好地对不规则小区名进行识别。如“北京市朝阳区望京宝星国际二期110号楼”，分词的方法会得到“北京市/一级，朝阳区/三级，望京/地名，宝/名词，星/名词，国际/名词，二/数词，期/名词，110/数词，号楼/名词”，无法将“宝星国际”当做一个连续的名词字符串，进而识别为小区名。而单纯使用关键字规则也无法将“宝星国际”解析为小区名。

因此，本发明实施例针对不规则小区名的解析规则借助了地址表达的规范性，即小区名后面往往是楼栋号；具体的，可以通过逆向最大匹配的方法匹配为解析成功的地址中的楼栋号，如“x号楼”、“x单元”、“x栋”等，将剩余未匹配字符串识别为小区名。

举例来说，若需要解析的第二地址为“曙光西路UHN国际村9号楼5单元”，第一次正向匹配得“曙光西路/道路，UHN国际村9号楼5单元/剩余字符串”，第二次逆向匹配剩余字符串得“UHN国际村/剩余字符串，9号楼5单元/楼弄号”，在进行了逆向匹配得到再第三次正向匹配剩余字符串得“UHN国际村/小区名，9号楼5单元/楼弄号”。

在步骤105中，一种可能的实现方式，所述根据地址库对所述各地址要素进行规范化处理，包括：

步骤一、根据所述地址库，查找到所述地址库中存储的第二地址；

步骤二、根据确定所述待匹配地址中的第二地址信息，确定所述待匹配地址中第二地址缺失的地址要素；

步骤三、根据所述地址库中存储的第二地址对所述待匹配地址中第二地址缺失的地址要素进行补全。

本发明实施例中，通过行政区分层词典库中的自有数据增量构建地址库，用于补全同级地址元素，将存在省略地址要素的通讯地址或同一地址使用不同地址要素进行表述进行补全，实现了对地址库的规范化处理；考虑了路弄、楼号、室号的精细化分类，有助于精确计算地址间的相似度。

具体的，完成第二地址解析后，使用解析得到的非空的道路或小区名与地址库进行匹配，对解析后为空值的道路+路弄或小区名等地址要素根据地址库进行补全。考虑地址填写出错的可能性，可以取历史计数最大的地址要素作为标准值)，如“上海市浦东新区春港丽园”解析与补全后得到“上海市/上海市/浦东新区/张江镇(四级补全)/益丰路/55弄(五级补全)/春港丽园”。

另外，由于在实际应用中，地址的匹配需要精确到楼室号，而欺诈进件会对地址进行字符更改来躲避精确匹配，因此需要对楼室号进行精细化处理。如果使用关键字对路弄、楼室提前替换与切分，容易导致信息缺失，因此在解析完后再进行规范化处理，可以使得地址的规范化的准确度提高，如“汇翠花园1号3104”、“汇翠花园1#3104室”，最后楼室号均为识别为列表形式[1,3104]，可以使得在匹配时，更准确地确定分级的权重和编辑距离。

一种可能的实施方式中，地址要素也可能出现重复录入，例如，“河南省郑州市管城回族区贺江路15号绿都紫荆绿都紫荆华庭雅园20栋2单元1”，可以通过左替换的方式，将重复字段删除。

本发明实施例中，通过对现阶段可获得的公开地址元词典及规范化处理，处理了现有的地址录入系统常存在的地址重复录入、缺省的问题；对小区名称、楼栋名称、兴趣点名称及道路名称+路弄号的相互补全，使得后续地址匹配的召回率提高。

根据本发明实施例中的地址解析与匹配方法，每次进件新地址，解析完后都会可以对地址库进行更新，以及对地址库进行计数更新。

例如，针对地址库，可以保留待匹配地址的非空信息，以表格形式存储，并进行计数，用于统计次数最多出现的字段，以进行验证。存储格式可以为：行政区+道路+路弄+小区名、行政区+兴趣点+小区名、行政区+道路+路弄+公司名。

本发明实施例中，根据通讯地址录入规则，使用基于词典及基于规则将地址划分为第一地址和第二地址，分别进行解析；在分层级计算地址元素间相似性前，通过自有数据增量地补全同级地址元素，增加了地址库在进行地址匹配时的召回率。

如图2所示，本发明实施例提供一种地址匹配方法，适用于通过本发明实施例提供的任一项方法，所述方法包括：

步骤201：根据待匹配地址中的第一地址，将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址；

步骤202：将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。

具体的，可以根据将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行地址要素相似度加权匹配。

在步骤201中，使用规范化方式存储的黑名单地址。根据进件通讯地址的解析结果将满足第一地址的黑名单筛选出来，以缩小需要匹配的数据库规模，极大减小了相似度计算的计算量，提高了匹配的效率。

在步骤202中，将进件通讯地址与筛选后的黑名单地址进行比较。考虑欺诈地址会进行少数字符更改，计算相似度的方法包括字面编辑距离、拼音编辑距离及字形编辑距离，取其中最大的相似度作为结果，地址addr1,addr2的相似度为其所有非空地址要素i,j的相似度之和，计算公式如下：

其中，charsim为字面编辑距离，yinsim为拼音编辑距离，xingsim为字形编辑距离，拼音编辑距离与字形编辑距离分别将地址要素按照拼音和字形进行编码后再计算编辑距离。

需要说明的是，由于充分大的地址库是增量构建的，在积累的过程中可能会存在无法标准化和补全的地址，比如两个地址中只有一个有五级的村镇信息或兴趣点信息，如果对全部信息进行相似度加权会导致总相似度下降，因此经过上述步骤后仍只针对特定非空的地址要素组合对进行加权相似度计算，如道路+小区名+楼室，道路+路弄+楼室等。

本发明实施例中，根据通讯地址录入规则，使用基于词典及基于规则将地址划分为第一地址和第二地址，分别进行解析；对小区名称、楼栋名称、兴趣点名称及道路名称+路弄号的相互补全，提高后续匹配的召回率；考虑了路弄、楼号、室号的精细化分类，有助于精确计算地址间的相似性；在分层级计算地址元素间相似性时，可通过灵活选择地址要素进行加权；地址匹配前使用补全后的第一地址对黑名单地址库进行范围缩小，有助于加快匹配的速度。无需依赖大量的人力和时间进行地址词典采集或地址元素手工标注，快速、灵活、精准地进行通讯地址的解析与匹配，具有非常高的技术可实现性，有效的提高了地址解析的正确率和地址匹配的召回率及效率。

基于相同的发明构思，如图3所示，本发明实施例提供一种地址解析的装置，所述装置包括：

获取单元301，用于获取待匹配地址；

处理单元302，用于根据行政区分层词典库，解析所述待匹配地址为第一地址和第二地址；其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；对所述第一地址进行规范化处理；根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据所述地址库对所述各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

一种可能的实现方式，处理单元302，具体用于：

按照预设的地址要素的组合规则，依次对所述第二地址进行基于非贪婪规则的正向匹配；若确定有解析成功的字段，则对解析成功的字段进行地址要素的标记；将未完成解析的各字段，按照预设的地址要素的组合规则，依次进行基于非贪婪规则的正向匹配；若仍存在未解析成功的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素。

一种可能的实现方式，处理单元302，具体用于：

根据所述地址库，查找到所述地址库中存储的第二地址；根据确定所述待匹配地址中的第二地址，确定所述待匹配地址中第二地址缺失的地址要素；根据所述地址库中存储的第二地址对所述待匹配地址中第二地址缺失的地址要素进行补全。

如图4所示，本发明实施例提供一种地址匹配装置，适用于通过本发明实施例提供的任一项装置解析出的待匹配地址，所述装置包括：

筛选单元401，用于根据待匹配地址中的第一地址，将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址；

匹配单元402，用于将筛选后的黑名单地址中的第二地址与所述待匹配地址中的第二地址进行相似度匹配。

一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如本发明实施例中任一项所述的方法。

本发明实施例提供一种地址匹配的计算设备，包括：

存储器，用于存储程序指令；

本发明实施例中，根据通讯地址录入规则，使用基于行政区分层词典库及基于规则将地址划分为第一地址和第二地址，分别进行解析；通过对现阶段可获得的行政区分层词典库对第一地址进行解析，通过行政区分层词典库中的自有数据补全第一地址中缺失的行政区信息，并处理了现有的地址录入系统常存在行政区重复录入的问题；针对第二地址，解析不规则的通讯地址表达，如不规则的小区名；对小区名称、楼栋名称、兴趣点名称及道路名称+路弄号的相互补全；对小区名称、楼栋名称、兴趣点名称及道路名称+路弄号的相互补全，提高后续匹配的召回率；考虑了路弄、楼号、室号的精细化分类，有助于精确计算地址间的相似性；在分层级计算地址元素间相似性时，可通过灵活选择地址要素组合进行加权；地址匹配前使用补全后的第一地址对黑名单地址库进行范围缩小，有助于加快匹配的速度。无需依赖大量的人力和时间进行地址词典采集或地址元素手工标注，快速、灵活、精准地进行通讯地址的解析与匹配，具有非常高的技术可实现性，有效的提高了地址解析的正确率和地址匹配的召回率及效率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种地址解析的方法，其特征在于，所述方法包括：

获取待匹配地址；

对所述第一地址进行规范化处理；

根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据地址库对各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

2.根据权利要求1所述的方法，其特征在于，所述根据行政区分层词典库，将所述待匹配地址切分为第一地址和第二地址，包括：

按照行政区的层级级数依次解析所述待匹配地址，确定解析成功的字段的行政区的级数，直至所述行政区的层级级数的最后一级；

3.根据权利要求2所述的方法，其特征在于，所述对所述第一地址进行规范化处理，包括：

若确定所述第一地址中存在缺失的行政区的层级级数，则根据解析成功的行政区与所述行政区分层词典库对所述第一地址进行行政区信息补全；

若确定所述第一地址中解析的行政区为已撤销行政区，则根据所述行政区分层词典库将所述已撤销行政区对应的字段更新为当前行政区对应的字段。

4.根据权利要求1所述的方法，其特征在于，根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，包括：

将未完成解析的各字段，按照预设的地址要素的组合规则，依次进行基于非贪婪规则的正向匹配；

若仍存在未解析成功的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素。

5.根据权利要求1所述的方法，其特征在于，根据所述地址库对所述各地址要素进行规范化处理，包括：

根据所述地址库，查找到所述地址库中存储的第二地址的地址信息；

根据所述待匹配地址中的第二地址，确定所述待匹配地址中的第二地址中缺失的地址要素；

6.一种地址匹配方法，其特征在于，适用于通过权利要求1至5任一项方法解析出的待匹配地址，所述方法包括：

7.一种地址解析的装置，其特征在于，所述装置包括：

获取单元，用于获取待匹配地址；

处理单元，用于根据行政区分层词典库，将所述待匹配地址解析为第一地址和第二地址；其中，所述第一地址为具有行政区信息的字段；所述第二地址为不具有行政区信息的字段；对所述第一地址进行规范化处理；根据地址要素关键词与组合规则，解析所述第二地址中的各地址要素，并根据地址库对各地址要素进行规范化处理；所述地址库与所述行政区分层词典库不同。

8.根据权利要求7所述的装置，其特征在于，所述处理单元，具体用于：

按照行政区的层级级数依次解析所述待匹配地址，确定解析成功的字段的行政区的级数，直至所述行政区的层级级数的最后一级；将所述行政区的层级级数的第一级对应的字段至所述最后一级对应的字段之间的字段作为所述第一地址；所述待匹配地址中除所述第一地址之外的字段作为第二地址；

9.根据权利要求7所述的装置，其特征在于，所述处理单元，具体用于：

按照预设的地址要素的组合规则，依次对所述第二地址进行基于非贪婪规则的正向匹配；若确定有解析成功的字段，则对解析成功的字段进行地址要素的标记；将未完成解析的各字段，按照预设的地址要素的匹配顺序，依次进行基于非贪婪规则的正向匹配；若仍存在未完成解析的各字段，则对所述未完成解析的各字段进行基于贪婪规则的逆向匹配，将确定的楼室号之前的字段标记为小区名地址要素；

根据所述地址库，查找到所述地址库中存储的第二地址；根据确定所述待匹配地址中的第二地址，确定所述待匹配地址中的第二地址中缺失的地址要素；根据所述地址库中存储的第二地址信息对第二地址中缺失的地址要素进行补全。

10.一种地址匹配装置，其特征在于，适用于通过权利要求7至9任一项装置解析出的待匹配地址，所述装置包括：

筛选单元，用于根据待匹配地址中的第一地址，将黑名单地址库中的第一地址与所述待匹配地址中的第一地址相同的黑名单地址作为筛选后的黑名单地址；

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行如权利要求1至4中任一项所述的方法，或者权利要求6所述的方法。

12.一种地址匹配的计算设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序执行如权利要求1至4中任一项所述的方法，或者权利要求6所述的方法。