CN112581252A

CN112581252A - 融合多维相似度与规则集合的地址模糊匹配方法及系统

Info

Publication number: CN112581252A
Application number: CN202011395883.2A
Authority: CN
Inventors: 刘志斌; 施明强; 方俊炜; 刘日佳
Original assignee: Credit Life Guangzhou Intelligent Technology Co ltd
Current assignee: Credit Life Guangzhou Intelligent Technology Co ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-30

Abstract

本发明实施例涉及风险管控技术领域，公开了一种融合多维相似度与规则集合的地址模糊匹配方法及系统，该方法包括：基于标准地址库预处理标准地址得到待匹配信息，提取待匹配信息的地址特征，基于待匹配信息及地址特征，采用相似度计算模型计算第一相似度，以及，采用比对规则集合计算第二相似度，采用第二相似度调整第一相似度得到标准地址相对待匹配地址的总体相似度。本发明实施例采用比对规则集合配合相似度计算模型对标准地址进行地址模糊匹配，通过标准地址库自更新与相似度计算模型增量训练，解决对偏僻地址及未录入地址的模糊匹配问题；比对规则集合根据增量训练结果同步更新，无需人工迭代，提高了迭代效率，从而降低了系统维护成本。

Description

融合多维相似度与规则集合的地址模糊匹配方法及系统

技术领域

本发明涉及风险管控技术领域，尤其涉及一种融合多维相似度与规则集合的地址模糊匹配方法及系统。

背景技术

在金融、信贷等领域存在形形色色的欺诈行为，其中涉及地址信息的欺诈较为常见。以信用卡申请为例，客户在申请信用卡时需填写其家庭住址、单位名称、单位地址及卡寄地址等，部分客户为了申请到大额信用卡，会寻找中介机构为其包装个人信息，通过填写不实的公司信息、填写不实的卡寄地址、在地址中添加特殊字符(拼音字符、繁体字、错别字等)以及填写中介公司的联系电话应对来电审查，从而对抗银行风险控制规则，达到欺诈目的。

现有的反欺诈审查手段主要采用基于匹配规则和标椎地址库的地址模糊匹配方法，首先录入地址字符串与标准地址库，查询与分割地址字符串中的行政区划部分来过滤并缩小候选数据集，然后基于规则树与规则库进行匹配来处理地址字符串中地址要素残缺、地址歧义等问题，实现地址字符串的分词与匹配，从而得到满足要求的模糊匹配结果。

然而，上述模糊匹配方法存在以下问题，标准数据库在现实中无法对所有地址进行存储，在面对偏僻地址及未收录地址时匹配效果很差；此外，基于规则树与规则库的匹配方法，需要采用人工长期对匹配规则进行手动迭代以提升匹配效果，因而存在迭代周期长、迭代效率低下及系统维护成本高昂的缺点。

发明内容

本发明实施例公开一种融合多维相似度与规则集合的地址模糊匹配方法及系统，以相似度计算模型为主，配合采用比对规则集合，对标准地址与待匹配地址进行地址模糊匹配，得到更为准确的地址相似度；通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；此外，比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了系统维护成本。

本发明实施例第一方面公开一种融合多维相似度与规则集合的地址模糊匹配方法，所述方法包括：

基于标准地址库对标准地址进行预处理，得到待匹配信息；其中，所述待匹配信息包括所述标准地址、对应于所述标准的地址详细信息及待匹配地址；

提取所述待匹配信息的地址特征；

基于所述待匹配信息及所述地址特征，采用相似度计算模型计算所述标准地址与所述待匹配地址的第一相似度；

基于所述待匹配信息及所述地址特征，采用比对规则集合计算所述标准地址与所述待匹配地址的第二相似度；

采用所述第二相似度调整所述第一相似度，得到所述标准地址相对所述待匹配地址的总体相似度。

作为一种可选的实施方式，在本发明实施例第一方面中，所述基于标准地址库对标准地址进行预处理，得到待匹配信息，包括：

提取所述标准地址中存在的地址层级字符及对应于所述地址层级字符的地址名称字符，作为所述标准地址对应的地址详细信息；

基于所述地址详细信息中包括的地址层级字符与对应的地址名称字符，采用倒排索引在所述标准地址库中检索与所述标准地址近似度最高的待匹配地址；

整合所述标准地址、所述地址详细信息及所述待匹配地址，作为所述待匹配信息。

作为一种可选的实施方式，在本发明实施例第一方面中，所述提取所述待匹配信息的地址特征，包括：

检测所述标准地址及所述待匹配地址的字符长度；

统计所述待匹配信息中若干地址名称字符的词频；

计算所述标准地址与所述待匹配地址的莱文斯坦距离；

整合所述字符长度、所述若干地址名称字符的词频及所述莱文斯坦距离，作为所述待匹配信息的地址特征。

作为一种可选的实施方式，在本发明实施例第一方面中，在所述基于标准地址库对标准地址进行预处理，得到待匹配信息之前，所述方法还包括：

获取用户提交的原始地址；

依据预设地址命名规则处理所述原始地址，得到规范地址；

提取所述规范地址的行政区划信息，基于标准地址库对所述规范地址的行政区划信息进行鉴别，筛除所述规范地址中存在的虚假地址及模糊地址，得到所述标准地址。

作为一种可选的实施方式，在本发明实施例第一方面中，所述方法还包括：

将所述标准地址及所述标准地址对应的地址详细信息与地址特征录入所述标准地址库，更新所述标准地址库；

根据更新完成的所述标准地址库对所述相似度计算模型进行增量训练；

获取所述相似度计算模型中若干地址层级字符对应的权重值更新所述比对规则集合。

本发明实施例第二方面公开一种融合多维相似度与规则集合的地址模糊匹配系统，所述系统包括：

预处理单元，用于基于标准地址库对标准地址进行预处理，得到待匹配信息；其中，所述待匹配信息包括所述标准地址、对应于所述标准的地址详细信息及待匹配地址；

特征提取单元，用于提取所述待匹配信息的地址特征；

第一匹配单元，用于基于所述待匹配信息及所述地址特征，采用相似度计算模型计算所述标准地址与所述待匹配地址的第一相似度；

第二匹配单元，用于基于所述待匹配信息及所述地址特征，采用比对规则集合计算所述标准地址与所述待匹配地址的第二相似度；

匹配调整单元，用于采用所述第二相似度调整所述第一相似度，得到所述标准地址相对所述待匹配地址的总体相似度。

作为一种可选的实施方式，在本发明实施例第二方面中，所述预处理单元包括：

信息提取子单元，用于提取所述标准地址中存在的地址层级字符及对应于所述地址层级字符的地址名称字符，作为所述标准地址对应的地址详细信息；

地址检索子单元，用于基于所述地址详细信息中包括的地址层级字符与对应的地址名称字符，采用倒排索引在所述标准地址库中检索与所述标准地址近似度最高的待匹配地址；

整合子单元，用于整合所述标准地址、所述地址详细信息及所述待匹配地址，作为所述待匹配信息。

作为一种可选的实施方式，在本发明实施例第二方面中，所述特征提取单元包括：

长度检测子单元，用于检测所述标准地址及所述待匹配地址的字符长度；

词频统计子单元，用于统计所述待匹配信息中若干地址名称字符的词频；

距离计算子单元，用于计算所述标准地址与所述待匹配地址的莱文斯坦距离；

特征整合子单元，用于整合所述字符长度、所述若干地址名称字符的词频及所述莱文斯坦距离，作为所述待匹配信息的地址特征。

作为一种可选的实施方式，在本发明实施例第二方面中，所述系统还包括：

地址获取单元，用于在所述预处理单元基于标准地址库对标准地址进行预处理，得到待匹配信息之前，获取用户提交的原始地址；

规范化单元，用于依据预设地址命名规则处理所述原始地址，得到规范地址；

标准化单元，用于提取所述规范地址的行政区划信息，基于标准地址库对所述规范地址的行政区划信息进行鉴别，筛除所述规范地址中存在的虚假地址及模糊地址，得到所述标准地址。

地址库更新单元，用于将所述标准地址及所述标准地址对应的地址详细信息与地址特征录入所述标准地址库，更新所述标准地址库；

增量训练单元，用于根据更新完成的所述标准地址库对所述相似度计算模型进行增量训练；

规则更新单元，用于获取所述相似度计算模型中若干地址层级字符对应的权重值更新所述比对规则集合。

本发明实施例第三方面公开一种融合多维相似度与规则集合的地址模糊匹配系统，包括：

存储有可执行程序代码的存储器；

与所述存储器耦合的处理器；

所述处理器调用所述存储器中存储的所述可执行程序代码，执行本发明实施例第一方面公开的一种融合多维相似度与规则集合的地址模糊匹配方法。

本发明实施例第四方面公开一种计算机可读存储介质，其存储计算机程序，其中，所述计算机程序使得计算机执行本发明实施例第一方面公开的一种融合多维相似度与规则集合的地址模糊匹配方法。

本发明实施例第五方面公开一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

本发明实施例第六方面公开一种应用发布平台，所述应用发布平台用于发布计算机程序产品，其中，当所述计算机程序产品在计算机上运行时，使得所述计算机执行第一方面的任意一种方法的部分或全部步骤。

与现有技术相比，本发明实施例具有以下有益效果：

本发明实施例中，以相似度计算模型为主，配合采用比对规则集合，对标准地址与待匹配地址进行地址模糊匹配，得到更为准确的地址相似度；通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；此外，比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了系统维护成本。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例公开的一种融合多维相似度与规则集合的地址模糊匹配方法的流程示意图；

图2是本发明实施例公开的一种融合多维相似度与规则集合的地址模糊匹配系统的结构示意图；

图3是本发明实施例公开的另一种融合多维相似度与规则集合的地址模糊匹配系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”“第四”等是用于区别不同的对象，而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

本发明实施例公开了一种融合多维相似度与规则集合的地址模糊匹配方法及系统，可对偏僻地址及未收录地址有效进行模糊匹配，此外，相似度计算模型基于新收录的地址数据进行自主学习并更新比对规则集合，取代了手动迭代的工作，实现了地址匹配效果的动态提升，提升了迭代效率，降低了运维成本。以下结合附图进行详细描述。

实施例一

请参阅图1，图1是本发明实施例公开的一种融合多维相似度与规则集合的地址模糊匹配方法的流程示意图。如图1所示，该融合多维相似度与规则集合的地址模糊匹配方法可以包括以下步骤。

101、基于标准地址库对标准地址进行预处理，得到待匹配信息。

本发明实施例中，标准地址是指省市区等各地址层级名称字符完整且准确的地址，而用户提交的原始地址存在不规范现象(地址中存在拼音字符/英文字符/繁体字/错别字/重复字符等)，需要对原始地址进行规范处理。

作为一种可选的实施方式，获取用户提交的原始地址；依据预设地址命名规则处理原始地址，得到规范地址；提取规范地址的行政区划信息，基于标准地址库对规范地址的行政区划信息进行鉴别，筛除规范地址中存在的虚假地址及模糊地址，得到标准地址。具体地，获取用户在办理业务时所提交的原始地址，依次对原始地址进行以下规范化操作：a、繁体字符转为简体字符，以使中文字符格式统一；b、将用以表示数字的中文/英文字符转为阿拉伯数字，以使数字字符格式统一，例如将“二栋一层”转为“2栋1层”；c、去重，部分应用软件具有自动填写的功能，可根据定位信息自动填写当前省市区等概略的地理位置信息，用户在未曾注意的情况下可能对自动填写的地理位置信息重复填写，从而需要对原始地址中重复的字符进行去重；……。上述规范化操作可根据业务需求灵活组合，且操作顺序可任意调换，例如在具备齐全的地址数据的情况下，可在规范化过程中依据地址数据对原始地址进行错别字修改；而在需要降低处理负荷时，可通过删去停词(停词指省、市、区、街道及道路等地址层级字符)对原始地址进行精简，以减少数据量，降低处理负荷。上述规范化流程可将原始地址处理为格式统一的规范化地址，进而提取规范化地址中的行政区划信息，并在标准地址库中根据提取到的行政区划信息进行检索鉴别，如提取得到以下字行政区划信息：“广东省广州市南山区”，基于标准地址库鉴别得到广东省广州市中并不存在南山区，故“广东省广州市南山区”为虚假地址，在此进行筛除；此外，若提取得到的行政区划信息缺乏省市区之外的详细地址信息，则将其判定为模糊地址，在此亦进行筛除。在对原始地址进行规范化与标准化之后所留存的地址信息，即为格式规范统一且内容准确的标准地址，便于后续步骤进行调用处理。

本发明实施例中，对标准地址进行预处理，以获得待匹配信息进行模糊比对，待匹配信息包括标准地址、对应于标准的地址详细信息及待匹配地址。

作为一种可选的实施方式，提取标准地址中存在的地址层级字符及对应于地址层级字符的地址名称字符，作为标准地址对应的地址详细信息；基于地址详细信息中包括的地址层级字符与对应的地址名称字符，采用倒排索引在标准地址库中检索与标准地址近似度最高的待匹配地址；整合标准地址、地址详细信息及待匹配地址，作为待匹配信息。具体地，预设有地址层级对照表如下：

在此依据地址层级对照表提取标准地址中的地址层级字符及对应于地址层级字符的地址名称字符，例如对于标准地址(广东省广州市天河区猎德新村70号2楼)，可提取到地址层级字符“省、市、区、新村、号、楼”及地址名称字符“广东、广州、天河、猎德、70、2”，以及在标准地址库中查找标准地址所对应的经纬度信息，将上述信息作为该标准地址的地址详细信息，再基于地址详细信息在标准地址库中采用倒排索引进行检索，检索得到近似度最高的以下地址(广东省广州市天河区猎德新村75号3楼)作为待匹配地址，此时，整合标准地址(广东省广州市天河区猎德新村70号2楼)、待匹配地址(广东省广州市天河区猎德新村75号3楼)及地址详细信息，作为待匹配信息。可见，通过从标准地址库中获取地址详细信息及待匹配地址对标准地址进行补充扩展，可为后续进行模糊匹配提供准确且充分的比对材料。

102、提取待匹配信息的地址特征。

本发明实施例中，对待匹配信息中包括的标准地址及待匹配地址进行特征提取。

作为一种可选的实施方式，检测标准地址及待匹配地址的字符长度；统计待匹配信息中若干地址名称字符的词频；计算标准地址与待匹配地址的莱文斯坦距离；整合字符长度、若干地址名称字符的词频及莱文斯坦距离，作为待匹配信息的地址特征。具体地，对步骤101中的标准地址(广东省广州市天河区猎德新村70号2楼)及待匹配地址(广东省广州市天河区猎德新村75号3楼)进行地址特征提取，检测得到标准地址与待匹配地址的字符长度均为18，地址名称字符中“广东、广州、天河、猎德”的词频一致，标准地址及待匹配地址间的莱文斯坦距离为X，将上述字符长度、地址名称字符的词频及莱文斯坦距离整合作为待匹配信息的地址特征。

103、基于待匹配信息及地址特征，采用相似度计算模型计算标准地址与待匹配地址的第一相似度。

本发明实施例中，基于步骤101预处理得到的待匹配信息，及步骤102所提取得到的地址特征，采用预先训练得到的相似度计算模型进行计算。

作为一种可选的实施方式，基于BM25算法对标准地址库及样本地址进行训练得到相似度计算模型，样本地址可以是历史业务记录中实际存在的地址数据，包括精确到不同地址层级、缺失部分地址层级等情况的地址，以确保相似度计算模型可对各类型地址数据进行有效处理。在此，采用相似度计算模型处理待匹配信息及地址特征，首先对标准地址与待匹配地址进行笛卡尔乘积，获得若干组合项，继而独立计算每一组合项之间的相似度，再将计算得到的多个相似度进行综合核算，得到标准地址与待匹配地址的第一相似度。可见，基于相似度计算模型，可便捷对典型的标准地址进行相似度计算。

104、基于待匹配信息及所述地址特征，采用比对规则集合计算标准地址与待匹配地址的第二相似度。

本发明实施例中，比对规则集合基于专家经验进行设定，并对步骤101中地址层级对照表的每一地址层级设定不同的权重值，得到以下地址层级权重表：

作为一种可选的实施方式，比对规则集合先对标准地址与待匹配地址的前三级行政区划(省市区)进行比对，若不一致，则直接给予0分的相似度；若一致，则检测标准地址中是否包含拼音字符，若包含，则将标准地址完全转换为拼音字符，通过分词与正则匹配提取标准地址所对应拼音字符的特征并加入待匹配信息中；最后，根据待匹配信息检测标准地址与待匹配地址的字符是否完全相等，检测标准地址与待匹配地址之间是否存在包含关系，检测标准地址与待匹配地址各层级地址详细信息的相似度，检测标准地址与待匹配地址经纬度信息的相似度……，基于上述比对规则集合，以及地址层级权重表中各地址层级权重值，对标准地址与待匹配地址各层级的匹配情况进行加权计算，得到标准地址与待匹配地址的第二相似度，相比从相似度计算模型计算得到的第一相似度，由于比对规则集合是从专家经验总结得来，是从历史业务与实践数据中归纳得出的数据，因此第二相似度相比第一相似度更为直观，相对更趋近业务实际情况。

105、采用第二相似度调整第一相似度，得到标准地址相对待匹配地址的总体相似度。

本发明实施例中，相似度计算模型泛用性强、计算准确，而比对规则集合贴近实际业务情况，因此，采用比对规则集合所计算得到的第二相似度来调整相似度计算模型所计算得到的第一相似度，对第一相似度与第二相似度进行加权拟合，得到计算严谨准确且符合实际情况的总体相似度，从而可根据用户所提交业务中地址的总体相似度，来衡量该笔业务的风险程度，进行风险管控。

本发明实施例中，除了对用户所提交的数据信息进行相似度评估，还采用数据信息对相似度计算模型及比对规则集合进行自更新。

作为一种可选的实施方式，将标准地址及标准地址对应的地址详细信息与地址特征录入标准地址库，更新标准地址库；根据更新完成的标准地址库对相似度计算模型进行增量训练；获取相似度计算模型中若干地址层级字符对应的权重值更新比对规则集合。具体地，在完成相似度计算之后，对计算过程中处理得到的标准地址、标准地址对应的详细信息与地址特征录入标准地址库中，对标准地址库进行更新，从而标准地址库将持续获取在业务流程中所检测到的新的地址数据；以及，为相似度计算模型设定训练时间节点，假设每天4点～6点为业务停办时间，则设定4点为训练时间节点，在每天4点时，相似度计算模型对录入新数据的标准地址库进行增量训练；此外，增量训练完成的相似度计算模型还将输出其训练得到的最新的地址层级字符对应的权重值，对比对规则集合中地址层级权重表中的权重值进行同步更新，从而随着所处理业务数量的增长，标准地址库中所存储数据将越来越完善，同时相似度计算模型与比对规则集合的计算结果将越来越准确。可见，通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；而比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了运维成本。

可见，实施图1所描述的融合多维相似度与规则集合的地址模糊匹配方法，以相似度计算模型为主，配合采用比对规则集合，对标准地址与待匹配地址进行地址模糊匹配，得到更为准确的地址相似度；通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；此外，比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了运维成本。

实施例二

请参阅图2，图2本发明实施例公开的一种融合多维相似度与规则集合的地址模糊匹配系统的结构示意图。如图2所示，该融合多维相似度与规则集合的地址模糊匹配系统可以包括：

地址获取单元201，用于获取用户提交的原始地址；

规范化单元202，用于依据预设地址命名规则处理原始地址，得到规范地址；

标准化单元203，用于提取规范地址的行政区划信息，基于标准地址库对规范地址的行政区划信息进行鉴别，筛除规范地址中存在的虚假地址及模糊地址，得到标准地址。

预处理单元204，用于基于标准地址库对标准地址进行预处理，得到待匹配信息；其中，待匹配信息包括标准地址、对应于标准的地址详细信息及待匹配地址；

特征提取单元205，用于提取待匹配信息的地址特征；

第一匹配单元206，用于基于待匹配信息及地址特征，采用相似度计算模型计算标准地址与待匹配地址的第一相似度；

第二匹配单元207，用于基于待匹配信息及所述地址特征，采用比对规则集合计算标准地址与所述待匹配地址的第二相似度；

匹配调整单元208，用于采用第二相似度调整所述第一相似度，得到标准地址相对待匹配地址的总体相似度。

地址库更新单元209，用于将标准地址及标准地址对应的地址详细信息与地址特征录入所述标准地址库，更新标准地址库；

增量训练单元210，用于根据更新完成的标准地址库对相似度计算模型进行增量训练；

规则更新单元211，用于获取相似度计算模型中若干地址层级字符对应的权重值更新比对规则集合。

其中，预处理单元204包括：

信息提取子单元2041，用于提取标准地址中存在的地址层级字符及对应于地址层级字符的地址名称字符，作为标准地址对应的地址详细信息；

地址检索子单元2042，用于基于地址详细信息中包括的地址层级字符与对应的地址名称字符，采用倒排索引在标准地址库中检索与标准地址近似度最高的待匹配地址；

整合子单元2043，用于整合标准地址、地址详细信息及待匹配地址，作为待匹配信息。

此外，特征提取单元205还包括：

长度检测子单元2051，用于检测标准地址及待匹配地址的字符长度；

词频统计子单元2052，用于统计待匹配信息中若干地址名称字符的词频；

距离计算子单元2053，用于计算标准地址与待匹配地址的莱文斯坦距离；

特征整合子单元2054，用于整合字符长度、若干地址名称字符的词频及莱文斯坦距离，作为待匹配信息的地址特征。

作为一种可选的实施方式，地址获取单元201获取用户提交的原始地址；规范化单元202依据预设地址命名规则处理原始地址，得到规范地址；标准化单元203提取规范地址的行政区划信息，基于标准地址库对规范地址的行政区划信息进行鉴别，筛除规范地址中存在的虚假地址及模糊地址，得到标准地址。具体地，地址获取单元201获取用户在办理业务时所提交的原始地址，规范化单元202依次对原始地址进行以下规范化操作：a、繁体字符转为简体字符，以使中文字符格式统一；b、将用以表示数字的中文/英文字符转为阿拉伯数字，以使数字字符格式统一，例如将“二栋一层”转为“2栋1层”；c、去重，部分应用软件具有自动填写的功能，可根据定位信息自动填写当前省市区等概略的地理位置信息，用户在未曾注意的情况下可能对自动填写的地理位置信息重复填写，从而需要对原始地址中重复的字符进行去重；……。上述规范化操作可根据业务需求灵活组合，且操作顺序可任意调换，例如在具备齐全的地址数据的情况下，可在规范化过程中依据地址数据对原始地址进行错别字修改；而在需要降低处理负荷时，可通过删去停词(停词指省、市、区、街道及道路等地址层级字符)对原始地址进行精简，以减少数据量，降低处理负荷。上述规范化流程可将原始地址处理为格式统一的规范化地址，进而标准化单元203提取规范化地址中的行政区划信息，并在标准地址库中根据提取到的行政区划信息进行检索鉴别，如提取得到以下字行政区划信息：“广东省广州市南山区”，基于标准地址库鉴别得到广东省广州市中并不存在南山区，故“广东省广州市南山区”为虚假地址，在此进行筛除；此外，若提取得到的行政区划信息缺乏省市区之外的详细地址信息，则将其判定为模糊地址，在此亦进行筛除。在对原始地址进行规范化与标准化之后所留存的地址信息，即为格式规范统一且内容准确的标准地址，便于后续步骤进行调用处理。

作为一种可选的实施方式，信息提取子单元2041提取标准地址中存在的地址层级字符及对应于地址层级字符的地址名称字符，作为标准地址对应的地址详细信息；地址检索子单元2042基于地址详细信息中包括的地址层级字符与对应的地址名称字符，采用倒排索引在标准地址库中检索与标准地址近似度最高的待匹配地址；整合子单元2043整合标准地址、地址详细信息及待匹配地址，作为待匹配信息。具体地，预设有地址层级对照表如下：

在此信息提取子单元2041依据地址层级对照表提取标准地址中的地址层级字符及对应于地址层级字符的地址名称字符，例如对于标准地址(广东省广州市天河区猎德新村70号2楼)，信息提取子单元2041可提取到地址层级字符“省、市、区、新村、号、楼”及地址名称字符“广东、广州、天河、猎德、70、2”，以及在标准地址库中查找标准地址所对应的经纬度信息，将上述信息作为该标准地址的地址详细信息，地址检索子单元2042再基于地址详细信息在标准地址库中采用倒排索引进行检索，检索得到近似度最高的以下地址(广东省广州市天河区猎德新村75号3楼)作为待匹配地址，此时，整合子单元2043整合标准地址(广东省广州市天河区猎德新村70号2楼)、待匹配地址(广东省广州市天河区猎德新村75号3楼)及地址详细信息，作为待匹配信息。可见，通过从标准地址库中获取地址详细信息及待匹配地址对标准地址进行补充扩展，可为后续进行模糊匹配提供准确且充分的比对材料。

作为一种可选的实施方式，长度检测子单元2051检测标准地址及待匹配地址的字符长度；词频统计子单元2052统计待匹配信息中若干地址名称字符的词频；距离计算子单元2053计算标准地址与待匹配地址的莱文斯坦距离；特征整合子单元2054整合字符长度、若干地址名称字符的词频及莱文斯坦距离，作为待匹配信息的地址特征。具体地，长度检测子单元2051对标准地址(广东省广州市天河区猎德新村70号2楼)及待匹配地址(广东省广州市天河区猎德新村75号3楼)进行地址特征提取，检测得到标准地址与待匹配地址的字符长度均为18，词频统计子单元2052统计得到地址名称字符中“广东、广州、天河、猎德”的词频一致，距离计算子单元2053计算得到标准地址及待匹配地址间的莱文斯坦距离为X，特征整合子单元2054将上述字符长度、地址名称字符的词频及莱文斯坦距离整合作为待匹配信息的地址特征。

作为一种可选的实施方式，基于BM25算法对标准地址库及样本地址进行训练得到相似度计算模型，样本地址可以是历史业务记录中实际存在的地址数据，包括精确到不同地址层级、缺失部分地址层级等情况的地址，以确保相似度计算模型可对各类型地址数据进行有效处理。在此，采用相似度计算模型处理待匹配信息及地址特征，首先第一匹配单元206对标准地址与待匹配地址进行笛卡尔乘积，获得若干组合项，继而独立计算每一组合项之间的相似度，再将计算得到的多个相似度进行综合核算，得到标准地址与待匹配地址的第一相似度。可见，基于相似度计算模型，可便捷对典型的标准地址进行相似度计算。

作为一种可选的实施方式，比对规则集合基于专家经验进行设定，对地址层级对照表的每一地址层级设定不同的权重值，得到以下地址层级权重表：

作为一种可选的实施方式，比对规则集合先对标准地址与待匹配地址的前三级行政区划(省市区)进行比对，若不一致，则直接给予0分的相似度；若一致，则检测标准地址中是否包含拼音字符，若包含，则将标准地址完全转换为拼音字符，通过分词与正则匹配提取标准地址所对应拼音字符的特征并加入待匹配信息中；最后，根据待匹配信息检测标准地址与待匹配地址的字符是否完全相等，检测标准地址与待匹配地址之间是否存在包含关系，检测标准地址与待匹配地址各层级地址详细信息的相似度，检测标准地址与待匹配地址经纬度信息的相似度……，基于上述比对规则集合，以及地址层级权重表中各地址层级权重值，第二匹配单元207对标准地址与待匹配地址各层级的匹配情况进行加权计算，得到标准地址与待匹配地址的第二相似度，相比从相似度计算模型计算得到的第一相似度，由于比对规则集合是从专家经验总结得来，是从历史业务与实践数据中归纳得出的数据，因此第二相似度相比第一相似度更为直观，相对更趋近业务实际情况。

作为一种可选的实施方式，匹配调整单元208采用比对规则集合所计算得到的第二相似度来调整相似度计算模型所计算得到的第一相似度，对第一相似度与第二相似度进行加权拟合，得到计算严谨准确且符合实际情况的总体相似度，从而可根据用户所提交业务中地址的总体相似度，来衡量该笔业务的风险程度，进行风险管控。

作为一种可选的实施方式，地址库更新单元209将标准地址及标准地址对应的地址详细信息与地址特征录入标准地址库，更新标准地址库；增量训练单元210根据更新完成的标准地址库对相似度计算模型进行增量训练；规则更新单元211获取相似度计算模型中若干地址层级字符对应的权重值更新比对规则集合。具体地，在完成相似度计算之后，地址库更新单元209对计算过程中处理得到的标准地址、标准地址对应的详细信息与地址特征录入标准地址库中，对标准地址库进行更新，从而标准地址库将持续获取在业务流程中所检测到的新的地址数据；以及，增量训练单元210为相似度计算模型设定训练时间节点，假设每天4点～6点为业务停办时间，则设定4点为训练时间节点，在每天4点时，相似度计算模型对录入新数据的标准地址库进行增量训练；此外，增量训练完成的相似度计算模型还将输出其训练得到的最新的地址层级字符对应的权重值，规则更新单元211对比对规则集合中地址层级权重表中的权重值进行同步更新，从而随着所处理业务数量的增长，标准地址库中所存储数据将越来越完善，同时相似度计算模型与比对规则集合的计算结果将越来越准确。可见，通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；而比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了运维成本

可见，实施图2所描述的融合多维相似度与规则集合的地址模糊匹配系统，以相似度计算模型为主，配合采用比对规则集合，对标准地址与待匹配地址进行地址模糊匹配，得到更为准确的地址相似度；通过标准地址库的自更新与相似度计算模型的增量训练，解决了难以对偏僻地址及未录入地址进行模糊匹配的问题；此外，比对规则集合根据相似度计算模型的增量训练结果进行同步更新，无需人工介入进行手动迭代，即可实时更新比对规则，提高了迭代效率，缩短了迭代周期，从而降低了运维成本。

实施例三

请参阅图3，图3是本发明实施例公开的另一种融合多维相似度与规则集合的地址模糊匹配系统的结构示意图。如图3所示，该融合多维相似度与规则集合的地址模糊匹配系统可以包括：

存储有可执行程序代码的存储器301；

与存储器301耦合的处理器302；

其中，处理器302调用存储器301中存储的可执行程序代码，执行图1的一种融合多维相似度与规则集合的地址模糊匹配方法。

本发明实施例公开一种计算机可读存储介质，其存储计算机程序，其中，该计算机程序使得计算机执行图1的一种融合多维相似度与规则集合的地址模糊匹配方法。

本发明实施例还公开一种计算机程序产品，其中，当计算机程序产品在计算机上运行时，使得计算机执行如以上各方法实施例中的方法的部分或全部步骤。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质包括只读存储器(Read-Only Memory，ROM)、随机存储器(Random Access Memory，RAM)、可编程只读存储器(Programmable Read-only Memory，PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory，EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory，OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

以上对本发明实施例公开的一种融合多维相似度与规则集合的地址模糊匹配方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种融合多维相似度与规则集合的地址模糊匹配方法，其特征在于，所述方法包括：

提取所述待匹配信息的地址特征；

2.根据权利要求1所述的方法，其特征在于，所述基于标准地址库对标准地址进行预处理，得到待匹配信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述提取所述待匹配信息的地址特征，包括：

检测所述标准地址及所述待匹配地址的字符长度；

统计所述待匹配信息中若干地址名称字符的词频；

计算所述标准地址与所述待匹配地址的莱文斯坦距离；

4.根据权利要求1所述的方法，其特征在于，在所述基于标准地址库对标准地址进行预处理，得到待匹配信息之前，所述方法还包括：

获取用户提交的原始地址；

依据预设地址命名规则处理所述原始地址，得到规范地址；

5.根据权利要求1～4任一项所述的方法，其特征在于，所述方法还包括：

6.一种融合多维相似度与规则集合的地址模糊匹配系统，其特征在于，所述系统包括：

特征提取单元，用于提取所述待匹配信息的地址特征；

7.根据权利要求6所述的系统，其特征在于，所述预处理单元包括：

8.根据权利要求7所述的系统，其特征在于，所述特征提取单元包括：

9.根据权利要求6所述的系统，其特征在于，所述系统还包括：

10.根据权利要求6～9任一项所述的系统，其特征在于，所述系统还包括：