CN114328808A

CN114328808A - 地址模糊匹配方法、地址处理方法、装置和电子设备

Info

Publication number: CN114328808A
Application number: CN202110990534.3A
Authority: CN
Inventors: 武燕; 崔峰; 宋明惠
Original assignee: Sino Credit Information Technology Beijing Co ltd
Current assignee: Sino Credit Information Technology Beijing Co ltd
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2022-04-12

Abstract

本申请涉及一种地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备。该地址模糊匹配方法包括：对待处理的地址文本进行切词；对切词后的地址文本进行地址标准化处理；以及，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。这样，通过基于规则来对分词模糊匹配技术进行优化，可以实现金融领域地址匹配中的较高的准确率。

Description

地址模糊匹配方法、地址处理方法、装置和电子设备

技术领域

本申请涉及文本处理技术领域，更为具体地说，涉及一种地址模糊匹配方法、用于金融反欺诈的地址处理方法、装置和电子设备。

背景技术

随着科学技术的不断发展进步，各种欺诈手段和方式也层出不穷，特别是在金融领域，因各种诈骗手段损失的资金高达数十亿。为了减少损失，需要从众多申请者中识别出欺诈分子。如何识别各种欺诈分子，则需要对欺诈手段的特点进行分析。

在金融领域中，欺诈分子大多会用相同或相似的手机号码、地址、名称等进行团伙式的贷款业务申请，贷款审批人员通过人工很难在众多申请中识别出伪造或是重复使用同一信息的申请。所以，这就需要借助于一种技术，制定一些规则，收集一些数据来识别出团伙欺诈分子的申请，这种方法就是金融反欺诈领域的模糊匹配，最重要的是地址模糊匹配，将“伪装”的团伙地址遁于无形。

因此，期望提供一种能够识别非结构化地址信息，并且针对金融反欺诈场景具有较好的识别作用的地址模糊匹配方法和地址处理方法。

发明内容

为了解决上述技术问题，提出了本申请。本申请的实施例提供了一种地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备，其通过基于规则来对分词模糊匹配技术进行优化，实现了金融领域地址匹配中的较高的准确率。

根据本申请的一方面，提供了一种地址模糊匹配方法，包括：对待处理的地址文本进行切词；对切词后的地址文本进行地址标准化处理；以及，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。

在上述地址模糊匹配方法中，对待处理的地址文本进行切词包括：按照标准地址结构对待处理的地址文本进行切词，所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。

在上述地址模糊匹配方法中，对待处理的地址文本进行切词包括：使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。

在上述地址模糊匹配方法中，对切词后的地址文本进行地址标准化处理包括：对切词后的地址文本基于词库来标注属于行政区划的地址要素；以及，对于未能基于词库来进行标注的地址文本，使用预测算法来预测属于行政区划的地址要素的概率。

在上述地址模糊匹配方法中，对切词后的地址文本进行地址标准化处理进一步包括：通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐；和/或，对属于详细地址的小区地址要素进行细化处理。

在上述地址模糊匹配方法中，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括：对待比较的经过标准化处理的两个地址文本进行分段；设置每个分段的相应权重；计算两个地址文本的每两个对应分段之间的编辑距离；以及，计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。

在上述地址模糊匹配方法中，所述地址文本的分段处理包括：行政区划的四个地址要素为0段，其中省地址要素为1段，市地址要素为2段，区县地址要素为3段且乡镇地址要素为4段；详细地址的街道地址要素为5段，小区地址要素为6段，且楼栋地址要素为7段。

在上述地址模糊匹配方法中，计算两个地址文本的每两个对应分段之间的编辑距离包括：步骤一：比较两个地址是否完全相同，如果完全相同，则计算结束，返回相似度为1；如果不相同，则执行步骤二，判断0段地址是否相同；步骤二：判断0段地址是否相同，如果不相同，则计算结束，返回相似度为0；如果相同，则0段的相似度为1，则执行步骤三，判断5段地址是否相同；步骤三：判断5段地址是否都非空，如果5段地址一个为空或都为空，执行步骤四，计算5-7段相似度；如果5段地址都不为空，计算5段地址相似度，执行步骤五，计算5-7段相似度；步骤四：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则5段相似度为1，7段相似度为1，如果6段相似度小于0.85，则5段相似度为0，7段相似度为0；如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则5段相似度为1，6段相似度为1，如果7段相似度小于0.85，则5段相似度为0，6段相似度为0；如果7段地址一个为空或都为空，则5-7段相似度为0；步骤五：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则7段相似度为1，如果6段相似度小于0.85，则7段相似度为0；如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则6段相似度为1，如果7段相似度小于0.85，则6段相似度为0；如果7段地址一个为空或都为空，则6-7段相似度为0。

在上述地址模糊匹配方法中，设置每个分段的相应权重为0段权重是0.2，5段权重是0.3，6段权重是0.3且7段权重是0.2。

根据本申请的另一方面，提供了一种用于金融反欺诈的地址处理方法，包括：使用如上所述的地址模糊匹配方法确定多个用户的地址相似度；以及，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。

在上述用于金融反欺诈的地址处理方法中，进一步包括：在对切词后的地址文本进行地址标准化处理之后，确定所述标准化的地址文本是否存在套叠地址，所述套叠地址包括省份套叠、城市套叠和区县套叠；以及，响应于所述标准化的地址文本存在套叠地址，将位置在前面的地址信息以位置在后面的地址信息进行替换。

在上述用于金融反欺诈的地址处理方法中，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：计算一组两个用户之间的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第一阈值，确定为同一地址。

在上述用于金融反欺诈的地址处理方法中，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：计算一组多个用户之间的每两个用户的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第二阈值，确定该组用户的地址为同一地址。

根据本申请的再一方面，提供了一种地址模糊匹配装置，包括：切词单元，用于对待处理的地址文本进行切词；标准化单元，用于对切词后的地址文本进行地址标准化处理；以及，计算单元，用于通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。

根据本申请的又一方面，提供了一种用于金融反欺诈的地址处理装置，包括：相似度确定单元，使用如上所述的地址模糊匹配装置确定多个用户的地址相似度；以及，金融欺诈确定单元，用于基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。

根据本申请的再一方面，提供了一种电子设备，包括：处理器；以及，存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在所述处理器运行时使得所述处理器执行如上所述的地址模糊匹配方法或者如上所述的用于金融反欺诈的地址处理方法。

根据本申请的又一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，当所述计算机程序指令被计算装置执行时，可操作来执行如上所述的地址模糊匹配方法或者如上所述的用于金融反欺诈的地址处理方法。

本申请提供的地址模糊匹配方法和用于金融反欺诈的地址处理方法、装置和电子设备，通过基于规则来对分词模糊匹配技术进行优化，实现了金融领域地址匹配中的较高的准确率。

另外，本申请提供的用于金融反欺诈的地址处理方法还可以识别出金融反欺诈领域中需要识别出的地址套叠、多地址指向相同等情况，可以有效地提高欺诈识别率。

附图说明

通过阅读下文优选的具体实施方式中的详细描述，本申请各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的，而并不认为是对本申请的限制。显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。而且在整个附图中，用相同的附图标记表示相同的部件。

图1图示了根据本申请实施例的地址模糊匹配方法的流程图；

图2图示了根据本申请实施例的地址模糊匹配方法中的标准地址结构的示意图；

图3图示了根据本申请实施例的地址模糊匹配方法中的地址相似度的示意性计算例程；

图4图示了根据本申请实施例的用于金融反欺诈的地址处理方法的流程图；

图5图示了根据本申请实施例的用于金融反欺诈的地址处理方法的示意图；

图6图示了根据本申请实施例的地址模糊匹配装置的框图；

图7图示了根据本申请实施例的用于金融反欺诈的地址处理装置的框图；

图8图示了根据本申请实施例的电子设备的框图。

具体实施方式

下面，将参考附图详细地描述根据本申请的示例实施例。显然，所描述的实施例仅仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

模糊匹配指的是通常用于文本、字符、数字、语义、关键字等的匹配，并且，由于地址区别于其他文本的特殊性，所以在匹配中会存在很大的不准确性。

目前，已经存在一些用于地址模糊匹配的技术。例如，在陈细谦,迟忠先,金妮的《城市地理编码系统应用与研究》论文中，提出了地址标准化，其是利用地址错误模型和使用有穷自动机和动态规划算法实现数据的规范化。但是，由于标准化存在工作繁重、无法穷举所有错误的情况等特点，降低了标准化的意义。

在孙亚夫,陈文斌的《基于分词的地址匹配技术》论文中，采用最大正向匹配算法进行分词，同时查询地址要素信息。但是，由于最大正向匹配算法在切词方面存在颗粒度较小、词典词汇较多等局限性，从而不能准确切分中文地址。

在张铁燕,翁敬农,黄坚的《城市地理编码方法的探索与实践》论文中，采用最大逆向匹配算法进行分词。但是，最大逆向匹配算法虽然与最大正向匹配算法相比有了一些改进，但是切词时仍存在较大误差。

在程昌秀,于滨的《一种基于规则的模糊中文地址分词匹配方法》论文中，采用了基于规则的模糊中文匹配方法，用最大正向匹配算法进行地址分词的同时，在标准地址库中进行地址匹配。并且，通过对每次分词时对标准地址库的搜索，并实时参照地址匹配规则树，达到不断缩小目标数据集的目的，最终当满足规则库中某一规则时，终止算法，返回目标数据集，完成匹配。该论文中改进了对标准地址库的检索算法，提高了准确性，但依然存在最大正向匹配算法的局限性问题。

针对以上问题，根据本申请实施例的地址模糊匹配方法通过基于规则来对分词模糊匹配技术进行优化，实现了金融领域地址匹配中的较高的准确率。另外，当应用根据本申请实施例的地址处理方法时，可以识别出金融反欺诈领域中需要识别出的地址套叠、多地址指向相同等情况，可以有效地提高欺诈识别率。

下面，将详细说明根据本申请实施例的示例性方法。

示例性方法一

图1图示了根据本申请实施例的地址模糊匹配方法的流程图。

如图1所示，根据本申请实施例的地址模糊匹配方法包括如下步骤。

步骤S110，对待处理的地址文本进行切词。这里，切词指的是通过某种中文切词算法将地址分解成多个最小单位的词。具体地，在本申请实施例中，采用基于词库的双向最大匹配算法进行地址切割。

根据百度百科中对中国大部分地区的中文地址的划分，一般分为行政区划和详细地址，行政区划通常包括省、市、区(县)、乡(镇)、村五个地址要素，而详细地址则包括街道、街区、楼宇、单元、楼层、门牌号、房间号、其他信息这八个地址要素。其中，一个地址要素又由名称和标识符组成，例如，地址要素“双花园小区”中，“双花园”是名称，“小区”是标识符。

金融业地址的主要用途有两个：其一是需要了解客户的居住和工作地的详细情况，特别是信贷类客户，可能会涉及信贷资质的审核，所以地址一般相对完整和标准；其二是对于需要邮寄账单的业务时，需要有一个详细而准确的地址，以方便账单及时送到。所以基于上述两类用途，金融业的地址大多是详细而准确的，但是金融黑产分子正是了解了这些，才想出伪造地址、地址套叠、多地址指向等手段，蒙骗银行审核人员。

因此，根据上述的中文地址的划分方式，结合金融业的地址特点，在本申请实施例中采用一套标准地址的数据结构，如图2所示。这里，图2图示了根据本申请实施例的地址模糊匹配方法中的标准地址结构的示意图。

因此，在根据本申请实施例的地址模糊匹配方法中，对待处理的地址文本进行切词包括：按照标准地址结构对待处理的地址文本进行切词，所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。

也就是，在根据本申请实施例的地址模糊匹配方法中，相对于如上所述的标准行政区划的地址要素划分，根据本申请实施例的标准地址结构在其基础上进行了合并。这是因为经过实际案例数据验证，更细分的行政区划对于黑产手段的识别没有更好的效果，反而会产生更大的误判率。

这样，基于如上所述的标准地址结构，可以使用匹配算法来进行切词。例如，匹配算法可以是正向最大匹配算法、逆向最大匹配算法、双向最大匹配算法等。在本申请实施例中，经过验证，双向最大匹配算法的效果最好。

例如，以下是金融地址的双向最大匹配结果：

1.原地址：安徽省合肥市蜀山区安徽省合肥市蜀山区蜀山新产业园区甘泉路81号沃野花园4栋402

双向最大匹配结果：安徽省|合肥市|蜀山区|蜀山新产业园区|甘泉路81号|沃野花园|4-402

2.原地址：四川省成都市青羊区四川省成都市青羊区东坡街道苏坡西路39号乐摩筑

双向最大匹配结果：四川省|成都市|青羊区|东坡街道办事处|苏坡西路39号|乐摩筑

3.原地址：安徽省合肥市肥西县安徽省合肥市肥西县桃花镇信地华地城3号楼1204号

双向最大匹配结果：安徽省|合肥市|肥西县|桃花镇|——|信地华地城|3-1204号

因此，在根据本申请实施例的地址模糊匹配方法中，对待处理的地址文本进行切词包括：使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。

步骤S120，对切词后的地址文本进行地址标准化处理。这里，地址标准化处理指的是通过更改格式、纠正拼写、去除异常字符等方法对地址文本进行规范化处理。

具体地，通过完善行政区划词库，大约有90％左右的地址都可以通过词库来完成省、市、区/县、乡/镇/街道等的标准化处理。而剩下的10％左右，可以通过对行内数据的分析，利用隐马尔科夫模型(HMM)算法、决策树等算法预测其划分的概率。也就是，这也可以被称为地址文本的归并，这里，归并指的是将切出的最小单位的词在标准地址分类库中匹配相应的类型，

因此，在根据本申请实施例的地址模糊匹配方法中，对切词后的地址文本进行地址标准化处理包括：对切词后的地址文本基于词库来标注属于行政区划的地址要素；以及，对于未能基于词库来进行标注的地址文本，使用预测算法来预测属于行政区划的地址要素的概率。

另外，针对于行政区划，根据本申请实施例的地址标准化处理还包括地址要素的补齐。例如，可以采用树形查找算法进行遍历查找，也就是，在地址切割过程中，对于省市区缺失的信息，通过从树的叶子节点向父节点查找，从一个叶子节点出发最终找到唯一一条通向根节点的路径，这条路径便确立了省市区县的地址要素的补齐逻辑。

而对于街/路/居委会(村委会)一级，由于在金融欺诈特点中，重要性较为弱化，因此对于这一级地址可以不做处理。

最后，对于小区/商圈/大厦等一级，在金融欺诈特点中较为重要，所以，在本申请实施例中，可以对这一级地址进行细化处理。具体地，可以将带有小区标识或者小区名称的名词进行单独切分处理，如果比较两个地址的差异性的话，这里就采用到了相似度算法，如果需要标准化处理，则可以对小区名称中的异常字符，不规范书写、拼写错误等内容进行标准化处理。

因此，在根据本申请实施例的地址模糊匹配方法中，对切词后的地址文本进行地址标准化处理进一步包括：通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐；和/或对属于详细地址的小区地址要素进行细化处理。

步骤S130，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。

针对金融黑产在地址伪造中的特点，在本申请实施例中，提出了基于地址分段规则的相似度算法来进行地址的模糊匹配，该算法的核心算法是将两个地址分段后再计算每段地址之间的编辑距离，对每段地址设置相应的权重，最终将各段地址编辑距离与权重乘积之和作为这两个地址的相似度。这是因为如果直接计算两个地址的编辑距离，则会造成两个地址由于书写顺序的不同导致计算出来的相似度与实际相差较大。

因此，在根据本申请实施例的地址模糊匹配方法中，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括：对待比较的经过标准化处理的两个地址文本进行分段；设置每个分段的相应权重；计算两个地址文本的每两个对应分段之间的编辑距离；以及，计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。

具体地，首先，依据上述的地址分段逻辑，分别对地址段进行标号，具体标号逻辑如下：

0段：省(1段)、市(2段)、区/县(3段)、街道(4段)；

5段：街/路/居委会(村委会)；

6段：小区；

7段：楼栋信息。

本申请的申请人通过对金融欺诈的了解，熟知黑产在利用这些地址段信息时的特点，因此这些地址段需要根据黑产的不同表现，对其进行处理。其中，省市区县是最重要的信息，且小区是最重要的信息之一。

基于这样两个条件，根据本申请实施例的相似度的计算流程如图3所示。这里，图3图示了根据本申请实施例的地址模糊匹配方法中的地址相似度的示意性计算例程。具体地：

步骤一：比较两个地址是否完全相同，如果完全相同，则计算结束，返回相似度为1；如果不相同，则执行步骤二，判断0段地址是否相同；

步骤二：判断0段地址是否相同，如果不相同，则计算结束，返回相似度为0；如果相同，则0段的相似度为1，则执行步骤三，判断5段地址是否相同；

步骤三：判断5段地址是否都非空，如果5段地址一个为空或都为空，执行步骤四，计算5-7段相似度；如果5段地址都不为空，计算5段地址相似度，执行步骤五，计算5-7段相似度；

步骤四：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则5段相似度为1，7段相似度为1，如果6段相似度小于0.85，则5段相似度为0，7段相似度为0；

如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则5段相似度为1，6段相似度为1，如果7段相似度小于0.85，则5段相似度为0，6段相似度为0；如果7段地址一个为空或都为空，则5-7段相似度为0；

步骤五：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则7段相似度为1，如果6段相似度小于0.85，则7段相似度为0；

如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则6段相似度为1，如果7段相似度小于0.85，则6段相似度为0；如果7段地址一个为空或都为空，则6-7段相似度为0；

另外，在一个示例中，各个段的权重可以设置如下：

0段权重1：0.2；

5段权重2：0.3；

6段权重3：0.3；

7段权重4：0.2。

相应地，两个地址的总相似度可以计算为：相似度＝0段地址相似度*权重1+5段地址相似度*权重2+6段地址相似度*权重3+7段地址相似度*权重4。

另外，针对地址之间的相似度，可以对地址文本进行分团匹配。这里，分团匹配指的是基于一定规则的相似度算法，将匹配的地址分配相同的团号，以用于标识地址。这将在以下进一步详细说明。

示例性方法二

图4图示了根据本申请实施例的用于金融反欺诈的地址处理方法的流程图。

这里，如上所述，在金融领域反欺诈应用中，欺诈分子的手段较多，利用地址信息作案就是黑产的主要手段之一。因此，对于地址信息，针对黑产在不同领域，不用场景下的套用，可以采用如上所述的地址模糊匹配方法来处理和识别。

如图4所示，根据本申请实施例的用于金融反欺诈的地址处理方法包括如下步骤。

步骤S210，使用如上所述的地址模糊匹配方法确定多个用户的地址相似度；以及，步骤S220，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。

另外，在根据本申请实施例的用于金融反欺诈的地址处理方法中，还考虑了地址套叠情况。这里，地址套叠通常是指在金融领域，比如信用卡申请业务中，申请地址中的省市区县位置套叠了两个地址。一般情况下，在信用卡业务领域，银行根据自身的风险偏好和政策制度，会有个别城市不在发卡区域内。通常，非发卡区正是欺诈分子频繁做案的地方，欺诈分子为了避开这些政策制度，利用地址套叠的方式通过银行发卡区规则检测，进一步对银行进行欺诈。为识别这种地址套叠的行为，在根据本申请实施例的用于金融反欺诈的地址处理方法中，采用地址标准化和向前替换的技术。

首先，说明套叠地址的几个主要特征：

1.省份套叠是指只有省份位置套叠了两个省份，其他位置的信息都是真实的信息，不过这种情况较少。一般非发卡区限制到城市。

举例1	套叠地址	北京北京市天津市河东区海河东路218号
			举例2	套叠地址	河北省天津市河东区海河东路209号
举例3	套叠地址	广东省福建省福州市鼓楼区东街2号

2.城市套叠是指只有城市位置或者省份和城市位置存在套叠两个省市，这种情况较为常见，是主要识别的类型之一。

举例1	套叠地址	辽宁锦州市葫芦岛市兴城市铁西路33号
			举例2	套叠地址	辽宁葫芦岛市锦州市阜蒙县民族路47号
举例3	套叠地址	辽宁沈阳市沈河区阜新市细河区兴园路91-2号

3.区县套叠是指只有区县或者省份、城市和区县位置都存在两个省市区县，这种情况最为常见，也是主要识别的类型之一。

举例1	套叠地址	辽宁锦州市凌海市葫芦岛市连山区中百批发市场烟市11号门市1-1
			举例2	套叠地址	辽宁沈阳市苏家屯区葫芦岛市连山区站前街红星路14_3
举例3	套叠地址	辽宁沈阳市苏家屯区葫芦岛市连山区渤海街2段25_2号楼1单元102室

针对以上套叠地址的特征，在本申请实施例中，验证了处理方式对于处理准确率的提升和对欺诈识别的效果。

1.省份套叠：在地址信息进行切词和标准化之后，本申请的申请人基于对欺诈黑产手段的了解，将前面地址的省份信息用后面地址的省份信息替换，这样处理后，替换的准确率可达到99.9％以上，通过该种方式识别出的欺诈分子的准确率大概有70％多。

2.城市套叠：通过对地址信息进行切词和标准化之后，本申请的申请人基于对欺诈黑产手段的了解，将前面地址的城市信息用后面地址的城市信息替换，这样处理后，替换的准确率可达到99％以上，通过该种方式识别出的欺诈分子的准确率大概有80％多。

3.区县套叠：通过对地址信息进行切词和标准化之后，本申请的申请人基于对欺诈黑产手段的了解，将前面地址的省市区县信息用后面地址的省市区县信息替换，这样处理后，替换的准确率可达到98％以上，通过该种方式识别出的欺诈分子的准确率大概有90％多。

最后，将该方法与现有方法比较，可以看到其增益效果。实际测试情况如下：

根据本申请实施例，该测试验证采用代码方式验证和系统方式验证相结合，根据金融机构实际数据情况，抽样选择10000条地址信息，其中包括省份套叠1000条，城市套叠3000条，区县套叠6000条，分别对套叠地址进行处理后测试其准确性。

对上述10000条地址进行切词、标准化和替换处理后，手工核对处理后的地址信息的准确性，并通过欺诈样本验证抓取欺诈的有效性，验证结果如下：

分类	测试数据量	有效数据	逻辑准确	准确率	欺诈率(欺诈中地址套叠引发的)
						省份套叠	1000条	993条	993条	100.00％	1％
城市套叠	3000条	2989条	2981条	99.73％	5％
						区县套叠	6000条	5970条	5930条	99.33％	9％

这里，如果不使用根据本申请实施例的用于金融反欺诈的地址处理方法中的套叠地址处理，则上述欺诈是无法被识别出来的，故根据本申请实施例的用于金融反欺诈的地址处理方法中的套叠地址处理在欺诈识别方面的增益即为列表中的欺诈率情况。

因此，在根据本申请实施例的用于金融反欺诈的地址处理方法中，进一步包括：在对切词后的地址文本进行地址标准化处理之后，确定所述标准化的地址文本是否存在套叠地址，所述套叠地址包括省份套叠、城市套叠和区县套叠；以及响应于所述标准化的地址文本存在套叠地址，将位置在前面的地址信息以位置在后面的地址信息进行替换。

另外，如上所述，通过使用根据本申请实施例的地址模糊匹配方法，可以用于多地址指向相同的金融反欺诈应用场景。

这里，多地址指向相同是指多个地址的不同写法指向相同的地址。对于多地址指向相同也是金融欺诈分子的常用的手段之一。在金融领域信贷业务申请中，需要客户填写自己的家庭地址、公司地址、邮寄地址等信息，欺诈分子特别是团伙欺诈，往往会使用同一地址变换不同的写法来规避金融机构同地址规则。目前还没有一种很好的方法能够识别多地址指向相同的情况，因此在根据本申请实施例的用于金融反欺诈的地址处理方法中，提出基于地址相似度的算法识别多地址指向相同的欺诈行为。

这里，地址相似度的计算可以包括两两地址相似度计算。也就是，通过前述相似度的算法逻辑，计算出两个地址之间的相似度，相似度的值在0-1之间，这样，可以基于不同的应用场景，确定不同的阈值，根据实验结果得出：如果两个地址的相似度在0.85及以上的，就定义为两个地址是同一地址。

两个地址指向相同的示例如下：

另外，地址相似度的计算还可以包括两个以上地址相似度计算。也就是，对于两个以上地址判断是否指向相同，可以采用多地址相似度分团操作，即先计算两两地址相似度，根据实验结果得出：该组地址中两两地址相似度为0.8及以上的，则划分到一个团中，即这个团中的多个地址指向同一个地址。

多地址指向相同的示例如下：

同样，测试该方法的增益效果。实际测试情况如下：

在本申请实施例中，测试验证采用代码方式验证和系统方式验证相结合，根据金融机构实际数据情况，抽样选择2000个客户的近10000条地址信息，有些客户包括两条地址信息，有些客户包括两条以上的地址信息，同一个客户的多条地址信息，都是在不同时期，不同场景下填写的同一个地址。在采用切词、标准化后，计算两两地址的相似度，相似度大于等于0.8则认为是同一地址。手工核对处理后的地址信息的准确性，并通过欺诈样本验证抓取欺诈的有效性，验证结果如下：

因此，在根据本申请实施例的用于金融反欺诈的地址处理方法中，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：计算一组两个用户之间的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第一阈值，确定为同一地址。

并且，在根据本申请实施例的用于金融反欺诈的地址处理方法中，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：计算一组多个用户之间的每两个用户的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第二阈值，确定该组用户的地址为同一地址。

图5图示了根据本申请实施例的用于金融反欺诈的地址处理方法的示意图。如图5所示，在获得原地址输入之后，首先确定原地址是否有效。如果有效，则进行如上所述的切词处理和标准化处理，然后进行地址套叠的处理和多地址指向相同的处理。具体地，在地址套叠的处理中，首先通过切词+应用规则确定地址套叠的特征，然后将套叠的地址进行向前替换。而在多地址指向相同的处理时，应用相似度优化算法计算两个地址的相似度，并且应用相似度优化算法和规则来计算两个以上地址的相似度并进行分团。最后，将处理后的结果应用于金融反欺诈应用，从而识别出进行金融欺诈的用户。

示例性装置

图6图示了根据本申请实施例的地址模糊匹配装置的框图。

如图6所示，根据本申请实施例的地址模糊匹配装置300包括：切词单元310，用于对待处理的地址文本进行切词；标准化单元320，用于对切词后的地址文本进行地址标准化处理；以及，计算单元330，用于通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。

在一个示例中，在上述地址模糊匹配装置300中，所述切词单元310用于：按照标准地址结构对待处理的地址文本进行切词，所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。

在一个示例中，在上述地址模糊匹配装置300中，所述切词单元310用于：使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。

在一个示例中，在上述地址模糊匹配装置300中，所述标准化单元320用于：对切词后的地址文本基于词库来标注属于行政区划的地址要素；以及，对于未能基于词库来进行标注的地址文本，使用预测算法来预测属于行政区划的地址要素的概率。

在一个示例中，在上述地址模糊匹配装置300中，所述标准化单元320进一步用于：通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐；和/或，对属于详细地址的小区地址要素进行细化处理。

在一个示例中，在上述地址模糊匹配装置300中，所述计算单元330用于：对待比较的经过标准化处理的两个地址文本进行分段；设置每个分段的相应权重；计算两个地址文本的每两个对应分段之间的编辑距离；以及，计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。

在一个示例中，在上述地址模糊匹配装置300中，所述地址文本的分段处理包括：行政区划的四个地址要素为0段，其中省地址要素为1段，市地址要素为2段，区县地址要素为3段且乡镇地址要素为4段；详细地址的街道地址要素为5段，小区地址要素为6段，且楼栋地址要素为7段。

在一个示例中，在上述地址模糊匹配装置300中，所述计算单元330计算两个地址文本的每两个对应分段之间的编辑距离包括：步骤一：比较两个地址是否完全相同，如果完全相同，则计算结束，返回相似度为1；如果不相同，则执行步骤二，判断0段地址是否相同；步骤二：判断0段地址是否相同，如果不相同，则计算结束，返回相似度为0；如果相同，则0段的相似度为1，则执行步骤三，判断5段地址是否相同；步骤三：判断5段地址是否都非空，如果5段地址一个为空或都为空，执行步骤四，计算5-7段相似度；如果5段地址都不为空，计算5段地址相似度，执行步骤五，计算5-7段相似度；步骤四：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则5段相似度为1，7段相似度为1，如果6段相似度小于0.85，则5段相似度为0，7段相似度为0；如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则5段相似度为1，6段相似度为1，如果7段相似度小于0.85，则5段相似度为0，6段相似度为0；如果7段地址一个为空或都为空，则5-7段相似度为0；步骤五：判断6段地址是否都为空，如果6段地址都为空，则返回5-7段相似度为0；如果6段地址都不为空，计算6段地址相似度，如果6段相似度大于0.85，则7段相似度为1，如果6段相似度小于0.85，则7段相似度为0；如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则6段相似度为1，如果7段相似度小于0.85，则6段相似度为0；如果7段地址一个为空或都为空，则6-7段相似度为0。

在一个示例中，在上述地址模糊匹配装置300中，所述计算单元330设置每个分段的相应权重为0段权重是0.2，5段权重是0.3，6段权重是0.3且7段权重是0.2。

图7图示了根据本申请实施例的用于金融反欺诈的地址处理装置的框图。

如图7所示，根据本申请实施例的用于金融反欺诈的地址处理装置400包括：相似度确定单元410，使用如上所述的地址模糊匹配装置300确定多个用户的地址相似度；以及，金融欺诈确定单元420，用于基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。

在一个示例中，在上述用于金融反欺诈的地址处理装置400中，进一步包括：套叠处理单元，用于在对切词后的地址文本进行地址标准化处理之后，确定所述标准化的地址文本是否存在套叠地址，所述套叠地址包括省份套叠、城市套叠和区县套叠；以及，响应于所述标准化的地址文本存在套叠地址，将位置在前面的地址信息以位置在后面的地址信息进行替换。

在一个示例中，在上述用于金融反欺诈的地址处理装置400中，所述金融欺诈确定单元420用于：计算一组两个用户之间的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第一阈值，确定为同一地址。

在一个示例中，在上述用于金融反欺诈的地址处理装置400中，所述金融欺诈确定单元420用于：计算一组多个用户之间的每两个用户的地址相似度；以及，响应于所述两个地址之间的相似度大于等于第二阈值，确定该组用户的地址为同一地址。

这里，本领域技术人员可以理解，上述地址模糊匹配装置300和用于金融反欺诈的地址处理装置400中的各个单元和模块的具体功能和操作已经在上面参考图1到图5描述的地址模糊匹配方法和用于金融反欺诈的地址处理方法中详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的地址模糊匹配装置300和用于金融反欺诈的地址处理装置400可以实现在各种终端设备中，例如各种金融机构的服务器中。在一个示例中，根据本申请实施例的地址模糊匹配装置300和用于金融反欺诈的地址处理装置400可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如，该地址模糊匹配装置300和用于金融反欺诈的地址处理装置400可以是该终端设备的操作系统中的一个软件模块，或者可以是针对于该终端设备所开发的一个应用程序；当然，该地址模糊匹配装置300和用于金融反欺诈的地址处理装置400同样可以是该终端设备的众多硬件模块之一。

替换地，在另一示例中，该地址模糊匹配装置300和用于金融反欺诈的地址处理装置400与该终端设备也可以是分立的设备，并且该地址模糊匹配装置300和用于金融反欺诈的地址处理装置400可以通过有线和/或无线网络连接到该终端设备，并且按照约定的数据格式来传输交互信息。

示例性电子设备

下面，参考图8来描述根据本申请实施例的电子设备。

图8图示了根据本申请实施例的电子设备的框图。

如图8所示，电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器11可以运行所述程序指令，以实现上文所述的本申请的各个实施例的地址模糊匹配方法和用于金融反欺诈的地址处理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如地址文本等各种内容。

在一个示例中，电子设备10还可以包括：输入装置13和输出装置14，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息，例如地址模糊匹配结果和金融欺诈的判定结果等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图8中仅示出了该电子设备10中与本申请有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备10还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本申请的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的地址模糊匹配方法和用于金融反欺诈的地址处理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本申请的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的地址模糊匹配方法和用于金融反欺诈的地址处理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理，但是，需要指出的是，在本申请中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

还需要指出的是，在本申请的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此，本申请不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种地址模糊匹配方法，其特征在于，包括：

对待处理的地址文本进行切词；

对切词后的地址文本进行地址标准化处理；以及

通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度。

2.如权利要求1所述的地址模糊匹配方法，其特征在于，对待处理的地址文本进行切词包括：

按照标准地址结构对待处理的地址文本进行切词，所述标准地址的数据结构包括属于行政区划的省、市、区县和乡镇四个地址要素和属于详细地址的街道、小区和楼栋三个地址要素。

3.如权利要求2所述的地址模糊匹配方法，其特征在于，对待处理的地址文本进行切词包括：

使用双向最大匹配算法按照所述标准地址结构对待处理的地址文本进行切词。

4.如权利要求2所述的地址模糊匹配方法，其特征在于，对切词后的地址文本进行地址标准化处理包括：

对切词后的地址文本基于词库来标注属于行政区划的地址要素；以及，

对于未能基于词库来进行标注的地址文本，使用预测算法来预测属于行政区划的地址要素的概率。

5.如权利要求2所述的地址模糊匹配方法，其特征在于，对切词后的地址文本进行地址标准化处理进一步包括：

通过采用树形查找算法进行遍历查找来对属于行政区划的地址要素进行补齐；和/或

对属于详细地址的小区地址要素进行细化处理。

6.如权利要求1所述的地址模糊匹配方法，其特征在于，通过基于规则的相似度算法确定经过标准化处理的地址文本的相似度包括：

对待比较的经过标准化处理的两个地址文本进行分段；

设置每个分段的相应权重；

计算两个地址文本的每两个对应分段之间的编辑距离；以及，

计算每个分段之间的编辑距离与权重的乘积之和以获得所述两个地址文本之间的相似度。

7.如权利要求6所述的地址模糊匹配方法，其特征在于，所述地址文本的分段处理包括：

行政区划的四个地址要素为0段，其中省地址要素为1段，市地址要素为2段，区县地址要素为3段且乡镇地址要素为4段；

详细地址的街道地址要素为5段，小区地址要素为6段，且楼栋地址要素为7段。

8.如权利要求7所述的地址模糊匹配方法，其特征在于，计算两个地址文本的每两个对应分段之间的编辑距离包括：

如果6段一个为空，7段地址都不为空，计算7段地址相似度，如果7段相似度大于0.85，则6段相似度为1，如果7段相似度小于0.85，则6段相似度为0；如果7段地址一个为空或都为空，则6-7段相似度为0。

9.如权利要求7所述的地址模糊匹配方法，其特征在于，设置每个分段的相应权重为0段权重是0.2，5段权重是0.3，6段权重是0.3且7段权重是0.2。

10.一种用于金融反欺诈的地址处理方法，其特征在于，包括：

使用如权利要求1-9中任意一项所述的地址模糊匹配方法确定多个用户的地址相似度；以及

基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈。

11.如权利要求10所述的用于金融反欺诈的地址处理方法中，其特征在于，进一步包括：

在对切词后的地址文本进行地址标准化处理之后，确定所述标准化的地址文本是否存在套叠地址，所述套叠地址包括省份套叠、城市套叠和区县套叠；以及

响应于所述标准化的地址文本存在套叠地址，将位置在前面的地址信息以位置在后面的地址信息进行替换。

12.如权利要求10所述的用于金融反欺诈的地址处理方法，其特征在于，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：

计算一组两个用户之间的地址相似度；以及，

响应于所述两个地址之间的相似度大于等于第一阈值，确定为同一地址。

13.如权利要求10所述的用于金融反欺诈的地址处理方法，其特征在于，基于所述多个用户的地址相似度结果判定所述多个用户是否属于金融欺诈包括：

计算一组多个用户之间的每两个用户的地址相似度；以及，

响应于所述两个地址之间的相似度大于等于第二阈值，确定该组用户的地址为同一地址。

14.一种电子设备，其特征在于，包括：

处理器；以及

存储器，在所述存储器中存储有计算机程序指令，所述计算机程序指令在所述处理器运行时使得所述处理器执行如权利要求1到9中任意一项所述的地址模糊匹配方法或者如权利要求10到13中任意一项所述的用于金融反欺诈的地址处理方法。