CN111767936A

CN111767936A - 地址相似性的检测方法和装置

Info

Publication number: CN111767936A
Application number: CN201911080703.9A
Authority: CN
Inventors: 李慧萍
Original assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2019-11-07
Filing date: 2019-11-07
Publication date: 2020-10-13

Abstract

本发明提供一种地址相似性的检测方法和装置，其中，地址相似性的检测方法包括：获取待比对的第一地址和第二地址；分别对第一地址和第二地址按字分割，获得字符集合、第一向量和第二向量；其中，字符集合包括第一地址和第二地址按字分割后的所有字符，第一向量包括字符集合中的每个字符在第一地址中出现的频次，第二向量包括字符集合中的每个字符在第二地址中出现的频次；根据第一向量和第二向量获取第一地址与第二地址的相似度。通过地址中字符出现的频次构成的向量获得地址之间的相似性，提升了地址相似性匹配的准确性。

Description

地址相似性的检测方法和装置

技术领域

本发明涉及数据处理技术领域，尤其涉及一种地址相似性的检测方法和装置。

背景技术

随着智能终端与物联网技术的发展，越来越多的用户选择通过电商平台进行购物。

在实际的业务场景中，经常需要对订单中的地址进行风险验证。目前，常用的检测方法为：根据长度为N的滑动窗口滑动获取订单地址中的字节片段，将字节片段与预设词库中的关键词进行比对，完成地址的风险验证。

但是，在进行关键词比对时，需要字节片段与关键词中的每个字完全匹配上，导致地址相似性匹配的准确率较低。

发明内容

本发明提供一种地址相似性的检测方法和装置，提升了地址相似性匹配的准确性。

第一方面，本发明提供一种地址相似性的检测方法，包括：

获取待比对的第一地址和第二地址；

分别对所述第一地址和所述第二地址按字分割，获得字符集合、第一向量和第二向量；其中，所述字符集合包括所述第一地址和所述第二地址按字分割后的所有字符，所述第一向量包括所述字符集合中的每个字符在所述第一地址中出现的频次，所述第二向量包括所述字符集合中的每个字符在所述第二地址中出现的频次；

根据所述第一向量和所述第二向量获取所述第一地址与所述第二地址的相似度。

可选的，所述获取待比对的第一地址和第二地址，包括：

获取所述第一地址以及所述第一地址的检测场景；

根据所述第一地址的检测场景获取所述第二地址。

可选的，若所述检测场景为确定所述第一地址是否为用户的常用地址，则所述第二地址包括所述用户的常用地址；

若所述检测场景为确定所述第一地址是否为非法地址，则所述第二地址包括预设黑名单地址库中的地址。

可选的，获取第一地址，包括：

获取待检测的地址，所述待检测的地址包括分级地址和非分级地址；

对所述待检测的地址进行处理以删除所述分级地址，获得所述第一地址。

可选的，所述第二地址包括非分级地址且不包括分级地址。

可选的，所述根据所述第一向量和所述第二向量获取所述第一地址与所述第二地址的相似度，包括：

根据所述第一向量和所述第二向量获取所述第一向量与所述第二向量的余弦相似度，并将所述余弦相似度确定为所述第一地址与所述第二地址的相似度；或者，

根据所述第一向量和所述第二向量获取所述第一向量与所述第二向量之间的距离，并将所述距离确定为所述第一地址与所述第二地址的相似度。

可选的，所述第一地址对应的分级地址与所述第二地址对应的分级地址相同。

第二方面，本发明提供一种地址相似性的检测装置，包括：

获取模块，用于获取待比对的第一地址和第二地址；

分字模块，用于分别对所述第一地址和所述第二地址按字分割，获得字符集合、第一向量和第二向量；其中，所述字符集合包括所述第一地址和所述第二地址按字分割后的所有字符，所述第一向量包括所述字符集合中的每个字符在所述第一地址中出现的频次，所述第二向量包括所述字符集合中的每个字符在所述第二地址中出现的频次；

比对模块，用于根据所述第一向量和所述第二向量获取所述第一地址与所述第二地址的相似度。

可选的，所述获取模块具体用于：

获取所述第一地址以及所述第一地址的检测场景；

根据所述第一地址的检测场景获取所述第二地址。

可选的，所述获取模块具体用于：

可选的，所述第二地址包括非分级地址且不包括分级地址。

可选的，所述比对模块具体用于：

第三方面，本发明提供一种地址相似性的检测装置，包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中存储的指令，以执行本发明第一方面任一实现方式提供的方法。

第四方面，本发明提供一种计算机可读存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现本发明第一方面任一实现方式提供的方法。

本发明提供一种地址相似性的检测方法和装置，通过获取待比对的第一地址和第二地址，分别对第一地址和第二地址按字分割，获得字符集合、第一向量和第二向量，根据第一向量和第二向量获取第一地址与第二地址的相似度。由于不需要根据关键词的完全匹配检测地址之间的相似性，通过地址中字符出现的频次构成的向量获得地址之间的相似性，提升了地址相似性匹配的准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的地址相似性的检测方法的流程图；

图2为本发明实施例提供的地址相似性检测的一个原理示意图；

图3为本发明实施例提供的地址相似性的检测装置的一种结构示意图；

图4为本发明实施例提供的地址相似性的检测装置的另一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例，例如能够以除了在这里图示或描述的那些以外的顺序实施。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例不再赘述。

图1为本发明实施例提供的地址相似性的检测方法的流程图。本实施例提供的地址相似性的检测方法，执行主体可以为地址相似性的检测装置。如图1所示，本实施例提供的地址相似性的检测方法，可以包括：

S101、获取待比对的第一地址和第二地址。

S102、分别对第一地址和第二地址按字分割，获得字符集合、第一向量和第二向量。

其中，字符集合包括第一地址和第二地址按字分割后的所有字符，第一向量包括字符集合中的每个字符在第一地址中出现的频次，第二向量包括字符集合中的每个字符在第二地址中出现的频次。

S103、根据第一向量和第二向量获取第一地址与第二地址的相似度。

下面通过示例进行说明。图2为本发明实施例提供的地址相似性检测的一个原理示意图。如图2所示，在该示例中，第一地址为“民治街道梅花山庄馨园小区馨园2期5栋楼下便宜店”，第二地址为“民治街道梅花山庄馨园小馨园二期5栋楼下便利店”。对第一地址按字分割，可以获得集合“民,治,街,道,梅,花,山,庄,馨,园,小,区,2,期,5,栋,楼,下,便,宜,店”。对第二地址按字分割，可以获得集合“民,治,街,道,梅,花,山,庄,馨,园,小,馨,园,二,期,5,栋,楼,下,便,利,店”。第一地址和第二地址按字分割后分别对应的集合中可以包括但不限于汉字、数字和英文字符。在本示例中，第一地址和第二地址按字分割后，可以获得字符集合“民,治,街,道,梅,花,山,庄,馨,园,小,区,二,2,期,5,栋,楼,下,便,宜,利,店”。其中，字符集合包括第一地址和第二地址按字分割后的所有字符。第一地址中不包括字符“二,利”，第二地址中不包括字符“2,宜”。统计字符集合中的每个字符分别在第一地址和第二地址中分别出现的频次。具体的，字符集合中的第1个字符为“民”，在第一地址中出现的频次为1，因此，第一向量中的第1个元素为1。字符集合中的第2个字符为“治”，在第一地址中出现的频次为1，因此，第一向量中的第2个元素为1。以此类推，获得第一向量为(1,1,1,1,1,1,1,1,2,2,1,1,0,1,1,1,1,1,1,1,1,0,1)，获得第二向量为(1,1,1,1,1,1,1,1,2,2,1,1,1,0,1,1,1,1,1,1,0,1,1)。进而，可以根据第一向量和第二向量获取第一地址与第二地址的相似度。

可见，本实施例提供的地址相似性的检测方法，通过对待比对的第一地址和第二地址按字分割，可以获得第一地址和第二地址中出现的字符的合集，统计出每个字符分别在第一地址和第二地址中出现的频次，获得第一向量和第二向量，第一向量和第二向量具有相同的维数。进而，可以根据第一向量和第二向量获得第一地址与第二地址之间的相似度。相比于现有技术中通过关键词完全比对获得地址的相似性，本实施例提供的地址相似性的检测方法，通过地址中字符出现的频次构成的向量获得地址之间的相似性，提升了地址相似性匹配的准确性。

下面，对本实施例适用的应用场景进行举例说明。

可选的，在一个应用场景中，对用户的收货地址进行安全验证。通常，一个合法用户的常用地址为相对安全且稳定的地址。通过对用户的收货地址进行验证，如果确定该收货地址为用户的常用地址，则可以确定交易安全，用户账号状态正常。如果确定该收货地址不是用户的常用地址，则该用户账号可能存在被盗号等的风险。本实施例对于如何确定用户的常用地址不做限定。例如，用户最近一段时间内购物时使用的地址超过预设次数的确定为用户的常用地址。又例如，用户标记为公司地址、家庭地址、常用地址的地址确定为用户的常用地址。

可选的，在另一个应用场景中，用户采用信用卡等透支支付方式进行购物时，对用户的收货地址进行安全验证，以确定是否存在套现风险。目前，套现用户在购物平台上购买物品后，通过将商品转售获利造成公司的资产损失，尤其是大额易套现商品，例如，手机、电脑等。通过对用户的收货地址进行验证，如果确定该收货地址为套现用户的常用地址，则可以确定存在套现风险。

可选的，在又一个应用场景中，待比对的两个地址之间存在增加字符、删除字符、修改字符或者调整字符顺序的情况。例如，在一个示例中，待比对的两个地址可以为“A省B市C城区后塘路后糖小区13楼小杜收”和“A省B市C城区后塘路塘后小区12楼小杜收”。其中，“后糖小区”与“塘后小区”的字符顺序不同。

需要说明的是，上述的应用场景只是示例，对本实施例适用的应用场景不做限定。

可选的，为了提升地址相似性检测的准确性，第一地址对应的分级地址与第二地址对应的分级地址相同。其中，分级地址是指按照预设分级规则划分的地址。比如，分级地址可以包括“一级地址(省)+二级地址(市)+三级地址(县/区)”，又比如，分级地址可以包括“一级地址(省)+二级地址(市)+三级地址(县/区)+四级地址(街道，可以为空)”。

可选的，S101中，获取第一地址，可以包括：

获取待检测的地址，待检测的地址包括分级地址和非分级地址。

对待检测的地址进行处理以删除分级地址，获得第一地址。

具体的，分级地址通常具有固定的格式。非分级地址通常为用户填写的，例如，可以包括具体的街道、门牌号等，也可能包括用户重复输入的分级地址等。通过删除待检测的地址中的分级地址，获得第一地址，可以减少在地址相似性检测过程中的计算量，提升了检测效率。

下面结合表1通过示例进行说明。

表1

在表1中，第1行示出的待检测的地址中，包括了分级地址“河北邯郸市邯山区城区”和非分级地址“光明路街道和平路光明街交叉口同仁花园4-3-9”，删除分级地址后，获得第一地址为“光明路街道和平路光明街交叉口同仁花园4-3-9”。第2、3、5、6、7行示出的示例与第1行示出的示例相似。第4行示出的待检测的地址中，包括了分级地址“河南信阳市浉河区城区”和非分级地址“师范学院南湖路237号”，并且，分级地址为重复出现。删除分级地址后，获得第一地址为“师范学院南湖路237号”。

需要说明的是，本实施例对于识别以及删除分级地址的实现方式不做限定。例如，可以采用关键字比对的方式，当确定待检测的地址中包括“省、市、县、城区、省的名称、市的名称、县的名称、城区的名称”等关键字时，删除相应的分级地址。又例如，可以采用神经网络的方式，输入待检测的地址，输出第一地址，本实施例对于神经网络的类型以及训练过程不做限定。

可选的，为了提升地址相似性检测的准确性，如果第一地址不包括分级定制，则第二地址包括非分级地址且不包括分级地址。

可选的，S101中，获取待比对的第一地址和第二地址，可以包括：

获取第一地址以及第一地址的检测场景。

根据第一地址的检测场景获取第二地址。

具体的，本实施例提供的地址相似性的检测方法，可以适用于多种检测场景，例如上述所述的三个应用场景示例，本实施例对于检测场景的设置不做限定。通过获取第一地址的检测场景，可以根据第一地址的检测场景获取第二地址，根据检测场景的不同获得第二地址，提升了获取第二地址的准确性。

可选的，在一种实现方式中，若检测场景为确定第一地址是否为用户的常用地址，则第二地址包括用户的常用地址。

举例说明。用户当前的交易订单中，收货地址为A。该用户在一年内购物交易中包括的地址以及出现的次数为：地址B出现10次，地址C出现6次，地址D出现2次。假设，将出现次数大于3次的地址确定为用户的常用地址，那么，第一地址为地址A，第二地址为地址B和地址C。

可选的，在另一种实现方式中，若检测场景为确定第一地址是否为非法地址，则第二地址包括预设黑名单地址库中的地址。

需要说明的是，本实施例对于预设黑名单地址库中的地址的数量不做限定。

可选的，在一种实现方式中，S103中，根据第一向量和第二向量获取第一地址与第二地址的相似度，可以包括：

根据第一向量和第二向量获取第一向量与第二向量的余弦相似度，并将余弦相似度确定为第一地址与第二地址的相似度。

下面，首先对余弦相似度进行说明。

假设，2个维数相同的向量分别为A和B，维数为n。

A＝(A₁,A₂,……A_n)

B＝(B₁,B₂,……B_n)

其中，A_i表示向量A中的第i个分量，B_i表示向量B中的第i个分量，n≥i≥1。

余弦相似度公式为：

其中，similarity或者cos(θ)表示向量A和向量B之间的余弦相似度。

示例性的，表2示出了第一地址与第二地址之间的相似度。相似度越大，说明第一地址与第二地址的相似度匹配度越高，两者为同一地址的概率越大。

表2

可选的，在另一种实现方式中，S103中，根据第一向量和第二向量获取第一地址与第二地址的相似度，可以包括：

根据第一向量和第二向量获取第一向量与第二向量之间的距离，并将距离确定为第一地址与第二地址的相似度。

可选的，第一向量与第二向量之间的距离包括但不限于下列中的任意一种：欧几里得距离(Eucledian Distance)、曼哈顿距离(Manhattan Distance)、明可夫斯基距离(Minkowski distance)等。

可选的，第一地址与第二地址之间的相似度还可以为杰卡德相似度(JaccardSimilarity)、皮尔森相关系数(Pearson Correlation Coefficient)、调整余弦相似度(Adjusted Cosine Similarity)等。

本实施例提供一种地址相似性的检测方法，包括：获取待比对的第一地址和第二地址，分别对第一地址和第二地址按字分割，获得字符集合、第一向量和第二向量，根据第一向量和第二向量获取第一地址与第二地址的相似度。本实施例提供的地址相似性的检测方法，通过地址中字符出现的频次构成的向量获得地址之间的相似性，提升了地址相似性匹配的准确性。

图3为本发明实施例提供的地址相似性的检测装置的一种结构示意图。本实施例提供的地址相似性的检测装置，用于执行本发明实施例提供的地址相似性的检测方法。如图3所示，本实施例提供的地址相似性的检测装置，可以包括：

获取模块31，用于获取待比对的第一地址和第二地址；

分字模块32，用于分别对所述第一地址和所述第二地址按字分割，获得字符集合、第一向量和第二向量；其中，所述字符集合包括所述第一地址和所述第二地址按字分割后的所有字符，所述第一向量包括所述字符集合中的每个字符在所述第一地址中出现的频次，所述第二向量包括所述字符集合中的每个字符在所述第二地址中出现的频次；

比对模块33，用于根据所述第一向量和所述第二向量获取所述第一地址与所述第二地址的相似度。

可选的，所述获取模块31具体用于：

获取所述第一地址以及所述第一地址的检测场景；

根据所述第一地址的检测场景获取所述第二地址。

可选的，所述获取模块31具体用于：

可选的，所述第二地址包括非分级地址且不包括分级地址。

可选的，所述比对模块33具体用于：

本实施例提供的地址相似性的检测装置，用于执行本发明方法实施例提供的地址相似性的检测方法，技术原理相似，此处不再赘述。

图4为本发明实施例提供的地址相似性的检测装置的另一种结构示意图。本实施例提供的地址相似性的检测装置，用于执行本发明方法实施例提供的地址相似性的检测方法。如图4所示，本实施例提供的地址相似性的检测装置，可以包括：处理器41和存储器42。存储器42，用于存储程序指令。处理器41，用于调用存储器42中存储的程序指令以实现本发明方法实施例提供的地址相似性的检测方法，技术原理相似，此处不再赘述。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明实施例的技术方案，而非对其限制；尽管参照前述各实施例对本发明实施例进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种地址相似性的检测方法，其特征在于，包括：

获取待比对的第一地址和第二地址；

2.根据权利要求1所述的方法，其特征在于，所述获取待比对的第一地址和第二地址，包括：

获取所述第一地址以及所述第一地址的检测场景；

根据所述第一地址的检测场景获取所述第二地址。

3.根据权利要求2所述的方法，其特征在于，

若所述检测场景为确定所述第一地址是否为用户的常用地址，则所述第二地址包括所述用户的常用地址；

4.根据权利要求1-3任一项所述的方法，其特征在于，获取第一地址，包括：

5.根据权利要求4所述的方法，其特征在于，所述第二地址包括非分级地址且不包括分级地址。

6.根据权利要求1-3任一项所述的方法，其特征在于，所述根据所述第一向量和所述第二向量获取所述第一地址与所述第二地址的相似度，包括：

7.根据权利要求1-3任一项所述的方法，其特征在于，所述第一地址对应的分级地址与所述第二地址对应的分级地址相同。

8.一种地址相似性的检测装置，其特征在于，包括：

获取模块，用于获取待比对的第一地址和第二地址；

9.根据权利要求8所述的装置，其特征在于，所述获取模块具体用于：

获取所述第一地址以及所述第一地址的检测场景；

根据所述第一地址的检测场景获取所述第二地址。

10.根据权利要求9所述的装置，其特征在于，

11.根据权利要求8-10任一项所述的装置，其特征在于，所述获取模块具体用于：

12.根据权利要求11所述的装置，其特征在于，所述第二地址包括非分级地址且不包括分级地址。

13.根据权利要求8-10任一项所述的装置，其特征在于，所述比对模块具体用于：

14.一种地址相似性的检测装置，其特征在于，包括：处理器和存储器；

所述存储器，用于存储指令；

所述处理器，用于执行所述存储器中存储的指令，以执行如权利要求1-7任一项所述的方法。

15.一种计算机可读存储介质，其特征在于，包括：可读存储介质和计算机程序，所述计算机程序用于实现如权利要求1-7任一项所述的方法。