CN108804398A

CN108804398A - 地址文本的相似度计算方法及装置

Info

Publication number: CN108804398A
Application number: CN201710303312.3A
Authority: CN
Inventors: 蒋贤礼
Original assignee: Alibaba Group Holding Ltd
Current assignee: Advanced New Technologies Co Ltd; Advantageous New Technologies Co Ltd
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2018-11-13

Abstract

本申请提供一种地址文本的相似度计算方法，包括：针对第一地址文本以及第二地址文本分别进行地址结构解析，以将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段；依次计算第一地址文本中的地址字段，与第二地址文本中对应的地址字段之间的文本相似度，并对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；依次计算第一地址文本中的地址字段，与第二地址文本中的各地址字段之间的文本相似度的最大值，并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；计算第一相似度评分与第二相似度评分中的最大值，并将该最大值设置为第一地址文本与第二地址文本的文本相似度评分。

Description

地址文本的相似度计算方法及装置

技术领域

本申请涉及计算机应用领域，尤其涉及一种地址文本的相似度计算方法及装置。

背景技术

在相关技术中，地址的相似度计算，在很多场景都会用到。比如，在金融领域的业务申请过程中，需要把该用户输入的地址和系统中存储的历史上使用过的地址做匹配，来进行相似度计算，进而通过相似度计算的结果来验证该用户提交的地址是否曾经使用过。

然而，在实际应用中，用户输入的地址通常具有多样性，不同的人在表达同一地址时可能存在各种不同的方式；因此，如何有效的屏蔽同一地址所存在的各种不同的表达方式对地址相似度计算结果的影响，来提升地址相似度计算结果的准确度，则具有十分重要的意义。

发明内容

本申请提出一种地址文本的相似度计算方法，所述方法包括：

针对第一地址文本以及第二地址文本分别进行地址结构解析，以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段；

依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度，并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；

依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；

计算所述第一相似度评分与所述第二相似度评分中的最大值，并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。

本申请还提出一种地址文本的相似度计算装置，所述装置包括：

解析模块，针对第一地址文本以及第二地址文本分别进行地址结构解析，以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段；

第一计算模块，依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度，并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；

第二计算模块，依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；

设置模块，计算所述第一相似度评分与所述第二相似度评分中的最大值，并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。

本申请中，提出了一种新的地址文本的相似度算法，通过对第一地址文本以及第二地址文本分别进行地址结构解析，将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段，并依次计算第一地址文本中的地址字段，与第二地址文本中与该地址字段对应的地址字段之间的文本相似度，对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；以及，依次计算第一地址文本中的地址字段，与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；然后进一步计算第一相似度评分与第二相似度评分中的最大值，并将计算出的所述第一相似度评分与所述第二相似度评分中的最大值设置为该第一地址文本与该第二地址文本的文本相似度评分；由于该算法中将第一地址文本中的地址字段与第二地址文本中相对应的地址字段，以及第二地址文本拆分出的各地址字段分别进行了文本相似度计算，既考虑到了第一地址文本与第二地址文本中一一对应的地址字段之间的相似性，又充分考虑到了第一地址文本中的地址字段与第二地址文本上下文中的其它各地址字段之间的相似性，因此在第一地址文本与第二地址文本为同一地址的不同表达的应用场景下，可以显著提升最终计算出的相似度评分的准确度。

附图说明

图1是本申请一实施例示出的一种地址文本的相似度计算方法的流程图；

图2是本申请一实施例示出的一种地址文本的相似度计算装置的逻辑框图；

图3是本申请一实施例示出的承载所述文本相似度的计算装置的终端设备所涉及的硬件结构图。

具体实施方式

在相关技术中，在计算地址文本的相似度时，通常采用如下的两种方法来实现：

第一种，先对待匹配的第一地址文本和第二地址文本分别进行分词处理，将第一地址文本和第二地址文本拆分成若干个一一对应的文本分词，再将分词之后的这些一一对应的文本分词分别进行文本相似度计算，然后对计算结果进行求和得到第一地址文本和第二地址文本的文本相似度。

第二种，先对待匹配的第一地址文本和第二地址文本分别进行分词处理，然后计算每一个分词处理得到的文本分词的tf-idf值，然后使用每一个分词处理得到的文本分词对应的tf-idf值组成的向量来代表地址，进而可以将第一地址文本和第二地址文本转换为向量，再计算这两两个向量之间的相似性(比如可以计算余弦距离，等等)。

然而，由于地址文本比普通字符串蕴含了更多的信息，比如结构、语义，因此用户输入的地址通常具有多样性，不同的人在表达同一地址时可能存在各种不同的方式；

例如，以下是几个关于同一地址的不同表达的例子：

1：明细程度的差异：

广东省-广州市-越秀区东风东路713

广东省广州市越秀区东风东路713号广发大厦33楼电子银行部

2：汉字和数字的差异：

云南省昆明市丰宁小区45栋4单元102

云南省昆明市五华区丰宁小区45幢四单元102室

3：行政区划变化：胶南市变为青岛市黄岛区

青岛市胶南市人民路321号泰华步行街狮龙手机青岛狮龙电讯数码有限公司

山东省青岛市黄岛区珠海街道人民路321号五星电器

4：子公司和母公司：携银呼叫中心是远洋数据的子公司

昆山市花桥镇顺陈路1号江苏携银呼叫中心有限公司

江苏省苏州市昆山市花桥镇顺陈路一号远洋数据

在这种情况下，通过以上示出的现有的相似度的计算方法，由于其并不考虑地址的上下文结构和语义信息，只考虑地址文本本身的相似度，因此在同一地址存在各种不同的表达方式的场景下，会造成文本相似度的计算结果的准确率极低的问题。

例如，在现有方案下，将地址文本『上海市黄浦区制造局路455弄2号1311室』改成『上海市黄浦区哈哈哈哈路455弄2号1311室』，相似度是高的(>0.65)；而地址文本『昆山市花桥镇顺陈路1号江苏携银呼叫中心有限公司』和『江苏省苏州市昆山市花桥镇顺陈路一号远洋数据』，是同一地址的不同表述，相似度却是低的(<0.4)。

有鉴于此，本申请提出了一种新的地址文本的相似度算法，通过对第一地址文本以及第二地址文本分别进行地址结构解析，将第一地址文本以及第二地址文本拆分成若干个一一对应的地址字段，并依次计算第一地址文本中的地址字段，与第二地址文本中与该地址字段对应的地址字段之间的文本相似度，对第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；以及，依次计算第一地址文本中的地址字段，与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；然后进一步计算第一相似度评分与第二相似度评分中的最大值，并将计算出的所述第一相似度评分与所述第二相似度评分中的最大值设置为该第一地址文本与该第二地址文本的文本相似度评分；由于该算法中将第一地址文本中的地址字段与第二地址文本中相对应的地址字段，以及第二地址文本拆分出的各地址字段分别进行了文本相似度计算，既考虑到了第一地址文本与第二地址文本中一一对应的地址字段之间的相似性，又充分考虑到了第一地址文本中的地址字段与第二地址文本上下文中的其它各地址字段之间的相似性，因此在第一地址文本与第二地址文本为同一地址的不同表达的应用场景下，可以显著提升最终计算出的相似度评分的准确度。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图1，图1是本申请一实施例提供的一种地址文本的相似度计算方法，应用于终端设备，所述方法执行以下步骤：

步骤101，针对第一地址文本以及第二地址文本分别进行地址结构解析，以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段；

上述第一地址文本以及第二地址文本，具体是指需要进行相似度匹配的地址文本，可以包括用户输入的地址文本，也可以包括系统中存储的用户使用过的地址文本；

例如，在金融领域的业务申请过程中，上述第一地址文本可以是用户实时输入的中文地址文本，而上述第二地址文本可以是系统中存储的历史上使用过的中文地址文本，上述终端设备可以将上述第一地址文本和第二地址文本进行匹配来进行相似度计算，进而通过相似度计算的结果来验证该用户提交的地址是否曾经使用过。

上述终端设备，具体可以包括用于对上述第一地址文本和第二地址文本进行相似度计算的任何形式的终端设备。其中，在实际应用中，上述终端设备可以是服务终端，也可以是客户终端；例如，上述终端设备具体可以是服务平台中的一台服务器，也可以是一台与服务平台对接的用于执行地址文本的相似度计算的PC终端。

在本例中，上述终端设备可以通过自主搭载的地址结构解析策略，对上述第一地址文本以及第二地址文本进行地址结构解析，将上述第一地址文本以及第二地址文本进行拆分成若干个一一对应的地址字段；

或者，也可以将上述第一地址文本以及第二地址文本提交至第三方的服务平台(比如诸如高德地图等地图服务商的服务平台)，调用第三方的服务平台的地址结构解析服务，对上述第一地址文本以及第二地址文本进行地址结构解析，将上述第一地址文本以及第二地址文本进行拆分成若干个一一对应的地址字段。

其中，由于标准的地址文本通常都是由若干个标准的地址字段组成；例如，以中文地址文本为例，按照标准的行政区域划分规则，中文地址通常可以包括省级行政区字段(比如省/直辖市/自治区)、市级行政区字段(比如地级市/自治州)、县级行政区字段(区/县/自治县/县级市)、镇级行政字段(比如街道/镇/乡)、村级行政字段(村/社区)、主路字段以及支路字段，等等。

因此，在实际应用中，可以大量采集与各地址字段对应的匹配关键词，并针对采集到的与各地址字段对应的匹配关键词，分别进行集中存储；比如，在示出的一种实施方式中，可以预先针对每一个标准的地址字段分别配置一个查询数据库或者数据表，并将采集到的匹配关键词，在该数据库或者数据表中进行集中存储。当存储完成后，可以遍历第一地址文本以及第二地址文本中的每一个字符进行字符切分，并将切分得到的关键词与各地址字段对应的查询数据库或者数据表中存储的关键词依次进行匹配，来完成针对上述第一地址文本以及第二地址文本的地址结构解析，进而可以将上述第一地址文本以及第二地址文本拆分成为若干个一一对应的地址字段。

当然，在实际应用中，可以在标准的行政区域划分规则的基础上，对标准的地址文本中所包含的地址字段进行进一步的划分，或者基于实际的需求进行扩展。

在实际应用中，用户输入的中文地址文本中，通常可能会携带一些方位词，以及POI(Point of Interest，信息点)信息；

例如，以中文地址“广东省增城市新塘镇港口大道南312号”为例，关键词“港口大道”对应该中文地址的“主路字段”；在该中文地址中，主路字段“港口大道”后明确的携带了方位字“南”；又如，以中文地址“杭州市西湖区万塘路18号黄龙时代广场”为例，在该中文地址中“杭州市西湖区万塘路18号”为符合标准的行政区域划分的地址信息，而“黄龙时代广场”为该中文地址信息中携带的POI信息。

因此，在实际应用中，可以在标准的行政区域划分规则的基础上，对标准的地址文本中所包含的地址字段进行进一步的划分，引入诸如主路后方位词、支路后方位词、主POI信息、次POI信息等字段；同时，对于地址文本中携带的一些类似于主POI信息以及次POI信息的字段，还可以进一步引入类主POI信息以及类次POI信息等字段。

在示出的一种实施方式中，构成标准的地址文本的字段结构，可以是如下所示出的24段结构(字段间以符号^分隔)：

省/直辖市/自治区^地级市/自治州^区/县/自治县/县级市^开发区/工业园等^街道/镇/乡^村/社区^村号^主路^主路后方位词^主路门牌号^支路^支路后方位词^支路门牌号^类主poi信息^主poi^主poi后方位词^类次poi信息^次poi^次poi后方位词^幢/栋/座^单元^楼/层^室^其它附属信息。

其中，主POI以及次POI为从属关系；例如，以中文地址“广东省增城市新塘镇港口大道南312号广东省水电集团计生办”为例，关键词“广东省水电集团”为主POI，“计生办”为次POI。

在以上示出的24段的地址解析结构中，可以为每一个字段分别预配置一个对应的查询数据库，并在该数据库中存储大量的与该地址字段对应的关键词；在对第一地址文本以及第二地址文本进行地址结构解析时，可以通过遍历第一地址文本以及第二地址文本中的每一个字符进行字符切分，并将切分得到的关键词与各地址字段对应的查询数据库中的关键词进行匹配，进而将上述第一地址文本以及第二地址文本拆分成为24个一一对应的地址字段。当然，在实际应用中，通过以上示出的24段的地址解析结构对地址文本进行解析时，部分字段的内容可能会缺失。

另外，在对第一地址文本和第二地址文本进行地址结构解析的过程中，对于一些对文本相似度影响程度较低的字段，也可以进行选择性的过滤。

举例而言，假设第一地址文本A为“上海市黄浦区哈哈哈哈路455弄2号1311室”，第二地址文本B为“上海市黄浦区制造局路455弄2号1311室”，可以按照以上示出的24段的地址解析结构进行地址结构解析，最终拆分成为：

A：上海^上海市^黄浦区^哈哈哈哈路^455弄^1311室^；

B:上海^上海市^黄浦区^制造局路^455弄^1311室^；

其中，在以上例子中“^”表示字段之间的分隔符，没有实际含义。

在对地址文本A以及地址文本B进行相似度计算时，可以提取每一个字段对应的关键词，并在提取关键词的过程中，对关键词中的公共词(比如"路","室"，"小区","花园","公司"等)进行过滤。

最终提取到的每一个字段对应的关键词可以如下所示：

A：上海^上海市^黄浦区^哈哈哈哈^455弄^1311^

B:上海^上海市^黄浦区^制造局^455弄^1311^

当然，需要说明的是，以上示出的24段的地址解析结构仅为示例性的，在实际应用中，本领域技术人员可以基于实际的需求对以上示出的地址解析结构酌情的进行删减或者扩展，在本申请中不再进行一一详述。

另外，在对上述第一地址文本以及第二地址文本进行文本拆分时，除了以上示出的通过地址结构解析来实现以外，在实际应用中，也可以采用其它的文本拆分策略来完成，在本申请中也不进行特别限定，本领域技术人员在将本申请公开的技术方案付诸实现时，可以参考相关技术中的记载。

在本例中，当通过以上示出的拆分过程，将第一地址文本以及第二地址文本拆分为若干个一一对应的地址字段后，为了能够准确识别出一些恶意编纂的地址文本，还可以基于工程经验预先人工添加若干恶意地址识别规则，然后将针对第一地址文本以及第二地址文本拆分出的地址字段与预配置的上述恶意地址识别规则进行匹配，来识别上述第一地址文本以及第二地址文本中是否存在恶意编纂的地址。

当上述第一地址文本以及第二地址文本拆分出的一个或者多个地址字段命中上述恶意地址识别规则时，此时可以直接将上述第一地址文本以及第二地址文本的相似度设置为0，并判定第一地址文本与第二地址文本对应的地址不相同。

其中，上述恶意地址识别规则的具体内容，在本申请中不进行特别的限定，在实际应用中，可以基于工程经验，对篡改概率较高的地址字段有针对性的设置恶意地址识别规则；

对于大多数恶意编纂的地址而言，通常特别喜欢对地址文本中的省级行政区字段、市级行政区字段、县级行政区字段(即上述24段地址解析结构的前三个地址字段)以及主路字段进行篡改，因此在实际应用中，可以针对省级行政区字段、市级行政区字段、县级行政区字段以及主路字段，分别有针对性的添加恶意地址识别规则。

例如，在示出的一种实施方式中，上述恶意地址识别规则可以包括：

判断第一地址文本以及第二地址文本拆分出的省级行政区字段、市级行政区字段、县级行政区字段对应的关键词是否相同；如果是，可以进一步判断所述省级行政区字段、市级行政区字段、县级行政区字段以外的其它字段对应的关键词是否相同；如果所述省级行政区字段、市级行政区字段、县级行政区字段以外的其它字段对应的关键词也相同时，则可以直接判定第一地址文本与所述第二地址文本中存在恶意地址。即在本申请中，当第一地址文本和第二地址文本的省级行政区字段、市级行政区字段、县级行政区字段以外的其它字段对应的关键词均相同，那么如果省级行政区字段、市级行政区字段、县级行政区字段对应的关键词不相同，表明第一地址文本和第二地址文本中可能存在篡改后的恶意地址。

又如，在示出的另一种实施方式中，上述恶意地址识别规则还可以包括：

计算第一地址文本以及第二地址文本拆分出的各地址字段对应的关键词之间的文本相似度(比如编辑距离)，并判断计算出的所述主路字段对应的关键词之间的文本相似度是否大于预设阈值；如果否，可以进一步判断所述主路字段以外的其它字段对应的关键词之间的文本相似度，是否大于所述预设阈值，并在所述主路字段以外的其它字段对应的关键词之间的文本相似度大于所述预设阈值时，直接判定第一地址文本与所述第二地址文本中存在恶意地址。

比如，以使用编辑距离表征文本相似度为例，上述预设阈值可以是0.6，即要确保第一地址文本以及第二地址文本的主路字段以外的其它字段对应的关键词之间的编辑距离大于0.6，并且所述主路字段对应的关键词之间的编辑距离也同样大于0.6，才能确认这个两个地址中不存在恶意地址。

通过这种方式，可以有效的识别出一些非法用户刻意编纂的恶意地址，从而可以及时的过滤掉这些恶意地址，提升最终相似度计算结果的准确度。

步骤102，依次计算所述第一地址文本中的地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度，并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；

在本申请中，当通过地址结构解析，将上述第一地址文本以及上述第二地址文本拆分成若干个一一对应的地址字段后，此时可以提取各地址字段对应的关键词，将上述第一地址文本以及上述第二地址文本分别表示成向量的形式，然后基于表示出的向量，来完成上述第一地址文本与第二地址文本的文本相似度的计算。

一方面，可以将与上述第一地址文本对应的向量中的地址字段，依次选定为目标字段，然后计算选定的该目标地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度。

其中，在示出的一种实施方式中，上述文本相似度，具体可以用编辑距离来表征。当然在实际应用中也可以使用编辑距离以外的其它形式(比如余弦距离，等等)来表征上述文本相似度，本申请中不再一一列举。

当计算完成后，可以继续将与上述第一地址文本对应的下一个地址字段选定为目标字段。当与上述第一地址文本对应所有地址字段均完成上述相似度计算后，此时可以进一步对各地址字段对应的计算结果进行求和得到第一相似度评分。

例如，以使用编辑距离来表征文本相似度为例，假设按照以上实施例示出的24段的地址解析结构对第一地址文本A和第二地址文本B进行拆分后，第一地址文本A和第二地址文本B最终表示为：

A:(a₁,...a_i...,a₂₄)

B:(b₁,...b_i...,b₂₄)

那么可以通过如下公式来计算得到上述第一相似度评分：

sim1＝sum(LEV_i(a_i,b_i))；i:(1～24)

在上述公式中，sim1表示上述第一相似度评分；LEV_i表示a_i和b_i的编辑距离。

在示出的另一种实施方式中，为了进一步提升相似度评分的计算结果，还可以为第一地址文本以及第二地址文本拆分出的各地址字段分别预配置权重值。

其中，该权重值表征地址字段对文本相似度的重要程度。对于第一地址文本以及第二地址文本拆分出的一一对应的地址字段而言，二者的权重值相同。在实际应用中，对于对文本相似度的重要程度较高的文本字段，可以配置较高的权重值；而对于对文本相似度的重要程度较低的文本字段，可以配置较低的权重值。

例如，以示出的上述24段的地址解析结构为例，通常带数字的地址字段对文本相似度的影响程度要比其他地址字段高(即通过带数字的地址字段更容易区分出不同的地址)，poi信息次之，所以可以为这两类地址字段配置一个较高的权重值。

其中，需要说明的是，上述权重值的大小在本申请中不进行特别限定，在实际应用中，可以按照实际需求进行自定义配置，或者采用工程经验值来进行设定；

例如，仍以示出的上述24段的地址解析结构为例，基于工程经验值，可以将门牌号、楼栋号、单元号、楼层号等带数字的地址字段的权重配置为1.5；将主poi信息和次poi信息等地址字段的权重配置为1.25；将剩余的其它字段字段的权重值配置为1.0。

在本例中，当为各地址字段分别预配置了权重值，那么当与上述第一地址文本对应的所有地址字段均完成上述相似度计算后，此时可以进一步将组成上述各地址字段对应的计算结果乘以对应的权重值后，再进行求和来得到上述第一相似度评分

A:(a₁,...a_i...,a₂₄)

B:(b₁,...b_i...,b₂₄)

那么可以通过如下公式来计算得到上述第一相似度评分：

sim1＝sum(WGT_i*LEV_i(a_i,b_i))；i:(1～24)

在上述公式中，sim1表示上述第一相似度评分；LEV_i表示a_i和b_i的编辑距离；WGT_i为每个地址字段对应的权重值。

步骤103，依次计算所述第一地址文本中的地址字段，与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；

另一方面，当完成上述第一地址文本中的地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度的计算，并对所述第一地址文本中的各地址字段对应的计算结果进行求和得到上述第一相似度评分后，此时仍然可以将与上述第一地址文本对应的地址字段，依次选定为目标字段，然后计算选定的该目标地址字段，与上述第二地址文本中的各地址字段之间的文本相似度，然后进一步计算该目标字段与上述第二地址文本中的各地址字段之间的文本相似度的最大值。

比如，假设按照以上实施例示出的24段的地址解析结构对第一地址文本A和第二地址文本B进行拆分后，第一地址文本A和第二地址文本B最终表示为：

A:(a₁,...a_i...,a₂₄)

B:(b₁,...b_i...,b₂₄)

首先，可以将a₁选定为目标地址字段，分别计算a₁与b₁～b₂₄各地址字段的编辑距离，计算完成后可以得到24个编辑距离的取值，然后可以进一步取这24个编辑距离的取值中的最大值。

当计算完成后，可以继续将与上述第一地址文本对应的下一个地址字段选定为目标字段，然后重复以上过程。当与上述第一地址文本对应的所有地址字段均完成上述相似度的最大值的计算后，此时可以进一步对各地址字段对应的计算结果进行求和得到第二相似度评分。

例如，仍以使用编辑距离来表征文本相似度为例，假设按照以上实施例示出的24段的地址解析结构对第一地址文本A和第二地址文本B进行拆分后，第一地址文本A和第二地址文本B最终表示为：

A:(a₁,...a_i...,a₂₄)

B:(b₁,...b_i...,b₂₄)

那么可以通过如下公式来计算得到上述第二相似度评分：

sim2＝sum(max(LEV_ij(ai,bj)))；i,j:(1～24)

在上述公式中，sim2表示上述第二相似度评分；LEV_ij表示a_i和b_j的编辑距离。

步骤104，计算所述第一相似度评分与所述第二相似度评分中的最大值，并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。

在本例中，当通过以上示出的计算过程，最终计算出了上述第一相似度评分以及第二相似度评分后，此时可以进一步计算该第一相似度评分与上述第二相似度评分中的最大值，然后将计算出的该第一相似度评分以及第二相似度评分中的最大值，设置为上述第一地址文本与第二地址文本最终的文本相似度评分。

例如，假设计算出的上述第一相似度评分为sim1，第二相似度评分为sim2，此时可以通过如下公式来计算最终的文本相似度：

sim_text＝Max(sim1,sim2)

在上述公式中，sim_text表示上述第一地址文本与第二地址文本最终的文本相似度评分。

当计算出上述第一地址文本与第二地址文本最终的文本相似度评分后，此时可以将最终的计算结果与预设的相似度阈值进行匹配，来判定第一地址文本与第二地址文本是否为相同的地址文本。

在本申请中，由于仅仅依靠第一地址文本与第二地址文本的文本相似度这一因素来判定第一地址文本与第二地址文本是否为相同的地址文本，仍然可能存在最终的判定结果不够准确的问题，在本申请中进一步提出了一种将文本相似度与距离相似度进行融合，来判定第一地址文本与第二地址文本是否为相同地址的算法。

在实现时，上述终端设备可以通过自主搭载的经纬度坐标转换策略，或者，也可以将上述第一地址文本以及第二地址文本提交至第三方的服务平台(比如诸如高德地图等地图服务商的服务平台)，调用第三方的服务平台的地址经纬度坐标转换服务，将上述第一地址文本以及第二地址文本转换为对应的经纬度坐标。

其中，将上述第一地址文本以及第二地址文本转换为经纬度坐标的具体实施过程，在本申请中不再进行详述，本领域技术人员在将本申请的技术方案付诸实施时，可以参考相关技术中的记载。

当将上述第一地址文本以及第二地址文本转换为对应的经纬度坐标后，可以进一步基于转换得到的经纬度坐标来计算第一地址文本与第二地址文本对应的地址之间的平面距离(即距离相似度)。

例如，假设第一地址文本A的经纬度坐标为(longitude_a,latitude_a)，第二地址文本B的经纬度坐标为(longitude_b,latitude_b)，那么可以通过如下公式来计算第一地址文本A与第二地址文本B对应的地址之间的平面距离sim_distance：sim_distance＝Sqrt(pow(longitude_a-longitude_b,2)+pow(latitude_a latitude_b,2)。

在本例中，当计算出第一地址文本与第二地址文本对应的地址之前的平面距离后，此时可以基于预设的融合规则，对计算出的第一地址文本与第二地址文本最终的文本相似度评分，与第一地址文本与第二地址文本最终的平面距离进行结果融合，来判定第一地址文本与第二地址文本对应的地址是否相同。

在示出的一种实施方式中，以计算出的第一地址文本与第二地址文本最终的文本相似度评分为sim_text，以及第一地址文本与第二地址文本最终的平面距离为sim_distance为例，上述融合规则具体可以包括如下规则：

((sim_distance<t₁)or(sim_distance>t₁and sim_text>t₂)or sim_text>t₂)

其中，t₁表示预设的第一阈值；t₂表示预设的第二阈值。

在一种情况下，终端设备可以判断第一地址文本以及所述第二地址文本的平面距离sim_distance是否小于预设的第一阈值t₁，如果第一地址文本以及所述第二地址文本的平面距离sim_distance小于预设的第一阈值t₁,此时可以直接判定第一地址文本与第二地址文本对应的地址相同；反之，可以判定第一地址文本与第二地址文本对应的地址不相同。

在另一种情况下，如果第一地址文本以及第二地址文本的平面距离sim_distance不小于预设的第一阈值t₁,此时可以进一步判断第一地址文本以及第二地址文本的文本相似度评分sim_text是否大于预设的第二阈值t₂；如果第一地址文本以及第二地址文本的文本相似度评分sim_text大于预设的第二阈值t₂,此时可以直接判定第一地址文本与第二地址文本对应的地址相同；反之，可以判定第一地址文本与第二地址文本对应的地址不相同。

在第三种情况下，如果上述第一地址文本和所述第二地址文本中存在未成功转换为经纬度坐标的地址文本，由于无法计算出第一地址文本和第二地址文本的平面距离，此时上述终端设备可以仅判断上述第一地址文本以及所述第二地址文本的文本相似度评分sim_text是否大于预设的第二阈值t₂；如果第一地址文本以及第二地址文本的文本相似度评分sim_text大于预设的第二阈值t₂,此时可以直接判定第一地址文本与第二地址文本对应的地址相同；反之，可以判定第一地址文本与第二地址文本对应的地址不相同。

通过这种方式，将最终计算得到的第一地址文本以及第二地址文本的文本相似度评分，与第一地址文本以及第二地址文本的平面距离进行结果融合，并参考这两种因素综合的来判定第一地址文本与第二地址文本是否对应相同的地址，与仅通过文本相似度来判定第一地址文本与第二地址文本是否对应相同的地址相比，可以显著的提升最终判定结果的准确度。

与上述方法实施例相对应，本申请还提供了装置的实施例。

请参见图2，本申请提出一种地址文本的相似度计算装置20，应用于终端设备；其中，请参见图3，作为承载所述文本相似度的计算装置20的终端设备所涉及的硬件架构中，通常包括CPU、内存、非易失性存储器、网络接口以及内部总线等；以软件实现为例，所述文本相似度的计算装置20通常可以理解为加载在内存中的计算机程序，通过CPU运行之后形成的软硬件相结合的逻辑装置，所述装置20包括：

解析模块201，针对第一地址文本以及第二地址文本分别进行地址结构解析，以将所述第一地址文本以及所述第二地址文本拆分成若干个一一对应的地址字段；

第一计算模块202，依次计算所述第一地址文本中的地址字段与所述第二地址文本中对应的地址字段之间的文本相似度，并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分；

第二计算模块203，依次计算所述第一地址文本中的地址字段与所述第二地址文本中的各地址字段之间的文本相似度的最大值，并对所述第一地址文本中的各地址字段对应的所述最大值进行求和得到第二相似度评分；

设置模块204，计算所述第一相似度评分与所述第二相似度评分中的最大值，并将所述第一相似度评分与所述第二相似度评分中的最大值设置为所述第一地址文本与所述第二地址文本的文本相似度评分。

在本例中，所述第一地址文本以及所述第二地址文本拆分出的地址字段分别预配置了权重值；其中，所述第一地址文本以及所述第二地址文本拆分出的一一对应的地址字段配置的权重值相同；所述权重值表征所述地址字段对所述文本相似度的重要程度；

所述第一计算模块202：

依次计算所述第一地址文本中的地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度，并将所述第一地址文本中的各地址字段对应的所述文本相似度乘以所述权重值后进行求和得到第一相似度评分。

在本例中，所述装置20还包括：

转换模块205(图2中未示出)，将所述第一地址文本以及所述第二地址文本分别转换为经纬度坐标；

第三计算模块206(图2中未示出)，基于转换得到的经纬度坐标计算与所述第一地址文本以及所述第二地址文本对应的地址之间的平面距离；

判定模块207(图2中未示出)，基于所述第一地址文本以及所述第二地址文本的平面距离，以及所述第一地址文本以及所述第二地址文本的文本相似度评分，判定所述第一地址文本与所述第二地址文本对应的地址是否相同。

在本例中，所述判定模块207进一步：

判断所述第一地址文本以及所述第二地址文本的平面距离是否小于预设的第一阈值；

当所述平面距离小于所述第一阈值时，判定所述第一地址文本与所述第二地址文本对应的地址相同；

当所述平面距离不小于所述第一阈值，则进一步判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值，并在所述文本相似度评分大于预设的第二阈值时，判定所述第一地址文本与所述第二地址文本对应的地址相同。

在本例中，所述判定模块207进一步：

如果未成功将所述第一地址文本和/或所述第二地址文本转换成经纬度坐标，则判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值，并在所述文本相似度评分大于所述第二阈值时，判定所述第一地址文本与所述第二地址文本对应的地址相同。

在本例中，所述判定模块207进一步：

将所述第一地址文本以及第二地址文本拆分出的地址字段与预配置的恶意地址识别规则进行匹配；

当所述第一地址文本以及第二地址文本拆分出的一个或者多个地址字段命中所述恶意地址识别规则时，判定所述第一地址文本与所述第二地址文本对应的地址不相同。

在本例中，所述第一地址文本以及第二地址文本拆分出的地址字段包括省级行政区字段、市级行政区字段、县级行政区字段以及主路字段；

所述恶意地址识别规则包括：

判断所述第一地址文本以及第二地址文本拆分出的省级行政区字段、市级行政区字段、县级行政区字段对应的关键词是否相同；如果否，进一步判断所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词是否相同，并在所述省级行政区字段、所述市级行政区字段、所述县级行政区字段以外的其它字段对应的关键词相同时，判定所述第一地址文本与所述第二地址文本中存在恶意地址；以及，

计算所述第一地址文本以及第二地址文本拆分出的各地址字段对应的关键词之间的文本相似度，并判断计算出的所述主路字段对应的关键词之间的文本相似度是否大于预设阈值；如果否，进一步判断所述主路字段以外的其它字段对应的关键词之间的文本相似度是否大于所述预设阈值，并在所述主路字段以外的其它字段对应的关键词之间的文本相似度大于所述预设阈值时，判定所述第一地址文本与所述第二地址文本中存在恶意地址。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种地址文本的相似度计算方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述第一地址文本以及所述第二地址文本拆分出的地址字段分别预配置了权重值；其中，所述第一地址文本以及所述第二地址文本拆分出的一一对应的地址字段配置的权重值相同；所述权重值表征所述地址字段对所述文本相似度的重要程度；

所述依次计算所述第一地址文本中的地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度，并对所述第一地址文本中的各地址字段对应的所述文本相似度进行求和得到第一相似度评分，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

将所述第一地址文本以及所述第二地址文本分别转换为经纬度坐标；

基于转换得到的经纬度坐标计算与所述第一地址文本以及所述第二地址文本对应的地址之间的平面距离；

基于所述第一地址文本以及所述第二地址文本的平面距离，以及所述第一地址文本以及所述第二地址文本的文本相似度评分，判定所述第一地址文本与所述第二地址文本对应的地址是否相同。

4.根据权利要求3所述的方法，其特征在于，所述基于所述第一地址文本以及所述第二地址文本的平面距离，以及所述第一地址文本以及所述第二地址文本的文本相似度，判定所述第一地址文本与所述第二地址文本对应的地址是否相同，包括：

5.根据权利要求3所述的方法，其特征在于，还包括：

6.根据权利要求5所述的方法，其特征在于，还包括：

7.根据权利要求6所述的方法，其特征在于，所述第一地址文本以及第二地址文本拆分出的地址字段包括省级行政区字段、市级行政区字段、县级行政区字段以及主路字段；

所述恶意地址识别规则包括：

8.一种地址文本的相似度计算装置，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述第一地址文本以及所述第二地址文本拆分出的地址字段分别预配置了对应的权重值；其中，所述第一地址文本以及所述第二地址文本拆分出的一一对应的地址字段配置的权重值相同；所述权重值表征所述地址字段对所述文本相似度的重要程度；

所述第一计算模块：

依次计算所述第一地址文本中的地址字段，与所述第二地址文本中对应的地址字段之间的文本相似度，并将第一地址文本中的各地址字段对应的所述文本相似度的所述文本相似度乘以所述权重值后进行求和得到第一相似度评分。

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

转换模块，将所述第一地址文本以及所述第二地址文本分别转换为经纬度坐标；

第三计算模块，基于转换得到的经纬度坐标计算与所述第一地址文本以及所述第二地址文本对应的地址之间的平面距离；

判定模块，基于所述第一地址文本以及所述第二地址文本的平面距离，以及所述第一地址文本以及所述第二地址文本的文本相似度评分，判定所述第一地址文本与所述第二地址文本对应的地址是否相同。

11.根据权利要求10所述的装置，其特征在于，所述判定模块：

当所述平面距离不小于所述第一阈值时，则进一步判断所述第一地址文本以及所述第二地址文本的文本相似度评分是否大于预设的第二阈值，并在所述文本相似度评分大于预设的第二阈值时，判定所述第一地址文本与所述第二地址文本对应的地址相同。

12.根据权利要求10所述的装置，其特征在于，所述判定模块进一步：

13.根据权利要求12所述的装置，其特征在于，所述判定模块进一步：

14.根据权利要求13所述的方法，其特征在于，所述第一地址文本以及第二地址文本拆分出的地址字段包括省级行政区字段、市级行政区字段、县级行政区字段以及主路字段；

所述恶意地址识别规则包括：