CN115048516A

CN115048516A - 一种地址相似度的确定方法和装置

Info

Publication number: CN115048516A
Application number: CN202210654422.5A
Authority: CN
Inventors: 王鹏; 常梦圆
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2022-06-10
Filing date: 2022-06-10
Publication date: 2022-09-13

Abstract

提供一种地址相似度的确定方法和装置，涉及计算机领域。该方法包括：基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；确定多个文件的每个文件中多个地址之间的相似度，每个文件多个地址之间的相似度是基于多个地址中每个地址的目标信息确定的，每个地址的目标信息为每个地址包含的信息中除去所对应的行政区域之外的信息。通过聚类得到多个文件，并以文件为粒度，对每个文件中的多个地址进行相似度计算，由于基于每个地址中除行政区域之外的信息来计算地址相似度，降低了计算量，提高了确定地址相似度的效率。

Description

一种地址相似度的确定方法和装置

技术领域

本申请涉及计算机领域，尤其涉及一种地址相似度的确定方法和装置。

背景技术

在例如金融风控等一些领域，经常需要对某一时段内的所有交易数据的相关性进行建模、检查和识别，以挖掘出涉及风险的交易、账户、客户或团伙。而这些交易数据的数据量是海量的，且涉及到众多地址，而对地址相似度的分析对挖掘结果有着至关重要的作用。

目前，对地址相似度的分析通常采用两两比对的方式，技术实现上较为简单，但是对海量的地址采用两两逐个比对的方式，效率较低，难以满足实际场景的需求。

发明内容

本申请提供了一种地址相似度的确定方法和装置，以期来提高确定地址相似度的效率。

第一方面，本申请提供一种地址相似度的确定方法，该方法包括：基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。

基于上述方案，通过以预定义的多个行政区域级别为基准，采用聚类的方式将多个待分析的地址分成多组，得到多个文件后，就可针对每个文件去确定该文件中多个地址之间的相似度。因此，可以以文件为粒度，对每个文件中的多个地址进行相似度计算。由于在针对每个文件确定该文件中多个地址之间的相似度时，仅是基于地址中所对应的行政区域之外的信息来计算，而地址中所对应的行政区域信息的相似度在聚类得到多个文件的过程中已经将具有相同行政区域信息的地址聚类到了一个文件中，相似度计算无需再结合此信息进行计算。因此，在计算相似度时，所基于的信息量有所减少，也即计算量有所减少，处理效率也得到了相应提高。

相反，如果不对地址进行聚类，对海量的待处理的地址两两进行相似度计算，则意味着需要结合每一条地址的所有信息进行计算，计算所基于的信息量较大，计算量较大，处理效率较低。

可选地，所述多个文件包括对应于同一行政区域级别的至少两个文件，和/或，不同行政区域级别的至少两个文件。

可选地，所述基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，包括：

基于预定义的多个行政区域级别，将所述多个待分析的地址进行一次聚类，得到对应于同一行政区域级别的多个集合，每个集合包括多个地址；

若所述多个集合中的第一集合中的地址数目与预定义的数目之比小于第一预设门限，将所述第一集合确定为一个文件；

若所述多个集合中的第二集合中的地址数目与预定义的数目之比大于或等于所述第一预设门限，对所述第二集合进行二次聚类，以得到多个文件，所述多个文件中的每个文件中的地址数目与预定义的数目之比小于所述第一预设门限。

可选地，所述预定义的数目与设备的计算能力有关。

可选地，所述多个文件与并行的多个线程一一对应。

可选地，所述确定所述多个文件的每个文件中多个地址之间的相似度，包括：

将所述每个文件中的多个地址两两之间进行目标信息的匹配；

若所述多个地址中的第一地址的目标信息与第二地址的目标信息匹配，则根据所述第一地址的附属信息和所述第二地址的附属信息，按照预设的评分规则，确定所述第一地址与第二地址的相似度评分；和/或

若所述多个地址中的第三地址的目标信息与第四地址的目标信息不匹配，则按照所述预设的评分规则，确定所述第三地址与所述第四地址的相似度评分。

可选地，所述附属信息包括：分词匹配的程度、编辑距离、字母和/或数字的匹配程度，及全匹配的程度。

可选地，在所述基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件之前，所述方法还包括：

获取多个待分析的文本，每个文本用于表示一个地理位置；

基于预定义的结构，对所述多个待分析的文本进行处理，得到所述多个待分析的地址。

可选地，所述确定所述多个文件的每个文件中多个地址之间的相似度之后，还包括：基于每个文件中多个地址之间的相似度，得到相似度报告；将该相似度报告发送至客户端。

第二方面，本申请提供了一种地址相似度的确定装置，该装置包括：处理模块和确定模块，所述处理模块，用于基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；所述确定模块，用于确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。

第三方面，本申请提供了一种地址相似度的确定装置，该装置包括处理器。该处理器与存储器耦合，可用于执行存储器中的计算机程序，以实现第一方面以及第一方面中任一种可能实现方式中的方法。

可选地，所述地址相似度的确定装置还可以包括存储器，用于存储计算机可读指令，所述处理器读取所述计算机可读指令使得所述地址相似度的确定装置可以实现上述第一方面以及第一方面任一种可能实现方式中所述的方法。

可选地，所述地址相似度的确定还可以包括通信接口，所述通信接口用于该装置与其它设备进行通信，示例性地，通信接口可以是收发器、电路、总线、模块或其它类型的通信接口。

第四方面，本申请提供了一种芯片系统，该芯片系统包括至少一个处理器，用于支持实现上述第一方面以及第一方面任一种可能实现方式中所涉及的功能，例如处理上述方法中所涉及的待分析的地址。

在一种可能的设计中，所述芯片系统还包括存储器，所述存储器用于保存程序指令和数据，存储器位于处理器之内或处理器之外。

该芯片系统可以由芯片构成，也可以包含芯片和其它分立器件。

第五方面，本申请提供了一种计算机可读存储介质，所述存储介质中存储有计算机可读指令，当所述计算机可读指令被计算机执行时，使得计算机实现第一方面以及第一方面任一种可能实现方式中的方法。

第六方面，本申请提供了一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得上述第一方面以及第一方面中任一种可能实现方式中的方法被执行。

应当理解的是，本申请的第二方面至第六方面与本申请的第一方面的技术方案相对应，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

附图说明

图1为本申请实施例提供的地址相似度的确定方法的应用场景示意图；

图2为本申请实施例提供的地址相似度的确定方法的示意性流程图；

图3为本申请实施例提供的多个文件的得到过程的示意性流程图；

图4为本申请实施例提供的确定地址之间相似度的示意性流程图；

图5为本申请实施例提供的地址相似度的确定装置的示意性框图；

图6为本申请实施例提供的地址相似度的确定装置的另一示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

图1为适用于本申请实施例提供的地址相似度的确定方法的应用场景示意图。如图1所示，该场景100示出了业务端110和服务端120。其中，业务端110与服务端120之间可通过接口进行联机。业务端110可通过接口将海量待分析的地址发送给服务端120，服务端120可对海量待分析的地址进行地址相似度分析后，将分析结果返回给业务端110。分析结果会显示出哪些地址的相似度比较高，业务端110就可根据分析结果进一步去挖掘出涉及风险的交易、账户、客户或团伙，从而实现风险控制。

应理解，业务端110也可以理解为客户端，如金融风控行业的业务人员的工作电脑，或其它行业从业人员的工作电脑等，只要具有发送海量待分析的地址以请求对其分析的需求方，均可作为业务端，本申请对此不加以限制。

应理解，服务端120可以为服务器，也可以为专门开发的用于对海量待分析的地址进行地址相似度分析的系统，只要具有可对海量待分析的地址进行相似度分析的功能的处理方，均可作为服务端，本申请对此不加以限制。

还应理解，图1中虽然仅示出了一个业务端110，但应理解，本申请对于业务端110的数量均不作限定，该场景100中还可以包括更多数量的业务端，且任意一个业务端与服务端之间均能实现交互。

如前所述，目前业务端在将海量待分析的地址发送给服务端后，服务端采取两两比对的方式来进行地址相似度的分析。即，对于任意一个地址，都需要和其它地址一一比对一遍相似度。显然，服务端需要处理的数据量是巨大的，对地址相似度的确定的效率也就较低。

鉴于此，本申请提供了一种地址相似度的确定方法，通过基于预定义的多个行政区域级别，来对多个待分析的地址进行聚类，以得到多个文件，再确定多个文件的每个文件中多个地址之间的相似度，而在确定相似度时，基于地址中所对应的行政区域之外的信息来计算。由于可以以文件为粒度来对每个文件中的多个地址进行相似度计算，并且相似度的计算也无需再结合地址中所对应的行政区域进行进行计算。因此，在计算相似度时，所基于的信息量有所减少，即计算量有所减少，处理效率也得到了相应提高。

需要说明的是，本申请实施例中提供的地址相似度的确定方法和装置可以应用于金融风控领域，也可以应用于除金融风控领域之外的任意领域，本申请对此不作限定。

图2是本申请实施例提供的一种地址相似度的确定方法的示意性流程图。方法200可以由服务端来执行，也可以由配置在服务端中的部件(如芯片、芯片系统等)执行，或者，还可以由能够实现全部或部分服务端功能的逻辑模块或软件实现，本申请对此不作限定。

如图2所示，地址相似度的确定方法200包括步骤210至步骤220。下面以服务端为例，对本方案的实现过程进行详细说明。

在介绍步骤210之前，先对服务端将要处理的多个待分析的地址的来源进行介绍。在一种可实现的方式中，服务端可通过以下方式得到多个待分析的地址。

S1.获取多个待分析的文本，每个文本用于表示一个地理位置。

在本申请实施例中，待分析的文本可以为业务端发送给服务端的原始地址文本，每个文本用于描述一个地址。例如：上海陆家嘴银城中路XX号。

业务端将需要分析的多个文本发送给服务端，服务端就获取到了多个待分析的文本。

在一种可实现的方式中，业务端将需要分析的多个文本发送给服务端之前，业务端也可以进行一些预处理操作，如下：

首先，业务端在本地批量导出多个地址数据，其次，对这些地址数据进行地址去重、去除无效地址等操作，从而得到多个待分析的文本，最后，将多个待分析的文本发送给服务端即可。

应理解，地址数据是一种非结构化短文本的数据，比如银行客户的联系地址，企业的公司所在地址，消费记录所在商圈地址等。

S2.基于预定义的结构，对多个待分析的文本进行处理，得到多个待分析的地址。

为了便于后续的分析，服务端在获取到多个非结构化的待分析的文本后，还需要对多个待分析的文本进行地址标准化，即采用预定义的结构将多个待分析的文本的格式统一。

示例性地，预定义的结构可以采用类似如下表1的形式表示：

表1

比如，服务端在获取到待分析的文本“陆家嘴银城中路XX号”后，按照省市区等行政区域对该地址进行分词划分，并将划分好的分词对应填入预设格式的表格，从而得到结构化的待分析的地址。

在一种可实现的方式中，服务端可结合地址语料库进行匹配查找，来对待分析的文本进行分词。地址语料库是根据行政区的级别划分的词汇库，服务端结合地址语料库就可获知在待分析的文本的哪个地方进行切割分词。

应理解，在将划分好的分词对应填入预设格式的表格时，若存在某些行政区域对应分词的缺失，则结合待分析的文本的上下文信息补全对应行政区域的分词。例如，将“陆家嘴银城中路XX号”进行分词划分并填入表格时，发现“区/县”没有对应的分词，则结合上下文信息分析出，该地址位于“浦东新区”，则在表格中补全“区/县”对应的分词。

应理解，上文所提供的服务端获取到多个待分析的地址的具体方式仅为示例，本申请并不限定服务端获取多个待分析的地址的具体实现方式。

在服务端得到多个地址标准化的待分析的文本后，就可执行步骤210至步骤220。下面，对步骤210至步骤220进行详细说明。

在步骤210中，基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域。

在本申请实施例中，行政区域是为了便于管理而分级划分的区域，可以为五级行政区，如以省、市、区/县、街道/镇/乡、道路等进行划分的行政区。不同行政区域对应不同行政区域级别，上述行政区域级别依次从高至低。

应理解，不同行政区域级别也可以用不同的字母或数字表示，不同字母或数字对应不同行政区域级别，本申请对此不加以限制。

如前所述，该服务端获取到的多个待分析的地址是经过了地址标准化之后的待分析的文本，具有统一的结构。技术人员可以根据实际需求来预设好用以聚类的行政区域级别。服务端便可以基于预定义的结构，根据预设好的行政区域级别来对多个待分析的地址进行聚类。例如，可以从多个行政区域级别中选择“省+市”级别，则表示需要将多个待分析的地址中属于同一省同一市的地址聚类在一起，还可以从多个行政区域级别中选择“省+市+区/县”级别，则表示需要将多个待分析的地址中属于同一省同一市同一区/县的地址聚类在一起，亦或是也可以选择其它行政区域级别。

服务器根据预设好的行政区域级别，将多个待分析的地址进行聚类，可得到多个集合，也就可得到多个文件。为了减少内存容量压力，服务端可以为多个文件中的每个文件，依次从磁盘加载一小块到内存。

可选地，服务端在对多个待分析的地址进行聚类的过程中，会记录每个集合所包含的地址数量。

可选地，参看附图3，步骤210具体可以通过如下步骤实现：

步骤2101，基于预定义的多个行政区域级别，将多个待分析的地址进行一次聚类，得到对应于同一行政区域级别的多个集合，每个集合包括多个地址；

步骤2102，若多个集合中的第一集合中的地址数目与预定义的数目之比小于第一预设门限，将第一集合确定为一个文件；

步骤2103，若多个集合中的第二集合中的地址数目与预定义的数目之比大于或等于第一预设门限，对第二集合进行二次聚类，以得到多个文件，多个文件中的每个文件中的地址数目与预定义的数目之比小于第一预设门限。

在步骤2101中，服务端在获取到多个待分析的地址后，可以先对这些地址进行第一次聚类，而用于聚类的行政区域级别可根据本领域技术人员的实际需求选择，可以选择行政区域级别高的作为基准来进行聚类，也可以选择行政区域级别低的作为基准来进行聚类。

比如，在选择的行政区域级别为“省+市”时，服务端将多个待分析的地址中属于同一省和市的地址聚类在一起，假设得到了如下集合：{A1省B1市}、{A2省B2市}、{A3省B3市}和{A4省B4市}，其中，{A1省B1市}中包含了700个地址，{A2省B2市}包含了600个地址、{A3省B3市}包含了100个地址，以及，{A4省B4市}包含了100个地址。

服务端在进行一次聚类得到多个集合后，可能出现有的集合所包含的地址数目很多，有的集合所包含的地址数目较少，即，可能会产生数据倾斜的现象。而在集合所包含的地址数目过多时，服务端对地址分析的时间就会很长，相似度确定的效率就会降低，产生处理超时的问题。因此，在一次聚类得到多个集合后，服务端会对每个集合中所包含的地址数目进行判断，在地址数目占比较低时，执行S2，在地址数目占比较高时，执行S3。

步骤2102和步骤2103分别针对集合中地址数目与预定义的数目的比值与第一预设门限的大小关系分别给出了不同的处理方式。因此可以理解，本申请对于步骤2102和步骤2103的执行顺序不作限定，且也并不一定要执行步骤2102和步骤2103这两个步骤，服务端根据每个集合中的地址数目的不同，选择相应的步骤来执行即可。

在步骤2102中，第一预设门限为用以判断集合所包含的地址数目是多或少的临界值。在本申请实施例中，均以第一预设门限为50％为例来进行说明。应理解，本领域技术人员也可根据实际需求设置第一预设门限值，本申请对此不加以限制。在本申请实施例中，预定义的数目与设备的计算能力(或者说，算力)有关，计算能力越强，预定义的数目越多。具体预定义的数目的大小可由本领域技术人员根据设备的计算能力设置。第一集合为包含的地址数目较少的集合，也就是包含的地址数目与预定义的数目之比小于第一预设门限的集合。

以前述一次聚类后得到集合：{A1省B1市}、{A2省B2市}、{A3省B3市}和{A4省B4市}，其中，{A1省B1市}中包含了700个地址，{A2省B2市}包含了600个地址、{A3省B3市}包含了100个地址，以及，{A4省B4市}包含了100个地址为例。在第一预设门限为50％，且假设预定义的数目数目为1000时，可以判断出{A3省B3市}和{A4省B4市}所包含的地址数目均仅为预定义的数目的10％，未超出第一预设门限，则{A3省B3市}和{A4省B4市}均可作为第一集合，就可将这两个集合各自确定为一个文件，如文件：【A3省B3市】和文件：【A4省B4市】。

在多个集合中可作为第一集合的集合数量为一个时，就可将该第一集合直接确定为一个文件后，进入步骤220中，直接确定该文件中多个地址之间的相似度。

在多个集合中可作为第一集合的集合数量为至少为两个时，将该至少两个集合确定为至少两个文件后，为该至少两个文件分配至少两个线程进行并行处理，也就是该至少两个文件同时进入步骤220中，同时各自确定各自文件中多个地址之间的相似度。即，在本申请实施例中，多个文件与并行的多个线程一一对应。

显然，由于第一集合所包含的地址数目较少，且在可作为第一集合的集合数量为至少两个时，采取并行处理的方式，就使得确定第一集合内两两地址之间的相似度的效率有所提高。

在步骤2103中，第二集合为包含的地址数目较多的集合，也就是包含的地址数目与预定义的数目之比超过或等于第一预设门限的集合。

服务端在进行一次聚类得到多个集合后，若多个集合中存在第二集合，则对第二集合继续进行二次聚类来得到多个文件。其中，二次聚类的次数至少为一次。二次聚类的次数取决于二次聚类后所得到的多个文件中，是否每个文件中的地址数目与预定义的数目之比都小于第一预设门限，只有在每个文件中的地址数目与预定义的数目之比都小于第一预设门限时，才停止二次聚类。

在二次聚类时，用于聚类的行政区域级别小于一次聚类时，用于聚类的行政区域级别。并且，在二次聚类的聚类次数为至少两次时，随着聚类次数的增加，选择的用于聚类的行政区域级别也不断降低。

以前述一次聚类后得到集合：{A1省B1市}、{A2省B2市}、{A3省B3市}和{A4省B4市}，其中，{A1省B1市}中包含了700个地址，{A2省B2市}包含了600个地址、{A3省B3市}包含了100个地址，以及，{A4省B4市}包含了100个地址为例。在第一预设门限为50％，且假设预定义的数目为1000时，可以判断出{A1省B1市}、{A2省B2市}所包含的地址数目超出了第一预设门限，则对集合：{A1省B1市}、{A2省B2市}进行第二次聚类，假设第二次聚类基于“省+市+区/县”的级别进行聚类。

在第二次聚类后，若得到集合：{A1省B1市C1区}、{A1省B1市C2区}、{A2省B2市D1区}和{A2省B2市D2区}。

若{A1省B1市C1区}包含了400个地址、{A1省B1市C2区}包含了300个地址、{A2省B2市D1区}包含了350个地，以及，{A2省B2市D2区}包含了250个地址，则可以判断出每个集合所包含的地址数目与预定义的数目之比均小于第一预设门限，则这四个集合均为第一集合，均可各自确定为一个文件，如文件：【A1省B1市C1区】、文件【A1省B1市C2区】、文件【A2省B2市D1区】和文件【A2省B2市D2区】。进而该四个文件各自对应一个线程，并行进入步骤220中，同步确定每个文件中多个地址之间的相似度。

而若{A1省B1市C1区}包含了600个地址、{A1省B1市C2区}包含了100个地址、{A2省B2市D1区}包含了550个地址，以及，{A2省B2市D2区}包含了50个地址，则可以判断出集合：{A1省B1市C1区}和{A2省B2市D1区}各自所包含的地址数目与预定义的数目之比大于第一预设门限，集合{A1省B1市C2区}和{A2省B2市D2区}各自所包含的地址数目与预定义的数目之比小于第一预设门限。

则，集合{A1省B1市C2区}和{A2省B2市D2区}都为第一集合，可确定为文件：【A1省B1市C2区】和【A2省B2市D2区】，这两个文件各自对应一个线程，并行进入步骤220中，同步确定每个文件中多个地址之间的相似度。而集合{A1省B1市C1区}和{A2省B2市D1区}就都为第二集合，需要进行第三次聚类，假设第三次聚类进一步基于“省+市+区/县+街道/镇/乡”的级别进行聚类。

在第三次聚类后，若得到集合：{A1省B1市C1区E1街道}包含250个地址、{A1省B1市C1区E2街道}包含350个地址、{A2省B2市D1区F1街道}包含250个地址，以及，{A2省B2市D1区F2街道}包含300个地址。这四个集合所包含的地址数目与预定义的数目之比均小于第一预设门限，这四个集合均为第一集合，结束聚类，得到四个文件后，为该四个文件各分配一个线程，并行进入步骤220中。

至此，在上述示例性说明中，共聚类三次，其中二次聚类的次数为两次。

换言之，在本申请中，每聚类一次，就要对聚类得到的各个集合各自所包含的地址数目与预定义的数目之比和第一预设门限的大小关系进行一次判断。对于存在的第一集合，直接可确定其中的多个地址之间的相似度，而对于存在的第二集合，则继续重复聚类过程，直至聚类后得到的多个集合所包含的地址数目与预定义的数目之比均小于第一预设门限为止。

显然，由于对包含的地址数目过多的集合进行了二次聚类，就使得这批地址被不断的分散到更小的集合中，最终多个集合所包含的地址数目与预定义的数目之比均小于第一预设门限后，就可直接得到对应文件，进行各个文件中多个地址之间相似度的确定即可。即，最终用以确定地址相似度的文件所包含的地址数目很少，处理效率也就得到大幅度提升，避免了处理超时。

在一种可实现的方式中，可在第一集合确定为一个文件，且执行完步骤220后，再对第二集合进行二次聚类。

在聚类得到的文件数量过多时，即使每个文件中所包含的地址数目较少，但文件数量过多而超过服务端所能支持的文件数目上限时，会造成程序报错。

因此，在一种可实现的方式中，步骤210还可以包括：实时监测聚类得到的多个文件的数量，在多个文件的数量大于或等于预设文件阈值时，对剩余的待分析的地址暂停聚类。

在服务端对已经得到的多个文件执行完步骤220后，再对剩余的待分析的地址继续执行聚类过程。

经过上述的分析可知，步骤210中，对多个待分析的地址进行聚类，得到的多个文件，可能包含以下三种情况：

一种可能的情况是，该多个文件对应于不同的行政区域级别。另一种可能的情况是，该多个文件对应于相同的行政区域级别。再一种可能的情况是，该多个文件中的部分文件对应于相同的行政区域级别。

或者说，该多个文件包括对应于同一行政区域级别的至少两个文件，和/或，对应于不同行政区域级别的至少两个文件。

具体来说，对于多个文件对应于相同的行政区域级别的情况。通常为对多个待分析的地址仅进行一次聚类后，所得到的多个集合中，每个集合所包含的地址数目与预定义的数目之比都小于第一预设门限的情况。对于此种情况，无需再次进行聚类，就可直接得到多个文件，再进行相似度计算。而对于该种情况，通常是在选择用于聚类的行政区域级别时，所选择的行政级别非常低，例如，在一次聚类时，直接以“省+市+区/县+街道/镇/乡+道路”级别进行聚类。然而，这种情况下，由于一次聚类所得到的文件数目较多，就容易出现前述暂停聚类的问题。

对于多个文件对应于不同的行政区域级别的情况。通常为对多个待分析的地址进行了多次聚类，但每次聚类后，均只得到一个集合的情况。而对于此种情况，通常是服务端获得的多个待分析的地址之间的相似度本身就非常高。此时，若在选择用于聚类的行政区域级别时，所选择的行政级别非常高。例如，在一次聚类时，以“省”级别进行聚类。由于待分析的地址数量巨大，集合中的地址数目就很多，就会再次聚类下去，直至地址之间存在差异时，才会停止聚类。然而，这种情况下，就会导致不必要的聚类次数过多的问题。

对于多个文件中的部分文件对应于相同的行政区域级别的情况。通常为对多个待分析的地址进行了一次聚类和二次聚类，且在一次聚类，或二次聚类中，有一部分集合，即第一集合所包含的地址数目与预定义的数目之比小于第一预设门限，有另一部分集合，即第二集合所包含的地址数目与预定义的数目之比大于或等于第一预设门限情况。对于此种情况，第一集合无需再次聚类，第二集合则继续聚类。而对于该种情况，通常是在选择用于聚类的行政区域级别时，所选择的行政区域级别较高，例如，在一次聚类时，以“省+市”级别进行聚类。然而，这种情况下，在每次聚类后，可能会出现部分聚合包含的地址数目较多，而出现数据倾斜的情况。

因此，结合上述对多个待分析的地址进行聚类，得到多个文件的三种情况的分析可知，所选择的用于聚类的行政区域级别要适中，不宜太高或太低。

在步骤220中，确定多个文件的每个文件中多个地址之间的相似度，每个文件多个地址之间的相似度是基于多个地址中每个地址的目标信息确定的，每个地址的目标信息为每个地址包含的信息中除去所对应的行政区域之外的信息。

服务端在得到多个文件后，就可确定每个文件中多个地址之间的相似度，相似度可根据两两地址所包含信息的匹配结果和相似度评分表来确定得到。

在一种可实现的方式中，相似度评分表，即，预设的评分规则可以如下表2所示。

应理解，下表2仅为示例性说明，本领域技术人员还可根据实际需求设置不同的相似度评分表，比如，设置更多的附属信息、或对格式化信息进行更细的划分。

表2

其中，格式化信息可包括各级行政区域。附属信息为除各级行政区域之外的其它信息，可以包括：分词匹配的程度、编辑距离、字母和/或数字的匹配程度，及全匹配的程度。其中，编辑距离可以用于表示任意两两地址之间的差异程度，差异程度越大，编辑距离越大，该差异程度是看至少需要多少次的处理才能将一个地址分词变成另一个地址分词。应理解，编辑距离的确定可参考现有技术，在此不再赘述。

如上表所示，对于任意两两地址，匹配两个地址的分词时，在所有格式化信息均不一致时，则相似度为0；仅在“市”信息一致时，则相似度为1；仅在“市+区/县”信息一致时，则相似度为2；仅在“市+区/县+街道/镇/乡”信息一致时，则相似度为3；仅在“市+区/县+街道/镇/乡+道路”信息一致时，则相似度为4；仅在“市+区/县+街道/镇/乡+村/弄/门牌号+道路”信息一致时，则相似度为5；格式化信息均一致时，则相似度为6；不仅格式化信息一致，且所有分词匹配的程度为完全匹配，以及编辑距离大于2、且小于等于5之间时，则相似度为7；不仅格式化信息一致，且分词匹配的程度为完全匹配，以及编辑距离小于等于2时，则相似度为8；不仅中文及符号完全一致，在去除中文及符号后，剩余的字符，如字母或数字也完全一致时，则相似度为9；两个地址信息完全一致，没有任何偏差，则相似度为10。

参看附图4，在一种可实现的方式中，步骤220可以具体包括如下步骤：

步骤2201，将每个文件中的多个地址两两之间进行目标信息的匹配；

步骤2202，若多个地址中的第一地址的目标信息与第二地址的目标信息匹配，则根据第一地址的附属信息和第二地址的附属信息，按照预设的评分规则，确定第一地址与第二地址的相似度评分；和/或

步骤2203，若多个地址中的第三地址的目标信息与第四地址的目标信息不匹配，则按照预设的评分规则，确定第三地址与第四地址的相似度评分。

应理解，预设的评分规则可以为预设的相似度评分表。

在步骤2201中，由于同一文件中的多个地址属于相同的行政区域，因此，对于同一文件中的多个地址而言，无需再针对每个地址中所对应的行政区域信息再进行匹配，只需要针对目标信息，即每个地址中除去所对应的行政区域之外的信息匹配即可。

例如，在确定文件：【A1省B1市C1区】中多个地址之间的相似度时，只需要对任意两两地址中除“A1省B1市C1区”之外的其它分词进行匹配，如继续对地址信息中的“街道/镇/乡”信息、“道路”信息、甚至“小区/写字楼/公寓/商圈”信息等进行匹配，而“A1省B1市C1区”已经默认为匹配。

在步骤2202中，对于任意一个文件中的任意两个地址，在两个地址的目标信息匹配时，还需要进一步结合附属信息，来确定两个地址之间的相似度评分。而相似度评分的标准以相似度评分表为准。第一地址和第二地址可以为任意一个文件中的任意两个地址，第一地址和第二地址的目标信息匹配。

例如，确定文件：【A1省B1市C1区】中多个地址之间的相似度时，假设文件中的第一地址为：A1省B1市C1区D1路E1商圈F1门牌号，第二地址为：A1省B1市C1区D1路e1商圈F1门牌号。其中，E1商圈和e1商圈是对同一商圈的不同叫法。则，对第一地址的“D1路”和第二地址的“D1路”、第一地址的“E1商圈”和第二地址的“e1商圈”，以及第一地址的“F1门牌号”和第二地址的“F1门牌号”分别进行匹配，发现两个地址都在同一个路上的同一个商圈，且门牌号一样，则两个地址的目标信息匹配。此时，也就可知两者分词匹配的程度为完全匹配，而第一地址的“E1商圈”和第二地址的“e1商圈”虽然指代的是同一个商圈，但是两者之间仍旧存在差异，可计算出编辑距离为1。因此，结合前述相似度评分表，就可获知两个地址的相似度评分为8分。

在步骤2203中，对于任意一个文件中的任意两个地址，在两个地址的目标信息不匹配时，无需再去判断附属信息，直接就可根据相似度评分表确定相似度评分。第三地址和第四地址可以为任意一个文件中的任意两个地址，第三地址和第四地址的目标信息不匹配。

例如，确定文件：【A1省B1市C1区】中多个地址之间的相似度时，假设文件中的第三地址为：A1省B1市C1区D2街道，第四地址为：A1省B1市C1区D3街道。则，对第三地址的“D2街道”和第四地址的“D3街道”进行匹配，发现两个街道不是同一个街道，则两个地址的目标信息不匹配。因此结合前述相似度评分表，就可容易获知两个地址的相似度评分为2分。

可选地，在步骤220之后，还包括：

基于每个文件中多个地址之间的相似度，得到相似度报告；将该相似度报告发送至客户端。

服务端在确定出每个文件总多个地址之间的相似度后，可对其进行综合分析，得到相似度报告，该相似度报告可以为相似度报表、或相似度曲线等。服务器将该相似度报告发送给客户端，客户端根据相似度报告就可进一步挖掘涉及风险的交易、账户、客户或团伙，以实现风险控制。

基于上述方案，通过基于预定义的多个行政区域级别，来对多个待分析的地址进行聚类，以得到多个文件，再确定多个文件的每个文件中多个地址之间的相似度。由于可以以文件为粒度来对每个文件中的多个地址进行相似度计算。并且，在每个文件中多个地址之间的相似度时，相似度的计算仅是基于地址中所对应的行政区域之外的信息来计算，而地址中所对应的行政区域信息的相似度在聚类得到多个文件的过程中已经将具有相同行政区域信息的地址聚类到了一个文件中，相似度计算无需再结合此信息进行计算。因此，在计算相似度时，所基于的信息量有所减少，即计算量有所减少，处理效率也得到了相应提高。此外，本申请在判断集合中的地址数目与预定义的数目之比与第一预设门限之间的大小关系时，所涉及使用到的预定义的数目的设置与设备的计算能力有关，充分考虑到了设备实际的能力，防止设备的计算能力无法有效支持数据处理的情况。

图5是本申请实施例提供的地址相似度的确定装置的示意性框图。该装置可以对应于上文方法实施例中的服务端，例如为服务端，或者配置在服务端中的部件，如芯片、芯片系统等。

如图5所示，该地址相似度的确定装置500可以包括：处理模块510和确定模块520。该地址相似度的确定装置500可用于实现上述方法200中服务端的功能。其中，处理模块510，可以用于基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；确定模块520，可以用于确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。

可选地，处理模块510，可以具体用于基于预定义的多个行政区域级别，将所述多个待分析的地址进行一次聚类，得到对应于同一行政区域级别的多个集合，每个集合包括多个地址；若所述多个集合中的第一集合中的地址数目与预定义的数目之比小于第一预设门限，将所述第一集合确定为一个文件；若所述多个集合中的第二集合中的地址数目与预定义的数目之比大于或等于所述第一预设门限，对所述第二集合进行二次聚类，以得到多个文件，所述多个文件中的每个文件中的地址数目与预定义的数目之比小于所述第一预设门限。

可选地，所述预定义的数目与该装置500的计算能力有关。

可选地，所述多个文件与并行的多个线程一一对应。

可选地，确定模块520，可以具体用于将所述每个文件中的多个地址两两之间进行目标信息的匹配；若所述多个地址中的第一地址的目标信息与第二地址的目标信息匹配，则根据所述第一地址的附属信息和所述第二地址的附属信息，按照预设的评分规则，确定所述第一地址与第二地址的相似度评分；和/或若所述多个地址中的第三地址的目标信息与第四地址的目标信息不匹配，则按照所述预设的评分规则，确定所述第三地址与所述第四地址的相似度评分。

可选地，处理模块510，还可以用于获取多个待分析的文本，每个文本用于表示一个地理位置；基于预定义的结构，对所述多个待分析的文本进行处理，得到所述多个待分析的地址。

可选地，处理模块510，还可以用于基于每个文件中多个地址之间的相似度，得到相似度报告；将相似度报告发送至客户端。

应理解，图5中的地址相似度的确定装置的模块划分只是示例性的，在实际应用中可以根据不同的功能需求，划分出不同的功能模块，本申请对实际应用中的功能模块的划分形式和数量不作任何限定，并且图5不能对本申请产生任何限定。

图6是本申请实施例提供的地址相似度的确定装置的另一示意性框图。

该地址相似度的确定装置600可用于实现上述方法200中服务端的功能。该地址相似度的确定装置600可以为芯片系统。本申请实施例中，芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

如图6所示，该地址相似度的确定装置600可以包括至少一个处理器610，用于实现本申请实施例提供的方法200中服务端的功能。

示例性地，当该地址相似度的确定装置600用于实现本申请实施例提供的方法200时，处理器610可以用于基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。具体参见方法示例中的详细描述，此处不做赘述。

该地址相似度的确定装置600还可以包括至少一个存储器620，可以用于保存程序指令和数据等。存储器620和处理器610耦合。本申请实施例中的耦合是装置、单元或模块之间的间接耦合或通信连接，可以是电性，机械或其它的形式，用于装置、单元或模块之间的信息交互。处理器610可能和存储器620协同操作。处理器610可能执行存储器620中存储的程序指令。所述至少一个存储器中的至少一个可以包括于处理器中。

该地址相似度的确定装置600还可以包括通信接口630，用于通过传输介质和其它设备进行通信，从而使得地址相似度的确定装置600可以和其它设备进行通信。所述通信接口630例如可以是收发器、接口、总线、电路或者能够实现收发功能的装置。处理器610可利用通信接口630收发数据和/或信息，并用于实现图2对应的实施例中所述服务端所执行的方法200。

本申请实施例中不限定上述处理器610、存储器620以及通信接口630之间的具体连接介质。本申请实施例在图6中以处理器610、存储器620以及通信接口630之间通过总线640连接。总线640在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

本申请还提供了一种芯片系统，所述芯片系统包括至少一个处理器，用于实现上述图2至图4所示实施例中所述服务端执行的方法中所涉及的功能。

该芯片系统可以由芯片构成，也可以包含芯片和其他分立器件。

本申请还提供一种计算机程序产品，所述计算机程序产品包括：计算机程序(也可以称为代码，或指令)，当所述计算机程序被运行时，使得计算机执行如图2至图4所示实施例的方法。

本申请还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序(也可以称为代码，或指令)。当所述计算机程序被运行时，使得计算机执行如图2至图4所示实施例的方法。

应理解，本申请实施例中的处理器可以是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(digitalsignal processor，DSP)、专用集成电路(application specific integrated circuit，ASIC)、现场可编程门阵列(field programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

还应理解，本申请实施例中的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(read-only memory，ROM)、可编程只读存储器(programmable ROM，PROM)、可擦除可编程只读存储器(erasable PROM，EPROM)、电可擦除可编程只读存储器(electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(random access memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(static RAM，SRAM)、动态随机存取存储器(dynamic RAM，DRAM)、同步动态随机存取存储器(synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(double data rateSDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(directrambus RAM，DR RAM)。应注意，本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本说明书中使用的术语“单元”、“模块”等，可用于表示计算机相关的实体、硬件、固件、硬件和软件的组合、软件、或执行中的软件。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各种说明性逻辑块(illustrative logical block)和步骤(step)，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。在本申请所提供的几个实施例中，应该理解到，所揭露的装置、设备和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上单元集成在一个模块中。

在上述实施例中，各功能模块的功能可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令(程序)。在计算机上加载和执行所述计算机程序指令(程序)时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line，DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，数字通用光盘(digital video disc，DVD))、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种地址相似度的确定方法，其特征在于，所述方法包括：

基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；

确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。

2.如权利要求1所述的方法，其特征在于，所述多个文件包括对应于同一行政区域级别的至少两个文件，和/或，不同行政区域级别的至少两个文件。

3.如权利要求2所述的方法，其特征在于，所述基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，包括：

4.如权利要求3所述的方法，其特征在于，所述预定义的数目与设备的计算能力有关。

5.如权利要求1至4中任一项所述的方法，其特征在于，所述多个文件与并行的多个线程一一对应。

6.如权利要求1所述的方法，其特征在于，所述确定所述多个文件的每个文件中多个地址之间的相似度，包括：

7.如权利要求6所述的方法，其特征在于，所述附属信息包括：分词匹配的程度、编辑距离、字母和/或数字的匹配程度，及全匹配的程度。

8.如权利要求1所述的方法，其特征在于，在所述基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件之前，所述方法还包括：

获取多个待分析的文本，每个文本用于表示一个地理位置；

9.如权利要求1至8中任一项所述的方法，其特征在于，所述确定所述多个文件的每个文件中多个地址之间的相似度之后，还包括：

基于所述每个文件中多个地址之间的相似度，得到相似度报告；

将所述相似度报告发送至客户端。

10.一种地址相似度的确定装置，其特征在于，所述装置包括：

处理模块，用于基于预定义的多个行政区域级别，对多个待分析的地址进行聚类，得到多个文件，每个文件包括多个地址，每个文件对应一个行政区域级别，同一文件中的多个地址属于相同的行政区域；

确定模块，用于确定所述多个文件的每个文件中多个地址之间的相似度，所述每个文件多个地址之间的相似度是基于所述多个地址中每个地址的目标信息确定的，每个地址的目标信息为所述每个地址包含的信息中除去所对应的行政区域之外的信息。

11.一种地址相似度的确定装置，其特征在于，包括处理器，所述处理器用于执行权利要求1至9中任一项所述的方法。

12.一种计算机可读存储介质，其特征在于，包括计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1至9中任一项所述的方法。

13.一种计算机程序产品，其特征在于，包括计算机程序，当所述计算机程序被运行时，使得计算机执行如权利要求1至9中任一项所述的方法。