CN114741621A

CN114741621A - 异源门址匹配方法、装置、计算机设备和存储介质

Info

Publication number: CN114741621A
Application number: CN202210460538.5A
Authority: CN
Inventors: 赵斌伟; 王乐; 武东旭; 强成仓; 石立臣
Original assignee: Shenzhen Yishi Huolala Technology Co Ltd
Current assignee: Shenzhen Yishi Huolala Technology Co Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2022-07-12

Abstract

本申请涉及一种异源门址匹配方法和装置。该方法包括：获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构；获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；使用第一门址图数据结构、第二门址图数据结构和上述多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。本申请能更准确更快速地识别出不同源门址。

Description

异源门址匹配方法、装置、计算机设备和存储介质

技术领域

本申请涉及电子地图领域，特别是涉及一种异源门址匹配方法、装置、计算机设备和存储介质。

背景技术

门址是一种地图数据，通常包括街道名称、门牌号码以及经纬度等信息。用户输入门址，地图搜索引擎可以根据用户输入的门址查询到对应的经纬度坐标，并在电子地图中标示出。门址数据是网络电子地图的重要内容,也是互联网位置服务的核心，然而，互联网上的门址数据来源不一，采集与处理过程也各不相同，导致门址数据在空间位置、属性信息以及丰富程度等方面存在一定差异，因而如何有效地消除门址数据间的不一致性，并把它们组织成一套内容准确，可供用户使用的数据成为了当前研究的热点。目前常用的方法将不同来源的门址数据，通过匹配的方法，将各自的信息进行融合后，可以丰富门址数据的信息以及消除数据间的不一致性。

目前，异源门址匹配的方案主要有以下几种：

1、基于无监督计算相似度方案：

从两个异源门址数据中，分别抽取门址，计算这两个门址的名称文本相似度，地址文本相似度，相似度算法包括编辑距离、TF-IDF(term frequency–inverse documentfrequency)等，将计算出来的名称文本相似度和地址文本相似度通过设置一个权值来计算整体的相似度，作为两个门址之间的相似度得分，当得分高于某个阈值的时候，就可认为两个门址具有匹配关系，从而对异源门址数据进行匹配。

2、基于传统机器学习模型文本匹配方案：

从两个异源门址数据当中，抽取具有匹配关系的门址对来作为训练数据，通过计算门址对的名称文本相似度，物理距离，类别相似度等来构造特征，使用传统机器学习如梯度提升决策树GBDT、Xgboost等方法训练一个文本匹配模型，来判断两个门址是否具有匹配关系，从而对异源门址数据进行匹配。

3、基于预训练深度学习模型文本匹配方案：

将具有匹配关系的门址对作为训练数据，在目前常用的预训练深度模型，如BERT(Bidirectional Encoder Representation from Transformers)、ALBERT(A Lite BERT)等进行微调，训练一个文本匹配模型，来判断两个门址是否具有匹配关系。

发明人发现上述方案在实际应用时均存在一些缺点。

比如，上述方案1的缺点：

(1)基于无监督相似度得分方法，对于两个门址真实具有匹配关系，但是文本上差异较大的场景，匹配效果较差。

(2)对于两个门址虽然文本上很接近，但是实际上并不具有匹配关系的数据会造成误匹配

(3)相似度得分的阈值不太好设定

上述方案2的缺点：

(1)需要进行大量的特征工程工作去构造特征，过程比较繁琐。

(2)模型较浅，表达能力有限，文本匹配效果天花板较低。

(3)匹配过程是一对一的门址进行匹配，然后再遍历所有数据从整体上进行匹配，匹配效率较低，不能在整体数据层面直接进行匹配。

(4)这个方法假设门址之间相互独立，然而实际门址之间是有一定空间位置关系的，所以没有使用到门址之间的关系信息做匹配，利用信息较少，效果不好。

上述方案3的缺点：

(1)预训练深度模型一般都是输入纯文本信息，对非文本特征兼容性较差。

(2)预训练深度模型同传统机器学习模型一样，匹配过程是一对一的门址进行匹配，然后再遍历所有数据从整体上进行匹配，匹配效率较低，不能在整体数据层面直接进行匹配。

(3)这个方法假设门址之间相互独立，然而实际门址之间是有一定空间位置关系的，所以没有使用到门址之间的关系信息做匹配，利用信息较少，效果不好。

发明内容

本申请针对上述不足或缺点，提供了一种异源门址匹配方法、装置、计算机设备和存储介质，本申请实施例能够提高对异源门址的匹配准确性和匹配速度。

本申请根据第一方面提供了一种异源门址匹配方法，在一个实施例中，该方法包括：

获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构；

获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；第一门址集合中的任一门址与第二门址集合中的任一门址不同源；

从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。

在一个实施例中，根据第一门址集合构造第一门址图数据结构，包括：

对第一门址集合中的门址进行两两配对，得到多个第一门址对；

根据每个第一门址对的地理位置信息计算每个第一门址对的距离，第一门址对的距离是指第一门址对中包括的两个门址之间的距离；

根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第一门址图数据结构；

根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，包括：

当第一门址集合中任意两个门址之间的距离小于第一预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；

当第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。

在一个实施例中，根据第二门址集合构造第二门址图数据结构，包括：

对第二门址集合中的门址进行两两配对，得到多个第二门址对；

根据每个第二门址对的地理位置信息计算每个第二门址对的距离，第二门址对的距离是指第二门址对中包括的两个门址之间的距离；

根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第二门址图数据结构；

根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，包括：

当第二门址集合中任意两个门址之间的距离小于第二预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；

当第二门址集合中任意两个门址之间的距离大于等于第二预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。

在一个实施例中，使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型，包括：

构建门址匹配模型，门址匹配模型是图神经网络模型；

第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，在满足预设结束训练条件时，获得训练好的门址匹配模型；

其中，对门址匹配模型的每次训练过程包括：

获取第一门址图数据结构和第二门址图数据结构的邻接矩阵和节点属性特征矩阵，并输入门址匹配模型，得到门址匹配模型的输出数据，输出数据包括第一门址图数据结构和第二门址图数据结构中每个门址的嵌入；

从该多个样本门址匹配对中确定用于本次训练的目标样本门址匹配对，将目标样本门址匹配对作为正匹配对，并根据目标样本门址匹配对构造对应的负匹配对；

从输出数据中获取正匹配对的嵌入和负匹配对的嵌入，根据正匹配对的嵌入和负匹配对的嵌入计算本次训练的损失；

根据损失判断是否满足停止训练条件；

在判定满足时，结束训练，将本次训练好的门址匹配模型作为训练好的门址匹配模型；

在判定不满足时，根据损失更新门址匹配模型的网络参数，并对更新过网络参数的门址匹配模型进行下一次训练。

在一个实施例中，通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对，包括：

将第一门址图数据结构输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得第一门址集合中的每个门址的嵌入；

将第二门址图数据结构输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得第二门址集合中的每个门址的嵌入；

将第一门址集合中的每个门址，与第二门址集合中的每个门址进行两两配对，得到多个第三门址对；

计算每个第三门址对的嵌入距离；每个第三门址对的嵌入距离是指每个第三门址对包括的两个门址的嵌入之间的距离；

将每个嵌入距离小于预设阈值的第三门址对确定为门址匹配对。

在一个实施例中，第一门址图数据结构和第二门址图数据结构的数量相同，均为多个；相应地，根据第一门址集合构造第一门址图数据结构，包括：

将目标地域范围划分为多个空间网格；

遍历第一门址集合中每个门址的经纬度属性，确定每个空间网格对应的第一门址子集；

根据每个空间网格对应的第一门址子集，为每个空间网格构造对应的第一门址图数据结构；

根据第二门址集合构造第二门址图数据结构，包括：

遍历第二门址集合中每个门址的经纬度属性，确定每个空间网格对应的第二门址子集；

根据每个空间网格对应的第二门址子集，为每个空间网格构造对应的第二门址图数据结构。

将每个空间网格对应的第一门址图数据结构和第二门址图数据结构分别输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得每个空间网格对应的第一门址子集中每个门址的嵌入，以及每个空间网格对应的第二门址子集中每个门址的嵌入；

将每个空间网格对应的第一门址子集和第二门址子集进行两两配对，得到每个空间网格的门址对集合；

计算每个空间网格的门址对集合中每个第四门址对的嵌入距离；其中，每个第四门址对的嵌入距离是指每个第四门址对包括的两个门址的嵌入之间的距离；

将每个空间网格的门址对集合中的，每个嵌入距离小于预设阈值的第四门址对确定为门址匹配对。

本申请根据第二方面提供了一种异源门址匹配装置，在一个实施例中，该装置包括：

第一图构造模块，用于获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构；

第二图构造模块，用于获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；第一门址集合中的任一门址与第二门址集合中的任一门址不同源；

样本构造模块，用于从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

训练模块，用于使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

匹配模块，用于通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。

本申请根据第三方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述任一方法的实施例的步骤。

本申请根据第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述任一方法的实施例的步骤。

本申请的上述实施例，通过获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构，以及获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；其中，第一门址集合中的任一门址与第二门址集合中的任一门址不同源；接着，从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；之后，使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型，最后通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对，能够更准确更快速地识别出不同源门址。

附图说明

图1为一个实施例中一种异源门址匹配方法的流程示意图；

图2为一个实施例中一种异源门址匹配装置的结构框图；

图3为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅用以解释本申请，并不用于限定本申请。

本申请提供了一种异源门址匹配方法。在一个实施例中，该方法包括如图1所示的步骤，该方法可以应用于云端服务器。下面对该方法进行说明。

S110：获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构；

S120：获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；第一门址集合中的任一门址与第二门址集合中的任一门址不同源；

S130：从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

S140：使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

S150：通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。

本实施例相比现有技术能够带来以下有益效果：

传统机器学习及预训练深度模型在门址去重问题上做了两个门址之间是无关的假设，本申请实施例则假设两个门址之间具有关联，在此基础上，结合门址自身的属性特征和门址之间的空间位置关系来进行异源门址匹配。

具体地，发明人发现互相匹配的门址对的周围通常有相似邻居，基于这一发现，选用基于图结构的图卷积神经网络模型来进行异源门址匹配，使用门址名称的文本信息，以及门址之间的空间位置关系信息作为模型输入，图神经网络通过传递聚集邻居节点信息，具有识别同构图的能力，可以更好的识别相似邻居结构。在门址图数据结构中，通常能够匹配上的门址对周围通常有相似邻居，即两个匹配上的门址的相邻门址中往往包含其他等价的门址对，而节点的嵌入表示是由邻居信息聚合生成，这样邻居节点中其它等价的门址对也更容易匹配上，通过这种方式可以更有效地解决两个异源门址图数据结构之间的匹配问题。

另一方面，传统机器学习及预训练深度模型一般只能基于样本门址对来进行模型训练，而样本门址对需要人工标注，获取成本较高，所以一般数量较少，这样就会导致训练不是很充分。本申请实施例通过图卷积神经网络模型可以使全量数据都参与训练，这样可以更加充分地训练模型，使模型效果更好。

此外，传统的门址匹配方式都是一对一对门址进行匹配，然后再遍历整个图数据结构进行图数据结构层级的匹配，匹配效率较低，不能在图数据结构层面直接进行匹配。而本案用图卷积神经网络模型的方式可以实现图层级的匹配，提高匹配的性能及效率。

在一个实施例中，上述的根据第一门址集合构造第一门址图数据结构，包括：对第一门址集合中的门址进行两两配对，得到多个第一门址对；根据每个第一门址对的地理位置信息计算每个第一门址对的距离，第一门址对的距离是指第一门址对中包括的两个门址之间的距离；根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第一门址图数据结构。两个门址之间的距离是指空间距离(或称为物理距离)，比如200米、100米、50米等等。

其中，上述的根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，包括：当第一门址集合中任意两个门址之间的距离小于第一预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；当第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。其中，第一预设阈值可以根据实际需要进行设置，比如设置为50米等，本实施例对此不进行具体限定。

在一个实施例中，上述的根据第二门址集合构造第二门址图数据结构，包括：对第二门址集合中的门址进行两两配对，得到多个第二门址对；根据每个第二门址对的地理位置信息计算每个第二门址对的距离，第二门址对的距离是指第二门址对中包括的两个门址之间的距离；根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第二门址图数据结构。上述第二预设阈值与上述实施例的第一预设阈值相同，具体请参见上述实施例的说明。

其中，上述的根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，包括：当第二门址集合中任意两个门址之间的距离小于第二预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；当第二门址集合中任意两个门址之间的距离大于等于第二预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。

在一个实施例中，使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型，包括：构建门址匹配模型，门址匹配模型是图神经网络模型；第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，在满足预设结束训练条件时，获得训练好的门址匹配模型。

其中，对门址匹配模型的每次训练过程包括：

根据损失判断是否满足停止训练条件；

相应地，在一个实施例中，上述的通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对，包括：

将第一门址图数据结构输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得第一门址集合中的每个门址的嵌入；将第二门址图数据结构输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得第二门址集合中的每个门址的嵌入；将第一门址集合中的每个门址，与第二门址集合中的每个门址进行两两配对，得到多个第三门址对；计算每个第三门址对的嵌入距离；每个第三门址对的嵌入距离是指每个第三门址对包括的两个门址的嵌入之间的距离；将每个嵌入距离小于预设阈值的第三门址对确定为门址匹配对。

在另一个实施例中，第一门址图数据结构和第二门址图数据结构的数量相同，均为多个；相应地，上述的根据第一门址集合构造第一门址图数据结构，包括：将目标地域范围划分为多个空间网格；遍历第一门址集合中每个门址的经纬度属性，确定每个空间网格对应的第一门址子集；根据每个空间网格对应的第一门址子集，为每个空间网格构造对应的第一门址图数据结构。根据第二门址集合构造第二门址图数据结构，包括：遍历第二门址集合中每个门址的经纬度属性，确定每个空间网格对应的第二门址子集；根据每个空间网格对应的第二门址子集，为每个空间网格构造对应的第二门址图数据结构。

本实施例考虑到在一些场景中，目标地域范围的范围较大时，比如，目标地域范围是指整个中国，那么此时需要匹配(指门址匹配)的数据是全中国全量数据，此时的数据总量非常大，如果直接拿所有数据去构造两个图(指门址图数据结构)的话，那么每个门址图数据结构的节点属性特征矩阵和邻接矩阵都非常庞大，这样对计算资源的要求会非常高。因此，在计算资源有限的情况下，将两个图根据空间网格划分成很多小图，之后再在各自小图上去进行去重，这样每个小图的节点和邻接矩阵都变得较小，在较小的计算资源情况下就可以进行数据匹配。具体方法可以是如下所示：

按照中国的地理空间坐标，从最西端到最东端，从最北端到最南端，划分成一个个1千米*1千米的正方形空间网格(网格大小可以根据实际需要灵活调整)，网格的四个顶点都有对应的经纬度坐标，而门址都有经纬度属性，根据经纬度遍历所有的门址，门址可以落到相对应的网格当中，这样每个网格就会落入距离较近的门址，后续只需要在各个空间网格中进行门址匹配。

相应地，在一个实施例中，上述的通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对，包括：将每个空间网格对应的第一门址图数据结构和第二门址图数据结构分别输入训练好的门址匹配模型，根据训练好的门址匹配模型的输出，获得每个空间网格对应的第一门址子集中每个门址的嵌入，以及每个空间网格对应的第二门址子集中每个门址的嵌入；将每个空间网格对应的第一门址子集和第二门址子集进行两两配对，得到每个空间网格的门址对集合；计算每个空间网格的门址对集合中每个第四门址对的嵌入距离；其中，每个第四门址对的嵌入距离是指每个第四门址对包括的两个门址的嵌入之间的距离；将每个空间网格的门址对集合中的，每个嵌入距离小于预设阈值的第四门址对确定为门址匹配对。

以下通过一个具体的应用例对上述实施例进行说明。

本应用例具体分为空间网格的划分、样本门址匹配对获取、数据预处理、特征工程、模型训练和模型预测六个部分。

本应用例以中国作为目标地域范围。首先根据中国的地理空间坐标，将中国的地理空间划分成一个个1千米*1千米的正方形网格，然后将相应的门址落入到对应网格中形成子图。本应用例采用监督学习来训练图神经网络模型，由于是监督学习任务，需要人工标注样本门址匹配对来进行模型训练。在得到样本门址匹配对后，需要对数据做预处理，包括全角转半角、去除特殊符号、英文大写转小写、繁体转简体等操作，来对数据进行清洗。在训练模型之前，需要先做特征工程得到每个门址图数据结构中每个节点的属性特征以及每个门址图数据结构的邻接矩阵，将每个门址图数据结构的节点属性特征矩阵以及邻接矩阵输入到图卷积神经网络GCN(Graph Convolutional Network)中，通过反向传播最小化损失函数的方式训练模型，获得权重矩阵W，这个就是模型需要学习的参数。得到参数W后，就可以通过前向传播来进行图级别的门址匹配预测。

以下对上述各个部分进行说明。

1、空间网格的划分

由于需要匹配的两个门址图数据结构(可简称为图数据结构)都是全中国的全量数据，数据总量很大，如果直接拿所有数据构造大图的话，节点和邻接矩阵都非常庞大，对计算资源要求太高。因此，在计算资源有限的情况下，将大图根据空间网格划分成很多小图，让两个图数据结构在各自的小图上去进行匹配，这样节点和邻接矩阵都变得较小，在较小的计算资源情况下就可以进行匹配。

具体方法：按照中国的地理空间坐标，从最西端到最东端，从最北端到最南端，划分成一个个1千米*1千米的正方形空间网格，网格的四个顶点都有对应的经纬度坐标，而门址都有经纬度属性，根据经纬度遍历所有的门址，门址可以落到相对应的网格当中，这样每个网格就会落入距离较近的门址。

对这两个门址图数据结构都进行上述操作，后续只需要在各自对应的空间网格中进行门址匹配。

2、样本门址匹配对获取

本应用例需要样本门址对来训练模型，所以需要标注部分数据作为样本门址对。遍历上述所有的空间网格，用简单的门址名称文本相似度(如编辑距离等)，在各个空间网格中粗略找到疑似匹配的门址对，再交由标注人员找出真正的门址对，通过这种方式来构造样本门址匹配对。

3、数据预处理

门址的名称文本中可能包含特殊符号以及繁体字等，需要先做预处理再构造特征输入模型。同时为了保证标注数据和未标注数据分布的一致性，需要将标注数据和未标注数据做相同的预处理操作。数据预处理过程包含以下四个步骤：

(1)字符全角转半角

(2)去除特殊符号

(3)英文大写转小写

(4)中文繁体转简体

4、特征工程

(1)生成图节点的属性特征

图卷积神经网络GCN的输入包括图的拓扑结构，即邻接矩阵，以及图中所有节点的属性特征。每个节点属性特征是一个多维特征向量，本应用例采用指定算法将每个门址处理成一个512维的Embedding向量，用这个Embedding向量作为该节点的属性特征。其中，该指定算法可以是现有的任意能够实现将门址映射为Embedding向量的算法，故在此不再赘述。

(2)生成所有子图结构的边以及邻接矩阵

本应用例将50米以内的门址都当作是有边关系。取出一个空间网格中的所有门址形成一个集合，从集合中取出一个门址，跟这个集合中除自身外所有门址计算距离，其中距离小于50米的门址就跟取出的这个门址形成边关系，并且边的权重为1；然后从集合中依次取出门址，同样进行上述操作，直至取完集合中所有门址，就形成这一个空间网格子图所有门址的边关系，根据图结构的定义就得到了该子图的邻接矩阵。邻接矩阵的表示为：

最后，按照上述的方法遍历所有的空间网格，就生成了所有空间网格子图的邻接矩阵。

5、模型训练

给定两个相对应空间网格的门址子图KG1和KG2，和一组预先匹配的门址样本对S＝{(e_i1,e_i2)}^m _i＝1。

本应用例的方法基于GCN的节点嵌入来找到新的门址匹配对。方法的基本思想是利用GCN将来自不同图数据结构的门址嵌入到一个统一的向量空间中，同时希望匹配上的门址间距离更近，不能匹配上的门址之间距离更远。

(1)GCN的输入：

GCN是一类直接在图上进行操作的神经网络，它的输入是图的节点属性特征和邻接矩阵，目的是输出节点级的门址嵌入，然后用于后续门址匹配。模型使用了两个两层的GCN，每个GCN处理一个KG，令GCN1和GCN2分别处理KG1和KG2。对于模型输入的节点属性特征，都是从第4步特征工程而来，GCN1和GCN2输入的节点属性特征维度都是512维；对于模型输入的邻接矩阵，也是通过4步特征工程获取。将节点属性特征和邻接矩阵输入GCN模型后，来执行后续的GCN操作。

(2)GCN的操作：

一个GCN模型包含多个GCN层，本应用例选用两层，第l层的输入H^(l)∈R^n×d(l)，是一个节点属性特征矩阵(即所有节点属性特征)，其中n是节点的数量，d^(l)是第l层的特征数，第l层的输出是新的特征矩阵：

其中σ是relu激活函数(用于线性激活变换)，A是n*n的邻接矩阵，

其中I是单位矩阵。

是

的对角节点度矩阵，W^(l)∈R^d(l)×d(l+1)是两层间的权重矩阵，用于卷积操作，d^(l+1)是新的一层维度。

(3)GCN的输出

经过两个两层的GCN后，GCN1和GCN2输出的节点特征向量维度相同，都是512维的嵌入表示，这个嵌入表示可以用于后续的门址匹配。

(4)GCN的损失函数

本应用例希望匹配上的门址间距离小，不能匹配上的门址之间距离大，基于此来构造损失函数。门址间的距离为门址间的嵌入距离，对于门址对e1和e2，其中e1∈KG1，e2∈KG2，e1和e2就是GCN1和GCN2输出的节点嵌入，它们之间的距离计算方法如下：

D(e₁,e₂)＝||h(e₁)-h(e₂)||₁

模型通过最小化下面基于margin的损失函数来进行训练：

其中，[x]₊＝max{0,x},S'_(e1,e2)是由(e₁,e₂)通过随机替换一个门址得到的负匹配对，γ是区分正匹配对和负匹配对的间隔。通过反向传播最小化损失函数的方式来对模型进行训练，更新每层中的权重矩阵W，经过若干轮训练，最终模型可以学习到权重矩阵W，来对门址对匹配进行预测。

6、模型预测

本应用例适合用于离线图级别的匹配预测，预测就是在构造的图中找到更多新的门址匹配对。在训练过程中学习到了权重矩阵W，通过输入节点属性特征以及邻接矩阵，经过GCN的操作，每个节点会输出一个嵌入表示。

对于特定的输出的嵌入e1∈KG1，计算其与KG2中所有门址的嵌入距离，选出所有门址中嵌入距离最小的那个，如果这个嵌入距离小于某个阈值，就认为这两个门址对匹配；如果不小于这个阈值，就认为不匹配。按照上述方法，在KG1中遍历所有未在样本对中的门址，可以得到KG2中对应匹配的门址，这样就可以直接在图层级得到匹配预测结果。

本应用例将本申请提供的异源门址匹配方法，和背景技术中提到的其它门址匹配方法的应用情况进行了统计，具体收益如下：基于无监督计算相似度方案的门址匹配方法准确率为95.4％，召回率为84.1％；基于传统机器学习模型的门址匹配方法准确率为96.7％，召回率为91.8％；基于深度学习模型的门址匹配方法的准确率为97.8％，召回率为94.6％；而本申请提供的方法的准确率为98.5％，召回率为95.7％。显然，相较于传统的方法，本申请提供的方法有较大效果提升。

图1为一个实施例中异源门址匹配方法的流程示意图。应该理解的是，虽然图1的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

基于相同的发明构思，本申请还提供了一种异源门址匹配装置。在本实施例中，如图2所示，该异源门址匹配装置包括以下模块：

第一图构造模块110，用于获取目标地域范围的第一门址集合，根据第一门址集合构造第一门址图数据结构；

第二图构造模块120，用于获取目标地域范围的第二门址集合，根据第二门址集合构造第二门址图数据结构；第一门址集合中的任一门址与第二门址集合中的任一门址不同源；

样本构造模块130，用于从第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

训练模块140，用于使用第一门址图数据结构、第二门址图数据结构和该多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

匹配模块150，用于通过训练好的门址匹配模型处理第一门址图数据结构和第二门址图数据结构，根据处理结果识别出第一门址集合和第二门址集合中的所有门址匹配对。

在一个实施例中，第一图构造模块110，用于：

根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第一门址图数据结构。

其中，第一图构造模块110根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重时，具体用于：

在一个实施例中，第二图构造模块120，用于：

根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，得到基于地理位置信息的第二门址图数据结构。

其中，第二图构造模块120根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重时，具体用于：

在一个实施例中，训练模块140，用于：

构建门址匹配模型，门址匹配模型是图神经网络模型；

其中，对门址匹配模型的每次训练过程包括：

根据损失判断是否满足停止训练条件；

在一个实施例中，匹配模块150，用于：

在另一个实施例中，第一门址图数据结构和第二门址图数据结构的数量相同，均为多个；相应地，第一图构造模块110，还用于：

将目标地域范围划分为多个空间网格；

根据每个空间网格对应的第一门址子集，为每个空间网格构造对应的第一门址图数据结构。

第一图构造模块110，还用于：

相应地，在一个实施例中，匹配模块150，还用于：

关于异源门址匹配装置的具体限定可以参见上文中对于异源门址匹配方法的限定，在此不再赘述。上述异源门址匹配装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种异源门址匹配方法。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施例还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现如上述任一方法实施例中提供的方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上述任一方法实施例中提供的方法中的步骤。

本领域普通技术人员可以理解实现上述方法实施例中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种门址异源门址匹配方法，其特征在于，所述方法包括：

获取目标地域范围的第一门址集合，根据所述第一门址集合构造第一门址图数据结构；

获取目标地域范围的第二门址集合，根据所述第二门址集合构造第二门址图数据结构；所述第一门址集合中的任一门址与所述第二门址集合中的任一门址不同源；

从所述第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

使用所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构，根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对。

2.如权利要求1所述的方法，其特征在于，所述根据所述第一门址集合构造第一门址图数据结构，包括：

对所述第一门址集合中的门址进行两两配对，得到多个第一门址对；

根据每个第一门址对的地理位置信息计算每个第一门址对的距离，所述第一门址对的距离是指所述第一门址对中包括的两个门址之间的距离；

所述根据每个第一门址对的距离确定每个第一门址对中包括的两个门址之间的边的权重，包括：

当所述第一门址集合中任意两个门址之间的距离小于第一预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；

当所述第一门址集合中任意两个门址之间的距离大于等于第一预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。

3.如权利要求1所述的方法，其特征在于，所述根据所述第二门址集合构造第二门址图数据结构，包括：

对所述第二门址集合中的门址进行两两配对，得到多个第二门址对；

根据每个第二门址对的地理位置信息计算每个第二门址对的距离，所述第二门址对的距离是指所述第二门址对中包括的两个门址之间的距离；

所述根据每个第二门址对的距离确定每个第二门址对中包括的两个门址之间的边的权重，包括：

当所述第二门址集合中任意两个门址之间的距离小于第二预设阈值时，确定该任意两个门址之间形成边关系，将该任意两个门址之间的边的权重设置为1；

当所述第二门址集合中任意两个门址之间的距离大于等于第二预设阈值时，确定该任意两个门址之间不形成边关系，将该任意两个门址之间的边的权重设置为0。

4.如权利要求1所述的方法，其特征在于，所述使用所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型，包括：

构建门址匹配模型，所述门址匹配模型是图神经网络模型；

所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练所述门址匹配模型，在满足预设结束训练条件时，获得训练好的门址匹配模型；

其中，对所述门址匹配模型的每次训练过程包括：

获取所述第一门址图数据结构和所述第二门址图数据结构的邻接矩阵和节点属性特征矩阵，并输入所述门址匹配模型，得到所述门址匹配模型的输出数据，所述输出数据包括所述第一门址图数据结构和所述第二门址图数据结构中每个门址的嵌入；

从所述多个样本门址匹配对中确定用于本次训练的目标样本门址匹配对，将所述目标样本门址匹配对作为正匹配对，并根据所述目标样本门址匹配对构造对应的负匹配对；

从所述输出数据中获取所述正匹配对的嵌入和所述负匹配对的嵌入，根据所述正匹配对的嵌入和所述负匹配对的嵌入计算本次训练的损失；

根据所述损失判断是否满足停止训练条件；

在判定满足时，结束训练，将本次训练好的所述门址匹配模型作为训练好的门址匹配模型；

在判定不满足时，根据所述损失更新所述门址匹配模型的网络参数，并对更新过网络参数的门址匹配模型进行下一次训练。

5.如权利要求1所述的方法，其特征在于，所述通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构，根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对，包括：

将所述第一门址图数据结构输入所述训练好的门址匹配模型，根据所述训练好的门址匹配模型的输出，获得所述第一门址集合中的每个门址的嵌入；

将所述第二门址图数据结构输入所述训练好的门址匹配模型，根据所述训练好的门址匹配模型的输出，获得所述第二门址集合中的每个门址的嵌入；

将所述第一门址集合中的每个门址，与所述第二门址集合中的每个门址进行两两配对，得到多个第三门址对；

6.如权利要求1所述的方法，其特征在于，所述第一门址图数据结构和所述第二门址图数据结构的数量相同，均为多个；

所述根据所述第一门址集合构造第一门址图数据结构，包括：

将所述目标地域范围划分为多个空间网格；

遍历所述第一门址集合中每个门址的经纬度属性，确定每个空间网格对应的第一门址子集；

所述根据所述第二门址集合构造第二门址图数据结构，包括：

遍历所述第二门址集合中每个门址的经纬度属性，确定每个所述空间网格对应的第二门址子集；

根据每个所述空间网格对应的第二门址子集，为每个空间网格构造对应的第二门址图数据结构。

7.如权利要求6所述的方法，其特征在于，所述通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构，根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对，包括：

将每个所述空间网格对应的第一门址图数据结构和第二门址图数据结构分别输入所述训练好的门址匹配模型，根据所述训练好的门址匹配模型的输出，获得每个空间网格对应的第一门址子集中每个门址的嵌入，以及每个空间网格对应的第二门址子集中每个门址的嵌入；

8.一种异源门址匹配装置，其特征在于，所述装置包括：

第一图构造模块，用于获取目标地域范围的第一门址集合，根据所述第一门址集合构造第一门址图数据结构；

第二图构造模块，用于获取目标地域范围的第二门址集合，根据所述第二门址集合构造第二门址图数据结构；所述第一门址集合中的任一门址与所述第二门址集合中的任一门址不同源；

样本构造模块，用于从所述第一门址集合和第二门址集合中筛选出多个门址匹配对，为每个门址匹配对打标，得到对应的样本门址匹配对；

训练模块，用于使用所述第一门址图数据结构、所述第二门址图数据结构和所述多个样本门址匹配对迭代训练门址匹配模型，得到训练好的门址匹配模型；

匹配模块，用于通过所述训练好的门址匹配模型处理所述第一门址图数据结构和所述第二门址图数据结构，根据处理结果识别出所述第一门址集合和所述第二门址集合中的所有门址匹配对。

9.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。