CN110489507A

CN110489507A - 确定兴趣点相似度的方法、装置、计算机设备和存储介质

Info

Publication number: CN110489507A
Application number: CN201910757704.6A
Authority: CN
Inventors: 岳大威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-16
Filing date: 2019-08-16
Publication date: 2019-11-22
Anticipated expiration: 2039-08-16
Also published as: CN110489507B

Abstract

本申请涉及一种确定兴趣点相似度的方法、装置、计算机设备和存储介质，所述方法包括：获取两个待匹配兴趣点的兴趣点信息；基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵；基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。本申请提供的方案可以实现端到端，提高预测结果的准确性。

Description

确定兴趣点相似度的方法、装置、计算机设备和存储介质

技术领域

本申请涉及电子地图技术领域，特别是涉及一种确定兴趣点相似度的方法、装置、计算机设备和存储介质。

背景技术

在地理信息系统中，POI(Point of Interest，兴趣点)代表地图上的任意一个点，例如一个POI可以是一栋房子、一个商铺、一个邮筒、一个公交站等。POI的属性信息通常包括名称、地址、类别等数据，这些数据的来源可以有多个，如现场采集、网络抓取等，不同来源的数据在格式、文字描述等方面往往存在差异，从而在地图数据库中针对同一个POI可能存储有多条数据，导致数据冗余。为了保证POI数据的单一性，通常会判断POI数据的相似度，再根据相似度进行去重。

传统方法采用浅层机器学习模型加规则来预测两个POI的相似度，在利用模型进行预测前，需要构建大量特征工程，建立不同场景的多种规则，对两个POI在每个维度是否相似进行初步判断，再利用模型对初步判断结果进行综合预测，该方法存在特征提取和规则调测难度大的问题。

发明内容

基于此，有必要针对传统方法的特征提取和规则调测难度大的技术问题，提供一种确定兴趣点相似度的方法、装置、计算机设备和存储介质。

一种确定兴趣点相似度的方法，所述方法包括：

获取两个待匹配兴趣点的兴趣点信息；

基于所述兴趣点信息，确定两个所述待匹配兴趣点之间的匹配矩阵；

基于两个所述待匹配兴趣点之间的所述匹配矩阵，确定两个所述待匹配兴趣点之间的相似度。

一种确定兴趣点相似度的装置，所述装置包括：

获取模块，用于获取两个待匹配兴趣点的兴趣点信息；

匹配模块，用于基于所述兴趣点信息，确定两个所述待匹配兴趣点之间的匹配矩阵；

确定模块，用于基于两个所述待匹配兴趣点之间的所述匹配矩阵，确定两个所述待匹配兴趣点之间的相似度。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行以下步骤：

获取两个待匹配兴趣点的兴趣点信息；

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行以下步骤：

获取两个待匹配兴趣点的兴趣点信息；

上述确定兴趣点相似度的方法、装置、计算机可读存储介质和计算机设备，获取两个待匹配兴趣点的兴趣点信息；基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵；基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。其中，匹配矩阵反映的是两个兴趣点的各类信息的匹配情况，直接基于匹配情况确定两个兴趣点的相似度，而无需采用复杂的规则对两个兴趣点各类信息的匹配程度进行预先判断，再对预先判断结果进行综合预测，从而可以略去规则及特征工程繁琐的调测，减少人工干预对于最终预测结果的影响，实现端到端，提高预测结果的准确性。

附图说明

图1为一个实施例中确定兴趣点相似度的方法的应用环境图；

图2为一个实施例中确定兴趣点相似度的方法的流程示意图；

图3为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图4为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图5为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图6为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图7为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图8为一个实施例中基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵步骤的流程示意图；

图9为一个实施例中胶囊网络的结构示意图；

图10为一个实施例中对各类型匹配矩阵进行分析，获得两个待匹配兴趣点之间的相似度步骤的流程示意图；

图11为一个实施例中训练获得已训练胶囊网络步骤的流程示意图；

图12为一个实施例中确定兴趣点相似度的装置的结构框图；

图13为一个实施例中确定兴趣点相似度的装置的结构框图；

图14为一个实施例中确定兴趣点相似度的装置的结构框图；

图15为一个实施例中确定兴趣点相似度的装置的结构框图；

图16为一个实施例中计算机设备的结构框图；

图17为一个实施例中计算机设备的结构框图。

具体实施方式

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

机器学习是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

本申请涉及人工智能中的机器学习，具体涉及胶囊网络，将胶囊网络应用于地图领域，用以对地图上的兴趣点(POI)之间的相似度进行判断。

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中确定兴趣点相似度的方法的应用环境图。如图1所示，该应用环境涉及用户终端110和服务器120，用户终端110和服务器120通过网络连接。用户可以通过用户终端110访问地图服务平台，服务器120可以是该地图服务平台所在的服务器。终端110或者服务器120，可以获取两个待匹配兴趣点的兴趣点信息，并基于该两个待匹配兴趣点的兴趣点信息，判断两个待匹配兴趣点之间的相似度。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

如图2所示，在一个实施例中，提供了一种确定兴趣点相似度的方法。本实施例主要以该方法应用于上述图1中的终端110(或服务器120)来举例说明。参照图2，该确定兴趣点相似度的方法具体包括如下步骤S202至步骤S206。

S202，获取两个待匹配兴趣点的兴趣点信息。

其中，待匹配兴趣点代表地图上的一个点，兴趣点信息通常包括名称、地址、类别等信息。例如，对于地图上的一个兴趣点，名称为“中国技术交易大厦”，地址为“海淀区北四环西路66号”，类别为“商务楼宇”。

S204，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵。

其中，匹配矩阵反映的是两个待匹配兴趣点的各类信息的匹配情况，各类信息的匹配情况可以包括名称匹配情况、地址匹配情况、类别匹配情况等。例如，假设两个待匹配兴趣点中，第一个待匹配兴趣点的信息如下：名称为“中国技术交易大厦”、地址为“北京市海淀区北四环西路66号”、类别为“商务楼宇”，第二个待匹配兴趣点的信息如下：名称为“华宇时尚购物中心”、地址为“北京市海淀区中关村南大街2号”、类别为“超市”，则该两个待匹配兴趣点的名称匹配情况为“中国技术交易大厦”和“华宇时尚购物中心”的匹配情况，地址匹配情况为“北京市海淀区北四环西路66号”和“北京市海淀区中关村南大街2号”的匹配情况，类别匹配情况为“商务楼宇”和“超市”的匹配情况。

S206，基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。

其中，两个待匹配兴趣点之间的相似度可以反映相似和不相似两种情况。例如，当确定的相似度大于或等于预设阈值，说明两个待匹配兴趣点相似，当确定的相似度小于预设阈值，说明两个待匹配兴趣点不相似。

上述确定兴趣点相似度的方法，获取两个待匹配兴趣点的兴趣点信息；基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵；基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。其中，匹配矩阵反映的是两个兴趣点的各类信息的匹配情况，直接基于匹配情况确定两个兴趣点的相似度，而无需采用复杂的规则对两个兴趣点各类信息的匹配程度进行预先判断，再对预先判断结果进行综合判断，从而可以略去规则及特征工程繁琐的调测，减少人工干预对于最终判断结果的影响，实现端到端，提高判断结果的准确性。

上述确定兴趣点相似度的方法，可以应用于地图兴趣点数据库中的冗余数据处理。具体地，针对地图兴趣点数据库中的一个兴趣点(用Q表示)，其余兴趣点(假设有n个，分别用Q1、Q2、……、Qn表示)为该兴趣点Q的匹配对象，将兴趣点Q分别与兴趣点Q1至Qn进行匹配，获得兴趣点Q分别与兴趣点Q1至Qn的相似度，即，将兴趣点Q与兴趣点Q1进行匹配(此时兴趣点Q与兴趣点Q1为两个待匹配兴趣点)，获得兴趣点Q与兴趣点Q1的相似度，将兴趣点Q与兴趣点Q2进行匹配(此时兴趣点Q与兴趣点Q1为两个待匹配兴趣点)，获得兴趣点Q与兴趣点Q2的相似度，以此类推，可以获得兴趣点Q分别与兴趣点Q1至Qn的相似度(分别用z1、z2、……、zn表示)；然后获取相似度z1至zn中的最大值，假设最大相似度为z1(即兴趣点Q与兴趣点Q1的相似度)，根据z1与预设阈值的大小，确定是否对兴趣点Q进行合并处理；若z1小于预设阈值，不对兴趣点Q进行合并处理，若z1大于或等于预设阈值，将兴趣点Q与兴趣点Q1合并。通过合并相似度高的兴趣点，可以去除冗余数据，节省数据存储资源。

在一个实施例中，兴趣点信息包括兴趣点名称，匹配矩阵包括名称向量匹配矩阵，如图3所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，包括如下步骤S302至步骤S306。

S302，分别切分两个待匹配兴趣点的兴趣点名称，分别获得各兴趣点名称包含的各分词。

在一个实施例中，可以利用条件随机场(crf)模型对兴趣点名称进行切分，获得兴趣点名称包含的各分词。例如，第一个待匹配兴趣点的名称为“中国技术交易大厦”，切分后获得的各分词为“中国”、“技术”、“交易”和“大厦”，第二个待匹配兴趣点的名称为“华宇时尚购物中心”，切分后获得的各分词为“华宇”、“时尚”、“购物”和“中心”。

S304，对切分后的各分词进行映射，获得各分词的分词向量。

在一个实施例中，可以利用训练好的词转换成向量(word2vector)模型对切分后的各分词进行映射，获得各分词的分词向量。具体地，可以将大量(例如8000万)分好词的兴趣点名称输入word2vector模型训练，得到分词与分词向量之间的映射关系。分词向量可以是一个多维向量，例如200维，可以表示为(a1，a2，……，a200)，简写为A。

例如，上述实施例中，第一个待匹配兴趣点的名称为“中国技术交易大厦”，其各分词“中国”、“技术”、“交易”和“大厦”的分词向量，可以分别表示为A1，B1，C1和D1；第二个待匹配兴趣点的名称为“华宇时尚购物中心”，其各分词“华宇”、“时尚”、“购物”和“中心”的分词向量，可以分别表示为A2，B2，C2和D2。

S306，根据两个兴趣点名称包含的各分词对应的分词向量，确定两个兴趣点之间的名称向量匹配矩阵，名称向量匹配矩阵的单元值，为相应的分词向量之间的余弦值。

例如，上述实施例中，第一个待匹配兴趣点名称的各分词的分词向量为A1，B1，C1和D1，第二个待匹配兴趣点名称的各分词的分词向量为A2，B2，C2和D2，将各分词向量进行交叉匹配，即将A1，B1，C1和D1都分别与A2，B2，C2和D2进行匹配，获得名称向量匹配矩阵，该名称向量匹配矩阵的各单元值，为分词向量之间的余弦值。具体地，两分词向量之间的余弦值可以通过两分词向量的点积除以两分词向量的模的乘积获得。

在一个实施例中，兴趣点信息包括兴趣点地址，匹配矩阵包括地址匹配矩阵，如图4所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，包括如下步骤S402至步骤S404。

S402，分别切分两个待匹配兴趣点的兴趣点地址，分别获得各兴趣点地址包含的各级地址。

在一个实施例中，可以根据行政区域划分等级对兴趣点地址进行切分，获得兴趣点地址包含的各级地址。例如，第一个待匹配兴趣点的地址为“广东省广州市天河区体育西路”，切分后获得的各级地址分别为“广东省”、“广州市”、“天河区”和“体育西路”，第二个待匹配兴趣点的地址为“广东省广州市海珠区新港西路”，切分后获得的各级地址分别为“广东省”、“广州市”、“海珠区”和“新港西路”。

S404，根据两个兴趣点名称包含的各级地址，确定两个兴趣点之间的地址匹配矩阵，地址匹配矩阵的单元值，为相应的各级地址之间的编辑距离。

例如，上述实施例中，第一个待匹配兴趣点的各级地址分别为“广东省”、“广州市”、“天河区”和“体育西路”，第二个待匹配兴趣点的各级地址分别为“广东省”、“广州市”、“海珠区”和“新港西路”，将各级地址按照对应的级别进行匹配，即“广东省”与“广东省”匹配，“广州市”与“广州市”匹配，“天河区”与“海珠区”匹配，“体育西路”与“新港西路”匹配，获得地址匹配矩阵，该地址匹配矩阵的各单元值，为相应的各级地址之间的编辑距离。编辑距离可以利用至少需要经过多少次处理才能将一个字符串变成另一个字符串来衡量，处理可以是插入、删除或替换的操作，例如，“广东省”与“广东省”的编辑距离为0，“天河区”与“海珠区”的编辑距离为2。

在一个实施例中，兴趣点信息包括兴趣点类别，匹配矩阵包括类别匹配矩阵，如图5所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，包括如下步骤S502至步骤S504。

S502，分别切分两个待匹配兴趣点的兴趣点类别，分别获得各兴趣点类别包含的各字段类别。

在一个实施例中，可以根据类别范围大小对兴趣点类别进行切分，获得兴趣点地址包含的各字段类别。例如，第一个待匹配兴趣点的类别为“美食：中餐厅：北京菜”，切分后获得的各字段类别分别为“美食”、“中餐厅”和“北京菜”，第二个待匹配兴趣点的类别为“美食：中餐厅：上海菜”，切分后获得的各字段类别分别为“美食”、“中餐厅”和“上海菜”。

S504，根据两个兴趣点类别包含的各字段类别，确定两个兴趣点之间的类别匹配矩阵，类别匹配矩阵的单元值，为相应的各字段类别之间的编辑距离。

例如，上述实施例中，第一个待匹配兴趣点的各字段类别分别为“美食”、“中餐厅”和“北京菜”，第二个待匹配兴趣点的各字段类别分别为“美食”、“中餐厅”和“北京菜”，将各字段类别按照对应的字段进行匹配，即“美食”与“美食”匹配，“中餐厅”与“中餐厅”匹配，“北京菜”与“上海菜”匹配，获得类别匹配矩阵，该类别匹配矩阵的各单元值，为相应的各字段类别之间的编辑距离。例如，“美食”与“美食”的编辑距离为0，“北京菜”与“上海菜”的编辑距离为2。

在一个实施例中，匹配矩阵还包括名称关键词匹配矩阵，如图6所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，还包括如下步骤S602至步骤S604。

S602，分别根据两个待匹配兴趣点的兴趣点名称，分别确定各兴趣点名称包含的关键词以及各关键词的角色类型。

例如，上述实施例中，第一个待匹配兴趣点的名称为“中国技术交易大厦”，切分后获得的各分词为“中国”、“技术”、“交易”和“大厦”，其中，关键词为“交易”和“大厦”，分别对应的角色类型为核心词和类别词，第二个待匹配兴趣点的名称为“华宇时尚购物中心”，切分后获得的各分词为“华宇”、“时尚”、“购物”和“中心”，其中，关键词为“华宇”和“购物”，分别对应的角色类型为核心词和类别词。

S604，根据两个兴趣点名称包含的各关键词及对应的角色类型，确定两个兴趣点名称之间的名称关键词匹配矩阵，名称关键词匹配矩阵的单元值，为相应的关键词之间的编辑距离。

例如，上述实施例中，第一个待匹配兴趣点的名称关键词为“交易”和“大厦”，分别对应的角色类型为核心词和类别词，第二个待匹配兴趣点的名称关键词为“华宇”和“购物”，分别对应的角色类型为核心词和类别词，将各关键词按照对应的角色类型进行匹配，即“交易”与“华宇”匹配，“大厦”与“购物”匹配，获得名称关键词匹配矩阵，该名称关键词匹配矩阵的各单元值，为相应的关键词之间的编辑距离。例如，“交易”与“华宇”的编辑距离为2，“大厦”与“购物”的编辑距离为2。

在一个实施例中，匹配矩阵还包括注意力匹配矩阵，如图7所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，还包括如下步骤S702至步骤S708。

S702，分别切分两个待匹配兴趣点的兴趣点名称，分别获得各兴趣点名称包含的各分词。

S704，根据各兴趣点名称切分后的各分词在兴趣点名称词库中的出现频率，获得各分词的分词权重。

在一个实施例中，假设兴趣点名称词库中有N个名称，一分词在该N个名称中出现n次，则该分词的分词权重为n与N的比值。

S706，根据两个兴趣点名称包含的各分词对应的分词权重，确定两个兴趣点名称之间的分词权重匹配矩阵，分词权重匹配矩阵的单元值，为相应的分词权重的乘积。

例如，上述实施例中，第一个待匹配兴趣点的名称为“中国技术交易大厦”的，其各分词“中国”、“技术”、“交易”和“大厦”的分词权重分别为e1，f1，g1和h1；第二个待匹配兴趣点的名称为“华宇时尚购物中心”，其各分词“华宇”、“时尚”、“购物”和“中心”的分词权重分别表示为e2，f2，g2和h2，将各分词权重进行交叉匹配，即将e1，f1，g1和h1都分别与e2，f2，g2和h2进行匹配，获得分词权重匹配矩阵，该分词权重匹配矩阵的各单元值，为相应的分词权重的乘积，例如e1e2，e1f2，e1g2，e1h2等。

S708，根据分词权重匹配矩阵和名称向量匹配矩阵，得到注意力匹配矩阵，注意力匹配矩阵的单元值，为分词权重匹配矩阵与名称向量匹配矩阵中对应的单元值的乘积。

例如，上述实施例中，第一个待匹配兴趣点的名称为“中国技术交易大厦”，第二个待匹配兴趣点的名称为“华宇时尚购物中心”，其名称向量匹配矩阵的第一个位置的单元值为“中国”和“华宇”的分词向量之间的余弦值(用x1表示)，其分词权重匹配矩阵的第一个位置的单元值为“中国”和“华宇”的分词权重的乘积(用y1表示)，则注意力匹配矩阵的第一个位置的单元值为x1和y1的乘积。

在一个实施例中，兴趣点信息还包括联系方式和来源信息，匹配矩阵还包括其他信息匹配矩阵，如图8所示，基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵，包括如下步骤S802至步骤S804。

S802，分别对两个待匹配兴趣点的联系方式和来源信息进行匹配，分别获得两个待匹配兴趣点的联系方式和来源信息的完全匹配值。

在一个实施例中，联系方式为电话号码，逐个比较两个待匹配兴趣点的电话号码在对应位置上的数字，若没有数字相同，完全匹配值为0，若有一个数字相同，完全匹配值为1，若有两个数字相同，完全匹配值为2，以此类推。进一步地，联系方式还可以包括电话号码类型，如“座机”、“手机”等，若电话号码类型不相同，完全匹配值为0，若电话号码类型相同，完全匹配值为1。来源信息表示兴趣点数据获取的途径，如腾讯地图、高德地图等，若来源途径不相同，完全匹配值为0，若来源途径相同，完全匹配值为1。

S804，对两个待匹配兴趣点的联系方式和来源信息的完全匹配值进行编码，获得其他信息匹配矩阵，其他信息匹配矩阵的单元值，为完全匹配值的编码值。

在一个实施例中，预先建立一个空白矩阵，将两个待匹配兴趣点的联系方式和来源信息的完全匹配值的编码值填充到该空白矩阵，获得其他信息匹配矩阵。具体的，可以是将电话号码的完全匹配值的编码值填充到空白矩阵的第一行，将电话号码类型的完全匹配值的编码值填充到空白矩阵的第二行，将来源途径的完全匹配值的编码值填充到空白矩阵的第三行。

例如，上述实施例中，电话号码的完全匹配值为0时，在空白矩阵的第一行的第一个位置赋值1，电话号码的完全匹配值为1时，在空白矩阵的第一行的第二个位置赋值1，电话号码的完全匹配值为2时，在空白矩阵的第一行的第三个位置赋值1，以此类推。电话号码类型的完全匹配值为0时，在空白矩阵的第二行的第一个位置赋值1，电话号码类型的完全匹配值为1时，在空白矩阵的第二行的第二个位置赋值1。来源途径的完全匹配值为0时，在空白矩阵的第三行的第一个位置赋值1，来源途径的完全匹配值为1时，在空白矩阵的第三行的第二个位置赋值1。

在一个实施例中，通过已训练胶囊网络，对两个待匹配兴趣点之间的匹配矩阵进行分析，获得两个待匹配兴趣点之间的相似度。具体地，将匹配矩阵中的各类型匹配矩阵，分别作为已训练胶囊网络的一个输入通道的输入，对各类型匹配矩阵进行分析，获得两个待匹配兴趣点之间的相似度。

在一个实施例中，如图9所示，胶囊网络的结构包括：卷积层、底层胶囊层、上层胶囊层和全连接层，如图10所示，对各类型匹配矩阵进行分析，获得两个待匹配兴趣点之间的相似度，包括以下步骤S1002至步骤S1008。

S1002，通过卷积层，对各类型匹配矩阵进行卷积，获得匹配特征。

在一个实施例中，将各类型匹配矩阵设为同样大小的50×50矩阵，分别作为胶囊网络的一个输入通道的输入，采用不同通道区分不同匹配矩阵的特征，如名称向量匹配矩阵、地址匹配矩阵、类别匹配矩阵等，图10中显示了5个通道，即输入为50×50×5，采用64个步长为1的3×3的卷积核，对各输入通道中的各类型匹配矩阵进行卷积，输出48×48×64的匹配特征。

S1004，通过底层胶囊层，对匹配特征进行组装，获得胶囊特征，每个胶囊特征包含多个匹配特征。

在一个实施例中，通过底层胶囊层，对匹配特征进行组装，如图10所示，可以理解为采用16个步长为2的3×3的卷积核，对48×48×64的匹配特征进行了8次卷积操作，输出23×23×8×16的胶囊特征，即每个胶囊特征包含8个匹配特征，是一个8维的向量。

S1006，通过上层胶囊层，对胶囊特征进行聚类，获得聚类特征。

在一个实施例中，利用聚类的思想，优化动态路由算法，将底层胶囊节点的各维度特征聚类成上层胶囊节点。具体地，包括以下步骤：初始化上层胶囊节点特征，作为原始的聚类中心；开始迭代，迭代次数可结合实际情况进行调整，迭代过程包括：归一化各个簇的聚类中心，归一化有助于迭代收敛，计算各底层胶囊节点特征和上层胶囊节点特征的叉积，得到底层胶囊节点特征和上层胶囊节点特征的相似度，对相似度进行归一化处理，获得底层胶囊节点特征聚类到上层胶囊节点特征的权重，对底层胶囊节点特征进行加权求和，用以更新聚类中心，即更新上层胶囊节点特征，对更新后的上层胶囊节点特征进行挤压函数(squash)处理，获得聚类特征。

S1008，通过全连接层，对聚类特征进行预测，获得两个待匹配兴趣点之间的相似度。

在一个实施例中，全连接层对输入的聚类特征进行二分类，输出结果为两个待匹配兴趣点相似和不相似两种情况的预测概率，当相似预测概率大于或者等于概率阈值时，确定两个待匹配兴趣点相似，当不相似预测概率大于或者等于概率阈值时，确定两个待匹配兴趣点不相似。

如图11所示，在一个实施例中，训练获得已训练胶囊网络的方法包括以下步骤S1102至步骤S1106。

S1102，获取设有样本标签的样本兴趣点的兴趣点信息，样本标签包括正样本标签和负样本标签，正样本标签表示对应的两个兴趣点相似，负样本标签表示对应的两个兴趣点不相似。

在一个实施例中，样本兴趣点可以选取已知相似关系的兴趣点对，相似的兴趣点对为正样本，正样本标签可以设为1，不相似的兴趣点对为负样本，负样本标签可以设为0。

S1104，基于各样本兴趣点的兴趣点信息，得到各样本兴趣点的样本匹配矩阵。

S1106，通过待训练胶囊网络，对各样本匹配矩阵进行分析，确定对应的样本兴趣点的相似度预测结果，并根据相似度预测结果和对应的样本标签的差异，调整待训练胶囊网络的参数，直至满足训练结束条件。

在一个实施例中，采用focal-loss损失函数对胶囊网络进行训练，具体地，focal-loss损失函数(L_fl)的表达式如下：

其中，y表示样本标签，y＝1表示正样本标签，y＝0表示负样本标签，y′表示输出的相似度预测结果(数值在0-1之间)，α表示平衡因子，用来平衡正负样本本身的数量比例不均，γ表示区分度因子，用于使模型更关注难分类的样本。通过该损失函数，可以增加模型对复杂样本的预测精度，提升聚合可信度。

在一个实施例中，训练结束条件可以是损失值收敛至预设值，也可以是训练次数达到预设次数。

在一个实施例中，针对同一测试集，模型预测结果如下表：

M0

M1

N0

N1

PM

RM

PN

RN

P

F1

V1

639

11863

38

14962

99.68％

94.89％

95.90％

99.75％

97.54％

97.23％

V2

507

11995

30

14970

99.75％

95.94％

96.72％

99.80％

98.05％

97.81％

V3

466

12036

56

14944

99.54％

96.27％

96.98％

99.63％

98.10％

97.88％

V4

449

12053

43

14957

99.64％

96.41％

97.09％

99.71％

98.21％

98.00％

其中，V1-V4分别对应不同的实施例，其中，V1对应的实施例中，匹配矩阵包括名称向量匹配矩阵、地址匹配矩阵、类别匹配矩阵、名称关键词匹配矩阵和其他信息匹配矩阵，且胶囊网络模型没有利用聚类思想优化动态路由算法，且采用margin-loss损失函数；V2对应的实施例与V1的区别在于，匹配矩阵增加了注意力匹配矩阵。V3对应的实施例与V2的区别在于，胶囊网络模型利用聚类思想优化了动态路由算法。V4对应的实施例与V3的区别在于，胶囊网络模型采用focal-loss损失函数。

M0表示正样本预测错误量，M1表示正样本预测正确量，N0表示负样本预测错误量，N1表示负样本预测正确量，PM表示正样本精度，RM表示正样本召回率，PN表示负样本精度，RN表示负样本召回率，P表示整体精度，F1表示对精度和召回率加权平均获得的F1分数,用于衡量模型精确度。从表中可见，V1-V4对应的实施例的预测结果逐步优化，最高的F1分数达到98％，说明预测结果具有较高的精确度。

应该理解的是，虽然图2-11的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2-11中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

如图12所示，在一个实施例中，提供了一种确定兴趣点相似度的装置1200，包括：获取模块1210、匹配模块1220和确定模块1230。

获取模块1210，用于获取两个待匹配兴趣点的兴趣点信息。

匹配模块1220，用于基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵。

确定模块1230，用于基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。

上述确定兴趣点相似度的装置，获取两个待匹配兴趣点的兴趣点信息；基于兴趣点信息，确定两个待匹配兴趣点之间的匹配矩阵；基于两个待匹配兴趣点之间的匹配矩阵，确定两个待匹配兴趣点之间的相似度。其中，匹配矩阵反映的是两个兴趣点的各类信息的匹配情况，直接基于匹配情况确定两个兴趣点的相似度，而无需采用复杂的规则对两个兴趣点各类信息的匹配程度进行预先判断，再对预先判断结果进行综合判断，从而可以略去规则及特征工程繁琐的调测，减少人工干预对于最终判断结果的影响，实现端到端，提高判断结果的准确性。

如图13所示，在一个实施例中，匹配模块1220包括：名称向量匹配单元1221、地址匹配单元1222和类别匹配单元1223。

名称向量匹配单元1221，用于：分别切分两个待匹配兴趣点的兴趣点名称，分别获得各兴趣点名称包含的各分词；对切分后的各分词进行映射，获得各分词的分词向量；根据两个兴趣点名称包含的各分词对应的分词向量，确定两个兴趣点之间的名称向量匹配矩阵，名称向量匹配矩阵的单元值，为相应的分词向量之间的余弦值。

地址匹配单元1222，用于：分别切分两个待匹配兴趣点的兴趣点地址，分别获得各兴趣点地址包含的各级地址；根据两个兴趣点名称包含的各级地址，确定两个兴趣点之间的地址匹配矩阵，地址匹配矩阵的单元值，为相应的各级地址之间的编辑距离。

类别匹配单元1223，用于：分别切分两个待匹配兴趣点的兴趣点类别，分别获得各兴趣点类别包含的各字段类别；根据两个兴趣点类别包含的各字段类别，确定两个兴趣点之间的类别匹配矩阵，类别匹配矩阵的单元值，为相应的各字段类别之间的编辑距离。

如图14所示，在一个实施例中，匹配模块1220还包括：名称关键词匹配单元1224，用于：分别根据两个待匹配兴趣点的兴趣点名称，分别确定各兴趣点名称包含的关键词以及各关键词的角色类型；根据两个兴趣点名称包含的各关键词及对应的角色类型，确定两个兴趣点名称之间的名称关键词匹配矩阵，名称关键词匹配矩阵的单元值，为相应的关键词之间的编辑距离。

如图14所示，在一个实施例中，匹配模块1220还包括：注意力匹配单元1225，用于：分别切分两个待匹配兴趣点的兴趣点名称，分别获得各兴趣点名称包含的各分词；根据各兴趣点名称切分后的各分词在兴趣点名称词库中的出现频率，获得各分词的分词权重；根据两个兴趣点名称包含的各分词对应的分词权重，确定两个兴趣点名称之间的分词权重匹配矩阵，分词权重匹配矩阵的单元值，为相应的分词权重的乘积；根据分词权重匹配矩阵和名称向量匹配矩阵，得到注意力匹配矩阵，注意力匹配矩阵的单元值，为分词权重匹配矩阵与名称向量匹配矩阵中对应的单元值的乘积。

如图14所示，在一个实施例中，匹配模块1220还包括：其他信息匹配单元1226，用于：分别对两个待匹配兴趣点的联系方式和来源信息进行匹配，分别获得两个待匹配兴趣点的联系方式和来源信息的完全匹配值；对两个待匹配兴趣点的联系方式和来源信息的完全匹配值进行编码，获得其他信息匹配矩阵，其他信息匹配矩阵的单元值，为完全匹配值的编码值。

在一个实施例中，确定模块1230，具体用于通过已训练胶囊网络，对匹配矩阵进行分析，确定两个待匹配兴趣点之间的相似度。

在一个实施例中，确定模块1230，具体用于将匹配矩阵中的各类型匹配矩阵，分别作为已训练胶囊网络的一个输入通道的输入，对各类型匹配矩阵进行分析，获得两个待匹配兴趣点之间的相似度。

在一个实施例中，已训练胶囊网络包括：卷积层、底层胶囊层、上层胶囊层和全连接层，确定模块1230，具体用于：通过卷积层，对各类型匹配矩阵进行卷积，获得匹配特征；通过底层胶囊层，对匹配特征进行组装，获得胶囊特征，每个胶囊特征包含多个匹配特征；通过上层胶囊层，对胶囊特征进行聚类，获得聚类特征；通过全连接层，对聚类特征进行分类，获得两个待匹配兴趣点之间的相似度。

如图15所示，在一个实施例中，确定兴趣点相似度的装置1200还包括训练模块1240，用于训练获得已训练胶囊网络。训练模块1240包括获取单元1241、匹配单元1242和训练单元1243。

获取单元1241，用于获取设有样本标签的样本兴趣点的兴趣点信息，样本标签包括正样本标签和负样本标签，正样本标签表示对应的两个兴趣点相似，负样本标签表示对应的两个兴趣点不相似。

匹配单元1242，用于基于各样本兴趣点的兴趣点信息，得到各样本兴趣点的样本匹配矩阵。

训练单元1243，用于通过待训练胶囊网络，对各样本匹配矩阵进行分析，确定对应的样本兴趣点的相似度预测结果，并根据相似度预测结果和对应的样本标签的差异，调整待训练胶囊网络的参数，直至满足训练结束条件。

关于确定兴趣点相似度的装置的具体限定可以参见上文中对于确定兴趣点相似度的方法的限定，在此不再赘述。上述确定兴趣点相似度的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图16示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110。如图16所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、输入装置和显示屏。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现确定兴趣点相似度的方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行确定兴趣点相似度的方法。计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

图17示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的服务器120。如图17所示，该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现确定兴趣点相似度的方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行确定兴趣点相似度的方法。

本领域技术人员可以理解，图16或图17中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的确定兴趣点相似度的装置可以实现为一种计算机程序的形式，计算机程序可在如图16或图17所示的计算机设备上运行。计算机设备的存储器中可存储组成该确定兴趣点相似度的装置的各个程序模块，比如，图12所示的获取模块、匹配模块和确定模块。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的确定兴趣点相似度的方法中的步骤。

例如，图16或图17所示的计算机设备可以通过如图12所示的确定兴趣点相似度的装置中的获取模块执行步骤S202。计算机设备可通过匹配模块执行步骤S204。计算机设备可通过确定模块执行步骤S206。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述确定兴趣点相似度的方法的步骤。此处确定兴趣点相似度的方法的步骤可以是上述各个实施例的确定兴趣点相似度的方法中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，使得处理器执行上述确定兴趣点相似度的方法的步骤。此处确定兴趣点相似度的方法的步骤可以是上述各个实施例的确定兴趣点相似度的方法中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种确定兴趣点相似度的方法，包括：

获取两个待匹配兴趣点的兴趣点信息；

2.根据权利要求1所述的方法，其特征在于，包括下述各项中的至少一项：

第一项：

所述兴趣点信息包括兴趣点名称，所述匹配矩阵包括名称向量匹配矩阵；

基于所述兴趣点信息，确定两个所述待匹配兴趣点之间的匹配矩阵，包括：

分别切分两个所述待匹配兴趣点的兴趣点名称，分别获得各兴趣点名称包含的各分词；

对切分后的各分词进行映射，获得各分词的分词向量；

根据两个所述兴趣点名称包含的各分词对应的分词向量，确定两个所述兴趣点之间的所述名称向量匹配矩阵，所述名称向量匹配矩阵的单元值，为相应的分词向量之间的余弦值；

第二项：

所述兴趣点信息包括兴趣点地址，所述匹配矩阵包括地址匹配矩阵；

分别切分两个所述待匹配兴趣点的兴趣点地址，分别获得各兴趣点地址包含的各级地址；

根据两个所述兴趣点名称包含的各级地址，确定两个所述兴趣点之间的所述地址匹配矩阵，所述地址匹配矩阵的单元值，为相应的各级地址之间的编辑距离；

第三项：

所述兴趣点信息包括兴趣点类别，所述匹配矩阵包括类别匹配矩阵；

分别切分两个所述待匹配兴趣点的兴趣点类别，分别获得各兴趣点类别包含的各字段类别；

根据两个所述兴趣点类别包含的各字段类别，确定两个所述兴趣点之间的所述类别匹配矩阵，所述类别匹配矩阵的单元值，为相应的各字段类别之间的编辑距离。

3.根据权利要求2所述的方法，其特征在于，还包括下述各项中的至少一项：

第一项：

所述匹配矩阵还包括名称关键词匹配矩阵；

基于所述兴趣点信息，确定两个所述待匹配兴趣点之间的匹配矩阵，还包括：

分别根据两个所述待匹配兴趣点的兴趣点名称，分别确定各兴趣点名称包含的关键词以及各关键词的角色类型；

根据两个所述兴趣点名称包含的各关键词及对应的角色类型，确定两个所述兴趣点名称之间的所述名称关键词匹配矩阵，所述名称关键词匹配矩阵的单元值，为相应的关键词之间的编辑距离；

第二项：

所述匹配矩阵还包括注意力匹配矩阵；

根据各兴趣点名称切分后的各分词在兴趣点名称词库中的出现频率，获得各分词的分词权重；

根据两个所述兴趣点名称包含的各分词对应的分词权重，确定两个所述兴趣点名称之间的分词权重匹配矩阵，所述分词权重匹配矩阵的单元值，为相应的分词权重的乘积；

根据所述分词权重匹配矩阵和所述名称向量匹配矩阵，得到所述注意力匹配矩阵，所述注意力匹配矩阵的单元值，为所述分词权重匹配矩阵与所述名称向量匹配矩阵中对应的单元值的乘积；

第三项：

所述兴趣点信息还包括联系方式和来源信息，所述匹配矩阵还包括其他信息匹配矩阵；

分别对两个所述待匹配兴趣点的联系方式和来源信息进行匹配，分别获得两个所述待匹配兴趣点的联系方式和来源信息的完全匹配值；

对两个所述待匹配兴趣点的联系方式和来源信息的完全匹配值进行编码，获得其他信息匹配矩阵，所述其他信息匹配矩阵的单元值，为所述完全匹配值的编码值。

4.根据权利要求1所述的方法，其特征在于，基于两个所述待匹配兴趣点之间的所述匹配矩阵，确定两个所述待匹配兴趣点之间的相似度，包括：

通过已训练胶囊网络，对所述匹配矩阵进行分析，获得两个所述待匹配兴趣点之间的相似度。

5.根据权利要求4所述的方法，其特征在于，通过已训练胶囊网络，对所述匹配矩阵进行分析，获得两个所述待匹配兴趣点之间的相似度，包括：

将所述匹配矩阵中的各类型匹配矩阵，分别作为所述已训练胶囊网络的一个输入通道的输入，对各类型匹配矩阵进行分析，获得两个所述待匹配兴趣点之间的相似度。

6.根据权利要求5所述的方法，其特征在于，所述已训练胶囊网络包括：卷积层、底层胶囊层、上层胶囊层和全连接层，对各类型匹配矩阵进行分析，获得两个所述待匹配兴趣点之间的相似度，包括：

通过所述卷积层，对各类型匹配矩阵进行卷积，获得匹配特征；

通过所述底层胶囊层，对所述匹配特征进行组装，获得胶囊特征，每个胶囊特征包含多个所述匹配特征；

通过所述上层胶囊层，对所述胶囊特征进行聚类，获得聚类特征；

通过所述全连接层，对所述聚类特征进行预测，获得两个所述待匹配兴趣点之间的相似度。

7.根据权利要求5所述的方法，其特征在于，训练获得所述已训练胶囊网络的方法包括：

获取设有样本标签的样本兴趣点的兴趣点信息，所述样本标签包括正样本标签和负样本标签，所述正样本标签表示对应的两个兴趣点相似，所述负样本标签表示对应的两个兴趣点不相似；

基于各所述样本兴趣点的兴趣点信息，得到各所述样本兴趣点的样本匹配矩阵；

通过待训练胶囊网络，对各所述样本匹配矩阵进行分析，确定对应的所述样本兴趣点的相似度预测结果，并根据所述相似度预测结果和对应的样本标签的差异，调整所述待训练胶囊网络的参数，直至满足训练结束条件。

8.一种确定兴趣点相似度的装置，其特征在于，所述装置包括：

获取模块，用于获取两个待匹配兴趣点的兴趣点信息；

9.一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。

10.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。