CN110309432A

CN110309432A - 基于兴趣点的同义词确定方法、地图兴趣点处理方法

Info

Publication number: CN110309432A
Application number: CN201810593274.4A
Authority: CN
Inventors: 周世洋; 季成晖; 卢俊之
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2018-06-11
Filing date: 2018-06-11
Publication date: 2019-10-08

Abstract

一种基于兴趣点的同义词确定方法、地图兴趣点处理方法、计算机存储介质及设备，该同义词确定方法包括：获取兴趣点库中各兴趣点，根据各兴趣点，确定各兴趣点同义词对，由于兴趣点库为根据电子地图对应的各兴趣点构建而成，无需利用外部翻译工具或搜索工具即可实电子地图对应的兴趣点同义词对，如此，可更加精确地确定同义词对，在后续地图兴趣点处理过程中基于预先确定的兴趣点对进行聚类，提高聚类准确性。

Description

基于兴趣点的同义词确定方法、地图兴趣点处理方法

技术领域

本发明涉及计算机信息处理技术领域，特别涉及一种基于兴趣点的同义词确定方法、地图兴趣点处理方法、计算机存储介质及设备。

背景技术

随着计算机智能技术的发展，涌现了大量智能应用工具，给人们的生活带来了极大的便利。如电子地图，给人们的出行带来了便利，可通过电子地图可搜索用户想要去的地方。电子地图中包括大量的兴趣点(Point of Interest，POI)，以供用户搜索查看，即通过电子地图可搜索查询某一个兴趣点的位置、到达某一个兴趣点的线路或者到某一个兴趣点的距离等，一个兴趣点可以是一家酒店、一个商店、一座学校、一个公交站等。

目前在电子地图上进行某一个兴趣点搜索时，常常会搜索出多个兴趣点，而这多个兴趣点是可能表示同一实体(例如，同一小区，同一医院)。比如，在电子地图上搜索北京大学第三医院时，搜索结果中包括北京大学第三医院、北大三院和北京大学三院的兴趣点，而这些兴趣点是表示同一个实体即北京大学第三医院。在电子地图的搜索结果中易出现表示同一实体的兴趣点太多的情况，然而，目前针对多个兴趣点进行同一实体判断可通过利用同义词为依据，同义词的准确性可影响后续判断的准确性，目前，一般是通过翻译工具或词条搜索的形式进行同义词确定，然而这种方法确定的同义词噪音多导致结果不准确。

发明内容

基于此，有必要针对同义词确定不准确的问题，提出一种基于兴趣点的同义词确定方法、地图兴趣点处理方法、计算机存储介质及设备。

一种基于兴趣点的同义词确定方法，包括步骤：

获取兴趣点库中的各兴趣点，所述兴趣点库根据电子地图对应的各兴趣点构建生成；

对获取的各兴趣点进行分析，确定各兴趣点同义词对。

一种地图兴趣点处理方法，包括以下步骤：

获取各待处理兴趣点；

根据预先确定的各兴趣点同义词对，对各所述待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点；

根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。

通过上述同义词确定方法、地图兴趣点处理方法、计算机存储介质以及设备，在同义词确定过程中，首先，从兴趣点库中获取各兴趣点，根据各兴趣点，确定各兴趣点同义词对，由于兴趣点库为根据电子地图对应的各兴趣点构建而成，无需利用外部翻译工具或搜索工具即可实电子地图对应的兴趣点同义词对，如此，可更加精确地确定同义词对。在地图兴趣点处理过程中，对待处理兴趣点进行聚类，基于聚类得到的各聚簇确定参考兴趣点，在聚类过程中，将预先确定的各兴趣点同义词作为聚类依据，可得到准确的聚簇即聚类结果，使执行地图兴趣点处理能够得到准确的参考兴趣点。

附图说明

图1为一个实施例中的应用环境示意图；

图2为一个实施例中基于兴趣点的同义词对确定方法的流程示意图；

图3为另一个实施例中基于兴趣点的同义词对确定方法的子流程示意图；

图4为一个实施例中电子地图中界面图；

图5为一个实施例中地图兴趣点处理方法的流程示意图；

图6为另一个实施例中地图兴趣点处理方法的子流程示意图；

图7为一个实施例中基于兴趣点的同义词对确定装置的模块示意图；

图8为一个实施例中地图兴趣点处理装置的模块示意图；

图9为一个实施例中计算机设备的内部结构图。

具体实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

本申请提供的基于兴趣点的同义词确定方法以及地图兴趣点处理方法，可以应用于如图1所示的应用环境中。其中，终端10通过网络与服务器20通过网络进行通信。服务器20可获取兴趣点库中的各兴趣点，兴趣点库根据电子地图对应的各兴趣点构建生成；对获取的各兴趣点进行分析，确定各兴趣点同义词对。在确定各兴趣点同义词对后，还可获取各待处理兴趣点；根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点；根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点。该服务器20可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该终端10可以是任何一种能够实现智能输入输出以及启动应用的设备，例如，台式电脑或移动终端，移动终端可以是智能手机、平板电脑、车载电脑、穿戴式智能设备等。

在一个实施例中，如图2所示，提供了一种基于兴趣点的同义词确定方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

S210：获取兴趣点库中的各兴趣点，兴趣点库根据电子地图对应的各兴趣点构建生成。

电子地图，即数字地图，是利用计算机技术，以数字方式存储和查阅的地图。兴趣点是地理信息系统中的一个术语，指可以抽象为点的地理对象，兴趣点可以包括名称、地址(地理位置信息)和坐标等。比如，兴趣点可以是电子地图上的某个地标、景点等，用以标示出该地所代表的政府部门、各行各业之商业机构(加油站、百货公司、超市、餐厅、酒店、便利商店、医院等)、旅游景点(公园、公共厕所等)、古迹名胜、交通设施(各式车站、停车场、超速照相机、速限标示等)等处所。再比如，电子地图上的一个兴趣点，其对应包括的名称为X1、地址为X2和坐标为X3。

预先根据电子地图的各兴趣点构建了兴趣点库(即按照数据结构来组织、存储和管理兴趣点的仓库)，以便后续的查看和调用等。在本实施例中，需要确定的是基于兴趣点的同义词对，为提高其精确性，从预先构建的兴趣点库中进行各兴趣点的获取。

例如，预先构建的兴趣点库根据N个兴趣点构建而成，后续需要进行基于兴趣点的同义词对确定时，可从该兴趣点库中获取上述N个兴趣点。

在一个示例中，上述获取兴趣点库中的各兴趣点的方式可以包括：获取SQL查询语句，执行SQL查询语句，从兴趣点库中查询与SQL查询语句对应的各兴趣点。其中，兴趣点库可以是hive数据库，通过hive对应的SQL查询语句即可从存储各兴趣点的hive数据库中获取各兴趣点。hive是基于Hadoop(分布式系统基础架构)的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL查询语句转换为MapReduce(一种编程模型，用于大规模数据集(大于1TB)的并行运算)任务进行运行。

S220：对获取的各兴趣点进行分析，确定各兴趣点同义词对。

在本实施例中，同义词对可以理解为能够表示相同意义的词语对，比如，电子地图上的一个中文名为XXX的商铺(即一个兴趣点)，XXX有对应的翻译为FFF，XXX与其对应的翻译FFF都是表示相同意义的词语，即表示同一个商铺的名称，可以认为XXX与FFF为同义词对。

由于获取的各兴趣点多样性，在各兴趣点之间难免会存在对应的同义词对，兴趣点同义词对可以包括整个兴趣点的同义词对(比如，各兴趣点的数量为N，第1个兴趣点和第2个兴趣点为同义词对)，也可以包括兴趣点中部分词的同义词对(比如，第3个兴趣点中的词X与第4个兴趣点中的词Y为同义词对，则X与Y为需要确定的兴趣点同义词对)。在从兴趣点库中获取各兴趣点后，基于各兴趣点即可确定各兴趣点同义词对。

在本实施例中，基于获取的各兴趣点确定兴趣点同义词对，例如，获取的各兴趣点的数量为N，分别为第1个兴趣点、第2个兴趣点、……、第N个兴趣点，确定的兴趣点同义词对的数量为P，其中，确定的兴趣点同义词可以包括第1个兴趣点和第2个兴趣点的同义词对，第3个兴趣点中的词X与第4个兴趣点中的词Y的同义词对、第5个兴趣点和第6个兴趣点的同义词对和第7个兴趣点中的词W与第8个兴趣点中的词Z的同义词对等。上述兴趣点同义词对可作为后续地图兴趣点处理过程的依据。

通过上述同义词确定方法，从兴趣点库中获取各兴趣点，根据各兴趣点，确定各兴趣点同义词对，由于兴趣点库为根据电子地图对应的各兴趣点构建而成，无需利用外部翻译工具或搜索工具即可实电子地图对应的兴趣点同义词对，如此，可更加精确地确定兴趣为点同义词对，为后续地图兴趣点处理过程提供准确的同义词对，使后续能准确执行地图兴趣点处理。

在一个实施例中，如图3所示，对获取的各兴趣点进行分析，确定各兴趣点同义词对的步骤S220，包括：

S310：基于获取的各兴趣点，确定各待分词兴趣点。

待分词兴趣点指还未被分词等待被分词的兴趣点，上述各待分词兴趣点属于各兴趣点，可从各兴趣点筛选出上述各待分词兴趣点。比如，各兴趣点的数量有N个，可基于N个兴趣点确定需要分词的M个待分词兴趣点。其中，M小于N。

S320：对各待分词兴趣点进行分词处理，获得各待分词兴趣点的各分词。

分词处理可以理解为将一个词序列切分成一个一个单独的词语的过程，比如，针对一个为“我喜欢读书”的词序列，通过分词处理，可得到分词：“我”、“喜欢”和“读书”。在本实施例中，在确定各待分词兴趣点之后，由于各待分词兴趣点中可能包含了对于确定同义词对过程无效的内容，则首先可对各待分词兴趣点进行分词处理，即可获得各待分词兴趣点的各分词。比如，一个待分词兴趣点为“A公司(五道口)”，其名称为A公司，地址为五道口，对其进行分词处理，可得到分词：“A”、“公司”和“五道口”。

S330：分别对各待分词兴趣点的各分词进行角色标注，获得各待分词兴趣点的各分词的角色类型。

在获得各待分词兴趣点的各分词后，为便于后续同义词对的确定，可分别对各待分词兴趣点的各分词进行角色标注，获得各待分词兴趣点的各分词的角色类型。其中，角色标注可以理解为依据待分词兴趣点中各分词的上下文给每个分词确定一个最合适的角色类型。

比如，如前的待分词兴趣点：“A公司(五道口)”，对应的各分词进行角色标注后，可确定分词“A”、“公司”和“五道口”的角色类型，例如，在一个具体实施例中，确定分词“A”的角色类型为品牌类型，即“A”表示一个品牌。

在一个示例中，对待分词兴趣点的各分词进行角色标注的方式可以包括：基于预设角色标注算法对待分词兴趣点的各分词进行角色标注。其中，预设角色标注算法可以为CRF(条件随机场)角色标注算法，通过训练序列标注模型(CRF即是序列标注模型中的一种)，实现对每个分词的角色的标注。CRF结合了最大熵模型和隐马尔可夫模型的特点，是典型的判别式模型，通过CRF能够准确确定待分词兴趣点中各分词的角色类型。

S340：根据各待分词兴趣点的各分词的角色类型，确定兴趣点同义词对。

在各待分词兴趣点的各分词的角色类型确定后，将各待分词兴趣点的各分词的角色类型作为兴趣点同义词对确定的依据，提高兴趣点同义词对的精确性。

在一个实施例中，待分词兴趣点包括：包含第一语言类别词和第二语言类别词的第一兴趣点。

在本实施例中，上述根据各待分词兴趣点的各分词的角色类型，确定兴趣点同义词对的步骤S340，包括：确定第一兴趣点的第一语言类别分词与第二语言类别分词的相关性信息，其中，第一语言类别分词与第二语言类别分词的角色类型均为第一类型，且第一语言类别分词与第二语言类别分词相邻；将满足第一同义词判定条件的相关性信息对应的第一语言类别分词与第二语言类别分词，确定为第一类型的兴趣点同义词对。

针对不同国家，其对应的语言类别不尽相同，语言类别词表示该语言类别对应的词。比如，针对中文(即一种语言类别)，其对应的词即为中文词，针对英文(另一种语言类别)，其对应的词即为英文词。

在各兴趣点中，可以存在只包括第一语言类别词的兴趣点、只包括第二语言类别词的兴趣点和包括第一语言类别词和第二语言类别词的兴趣点即上述第一兴趣点。在本实施例中，根据各兴趣点确定的待分词兴趣点包括第一语言类别词和第二语言类别词的第一兴趣点，即从各兴趣点中筛选出包括第一语言类别词和第二语言类别词的第一兴趣点。在一个示例中，第一语言类别可以为中文类别，第二语言类别为与第一语言类别属于不同语言类别，例如，可以为英文类别。

相关性信息表示两个参数之间的相关性即相关程度。在一个示例中，相关性信息可以为互信息(可以看成是一个随机变量中包含的关于另一个随机变量的信息量)，例如，设有两个随机变量，其中，两个随机变量的互信息即为两个随机变量的联合分布(联合概率分布)与边际分布乘积(两个随机变量的边际分布(边缘概率分布)的乘积)的相对熵。

在第一兴趣点中可能会同时出现语言类别不同但均属于第一类型的两个分词，即可通过者之间的互信息以确定两个分词是否为同义词对。在互信息满足第一同义词判定条件，表示对应的两个分词为同义词对。

第一语言类别分词与第二语言类别分词相关性信息越高，其对应的第一语言类别分词与第二语言类别分词之间相关性高，其相关程度越高，为同义词的可能性也越高。在相关性信息满足第一同义词判定条件时，可确定该相关性信息对应的第一语言类别分词与第二语言类别分词为同义词对。在本实施例中，第一同义词判定条件可以包括相关性信息大于预设信息值。在一个示例中，第一类型可以为品牌类型。

在一个示例中，互信息的计算公式为：

其中，p(x，y)是x和y的联合概率分布，在本实施例中，x可以表示第一语言类别分词，y可以表示第二语言类别分词，P(x)和P(y)分别是x和y的边缘概率分布。

p(x，y)是指x和y出现在相同第一兴趣点的次数M除以x和y中任意一个在各兴趣点中出现的次数。p(x)是指x在各兴趣点中出现的次数除以各兴趣点的总数N，P(y)是指y在各兴趣点中出现的次数除以各兴趣点的总数N。

在一个实施例中，兴趣点库包括第一兴趣点库，上述第一兴趣点可来自于第一兴趣点库中的兴趣点。

在一个实施例中，待分词兴趣点包括兴趣点对，兴趣点对包括第二兴趣点和第三兴趣点，第二兴趣点的语言类型为第一语言类别，第三兴趣点的语言类型为第二语言类别、且与第二兴趣点对应。

在本实施例中，上述根据各待分词兴趣点的各分词的角色类型，确定兴趣点同义词对的步骤S340，包括：根据各兴趣点对的各分词的角色类型，分别对齐各兴趣点对的各分词；分别基于对齐后兴趣点对的各分词，确定各兴趣点同义词对。

兴趣点库的各兴趣点中，语言类型为第一语言类别的第二兴趣点可以有对应的第三兴趣点，第三兴趣点的语言类型为第二语言类别。比如，对于第二兴趣点：北京A1服装有限公司，A1指代任意的中文词，该第二兴趣点对应的语言类型为中文，其有对应的第三兴趣点：Beijing A2Garment Company Limited，其中，A2为中文A1对应的英文，该第三兴趣点对应的语言类型为英文，第二兴趣点与第三兴趣点成对，构成一个兴趣点对。

针对表达相同意思的不同语言类别的兴趣点，为了能准确将不同语言类别但表达意思相同的分词对应，可进行分词对齐处理。分词对齐是指把不同语言类别的意思相同的分词对应，即对齐后的不同语言类别的分词对表示的意思相同。比如，上述第二兴趣点和第三兴趣点，第二兴趣点中的分词“北京”对齐第三兴趣点中的分词“Beijing”，第二兴趣点中的分词“A1”对齐第三兴趣点中的分词“A2”，第二兴趣点中的分词“服装”对齐第三兴趣点中的分词“Garment”，第二兴趣点中的分词“有限”对齐第三兴趣点中的分词“Limited”，第二兴趣点的分词“公司”与第三兴趣点中的分词“Company”对齐。

在对齐各兴趣点对的各分词后，基于对齐后兴趣点对的各分词，可快速准确地确定各兴趣点同义词对。

在一个实施例中，兴趣点对的各分词的对齐方式可以包括：基于预设对齐工具对兴趣点对的各分词进行对齐。在一个示例中，预设对齐工具可以包括GIZA++工具，GIZA++工具为用于做词对齐的工具。

例如，兴趣点对1中第二兴趣点的分词包括“美利达”和“自行车”，第三兴趣点的分词包括“merida”和“bicycles”，可利用GIZA++工具对兴趣点对中各分词进行对齐，对齐结果可如表1所示。又例如，兴趣点对2中第二兴趣点的分词包括“红星”、“·”“美凯龙”、“上海”、“真北路”、“商场”以及“南馆2号门”，第三兴趣点的分词包括“Hongxing”、“macalline”、“shanghai”、“zhenbei rd”、“shopping mall”以及“nan hall no.2door”，可利用GIZA++工具对兴趣点对中各分词进行对齐，对齐结果可如表2所示。

表1兴趣点对1中各分词对齐结果

美利达	自行车
		merida	bicycles

表2兴趣点对2中各分词对齐结果

在一个实施例中，兴趣点库还可包括第二兴趣点库，第二兴趣点库中包括了上述兴趣点对，即上述兴趣点对可来自于第二兴趣库。

在一个实施例中，上述分别基于对齐后兴趣点对的各分词，确定各兴趣点同义词对，包括：过滤对齐后的兴趣点对的各分词中的第一分词对，第一分词对包含的两个分词的语言类型相同；基于过滤后的兴趣点对的各分词，确定各兴趣点同义词对。

在对齐后的兴趣点对的各分词中，可能存在相同语言类型的分词对，为了提高后续兴趣点同义词对的精确性，可以将对齐后的兴趣点对的各分词中的第一分词对过滤。如前的对齐后的兴趣点(第二兴趣点和第三兴趣点)中的各分词，分词“北京”与分词“Beijing”的语言类型相同，即“北京”是中文，“Beijing”是中文拼音，均为中文类型，可将该分词对过滤。然后，再根据过滤后的兴趣点对的各分词，确定各兴趣点同义词对。

在一个实施例中，上述基于过滤后的兴趣点对的各分词，确定各兴趣点同义词对，包括：将过滤后的兴趣点对的各分词中，角色类型相同的两个分词确定为兴趣点同义词对，角色类型相同的两个分词的语言类型不相同。

本实施例在确定兴趣点同义词对的过程中，过滤后的兴趣点对的各分词是已经过对齐处理以及过滤处理过，即可将语言类型不同但角色类型相同的且对齐的两个分词确定为兴趣点同义词对。比如，如前的兴趣点对，A1与A2对齐，若A1和A2的角色类型相同，例如均为品牌类型，且语言类型不同，A1的语言类别为中文类别，A2的语言类型为英文类别，则可将A1和A2确定为一个兴趣点同义词对。

在一个示例中，角色类型相同的两个分词可以为角色类型分别为第一类型的两个分词。即是将过滤后的兴趣点对的各分词中，角色类型为第一类型的两个分词确定为兴趣点同义词对。其中，第一类型可以为品牌类型。

在一个实施例中，上述基于过滤后的兴趣点对的各分词，确定各兴趣点同义词对，包括：确定过滤后的兴趣点对的第二分词对的共现概率，第二分词对中的各分词的角色类型不属于预定角色类型，预定角色类型包括第一类型；将共现概率大于预设概率值的第二分词对中的各分词，确定为第一类型的兴趣点同义词对。

即在本实施例中，对兴趣点对中不属于第一类型的分词进行同义词对确定，对同义词进行扩展，增强同义词对的多样性。其中，第二分词对中的各分词的角色类型相同，属于预设角色类型，如此，从第二分词对中确定兴趣点同义词对，可提高兴趣点同义词对的准确性。分词对的共现概率指分词对中的各分词在上述兴趣点对中成对共同出现的概率。可以理解，分词对的共现概率为分词对中的各分词在上述兴趣点对中成对共同出现的频次与分词对中其中一个分词在兴趣点对中出现的频次的比值。具体地，第二分词对的共现概率为第二分词对中各分词同时存在于兴趣点对的次数(即同时出现在兴趣点对中的次数)除以该第二分词对中任意一个分词存在于各兴趣点对的次数。

在一个示例中，其中一个分词可以为语言类型为第一语言类别的词，其中，第一语言类别可以为中文类别。比如，上述兴趣点对中包括有POI1-POI2兴趣点对、POI3-POI4兴趣点对和POI5-POI6兴趣点对，其中，第二分词对为爱-Love分词对，该第二分词对在POI1-POI2兴趣点对中成对共同出现了一次，POI3-POI4兴趣点对中出现了一次爱-LV的分词对，POI5-POI6兴趣点对也出现了一次爱-LV的分词对。则分词“爱”在各兴趣对中出现了3次，而第二分词对即爱-Love分词对出现了1次，则共现概率为1/3。

上述第二分词对中各分词在角色标注过程中可以标注为专名，即其角色类型可以为专名，上述预设角色类型可以为专名。例如，兴趣对中的第二兴趣点为“耐克(五道口店)”，第三兴趣点为“Nike(WuDaokou shop)”，进行角色标注后，“耐克”的角色类型为专名，“Nike”的角色类型也为专名，均不属于第一类型，且均属于专名。如表3所示，为对该兴趣对中第二兴趣点中的各分词进行角色标注的结果。如表4所示，为对该兴趣对中第三兴趣点中的各分词进行角色标注的结果。

表3

耐克	(	五道口	店	)
					专名	标点符号	地名	泛类别词	标点符号

表4

“耐克”与“Nike”对齐,“五道口”与“WuDaokou”对齐，“店”与“shop”对齐，可通过专名“耐克”找到对齐的“Nike”。其中，“耐克”与“Nike”属于相同角色类型，即预设角色类型，且不属于第一类型，可确定其为第二分词对。然后通过其对应的共现概率，若共现概率大于预设概率值，则可将耐克-Nike分词作为第一类型的兴趣点同义词对。

在一个实施例中，待分词兴趣点包括获取的各兴趣点。

在本实施例中，上述根据各待分词兴趣点的各分词的角色类型，确定兴趣点同义词对的步骤S340，包括：根据各兴趣点的各分词的角色类型，筛选出各兴趣点的角色类型为第二类型的各分词；确定角色类型为第二类型的各分词的词向量，并基于角色类型为第二类型的各分词的词向量，确定角色类型为第二类型的各分词之间的相似度；将第三分词对确定为第二类型的兴趣点同义词对，第三分词对包含的两个分词的相似度大于预设相似度阈值。

上述已确定第一类型的兴趣点同义词对，还可对第二类型的兴趣点同义词对进行确定，从而实现在各类型下的兴趣点同义词对，从而，首先需要根据各兴趣点的各分词的角色类型，筛选出各兴趣点的角色类型为第二类型的各分词。在一个示例中，第二类型可以为业务类型，业务类型的词可以理解为对于业务描述的词，例如，电焊铺、鸟店、搭棚、艺术坊等业务描述的词。

词向量是词对应的特征向量，即能表征词的特征。在角色类型为第二类型的各分词确定后，可确定角色类型为第二类型的各分词的词向量，在本实施例中，可通过软件工具word2vec确定分词的向量。

在词向量确定后，根据角色类型为第二类型的各分词的词向量，即可确定角色类型为第二类型的各分词之间的相似度(即角色类型为第二类型的各分词中两两之间的相似度，例如，各分词包括分词1、分词2和分词3，则各分词之间的相似度即包括分词1和分词2之间的相似度、分词1和分词3之间的相似度和分词2和分词3之前的相似度)。相似度即表示两个参数之间的相似程度，在一个示例中，可将各词向量之间的距离，作为对应各分词之间的相似度。

具体地，各分词之间的相似度的确定方式可以包括：将各分词对应的各词向量之间的余弦值作为各分词之间的相似度。其中，各词向量之间的余弦值即表示各词向量中两两之间的余弦值。

表5

警察局	交警局	0.85485
			混钝面	混炖面	0.8544
理烫染	拉烫染	0.85471
			砂锅粥	沙煲粥	0.85381
自闭症	和孤独	0.85379

如表5所示，为一示例中业务类型下部分分词之间的相似度，即确定的角色类型为业务类型的各分词中部分分词包括警察局、交警局、混钝面、混炖面、理烫染、拉烫染、砂锅粥、沙煲粥、自闭症和孤独症。其中，警察局和交警局的相似度为0.85485，混钝面和混炖面之间的相似度为0.8544，理烫染和拉烫染之间的相似度为0.85417，砂锅粥和沙煲粥之间的相似度为0.85318，自闭症和孤独症之间的相似度为0.85379。预设相似度阈值若为0.85，则上述分词之间的相似度均大于0.85，则可将警察局和交警局、以及自闭症和孤独症确定为业务类型下的兴趣点同义词对。

在一个实施例中，上述对获取的各兴趣点进行分析，确定各兴趣点同义词对的步骤S220，包括：从获取的各兴趣点中确定各第四兴趣点；根据各第四兴趣点，生成对应的各词条搜索请求，并获取基于词条搜索请求获得的各第四兴趣点对应的词条页面；解析各第四兴趣点对应的词条页面，获得各第四兴趣点对应的解析结果；基于各第四兴趣点对应的解析结果，获得第四兴趣点的各别名同义词，并将第四兴趣点以及对应的各别名同义词，确定为第三类型的兴趣点同义词对。

各第四兴趣点属于各兴趣点，在本实施例中，需要确定的是在第三类型的兴趣点同义词对。将第四兴趣点作为搜索依据进行搜索以确定同义词对。具体地，首先要生成各第四兴趣点对应的各词条搜索请求，在一个实施例中，可以将词条搜索请求发送至搜索服务器，由搜索服务器根据词条搜索请求进行词条页面的搜索，并将搜索的词条页面返回，从而，可获取基于词条搜索请求获得的各第四兴趣点对应的词条页面。解析各第四兴趣点对应的词条页面，获得各第四兴趣点对应的解析结果，然而，解析结果中包括的内容过多，大多并不是第四兴趣点的同义词，从而需要基于各第四兴趣点对应的解析结果，来确定第四兴趣点的各别名同义词，并将第四兴趣点以及对应的各别名同义词，确定为第三类型的兴趣点同义词对。

一个对象可以有多种名称，而多种名称都是表示这一个对象，即多个名称之间互为别名。在一个示例中，第三类型可以为别名类型。分词的别名指该分词的其他名称，例如，对于分词“C”，其有其他的名称为分词“C1”。即通过上述过程可确定在别名类型下的各兴趣点同义词对。

在一个实施例中，基于各第四兴趣点对应的解析结果，获得第四兴趣点的各别名同义词的步骤可以包括：分别对各第四兴趣点对应的解析结果进行过滤，基于各第四兴趣点对应的过滤后的解析结果，获得第四兴趣点的各别名同义词。

针对一个第四兴趣点，进行网页爬取后，得到词条网页，不同第四兴趣点对应的词条网页中的信息不同。从而，在对不同第四兴趣点对应的词条页面进行解析后得到的解析结果不同，然而解析结果中会存在与兴趣点无关的结果，需将其过滤排除。即对第四兴趣点对应的解析结果进行过滤，基于第四兴趣点对应的过滤后的解析结果，获得第四兴趣点的各别名同义词，如此，可提高第四兴趣点的各别名同义词的准确性。

在一个实施例中，解析结果包括词条页面中的词条以及词条目录。对第四兴趣点对应的解析结果进行过滤的方式可以包括：获取各预设词条类别分别对应的目录集，并基于各目录集，构建词袋模型；基于词袋模型以及各预设词条类别对应的目录集，分别确定各预设词条类别对应的第一词袋向量；基于词袋模型以及第四兴趣点对应的词条目录，确定词条目录对应的第二词袋向量；确定第二词袋向量分别与各第一词袋向量之间的相似度；在最大相似度小于预设相似度时，将该第四兴趣点对应的词条过滤。

在最大相似度大于或等于预设相似度时，将最大相似度对应的第一词袋向量对应的预设词条类别作为该第四兴趣点对应词条的类别。并基于第四兴趣点对应词条的类别，将属于预设类别的第四兴趣点对应词条过滤。

词条指收列的词语及其释文。词条可以是字、词，也可以由字、词等组成。在词条页面中，词条是其构成的基本单元，是对各种事物、现象等概念的解释。针对一个第四兴趣点，其对应的词条可以有多个，则对应的词条目录有多种，即对一个第四兴趣点可以有不同的解释，即可产生不同的词条，从而需要对词条进行过滤，确保过滤后的词条准确，使后续确定的别名同义词更加准确。

在服务器中，预先设置有各预设词条类别，且分别对应其目录集，目录集中包括至少一个目录，且该目录与该预设词条类别对应。词袋模型中包括各目录集中的各目录，可以理解为由各目录集中的各目录组成的词袋向量。

例如，预设词条类别可以包括但不限于教育机构、品牌以及医院等。针对教育机构的类别，其对应的目录集中的各目录可以有6个，包括办学历史、学术研究、办学条件、文化传统、学校领导以及校园环境。针对品牌的类别，其对应的目录集中各目录可以有4个，包括品牌历史、产品及服务、品牌文化以及所获荣誉。针对医院的类别，其对应的目录集中各目录可以有5个，包括概述、医院介绍、重点科室、医护团队以及就诊指南。可以理解，上述词袋模型中包括上述各预设词条类别对应的15个目录。

基于该词袋模型以及各预设词条类别对应的目录集，分别确定各预设词条类别对应的第一词袋向量，可以理解为，将词袋模型中属于该预设词条类别的目录集的目录设置为1，词袋模型中不属于该预设词条类别的目录集的目录设置为0，得到该预设词条类别的第一词袋向量，如此，基于各预设词条类别的目录集以及该词袋模型，可确定各预设词条类别对应的第一词袋向量。

例如，词袋模型的向量形式为(办学历史、学术研究、办学条件、文化传统、学校领导、校园环境、品牌历史、产品及服务、品牌文化、所获荣誉、概述、医院介绍、重点科室、医护团队、就诊指南)，针对教育机构的类别，由于教育机构的目录集中包括办学历史、学术研究、办学条件、文化传统、学校领导和校园环境，将词袋模型中属于该预设词条类别的办学历史、学术研究、办学条件、文化传统、学校领导和校园环境设置为1，其他设置为0，则得到教育机构对应的第一词袋向量为(1、1、1、1、1、1、0、0、0、0、0、0、0、0、0)。针对品牌的类别，由于品牌的目录集中包括品牌历史、产品及服务、品牌文化、所获荣誉，将词袋模型中属于该预设词条类别的品牌历史、产品及服务、品牌文化、所获荣誉设置为1，其他设置为0，则得到品牌对应的第一词袋向量为(0、0、0、0、0、0、1、1、1、1、0、0、0、0、0)。针对医院的类别，由于医院的目录集中包括概述、医院介绍、重点科室、医护团队、就诊指南，将词袋模型中属于该预设词条类别的概述、医院介绍、重点科室、医护团队、就诊指南设置为1，其他设置为0，则得到医院对应的第一词袋向量为(0、0、0、0、0、0、0、0、0、0、1、1、1、1、1)。

基于词袋模型以及第四兴趣点对应的词条目录，确定词条目录对应的第二词袋向量，可以理解为，将词袋模型属于第四兴趣点的词条目录的目录设置为1，词袋模型不属于第四兴趣点的词条目录的目录设置为0。例如，第四兴趣点为北京大学，对应的词条目录包括办学历史和学术研究，则将词袋模型中的办学历史和学术研究设置为1，其他设置为0，则得到北京大学对应的第二词袋向量为(1、1、0、0、0、0、0、0、0、0、0、0、0、0、0)。

如此，即可计算第二词袋向量分别与各第一词袋向量之间的相似度，可获得各相似度中的最大相似度，在最大相似度小于预设相似度时，表示该第四兴趣点的词条不属于上述各预设词条类别，需将该第四兴趣点对应的词条过滤，以确保后续确定同义词对的准确性。

若最大相似度大于或等于预设相似度时，即表示各预设词条类别中存在词条匹配的类别，则将最大相似度对应的第一词袋向量对应的预设词条类别作为该第四兴趣点对应词条的类别。为了进一步确保准确性，还需基于第四兴趣点对应词条的类别，将属于预设类别的第四兴趣点对应词条过滤。即使确定第四兴趣点对应的词条属于各预设词条类别，但其类别可能是与电子地图有关的兴趣点无关联的，需排除。具体地，将属于预设类别的第四兴趣点对应词条过滤。

其中，指定类别可以包括小说类别、电影类别以及电视剧类别等，即可将属于这些类别的词条过滤，使过滤后的解析结果与兴趣点更加接近。即过滤后的解析信息排除了指定类别对应的词条，基于该过滤后的解析结果，可准确确定第四兴趣点的各别名同义词。

在一个实施例中，基于各第四兴趣点对应的解析结果，获得第四兴趣点的各别名同义词，可以理解为，基于各第四兴趣点对应的解析结果中词条，获取第四兴趣点的各别名同义词。在一个示例中，可以是基于各第四兴趣点对应的过滤后的解析结果中词条，获取第四兴趣点的各别名同义词。

在一个实施例中，从获取的各兴趣点中确定各第四兴趣点的步骤可以包括从获取的各兴趣点中筛选出满足预设筛选条件的各第四兴趣点。其中，预设筛选条件可以包括各兴趣点对应的指标值大于预设指标值。其中，指标值基于用户历史行为数据确定，。比如，预设指标值可以为100。

在一个实施例中，从获取的各兴趣点中确定各第四兴趣点的方式可以包括：基于用户行为数据，确定各兴趣点的指标值；将各兴趣点中指标值大于预设指标值的兴趣点作为第四兴趣点。

用户历史行为数据可以包括用户对兴趣点的搜索记录，在实际应用中，用户可通过电子地图进行兴趣点的搜索，则会记录用户对该兴趣点的搜索行为。例如，用户1在电子地图中搜索了兴趣点Z，则对应有该用户1对兴趣点Z的搜索记录，并记录有对应的搜索时间。通过用户历史行为数据，可获知在预设历史时间段内对各兴趣点的搜索量，即基于用户历史行为数据，可确定各兴趣点对应的搜索量，从而可基于搜索量确定各兴趣点的指标值；将各兴趣点中指标值大于预设指标值的兴趣点作为第四兴趣点。其中，指标值可以理解为反映对兴趣点某一行为水平的量值，在一个示例中，可以反映对兴趣点的搜索水平的量值。

在一个实施例中，对获取的各兴趣点进行分析，确定各兴趣点同义词对的步骤S220，包括：

从获取的各兴趣点中确定类型为第四类型的各第五兴趣点；

基于类型为第四类型的各第五兴趣点之间的关系，确定属于第四类型的各兴趣点同义词对，第四类型的兴趣点同义词对中的各兴趣点的长度不完全相同、相对位置关系相同、且其中一个兴趣点的词包含其他各兴趣点的词。

针对许多兴趣点，在实际应用中，分别对应有简称。在本实施例中，即可通过检测一个兴趣点是否为另一个兴趣点的简称来确定第四类型的兴趣点同义词对。具体地，首先分析各第五兴趣点之间的关系，将各兴趣点的长度不安全相同、词的相对位置关系相同、且其中一个兴趣点的词包含其他各兴趣点的词的同义词对确定为第四类型的兴趣点同义词对。

比如，一个兴趣点为XY和另一个兴趣点为XZY，XY中词的相对位置关系即X和Y的相对位置关系，与XZY中的X和Y的相对位置关系相同，且兴趣点XZY的词包括了兴趣点XY中的各词。具体例如，人民检察院-检院，食品药品监督管理局-食品药监局，地方税务局-地税局，其分别为第四类型下的兴趣点同义词对。

在一个示例中，第四类型可以包括行政机构类型。行政机构在实际应用中常用到，而大部分行政机构分别对应有简称。通过上述过程即可确定行政机构类型的各兴趣点同义词对。

在另一个示例中，第四类型还可以包括同义模式类型，同义模式类型指满足某种特定模式(例如，地名+学校名的模式，其中，地名可以为省级、市级、自治州、县级或镇级)的类型，即同义模式类型的兴趣点满足一定模式。可以进行简化得到简称，无论其如何简化，简化后的兴趣点的长度与简化前的兴趣点满足条件：简化后的兴趣点的长度与简化前的兴趣点的长度不完全相同、词的相对位置关系相同、且简化前的兴趣点的词包含简化后的兴趣点的词。

例如，一个兴趣点为北京市第三中学的兴趣点，其呈现市级地名+学校名的模式，另一个为北京三中的兴趣点，其包含的词与上述北京市第三中学的兴趣点中的词的相对位置关系是相同的(比如，词“北”在词“京”之前，词“北京在词“三”之前，词“三”在词“中”的前)，且北京市第三中学中的词包含北京中的词。

在一个实施例中，各兴趣点对应兴趣点类别，则从获取的各兴趣点中确定类型为第四类型的各第五兴趣点的方式可以包括：基于各兴趣点对应的兴趣点类别，从各兴趣点中确定兴趣点类别属于第四类型的各第五兴趣点。

例如，兴趣点类别可以包括机构团体类别或政府机关类别，第四类型为行政机构类型，一个兴趣点为“深圳市食品药品监督管理局”，其对应的兴趣点类别为机构团体类别，也可以为政府机关类别，其属于行政机构类型，则可将其筛选出作为第五兴趣点。

在一个实施例中，对获取的各兴趣点进行分析，确定各兴趣点同义词对的步骤S220，包括：从获取的各兴趣点中确定类型为第五类型的各第六兴趣点；确定各第六兴趣点对应的各子兴趣点，子兴趣点包含子点名；基于各子兴趣点对应的地理位置信息，确定各第六兴趣点之间包含的子点名相同、且距离在预设范围内的邻近子兴趣点；根据各第六兴趣点之间的邻近子兴趣点，确定对应的第六兴趣点之间的子点覆盖率；基于各第六兴趣点之间的子点覆盖率，确定第五类型的兴趣点同义词对。

针对各第六兴趣点，可确定其分别对应的各子兴趣，子兴趣点属于其对应的第六兴趣点。子点名可以理解为子兴趣点中的一个分词，且该子点名位于子兴趣点的尾部，子点名是属于子兴趣点，可用于指示在第六兴趣点范围内的范围更小的位置。各子兴趣点有对应的地理位置信息，即可确定各第六兴趣点之间包含的子点名相同、且距离在预设范围内的邻近子兴趣点。第六兴趣点之间的子点覆盖率表示第六兴趣点之间分别对应的子点名相同的且在预设范围内的子兴趣点的重复率，例如，针对一个第六兴趣点为b和另一个第六兴趣点为c，第六兴趣点b对应的子兴趣点有b-东门、b-南门、b-西门和b-北门，其子别名分别为东门、南门、西门和北门，第六兴趣点c对应的子兴趣点有c-东门、c-南门、c-西门和c-北门，其子别名分别为东门、南门、西门和北门。b-东门和c-东门在预设距离范围内且子点名相同，b-南门和c-南门在预设距离范围内且子点名相同，b-西门和c-西门在预设距离范围内且子点名相同，b-北门和c-北门在预设距离范围内且子点名相同，如此，第六兴趣点b和另一个第六兴趣点c的子点覆盖率为百分之百。

在一个实施例中，预设距离可以为100米，第五类型可以为房产小区类型。基于各第六兴趣点之间的子点覆盖率，确定第五类型的兴趣点同义词对可以包括：将子点覆盖率大于预设覆盖率对应的第六兴趣点对确定为第五类型的兴趣点同义词对。

比如，如图4所示，针对一个第六兴趣点为橡树湾二期，对应的子兴趣点有橡树湾二期-东门、橡树湾二期-南门、橡树湾二期-西门和橡树湾二期-北门，另一个第六兴趣点为红橡庭院，对应的子兴趣点有红橡庭院-东门、红橡庭院-南门、红橡庭院-西门和红橡庭院-北门，橡树湾二期-东门与红橡庭院-东门之间的距离在100米内，橡树湾二期-南门与红橡庭院-南门之间的距离在100米内，橡树湾二期-西门与红橡庭院-西门之间的距离在100米内，橡树湾二期-北门与红橡庭院-北门之间的距离在100米内，则橡树湾二期与红橡庭院之间的子点覆盖率为百分之百，在一个示例中，预设覆盖率可以为80％，如此，橡树湾二期与红橡庭院之间的子点覆盖率大于80％，则可确定其对应的橡树湾二期与红橡庭院为房产小区类型的兴趣点对。

在一个实施例中，各兴趣点对应兴趣点类别，则从获取的各兴趣点中确定类型为第五类型的各第六兴趣点的方式可以包括：基于各兴趣点对应的兴趣点类别，从各兴趣点中确定兴趣点类别属于第五类型的各第五兴趣点。

例如，兴趣点类别可以包括房产小区类别、住宅区类别或住宅小区类别，第五类型为房产小区类型，一个兴趣点为“清缘东里”，其对应的兴趣点类别为房展小区类别，其属于房产小区类型，则可将其筛选出作为第六兴趣点。

在一个实施例中，对获取的各兴趣点进行分析，确定各兴趣点同义词对的步骤S220之后，还包括步骤：显示确定的各兴趣点同义词对；响应对兴趣点同义词对的审核指令，在审核指令为未通过指令时，过滤未通过指令对应的兴趣点同义词对。

针对上述任意一种确定兴趣点同义词对的过程，之后均要对确定的兴趣点同义词对进行审核，以提高其准确性。具体地，首先将确定的各兴趣点同义词对进行显示，便于审核人员查看并审核，用户进行操作生成对兴趣点同义词对的审核指令，响应对兴趣点同义词对的审核指令，在审核指令为未通过指令时，过滤未通过指令对应的兴趣点同义词对。即确定的兴趣点同义词对中可能存在不为同义词的词对，这是需要进行审核，以过滤审核为通过的同义词对。

在一个实施例中，如图5所示，提供一种地图兴趣点处理方法，包括以下步骤：

S510：获取各待处理兴趣点。

待处理兴趣点指为需要处理但还未处理的兴趣点，在本实施例中，可以理解为需要聚类但还未进行聚类的兴趣点。

S520：根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点。

各待处理兴趣点多样，但存在多个待处理兴趣点为同一类兴趣点(例如，该多个待处理兴趣点表示相同的实体)，为了给后续电子地图搜索提供更加精确的兴趣点的信息，可各待处理兴趣点进行聚类。在本实施例中，预先已确定了各兴趣点同义词对，即可根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行准确聚类，获得各聚簇的待处理兴趣点。其中，聚簇可以理解为进行聚类后的聚类结果，一个聚簇对应一个类别。

在一个实施例中，获取各待处理兴趣点的方式可以包括：从网页中爬取各待处理兴趣点，或/和从预设电子地图中爬取各待处理兴趣点。即进行聚类的各待处理兴趣点的来源可以有多种，可从网页爬取，以及从预设电子地图中爬取。另外，也可以通过人工采集待处理兴趣点。各待处理兴趣点可存储在hive数据库中，通过对hive数据库查询即可获得各待处理兴趣点。

在一个实施例中，预先确定的各兴趣点同义词对可以是通过上述任意一种基于兴趣点的同义词确定方法确定的各兴趣点同义词。

S530：根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点。

每个聚簇内至少有一个待处理兴趣点，针对包括至少两个待处兴趣点的聚簇，可根据聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点。参考兴趣点起到参考作用，以明确不同聚簇之间的区别。

上述地图兴趣点处理方法，是根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点，即将上述预先确定的各兴趣点同义词对作为地图兴趣点处理的依据，为地图兴趣点处理过程提供兴趣点同义词对，基于兴趣点同义词对进行聚类，提高聚类准确性。

在一个实施例中，根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点，包括：根据各聚簇的待处理兴趣点，将同一聚簇的各待处理兴趣点中，选择其中一个待处理兴趣点，作为该聚簇对应的参考兴趣点。

即从聚簇内选择一个待处理兴趣点作为参考兴趣点。若聚簇内只有一个待处理兴趣点，即该待处理兴趣点为参考兴趣点。

在一个实施例中，上述根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点的步骤S520，包括：根据预先确定的各兴趣点同义词对，确定各待处理兴趣点之间的相似度；根据各待处理兴趣点之间的相似度，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点。

由于兴趣点之间的相似度可表示兴趣点之间的相似程度，相似度越大表示兴趣点之间越相似，其为同一类的概率越大。在聚类过程中，将兴趣同义词对作为相似度确定的依据，且将各待处理兴趣点之间的相似度作为聚类依据以进行聚类，从而获得各聚簇的待处理兴趣点。在一个实施例中，可以将相似度大于预设相似度对应的兴趣点划分为同一类。比如，可将待处理兴趣点之间各分词中意思相同的概率作为相似度。

在一个实施例中，如图6所示，上述根据预先确定的各兴趣点同义词对，确定各待处理兴趣点之间的相似度，包括：

S610：根据各待处理兴趣点的地理位置信息，确定地理位置信息在预设地理范围内的各待处理兴趣点之间的第一相似度。

由于一次性针对所有待处理兴趣点进行相似度计算时，计算量过大，导致聚类效率差，且地理位置相近的待处理兴趣点之间的相似度一般情况下会更大，从而，可分区域进行相似度计算。即根据各待处理兴趣点的地理位置信息，确定地理位置信息在预设地理范围内的各待处理兴趣点之间的第一相似度。

S620：对各待处理兴趣点进行分词处理，获得各待处理兴趣点的各分词。

S630：当待处理兴趣点存在可更新分词时，可更新分词为在各兴趣点同义词对中存在同义词的分词，将可更新分词更新为对应的同义词，获得更新后的待处理兴趣点。

当待处理兴趣点存在可更新分词时，表示在上述各兴趣点同义词对中包括有待处理兴趣点的分词的同义词对。则可将该待处理兴趣点中可更新分词更新为对应的同义词，从而可获得更新后的待处理兴趣点。

例如，一个待处理兴趣点H为：A有限责任公司，其中，A在之前确定的兴趣点同义词中是有对应的同义词B将待处理兴趣点H中的A替换为B得到更新的待处理兴趣点，用更新后的待处理兴趣点。

S640：确定与更新后的各待处理兴趣点相关的第二相似度，并基于与更新后的各待处理兴趣点相关的第一相似度和第二相似度，确定与更新后的各待处理兴趣点对应的最终相似度。

得到更新后的各待处理兴趣点后，再确定与更新后的各待处理兴趣点相关的第二相似度。在确定第二相似度时，可能两个都是更新后的待处理兴趣点，即两个待处理兴趣点的各分词中分别在兴趣点同义词对中有对应的同义词。也可能其中一个是更新后的待处理兴趣点，一个是未更新的待处理兴趣点。

在一个实施例中，可将第一相似度和第二相似度中的最大者作为与更新后的各待处理兴趣点对应的最终相似度。在其他实施例中，也可以通过其他方式确定最终相似度，例如，可通过对第一相似度和第二相似度进行加权求和的结果作为与更新后的各待处理兴趣点相关的最终相似度。

在一个实施例中，根据各待处理兴趣点之间的相似度，对各待处理兴趣点进行聚类的方式可以包括：将相似度大于预设相似度对应的待处理兴趣点划分到同一聚簇内。即通过卡阈值的方式，对相似度进行判断，若两个待处理兴趣点之间的相似度足够高，即大于预设相似度，则认为其是一个聚簇例的点，从而可确保聚类的准确性。例如，兴趣点同义词对中包括adidas-阿迪达斯同义词对，各待处理兴趣点中包括adidas的兴趣点和阿迪达斯的兴趣点，在利用adidas-阿迪达斯同义词对替换后，可确定两个待处理兴趣点之间的相似度很高，可聚类与一个聚簇中。

应该理解的是，虽然图1-6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-6中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

一个实施例中，如图7所示，提供一种同义词确定装置，包括：

兴趣点获取模块710，用于获取兴趣点库中的各兴趣点，兴趣点库根据电子地图对应的各兴趣点构建生成；

确定模块720，用于对获取的各兴趣点进行分析，确定各兴趣点同义词对。

一个实施例中，确定模块720，包括：

分词兴趣点确定模块，用于基于获取的各兴趣点，确定各待分词兴趣点；

分词处理模块，用于对各待分词兴趣点进行分词处理，获得各待分词兴趣点的各分词；

角色标注模块，用于分别对各待分词兴趣点的各分词进行角色标注，获得各待分词兴趣点的各分词的角色类型；

同义词确定模块，用于根据各待分词兴趣点的各分词的角色类型，确定兴趣点同义词对。

一个实施例中，待分词兴趣点包括：包含第一语言类别词和第二语言类别词的第一兴趣点；

同义词确定模块，包括：

相关信息确定模块，用于确定第一兴趣点的第一语言类别分词与第二语言类别分词的相关性信息，其中，第一语言类别分词与第二语言类别分词的角色类型均为第一类型，且第一语言类别分词与第二语言类别分词相邻；

第一类型同义词确定模块，用于将满足第一同义词判定条件的相关性信息对应的第一语言类别分词与第二语言类别分词，确定为第一类型的兴趣点同义词对。

一个实施例中，待分词兴趣点包括兴趣点对，兴趣点对包括第二兴趣点和第三兴趣点，第二兴趣点的语言类型为第一语言类别，第三兴趣点的语言类型为第二语言类别、且与第二兴趣点对应；

同义词确定模块，包括：

对齐模块，用于根据各兴趣点对的各分词的角色类型，分别对齐各兴趣点对的各分词；

对齐同义词对确定模块，用于分别基于对齐后兴趣点对的各分词，确定各兴趣点同义词对。

一个实施例中，对齐同义词对确定模块，包括：

过滤模块，用于过滤对齐后的兴趣点对的各分词中的第一分词对，第一分词对包含的两个分词的语言类型相同；

过滤后同义词确定模块，用于基于过滤后的兴趣点对的各分词，确定各兴趣点同义词对。

一个实施例中，过滤后同义词确定模块，还用于将过滤后的兴趣点对的各分词中，角色类型相同的两个分词确定为兴趣点同义词对，角色类型相同的两个分词的语言类型不相同。

一个实施例中，过滤后同义词确定模块，包括：

共现概率确定模块，用于确定过滤后的兴趣点对的第二分词对的共现概率，第二分词对中的各分词的角色类型不属于预定角色类型，预定角色类型包括第一类型；

上述第一类型同义词确定模块，将共现概率大于预设概率值的第二分词对中的各分词，确定为第一类型的兴趣点同义词对。

一个实施例中，待分词兴趣点包括获取的各兴趣点；

同义词确定模块，包括：

分词筛选模块，用于根据各兴趣点的各分词的角色类型，筛选出各兴趣点的角色类型为第二类型的各分词；

相似度确定模块，用于确定角色类型为第二类型的各分词的词向量，并基于角色类型为第二类型的各分词的词向量，确定角色类型为第二类型的各分词之间的相似度；

第二类同义词对确定模块，用于将第三分词对确定为第二类型的兴趣点同义词对，第三分词对包含的两个分词的相似度大于预设相似度阈值。

一个实施例中，确定模块包括，包括：

第四兴趣点确定模块，用于从获取的各兴趣点中确定各第四兴趣点；

词条页面获取模块，用于根据各第四兴趣点，生成对应的各词条搜索请求，并获取基于词条搜索请求获得的各第四兴趣点对应的词条页面；

解析模块，用于解析各第四兴趣点对应的词条页面，获得各第四兴趣点对应的解析结果；

基于各第四兴趣点对应的解析结果，获得第四兴趣点的各别名同义词，并将第四兴趣点以及对应的各别名同义词，确定为第三类型的兴趣点同义词对。

一个实施例中，确定模块，包括：

第五兴趣点确定模块，用于从获取的各兴趣点中确定类型为第四类型的各第五兴趣点；

第四类同义词对确定模块，用于基于类型为第四类型的各第五兴趣点之间的关系，确定属于第四类型的各兴趣点同义词对，第四类型的兴趣点同义词对中的各兴趣点的长度不安全相同、相对位置关系相同、且其中一个兴趣点的词包含其他各兴趣点的词。

一个实施例中，确定模块，包括：

第六兴趣点确定模块，用于从获取的各兴趣点中确定类型为第五类型的各第六兴趣点；

子兴趣点确定模块，用于确定各第六兴趣点对应的各子兴趣点，子兴趣点包含子点名；

临近子兴趣点确定模块，用于基于各子兴趣点对应的地理位置信息，确定各第六兴趣点之间包含的子点名相同、且距离在预设范围内的邻近子兴趣点；

子点覆盖率确定模块，英语根据各第六兴趣点之间的邻近子兴趣点，确定对应的第六兴趣点之间的子点覆盖率；

第五类同义词对确定模块，用于基于各第六兴趣点之间的子点覆盖率，确定第五类型的兴趣点同义词对。

一个实施例中，对获取的各兴趣点进行分析，确定各兴趣点同义词对之后，还包括步骤：

显示模块，用于显示确定的各兴趣点同义词对；

响应模块，用于响应对兴趣点同义词对的审核指令，在审核指令为未通过指令时，过滤未通过指令对应的兴趣点同义词对。

一个实施例中，如8所示、提供一种地图兴趣点处理装置，包括：

待处理兴趣点获取模块810，用于获取各待处理兴趣点；

聚类模块820，用于根据预先确定的各兴趣点同义词对，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点；

参考兴趣点确定模块830，用于根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点。

一个实施例中，聚类模块，包括：

相似度获取模块，与根据预先确定的各兴趣点同义词对，确定各待处理兴趣点之间的相似度；

兴趣点聚类模块，用于根据各待处理兴趣点之间的相似度，对各待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点。

一个实施例中，相似度获取模块，包括：

第一相似度获取模块，用于根据各待处理兴趣点的地理位置信息，确定地理位置信息在预设地理范围内的各待处理兴趣点之间的第一相似度；

兴趣点分词处理模块，用于对各待处理兴趣点进行分词处理，获得各待处理兴趣点的各分词；

更新模块，英语当待处理兴趣点存在可更新分词时，可更新分词为在各兴趣点同义词对中存在同义词的分词，将可更新分词更新为对应的同义词，获得更新后的待处理兴趣点；

第二相似度获取模块，用于确定与更新后的各待处理兴趣点相关的第二相似度，并基于与更新后的各待处理兴趣点相关的第一相似度和第二相似度，确定与更新后的各待处理兴趣点对应的最终相似度。

一个实施例中，参考兴趣点确定模块，用于根据各聚簇的待处理兴趣点，将同一聚簇的各待处理兴趣点中，选择其中一个待处理兴趣点，作为该聚簇对应的参考兴趣点。

关于基于兴趣点的同义词确定装置的具体限定可以参见上文中对于兴趣点的同义词确定方法的限定，关于地图兴趣点处理装置的具体限定可以参见上文中对于地图兴趣点处理方法的限定，在此不再赘述。上述基于兴趣点的同义词确定装置、地图兴趣点处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图9所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现上述基于兴趣点的同义词确定方法以及上述地图兴趣点处理方法。

本领域技术人员可以理解，图9中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现上述任意一项方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于兴趣点的同义词确定方法，其特征在于，包括步骤：

对获取的各兴趣点进行分析，确定各兴趣点同义词对。

2.根据权利要求1所述的方法，其特征在于，对获取的各兴趣点进行分析，确定各兴趣点同义词对，包括：

基于获取的各兴趣点，确定各待分词兴趣点；

对各所述待分词兴趣点进行分词处理，获得各所述待分词兴趣点的各分词；

分别对各所述待分词兴趣点的各分词进行角色标注，获得各所述待分词兴趣点的各分词的角色类型；

根据各所述待分词兴趣点的各分词的角色类型，确定兴趣点同义词对。

3.根据权利要求2所述的方法，其特征在于，所述待分词兴趣点包括：包含第一语言类别词和第二语言类别词的第一兴趣点；

根据各所述待分词兴趣点的各分词的角色类型，确定兴趣点同义词对，包括：

确定所述第一兴趣点的第一语言类别分词与第二语言类别分词的相关性信息，其中，第一语言类别分词与第二语言类别分词的角色类型均为第一类型，且第一语言类别分词与第二语言类别分词相邻；

将满足第一同义词判定条件的相关性信息对应的第一语言类别分词与第二语言类别分词，确定为所述第一类型的兴趣点同义词对。

4.根据权利要求2所述的方法，其特征在于，所述待分词兴趣点包括兴趣点对，所述兴趣点对包括第二兴趣点和第三兴趣点，所述第二兴趣点的语言类型为第一语言类别，所述第三兴趣点的语言类型为第二语言类别、且与所述第二兴趣点对应；

根据各所述兴趣点对的各分词的角色类型，分别对齐各所述兴趣点对的各分词；

分别基于对齐后所述兴趣点对的各分词，确定各兴趣点同义词对。

5.根据权利要求4所述的方法，其特征在于，分别基于对齐后所述兴趣点对的各分词，确定各兴趣点同义词对，包括：

过滤对齐后的所述兴趣点对的各分词中的第一分词对，所述第一分词对包含的两个分词的语言类型相同；

基于过滤后的所述兴趣点对的各分词，确定各兴趣点同义词对。

6.根据权利要求2所述的方法，其特征在于，所述待分词兴趣点包括获取的各兴趣点；

根据各兴趣点的各分词的角色类型，筛选出各兴趣点的角色类型为第二类型的各分词；

确定角色类型为第二类型的各分词的词向量，并基于角色类型为第二类型的各分词的词向量，确定角色类型为第二类型的各分词之间的相似度；

将第三分词对确定为第二类型的兴趣点同义词对，第三分词对包含的两个分词的所述相似度大于预设相似度阈值。

7.根据权利要求1所述的方法，其特征在于，对获取的各兴趣点进行分析，确定各兴趣点同义词对，包括：

从获取的各兴趣点中确定各第四兴趣点；

根据各第四兴趣点，生成对应的各词条搜索请求，并获取基于所述词条搜索请求获得的各第四兴趣点对应的词条页面；

解析各第四兴趣点对应的词条页面，获得各第四兴趣点对应的解析结果；

8.根据权利要求1所述的方法，其特征在于，对获取的各兴趣点进行分析，确定各兴趣点同义词对，包括：

从获取的各兴趣点中确定类型为第四类型的各第五兴趣点；

9.根据权利要求1所述的方法，其特征在于，对获取的各兴趣点进行分析，确定各兴趣点同义词对，包括：

从获取的各兴趣点中确定类型为第五类型的各第六兴趣点；

确定各第六兴趣点对应的各子兴趣点，所述子兴趣点包含子点名；

基于各子兴趣点对应的地理位置信息，确定各第六兴趣点之间包含的子点名相同、且距离在预设范围内的邻近子兴趣点；

根据各第六兴趣点之间的邻近子兴趣点，确定对应的第六兴趣点之间的子点覆盖率；

基于各第六兴趣点之间的子点覆盖率，确定第五类型的兴趣点同义词对。

10.一种地图兴趣点处理方法，其特征在于，包括以下步骤：

获取各待处理兴趣点；

11.根据权利要求10所述的方法，其特征在于，根据预先确定的各兴趣点同义词对，对各所述待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点，包括：

根据预先确定的各兴趣点同义词对，确定各待处理兴趣点之间的相似度；

根据各待处理兴趣点之间的所述相似度，对各所述待处理兴趣点进行聚类，获得各聚簇的待处理兴趣点。

12.根据权利要求11所述的方法，其特征在于，根据预先确定的各兴趣点同义词对，确定各待处理兴趣点之间的相似度，包括：

根据各待处理兴趣点的地理位置信息，确定地理位置信息在预设地理范围内的各待处理兴趣点之间的第一相似度；

对各所述待处理兴趣点进行分词处理，获得各所述待处理兴趣点的各分词；

当待处理兴趣点存在可更新分词时，可更新分词为在各所述兴趣点同义词对中存在同义词的分词，将所述可更新分词更新为对应的所述同义词，获得更新后的待处理兴趣点；

确定与更新后的各待处理兴趣点相关的第二相似度，并基于与更新后的各待处理兴趣点相关的第一相似度和第二相似度，确定与更新后的各待处理兴趣点对应的最终相似度。

13.根据权利要求10至12任意一项所述的方法，其特征在于，根据各聚簇的待处理兴趣点，确定各聚簇对应的参考兴趣点，包括：

根据各聚簇的待处理兴趣点，将同一聚簇的各待处理兴趣点中，选择其中一个待处理兴趣点，作为该聚簇对应的参考兴趣点。

14.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至13中任一项所述方法的步骤。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至13中任一项所述的方法的步骤。