CN107609186B - 信息处理方法及装置、终端设备及计算机可读存储介质 - Google Patents
信息处理方法及装置、终端设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107609186B CN107609186B CN201710922974.9A CN201710922974A CN107609186B CN 107609186 B CN107609186 B CN 107609186B CN 201710922974 A CN201710922974 A CN 201710922974A CN 107609186 B CN107609186 B CN 107609186B
- Authority
- CN
- China
- Prior art keywords
- interest
- points
- decision tree
- point
- interest points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种用于对地图中的兴趣点进行去重的信息处理方法、信息处理装置、终端设备以及计算机存储介质。该信息处理方法包括:获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个决策树属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。根据本发明实施例的信息处理装置、信息处理方法、终端设备以及存储介质至少能够提高去重处理的准确率。
Description
技术领域
本发明涉及地图信息处理领域,尤其涉及一种用于对地图上的兴趣点进行去重的信息处理方法、信息处理装置、终端设备以及计算机可读存储介质。
背景技术
随着地理信息系统的发展,人们越来越依赖于电子地图获取其感兴趣的地点(称为兴趣点)。现有的电子地图系统拥有大量的兴趣点,例如百度地图拥有千万级的兴趣点,而如何确保电子地图上兴趣点的没有冗余和重复,从而提升用户使用电子地图的体验,是目前亟需解决的问题。
发明内容
本发明实施例提供一种信息处理方法、信息处理装置、终端设备以及计算机可读存储介质,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种用于对地图中的兴趣点进行去重的信息处理方法,包括以下步骤:获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个决策树属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。
第二方面,本发明实施例提供了一种用于对地图中的兴趣点进行去重的信息处理装置,包括:获取单元,用于获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;相似度确定单元,用于确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及去重单元,用于利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。
所述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。
第三方面,本发明实施例提供了一种终端设备,所述终端设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上所述的信息处理方法。所述终端设备还可以包括通信接口,用于终端设备与其他设备或通信网络通信。
第四方面,本发明实施例提供了一种计算机可读存储介质,其存储有计算机程序,其中,该程序被处理器执行时实现如上所述的信息处理方法。
上述技术方案中的一个技术方案至少具有如下优点或有益效果:通过利用决策树确定两个兴趣点之间是否相似能够提高去重处理的准确率。
上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本发明进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本发明公开的一些实施方式,而不应将其视为是对本发明范围的限制。
图1为根据本发明一个实施例的用于对地图中的兴趣点进行去重的信息处理方法的示例性流程图。
图2示出了根据本发明实施例的一种决策树的示例性结构。
图3示例性示出了根据本发明一个实施例的确定两个兴趣点之间的名称属性的相似度的一种示例性处理。
图4示例性示出了根据本发明一个实施例的确定两个兴趣点之间的地址属性的相似度的一种示例性处理。
图5示例性示出了根据本发明一个实施例的确定两个兴趣点之间的坐标相似度的一种示例性处理。
图6示出了根据本发明实施例的一种信息处理装置的示例性结构。
图7示出了根据本发明实施例的一种终端设备的示例性结构。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本发明的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
本发明实施例提供一种用于对地图中的兴趣点进行去重的信息处理方法。
图1是根据本发明一个实施例的用于对地图中的兴趣点进行去重的信息处理方法的示例性流程图。
如图1所示,根据本发明一个实施例的用于对地图中的兴趣点进行去重的信息处理方法包括以下步骤:
在步骤S101,获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;
在步骤S102,确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及
在步骤S103,利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个决策树属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。
更具体地,根据本发明的实施例,在获取地图中的多个兴趣点及其决策树属性的步骤S101之前,可以预先根据兴趣点的多个决策树属性构建的决策树,以利用该决策树并且根据两个兴趣点之间决策树属性的相似度,确定兴趣点之间的相似度。
兴趣点的决策树属性例如包括:兴趣点的名称、兴趣点的地址、兴趣点的联系方式、兴趣点的坐标、兴趣点的分类等基础属性信息。但是本公开不限于此,例如,兴趣点的决策树属性还可以包括兴趣点的核心词、经营范围等等。
通常,地图中的兴趣点及关于其多个决策树属性是相关联地存储在电子地图数据库中的,因此,在获取地图中的兴趣点时可以相应地获取到该兴趣点的多个决策树属性。
构建决策树的关键在于选取决策树的根节点、非叶节点对应的各个决策树属性。通常这些属性是从最重要到次重要依次排序的,以对应到决策树的各个层级的节点的。在构建决策树的根节点时,可以通过将兴趣点的每个决策树属性分别作为根节点、其他各个决策树属性分别作为父节点和子节点,利用已经标注好的训练数据进行测试,从而选取能够使决策树的决策结果最优的决策树属性作为根节点。例如,如果将A决策树属性作为根节点获得的决策结果要大于B决策树属性作为根节点获得的决策结果,则选取A决策树属性作为根节点。
根据本发明的实施例,例如可以利用训练数据进行多次测试,来确定决策树的各层节点。根据本发明的另一个实施例,也可以通过深度学习对所构建的决策树进行训练,从而对决策树的各级节点对应的决策树属性进行调整,以使得最终决策树的结构在用于确定兴趣点之间的相似度的情况下最优。
根据本发明的实施例,通过对决策树模型的不断优化,优选将兴趣点的名称作为所述决策树的根节点属性,将兴趣点的联系方式、兴趣点的地址、兴趣点的坐标、兴趣点的分支作为所述决策树的分支节点属性。
图2示出了根据本发明实施例的一种决策树的示例性结构。
如图2所示,决策树的根节点属性为兴趣点的名称,决策树的第一级分支节点属性为兴趣点的联系方式(例如,电话)、决策树的第二级分支节点属性为兴趣点的地址,决策树的第三级分支节点属性为兴趣点的坐标。
根据本发明的一个实施例,在构建了决策树之后,在步骤S101,获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性。
根据本发明的一个实施例,获取地图中多个兴趣点例如可以依据用户的检索请求,从电子地图数据库中检索到的与该检索请求相对应的检索结果中所包括的多个兴趣点,从而针对检索结果中包括的多个兴趣点进行去重。
根据本发明的另一个实施例,也可以从电子地图数据库获取底图侧的一部分或者全部兴趣点,从而针对底图侧的兴趣点进行去重。
以上地图兴趣点的获取仅仅是示例,本发明不限于此。在步骤S101,例如,还可以获取地图中的特定的多个兴趣点,从而针对所获取的多个兴趣点进行去重,例如,可以获得某个特定地理范围内所包括的所有兴趣点,从而针对该地理范围内的兴趣点进行去重。
通常,地图中的兴趣点及其决策树属性是相关联地存储在电子地图数据库中的,因此,在获取地图中的兴趣点时可以相应地获取到该兴趣点的决策树属性。
根据本发明的优选实施例,在获取了多个兴趣点之后,还可以首先针对获取的多个兴趣点两两交叉构建待去重兴趣点集合,然后,基于初步的过滤条件对待去重兴趣点集合进行过滤、例如将两个兴趣点之间的距离大于第一预定阈值的兴趣点确定为不重复的两个兴趣点,从而将其从待出去重的兴趣点集合中删除。
在获取了由多个兴趣点构成的待去重兴趣点集合及其中每个兴趣点的多个决策树属性之后,可以在步骤S102中,确定所述待去重兴趣点集合中的任意两个兴趣点之间的每个决策树属性的相似度。
图3示例性示出了根据本发明一个实施例的确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度的一种示例性处理。
如图3所示,确定两个兴趣点之间的名称属性的相似度的处理包括:在步骤S1021,对两个兴趣点中每个兴趣点的名称进行文本切割,以提取所述兴趣点的名称中包括的行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一;以及在步骤S1022,基于所提取的信息,确定两个兴趣点之间的名称属性的相似度。
根据本发明的一个实施例,在步骤S1021中,可以对兴趣点的名称进行文本分割,基于文本分割结果,提取兴趣点的名称中包括的行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一。根据本发明的实施例,可以采用现有技术中已知的分词方法,对兴趣点的名称进行文本分割,其具体处理在此不再赘述。此外,例如可以通过建立行政区表、经营范围表以及后缀表,基于所建立的行政区表、经营范围表以及后缀表等信息,从分割后的文本中提取出行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一。
根据本发明的实施例,在步骤S1021中,还包括对兴趣点的名称中的同义词进行提取,并针对该兴趣点的名称中包括的多组同义词进行切割,以提取兴趣点的名称中的行政区信息、核心词信息、经营范围信息以及后缀信息。例如,地图兴趣点的名称为“厦门市同安区同安影视城(原远华影视城)五显镇分城”,在对该兴趣点的名称进行分析时,可以首先基于例如名称中包含的同义词符号(例如括号)提取名称中包含的同义词,从而将上述名称分为两个同义词名称“厦门市同安区同安影视城五显镇分城”以及“原远华影视城五显镇分城”,然后分别对上述两个同义词名称进行文本分割,从而针对每个同义词名称得到相应的分割结果,例如,对于同义词名称“厦门市同安区同安影视城五显镇分城”,得到分割结果“厦门市同安区同安影视城”以及“五显镇分城”,对于同义词名称“原远华影视城五显镇分城”,得到分割结果“原远华影视城”以及“五显镇分城”,进而针对该文本分割结果提取出行政区信息“厦门市同安区”;核心词“同安”、“五显镇”;经营范围信息“影视”;后缀“城”、“分城”。
在提取到兴趣点的行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一之后,在步骤S1022,可以基于所提取的信息,确定两个兴趣点之间的名称属性的相似度。例如,可以将两个兴趣点的行政区信息进行比较以获取两个兴趣点的行政区相似度,将两个兴趣点的核心词信息进行比较以获取核心词相似度,将两个兴趣点的经营范围信息进行比较以获取经营范围相似度,以及将两个兴趣点的后缀信息进行比较以获取后缀相似度。在确定了如上各个子属性的相似度之后,例如,可以选取上述各个子属性相似度中的最小值作为两个兴趣点之间的名称属性的相似度。但是本公开不限于此,例如也可以对上述子属性进行加权组合,来确定两个兴趣点的名称属性的相似度。
图4示例性示出了根据本发明一个实施例的确定两个兴趣点之间的地址属性的相似度的一种示例性处理。
如图4所示,确定两个兴趣点之间的地址属性的相似度的处理包括:在步骤S1023,对所述两个兴趣点中每个兴趣点的地址进行文本分割,以提取所述兴趣点的地址中的行政区信息、道路名称信息、道路后缀信息、区域号码信息、区域名称信息至少其中之一;以及在步骤S1024,基于所提取的信息,确定两个兴趣点之间的地址属性的相似度。
根据本发明的一个实施例,在步骤S1023中,可以对兴趣点的地址进行文本分割,基于文本分割结果,提取兴趣点的地址中的行政区信息、道路名称信息、道路后缀信息、区域号码信息、区域名称信息至少其中之一。根据本发明的实施例,也可以采用现有技术中已知的分词方法,对兴趣点的地址进行文本分割,其具体处理在此不再赘述。
在步骤S1024,基于所提取的兴趣点的地址中的行政区信息、道路名称信息、道路后缀信息、区域号码信息、区域名称信息,确定两个兴趣点之间的地址属性的相似度。具体地,例如可以将行政区信息、道路名称信息、区域号码信息、区域名称信息这些地址子属性信息依次进行文本比较,而在依次比较过程中,如果某个子属性信息相同,则继续进行下一子属性的比较,如果某个子属性信息不同,则停止比较,返回比较结果,基于返回的比较结果确定两个兴趣点的地址属性的相似度。例如,在将兴趣点X的地址“北京市海淀区中关村南大街11号”与兴趣点地址Y的地址“北京市海淀区中关村南大街甲12号”进行比较时,可以通过确定行政区信息、道路名称信息相同、区域号码不同而将两个兴趣点确定为道路相同,并将两个兴趣点之间的地址属性的相似度确定为与道路相同对应的特定值。
图5示例性示出了根据本发明一个实施例的确定两个兴趣点之间的空间相似度的一种示例性处理。
如图5所示,确定两个兴趣点之间的空间属性的相似度(即空间相似度)的处理包括:在步骤S1025,基于所述两个兴趣点的坐标,计算所述两个兴趣点之间的欧式距离;以及在步骤S1026,基于所述两个兴趣点之间的欧式距离,确定所述两个兴趣点之间的空间相似度。
在步骤S1025,可以利用现有技术中公知的方法来计算两个兴趣点之间的欧式距离,在此不再赘述。
根据本发明的一个实施例,在步骤S1026,例如可以根据兴趣点的名称中的后缀信息确定判重距离,并根据兴趣点的欧式距离和判重距离(例如,基于两者之比与预定阈值之间的大小),确定兴趣点之间的空间相似度。基于兴趣点的名称确定判重距离的方式是本领域公知的,在此不再赘述。
此外,也可以根据所确定的两个兴趣点之间的欧式距离与预定距离阈值之间的关系,来确定两个兴趣点之间的空间相似度。
根据本发明的实施例,确定两个兴趣点之间的多个属性中各个属性的相似度还包括确定两个兴趣点之间的联系方式、例如电话号码的相似度。以确定兴趣点之间电话号码的相似度为例,例如可以采用对电话号码的号码列表进行循环比较的方式来确定电话号码的相似度,其具体确定方式是本领域公知的,在此不再赘述。此外,也可以采用现有技术中公知的其他方式来确定两个兴趣点之间电话号码的相似度。
在确定了待去重集合中任意两个兴趣点之间的每个决策属性的相似度之后,在步骤S103,可以利用如上所述预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个决策树属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。
根据本发明的实施例,在步骤S103中,例如可以基于兴趣点之间各个决策树属性的相似度,利用预先构建的决策树确定两个兴趣点之间的兴趣点相似度。具体地,可以利用基于兴趣点之间各个决策树属性的相似度确定决策树的走向,进而确定兴趣点之间的相似度。参见图2,例如可以基于名称相似度、电话号码相似度、地址相似度以及坐标相似度确定兴趣点相似度在决策树中的走向,从而将兴趣点相似度确定为与决策结果相同、不同或未知相对应的相似度预设值。在例如基于将兴趣点相似度确定为与相同对应的相似度预设值得情况下,可以将两个兴趣点判断为相同,从而删除其中一个兴趣点以进行去重。
以上描述的是通过构建一个决策树来对兴趣点之间的相似度进行确定,但是本公开不限于此,例如也可以通过构建多个(两个及两个以上)的决策树来对确定兴趣点的相似度。
在此情况下,可以通过将多个决策树中的每个决策树构建为不同的结构来确定两个兴趣点之间的相似度,从而提高确定兴趣点之间相似度的准确率。
可以通过使得多个决策树之间具有不同的根节点、各级分支节点来构建不同的决策树,其中根据兴趣点之间各个决策树属性的相似度、利用每个决策树来确定兴趣点之间的相似度的处理与上述参照图2描述的确定兴趣点之间的相似度的处理类似,在此省略对其的描述。在利用每个决策树确定了兴趣点之间的相似度之后,可以对多个决策树确定的兴趣点的相似度进行加权组合,以确定兴趣点之间的最终相似度。根据本公开的一个实施例,也可以通过深度学习对构建的包括多个决策树的决策树模型进行训练,从而对决策树的多个决策树的权重进行调整,以使得最终的决策树结构最优以用于确定兴趣点之间的相似度。
在此需要说明,虽然以上按照S101、S102、S103的顺序描述了获取多个兴趣点的步骤、确定两个兴趣点之间的属性相似度的步骤以及去重步骤,并且在,但是根据本发明的信息处理方法的处理顺序不受上述步骤标号顺序的限制。例如,确定兴趣点之间的多个属性的相似度的步骤也既可以发生在去重步骤之前,也可以与去重步骤中利用决策树确定两个兴趣点是否相同的处理同时进行。此外,虽然以上将决策树的构建描述为在获取多个兴趣点的步骤之前进行,但是本发明不限于此,本领域技术人员可以理解例如也可以在获取多个兴趣点的步骤之后或者同时对决策树进行构建。
本发明实施例还提供一种信息处理装置,如图6所示,该信息处理装置6包括:获取单元10,用于获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;相似度确定单元20,用于确定所述去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及去重单元30,用于利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重。
根据本发明的实施例,兴趣点的多个决策树属性包括:兴趣点的名称、兴趣点的地址、兴趣点的电话、兴趣点的坐标以及兴趣点的分支至少其中两个。
根据本发明的一个实施例,所述决策树的根节点属性可以是所述兴趣点的名称。
根据本发明的实施例,相似度确定单元20进一步被配置为对所述两个兴趣点中每个兴趣点的名称进行解析,以提取所述兴趣点的名称中的行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一;以及基于所提取的信息,确定所述两个兴趣点之间的名称属性的相似度。
根据本发明的实施例,获取单元10、相似度确定单元10以及去重单元30的处理例如可以参照图1的步骤S101、S102、S103的处理,在此不再赘述。
本发明实施例还提供一种终端设备,如图7所示,该终端设备包括:存储器21和处理器22,存储器21内存储有可在处理器22上运行的计算机程序。处理器22执行所述计算机程序时实现上述实施例中的信息处理方法。存储器21和处理器22的数量可以为一个或多个。
该终端设备还包括:通信接口23,用于存储器21和处理器22之间的通信。
存储器21可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
如果存储器21、处理器22和通信接口23独立实现,则存储器21、处理器22和通信接口23可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(ISA,Industry Standard Architecture)总线、外部设备互连(PCI,PeripheralComponent)总线或扩展工业标准体系结构(EISA,Extended Industry StandardComponent)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图7中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器21、处理器22及通信接口23集成在一块芯片上,则存储器21、处理器22及通信接口23可以通过内部接口完成相互间的通信。
根据本发明的终端设备例如可以是手机、个人计算机、笔记本电脑、平板电脑等终端设备。
本发明实施例还提供一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现如上所述的信息处理方法。
根据本发明实施例的信息处理装置、信息处理方法、终端设备以及存储介质相比现有技术至少具有以下优点之一:通过利用决策树确定两个兴趣点之间是否相似能够提高去重处理的准确率;通过基于大数据的深度学习来改善决策树模型使得不论是在可维护性、还是在去重效果等各个方面均优于现有技术;此外,通过在检索侧和底图侧两端对兴趣点进行去重,能够提升用户使用电子地图的体验。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
本发明实施例所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质的更具体的示例至少(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式只读存储器(CDROM)。另外,计算机可读存储介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
在本发明实施例中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于指令执行系统、输入法或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器,磁盘或光盘等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (16)
1.一种用于对地图中的兴趣点进行去重的信息处理方法,其特征在于,包括以下步骤:
获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;
确定所述待去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及
利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个决策树属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重;
所述决策树的构建包括:预先根据所述兴趣点的多个决策树属性的训练数据对决策树根节点和子节点的排序进行多次测试,根据最优测试结果确定决策树的各层节点。
2.根据权利要求1所述的信息处理方法,其特征在于,所述兴趣点的决策树属性包括:兴趣点的名称、兴趣点的地址、兴趣点的电话、兴趣点的坐标以及兴趣点的分支中的至少两个。
3.根据权利要求2所述的信息处理方法,其特征在于,根据所述兴趣点的决策树属性构建决策树包括:将所述兴趣点的名称作为所述决策树的根节点属性。
4.根据权利要求3所述的信息处理方法,其特征在于,所述确定所述待去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度包括:
对所述两个兴趣点的名称进行文本分割,以提取所述兴趣点的名称中的行政区信息、核心词信息、经营范围信息以及后缀信息中的至少一个;以及
基于所提取的信息,确定所述两个兴趣点之间的名称属性的相似度。
5.根据权利要求3所述的信息处理方法,其特征在于,根据所述兴趣点的决策树属性构建决策树还包括:将所述兴趣点的地址作为所述决策树的分支节点属性。
6.根据权利要求5所述的信息处理方法,其特征在于,所述确定所述待去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度包括:
对所述两个兴趣点的地址进行文本分割,以提取所述兴趣点的地址中的行政区信息、道路名称信息、道路后缀信息、区域号码信息、区域名称信息中的至少一个;以及
基于所提取的信息,确定所述两个兴趣点之间的地址属性的相似度。
7.根据权利要求3所述的信息处理方法,其特征在于,根据所述兴趣点的决策树属性构建决策树还包括:将所述兴趣点的坐标作为所述决策树的分支节点属性。
8.根据权利要求7所述的信息处理方法,其特征在于,所述确定所述待去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度包括:
基于所述两个兴趣点的坐标,计算所述两个兴趣点之间的欧式距离;
基于所述两个兴趣点之间的欧式距离,确定所述两个兴趣点之间的空间相似度。
9.根据权利要求1-8中任一项所述的信息处理方法,其特征在于,所述获取地图中的多个兴趣点包括:基于用户的检索关键字在预定地图数据库中检索与所述关键字相对应的多个兴趣点,以对所获取的多个兴趣点进行去重。
10.根据权利要求1-8中任一项所述的信息处理方法,其特征在于,所述获取地图中的多个兴趣点包括:从预定地图数据库中获取底图侧的至少一部分兴趣点,以对所获取的多个兴趣点进行去重。
11.一种用于对地图中的兴趣点进行去重的信息处理装置,其特征在于,包括:
获取单元,用于获取地图中的多个兴趣点作为待去重兴趣点集合,并且获取所述待去重兴趣点集合中每个兴趣点的多个决策树属性;
相似度确定单元,用于确定所述待去重兴趣点集合中任意两个兴趣点之间的每个决策树属性的相似度;以及
去重单元,用于利用预先根据兴趣点的决策树属性构建的决策树,基于所述两个兴趣点之间的每个属性的相似度来确定所述两个兴趣点是否相同,从而对所述待去重兴趣点集合中的兴趣点进行去重;
所述决策树的构建包括:预先根据所述兴趣点的多个决策树属性的训练数据对决策树根节点和子节点的排序进行多次测试,根据最优测试结果确定决策树的各层节点。
12.根据权利要求11所述的信息处理装置,其特征在于,所述兴趣点的决策树包括:兴趣点的名称、兴趣点的地址、兴趣点的电话、兴趣点的坐标以及兴趣点的分支中的至少两个。
13.根据权利要求12所述的信息处理装置,其特征在于,所述决策树的根节点属性为所述兴趣点的名称。
14.根据权利要求13所述的信息处理装置,其特征在于,所述相似度确定单元还被配置为:
对所述两个兴趣点中每个兴趣点的名称进行文本切割,以提取所述兴趣点的名称中的行政区信息、核心词信息、经营范围信息以及后缀信息至少其中之一;以及
基于所提取的信息,确定所述两个兴趣点之间的名称属性的相似度。
15.一种终端设备,其特征在于,所述终端设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的方法。
16.一种计算机可读存储介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922974.9A CN107609186B (zh) | 2017-09-30 | 2017-09-30 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710922974.9A CN107609186B (zh) | 2017-09-30 | 2017-09-30 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107609186A CN107609186A (zh) | 2018-01-19 |
CN107609186B true CN107609186B (zh) | 2020-09-22 |
Family
ID=61068015
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710922974.9A Active CN107609186B (zh) | 2017-09-30 | 2017-09-30 | 信息处理方法及装置、终端设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107609186B (zh) |
Families Citing this family (22)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110110017B (zh) * | 2018-01-25 | 2024-03-15 | 阿里巴巴集团控股有限公司 | 一种兴趣点数据关联方法、装置及服务器 |
CN110375763B (zh) * | 2018-04-12 | 2023-05-23 | 博泰车联网科技(上海)股份有限公司 | 搜索兴趣点的方法、装置及智能终端 |
WO2019227288A1 (en) | 2018-05-28 | 2019-12-05 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for parent-child relationship determination for points of interest |
CN110309432B (zh) * | 2018-06-11 | 2024-06-07 | 腾讯科技(北京)有限公司 | 基于兴趣点的同义词确定方法、地图兴趣点处理方法 |
CN110609879B (zh) * | 2018-06-14 | 2022-11-01 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、计算机设备及存储介质 |
CN108875013B (zh) * | 2018-06-19 | 2022-05-27 | 百度在线网络技术(北京)有限公司 | 处理地图数据的方法及装置 |
CN110737733B (zh) * | 2018-07-03 | 2022-07-29 | 百度在线网络技术(北京)有限公司 | 去除重复兴趣点的方法和装置 |
CN111159318A (zh) * | 2018-11-08 | 2020-05-15 | 阿里巴巴集团控股有限公司 | 聚合兴趣点的方法、装置、设备和介质 |
CN109542854B (zh) * | 2018-11-14 | 2020-11-24 | 网易(杭州)网络有限公司 | 数据压缩方法、装置、介质及电子设备 |
CN109635056B (zh) * | 2018-11-16 | 2021-01-22 | 海南电网有限责任公司信息通信分公司 | 用电地址数据处理方法、装置、计算机设备和存储介质 |
CN111209354A (zh) * | 2018-11-22 | 2020-05-29 | 北京搜狗科技发展有限公司 | 一种地图兴趣点判重的方法、装置及电子设备 |
CN109710709A (zh) * | 2018-12-13 | 2019-05-03 | 北京百度网讯科技有限公司 | 兴趣点数据处理方法、装置、电子设备及存储介质 |
CN109947881B (zh) * | 2019-02-26 | 2023-10-27 | 广州城市规划技术开发服务部有限公司 | 一种poi判重方法、装置、移动终端及计算机可读存储介质 |
CN110347776A (zh) * | 2019-07-17 | 2019-10-18 | 北京百度网讯科技有限公司 | 兴趣点名称匹配方法、装置、设备及存储介质 |
CN110489507B (zh) * | 2019-08-16 | 2023-03-31 | 腾讯科技(深圳)有限公司 | 确定兴趣点相似度的方法、装置、计算机设备和存储介质 |
CN110781413B (zh) * | 2019-08-28 | 2024-01-30 | 腾讯大地通途(北京)科技有限公司 | 兴趣点确定方法及装置、存储介质、电子设备 |
CN110837607B (zh) * | 2019-11-14 | 2023-03-10 | 腾讯云计算(北京)有限责任公司 | 兴趣点匹配方法、装置、计算机设备以及存储介质 |
CN113255398B (zh) * | 2020-02-10 | 2023-08-18 | 百度在线网络技术(北京)有限公司 | 兴趣点判重方法、装置、设备和存储介质 |
CN111782741A (zh) * | 2020-06-04 | 2020-10-16 | 汉海信息技术(上海)有限公司 | 兴趣点挖掘方法、装置、电子设备及存储介质 |
CN111899821A (zh) * | 2020-06-28 | 2020-11-06 | 广州万孚生物技术股份有限公司 | 处理医疗机构数据的方法、构建数据库的方法和装置 |
CN113127759A (zh) * | 2021-04-16 | 2021-07-16 | 深圳集智数字科技有限公司 | 兴趣点处理方法、装置、计算设备及计算机可读存储介质 |
CN114861062B (zh) * | 2022-05-26 | 2023-05-16 | 北京百度网讯科技有限公司 | 信息过滤方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140093772A (ko) * | 2013-01-14 | 2014-07-29 | 충북대학교 산학협력단 | 사용자의 선호도 및 이동 패턴을 이용한 관심지역 추천 방법 |
CN104034340A (zh) * | 2013-03-05 | 2014-09-10 | 泰为信息科技公司 | 具有反欺骗者机制的导航系统及其操作的方法 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
CN105320657A (zh) * | 2014-05-30 | 2016-02-10 | 中国电信股份有限公司 | 兴趣点数据融合方法和系统 |
CN105740252A (zh) * | 2014-12-09 | 2016-07-06 | 北京四维图新科技股份有限公司 | 一种兴趣点poi数据的处理方法及装置 |
-
2017
- 2017-09-30 CN CN201710922974.9A patent/CN107609186B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20140093772A (ko) * | 2013-01-14 | 2014-07-29 | 충북대학교 산학협력단 | 사용자의 선호도 및 이동 패턴을 이용한 관심지역 추천 방법 |
CN104034340A (zh) * | 2013-03-05 | 2014-09-10 | 泰为信息科技公司 | 具有反欺骗者机制的导航系统及其操作的方法 |
CN105320657A (zh) * | 2014-05-30 | 2016-02-10 | 中国电信股份有限公司 | 兴趣点数据融合方法和系统 |
CN105740252A (zh) * | 2014-12-09 | 2016-07-06 | 北京四维图新科技股份有限公司 | 一种兴趣点poi数据的处理方法及装置 |
CN104699818A (zh) * | 2015-03-25 | 2015-06-10 | 武汉大学 | 一种多源异构的多属性poi融合方法 |
Also Published As
Publication number | Publication date |
---|---|
CN107609186A (zh) | 2018-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107609186B (zh) | 信息处理方法及装置、终端设备及计算机可读存储介质 | |
CN107957957B (zh) | 测试用例的获取方法和装置 | |
EP3563243B1 (en) | Determining application test results using screenshot metadata | |
KR102178295B1 (ko) | 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체 | |
CN111241389B (zh) | 一种基于矩阵的敏感词过滤方法、装置、电子设备、存储介质 | |
CN108304423A (zh) | 一种信息识别方法及装置 | |
CN109726280B (zh) | 一种针对同名学者的排歧方法及装置 | |
CN108334609B (zh) | Oracle中实现JSON格式数据存取的方法、装置、设备及存储介质 | |
KR101850993B1 (ko) | 클러스터 기반 키워드 산출 방법 및 장치 | |
CA3078148A1 (en) | Search method and apparatus, and non-temporary computer-readable storage medium | |
CN110674413B (zh) | 用户关系挖掘方法、装置、设备和存储介质 | |
CN105447190A (zh) | 基于卷积神经网络的图片检索方法、装置和服务器 | |
JP2017532655A (ja) | カスケーディングスタイルシートファイルの圧縮 | |
CN110569224A (zh) | 一种数据去重方法及装置 | |
CN110968664A (zh) | 一种文书检索方法、装置、设备及介质 | |
US10250550B2 (en) | Social message monitoring method and apparatus | |
CN112346951B (zh) | 业务的测试方法及装置 | |
CN114049463A (zh) | 一种二叉树的数据网格化、网格点数据的获取方法及装置 | |
CN111488464B (zh) | 实体属性处理方法、装置、设备及介质 | |
JP2023523191A (ja) | アカウントの識別方法、装置、電子機器及びコンピュータ読み取り可能な媒体 | |
CN110427496B (zh) | 用于文本处理的知识图谱扩充方法及装置 | |
CN112631945A (zh) | 一种测试用例生成方法、装置及存储介质 | |
CN111930891A (zh) | 基于知识图谱的检索文本扩展方法及相关装置 | |
CN110619090A (zh) | 一种区域吸引力评估方法及设备 | |
CN114860667A (zh) | 文件分类方法、装置、电子设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |