CN110309433A - 一种数据处理方法、装置及服务器 - Google Patents

一种数据处理方法、装置及服务器 Download PDF

Info

Publication number
CN110309433A
CN110309433A CN201810612511.7A CN201810612511A CN110309433A CN 110309433 A CN110309433 A CN 110309433A CN 201810612511 A CN201810612511 A CN 201810612511A CN 110309433 A CN110309433 A CN 110309433A
Authority
CN
China
Prior art keywords
poi
feature
characteristic information
data
matching
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810612511.7A
Other languages
English (en)
Other versions
CN110309433B (zh
Inventor
吴坤
孟凡超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd, Tencent Dadi Tongtu Beijing Technology Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201810612511.7A priority Critical patent/CN110309433B/zh
Publication of CN110309433A publication Critical patent/CN110309433A/zh
Application granted granted Critical
Publication of CN110309433B publication Critical patent/CN110309433B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种数据处理方法、装置及服务器,其中方法包括:获取第一兴趣点POI的特征信息和第二POI的特征信息;根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征;根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。通过本发明实施例可以精确地确定出POI之间的相似度。

Description

一种数据处理方法、装置及服务器
技术领域
本发明涉及互联网技术领域,尤其涉及一种数据处理方法、装置及服务器。
背景技术
随着科学技术的不断进步,互联网上的海量数据随之产生,例如导航电子地图中的兴趣点(Point of Interest,POI),POI是地理信息系统(Geographic InformationSystem,GIS)中的某个地标。由于获取POI数据的途径较多,如现场采集、第三方购买、网络抓取等,不同的来源其数据格式、文字描述等存在差异,因此,很有可能存在描述同一POI的不同来源的POI数据存在差异,从而导致在电子地图数据库中针对同一个POI存储有多条POI数据,这就需要计算POI之间的相似度,然后对POI进行判重,以合并相同的POI。
目前通常采用根据POI名称在文本方面进行相似匹配的方案计算POI之间的相似度,考虑到POI名称的命名规范性差,仅仅通过名称的文本相关性很难精确地得出POI之间的相似度,导致合并后的POI数据的重复率依然较高。因此,如何精确地确定POI之间相似度已成为亟待解决的问题。
发明内容
本发明实施例提供一种数据处理方法、装置及服务器,可以精确地确定出POI之间的相似度。
一方面,本发明实施例提供了一种数据处理方法,包括:
获取第一兴趣点POI的特征信息和第二POI的特征信息。
根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征。
根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
另一方面,本发明实施例提供了一种数据处理装置,包括:
获取模块,用于获取第一兴趣点POI的特征信息和第二POI的特征信息。
匹配模块,用于根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征。
确定模块,用于根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
又一方面,本发明实施例提供了一种服务器,包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述的数据处理方法。
又一方面,本发明实施例提供了一种计算机存储介质,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现上述的数据处理方法。
本发明实施例中,可以获取第一兴趣点POI的特征信息和第二POI的特征信息,根据第一POI的特征信息和第二POI的特征信息,对第一POI和第二POI进行名称特征、地址特征和位置特征的匹配,得到在名称特征、地址特征和位置特征上的匹配结果,然后根据匹配结果确定第一POI与第二POI之间的相似度,从而通过综合POI在名称、地址、位置等多个维度上的特征进行匹配可以精确地确定出POI之间的相似度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据处理方法的流程示意图;
图2是本发明实施例提供的一种POI相似度的计算框架示意图;
图3是本发明实施例提供的一种数据处理装置的结构示意图;
图4是本发明实施例提供的一种服务器的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
其中,POI之间的相似度是指不同来源的POI数据代表的POI是否标识现实世界中的同一个物理实体,例如同一座大厦或酒店,同一个小区就是同一物理实体,即使不同来源的POI数据的名称、地址、坐标等不完全一样,但不同的大厦,大厦与大厦内的餐厅就不是同一物理实体。
请参阅图1,为本发明实施例提供的一种数据处理方法的流程示意图。本实施例中所描述的数据处理方法,包括:
101、服务器获取第一兴趣点POI的特征信息和第二POI的特征信息。
其中,一个POI的特征信息具体可以包括POI数据,以及路网数据、轮廓面数据和门址库数据等。POI数据主要包括:名称、地址、类别(如酒店、医院、加油站、停车场、餐饮)、位置(如经纬度坐标)、电话、营业时间、周围环境(如:附近的酒店、饭店、商铺)等,可以通过现场采集、第三方购买、网络抓取等方式获取;路网数据主要包括道路名称、道路的路段划分等,可以从第三方购买;轮廓面数据主要包括物理实体的外形特征数据,可以自行制作;门址库数据主要包括的是地址与坐标的对应关系,可以自行制作。
在一些可行的实施方式中,在步骤101之前,服务器可以从多个POI中选取任意一个POI,这里记为第一POI,然后从该多个POI中确定与第一POI配对的第二POI,也就是要选出有必要与第一POI进行相似度计算的第二POI,对于与第一POI毫不相关的POI则不必计算第一POI与其的相似度。具体可以利用POI在文本维度或者坐标维度上的相似选出第二POI,例如可以通过文本召回、坐标召回等方式确定出第二POI,当然也可以通过其它维度上召回的方式(如电话召回、连锁店召回等)确定出第二POI。
102、所述服务器根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征。
具体的,服务器根据第一POI的特征信息和第二POI的特征信息,对第一POI和第二POI在名称特征、地址特征和位置特征等多个维度上进行匹配,从而得到第一POI和第二POI在名称特征、地址特征和位置特征等多个维度上的匹配结果,匹配结果反映的是这两个POI在名称、地址和位置等多个维度上的相似情况。
在一些可行的实施方式中,对于名称特征的匹配,服务器可以从POI数据中分别获取第一POI的名称和第二POI的名称,利用自然语言处理(Natural Language Processing,NLP)的方式对名称进行分词、归一化、角色标注和地址切分等基础处理。考虑到名称特征存在着表现力不足的问题,就是说单独的文本相似特征不足以表达POI名称之间的区别,例如欧乐堡温泉酒店和欧乐堡酒店温泉,两个POI的文本相似度很高,但却是不同的物理实体,因此考虑引入名称的功能特征,具体可以从人理解名称的角度,将功能分为core、what、attach、other四个部分,分别表示核心词(是啥)、类别词(做啥的)、附加成分(在哪)和废词(没用的部分),进而按照这种功能划分对第一POI的名称和第二POI的名称分别进行功能标注,以找出第一POI的名称和第二POI的名称各自的核心词、类别词、附加成分和废词,从而利用功能标注的结果从核心词、类别词、附加成分和废词这四个角度对第一POI和第二POI进行名称特征的匹配,匹配可以分为同义匹配、近义匹配等,得到在名称特征上的匹配结果,匹配结果包括这两个POI的名称在功能上强相似、相似、缺失、不相似或者冲突,从而通过引入对名称进行功能标注的方案有效提高了名称特征的表现力。
需要说明的是,对于缺失、不相似和冲突的关系,这里举例说明,幼儿园和小学是冲突,没有幼儿园是缺失,幼儿园和早教中心如果没有计算出同义则是不相似。
在一些可行的实施方式中,对于位置特征的匹配,考虑到位置特征也存在着表现力不足的问题,就是说现实世界中POI不只是一个点,两点之间的距离不足以描述两个POI间的位置关系。举例来说,八万人体育场和上海体育场从两点距离来看距离很远,但是添加轮廓面特征后会发现其实二者距离很近。再举例来说,服务区中的两个加油站,距离很近,名称也很相似,很容易引起误聚,但添加跨路特征之后就能很明确的表示出两个点是不同的加油站。在具体实现中,服务器可以根据POI数据中的名称、地址或者位置等从路网数据中获取第一POI的路网数据和第二POI的路网数据,包括所在的道路名称、路段等信息,然后根据第一POI的路网数据和第二POI的路网数据确定第一POI和第二POI之间的跨路特征,包括是否跨路、跨路的等级、跨路的数量等,其中,跨路的等级具体可以是指跨的是否是主干道;服务器还可以根据第一POI的轮廓面数据和第二POI的轮廓面数据确定第一POI和第二POI之间的位置关系(包含边界远离)和距离关系,进而利用跨路特征、位置关系和距离关系对第一POI和第二POI进行位置特征的匹配,得到在位置特征上的匹配结果,从而通过引入路网数据和轮廓面数据对位置特征进行优化有效提高了位置特征的表现力。
在一些可行的实施方式中,对于地址特征的匹配,考虑到地址特征存在精度存较差的问题,例如现有的地址特征是在对地址进行切分标注之后进行文本匹配,这样存在两个问题,第一是门址与物理实体无法判断相同,第二是只能判断门址匹配和不匹配,但不能判断冲突。比如星火金融的地址分别用北四环西路66号和中国技术交易大厦来表述,通过引入门址库数据,由于门址库数据包括的是地址与坐标的对应关系,也就是说北四环西路66号和中国技术交易大厦这两个地址对应的是同一个坐标,从而可以知道中国技术交易大厦和北四环西路66号是同一个地址;冲突方面存在两个数据来源使用不同的门址来描述同一个物理实体,这种在门址上是不能判断冲突的,为此引入了道路的位置关系,当判断道路没有交叉且距离远时我们可以认为门址有冲突,通过引入门址库数据对地址特征进行优化有效提高了地址特征的精度。
103、所述服务器根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
具体的,服务器可以利用梯度提升树(Gradient Boosting Decision Tree,GBDT)模型来确定POI之间的相似度,例如将匹配结果输入GBDT模型,即可输出第一POI与所述第二POI之间的相似度。
其中,GBDT模型是一种具有较强的抗过拟合能力,可以对特征进行干预,且精度高等优点的机器学习模型,本发明实施例优选GBDT模型计算POI相似度。
在一些可行的实施方式中,根据相似度可以对第一POI和第二POI进行判重,具体包括:当相似度大于或等于相似度阈值时,服务器可以确定第一POI与第二POI为同一POI,进而对第一POI与第二POI进行合并处理,从而有效降低POI数据的重复率。
需要说明的是,进行匹配的特征种类可以根据实际需求进行添加或删减,例如,为进一步提高POI相似度的计算精度,还可以加入类别特征、连锁店特征等特征。
在一些可行的实施方式中,本发明实施例中的GBDT模型也可以用其它模型替换,例如支持向量机(Support Vector Machine,SVM)模型、逻辑分类(LogisticClassification,LR)模型等其它的机器学习模型。
本发明实施例公开的数据处理方法具体可以应用到地理编码中POI相似度的计算,新闻应用中的POI关联,以及电商平台的POI关联、缺失POI挖掘、POI画像等。
本发明实施例中,服务器可以获取第一兴趣点POI的特征信息和第二POI的特征信息,根据第一POI的特征信息和第二POI的特征信息,对第一POI和第二POI进行名称特征、地址特征和位置特征的匹配,得到在名称特征、地址特征和位置特征上的匹配结果,然后根据匹配结果确定第一POI与第二POI之间的相似度,从而通过综合POI在名称、地址、位置等多个维度上的特征进行匹配可以精确地确定出POI之间的相似度,使得合并后的POI数据的重复率大大降低,能够提供高质量的POI数据。
在一些可行的实施方式中,本发明实施例还提供一种POI数据生产流程,具体可以包括:
1、数据源接入(数据采集);
2、数据预处理;
3、POI一对一相似度判定;
4、POI制备并上线。
其中,一对一相似度计算是POI数据生产的关键环节,POI数据采集到之后,首先对POI数据进行简单的预处理,之后就是使用一对一相似度对POI的重复进行判断,之后进行数据融合,生成一个高质量的POI数据,最终实现上线。
在数据生产流程中,一对一相似度有效的控制着线上数据的重复率与覆盖率。一对一相似度判断错了会带来数据错误以及数据缺失、POI数据重复等现象。经过生产流程生成的POI数据可以服务于各类应用,包括:导航应用、打车应用、电商应用以及同城服务等。
在一些可行的实施方式中,本发明实施例还提供了一种POI相似度的计算框架,如图2所示。其中:
在资源层面,包括原有的POI数据,以及引入的路网数据、轮廓面数据和门址库数据。然后,基于POI的资源,为每个POI建立索引,具体可以从名称、地址、位置、电话、连锁店等维度建立索引,当然也可以通过其它可行的维度建立索引,目的是对POI进行分类。任选一个POI,这里记为第一POI,然后利用建立的索引,通过文本召回、坐标召回等方式确定出有必要与第一POI进行相似度计算的第二POI,当然这里的召回方式也可以是地址召回、电话召回、连锁店召回等。对第一POI、第二POI这两个POI的名称进行分词、归一化、角色标注、地址切分等自然语言处理,然后除了对这两个POI可以在名称、地址、位置等维度的特征上进行匹配,还可以在类别、连锁店等维度的特征上进行匹配,特征越多最终得到的相似度越精确,得到相应特征维度上的匹配结果,例如文本相似、分类相似、坐标相似、连锁店特征、功能相似、地址相似、来源相似、电话相似等等,将匹配结果输入GBDT模型,进行特殊规则、模型分类、终判、可信分级等一系列处理得到第一POI与第二POI之间的相似度,可以通过主动学习的方式持续优化GBDT模型的训练集,以增加特征的表现力,提高特征的精度。
进一步的,根据相似度可以进行相似过滤,即合并相同的POI,然后可以进行排序特征,采用学习排序(Learning To Rank,LTR)的方法最终解决优选问题,从而选出合适的POI数据来表示相应的物理实体,最终获取到高质量的POI数据。
综上,本发明实施例通过对POI名称进行分词、归一化、角色标注、地址切分等自然语言处理的分析,之后对名称进行相似度匹配。除此之外,还对地址进行匹配,从省、市、区、乡镇、商圈、道路、实体、门牌号、楼栋号等角度分别进行相似性与重复性的分析,构建地址特征。在位置特征方面我们引入特有的轮廓面数据来判断两个POI的位置关系(包含边界远离)以及距离关系,引入路网数据来判断两个POI是否跨路、跨路的等级、跨路的数量等等。最后我们将名称特征、地址特征以及位置特征提供给GBDT模型,使用机器学习的方式来判断两个POI实体的相似度,从而有效提高了POI一对一相似度计算的精度。
请参阅图3,为本发明实施例提供的一种数据处理装置的流程示意图。本实施例中所描述的数据处理装置,包括:
获取模块301,用于获取第一兴趣点POI的特征信息和第二POI的特征信息。
匹配模块302,用于根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征。
确定模块303,用于根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
可选的,所述特征信息包括POI数据、路网数据、轮廓面数据和门址库数据。
可选的,所述装置还包括处理模块304,其中:
所述确定模块303,还用于当所述相似度大于或等于相似度阈值时,确定所述第一POI与所述第二POI为同一POI。
所述处理模块304,用于对所述第一POI与所述第二POI进行合并处理。
可选的,所述匹配模块302,具体用于:
从所述第一POI的POI数据中获取所述第一POI的名称,从所述第二POI的POI数据中获取所述第二POI的名称。
对所述第一POI的名称和所述第二POI的名称分别进行功能标注。
利用功能标注的结果对所述第一POI和所述第二POI进行名称特征的匹配,得到在所述名称特征上的匹配结果。
可选的,所述匹配模块302,具体用于:
根据所述第一POI的路网数据和所述第二POI的路网数据,确定所述第一POI和所述第二POI之间的跨路特征。
根据所述第一POI的轮廓面数据和所述第二POI的轮廓面数据,确定所述第一POI和所述第二POI之间的位置关系和距离关系。
利用所述跨路特征、所述位置关系和所述距离关系对所述第一POI和所述第二POI进行位置特征的匹配,得到在所述位置特征上的匹配结果。
可选的,所述匹配模块302,具体用于:
利用所述第一POI的门址库数据和所述第二POI的门址库数据,对所述第一POI和所述第二POI进行地址特征的匹配,得到在所述地址特征上的匹配结果。
可选的,所述确定模块303,具体用于:
将所述匹配结果输入梯度提升树模型GBDT,以输出所述第一POI与所述第二POI之间的相似度。
可选的,所述获取模块301,还用于从多个POI中选取第一POI,所述第一POI为所述多个POI中的任意一个。
所述确定模块303,还用于通过指定的召回方式确定与所述第一POI配对的第二POI。
可以理解的是,本实施例的数据处理装置的各功能模块的功能可根据上述方法实施例中的方法具体实现,其具体实现过程可以参照上述方法实施例的相关描述,此处不再赘述。
本发明实施例中,获取模块301获取第一兴趣点POI的特征信息和第二POI的特征信息,匹配模块302根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行名称特征、地址特征和位置特征的匹配,得到在名称特征、地址特征和位置特征上的匹配结果,确定模块303根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度,从而通过综合POI在名称、地址、位置等多个维度上的特征进行匹配可以精确地确定出POI之间的相似度,使得合并后的POI数据的重复率大大降低,能够提供高质量的POI数据。
请参阅图4,为本发明实施例提供的一种服务器的结构示意图。本实施例中所描述的服务器,包括:处理器401、网络接口402及存储器403。其中,处理器401、网络接口402及存储器403可通过总线或其他方式连接,本发明实施例以通过总线连接为例。
其中,处理器401(或称中央处理器(Central Processing Unit,CPU))是服务器的计算核心以及控制核心。网络接口402可选的可以包括标准的有线接口、无线接口(如WI-FI、移动通信接口等),受处理器401的控制用于收发数据。存储器403(Memory)是服务器的记忆设备,用于存放程序和数据。可以理解的是,此处的存储器403可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器401的存储装置。存储器403提供存储空间,该存储空间存储了服务器的操作系统和可执行程序代码,可包括但不限于:Windows系统(一种操作系统)、Linux(一种操作系统)系统等等,本发明对此并不作限定。
在本发明实施例中,处理器401通过运行存储器403中的可执行程序代码,执行如下操作:
处理器401,用于获取第一兴趣点POI的特征信息和第二POI的特征信息。
所述处理器401,还用于根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征。
所述处理器401,还用于根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
在一些可行的实施方式中,所述特征信息包括POI数据、路网数据、轮廓面数据和门址库数据。
在一些可行的实施方式中,所述处理器401,还用于当所述相似度大于或等于相似度阈值时,确定所述第一POI与所述第二POI为同一POI,并对所述第一POI与所述第二POI进行合并处理。
在一些可行的实施方式中,所述处理器401,具体用于:
从所述第一POI的POI数据中获取所述第一POI的名称,从所述第二POI的POI数据中获取所述第二POI的名称。
对所述第一POI的名称和所述第二POI的名称分别进行功能标注。
利用功能标注的结果对所述第一POI和所述第二POI进行名称特征的匹配,得到在所述名称特征上的匹配结果。
在一些可行的实施方式中,所述处理器401,具体用于:
根据所述第一POI的路网数据和所述第二POI的路网数据,确定所述第一POI和所述第二POI之间的跨路特征。
根据所述第一POI的轮廓面数据和所述第二POI的轮廓面数据,确定所述第一POI和所述第二POI之间的位置关系和距离关系。
利用所述跨路特征、所述位置关系和所述距离关系对所述第一POI和所述第二POI进行位置特征的匹配,得到在所述位置特征上的匹配结果。
在一些可行的实施方式中,所述处理器401,具体用于:
利用所述第一POI的门址库数据和所述第二POI的门址库数据,对所述第一POI和所述第二POI进行地址特征的匹配,得到在所述地址特征上的匹配结果。
在一些可行的实施方式中,所述处理器401,具体用于:
将所述匹配结果输入梯度提升树模型GBDT,以输出所述第一POI与所述第二POI之间的相似度。
在一些可行的实施方式中,所述处理器401,还用于从多个POI中选取第一POI,并通过指定的召回方式确定与所述第一POI配对的第二POI,所述第一POI为所述多个POI中的任意一个。
具体实现中,本发明实施例中所描述的处理器401、网络接口402及存储器403可执行本发明实施例提供的一种数据处理方法的流程中所描述的实现方式,也可执行本发明实施例提供的一种数据处理装置中所描述的实现方式,在此不再赘述。
本发明实施例中,处理器401获取第一兴趣点POI的特征信息和第二POI的特征信息,根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行名称特征、地址特征和位置特征的匹配,得到在名称特征、地址特征和位置特征上的匹配结果,进而根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度,从而通过综合POI在名称、地址、位置等多个维度上的特征进行匹配可以精确地确定出POI之间的相似度,使得合并后的POI数据的重复率大大降低,能够提供高质量的POI数据。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。

Claims (11)

1.一种数据处理方法,其特征在于,包括:
获取第一兴趣点POI的特征信息和第二POI的特征信息;
根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征;
根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
2.根据权利要求1所述的方法,其特征在于,所述特征信息包括POI数据、路网数据、轮廓面数据和门址库数据。
3.根据权利要求1或2所述的方法,其特征在于,所述根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度之后,所述方法还包括:
当所述相似度大于或等于相似度阈值时,确定所述第一POI与所述第二POI为同一POI,并对所述第一POI与所述第二POI进行合并处理。
4.根据权利要求2所述的方法,其特征在于,所述根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,包括:
从所述第一POI的POI数据中获取所述第一POI的名称,从所述第二POI的POI数据中获取所述第二POI的名称;
对所述第一POI的名称和所述第二POI的名称分别进行功能标注;
利用功能标注的结果对所述第一POI和所述第二POI进行名称特征的匹配,得到在所述名称特征上的匹配结果。
5.根据权利要求2所述的方法,其特征在于,所述根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,包括:
根据所述第一POI的路网数据和所述第二POI的路网数据,确定所述第一POI和所述第二POI之间的跨路特征;
根据所述第一POI的轮廓面数据和所述第二POI的轮廓面数据,确定所述第一POI和所述第二POI之间的位置关系和距离关系;
利用所述跨路特征、所述位置关系和所述距离关系对所述第一POI和所述第二POI进行位置特征的匹配,得到在所述位置特征上的匹配结果。
6.根据权利要求2所述的方法,其特征在于,所述根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,包括:
利用所述第一POI的门址库数据和所述第二POI的门址库数据,对所述第一POI和所述第二POI进行地址特征的匹配,得到在所述地址特征上的匹配结果。
7.根据权利要求1所述的方法,其特征在于,所述根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度,包括:
将所述匹配结果输入梯度提升树GBDT模型,以输出所述第一POI与所述第二POI之间的相似度。
8.根据权利要求1所述的方法,其特征在于,所述获取第一兴趣点POI的特征信息和第二POI的特征信息之前,所述方法还包括:
从多个POI中选取第一POI,所述第一POI为所述多个POI中的任意一个;
通过指定的召回方式确定与所述第一POI配对的第二POI。
9.一种数据处理装置,其特征在于,包括:
获取模块,用于获取第一兴趣点POI的特征信息和第二POI的特征信息;
匹配模块,用于根据所述第一POI的特征信息和所述第二POI的特征信息,对所述第一POI和所述第二POI进行目标特征的匹配,得到在所述目标特征上的匹配结果,所述目标特征包括名称特征、地址特征和位置特征;
确定模块,用于根据所述匹配结果确定所述第一POI与所述第二POI之间的相似度。
10.一种服务器,其特征在于,包括处理器、网络接口和存储装置,所述处理器、所述网络接口和所述存储装置相互连接,其中,所述网络接口受所述处理器的控制用于收发数据,所述存储装置用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的数据处理方法。
11.一种计算机存储介质,其特征在于,该计算机存储介质中存储有程序指令,该程序指令被执行时,用于实现如权利要求1-8任一项所述的数据处理方法。
CN201810612511.7A 2018-06-14 2018-06-14 一种数据处理方法、装置及服务器 Active CN110309433B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810612511.7A CN110309433B (zh) 2018-06-14 2018-06-14 一种数据处理方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810612511.7A CN110309433B (zh) 2018-06-14 2018-06-14 一种数据处理方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN110309433A true CN110309433A (zh) 2019-10-08
CN110309433B CN110309433B (zh) 2022-03-04

Family

ID=68073899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810612511.7A Active CN110309433B (zh) 2018-06-14 2018-06-14 一种数据处理方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN110309433B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110837607A (zh) * 2019-11-14 2020-02-25 腾讯云计算(北京)有限责任公司 兴趣点匹配方法、装置、计算机设备以及存储介质
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN112307142A (zh) * 2020-06-05 2021-02-02 北京沃东天骏信息技术有限公司 地理信息系统中信息点的确定方法和装置以及存储介质
CN112650822A (zh) * 2019-10-09 2021-04-13 浙江宇视科技有限公司 地图接入方法、装置、电子设备和机器可读存储介质
CN116306638A (zh) * 2023-05-22 2023-06-23 上海维智卓新信息科技有限公司 Poi数据匹配方法、电子设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110109435A1 (en) * 2009-11-12 2011-05-12 Nokia Corporation Method and apparatus for the retrieval of similar places
CN103678429A (zh) * 2012-09-26 2014-03-26 阿里巴巴集团控股有限公司 一种旅游线路的推荐方法以及装置
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统
CN106652757A (zh) * 2017-01-22 2017-05-10 百度在线网络技术(北京)有限公司 抽象地图生成方法及装置
CN107368480A (zh) * 2016-05-11 2017-11-21 中国移动通信集团辽宁有限公司 一种兴趣点数据错误类型定位、重复识别方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110109435A1 (en) * 2009-11-12 2011-05-12 Nokia Corporation Method and apparatus for the retrieval of similar places
CN103678429A (zh) * 2012-09-26 2014-03-26 阿里巴巴集团控股有限公司 一种旅游线路的推荐方法以及装置
CN105320657A (zh) * 2014-05-30 2016-02-10 中国电信股份有限公司 兴趣点数据融合方法和系统
CN107368480A (zh) * 2016-05-11 2017-11-21 中国移动通信集团辽宁有限公司 一种兴趣点数据错误类型定位、重复识别方法及装置
CN106652757A (zh) * 2017-01-22 2017-05-10 百度在线网络技术(北京)有限公司 抽象地图生成方法及装置

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112650822A (zh) * 2019-10-09 2021-04-13 浙江宇视科技有限公司 地图接入方法、装置、电子设备和机器可读存储介质
CN112650822B (zh) * 2019-10-09 2023-09-15 浙江宇视科技有限公司 地图接入方法、装置、电子设备和机器可读存储介质
CN110837607A (zh) * 2019-11-14 2020-02-25 腾讯云计算(北京)有限责任公司 兴趣点匹配方法、装置、计算机设备以及存储介质
CN110837607B (zh) * 2019-11-14 2023-03-10 腾讯云计算(北京)有限责任公司 兴趣点匹配方法、装置、计算机设备以及存储介质
CN111797183A (zh) * 2020-05-29 2020-10-20 汉海信息技术(上海)有限公司 挖掘信息点的道路属性的方法、装置及电子设备
CN112307142A (zh) * 2020-06-05 2021-02-02 北京沃东天骏信息技术有限公司 地理信息系统中信息点的确定方法和装置以及存储介质
CN116306638A (zh) * 2023-05-22 2023-06-23 上海维智卓新信息科技有限公司 Poi数据匹配方法、电子设备及存储介质
CN116306638B (zh) * 2023-05-22 2023-08-11 上海维智卓新信息科技有限公司 Poi数据匹配方法、电子设备及存储介质

Also Published As

Publication number Publication date
CN110309433B (zh) 2022-03-04

Similar Documents

Publication Publication Date Title
CN110309433A (zh) 一种数据处理方法、装置及服务器
CN114491773B (zh) 建筑方案生成的方法、装置、计算机设备以及存储介质
EP3241370B1 (en) Analyzing semantic places and related data from a plurality of location data reports
US11835352B2 (en) Identifying, processing and displaying data point clusters
CN107291888B (zh) 基于机器学习统计模型的入住酒店附近生活推荐系统方法
Stanilov et al. Exploring the historical determinants of urban growth patterns through cellular automata
EP3276563A1 (en) Interest profile of a user of a mobile application
CN107767116A (zh) 出行产品自动化推送方法、系统、存储介质和电子设备
CN110503485B (zh) 地理区域分类方法及装置、电子设备、存储介质
JP2022018087A (ja) 地図情報表示方法、装置、電子デバイス及び記憶媒体
CN112861972B (zh) 一种展业区域的选址方法、装置、计算机设备和介质
CN104182517A (zh) 数据处理的方法及装置
CN106126615A (zh) 一种兴趣点推荐的方法及系统
US20220067856A1 (en) System, Method, and Computer Program Product for Siting a Land Parcel
CN109993184A (zh) 一种数据融合的方法以及数据融合设备
KR20220160534A (ko) 지리적 위치 구역의 인코딩 방법, 인코딩 모델을 구축하는 방법 및 장치
Tulić Ceballos The impact of web 3.0 technologies on tourism information systems
CN110348896A (zh) 划分地理网格的方法、商圈确定方法及设备
CN112711645A (zh) 一种位置点信息扩展方法、装置、存储介质和电子设备
KR102078619B1 (ko) 위치기반 정보탐색 방법 및 시스템
CN114820960B (zh) 构建图谱的方法、装置、设备和介质
CN111353011B (zh) 地点数据集及其建立方法和装置、数据处理方法和装置
US11454506B2 (en) Identifying and communicating routes using graph networks
CN110781283B (zh) 连锁品牌词库生成方法、装置以及电子设备
CN105474301B (zh) 呈现与映射元素关联的摘要信息的系统和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant