CN110347777A - 一种兴趣点poi的分类方法、装置、服务器及存储介质 - Google Patents

一种兴趣点poi的分类方法、装置、服务器及存储介质 Download PDF

Info

Publication number
CN110347777A
CN110347777A CN201910646224.2A CN201910646224A CN110347777A CN 110347777 A CN110347777 A CN 110347777A CN 201910646224 A CN201910646224 A CN 201910646224A CN 110347777 A CN110347777 A CN 110347777A
Authority
CN
China
Prior art keywords
poi
data
type
data item
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910646224.2A
Other languages
English (en)
Other versions
CN110347777B (zh
Inventor
龚剑
陈永全
杜逸康
卢俊之
杨璧嘉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910646224.2A priority Critical patent/CN110347777B/zh
Publication of CN110347777A publication Critical patent/CN110347777A/zh
Application granted granted Critical
Publication of CN110347777B publication Critical patent/CN110347777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/29Geographical information databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification

Abstract

本申请公开了一种兴趣点POI的分类方法、装置、服务器及存储介质,方法包括:获得至少一个POI的POI数据;对POI数据中的数据项进行特征提取,以得到POI的POI特征向量;将POI特征向量输入训练模型,得到训练模型输出的POI的空间类型;其中,训练模型为利用至少两个具有空间类型标签的样本训练得到。可见,本申请中通过对POI数据中的数据项进行特征提取,以POI数据中各数据项对应的特征向量组成的POI特征向量作为训练模型的输入来获得POI的空间类型,从而不受POI数据中是否完整的限制,即以区分出POI的空间类型,由此提高对POI空间类型进行分类的可靠性。

Description

一种兴趣点POI的分类方法、装置、服务器及存储介质
技术领域
本申请涉及电子地图技术领域,尤其涉及一种POI的分类方法、装置、服务器及存储介质。
背景技术
目前,在对兴趣点POI(Point of Interest)进行空间类别的区分时,通常采用各种硬规则或者模板对POI的信息进行正则匹配,来得到POI是属于沿街POI还是属于室内POI,例如,POI的地址信息为:A大厦5层,此时使用正则匹配得到:该POI属于室内POI,等等。
但是,由于POI的信息可能存在不完整的情况,例如,POI的地址信息为:西四路23号,此时再使用硬规则或者模板对该信息进行正则匹配,就可能无法区分出POI的空间类型是室内还是沿街,使得对POI进行分类的可靠性较低。
因此,亟需一种能够对POI的空间类型进行可靠分类的技术方案。
发明内容
有鉴于此,本申请提供一种兴趣点POI的分类方法、装置、服务器及存储介质,用以提高对POI的空间类型进行分类的可靠性。
为实现上述目的,一方面,本申请提供了一种兴趣点POI的分类方法,包括:
获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据
在一种可能的实现方式中,基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,包括:
获得所述POI数据所包含的数据项的类型;
使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,以得到所述POI的POI特征向量;
其中,所述目标类型为所述类型中的任意一种,所述目标类型对应的特征提取方式与属于所述目标类型的数据项的数据内容相关。
可选的,所述使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用地址文本类型对应的基于卷积神经网络的特征提取方式,对所述POI数据中的地址文本数据项进行特征提取,得到所述地址文本数据项的特征向量。
可选的,所述使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用来源类型对应的基于独热码编码的特征提取方式,对所述POI数据中的POI来源数据项进行特征提取,得到所述POI来源数据项的特征向量;
和/或,
使用类别类型对应的基于独热码编码的特征提取方式,对所述POI数据中的POI类别数据项进行特征提取,得到所述POI类别数据项的特征向量。
可选的,所述使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用近邻道路类型对应的基于数据统计的特征提取方式,对所述POI数据中所述POI的周边预设区域内的近邻道路的数据项进行特征提取,得到所述近邻道路的数据项的特征向量;
和/或,
使用近邻POI类型对应的基于数据统计的特征提取方式,对所述POI数据中所述POI的周边预设区域内的近邻POI的数据项进行特征提取,得到所述近邻POI的数据项的特征向量。
在一种可能的实现方式中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,包括:
获得至少两个样本,每个所述样本具有预设的空间类型标签;
基于所述样本及其空间类型标签,对基于机器学习算法的训练模型进行训练。
又一方面,本申请还提供了一种兴趣点POI的分类装置,包括:
数据获得单元,用于获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
特征提取单元,用于基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
模型运行单元,用于将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
可选的,所述特征提取单元包括:
类型获得子单元,用于获得所述POI数据所包含的数据项的类型;
目标提取子单元,用于使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,以得到所述POI的POI特征向量;
其中,所述目标类型为所述类型中的任意一种,所述目标类型对应的特征提取方式与属于所述目标类型的数据项的数据内容相关。
又一方面,本申请还提供了一种服务器,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
又一方面,本申请还提供了存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任一项所述的兴趣点POI的分类方法。
由上述方案可知,本申请所提供的一种兴趣点POI的分类方法、装置、服务器及存储介质,在获取到POI的POI数据之后,对POI数据中数据项进行特征提取,进而在得到包括数据项对应的特征向量的POI特征向量之后,将这些POI特征向量输入到利用具有空间类型标签的样本训练好的训练模型中,进而得到训练模型输出的POI的空间类型。可见,本申请中通过对POI数据中的数据项进行特征提取,以POI数据中各数据项对应的特征向量组成的POI特征向量作为训练模型的输入,来获得POI的空间类型,从而不受POI数据中是否完整的限制,即使POI数据中不完整,也能够从POI数据中一个或多个的数据项中提取到POI特征向量,进而利用训练模型对提取到的POI特征向量进行处理,以区分出POI的空间类型,由此提高对POI空间类型进行分类的可靠性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例的一种POI的分类系统的组成框架示意图;
图2示出了本申请实施例中终端的地图界面上的POI分布示意图;
图3示出了本申请实施例的一种服务器对POI分类的应用场景示意图;
图4示出了本申请实施例的一种进行POI分类的服务器的硬件组成结构示意图;
图5示出了本申请实施例的一种POI的分类方法的一种流程示意图;
图6示出了本申请实施例的一种POI的分类装置一个实施例的组成结构示意图。
具体实施方式
本申请的方案适用于对获取到的地图POI进行空间分类,从而在得到POI的空间类型如室内或沿街之后,针对POI,根据其空间类型采取对应的运营手段进行处理。
例如,对于室内类型的POI来说,可以选择人工内业审核的运营手段继续核实处理,即:工作人员打电话向地图用户和商户核实POI数据;
对于沿街类型的POI来说,可以选择众包扫街和自研实采的运营手段进行后续核实处理,即:在众包扫街的运营场景中,将POI采集任务有偿下发给普通用户,用户通过手机拍照、录像等方式将POI的照片、名称、坐标等数据传回到地图,用以核实地图中的POI数据;
或者,在自研实采的运营场景中,地图内部工作人员自己去采集POI的照片、名称、坐标等数据,用于核实地图中的POI数据。
其中,核实POI数据可以实现对POI的新增以及对错误POI的修正。
本申请的发明人经过研究发现:针对利用规则或模板对POI的来源和地址文本等关键词进行正则匹配来区分POI的空间类型的技术方案,通常会因为POI数据如来源和地址文本等关键词不完整或缺失等情况而无法实现空间类型的区分。
例如,在利用POI的来源如软件应用点评的来源或室内众包的来源等进行区分时,POI的来源可能并非完全来自于室内,也可能来自于沿街,导致无法区分出POI的空间类型;或者,POI的地址文本存在地址比较模糊的情况下,无法针对该POI找到完整明确的匹配模式对其进行匹配,如对于西四路23号的地址来说只能匹配到道路:西四路,而无法匹配到是室内还是沿街的23号,此时,无法实现POI空间类型的区分,导致区分POI空间类型的可靠性较低。
因此,本申请的发明人进一步进行研究发现,即使大部分POI数据并非都来自于室内或者POI地址文本存在模糊或缺失,但是POI数据中仍然是存在内容的,如只有一半的地址文本等,因此,为了避免无法进行POI空间类型分类的情况,可以对POI数据进行特征提取,以POI特征向量作为训练模型的输入,进而训练模型对POI特征向量进行处理,得到POI的空间类型,由此,即使POI数据缺失或者模糊,也能够提取出部分特征向量,从而分类出POI的空间类型,从而避免POI数据缺失或模糊而导致无法进行空间类型区分的情况,由此提高对POI空间类型进行分类的可靠性。
为了便于理解,本文中先对本申请的方案所适用的系统进行介绍,参考图1,其示出了本申请一种POI的分类系统的一种组成架构示意图。
由图1中可知,该系统中可以包括有:服务器10和终端20,服务器10和终端20之间通过网络实现通信连接。其中,服务器10为地图后台的服务器,用以通过应用界面为终端20提供地图,而用户可以通过终端20上的应用界面从服务器10获得实时地图,用于寻址或导航。
其中,服务器10中向终端20提供地图信息,所提供的地图中包含多个POI,POI可以为一栋房子、一个商铺、一个邮筒、一个公交站等,如图2中所示。
而终端20可以为手机、pad、电脑等客户端,在终端20上可以配置有地图应用,用户可以通过地图应用的应用界面进行导航路线规划或地点搜索等行为,如用户搜索公交站X的位置或者导航从X到学校Y的路线等。
在服务器10中为了提高地图的准确性,通常需要对各个POI进行数据核实,如核实名称、坐标等信息,此时,可以采用人工内业审核、自研实采或众包扫街或散点扫街等方式进行POI数据核实,而服务器10在对POI进行数据核实时,对于不同空间类型的POI可以采用不同的方式进行POI数据核实,因此,服务器10中需要对POI的空间类型进行分类。
其中,服务器10在对POI进行空间类型的分类之前,可以在获得地图中各个POI的POI数据之后,首先通过各种挖掘方式对POI数据的相关附加属性进行挖掘,如对POI数据是否过期进行挖掘(现势性挖掘)、对POI数据中的坐标或名称是否规范准确进行挖掘(正确性挖掘)、对POI数据对应的POI是否可以作为引导点进行挖掘,等等,之后服务器10基于各个POI的POI数据对POI进行道路规划及空间类型的区分等处理,如图3中服务器对POI进行分类的应用场景所示,进而再按照POI的空间类型采用相应的运营手段对POI数据进行核实,如人工内业审核、自研实采或众包扫街或散点扫街等。
需要说明的是,以上是以服务器为一台独立的服务器为例进行说明,但是可以理解的是,在实际应用中,服务器也可以被替换为服务器集群,或者由多台服务器构成的分布式集群。
其中,为了实现服务器上相应的功能,服务器的存储器中需要存储实现相应功能的程序。为了便于理解各个服务器的硬件构成,下面以服务器为例进行介绍。如图4中所示,为本申请的服务器的一种组成结构示意图,本实施例中的服务器10可以包括有:处理器401、存储器402、通信接口403、输入单元404、显示器405和通信总线406。
其中,处理器401、存储器402、通信接口403、输入单元404、显示器405、均通过通信总线406完成相互间的通信。
在本实施例中,该处理器401,可以为中央处理器(CentralProcessing Unit,CPU),特定应用集成电路,数字信号处理器、现成可编程门阵列或者其他可编程逻辑器件等。
该处理器401可以调用存储器402中存储的程序。具体的,处理器401可以执行以下POI的分类方法的实施例中服务器侧所执行的操作。
存储器402中用于存放一个或者一个以上程序,程序可以包括程序代码,所述程序代码包括计算机操作指令,在本申请实施例中,该存储器中至少存储有用于实现以下功能的程序:
获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
在一种可能的实现方式中,该存储器402可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、以及至少一个功能(比如特征向量提取等)所需的应用程序等;存储数据区可存储根据计算机的使用过程中所创建的数据,比如,POI特征向量及训练模型和样本等等。
此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件或其他易失性固态存储器件。
该通信接口403可以为通信模块的接口,如GSM模块的接口。
当然,图4所示的服务器的结构并不构成对本申请实施例中服务器的限定,在实际应用中服务器可以包括比图4所示的更多或更少的部件,或者组合某些部件。
结合以上共性,参考图5,其示出了本申请一种POI的分类方法一个实施例的流程示意图,本实施例中的方法可以包括有:
S501:获得至少一个POI的POI数据。
其中,POI数据中可以包含至少一个数据项,如地址文本数据项、来源数据项、类别数据项、周边预设区域内的近邻道路数据项、周边预设区域内的近邻POI数据项,等等,每个数据项基于其数据内容有其特定的数据项类型,如地址文本类型、来源类型、类别类型、周边预设区域内的近邻道路类型、周边预设区域内的近邻POI类型,等等。
具体的,地址文本数据项可以为POI所在的地址的文本数据,如国家、省份、城市或乡村、街道、门牌号码、屋邨、大厦等建筑物名称文本,或者再加楼层数目、房间编号等,例如:**市**区***路19号四里屯太古外(南区)F1、**市**区**屯太古外6号楼S6-11a单元(M.A.C对面)等等;
来源数据项是指:地图中接入POI数据的来源信息,如各种第三方合作方,如软件应用的点评的来源信息或者室内众包的来源信息等等;
类别数据项是指:POI在用户生活中的所对应的分类类别信息,如美食类别、购物类别、娱乐休闲类别、教育、生活服务如加油站或酒店的类别等等;
周边预设区域内的近邻道路数据项可以理解为:以特定POI为中心的周边一个或多个预设区域如以特定POI为中心的10m、50m、100m、200m和500m等区域内的近邻道路的类别和数量的数据项,其中,道路的类别可以有:国家级高速、省级高速、国道、省道、县道、乡道、专用道等等类别,相应特定POI的近邻道路的数量包括:在周边预设区域内的属于各个道路类别的近邻道路的数量,如在烧烤店的POI周边50米内有1个省道,烧烤店的POI周边500米内有一个国道;
周边预设区域内的近邻POI数据项可以理解为:以特定POI为中心的周边一个或多个预设区域如以特定POI为中心的10m、50m、100m、200m和500m等区域内的近邻POI的类别和数量的数据项,其中,近邻POI的类别是指近邻POI在用户生活中的所对应的分类类别,如美食类别、购物类别、娱乐休闲类别、教育、生活服务如加油站或酒店的类别等等;相应特定POI的近邻POI的数量包括:在周边预设区域内的属于特定POI类别的近邻POI的数量,如在理发店的POI周边100米内有2个餐馆POI,在理发店的POI周边200米内有3个银行提款机。
需要说明的是,本实施例中对于POI的周边预设区域内的近邻道路数据项和周边预设区域内的近邻POI数据项,可以通过地图上的应用服务根据POI的给点坐标得到周边预设区域内的近邻道路数据项和近邻POI数据项,例如,近邻道路数据项可以包括有道路名、道路类别、道路方向以及道路的坐标串等数据内容,近邻POI数据项可以包括有:近邻POI的名称、坐标、类别、来源、地址等数据内容。
步骤S502:基于数据项类型,对POI数据中的至少一个数据项进行特征提取,以得到POI的POI特征向量。
其中,在POI为多个时,本实施例中针对每个POI,分别对每个POI的POI数据进行特征提取,以得到每个POI的POI特征向量。
需要说明的是,针对单个POI,本实施例中可以对其POI数据中的各类型数据项分别进行特征提取,进而得到每个数据项的特征向量,以组成该POI的POI特征向量,因此,针对每个POI来说,其POI特征向量中可以包括有一个或多个特征向量。
在一种实现方式中,本实施例在对POI数据进行特征提取时,可以首先获得POI数据中所包含的数据项的类型,再针对每种类型的数据项,使用相应类型对应的特征提取方式进行特征提取,例如,使用目标类型对应的特征提取方式对属于该目标类型的数据项的特征向量进行提取,进而得到属于目标类型的数据项对应的特征向量,组合形成POI的POI特征向量。
其中,目标类型可以为POI数据中所包含的数据项的类型中的任意一种,如地址文本类型、来源类型、类别类型、周边预设区域内的近邻道路类型、周边预设区域内的近邻POI类型等中的任意一种或任意组合,而目标类型对应的特征提取方式与属于目标类型的数据项的数据内容相关。
由此,本实施例中可以对POI数据中所有类型的数据项采用其对应的特征提取方式分别进行特征向量的提取,再将所有类型的数据项各自得到的特征向量进行组合,得到POI的POI特征向量,即此时目标类型指代POI数据中所有的数据项类型;
或者,本实施例中对POI数据中部分类型的数据项分别采用其对应特征提取方式进行特征向量的提取,再将这些部分类型的数据项各自的特征向量进行组合,得到POI的POI特征向量,即此时目标类型指代POI数据中一部分的数据项类型;
或者,本实施例中对POI数据中的某一个类型的数据项采用其对应的特征提取方式进行特征向量的提取,得到POI的POI特征向量,即此时目标类型指代POI数据中某一个数据项类型。
其中,本实施例中,如果目标类型为地址文本类型,那么本实施例中可以利用卷积神经网络CNN(ConvolutionalNeural Networks),对POI数据中的地址文本数据项进行特征提取,以得到地址文本数据项的特征向量;
如果目标类型为来源类型或类别类型,那么本实施例中可以利用独热码one hot编码方式实现特征向量提取,如利用独热码编码方式对POI数据中POI来源数据项进行特征提取,得到POI来源数据项的特征向量,再如,利用独热码编码方式对POI数据中的POI类别数据项进行特征提取,以得到POI类别数据项的特征向量;
如果目标类型为周边预设区域内的近邻道路类型或周边预设区域内的近邻POI类型,那本实施例中可以通过对POI数据中POI的周边预设区域内的近邻道路数据项或近邻POI数据项进行特征提取,从而得到相应的特征向量,如对POI数据中的POI周边预设区域内的近邻道路的类别和在相应类别上的数量进行统计,得到近邻道路的数据项的特征向量,如特征向量[0,0,0,1,0,0,1]表示:POI周边10米内省道数量为1,其他类别道路数量为0;再如,对POI数据中的POI周边预设区域内的近邻POI的类别和在相应类别上的数量进行统计,得到近邻POI的数据项的特征向量,如特征向量[0,0,2,3,0,0,0]表示POI周边100米内有2个餐馆和3个银行提款机。
具体的,本实施例中在对POI数据进行特征提取,以得到POI的POI特征向量时,可以对POI数据中的任意一种类型的数据项或者任意多种类型的数据项使用相应类型对应的特征提取方式分别进行特征向量的提取,进而组合得到POI的POI特征向量:
例如,本实施例中可以对POI数据执行以下任意一个或任意多个操作,再将执行操作所得到的特征向量进行组合,以得到POI特征向量:
利用卷积神经网络,对POI数据中的地址文本数据项进行特征提取,得到地址文本数据项的特征向量;
利用独热码编码方式,对POI数据中的POI来源数据项如应用点评等进行特征提取,得到POI来源数据项的特征向量;
利用独热码编码方式,对POI数据中的POI类别数据项如美食类别或娱乐类别等进行特征提取,得到POI类别数据项的特征向量;
对POI数据中POI周边预设区域内的近邻道路的类别和在相应类别上的数量进行数据统计,得到近邻道路的类别和数量数据项的特征向量;
对POI数据中POI周边预设区域内的近邻POI的类别和在相应类别上的数量进行数据统计,得到近邻POI的类别和数量数据项的特征向量。
步骤S503:将POI特征向量输入训练模型,得到训练模型输出的POI的空间类型。
其中,训练模型可以为利用至少两个具有空间类型标签的样本训练得到。需要说明的是,训练模型的样本可以是在已经存在的POI中抽取出的样本POI,进而得到这些样本POI的POI数据,即用于训练以上训练模型的训练样本。
需要说明的是,样本的空间类型标签可以通过对样本的POI数据中进行分析或经过人工标注得到。例如,对于样本的来源是室内的,认为并标注是室内类型,而如果样本通过众包历史扫街采集得到的,那么认为并标注是沿街类型;或者通过电话核实并结合底图和街景等信息进行人工标注,得到每个样本的空间类型标签。
其中,空间类型标签可以为沿街标签、室内标识或其他标签等。相应的,训练模型的输出结果可以包括有在各个空间类型标签上的概率值,进一步的,在基于概率值选择最大的概率值对应的空间类型标签进行输出,即输出POI的空间类型;或者,本实施例中训练模型的输出结果即为概率值最大的空间类型标签,即为POI的空间类型。
在一种实现方式中,本实施例中的POI为一个,本实施例中对该POI的POI数据进行特征提取之后,以该POI的POI特征向量输入到训练模型中,得到该POI的空间类型。
在另一种实现方式中,本实施例中的POI为多个,本实施例中同时或者依次对每个POI的POI数据进行特征提取之后,分别将每个POI的POI特征向量输入到训练模型中,由此,得到每个POI的空间类型。
需要说明的是,本实施例中POI的空间类型可以为室内类型、沿街类型或其他类型。
由上述方案可知,本申请实施例所提供的一种兴趣点POI的分类方法,在获取到POI的POI数据之后,对POI数据中数据项进行特征提取,进而在得到包括数据项对应的特征向量的POI特征向量之后,将这些POI特征向量输入到利用具有空间类型标签的样本训练好的训练模型中,进而得到训练模型输出的POI的空间类型。可见,本申请中通过对POI数据中的数据项进行特征提取,以POI数据中各数据项对应的特征向量组成的POI特征向量作为训练模型的输入,来获得POI的空间类型,从而不受POI数据中是否完整的限制,即使POI数据中不完整,也能够从POI数据中一个或多个的数据项中提取到POI特征向量,进而利用训练模型对提取到的POI特征向量进行处理,以区分出POI的空间类型,由此提高对POI空间类型进行分类的可靠性。
在一种可能的实现方式中,服务器预先搭建并训练好训练模型,具体的,服务器可以首先从具有预设的空间类型标签的POI数据中选取出训练样本,或者对没有空间类型标签的样本提供给工作人员进行人工标注,进而得到训练样本,之后,通过对这些训练样本及其空间类型标签进行特征向量的提取,在得到这些样本的POI特征向量之后,将这些POI特征向量进行拼接,从而利用这些POI特征向量对初始搭建的数学模型进行训练,即可完成训练模型的构建。后续在需要对某个POI进行空间类型的分类时,可以将该POI的POI特征向量输入到该训练模型中,从而得到训练模型输出的该POI的空间类型,如室内类型或沿街类型等。
可选的,后台服务器中所构建的训练模型可以为基于机器学习算法如梯度下降树GBDT(Gradient Boosting Decision Tree)的计算模型。
需要说明的是,本实施例所获得的POI特性向量中对应的数据项类型与用于训练模型训练的样本的POI特征向量对应的数据项类型相一致。也就是说,在训练模型的训练中所使用的POI特征向量是基于样本数据中的P类型的数据项进行特征提取得到的,那么在对POI数据进行特征向量提取时,也是对POI数据中的P类型的数据项进行特征提取得到,而P类型可以指代一种或任意多种的数据项类型,如地址文本类型、来源类型、类别类型、周边预设区域内的近邻道路类型、周边预设区域内的近邻POI类型等类型中的一种或任意多种。
为了便于理解,以下结合图3中所示的服务器在对POI进行分类的应用场景示意图,对本方案在实际应用中的示例进行介绍:
首先,本方案中对现有的POI数据通过以下方式获得训练样本的空间类型标签:
a)根据现有的poi数据的来源提取空间类型标签,其中,来源是室内的,都认为是室内数据,来源有众包历史扫街采集的,都认为是沿街数据;
b)人工标注:随机抽取一批poi数据作为样本进行标注,如在经过电话核实后,结合底图和街景进行标注。
其次,本方案中在得到具有空间类型标签的训练样本之后,对训练样本进行以下任意一项或任意多项的特征处理:
a)利用CNN对地址进行文本特征提取得到地址特征向量;
b)对Poi的来源进行one hot编码得到特征向量;
c)对Poi的类别(美食类、娱乐类等)进行one hot编码得到特征向量;
d)召回(获取)poi周边10m、50m、100m、200m、500m的道路,对道路类别及相应类别上的数量进行统计得到特征向量;
e)召回poi周边10m、50m、100m、200m、500m的POI,对召回的POI类别及对应数量进行统计得到特征向量。
之后,本方案中将以上所得到的部分或所有特征向量进行拼接,利用GBDT模型进行学习之前所获得的样本的沿街/室内标签,完成模型训练。
最后,在需要对POI进行空间类型分类时,可以调用训练好的模型,批量对需要进行运营的POI数据进行划分,以区分出POI的空间类型之后,相应投放到不同的运营渠道,如将室内类型的POI数据投放到人工内业审核的渠道中,由工作人员打电话向地图用户和商户核实POI数据;将沿街类型的POI数据投放到众包扫街(或散点)和自研实采的运营渠道中,如将POI采集任务有偿下发给普通用户或者由地图内部工作人员去采集POI的照片、名称、坐标等数据,用于核实地图中的POI数据。
可见,本方案中通过对POI数据进行特征向量提取,并通过训练模型进行分类,从而提高POI空间类型的分类的可靠性及精确性,在poi数据运营任务下发的过程中,可以准确的根据运营的可采集类型更好的配置相应的POI数据。
另外,本方案中在对POI数据中的地址进行文本特征提取时,也可以采用其他文本特征提取方式,不限于以上CNN的深度学习的特征提取方式,可以采用机器学习或基于规则的统计方式等来实现地址的文本特征提取。
而对于训练模型除了可以是GBDT模型之外,也可以使用其他的机器学习方法搭建并训练的模型,如随机森林、线性回归LR(logistic regression)、贝叶斯分类等等方法。
又一方面,本申请还提供了一种POI的分类装置,如图6中所示,其示出了本申请一种POI的分类装置一个实施例的组成示意图,本实施例的装置可以应用于服务器,该装置可以包括:
数据获得单元601,用于获得至少一个POI的POI数据;
特征提取单元602,用于对所述POI数据进行特征提取,以得到所述POI的POI特征向量;
模型运行单元603,用于将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到。
可选的,所述特征提取单元602可以包括:
类型获得子单元,用于获得所述POI数据所包含的数据项的类型;
目标提取子单元,用于使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,以得到所述POI的POI特征向量;
其中,所述目标类型为所述类型中的任意一种。
可选的,所述目标提取子单元具体用于执行以下任意一项或任意多项:
利用卷积神经网络,对所述POI数据中的地址文本数据项进行特征提取,得到所述地址文本数据项的特征向量;
利用独热码编码方式,对所述POI数据中的POI来源数据项进行特征提取,得到所述POI来源数据项的特征向量;
利用独热码编码方式,对所述POI数据中的POI类别数据项进行特征提取,得到所述POI类别数据项的特征向量;
对所述POI数据中所述POI周边预设区域内的近邻道路的类别和数量数据项进行特征提取,得到所述近邻道路的类别和数量数据项的特征向量;
对所述POI数据中所述POI周边预设区域内的近邻POI的类别和数量数据项进行特征提取,得到所述近邻POI的类别和数量数据项的特征向量。
可选的,本实施例中的装置还可以包括有:
模型构建单元,用于获得至少两个样本,每个所述样本具有预设的空间类型标签;基于所述样本及其空间类型标签,对基于机器学习算法的训练模型进行训练。
另一方面,本申请实施例还提供了一种存储介质,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上任意一个实施例中服务器侧所执行的POI的分类方法。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种兴趣点POI的分类方法,其特征在于,包括:
获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
2.根据权利要求1所述的方法,其特征在于,基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,包括:
获得所述POI数据所包含的数据项的类型;
使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,以得到所述POI的POI特征向量;
其中,所述目标类型为所述类型中的任意一种或任意组合,所述目标类型对应的特征提取方式与属于所述目标类型的数据项的数据内容相关。
3.根据权利要求2所述的方法,其特征在于,使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用地址文本类型对应的基于卷积神经网络的特征提取方式,对所述POI数据中的地址文本数据项进行特征提取,得到所述地址文本数据项的特征向量。
4.根据权利要求2所述的方法,其特征在于,使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用来源类型对应的基于独热码编码的特征提取方式,对所述POI数据中的POI来源数据项进行特征提取,得到所述POI来源数据项的特征向量;
和/或,
使用类别类型对应的基于独热码编码的特征提取方式,对所述POI数据中的POI类别数据项进行特征提取,得到所述POI类别数据项的特征向量。
5.根据权利要求2所述的方法,其特征在于,使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,包括:
使用近邻道路类型对应的基于数据统计的特征提取方式,对所述POI数据中所述POI的周边预设区域内的近邻道路的数据项进行特征提取,得到所述近邻道路的数据项的特征向量;
和/或,
使用近邻POI类型对应的基于数据统计的特征提取方式,对所述POI数据中所述POI的周边预设区域内的近邻POI的数据项进行特征提取,得到所述近邻POI的数据项的特征向量。
6.根据权利要求1或2所述的方法,其特征在于,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,包括:
获得至少两个样本,每个所述样本具有预设的空间类型标签;
基于所述样本及其空间类型标签,对基于机器学习算法的训练模型进行训练。
7.一种兴趣点POI的分类装置,其特征在于,包括:
数据获得单元,用于获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
特征提取单元,用于基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
模型运行单元,用于将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
8.根据权利要求7所述的装置,其特征在于,所述特征提取单元包括:
类型获得子单元,用于获得所述POI数据所包含的数据项的类型;
目标提取子单元,用于使用目标类型对应的特征提取方式,提取属于所述目标类型的数据项的特征向量,以得到所述POI的POI特征向量;
其中,所述目标类型为所述类型中的任意一种,所述目标类型对应的特征提取方式与属于所述目标类型的数据项的数据内容相关。
9.一种服务器,其特征在于,包括:
处理器和存储器;
其中,所述处理器用于执行所述存储器中存储的程序;
所述存储器用于存储程序,所述程序至少用于:
获得至少一个POI的POI数据,所述POI数据包括至少一个数据项,所述数据项据具有数据项类型;
基于所述数据项类型,对所述POI数据中的至少一个数据项进行特征提取,以得到所述POI的POI特征向量,所述POI特征向量包括所述至少一个数据项对应的特征向量;
将所述POI特征向量输入训练模型,得到所述训练模型输出的所述POI的空间类型;
其中,所述训练模型为利用至少两个具有空间类型标签的样本训练得到,所述样本为具有所述空间类型标签的样本POI的数据。
10.一种存储介质,其特征在于,所述存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如上权利要求1至6任一项所述的兴趣点POI的分类方法。
CN201910646224.2A 2019-07-17 2019-07-17 一种兴趣点poi的分类方法、装置、服务器及存储介质 Active CN110347777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910646224.2A CN110347777B (zh) 2019-07-17 2019-07-17 一种兴趣点poi的分类方法、装置、服务器及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910646224.2A CN110347777B (zh) 2019-07-17 2019-07-17 一种兴趣点poi的分类方法、装置、服务器及存储介质

Publications (2)

Publication Number Publication Date
CN110347777A true CN110347777A (zh) 2019-10-18
CN110347777B CN110347777B (zh) 2023-03-14

Family

ID=68176660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910646224.2A Active CN110347777B (zh) 2019-07-17 2019-07-17 一种兴趣点poi的分类方法、装置、服务器及存储介质

Country Status (1)

Country Link
CN (1) CN110347777B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766589A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于通信数据与兴趣点数据推断城市功能的方法
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN113177058A (zh) * 2021-05-11 2021-07-27 北京邮电大学 基于复合条件的地理位置信息检索方法及系统
CN113342910A (zh) * 2021-04-28 2021-09-03 北京一亩田新农网络科技有限公司 用于确定区域类型的方法、装置、电子设备和计算机可读介质
WO2021174917A1 (zh) * 2020-10-13 2021-09-10 平安科技(深圳)有限公司 基于人工智能的poi定位方法、装置、计算机设备及介质
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033641A1 (en) * 2006-07-25 2008-02-07 Medalia Michael J Method of generating a three-dimensional interactive tour of a geographic location
US20090271400A1 (en) * 2008-04-28 2009-10-29 Clarion Co., Ltd. Point of Interest Search Device and Point of Interest Search Method
US20140222667A1 (en) * 2006-11-22 2014-08-07 Raj Abhyanker Community based character expression in a geo-spatial environment
CN106503071A (zh) * 2016-09-30 2017-03-15 百度在线网络技术(北京)有限公司 Poi信息的处理方法及装置
CN107609185A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN109033219A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi分类方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080033641A1 (en) * 2006-07-25 2008-02-07 Medalia Michael J Method of generating a three-dimensional interactive tour of a geographic location
US20140222667A1 (en) * 2006-11-22 2014-08-07 Raj Abhyanker Community based character expression in a geo-spatial environment
US20090271400A1 (en) * 2008-04-28 2009-10-29 Clarion Co., Ltd. Point of Interest Search Device and Point of Interest Search Method
CN106503071A (zh) * 2016-09-30 2017-03-15 百度在线网络技术(北京)有限公司 Poi信息的处理方法及装置
CN107609185A (zh) * 2017-09-30 2018-01-19 百度在线网络技术(北京)有限公司 用于poi的相似度计算的方法、装置、设备和计算机可读存储介质
CN108734212A (zh) * 2018-05-17 2018-11-02 腾讯科技(深圳)有限公司 一种确定分类结果的方法以及相关装置
CN109033219A (zh) * 2018-06-29 2018-12-18 北京奇虎科技有限公司 兴趣点poi分类方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
林一 等: "一种增强现实分场景推送情景感知服务的方法" *
詹丽华 等: "基于情景感知的移动搜索的演变和实现" *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110766589A (zh) * 2019-10-28 2020-02-07 电子科技大学 一种基于通信数据与兴趣点数据推断城市功能的方法
CN112069273A (zh) * 2020-08-13 2020-12-11 丰图科技(深圳)有限公司 地址文本的分类方法、装置、电子设备及存储介质
WO2021174917A1 (zh) * 2020-10-13 2021-09-10 平安科技(深圳)有限公司 基于人工智能的poi定位方法、装置、计算机设备及介质
CN112328791A (zh) * 2020-11-09 2021-02-05 济南大学 一种基于DiTextCNN的中文政务信息的文本分类方法
CN114519114A (zh) * 2020-11-20 2022-05-20 北京达佳互联信息技术有限公司 多媒体资源分类模型构建方法、装置、服务器及存储介质
CN113342910A (zh) * 2021-04-28 2021-09-03 北京一亩田新农网络科技有限公司 用于确定区域类型的方法、装置、电子设备和计算机可读介质
CN113177058A (zh) * 2021-05-11 2021-07-27 北京邮电大学 基于复合条件的地理位置信息检索方法及系统
CN113177058B (zh) * 2021-05-11 2023-10-13 北京邮电大学 基于复合条件的地理位置信息检索方法及系统
CN115687870A (zh) * 2023-01-03 2023-02-03 四川易利数字城市科技有限公司 一种基于矩阵运算的地名匹配方法

Also Published As

Publication number Publication date
CN110347777B (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN110347777A (zh) 一种兴趣点poi的分类方法、装置、服务器及存储介质
Barthelemy Morphogenesis of spatial networks
CN102089761B (zh) 自动发现受欢迎的地标
CN110175216A (zh) 坐标纠错方法、装置和计算机设备
CN101479728A (zh) 视觉以及多维搜索
CN111522901B (zh) 文本中地址信息的处理方法及装置
CN106874384A (zh) 一种异构地址标准转换及匹配方法
CN104636457B (zh) 一种位置搜索认知的方法及装置
JP2002032773A (ja) 地図データの処理装置及び方法
CN108062366A (zh) 公共文化信息推荐系统
Hajrahnur et al. Classification of posts Twitter traffic jam the city of Jakarta using algorithm C4. 5
CN107368480A (zh) 一种兴趣点数据错误类型定位、重复识别方法及装置
CN102053960B (zh) 依群需特征构建物联互联双网快准搜索引擎的方法及系统
CN111680506A (zh) 数据库表的外键映射方法、装置、电子设备和存储介质
CN109871770A (zh) 房产证识别方法、装置、设备及存储介质
US6442561B1 (en) Method of constructing binary decision trees with reduced memory access
CN110309432A (zh) 基于兴趣点的同义词确定方法、地图兴趣点处理方法
CN112925899B (zh) 排序模型建立方法、案件线索推荐方法、装置及介质
Chatterjee et al. SAGEL: smart address geocoding engine for supply-chain logistics
Li et al. Geospatial data mining on the web: Discovering locations of emergency service facilities
CN115658942A (zh) 一种面向金融场景的联合征信智能化数据检索方法
Zhang et al. Enrichment of topographic road database for the purpose of routing and navigation
CN112015937B (zh) 一种图片地理定位方法及系统
Xia et al. Data mining of tourists spatio-temporal movement patterns: A case study on Phillip Island
JPH06251064A (ja) 情報検索装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant