CN111460044B - 地理位置数据处理方法及装置 - Google Patents
地理位置数据处理方法及装置 Download PDFInfo
- Publication number
- CN111460044B CN111460044B CN201910053245.3A CN201910053245A CN111460044B CN 111460044 B CN111460044 B CN 111460044B CN 201910053245 A CN201910053245 A CN 201910053245A CN 111460044 B CN111460044 B CN 111460044B
- Authority
- CN
- China
- Prior art keywords
- poi
- pois
- vector
- classified
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Remote Sensing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种地理位置数据处理方法及装置,所述地理位置数据处理方法包括:获取多个POI的信息,以所述多个POI为节点构建POI网络;根据所述多个POI中待分类POI的信息,以及所述POI网络中与所述待分类POI相邻的至少一个POI的信息,确定所述待分类POI的类型。利用本发明实施例可实现根据相邻POI的信息对POI进行分类,使得分类结果更加准确。
Description
技术领域
本发明涉及计算机领域,尤其是涉及一种地理位置数据处理方法及装置。
背景技术
POI是“Point of Interest”的缩写,通常译为“兴趣点”。在地理信息系统中,一个POI可以是一栋房子、一个商铺、一个邮筒或一个公交站等。在电子地图领域,地名地址片段可包含兴趣点POI,比如:文一西路969号阿里巴巴西溪园区,该地名地址片段中的“阿里巴巴西溪园区”是POI。再比如,地名地址片段:文庙后街36号四川省公安厅,该地名地址片段中的“四川省公安厅”是POI。
对POI进行分类具有很多应用场景和现实意义,比如对电子地图中的POI分类、线上线下电子商务(Online To Offline,O2O)的基于位置服务(Location Based Service,LBS)需要分析POI类型、对录入公安地址数据库中的POI分类。目前,有以下两种方式来实现POI分类:
1、基于标准地址库分类:电子地图服务维护了标准地址库,标准地址库中海量的地址是经过人工分类后的地址,可以通过众包的方式获取POI类型。
2、基于POI文本特征的机器学习分类:该方法以POI名称文本为输入,首先做中文分词预处理之后,建立短文本向量空间模型,然后采用信息增益方法筛选出主要的分类特征词典,再训练朴素贝叶斯、支持向量机(Support Vector Machine,SVM)等模型完成POI分类。
但是,以上的两种POI分类方案各存在缺点:
1、通过众包的方式获取POI类别,对于新出现地址的POI,无法获取该POI的类别;而且众包的方式本身存在标注错误的风险。
2、基于POI名称文本特征的机器学习模型,其中,根据单个POI名称预测该POI的类别,由于单个POI名称所携带的信息有限,属于(超)短文本分类问题,很容易被模型分类错误。比如POI是“聚福园”,将该POI输入到机器学习模型中,被错误分类为“住宅小区”,实际上“聚福园”属于“餐饮服务中的中餐厅”类别。按照已有的POI分类方式准确率不高,容易得到错误的分类结果。
发明内容
有鉴于此,本发明提出一种地理位置数据处理方法及装置,用以解决POI分类准确率不高的问题。
第一方面,本发明提供一种兴趣点地理位置数据处理方法,所述方法包括:
获取多个POI的信息,以所述多个POI为节点构建POI网络;
根据所述多个POI中待分类POI的信息,以及所述POI网络中与所述待分类POI相邻的至少一个POI的信息,确定所述待分类POI的类型。
第二方面,本发明还提供一种地理位置数据处理装置,所述装置包括:
POI信息获取模块,用于获取多个POI的信息;
网络构建模块,用于以所述多个POI为节点构建POI网络;
POI分类模块,用于根据所述多个POI中待分类POI的信息,以及所述POI网络中与所述待分类POI相邻的至少一个POI的信息,确定所述待分类POI的类型。
本发明的实施例考虑到相邻POI对POI类型的影响,根据POI自身的信息以及相邻POI的信息确定POI类型,相对于以往的众包方式获取POI类别或仅根据POI自身信息进行分类,本发明实施例的POI分类结果更加准确;进一步,对于新出现的POI亦可以确定其所属的类型。
附图说明
图1示出了本发明一个实施例的地理位置数据处理方法的流程框图;
图2示出了本发明另一个实施例的地理位置数据处理方法的流程框图;
图3示出了本发明又一实施例的地理位置数据处理方法的流程框图;
图4示出了本发明一个实施例的地理位置数据处理装置的结构框图;
图5示出了本发明又一个实施例的地理位置数据处理装置的结构框图;
图6示出了能够实现本发明实施例方法的计算设备的示例性硬件架构的结构图。
具体实施方式
以下结合附图及实施例,对本发明进行详细描述。应理解,所描述的具体实施例仅用于解释本发明,而并不用于限定本发明。文中的诸如第一、第二等用语仅用来对一个实体(或操作)与另一个实体(或操作)进行区分,而不表示这些实体(或操作)之间存在任何关系或顺序;另外,文中的诸如上、下、左、右、前、后等表示方向或方位的用语,仅表示相对的方向或方位,而非绝对的方向或方位。在没有额外限制的情况下,由语句“包括”限定的要素,不排除在包括所述要素的过程、方法、物品或者设备中还存在其他要素。
以下通过具体的实例,描述本发明实施例的可选的具体处理过程。需要说明的是,本发明的方案并不依赖于具体的算法,在实际应用中,可选用任何已知或未知的硬件、软件、算法、程序或其任意组合等来实现本发明的方案,只要是采用了本发明方案的实质思想,均落入本发明的保护范围。
图1示出了本发明一个实施例的地理位置数据处理方法的流程框图。如图1所示,该方法包括:
S101,获取多个POI的信息,以多个POI为节点构建POI网络。
其中,POI可以是电子地图上的景点、政府机构、公司、商场、饭馆等。POI网络也可以是POI图(POI Graph)网络,POI Graph是以POI为节点构建的图网络,图网络的节点是Node,图网络的边是Edge。
作为一个实例,调用搜索POI接口获取预定区域内的多个POI的信息。其中,获取多个POI的信息包括:调用多边形搜索接口获取经纬度矩形框范围的所有POIID;调用POIID查询接口获取每个ID对应的POI详细信息,该详细信息包含以下之一或多种的组合:POI名称、POI所在的经纬度、POI所属的行政区域、POI的详细地址信息、POI类型。
需要补充的是,在获取多个POI的信息之后,对多个POI的信息进行数据清洗,即去除长尾类型,对类型进行剪枝,保留出现频率大于100的POI类型,一方面去除异常点影响,另一方面在一定程度上缓解数据稀疏问题。
在进行数据清洗之后,对清洗后的多个POI进行分割,以分割成训练集和测试集,训练集中的POI是用于训练分类模型的POI,测试集中的POI是待分类POI。由于基于POI网络的分类是直推式学习的分类方式,训练集中POI的类型是已知的,测试集中POI的类型是未知的,但是训练集中的POI和测试集中的POI共同参与构建POI网络。
S102,根据多个POI中待分类POI的信息,以及POI网络中与待分类POI相邻的至少一个POI的信息,确定待分类POI的类型。
其中,POI的类型包括以下之一或多种的组合:住宅小区、超市、餐饮、酒店、景点、商场。POI的类型与POI的类目、POI所属的类型是同一个意思。
本发明实施例考虑到相邻POI对POI类型的影响,相邻POI的信息可以帮助POI分类。例如:一个住宅小区周围往往包含餐饮、便利店、药店、菜场等POI,本发明实施例首先从图网络的角度出发,以POI为节点,构建POI网络,该POI网络可以是无向图网络;然后根据POI自身的信息以及相邻POI的信息确定POI类型。因此,考虑到POI周围相邻POI的信息,比如“聚福园”的相邻POI是“竹海水韵”,“竹海水韵”的类型是“住宅小区”,那么“聚福园”的类型是“住宅小区”的置信度就要被降低,“聚福园”的类型是“餐饮服”、或者“中餐厅”的置信度被提高,并非仅根据待分类POI自身的信息进行分类,从而可以更加准确地对POI进行分类。对于新出现的POI,可以通过上述的方法确定该POI的类型,并不限制对数据库中的POI进行分类。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间的经纬度距离小于或等于预定阈值。
作为一个示例,以POI为节点,以相邻的两个POI之间的经纬度距离小于或等于0.005作为相邻点判断标准来构建节点之间的边(edge)。相邻的两个POI可以称作是两个邻居点。
比如,POI“黄龙公寓”的经纬度分别为120.112536和30.273767,POI“杭州丰潭中学”经纬度分别为120.112858和30.272544,这两个POI的经纬度距离为经度、纬度均方根,即0.00120039,0.00120039小于0.005的经纬度距离阈值,所以“黄龙公寓”与“杭州丰潭中学”之间存在边,有了节点和边以构建POI网络。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间不存在其他POI。
在本发明的一个实施例中,该方法还包括:
获取POI网络的邻接矩阵;在邻接矩阵上以随机游走方式搜索待分类POI的多个相邻POI,得到待分类POI的POI节点序列。
需要说明的是,可以在构建POI网络之后,获取POI网络的邻接矩阵。
作为一个示例,在POI网络的邻接矩阵上,对待分类POI的相邻点进行深度搜索,获取待分类POI的多个相邻POI;将待分类POI和该多个相邻POI作为待分类POI的POI节点序列,该POI节点序列可以记为一个POI句子(POI sentence)。其中,在进行深度搜索时,采用截断的随机游走策略选择下一个相邻点。
需要说明的是,邻接矩阵描述图网络中节点之间的相邻关系,如果图网络有N个节点,那邻接矩阵是N×N的方阵,元素(i,j)的值为0表示节点i与节点j不相邻,元素(i,j)的值为1表示节点i与节点j相邻。
在本发明的一个实施例中,该方法还包括:
将待分类POI的标识信息ID转换为对应的第一向量;将POI节点序列对应的POI名称序列转换为对应的多个向量;基于第一向量和多个向量得到待分类POI的POI特征向量。
需要说明的是,可以在得到POI节点序列之后,将待分类POI的标识信息ID转换为对应的第一向量。每个POI都有标识信息ID(identification,ID)和POI名称这两种属性,POI节点序列是由POI的ID组成的序列,该序列即为POI标识信息ID序列(POI embedding)。每个POI节点序列对应一个POI名称序列(POI名称的word embedding),POI名称序列是由POI名称组成的序列。
通过将待分类POI的标识信息ID和POI名称序列分别转化成对应的向量,以将待分类POI的信息和该待分类POI的相邻POI的信息融合在一起,得到POI特征向量,即该POI特征向量不仅具有POI的信息,还具有相邻POI的信息。
在本发明的一个实施例中,采用第一训练模型对待分类POI的ID进行训练,得到第一向量;采用第二训练模型对POI名称序列中的每个词进行训练,以将各个词转换成对应的向量,得到多个向量。
需要说明的是,第一训练模型和第二训练模型可以均是预定的模型,也可以是在整个过程中随时更新的模型。
作为一个示例,第一训练模型和第二训练模型均是跳字(skip-gram)模型,采用skip-gram语言模型分别训练待分类POI的标识信息ID和POI名称序列,skip-gram是使用单词来预测上下文的一个模型,通过最大化窗口内单词之间的共现概率来学习向量表示。
在本发明的一个实施例中,该方法还包括:
将多个向量进行求和并取均值,得到第二向量,将第二向量与第一向量做拼接处理,得到POI特征向量。
作为一个例子,将第二向量与第一向量做拼接,包括:第二向量放在第一向量的后面,以将第二向量与第一向量合成一个POI特征向量,该POI特征向量融合了POI的自身信息和相邻POI的信息。
在本发明的一个实施例中,该方法包括:
将多个向量中处于相同位置的多个元素相加并除以多个向量的总个数,作为第二向量中对应的各元素的值。
作为一个例子,有三个向量,分别是(X1,X2,X3),(Y1,Y2,Y3),(Z1,Z2,Z3),将这三个向量进行求和并取均值,得到一个第二向量(W1,W2,W3),其中W1是X1、Y1和Z1的平均值,W2是X2、Y2和Z2的平均值,W3是X3、Y3和Z3的平均值。
在本发明的一个实施例中,将待分类POI的POI特征向量输入POI分类模型,得到输出的待分类POI的类型。
需要说明的是,可以将待分类POI的POI特征向量输入预先训练好的POI分类模型。
作为一个示例,预先训练好的POI分类模型是层次柔性最大传递函数(softmax)分类模型。将待分类POI的POI特征向量输入到softmax分类模型中,输出POI所属各个类型的概率,其中,POI所属各个类型的概率之和等于1;选择概率最大的类型作为POI的概率。
比如,softmax分类模型输出POI属于“住宅小区”类型的概率是0.8,POI属于“餐饮”类型的概率是0.15,POI属于“超市”类型的概率是0.05,因此,确定POI的类型是“住宅小区”。
图2示出了本发明另一个实施例的地理位置数据处理方法的流程框图。如图2所示,该方法包括:
S201,获取位于预定区域内的多个POI的信息,以多个POI为节点构建POI网络。
S202,根据多个POI的信息,以及POI网络中各个POI的相邻关系,对预设的POI分类模型进行训练,以得到训练好的POI分类模型。
本发明实施例考虑到相邻POI对POI类型的影响,相邻POI的信息可以帮助POI分类。例如:一个住宅小区周围往往包含餐饮、便利店、药店、菜场等POI,本发明实施例首先从图网络的角度出发,以POI为节点,构建POI网络;然后根据POI自身的信息以及相邻POI的信息训练POI分类模型,并非仅根据POI自身的信息训练模型,从而可以利用模型更加准确地对POI进行分类。而且,该模型可以对新出现的POI进行分类,并不限制对数据库中的POI进行分类。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间不存在其他POI。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间的经纬度距离小于或等于预定阈值。
需要说明的是,由于兴趣点POI分类模型训练方法中的构建POI网络与兴趣点POI分类方法中的构建POI网络的实现方式相同,而且已经在兴趣点POI分类方法中对构建POI网络的实现方式进行说明,在此不再重复赘述。
在本发明的一个实施例中,在S201之后,该方法还包括:
获取POI网络的邻接矩阵;对于多个POI中预定数量的各个POI,在邻接矩阵上以随机游走方式搜索每个POI各自的多个相邻POI,得到每个POI的POI节点序列。
在本发明的一个实施例中,在得到POI节点序列之后,该方法还包括:
对于各个POI,将POI的身份信息ID转换为对应的第一向量,并将POI节点序列对应的POI名称序列转换为对应的多个向量,基于第一向量和多个向量得到当前POI的POI特征向量,以得到各个POI的POI特征向量。
在本发明的一个实施例中,采用预定的第一训练模型对待分类POI的标识信息ID进行训练,得到第一向量;采用预定的第二训练模型对POI名称序列中的每个词进行训练,以将各个词转换成对应的向量,得到多个向量。
在本发明的一个实施例中,基于第一向量和多个向量得到当前POI的POI特征向量,包括:
将多个向量进行求和并取均值,得到第二向量,将第二向量与第一向量做拼接处理,得到当前POI的POI特征向量。
在本发明的一个实施例中,将多个向量进行求和并取均值,包括:
将多个向量中处于相同位置的多个元素相加并除以多个向量的总个数,作为第二向量中对应的各元素的值。
需要说明的是,由于兴趣点POI分类模型训练方法中的得到POI特征向量与兴趣点POI分类方法中的得到POI特征向量的实现方式相同,而且已经在兴趣点POI分类方法中对得到POI特征向量的实现方式进行说明,在此不再重复赘述。
图3示出了本发明另一个实施例的地理位置数据处理方法的流程框图。如图3所示,该方法包括:
S301,爬取多个POI的信息、清洗、分割。
(1)爬取多个POI的信息,其中,爬取杭州市中心范围的多个POI的信息,总计50万。
(2)对多个POI的信息进行数据清洗,对类型进行剪枝,保留出现频率大于100的POI类型,经过清洗得到杭州市中心范围内的POI信息为35万,POI类型有200个。
(3)对多个POI进行分割,以分割成训练集和测试集,训练集中POI的数量与测试集中POI的数量之间的比值是7:3。训练集中POI的类型是已知的,测试集中POI的类型是未知的。
S302,根据训练集中的POI与测试集中的POI,构建POI网络。以POI为节点,以经纬度距离<0.005作为邻居点判断标准来构建节点之间的边。在构建完POI网络之后,构建POI网络的邻接矩阵。
S303,在邻接矩阵上进行邻居点深度搜索,得到POI节点序列。其中,如果待深度搜索的POI是A,在POI图中对A进行深度搜索,搜索出B、C两个POI,A对应的ID是001,B对应的ID是002,C对应的ID是003,(001,002,003)是一个POI标识信息ID序列,该POI标识信息ID序列对应的POI名称序列是(A、B、C)。
S304,对待分类POI的标识信息ID和POI节点序列分别进行训练,得到对应的向量。其中,当对A的POI进行深度搜索,得到B和C时,将A对应的ID(即001)转换成一个向量,这个向量就是第一向量。由于POI名称序列是(A、B、C),A由A1、A2和A3三个词组成,B由B1和B2两个词组成,C由C1和C2两个词组成,因此,将A1、A2、A3、B1、B2、C1和C2分别都转换成一个向量,即得到了7个向量,这7个向量就是第二向量。
S305,生成POI特征向量。其中,将以上得到的7个向量进行求和并计算均值,得到一个向量;将该向量与A对应ID的向量拼接,得到A的POI特征向量。
S306,训练分类模型。其中,以训练集中的POI的特征向量作为输入,训练层次softmax分类模型。
S307,POI类型预测。其中,将测试集中的POI的特征向量输入给训练好的层次softmax分类模型,输出概率最高的POI类型。
图4示出了本发明一个实施例的地理位置数据处理装置的结构框图。如图4所示,该装置400包括:
POI信息获取模块401,用于获取多个POI的信息。
网络构建模块402,用于以多个POI为节点构建POI网络。
POI分类模块403,用于根据多个POI中待分类POI的信息,以及POI网络中与待分类POI相邻的至少一个POI的信息,确定待分类POI的类型。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间不存在其他POI。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间的经纬度距离小于或等于预定阈值。
在本发明的一个实施例中,该装置400还包括:
矩阵获取模块,用于获取POI网络的邻接矩阵。
节点序列获取模块,用于在邻接矩阵上以随机游走方式搜索待分类POI的多个相邻POI,得到待分类POI的POI节点序列。
在本发明的一个实施例中,该装置400还包括:
第一向量转换模块,用于将待分类POI的标识信息ID转换为对应的第一向量。
第二向量转换模块,用于将POI节点序列对应的POI名称序列转换为对应的多个向量。
特征向量生成模块,用于基于第一向量和多个向量得到待分类POI的POI特征向量。
在本发明的一个实施例中,第一向量转换模块包括:
第一向量训练模块,用于采用第一训练模型对待分类POI的ID进行训练,得到第一向量。
第二向量转换模块包括:
第二向量训练模块,用于采用第二训练模型对POI名称序列中的每个词进行训练,以将各个词转换成对应的向量,得到多个向量。
在本发明的一个实施例中,特征向量生成模块包括:
向量计算模块,用于将多个向量进行求和并取均值,得到第二向量。
向量拼接模块,用于将第二向量与第一向量做拼接,得到POI特征向量。
在本发明的一个实施例中,向量计算模块包括:
均值计算模块,用于将多个向量中处于相同位置的多个元素相加并除以上述多个向量的总个数,作为第二向量中对应的各元素的值。
在本发明的一个实施例中,POI分类模块包括:
模型分类模块,用于将待分类POI的POI特征向量输入POI分类模型,得到输出的待分类POI的类型。
图5示出了本发明另一个实施例的地理位置数据处理装置的结构框图。如图5所示,该装置500包括:
POI信息获取模块501,用于获取多个POI的信息。
网络构建模块502,用于以多个POI为节点构建POI网络。
模型训练模块503,用于根据多个POI的信息,以及POI网络中各个POI的相邻关系,对POI分类模型进行训练,以得到训练好的POI分类模型。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间不存在其他POI。
在本发明的一个实施例中,在POI网络中,相邻的两个POI之间的经纬度距离小于或等于预定阈值。
在本发明的一个实施例中,该装置500还包括:
矩阵获取模块,用于获取POI网络的邻接矩阵。
序列获取模块,用于对于多个POI中预定数量的各个POI,在邻接矩阵上以随机游走方式搜索每个POI各自的多个相邻POI,得到每个POI的POI节点序列。
在本发明的一个实施例中,该装置500还包括:
向量转换模块,用于对于各个POI,将POI的标识信息ID转换为对应的第一向量,并将POI节点序列对应的POI名称序列转换为对应的多个向量。
特征向量生成模块,用于基于第一向量和多个向量得到当前POI的POI特征向量,以得到各个POI的POI特征向量。
在本发明的一个实施例中,向量转换模块包括:
第一向量训练模块,用于采用第一训练模型对待分类POI的身份信息ID进行训练,得到第一向量。
第二向量训练模块,用于采用第二训练模型对POI名称序列中的每个词进行训练,以将各个词转换成对应的向量,得到多个向量。
在本发明的一个实施例中,特征向量生成模块包括:
向量计算模块,用于将多个向量进行求和并取均值,得到第二向量。
向量拼接模块,用于将第二向量与第一向量做拼接处理,得到当前POI的POI特征向量。
在本发明的一个实施例中,向量计算模块包括:
均值计算模块,用于将多个向量中处于相同位置的多个元素相加并除以多个向量的总个数,作为第二向量中对应的各元素的值。
在本发明的一个实施例中,模型训练模块503包括:
POI分类模型训练模块,用于将各个POI的POI特征向量输入POI分类模型,经过训练以得到训练好的POI分类模型。
本发明实施例提供一种计算设备,其包括:存储器和处理器。
存储器用于存储程序;
处理器用于运行所述存储器中存储的所述程序,以执行以上任一项所述的地理位置数据处理方法中的步骤。
本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被处理器执行时实现以上任一项所述的地理位置数据处理方法中的步骤。
应当指出,在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。
当使用全部或部分地以计算机程序产品的形式实现,所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载或执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机程序指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL)或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输)。所述计算机可读取存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
图6示出了能够实现本发明实施例方法的计算设备的示例性硬件架构的结构图。其中,计算设备600包括输入设备601、输入接口602、处理器603、存储器604、输出接口605、以及输出设备606。
其中,输入接口602、处理器603、存储器604、以及输出接口605通过总线610相互连接,输入设备601和输出设备606分别通过输入接口602和输出接口605与总线610连接,进而与计算设备600的其他组件连接。
具体地,输入设备601接收来自外部的输入信息,并通过输入接口602将输入信息传送到处理器603;处理器603基于存储器604中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器604中,然后通过输出接口605将输出信息传送到输出设备606;输出设备606将输出信息输出到计算设备600的外部供用户使用。
计算设备600可以执行本发明上述的方法中的各步骤。
处理器603可以是一个或多个中央处理器(英文:Central Processing Unit,CPU)。在处理器601或处理器701是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器604可以是但不限于随机存储存储器(RAM)、只读存储器(ROM),可擦除可编程只读存储器(EPROM)、光盘只读存储器(CD-ROM)、硬盘等中的一种或多种。存储器604用于存储程序代码。可以理解,本发明实施例提供的任一模块或全部模块的功能可以用央处理器603实现。
本说明书的各个部分均采用递进的方式进行描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点介绍的都是与其他实施例不同之处。尤其,对于装置和系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处可参见方法实施例部分的说明。
Claims (9)
1.一种地理位置数据处理方法,所述方法包括:
获取多个POI的信息,以所述多个POI为节点构建POI网络;其中,所述多个POI的信息包括所述多个POI的标识信息ID;
将所述多个POI中待分类POI的标识信息ID转换为对应的第一向量,将POI节点序列对应的POI名称序列转换为对应的多个向量,基于所述第一向量和所述多个向量得到所述待分类POI的POI特征向量,基于所述特征向量,确定所述待分类POI的类型;其中,所述POI节点序列基于所述POI网络中与所述待分类POI相邻的至少一个POI的信息确定。
2.根据权利要求1所述的方法,在所述POI网络中,所述相邻的两个POI之间的经纬度距离小于预定阈值。
3.根据权利要求1所述的方法,在所述POI网络中,相邻的两个POI之间不存在其它POI。
4.根据权利要求1所述的方法,还包括:
获取所述POI网络的邻接矩阵;
在所述邻接矩阵上以随机游走方式搜索所述待分类POI的多个相邻POI,得到所述待分类POI的POI节点序列。
5.根据权利要求1所述的方法,其中,
采用第一训练模型对所述待分类POI的ID进行训练,得到所述第一向量;
采用第二训练模型对所述POI名称序列中的每个词进行训练,以将各个词转换成对应的向量,得到所述多个向量。
6.根据权利要求1所述的方法,还包括:
将所述多个向量进行求和并取均值,得到第二向量,将所述第二向量与所述第一向量做拼接处理,得到所述POI特征向量。
7.根据权利要求6所述的方法,还包括:
将所述多个向量中处于相同位置的多个元素相加并除以所述多个向量的总个数,作为所述第二向量中对应的各元素的值。
8.根据权利要求1所述的方法,其中,
将所述待分类POI的POI特征向量输入POI分类模型,得到输出的所述待分类POI的类型。
9.一种地理位置数据处理装置,所述装置包括:
POI信息获取模块,用于获取多个POI的信息;
网络构建模块,用于以所述多个POI为节点构建POI网络;
POI分类模块,用于将所述多个POI中待分类POI的标识信息ID转换为对应的第一向量,将POI节点序列对应的POI名称序列转换为对应的多个向量,基于所述第一向量和所述多个向量得到所述待分类POI的POI特征向量,基于所述特征向量,确定所述待分类POI的类型;其中,所述POI节点序列基于所述POI网络中与所述待分类POI相邻的至少一个POI的信息确定。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053245.3A CN111460044B (zh) | 2019-01-21 | 2019-01-21 | 地理位置数据处理方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910053245.3A CN111460044B (zh) | 2019-01-21 | 2019-01-21 | 地理位置数据处理方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460044A CN111460044A (zh) | 2020-07-28 |
CN111460044B true CN111460044B (zh) | 2023-06-30 |
Family
ID=71682154
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910053245.3A Active CN111460044B (zh) | 2019-01-21 | 2019-01-21 | 地理位置数据处理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460044B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112235714B (zh) * | 2020-10-13 | 2021-05-25 | 平安科技(深圳)有限公司 | 基于人工智能的poi定位方法、装置、计算机设备及介质 |
CN113342910A (zh) * | 2021-04-28 | 2021-09-03 | 北京一亩田新农网络科技有限公司 | 用于确定区域类型的方法、装置、电子设备和计算机可读介质 |
CN114201572A (zh) * | 2022-02-15 | 2022-03-18 | 深圳依时货拉拉科技有限公司 | 基于图神经网络的兴趣点分类方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183908A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种兴趣点poi数据的分类方法和装置 |
CN106503071A (zh) * | 2016-09-30 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | Poi信息的处理方法及装置 |
CN107133262A (zh) * | 2017-03-30 | 2017-09-05 | 浙江大学 | 一种基于多影响嵌入的个性化poi推荐方法 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN109213938A (zh) * | 2018-08-09 | 2019-01-15 | 成都信息工程大学 | 一种基于异构网络的poi推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8204886B2 (en) * | 2009-11-06 | 2012-06-19 | Nokia Corporation | Method and apparatus for preparation of indexing structures for determining similar points-of-interests |
-
2019
- 2019-01-21 CN CN201910053245.3A patent/CN111460044B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105183908A (zh) * | 2015-09-30 | 2015-12-23 | 北京奇虎科技有限公司 | 一种兴趣点poi数据的分类方法和装置 |
CN106503071A (zh) * | 2016-09-30 | 2017-03-15 | 百度在线网络技术(北京)有限公司 | Poi信息的处理方法及装置 |
CN107133262A (zh) * | 2017-03-30 | 2017-09-05 | 浙江大学 | 一种基于多影响嵌入的个性化poi推荐方法 |
CN108363698A (zh) * | 2018-03-13 | 2018-08-03 | 腾讯大地通途(北京)科技有限公司 | 兴趣点关系识别方法及装置 |
CN109213938A (zh) * | 2018-08-09 | 2019-01-15 | 成都信息工程大学 | 一种基于异构网络的poi推荐方法 |
Non-Patent Citations (1)
Title |
---|
郑香平 等.地点网络中的社区发现.计算机科学.2018,第45卷(第6期),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN111460044A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109145219B (zh) | 基于互联网文本挖掘的兴趣点有效性判断方法和装置 | |
US11698261B2 (en) | Method, apparatus, computer device and storage medium for determining POI alias | |
CN111160471B (zh) | 一种兴趣点数据处理方法、装置、电子设备和存储介质 | |
CN108628811B (zh) | 地址文本的匹配方法和装置 | |
CN110119475B (zh) | 一种poi推荐方法及推荐系统 | |
CN110968654B (zh) | 文本数据的地址类目确定方法、设备以及系统 | |
Wu et al. | Modified data-driven framework for housing market segmentation | |
CN110929162A (zh) | 基于兴趣点的推荐方法、装置、计算机设备和存储介质 | |
CN111460044B (zh) | 地理位置数据处理方法及装置 | |
CN111881377B (zh) | 位置兴趣点的处理方法及装置 | |
CN112347222A (zh) | 一种基于知识库推理的将非标准地址转换为标准地址的方法及系统 | |
Abdolmajidi et al. | Matching authority and VGI road networks using an extended node-based matching algorithm | |
CN111414357A (zh) | 地址数据处理方法、装置、系统和存储介质 | |
CN114329244A (zh) | 地图兴趣点查询方法、装置、设备、存储介质及程序产品 | |
Yin et al. | Pinpointing locational focus in microblogs | |
CN111126422B (zh) | 行业模型的建立及行业的确定方法、装置、设备及介质 | |
Wei et al. | A probabilistic approach to address data uncertainty in regionalization | |
CN110674208B (zh) | 用于确定用户的职住地信息的方法和装置 | |
Jing et al. | A hierarchical spatial unit partitioning approach for fine‐grained urban functional region identification | |
Wu et al. | Improving tourism analytics from climate data using knowledge graphs | |
Shafique et al. | Recommending most popular travel path within a region of interest from historical trajectory data | |
KR102157370B1 (ko) | 과밀지수 산출방법 및 이를 이용한 창업 지원 시스템 | |
CN113468881B (zh) | 一种地址标准化方法及装置 | |
Kim et al. | A multi‐criteria decision‐making approach for geometric matching of areal objects | |
CN111523614B (zh) | 小区相似判断方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |