CN110503485B

CN110503485B - 地理区域分类方法及装置、电子设备、存储介质

Info

Publication number: CN110503485B
Application number: CN201910798613.7A
Authority: CN
Inventors: 胡洋吉; 张钧波; 陈顺; 郑宇�; 宋礼
Original assignee: Beijing Jingdong Intelligent City Big Data Research Institute
Current assignee: Beijing Jingdong intelligent city big data research institute
Priority date: 2019-08-27
Filing date: 2019-08-27
Publication date: 2020-09-01
Anticipated expiration: 2039-08-27
Also published as: CN110503485A

Abstract

本公开提供了一种地理区域分类方法、地理区域分类装置、电子设备及计算机可读存储介质，属于计算机技术领域。该方法包括：获取目标地理区域内的多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间；基于出发位置和到达位置所在的子区域，分别获取出发位置和到达位置的初始的功能向量，子区域是预先对目标地理区域进行划分而得到的；以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量；对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对目标地理区域内一个或多个子区域进行功能分类。本公开可以对地理区域进行有效分类。

Description

地理区域分类方法及装置、电子设备、存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种地理区域分类方法、地理区域分类装置、电子设备及计算机可读存储介质。

背景技术

随着城市化的不断推进，为了满足人们不同的城市生活需求，每个地理区域都包含了不同的社会功能，甚至有的地理区域形成了以某种社会功能为主的功能区，例如住宅区、商业区、办公区或娱乐休闲区等等。有效的地理区域分类方法，为人们的生活提供便捷，例如企业可以针对性地进行广告投放、商业投资或者城市规划等。

现有的地理区域分类方法通常是通过人员现场进行勘探的方式，采集不同区域的数据以确定不同区域的功能。然而，这种方式需要极大的人力成本，且勘探不同的区域需要较长的时间，其过程费时费力，效率低，且准确性较低。

因此，如何高效、准确的对地理区域进行分类，是现有技术亟待解决的问题。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供了一种地理区域分类方法、地理区域分类装置、电子设备及计算机可读存储介质，进而至少在一定程度上克服现有的地理区域分类效率低且不准确的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供一种地理区域分类方法，包括：获取目标地理区域内的多组出行数据，所述出行数据包括出发位置、出发时间、到达位置、到达时间；基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，所述子区域是预先对所述目标地理区域进行划分而得到的；以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量；对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类。

在本公开的一种示例性实施例中，所述基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，包括：统计所述目标地理区域内每个子区域的兴趣点数据，确定每个子区域内各种类别的兴趣点的数量，以建立所述目标地理区域的兴趣点矩阵；根据所述出发位置所在的子区域确定所述出发位置的子区域向量，根据所述到达位置所在的子区域确定所述到达位置的子区域向量；根据所述出发位置的子区域向量和所述兴趣点矩阵之积确定所述出发位置的初始的功能向量，根据所述到达位置的子区域向量和所述兴趣点矩阵之积确定所述到达位置的初始的功能向量。

在本公开的一种示例性实施例中，所述兴趣点矩阵的列数为兴趣点的类别总数，在建立所述兴趣点矩阵之后，所述方法还包括：根据预设维数对所述兴趣点矩阵进行分解，以对所述兴趣点矩阵进行降维处理，使降维后的所述兴趣点矩阵的列数为所述预设维数。

在本公开的一种示例性实施例中，所述出行数据还包括出行环境数据，所述出行环境数据包括以下任意一种或多种：所述出行数据的日期为工作日或非工作日；所述出行数据的日期是否为特定节日；所述出行数据中出发时间和到达时间对应的天气数据。

在本公开的一种示例性实施例中，所述以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量，包括：将所述出发位置的功能向量和所述到达位置的功能向量拼接后输入所述神经网络模型，得到预测的时间向量，所述时间向量包括预测出发时间和预测到达时间；根据所述出行数据中的出发时间和所述预测出发时间的误差，以及所述出行数据中的到达时间和所述预测到达时间的误差，训练所述神经网络模型，并同步更新所述出发位置的功能向量和所述到达位置的功能向量。

在本公开的一种示例性实施例中，所述对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类，包括：以预设的功能分类总数为K值，采用K均值法对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，得到K个功能类别；根据聚类结果，在所述K个功能类别中，确定所述目标地理区域内各子区域对应的功能类别。

在本公开的一种示例性实施例中，在确定所述目标地理区域内各子区域对应的功能类别后，所述方法还包括：在所述目标地理区域的地图中，根据各所述功能类别对应的预设颜色对所述目标地理区域内的子区域进行染色，使对应相同功能类别的子区域具有相同颜色，以得到所述目标地理区域的功能分类地图。

根据本公开的一个方面，提供一种地理区域分类装置，包括：数据获取模块，用于获取目标地理区域内的多组出行数据，所述出行数据包括出发位置、出发时间、到达位置、到达时间；向量确定模块，用于基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，所述子区域是预先对所述目标地理区域进行划分而得到的；模型训练模块，用于以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量；区域聚类模块，用于对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类。

在本公开的一种示例性实施例中，向量确定模块包括：数据统计单元，用于统计所述目标地理区域内每个子区域的兴趣点数据，确定每个子区域内各种类别的兴趣点的数量，以建立所述目标地理区域的兴趣点矩阵；子区域向量确定单元，用于根据所述出发位置所在的子区域确定所述出发位置的子区域向量，根据所述到达位置所在的子区域确定所述到达位置的子区域向量；初始功能向量确定单元，用于根据所述出发位置的子区域向量和所述兴趣点矩阵之积确定所述出发位置的初始的功能向量，根据所述到达位置的子区域向量和所述兴趣点矩阵之积确定所述到达位置的初始的功能向量。

在本公开的一种示例性实施例中，所述兴趣点矩阵的列数为兴趣点的类别总数，地理区域分类装置还包括，降维模块，用于在建立所述兴趣点矩阵之后，根据预设维数对所述兴趣点矩阵进行分解，以对所述兴趣点矩阵进行降维处理，使降维后的所述兴趣点矩阵的列数为所述预设维数。

在本公开的一种示例性实施例中，模型训练模块包括：时间向量获取单元，用于将所述出发位置的功能向量和所述到达位置的功能向量拼接后输入所述神经网络模型，得到预测的时间向量，所述时间向量包括预测出发时间和预测到达时间；向量更新单元，用于根据所述出行数据中的出发时间和所述预测出发时间的误差，以及所述出行数据中的到达时间和所述预测到达时间的误差，训练所述神经网络模型，并同步更新所述出发位置的功能向量和所述到达位置的功能向量。

在本公开的一种示例性实施例中，区域聚类模块包括：类别获得单元，用于以预设的功能分类总数为K值，采用K均值法对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，得到K个功能类别；类别确定单元，用于根据聚类结果，在所述K个功能类别中，确定所述目标地理区域内各子区域对应的功能类别。

在本公开的一种示例性实施例中，地理区域分类装置还包括：染色模块，用于在确定所述目标地理区域内各子区域对应的功能类别后，在所述目标地理区域的地图中，根据各所述功能类别对应的预设颜色对所述目标地理区域内的子区域进行染色，使对应相同功能类别的子区域具有相同颜色，以得到所述目标地理区域的功能分类地图。

根据本公开的一个方面，提供一种电子设备，包括：处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的方法。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的方法。

本公开的示例性实施例具有以下有益效果：

获取目标地理区域内的多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间，基于出发位置和到达位置所在的子区域，分别获取出发位置和到达位置的初始的功能向量，子区域是预先对目标地理区域进行划分而得到的，以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量，对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对目标地理区域内一个或多个子区域进行功能分类。一方面，本示例性实施例提出一种新的地理区域分类方法，通过出行数据，对地理区域进行分类，相比于现有的通过人员现场勘探的方式，数据获取较为便捷，且数据内容较为丰富，能够对地理区域进行高效且准确的分类，分类过程较少需要人为操作，降低了出错的可能性；另一方面，由于不同地理区域的人们的出行规律相差不大，例如通常为早上8：00离开住宅区，9：00到达办公区等等，因此，本示例性实施例的地理区域分类方法能够在不同的地理区域之间进行迁移和复用，具有较广的适用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本示例性实施例中一种地理区域分类方法的流程图；

图2示意性示出本示例性实施例中一种神经网络模型的结构示意图；

图3示意性示出本示例性实施例中一种地理区域分类方法的子流程图；

图4示意性示出本示例性实施例中一种地理区域的功能分类地图的示意图；

图5示意性示出本示例性实施例中另一种地理区域分类方法的流程图；

图6示意性示出本示例性实施例中一种地理区域分类装置的结构框图

图7示意性示出本示例性实施例中一种用于实现上述方法的电子设备；

图8示意性示出本示例性实施例中一种用于实现上述方法的计算机可读存储介质。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。

本公开的示例性实施例首先提供了一种地理区域分类方法，本实施例方法的应用场景可以是：企业在进行商业选址时，对当前城市进行分类，选择商业功能密集的区域作为合适的目标地址；或者广告商在进行广告投放时，对当前城区进行分类，选择人流量较大，娱乐活动较为密集的区域作为最优广告投放地址等等。

下面结合附图1对本示例性实施例做进一步说明，如图1所示，地理区域分类方法可以包括以下步骤S110～S140：

步骤S110，获取目标地理区域内的多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间。

其中，目标地理区域是指需要进行区域分类的地区，其可以是一个省，一个城市，一个区等等，例如目标地理区域可以是四川省、成都市、武侯区等等。特别的，还可以是多个区、多个市或者多个省的集合，例如目标地理区域可以是成都市内，双流区、武侯区和锦江区组成的地理区域等等。目标地理区域的大小可以根据需要进行自定义设置，本公开对此不做具体限定。出行数据是指人们在目标地理区域中的流动数据，例如某人从家到公司过程的出行数据，其中，出行数据可以包括出发位置、出发时间、到达位置以及到达时间，出发位置为出行的起始点位置，到达位置为到达目的地的位置。在本示例性实施例中，出发位置和到达位置可以采用坐标表示，例如出发位置(108.97，34.22)可以表示起始点位置为东经108.97度，北纬34.22度，到达位置(108.95，34.26)可以表示到达目的地的位置为东经108.95度，北纬34.26等。需要说明的是，出发位置和到达位置可以根据不同的坐标标准进行表示，例如其可以根据中国国测局地理坐标标准，世界标准地理坐标标准或者其他地理坐标标准等等，本公开对此不做具体限定。出发时间与到达时间可以用“日期+小时+分钟”表示，例如出发时间为“2019-06-19，18:11:00”，另外，也可以以unix时间戳的形式进行表示，例如出发时间为1501581031，到达时间为1501582195等，其中unix时间戳的单位为秒，出发时间与到达时间的表示方法本公开对此不做具体限定。需要说明的是，为了便于进行数据处理，可以是出发时间和到达时间进行近似处理，例如出发时间为2019-06-19，18:11:00时，时间仅保留到小时，即上车时间为2019-06-19，18:00:00。在本示例性实施例中，出行数据可以通过交通出行应用程序的平台获取，例如通过网约车平台获取用户的出行订单，进一步提取订单数据中出行数据，每个订单包含的数据可以认为是一组出行数据；或者采集实名制交通出行一卡通的行程数据，也可以获取出行数据等等。

步骤S120，基于出发位置和到达位置所在的子区域，分别获取出发位置和到达位置的初始的功能向量，子区域是预先对目标地理区域进行划分而得到的。

在本示例性实施例中，可以预先对需要进行社会功能分类的目标地理区域进行子区域划分，分析各子区域的社会功能，进一步，根据各子区域的社会功能，对目标地理区域中的各子区域进行分类。其中，子区域的划分方式可以包括以下两种：

(1)、获取目标地理区域的路网数据，根据路网数据将目标地理区域划分为不规则形状的多个子区域；

其中，路网数据可以包括目标地理区域中交通道路的具体数据，例如各个道路的名称、结构、方向及位置，信号灯的数量、位置，以及道路标志或交通流量的状况信息等等。本示例性实施例可以根据路网数据中各个道路的结构，将目标地理区域划分为规则或不规则形状的多个子区域，例如，以东西走向的A道路与B道路，南北走向的C道路与D道路为界限，将A、B、C、D道路所围成的封闭区域作为一个子区域等等。在进行划分时，可以根据应用场景的需要，确定子区域的数量以及大小，例如如果需要粗颗粒度的区域，则可以只用城市主干道进行划分，如果需要细颗粒度的，则用所有道路进行划分。根据路网划分后的结果，如果某个区域太大，例如超过10平方公里，可以根据需要进行再次更为细致的划分等等，所有子区域的边界可以由道路所经过的经纬度来确定。

(2)、获取子区域的划分尺寸标准，根据划分尺寸标准将目标地理区域划分为尺寸相同的多个子区域。

在本示例性实施例中，还可以事先确定子区域的划分尺寸标准，即确定需要什么样尺寸的子区域，根据该划分尺寸标准进行子区域的划分，例如可以设置划分尺寸标准为1km×1km，则根据该划分尺寸标准可以将目标地理区域划分为若干个等尺寸的子区域。其中，这种方式划分的规则子区域的边界由网格的经纬度确定。

进一步的，根据步骤S110中获取的出行数据中包括的出发位置和到达位置，可以将其映射至目标地理区域的各子区域中。进而获取对应子区域的初始的功能向量，以确定出发位置和到达位置的初始的功能向量。

其中，功能向量是指能够反映目标地理区域中子区域功能特征的向量，通过功能向量，可以确定目标子区域的特征。功能向量的每一维度可以表示该区域在该维度功能下的概率，例如当功能向量为能够表示[居住区、办公区、娱乐休闲区]的三维功能向量时，第一子区域的功能向量为[1，0，0]可以表示该子区域的功能为居住区，第二子区域的功能向量为[0，1，0]可以表示该子区域的功能为办公区，第三子区域的功能向量为[0，0，1]可以表示该子区域的功能为娱乐休闲区。功能向量的每一维度还可以表示该区域不同类型功能建筑的数量，例如功能向量的四个维度分别为商场、写字楼、餐厅、学校，某一子区域的功能向量为[1，5，10，1]可以表示该子区域内包括1个商场，5个写字楼，10个餐厅以及1个学校，可见该子区域是以餐饮为主的娱乐休闲区域。此外，能够表示子区域社会特征的功能向量还可以有其他表示方法，本公开对此不做具体限定。

在本示例性实施例中，为了确定目标地理区域中各子区域的功能向量，首先，需要获取各个子区域的初始的功能向量，具体可以通过以下三种方式：

(1)、随机初始化，即通过系统自动为每一功能向量进行随机赋值，功能向量的维度可以人为根据需要进行设置；

(2)、确定需要的功能类别，功能向量的每一维度表示在一个功能类别下的概率。例如设置三种功能类别，分别为居住区、办公区、娱乐休闲区，则某一子区域的初始的功能向量可以是[0.2，0，0.8]，其可以表示该子区域为居住区的概率为0.2，为办公区的概率为0，为娱乐休闲区的概率为0.8。需要说明的是，由于初始时，并不能确定每一子区域准确的功能向量，可以通过随机赋值的方式，为每一子区域每一类别的功能的概率进行赋值，另外，还可以假设各子区域在不同功能类别上的可能性相等等等；

(3)、建立兴趣点矩阵。POI(Point Of Interest，兴趣点)通常是指用以抽象表示目标地理区域内所有地理对象的点，其可以是一栋房子、一个商铺、一个邮筒或者一个公交站等。因此，在本示例性实施例中，可以使用POI矩阵，以每一行表示一个子区域，每一列表示一个POI类型，矩阵元素e_ij表示第i个子区域在第j个POI类别上的个数，则每一行对应的子区域可以作为该子区域的初始的功能分布向量等等。

步骤S130，以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量。

在本示例性实施例中，可以将每组出行数据作为训练样本，训练神经网络模型。具体的，可以将出发位置所在子区域的功能向量、以及到达位置所在子区域的功能向量作为输入数据，使神经网络模型输出预测的出发时间和到达时间，根据输出结果，训练模型。在训练过程中，神经网络的权重及出发位置和到达位置的功能向量会被逐渐更新，等训练结束后，即可以确定各子区域最终的功能向量。

考虑到在某些情况下，预测的出发时间以及到达时间可能与实际的时间具有较大差异，例如工作日时，人们通常会在早上8:00从住宅子区域出发，8:30到达办公子区域，而非工作日时，则通常不会产生这一出行数据，甚至可能早上8：00从住宅子区域出发，9:00到达娱乐休闲子区域等等，或者天气不好时，还会影响人们的出行时间。因此，为了更准确的得到预测的出发时间和到达时间，在一示例性实施例中，出行数据还可以包括出行环境数据，出行环境数据可以包括以下任意一种或多种：

出行数据的日期为工作日或非工作日；

出行数据的日期是否为特定节日；

出行数据中出发时间和到达时间对应的天气数据。

在一示例性实施例中，步骤S130可以包括以下步骤：

将出发位置的功能向量和到达位置的功能向量拼接后输入神经网络模型，得到预测的时间向量，时间向量包括预测出发时间和预测到达时间；

根据出行数据中的出发时间和预测出发时间的误差，以及出行数据中的到达时间和所述预测到达时间的误差，训练神经网络模型，并同步更新出发位置的功能向量和到达位置的功能向量。

图2示出了本示例性实施例中一种神经网络模型200的结构示意图，可以包括：

输入层210，用于输入出发位置的功能向量和到达位置的功能向量，在本示例性实施例中，出发位置的功能向量211可以与到达位置212的功能向量进行拼接后输入，另外，输入层210还可以输入出行环境数据，例如当前出行数据的日期是否为工作日的标识数据213，是用标识“1”表示，否用标识“0”表示。需要说明的是，输入层中，输入神经元的个数根据出发位置和到达位置的功能向量的维数确定。

隐藏层220，用于对出发位置的功能向量211、到达位置的功能向量212以及是否工作日的标识213进行处理，其中，是否工作日可以确定激活神经网络中整体或部分的隐藏层神经元。

输出层230，用于输出预测出发的时间向量231、以及预测到达的时间向量232。在本示例性实施例中，可以设置输出48个神经元，其中，前24个神经元表示预测出发时间所在的小时的概率，例如，第一个输出神经元表示预测出发时间在00:00到1:00之间的概率，第二个神经元表示出发时间在1:00到2:00之间的概率，后24个神经元表示预测到达时间所在的小时的概率，与前24个神经元表示方法类似。需要说明的是，前24个神经元输出的预测出发时间的概率之和为1，后24个神经元输出的预测到达时间的概率之和为1，为了保证其概率和为1，本示例性实施例可以通过softmax层进行归一化处理。

另外，输出神经元的个数还可以根据需要进行调整，例如设置24个输出神经元，前12个神经元表示预测出发时间所在的小时的概率，则第一个输出神经元可以表示预测出发时间在00:00到2:00之间的概率，后12个神经元表示预测到达时间所在的小时的概率，与前12个神经元表示方法类似。此外，除了这种方式，还可以使输出的神经元直接表示预测出发时间和预测到达时间，例如设置输出神经元个数为2，第一个输出神经元表示预测出发时间，第二个输出神经元表示预测到达时间，其取值范围均为0～24，对于输出神经元的具体设置，本公开对此不做具体限定。

步骤S140，对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对目标地理区域内一个或多个子区域进行功能分类。

在本示例性实施例中，每组出行数据中均包括一出发位置与到达位置，其中，某一组的出发位置也可以是其他组的到达位置，或者某一组的出发位置即当前组的到达位置等，不论是上述哪一种情况，通过神经网络模型对每一组的出发位置的功能向量以及到达位置的功能向量进行训练，迭代更新各子区域的功能向量，直至功能向量不发生变化，即可以实现确定所有出行数据中涉及的子区域的功能向量。为了对目标地理区域整体进行分类，可以对各子区域的功能向量进行聚类，将各个子区域聚为几大类别，例如将成都市各子区域分为住宅区、办公区或娱乐休闲区三大类，从而实现对成都市一个或多个子区域的功能分类，其中，聚类的数量和聚类的类别可以根据需要进行人为设定，本公开对此不做具体限定。

基于上述说明，在本示例性实施例中，获取目标地理区域内的多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间，基于出发位置和到达位置所在的子区域，分别获取出发位置和到达位置的初始的功能向量，子区域是预先对目标地理区域进行划分而得到的，以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量，对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对目标地理区域内一个或多个子区域进行功能分类。一方面，本示例性实施例提出一种新的地理区域分类方法，通过出行数据，对地理区域进行分类，相比于现有的通过人员现场勘探的方式，数据获取较为便捷，且数据内容较为丰富，能够对地理区域进行高效且准确的分类，分类过程较少需要人为操作，降低了出错的可能性；另一方面，由于不同地理区域的人们的出行规律相差不大，例如通常为早上8：00离开住宅区，9：00到达办公区等等，因此，本示例性实施例的地理区域分类方法能够在不同的地理区域之间进行迁移和复用，具有较广的适用性。

在一示例性实施例中，上述步骤S120可以包括以下步骤：

步骤S310，统计目标地理区域内每个子区域的兴趣点数据，确定每个子区域内各种类别的兴趣点的数量，以建立目标地理区域的兴趣点矩阵；

步骤S320，根据出发位置所在的子区域确定出发位置的子区域向量，根据到达位置所在的子区域确定到达位置的子区域向量；

步骤S330，根据出发位置的子区域向量和兴趣点矩阵之积确定出发位置的初始的功能向量，根据到达位置的子区域向量和兴趣点矩阵之积确定到达位置的初始的功能向量。

其中，兴趣点数据是指包括兴趣点的名称、坐标以及类别等信息的数据，通过兴趣点数据可以刻画目标地理区域的设施功能属性，以确定某一兴趣点设于目标地理区域的哪些位置，例如商铺、学校或酒店分别设于成都市的哪些位置。兴趣点可以根据其功能属性可以分为多个类别，例如餐饮、购物、住宿、教育、文体娱乐、金融服务等等，需要说明的是，每个类别下的兴趣点还可以包括更为细致的分类，例如餐饮类别下，还可以包括快餐、西餐、清真、海鲜类饭店、火锅类饭店或烧烤类饭店等等。通过统计目标地理区域内每个子区域的兴趣点数据，可以确定各个子区域内各种类别的兴趣点数量，以建立目标地理区域的兴趣点矩阵。

在本示例性实施例中，子区域向量是指可以唯一表示一个子区域的单位行向量，例如目标地理区域共有5个子区域，则子区域A的子区域向量可以表示为[1，0，0，0，0]，子区域B的子区域向量可以表示为[0，1，0，0，0]，子区域C的子区域向量可以表示为[0，0，1，0，0]，子区域D的子区域向量可以表示为[0，0，0，1，0]，子区域E的子区域向量可以表示为[0，0，0，0，1]等等。兴趣点矩阵中的每一个行向量都可以表示一个子区域的初始的功能向量，通过计算出发位置的子区域向量和兴趣点矩阵之积，可以确定出发位置所在的子区域在兴趣点矩阵中对应的行向量，从而将该行向量作为出发位置所在区域的初始的功能向量；计算到达位置的子区域向量和兴趣点矩阵之积，可以确定到达位置所在的子区域在兴趣点矩阵对应的行向量，从而将该行向量作为到达位置所在区域的初始的功能向量。举例说明，兴趣点矩阵表示为：

其中，每一列的兴趣点类型分别为餐饮、购物、住宿、教育，则子区域A的初始的功能向量可以表示为：

则子区域A的初始的功能向量可以表示为[30，25，30，0]。

在实际应用中，考虑到通常一个目标地理区域中会包括大量的兴趣点，从而使建立的兴趣点矩阵的维度非常多，为了更有效的进行计算，可以对兴趣点矩阵进行降维处理。在一示例性实施例中，兴趣点矩阵的列数为兴趣点的类别总数，在上述建立兴趣点矩阵之后，地理区域分类方法还可以包括：

根据预设维度对兴趣点矩阵进行分解，以对兴趣点矩阵进行降维处理，使降维后的兴趣点矩阵的列数为预设维数。

对兴趣点矩阵进行降维处理，可以看做是将对子区域分类没有贡献的兴趣点进行删除，例如无论在哪一子区域，都可能包括银行、邮局等兴趣点，因此，通过降维处理，可以使得兴趣点矩阵便于后续计算，也更加具有针对性。其中，预设维度可以根据系统或人为进行自定义设置。在本示例性实施例中，由于通常目标地理区域的子区域数量与兴趣点类型数并不相同，即兴趣点矩阵的行列数不相等，因此，可以采用SVD(Singular ValueDecomposition，奇异值分解)的方法对兴趣点矩阵进行分解，以对兴趣点进行降维处理。此外，还可以采用其他降维方法，例如PCA(Principal Component Analysis，主分量分析)方法，本公开对此不做具体限定。

在一示例性实施例中，上述步骤S140可以包括以下步骤：

以预设的功能分类总数为K值，采用K均值法对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，得到K个功能类别；

根据聚类结果，在K个功能类别中，确定目标地理区域内各子区域对应的功能类别。

在本示例性实施例中，对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，即对得到的目标地理区域中出行数据涉及的各子区域的功能向量进行聚类。具体的，可以将各子区域的功能向量视为高维空间中的一个点，采用K均值的方法对各子区域的功能向量进行聚类，其中，预设的功能分类总数，即为目标地理区域最终的分类数。其可以根据需要事先进行自定义设置，例如可以设置将目标地理区域的各子区域聚为六大类，分别为餐饮、购物、住宿、教育、文体娱乐、金融服务，则采用K均值方法进行聚类时，可以设置K＝6。聚类的具体过程可以包括以下步骤：

确定K值后，在各子区域表示的点所组成的点集合中，初始化K个中心点，对点集合中的每个点，计算其与这K个中心点的距离，离哪一中心点较近，就将该点与该中心点分为同一类，将点集合中的各点分配完之后，重新计算各个类别中的中心点，以此类推，直到计算的中心点位置变化收敛或不再发生变化，可以认为聚类完成。其中，计算每个点与中心点之间的距离可以采用余弦相似度的方法来计算，例如两个子区域的功能向量分别表示为a＝(a₀,a₁,…,a_n)，b＝(b₀,b₁,…,b_n)，它们的余弦相似性值的计算方法如下：

此外，还可以通过欧几里得距离、曼哈顿距离、明可夫斯基距离等方法来确定两个功能向量之间的距离或角度等，以完成各子区域的聚类，本公开对此不做具体限定。

需要说明的是，在本示例性实施例中，目标地理区域确定的最终分类类别可以由每个大类中各子区域中数量最多的兴趣点作为该大类最典型的兴趣点，从而将该兴趣点标记为该大类的功能类别，例如将10个子区域聚为一类后，这10个子区域中商场这一兴趣点相比其他兴趣点较多，可以将商场标记为该10个子区域所组成的大类的典型兴趣点，标记该大类为购物类或休闲类，聚类结果中的大类名称可以根据兴趣点进行命名，也可以由人自定义命名，本公开对此不做具体限定。

在一示例性实施例中，在确定目标地理区域内各子区域对应的功能类别后，地理区域分类方法还可以包括：

在所述目标地理区域的地图中，根据各功能类别对应的预设颜色对目标地理区域内的子区域进行染色，使对应相同功能类别的子区域具有相同颜色，以得到目标地理区域的功能分类地图。

即根据聚类结果，对聚为一类的子区域显示同一颜色，以表示这些子区域的功能相似或相同，进而得到目标地理区域的功能分类地图，其中，不同聚类结果的子区域显示的颜色不相同，如图4所示，通过该功能分类地图，可以直观的识别不同区域的功能类型，具有较好的区分度。另外，根据功能分类地图的应用场景，还可以对不同聚类结果采用不同的颜色，例如对于旅游的用户，其更关注风景名胜区域，则可以将该区域染为红色以突出显示；或者对于企业或广告投放商，可以选择将商业区染为红色以突出显示等等。

图5示出了本示例性实施例中另一种地理区域分类的流程图，具体可以包括以下步骤：

步骤S510，将目标地理区域划分为多个子区域；

步骤S520，获取多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间；

步骤S530，以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量；

步骤S540，对各子区域的功能向量进行聚类，得到聚类结果；

步骤S550，根据聚类结果对各子区域进行标识处理；

步骤S560，得到目标地理区域的功能分类地图。

本公开的示例性实施例还提供了一种地理区域分类装置。参照图6，该装置600可以包括，数据获取模块610，用于获取目标地理区域内的多组出行数据，出行数据包括出发位置、出发时间、到达位置、到达时间；向量确定模块620，用于基于出发位置和到达位置所在的子区域，分别获取出发位置和到达位置的初始的功能向量，子区域是预先对目标地理区域进行划分而得到的；模型训练模块630，用于以出行数据、出发位置的功能向量、到达位置的功能向量为训练数据，通过训练神经网络模型，更新出发位置的功能向量和到达位置的功能向量；区域聚类模块640，用于对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对目标地理区域内一个或多个子区域进行功能分类。

在一示例性实施例中，向量确定模块可以包括：数据统计单元，用于统计目标地理区域内每个子区域的兴趣点数据，确定每个子区域内各种类别的兴趣点的数量，以建立目标地理区域的兴趣点矩阵；子区域向量确定单元，用于根据出发位置所在的子区域确定出发位置的子区域向量，根据到达位置所在的子区域确定到达位置的子区域向量；初始功能向量确定单元，用于根据出发位置的子区域向量和兴趣点矩阵之积确定出发位置的初始的功能向量，根据到达位置的子区域向量和兴趣点矩阵之积确定到达位置的初始的功能向量。

在一示例性实施例中，兴趣点矩阵的列数为兴趣点的类别总数，地理区域分类装置还可以包括，降维模块，用于在建立兴趣点矩阵之后，根据预设维数对兴趣点矩阵进行分解，以对兴趣点矩阵进行降维处理，使降维后的兴趣点矩阵的列数为预设维数。

在一示例性实施例中，出行数据还可以包括出行环境数据，出行环境数据包括以下任意一种或多种：出行数据的日期为工作日或非工作日；出行数据的日期是否为特定节日；出行数据中出发时间和到达时间对应的天气数据。

在一示例性实施例中，模型训练模块可以包括：时间向量获取单元，用于将出发位置的功能向量和到达位置的功能向量拼接后输入神经网络模型，得到预测的时间向量，时间向量包括预测出发时间和预测到达时间；向量更新单元，用于根据出行数据中的出发时间和预测出发时间的误差，以及出行数据中的到达时间和预测到达时间的误差，训练神经网络模型，并同步更新出发位置的功能向量和到达位置的功能向量。

在一示例性实施例中，区域聚类模块可以包括：类别获得单元，用于以预设的功能分类总数为K值，采用K均值法对出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，得到K个功能类别；类别确定单元，用于根据聚类结果，在K个功能类别中，确定目标地理区域内各子区域对应的功能类别。

在一示例性实施例中，地理区域分类装置还可以包括：染色模块，用于在确定目标地理区域内各子区域对应的功能类别后，在目标地理区域的地图中，根据各功能类别对应的预设颜色对目标地理区域内的子区域进行染色，使对应相同功能类别的子区域具有相同颜色，以得到目标地理区域的功能分类地图。

上述装置中各模块/单元的具体细节在方法部分的实施例中已经详细说明，未披露的细节内容可以参见方法部分的实施例内容，因此此处不再赘述。

本公开的示例性实施例还提供了一种能够实现上述方法的电子设备。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图7来描述根据本公开的这种示例性实施例的电子设备700。图7显示的电子设备700仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700以通用计算设备的形式表现。电子设备700的组件可以包括但不限于：上述至少一个处理单元710、上述至少一个存储单元720、连接不同系统组件(包括存储单元720和处理单元710)的总线730、显示单元740。

其中，存储单元存储有程序代码，程序代码可以被处理单元710执行，使得处理单元710执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元710可以执行图1所示的步骤S110～S140，也可以执行图3所示的步骤S310～S330等。

存储单元720可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)721和/或高速缓存存储单元722，还可以进一步包括只读存储单元(ROM)723。

存储单元720还可以包括具有一组(至少一个)程序模块725的程序/实用工具724，这样的程序模块725包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线730可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备700也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该电子设备700交互的设备通信，和/或与使得该电子设备700能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口750进行。并且，电子设备700还可以通过网络适配器760与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器760通过总线730与电子设备700的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备700使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

通过以上的实施方式的描述，本领域的技术人员易于理解，这里描述的示例实施方式可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本公开实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中或网络上，包括若干指令以使得一台计算设备(可以是个人计算机、服务器、终端装置、或者网络设备等)执行根据本公开示例性实施例的方法。

本公开的示例性实施例还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在终端设备上运行时，程序代码用于使终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

参考图8所示，描述了根据本公开的示例性实施例的用于实现上述方法的程序产品800，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开示例性实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的示例性实施例，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种地理区域分类方法，其特征在于，包括：

获取目标地理区域内的多组出行数据，所述出行数据包括出发位置、出发时间、到达位置、到达时间；

基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，所述子区域是预先对所述目标地理区域进行划分而得到的；

以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量；

对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类。

2.根据权利要求1所述的方法，其特征在于，所述基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，包括：

统计所述目标地理区域内每个子区域的兴趣点数据，确定每个子区域内各种类别的兴趣点的数量，以建立所述目标地理区域的兴趣点矩阵；

根据所述出发位置所在的子区域确定所述出发位置的子区域向量，根据所述到达位置所在的子区域确定所述到达位置的子区域向量；

根据所述出发位置的子区域向量和所述兴趣点矩阵之积确定所述出发位置的初始的功能向量，根据所述到达位置的子区域向量和所述兴趣点矩阵之积确定所述到达位置的初始的功能向量。

3.根据权利要求2所述的方法，其特征在于，所述兴趣点矩阵的列数为兴趣点的类别总数，在建立所述兴趣点矩阵之后，所述方法还包括：

根据预设维数对所述兴趣点矩阵进行分解，以对所述兴趣点矩阵进行降维处理，使降维后的所述兴趣点矩阵的列数为所述预设维数。

4.根据权利要求1所述的方法，其特征在于，所述出行数据还包括出行环境数据，所述出行环境数据包括以下任意一种或多种：

所述出行数据的日期为工作日或非工作日；

所述出行数据的日期是否为特定节日；

所述出行数据中出发时间和到达时间对应的天气数据。

5.根据权利要求1所述的方法，其特征在于，所述以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量，包括：

将所述出发位置的功能向量和所述到达位置的功能向量拼接后输入所述神经网络模型，得到预测的时间向量，所述时间向量包括预测出发时间和预测到达时间；

根据所述出行数据中的出发时间和所述预测出发时间的误差，以及所述出行数据中的到达时间和所述预测到达时间的误差，训练所述神经网络模型，并同步更新所述出发位置的功能向量和所述到达位置的功能向量。

6.根据权利要求1所述的方法，其特征在于，所述对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类，包括：

以预设的功能分类总数为K值，采用K均值法对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，得到K个功能类别；

根据聚类结果，在所述K个功能类别中，确定所述目标地理区域内各子区域对应的功能类别。

7.根据权利要求6所述的方法，其特征在于，在确定所述目标地理区域内各子区域对应的功能类别后，所述方法还包括：

在所述目标地理区域的地图中，根据各所述功能类别对应的预设颜色对所述目标地理区域内的子区域进行染色，使对应相同功能类别的子区域具有相同颜色，以得到所述目标地理区域的功能分类地图。

8.一种地理区域分类装置，其特征在于，包括：

数据获取模块，用于获取目标地理区域内的多组出行数据，所述出行数据包括出发位置、出发时间、到达位置、到达时间；

向量确定模块，用于基于所述出发位置和所述到达位置所在的子区域，分别获取所述出发位置和所述到达位置的初始的功能向量，所述子区域是预先对所述目标地理区域进行划分而得到的；

模型训练模块，用于以所述出行数据、所述出发位置的功能向量、所述到达位置的功能向量为训练数据，通过训练神经网络模型，更新所述出发位置的功能向量和所述到达位置的功能向量；

区域聚类模块，用于对所述出行数据中各出发位置的功能向量和各到达位置的功能向量进行聚类，以对所述目标地理区域内一个或多个所述子区域进行功能分类。

9.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一项所述的方法。