CN109325635A

CN109325635A - 一种基于自动补全的位置预测方法

Info

Publication number: CN109325635A
Application number: CN201811246984.6A
Authority: CN
Inventors: 易锋
Original assignee: University of Electronic Science and Technology of China Zhongshan Institute
Current assignee: University of Electronic Science and Technology of China Zhongshan Institute
Priority date: 2018-10-25
Filing date: 2018-10-25
Publication date: 2019-02-12
Anticipated expiration: 2038-10-25
Also published as: CN109325635B

Abstract

本发明公开了一种基于自动补全的位置预测方法，包括：S1，获取预设时间段的时空数据集；S2，抽取具有共同时空特性的时空主题；S3，选取训练数据集，训练并得到多类分类器；S4，将待预测对象的历史时空数据转换成按时间顺序排列的时空主题序列；S5，预测待预测对象当前时空主题的未来下一个或下几个的时空主题；S6，将待预测对象的历史时空数据中的位置、及与该给定未来时空主题下其他用户的位置作为位置候选集，获取位置候选集中的每一个候选位置的概率，并将概率最大的候选位置作为待预测对象的未来位置。本发明考虑了人类的行为模式具有多样性和个性化的特点，更加贴近实际应用，而且具有更好的预测精度，预测效率高。

Description

一种基于自动补全的位置预测方法

技术领域

本发明涉及位置预测技术，特别是涉及一种适用于预测社交网络或现实生活中人员、车辆、设备、事件等的下一个或未来位置的基于自动补全的位置预测方法。

背景技术

随着传感技术的发展，出现了越来越多可以记录位置的智能设备。过去的十几年，学术界和工业界十年收集了大量的时空数据。从早期的个人通讯的信号塔，GPS轨迹到不同基于位置服务提供的签到数据。而且，很多原本设计用于收费的系统也丰富了时空数据，比如：公共交通中的智能卡。这些时空数据称为人类的移动性研究基础，包括位置预测。位置预测被认为许多主动式服务的核心功能。比如，如果预测待预测对象的下一个位置是“家”，通过智能家居的远程操控系统，在待预测对象到达家之前调节室内温度、自动打扫房间。位置预测在移动广告市场、应急响应和公共安全等众多领域有重要应用。

因为潜在的商业和应用价值，在过去的十几年，位置预测吸引了许多研究者的关注，提出了多种位置预测模型。一般的位置预测可以分为两个子任务：一、发现和表示移动规律；二、设计高效的预测算法。传统的位置预测工作大多基于位置规律设计预测算法，位置的规律只是时空数据中行为规律在空间上的投影。而且，个人历史时空数据中的位置记录稀疏，没有明显的规律。这是造成现有预测算法性能不高的重要原因。

另外，现有工作假设的移动规律是单一且连续的，比如考虑两个位置间的转移概率，因此，许多预测算法都可以被认为是基于马尔可夫性质设计的。但是，实际上这个假设并不成立。人类行为的复杂性导致个人历史时空数据中存在复杂的移动规律。个人历史时空数据中两个连续的位置存在简单的移动规律，多个位置也存在复杂的移动规律。近几年有学者使用网络模体 (Network Motifs)研究人的行为模式的组成。Schneider等人利用网络模体对不同国家手机网络数据的分析，发现人类每日的移动可以分解为17个简单的模式，如图1所示。Jiang等人也有类似发现。因此，存在多种不同移动模式的历史时空数据为给位置预测带来了很大的挑战。

尽管理论研究证明人的移动的可预测性上限是93％，然而当前最先进的位置预测算法的性能远低于这个上限。目前要达到位置预测的理论上限，还存在两大挑战：首先，如何有效表示内嵌在时空数据中的移动规律；其次，如何在位置预测模型中合理利用这些移动的规律。

发明内容

本发明的目的在于提供一种基于自动补全的位置预测方法来克服或至少减轻现有技术的上述缺陷中的至少一个。

为实现上述目的，本发明提供一种基于自动补全的位置预测方法，包括：S1，获取预设时间段的时空数据集；S2，利用张量分解的方法，从S1获取的时空数据集中抽取具有共同时空特性的时空主题；S3，从S1中的“时空数据集”中选取一部分时空数据作为“训练数据集”，根据S2确定的时空主题，确定“训练数据集”中的各时空数据对应的时空主题，以训练并得到多类分类器；S4，利用S3得到的多类分类器，将待预测对象的历史时空数据转换成按时间顺序排列的时空主题序列；S5，根据S4转换得到的待预测对象的时空主题序列，利用查询自动补全技术，预测待预测对象当前时空主题的未来下一个或未来下几个的时空主题；S6，根据给定的未来时空主题，将待预测对象的历史时空数据中的位置、及与该给定未来时空主题下其他用户的位置作为位置候选集，获取位置候选集中的每一个候选位置的概率，并将概率最大的候选位置作为待预测对象的未来位置。

进一步地，S5中具体包括：S51，将时空主题序列中的任意子序列作为移动模式，查询自动补全中的历史查询日志由时空主题序列的所有子序列组成，每个子序列被切分成前缀部分和对应的候选部分；S52，构建前缀树，以存储S51中的前缀部分和对应的候选部分；S53，应用任意的排序学习算法，通过时空主题序列预测自动补全的排序；S54，将S53中的排在第一位的移动模式作为查询自动补全技术给出的预测结果，并将其作为“当前移动模式”，再通过确定的“当前移动模式”确定未来下一个或未来下几个时空主题。

进一步地，S53使用MPC算法训练自动补全排序功能，其方法如下：S531，设置输出的树结构MITrie为空(φ)；S532，按顺序依次从S4中得到的时空主题序列x_i中取出每个元素，假设当前取出的元素是S533，从开始，分别取出其后的一个元素，两个元素，......，一直到时空主题序列的末尾，形成多个子序列，假设其中一个子序列为x_t；S534，如果子序列x_t不在 MITrie中，统计x_t出现在x_i中的次数π(x)；S535，按元素个数将x_t分割成前缀和后缀两个部分；S536，将x_t的前缀、后缀和π(x)添加至MITrie中； S537，返回结果MITrie；当前缀树和排序策略训练完毕后，给定一个长度为w_i的时空主题的前缀序列所有以x_j开始的候选移动模式根据其在时空主题序列中出现的次数进行排序，出现次数最多的移动模式排在第一位，其余的移动模式依此类推。

进一步地，S6中，利用如下候选位置概率计算公式计算位置候选集中的每一个候选位置的概率：

p(l_k)＝(1-λ)p_u(l_k)+λp_g(l_k)

其中，l_k表示候选的地点，k表示候选地点的序号；概率p_u(l_k)表示待预测对象对出现在某个时空主题中的位置的选择偏好；概率p_g(l_k)表示相同时空主题和相同时空约束下其余待预测对象对出现在某个时空主题中的位置的选择偏好；λ是探新度，其用于衡量待预测对象在某个时空主题下选择新地点的可能性。

进一步地，探新度λ的计算公式如下：

其中：r_u是历史时空数据中对应某个时空主题的记录个数；“新地点”从 1开始编号，f(i)表示地点的编号；如果观测中的地点是“新地点”，则f(1)＝1，示性函数I(i)＝1；如果观测中的地点不是“新地点”，则示性函数 I(i)＝0；λ值越大，则待预测对象未来位置更倾向选择“新地点”，否则倾向选择“旧地点”。

本发明考虑了人类的行为模式具有多样性和个性化的特点，更加贴近实际应用，而且具有更好的预测精度，预测效率高。

附图说明

图1是本发明提供的17种简单移动模式的示意图；

图2是本发明提供的多移动模式下的时空主题预测和查询自填充的类比的示意图；

图3是本发明提供的5种具体的移动模式；

图4是本发明提供的由简单移动模式组成的一时空主题序列示意图；

图5是本发明提供的基于时空主题的位置预测系统架构示意图；

图6是利用不同预测模型的性能比较示意图。

具体实施方式

在附图中，使用相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面结合附图对本发明的实施例进行详细说明。

现有的位置预测方法在现实场景上未达令人满意的精度，且人类的行为模式具有多样性和个性化的特点，使得现有的位置预测方法很难在实际复杂的现实环境中对位置进行预测。鉴于此，本实施例将位置预测问题表示成一个信息检索中查询自动补全问题，这样可以贴近实际应用，该方法包括如下步骤，如图5所示：

S1，获取预设时间段的时空数据集。

其中：“时空数据集”由具有时间和空间两个维度的时空数据组成，该时空数据记录了一个对象某时间在某位置的数据。比如：网络上的签到数据，出租车或滴滴打车等交通工具的通行数据，公交一卡通的数据，以及手机纪录的位置数据等等。时空数据的获取方式非常多样，比如通讯运营商的数据、公交公司、出租车公司、社交网站、点评网站或滴滴打车等等。

“预设时间段”比如说2014年10月1日至2014年10月31日北京市区主要公交车的刷卡记录。

S2，利用张量分解的方法，从S1获取的时空数据集中抽取具有共同时空特性的时空主题。

其中：“张量分解”是一大类高维矩阵处理方法的统称，是现有技术中非常成熟的数学工具(方法)。与线性代数中的矩阵SVD分解，或者是UV 分解类似，为了找出张量(或矩阵，张量是三维或以上维度的矩阵)的不变因子。

“抽取”的原则是使得相似的数据能够被分为一类。

“时空主题”可以理解为是与“时空数据”的另一种表达方式。位置预测的基础是移动规律，本实施例使用时空主题来表示待预测对象的移动规律。“时空主题”可以用于解释待预测对象在特定时间出现在某个特定地点的原因或者描述待预测对象在特定时间、特定地点所做的事情，因此，“时空主题”反映的是时空数据中时间和地点内在统计分布的关联性。常见的时空主题有：“家”，“工作”，“休闲”，“购物”，“晚餐”，“访友”，“娱乐”，“日常事务”。

下面的例子说明如何利用张量分解从时空数据中抽取时空主题。因为时空主题不仅与每天的时间以及地点相关联，而且还与日期相关。例如：在中央商务区的写字楼下，职员在工作日的下班时间会等待通勤回家；而在非工作日，职员们可能会参加聚会、休闲等活动。因此时空主题不仅与时间、地点相关，而且与日期密切关联。所以，可以将时空张量定义为由时间、地点和日期三种不同聚合信息构成的三维张量。具体做法是：将包含记录的地区(比如城市)划分成相同大小的网格；将一天24小时分割成差不多大小的若干个区间。构建用于张量分解的“地点-时间-日期”三维张量。每个张量元素的值计算如下：

其中π(i,j,k)是统计第k天的第j个时间段出现在第i个地点的人数,M是所有地点的总数。利用张量分解算法可以将上面元素组成的张量分解成多个秩一张量的线性组合。每个秩一张量可以写成三个向量的外积，这三个向量表示该时空主题在地点、时间区间和日期上的分布。

对于一个月的北京市交通一卡通数据集，包含30天的刷卡记录，公交车站点有12936个，将每天的时间划分为10个时间段，则可以形成一个 12936×10×31的张量,经过张量分解可以得到7个时空主题。

这些时空主题在三个维度上具有相同的概率分布特征。比如，对于上下班时空主题而言，空间上集中在CBD、商场、写字楼附近的公交车站。时间上在早上7点-9点和晚上的17点～19点存在明显的高峰，其余时间段处于低谷。从日期上看，高峰出现在工作日，而低峰出现在周末和节假日。

S3，从S1中的“时空数据集”中选取一部分时空数据作为“训练数据集”，根据S2确定的时空主题，确定“训练数据集”中的各时空数据对应的时空主题，以训练并得到多类分类器。

本实施例是利用现有的SVM算法训练得到多类分类器。

利用S3得到的多类分类器，可以将时空数据转换成时空主题，时空主题可以形成多种不同的移动模式，比如：图3给出的五种具体的移动模式。图4 给出了某个待预测对象的历史时空数据经由S3得到的多类分类器转换得到的时空主题序列，其中包含了图3给出的多种移动模式。

其中，“从S1中的“时空数据集”中选取一部分时空数据作为‘训练数据集’”的方法具体包括：

通过特征工程，将S1中的“时空数据集”分为两部分或者三部分，其中：第一部分作为“训练数据集”，通过“训练数据集”得到分类器的参数。第二部分作为“测试数据集”，通过“测试数据集”对得到的分类器进行测试，以评价分类器的好坏，好坏的标准可以通过精度或者准确度来衡量。第三部分作为“验证数据集”。

S4，利用S3得到的多类分类器，将待预测对象的历史时空数据转换成按时间顺序排列的时空主题序列。

S5，根据S4转换得到的待预测对象的时空主题序列，利用查询自动补全技术，预测待预测对象当前时空主题的未来下一个或未来下几个的时空主题。

S5中，根据S4转换得到的待预测对象的时空主题序列，利用查询自动补全技术，预测待预测对象当前时空主题的未来下一个或未来下几个的时空主题。为了将查询自动补全技术应用到时空主题预测中，本实施例具体包括：

S51，将时空主题序列中的任意子序列作为移动模式，例如：假设时空主题序列为ABCABDADE，那么任意子序列，比如AB，或者是ABC，或者是ABCA，或者ABCAB等等，将这些子序列作为移动模式。再查询自动补全中的历史查询日志由时空主题序列的所有子序列组成，每个子序列被切分成前缀部分和对应的候选部分。

S52，构建前缀树，以存储S51中的前缀部分和对应的候选部分。

S53，应用排序学习算法，通过时空主题序列预测自动补全的排序，比如：Lambda-MART算法，Most Popular Completion(MPC)算法，本实施例使用MPC算法，其方法如下：

S531，设置输出的树结构MITrie为空(φ)。

S532，按顺序依次从S4中得到的时空主题序列x_i中取出每个元素，假设当前取出的元素是

S533，从开始，分别取出其后的一个元素，两个元素，......，一直到序列末尾。这样会形成多个子序列。假设其中一个子序列为x_t。

S534，如果x_t一个子序列不在MITrie中，统计x_t出现在x_i中的次数π(x)。判断“x_t一个子序列不在MITrie中”的方法类似于字符串的匹配(查找)，查找一下，则可以返回是否在MITrie中。

S535，按元素个数将x_t分割成前缀和后缀两个部分。

S536，将x_t的前缀、后缀和π(x)添加至MITrie中。

S537，返回结果MITrie。

当前缀树和排序策略训练完毕后，给定一个长度为w_i的时空主题的前缀序列前缀序列x_j中的每一个元素分别对应一个时空主题，比如第一个元素表示第i个用户的第n_i-w_i+1个时空主题，最后一个元素表示第i个用户的第n_i个时空主题，还有被省略号代替的诸多元素。也就是说，前缀序列x_j中的每一个元素的第一个下标i表示第i个用户，第二个下标表示第n_i-w_i+1到n_i个时空主题的序号，长度为w_i，它们放在一起可以形成一个时空主题序列，作为预测的查询前缀。所有以x_j开始的候选移动模式根据其在时空主题序列中出现的次数进行排序，出现次数最多的移动模式排在第一位，其余的移动模式依此类推。

S54，将S53中的排在第一位的移动模式作为查询自动补全技术给出的预测结果，并将其作为“当前移动模式”，再通过确定的“当前移动模式”确定未来下一个或未来下几个时空主题。值得注意的是，通过前缀确定移动模式后，其可能包含多个未来的时空主题。因此，该步骤提出的查询自动补全技术具有中长期时空主题预测的能力。

S6，根据给定的未来时空主题，将待预测对象的历史时空数据中的位置、及与该给定未来时空主题下其他用户的位置作为位置候选集，利用如下候选位置概率计算公式计算位置候选集中的每一个候选位置的概率，并将概率最大的候选位置作为待预测对象的未来位置。或者更为一般地，选择前k 个结果作为预测结果。未来的几个位置是与未来时空主题相关。

S 6中，是给定未来时空主题，如果是下一个时空主题，则预测的是下一个位置。如果未来时空主题是S54中预测的未来的第二个时空主题，则预测的是未来的第二个位置，以此类推。

候选位置概率计算公式具体为：

p(l_k)＝(1-λ)p_u(l_k)+λp_g(l_k)

其中，l_k表示候选的地点，会有很多候选的地点，其中任意一个用下标k表示，预测的结果就是这些候选的地点中概率最高的地点，k表示候选地点的序号。概率p_u(l_k)表示待预测对象对出现在某个时空主题中的位置的选择偏好；概率p_g(l_k)表示相同时空主题和相同时空约束下其余待预测对象对出现在某个时空主题中的位置的选择偏好，则个人和其它待预测对象协同过滤的位置预测模型；λ是探新度。

λ是根据：在现实生活中，人类移动行为受待预测对象当前所在位置和时间的时空约束，因此在这些候选集中要加上时空的约束条件。另一方面，人类具有寻求新鲜事物的特性。因此人不是总会去一个地方，也会去一些之前没有去的地点。因为从众心理，一个待预测对象因为某个时空主题，而去一个新的地点。最有可能的是：因为相同时空主题、且在相同时空约束下的多数待预测对象所去的地点，所以未来位置的候选集需要添加这些“新位置”。

是否会选择新地点既与待预测对象相关，也与时空主题相关。本实施例定义探新度λ，用于衡量待预测对象在某个时空主题下选择新地点的可能性，其计算公式如下：

其中，r_u是历史时空数据中对应某个时空主题的记录个数。将这些历史时空数据按照时间顺序降序排列，定义“新地点”为没有出现在之前观测集合中的地点。“新地点”从1开始编号，f(i)表示地点的编号。显然，第一个观测中的地点是一个”新地点”，其编号对应的是f(1)＝1。然后，从第二个观测开始扫描到最后一个元素，如果观测中的地点是一个“新地点”，则示性函数 I(i)＝1；如果观测中的地点不是“新地点”，也就是在之前的观测中出现过，则示性函数I(i)＝0。

下面给出一个例子说明λ的计算过程：

假设某待预测对象的历史时空数据中映射成某个时空主题且满足时空约束的观测集合为：

O＝{(l₁,t₅),(l₁,t₄),(l₂,t₃),(l₁,t₂),(l₂,t₁)}

其中，l_i表示不同的地点，t_j表示不同的时间。

该观测集合已经按照时间顺序降序排列，也即t₅＞t₄＞t₃＞t₂＞t₁。

第一个观测(l₁,t₅)中的地点是第一个“新地点”，因此f(1)＝1，I(1)＝1。

第二个观测(l₁,t₄)中的地点l₁不是“新地点”，因此f(2)＝1，I(2)＝0。

第三个观测(l₂,t₃)中的地点l₂是第二个“新地点”，因此f(3)＝1， I(3)＝1。

第四个观测(l₁,t₂)中的地点l₁不是“新地点”，因此f(4)＝1，I(4)＝0。

第五个观测(l₂,t₁)中的地点(l₂,t₁)不是“新地点”，因此f(5)＝2， I(5)＝0。

根据λ的计算公式，则待预测对象在该时空主题下的探新度λ为：

λ值越大，则待预测对象未来位置更倾向选择“新地点”，否则倾向选择“旧地点”。

为了在多种移动规律组成的历史时空数据中预测，本发明提出一种基于查询自动填充(Query Auto-Completion，QAC)机理的位置预测算法。如图2 所示，如果认为部分的时空主题是前缀，由不同时空主题组成的移动模式是一个查询，这里的预测与信息检索中的QAC非常类似：当给出更多的时空主题时，更容易确定未来时空主题所在的移动模式，所以可以更精准预测未来的时空主题。最后依据时空主题，考虑时空主题对应的位置偏好，以及待预测对象的从众特性，设计了未来位置预测算法。

与传统的位置预测方法相比，采用基于自动补全的位置预测方法，考虑了多移动模式并存下的位置预测问题；不仅可以预测待预测对象的下一个位置，还可以预测待预测对象的未来多个位置；提出了一个待预测对象的时空主题中位置新鲜度的衡量，并以此设计了时空主题下，基于协同过滤的位置预测方法，该方法具有更好的预测精度。本发明方法在模型训练完毕后，在进行位置预测的过程中，计算量小，提高了运算效率与总体处理速度。

最后需要指出的是：以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域的普通技术人员应当理解：可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于自动补全的位置预测方法，其特征在于，包括：

S1，获取预设时间段的时空数据集；

S2，利用张量分解的方法，从S1获取的时空数据集中抽取具有共同时空特性的时空主题；

S3，从S1中的时空数据集中选取一部分时空数据作为训练数据集，根据S2确定的时空主题，确定训练数据集中的各时空数据对应的时空主题，以训练并得到多类分类器；

S4，利用S3得到的多类分类器，将待预测对象的历史时空数据转换成按时间顺序排列的时空主题序列；

S5，根据S4转换得到的待预测对象的时空主题序列，利用查询自动补全技术，预测待预测对象当前时空主题的未来下一个或未来下几个的时空主题；

S6，根据给定的未来时空主题，将待预测对象的历史时空数据中的位置、及与该给定未来时空主题下其他用户的位置作为位置候选集，获取位置候选集中的每一个候选位置的概率，并将概率最大的候选位置作为待预测对象的未来位置。

2.如权利要求1所述的基于自动补全的位置预测方法，其特征在于，S5中具体包括：

S51，将时空主题序列中的任意子序列作为移动模式，查询自动补全中的历史查询日志由时空主题序列的所有子序列组成，每个子序列被切分成前缀部分和对应的候选部分；

S52，构建前缀树，以存储S51中的前缀部分和对应的候选部分；

S53，应用排序学习算法，通过时空主题序列预测自动补全的排序；

S54，将S53中的排在第一位的移动模式作为查询自动补全技术给出的预测结果，并将其作为“当前移动模式”，再通过确定的“当前移动模式”确定未来下一个或未来下几个时空主题。

3.如权利要求2所述的基于自动补全的位置预测方法，其特征在于，S53使用MPC算法训练自动补全排序功能，其方法如下：

S531，设置输出的树结构MITrie为空(φ)；

S532，按时间顺序排列依次从S4中得到的时空主题序列x_i中取出每个元素，假设当前取出的元素是

S533，从开始，分别取出其后的一个元素，两个元素，......，一直到时空主题序列的末尾，形成多个子序列，假设其中一个子序列为x_t；

S534，如果子序列x_t不在MITrie中，统计x_t出现在x_i中的次数π(x)；

S535，按元素个数将x_t分割成前缀和后缀两个部分；

S536，将x_t的前缀、后缀和π(x)添加至MITrie中；

S537，返回结果MITrie；

当前缀树和排序策略训练完毕后，给定一个长度为w_i的时空主题的前缀序列所有以x_j开始的候选移动模式根据其在时空主题序列中出现的次数进行排序，出现次数最多的移动模式排在第一位，其余的移动模式依此类推；

前缀序列x_j中的每一个元素各自对应一个时空主题，每一个元素的第一个下标i表示第i个用户，第二个下标分别表示第i个用户的第n_i-w_i+1到第n_i个时空主题的序号。

4.如权利要求1至3中任一项所述的基于自动补全的位置预测方法，其特征在于，S6中，利用如下候选位置概率计算公式计算位置候选集中的每一个候选位置的概率：

p(l_k)＝(1-λ)p_u(l_k)+λp_g(l_k)

5.如权利要求4所述的基于自动补全的位置预测方法，其特征在于，探新度λ的计算公式如下：

其中：

r_u是历史时空数据中对应某个时空主题的记录个数；

“新地点”从1开始编号，f(i)表示地点的编号；

如果观测中的地点是“新地点”，则f(1)＝1，示性函数I(i)＝1；

如果观测中的地点不是“新地点”，则示性函数I(i)＝0；