CN104834679A

CN104834679A - 一种行为轨迹的表示、查询方法及装置

Info

Publication number: CN104834679A
Application number: CN201510175195.8A
Authority: CN
Inventors: 许佳捷; 周晓方; 郑凯; 李直旭; 赵朋朋
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2015-04-14
Filing date: 2015-04-14
Publication date: 2015-08-12
Anticipated expiration: 2035-04-14
Also published as: CN104834679B

Abstract

本发明提供了一种行为轨迹的表示、查询方法及装置，本发明预先采用LDA主题模型学习得到每个关键字在主题空间中的概率分布，通过聚集函数生成每个查询的文本描述的主题分布，对于给定的两个文本信息，可以通过它们的高维度主题分布来度量其语义的相似性。本发明能够在语义层次度量行为轨迹和查询意图的相关性，解决了传统信息检索文本相似性度量过度依赖于“形”的缺陷，并且本发明通过主题分布能够对文本描述进行有效理解。本发明还提供了一种行为轨迹的查询方法，基于文本描述的主题分布利用主题空间层和地理空间层协同搜索机制对给定文本描述进行搜索，提高查询效率和精度，以便为用户推荐更加精确的轨迹。

Description

一种行为轨迹的表示、查询方法及装置

技术领域

本发明涉及空间数据库领域，尤其涉及一种行为轨迹的表示、查询方法及装置。

背景技术

随着近年来移动互联技术的进步，基于移动端的社交网络(Mobile SocialNetworks)得到了爆炸式发展。上亿的用户通过智能手机在这些网站分享自己的位置信息，因而产生了大量的地理标记数据。例如，新浪微博用户可以向好友分享自己的位置、评论和照片；Foursquare允许用户对其访问的场馆进行签到和点评；Flickr对用户上传的照片做自动/手工的地理标注。从时空线索来看，这些序列化的带有位置信息的用户行为记录，可以被视为行为轨迹(Activity Trajectory)。例如，某用户发布的一序列带有位置信息的微博、Tweets等。

与传统的移动对象时空轨迹(Spatio-temporal Trajectory)不同，行为轨迹数据不光含有时间信息和空间信息，还蕴含着丰富的用户行为信息：人们所做的、想的、感受到的。所以人们提出：将各个用户的行为轨迹组成数据库，以便在其他用户需要时，系统可以通过数据分析和索引，为其推荐能够满足用户活动需求的服务。

现有的索引方法主要针对轨迹的时空特性，机械地将关键字视为文本字符，未能理解轨迹中用户行为的具体语义和联系，无法根据用户意图做准确的搜索和推荐。即现有的空间关键字处理技术在文本信息方面均注重于“形”，无法支持对行为描述的有效理解。例如：查询“喝咖啡”与轨迹描述“星巴克”被认为毫不相关，虽然他们的语义高度一致。

为了解决上述问题，需要提出一种行为轨迹的表示方法，克服现有技术中着重于“形”的缺陷，以便对行为描述进行有效理解。

发明内容

本发明提供了一种行为轨迹的表示、查询方法及装置，本发明能够克服现有技术中着重于“形”的缺陷，以便对行为描述进行有效理解。

本发明提出一种行为轨迹表示方法，预先采用LDA主题模型学习得到每个关键字在主题空间中的概率分布，通过聚集函数生成每个查询的文本描述的主题分布，对于给定的两个文本信息，可以通过它们的高维度主题分布来度量其语义的相似性。本发明能够在语义层次(即主题分布)度量行为轨迹和查询意图的相关性，解决了传统信息检索文本相似性度量过度依赖于“形”的缺陷，并且本发明通过主题分布能够对文本描述进行有效理解。

另外，在基于行为轨迹表示方法的基础上还提供了一种行为轨迹的查询方法，基于文本描述的主题分布利用主题空间层和地理空间层协同搜索机制对给定文本描述进行搜索，以便为用户推荐更加精确的轨迹。两个方案中对行为轨迹均采用主题分布表示，属于同一个发明构思，所以两个独立权利要求具有单一性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例公开的一种行为轨迹的表示方法的流程示意图；

图2为本发明实施例公开的一种行为轨迹的表示方法中构建的TR²-Tree的示意图；

图3为本发明实施例公开的一种行为轨迹的查询方法的流程示意图；

图4为本发明实施例公开的一种行为轨迹的表示装置的结构示意图；

图5为本发明实施例公开的一种行为轨迹的查询装置的结构示意图。

具体实施方式

介绍本申请中所使用的简称：

LDA，Linear Discriminant Analysis，线性判别式分析；

MBR，Minimum bounding rectangle，最小外包矩形。

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的行为轨迹通常被表示为附有位置和时间标签的文本描述序列，每个轨迹点由(loc,time,words)三元组表示，其中loc代表地理位置，time代表时间，words代表用户对活动的描述。但是这种轨迹表示通常用户基于文本相似性的检索，注重文本之间“形”的差别，例如查询“喝咖啡”与轨迹点描述“星巴克”被认为毫不相关，虽然他们的语义主题高度一致。

为了解决上述问题，本发明提供了一种行为轨迹的表示方法，如图1所示，本方法包括以下步骤：

步骤S101：获取用户查询的目标文本描述和预设LDA主题模型的轨迹文本描述，其中所述轨迹文本描述在所述预设LDA主题模型中对应一个模型主题分布；

首先获得需要比较的两个文本描述，一个为用户需要查询的目标文本描述，目标文本描述中可以有多个关键词，另一个为预设LDA主题模型中文本描述，为了与目标文本描述区别，此处用轨迹文本描述作为表示，该轨迹文本描述为预设LDA主题模型中的文本描述，该轨迹文本描述已经预先经过计算得到其对应的模型主题分布。

步骤S102：将所述目标文本描述输入至所述预设LDA主题模型，经所述预设LDA主题模型计算后输出目标主题分布，所述预设LDA主题模型包括多个主题分布，以及，与每个主题分布对应的多个轨迹文本描述；

将所述目标文本描述输入至预设LDA主题模型，预设LDA主题模型中有预先构建的维护矩阵，利用维护矩阵计算得到与目标文本描述的主题分布。

步骤S103：利用相似性函数计算表征所述目标主题分布与所述模型主题分布的语义相关性的相似性函数值，所述目标主题分布和所述模型主题分布的语义相关性，与，所述相似性函数值成反比。

具体的，可以计算目标主题分布以及模型主题分布的欧式距离来表征两者的语义相关性，欧式距离越大表示两者语义越远，欧氏距离越小表示两者语义越近。

当两者的相似性函数值小于预先设定的阈值，则说明目标文本描述和轨迹文本描述语义相近，两者同属于相似的活动描述，例如：“星巴克”和“喝咖啡”属于相似的活动描述，当两者的相似性函数值大于预先设定的阈值，则说明两者的语义不相近，属于不同的活动描述，阈值由技术人员设定，其大小可经过多次试验确定，在此不再赘述。

本发明将预设LDA模型中轨迹文本描述和用户查询的目标文本描述转换为主题分布，以便利用主题分布能够更好地理解文本描述的内在意义，并通过基于主题分布的相似性函数来表征两者的语义关联，通过预设LDA主题模型和相似性函数，查询文本描述“喝咖啡”与预设LDA模型中轨迹文本描述“星巴克”，将因其相似的主题分布而被认为相关。从而解决现有技术中注重于“形”的缺点。

下面以具体实施例来介绍上述方法具体执行过程：

预设LDA主题模型中有多个给定的主题，每个主题代表一个语义，例如喝咖啡，去吃饭，做功课等等，多个给定的主题组成主题集合Z，预设LDA主题模型中除了主题之外还有很多关键字k，每个关键字(Keyword)k对主题集合Z中每个主题均具有一个概率分布，即每个关键字属于给定主题的一个概率，例如：关键字“星巴克”属于主题“喝咖啡”的概率为90％，属于“去吃饭”的概率为5％，属于做功课的概率为1％等等。

为了表示关键字与主题集合中每个主题之间的概率关系，采用维护矩阵β(β₁,β₂,β₃,…,β_n)来表示，维护矩阵β中每个向量分别代表关键字k与主题z1,z2,…,zn(z1,z2,…,zn∈Z)的相关性，维护矩阵β可以通过关键字k和主题z的同现频率计算得到。本发明中将维护矩阵β来表示任意关键字与任意主题的概率化相关性。

下面给出了一个维护矩阵β的具体实例：

β = (\begin{matrix} z_{1} & z_{2} & z_{3} & z_{4} & z_{5} \\ k_{1} & 0.5 & 0.3 & 0.1 & 0.05 & 0.05 \\ k_{2} & 0.6 & 0.05 & 0.2 & 0.05 & 0.1 \\ k_{3} & 0.1 & 0.1 & 0.05 & 0.6 & 0.15 \\ k_{4} & 0.05 & 0.05 & 0.7 & 0.1 & 0.1 \\ k_{5} & 0.05 & 0.05 & 0.05 & 0.05 & 0.8 \end{matrix})

其中，β[i][j]代表了关键字k_i与主题z_j的相关性，维护矩阵β可以通过LDA主题模型针对已标注的行为轨迹数据学习得到，在此不再赘述。

对于给定的轨迹点文本描述w，可以通过维护矩阵β得到该文本所对应的主题分布TD_W。该分布TD_W是一个高维向量，共有|Z|个分量，其中分量TD_W[j]代表了w与主题z_j的相关性，该分量可以通过以下公式计算：

{TD}_{W} [j] = \frac{\underset{k_{i} &Element; w}{Σ} freq (k_{i}, w) \times β [i] [j]}{\underset{k_{i} &Element; w}{Σ} freq (k_{i}, w)}

其中，freq(k_i,w)表示关键字k_i在文本w中出现的次数，通过上述计算即可得到目标文本描述的主题分布。

对于给定的两个文本w_i和w_j，可以采用上述公式计算各自的主题分布TD_wi和TD_wj，它们的主题分布TD_wi和TD_wj是两个高维向量，可以分别被看作高维主题空间中的点(High Dimensional Point)，本发明通过TD_wi和TD_wj在主题空间的欧式距离D_T(w_i,w_j)来度量它们的相似性，具体的可以采用以下公式计算得到：

D_{T} (w_{i}, w_{j}) = \sqrt{Σ_{k = 1}^{k = | z |} (\frac{{TD}_{w_{i}} [k] - {TD}_{w_{j}} [k]}{2})}

对于任意的w_i和w_j，它们的语义相似性与D_T(w_i,w_j)值成反比，即两者的欧式距离D_T(w_i,w_j)越大表示两者语义越远，欧氏距离D_T(w_i,w_j)越小表示两者语义越近。通过欧式距离的远近即可得到两个文本描述是否相似。在具体实现时，可以采用判断两个主题分布的欧式距离是否小于预先设定的一个阈值，若欧式距离小于预先设定的阈值则表示两者语义相近，若欧式距离大于预先设定的阈值则表示两者语义不相近。

在上述行为轨迹的表示方法中由于用户的文本描述被转换为主题分布，但现有技术仅为基于地理空间索引方式，没有基于主题空间的索引方式，所以本发明提出一种能够融合地理空间和主题空间的层次式索引结构TR²-Tree，以便能够从不同维度进行搜索剪枝，提高搜索效率。

TR²-Tree具有地理空间层和主题空间层，下面分别介绍两个空间层的构建过程：

1、地理空间层节点创建。

采用Tree结构来实现地理空间层构建，Tree上有多个节点，每个节点拥有自己的MBR，以及m到2m个指向子节点的指针，m为非零自然数，m的值可以根据需要设置，下面介绍地理空间层的创建过程：

(1)以根节点n₁为起点，依次把轨迹点(指针)插入到MBR死区(DeadSpace)面积变化最小的节点中，节点依次采用n₁、n₂、n₃……表示；

(2)当节点n_i中的指针个数超过2m时，对ni执行分裂操作，分裂为两个死区面积最小的、指针个数分别为m和m+1的节点。其中，每个轨迹点对应多条子轨迹。

完成所有轨迹点的插入后，执行主题空间层的节点创建。

2、主题空间层节点创建。主题空间层中每个节点代表一个聚簇，其对应的主题空间被中心m_i和半径R_i表示。

(1)对地理空间层每个叶节点C_i，得到目标子轨迹集合，通过K-medoids算法对目标子轨迹集合根据主题概率分布聚类，聚类之后产生多个聚簇，每个新的聚簇都是C_i的子节点。根据这些聚簇之间的包含关系组织成树形结构。

(2)对每个地理空间层的节点，以自底向上的方式计算其对应的主题空间。

TR²-Tree是一种地理空间层和主题空间层双层协同的索引机制，在地理空间层，通过Tree根据空间相似性来组织所有的轨迹点，在此基础上，TR²-Tree在主题空间层进一步细分MBR轨迹点所对应的子轨迹，MBR中有多个条以该轨迹点为起点的子轨迹。

具体的构建过程可表示为：

对地理空间层中MBR的叶子节点node，首先得到叶子节点node的目标子轨迹集合其中代表Tr_i中从第j点开始、第k点终止的子轨迹。然后借鉴高维聚类方法来构建空间主题层，对TS的所有子轨迹在主题空间聚类，将其划分为若干主题相近的聚簇，每个聚簇具有自己的主题空间。

对每个聚簇C_i，抽取(m_i,R_i)两个变量来代表TS中子轨迹所对应的主题空间。其中，m_i是一个|Z|维向量，表示聚簇在主题空间中的中心点，在每个主题上的分量是node中所有轨迹点在该主题上分量的平均值；R_i代表能够覆盖所有TS中子轨迹主题分布的最大半径，计算公式为：

Ri = \max (\sqrt{Σ_{n = i}^{| z |} {({TD}_{k ({Tr}_{i}^{j, k})} - m_{i} [n])}^{2}} | {Tr}_{i}^{j, k} &Element; C_{i})

其中，表示子轨迹各轨迹点包含的所有文本描述，表示这些文本所对应的主题概率分布，m_i[n]表示聚簇中心点在主题z_n上的分量。

对于给定查询目标的主题分布，可以通过(m_i,R_i)得到TS中任意子轨迹与查询目标在主题分布上的最小距离。

下面提供一个实施例来说明上述TR²-Tree的构建过程，一个人A的轨迹为Tr₁，另一个人B的轨迹为Tr₂，A的轨迹为Tr₁在p1.1地点的文本描述为“跑步”，在p1.2地点的文本描述为“星巴克”，在p1.3地点的文本描述为“寿司”，B的轨迹为Tr2在p2.1地点的文本描述为“健身”，在p2.2地点的文本描述为“喝咖啡”，在p2.3地点的文本描述为“美酒”。

基于上述实施例，按照上述构建方法构建的TR²-Tree，如图2所示，为构建的TR²-Tree结构，其中，中间虚线以上为地理空间层，中间虚线以下为主题空间层，地理空间层一个子节点N₁具有三个MBR₁、MBR₂和MBR₃，根据空间相关性，MBR₁中包含p1.1和p2.1；MBR₂中包含p1.2和p2.2；MBR₃中包含p1.3和p2.3。

对于地理空间层的每个叶节点MBR₁、MBR₂和MBR₃分别对应主题空间层的一个根节点，每个根节点中按主题分布的相似性进行聚类，形成多个聚簇，如图2中C₁、C₂和C₃，其中C₁为p2.1、P2.2，和P1.1、1.2，C₂为P2.1、P1.1，C₃为P2.1、P2.2，P2.3和P1.1、P1.2，P1.3。

如图3所示，基于上述构建的TR²-Tree本发明提供了一种行为轨迹的查询方法，包括：

步骤S201：获取用户的查询目标，对环境变量、查询结果和优先队列进行初始化，所述查询目标包括期望活动的目标文本描述和用户的当前位置；

本发明的目的对给定查询目标在TR²-Tree中查找得到与查询目标的匹配距离最近的多条子轨迹，匹配距离为查询目标与TR²-Tree的子轨迹在地理空间层和主题空间层的总距离，地理空间层的距离表示TR²-Tree的子轨迹与查询目标在地理上距离，主题空间层上的距离表示TR²-Tree的子轨迹与查询目标在主题分布上的距离，地理空间层的距离越小代表子轨迹与用户当前位置距离越近，主题空间层距离越小代表子轨迹与期望活动的文本描述越接近，理想情况下，某一子轨迹能够达到地理空间层最小同时主题空间层也最小，但实际上理想情况很少能够达到，所以一般取地理空间层和主题空间层的总距离最小，以综合考虑两者地理距离和主题距离。

本方法由TR²-Tree由地理空间层到主题空间层，由根节点到子节点的方式进行查询。对应于给定查询目标采用Q＝(W,loc)表示，其中W是对于期望活动的文本描述，loc是用户当前位置。

对环境变量进行初始化，环境变量表示为本方法中查询目标与TR²-Tree中子轨迹的最小匹配距离，在查询过程中环境变量在不断更新，以便得到最小的匹配距离。在初始时刻环境变量设为1。将TR²-Tree中与查询目标具有最小匹配距离的子轨迹作为查询结果，初始时刻查询结果为空。本方法以优先队列的方式进行查询，初始时刻从TR²-Tree的根节点开始查询。

步骤S202：将所述查询目标经预设LDA主题模型转换为查询目标模型，所述查询目标模型包括与目标文本描述对应的目标主题分布和用户的当前位置；

步骤S203：从优先队列中读取第一个索引节点，初始时刻第一个索引节点为TR²-Tree地理空间层的根节点，所述TR²-Tree为依据预设LDA主题模型构建的包括地理空间层和主题空间层的模型；

步骤S204：判断所述索引节点是否为叶子节点，若不为叶子节点则进入步骤S205，若为叶子节点则进入步骤S206；

步骤S205：当所述索引节点不为叶子节点时，则计算索引节点与所述查询目标模型的匹配距离，并计算索引节点的每个子节点与查询目标模型的匹配距离，将所述索引节点的子节点按匹配距离升序排列的方式插入至所述优先队列，进入步骤S207；

步骤S206：当所述索引节点为叶子节点时遍历索引节点中每个子轨迹，逐个计算每个子轨迹与查询目标模型之间的实际距离，若子轨迹的实际距离小于当前的环境变量，则将所述实际距离作为当前的环境变量，将该子轨迹作为当前的查询结果，进入步骤S207；

步骤S203-步骤S206为本发明搜索的核心部分，TR²-Tree中地理空间层和主题空间层均为树形结构，主要思路为从TR²-Tree的地理空间层作为入口，在查询目标与索引节点距离最近的节点中搜索主题分布最接近的子轨迹。

首先从地理空间层的根节点开始，在访问到根节点时先计算根节点的多个子节点与查询目标模型的匹配距离，并按照匹配距离的升序排列方式将子节点插入至优先队列中，即将子节点中匹配距离最小的子节点作为优先队列的第一个节点，在访问完根节点后，再访问优先队列中的第一个索引节点，即根节点下子节点中匹配距离最小的节点，只要当前的索引节点不是叶子节点，便持续计算索引节点的子节点与查询目标模型匹配距离，并将匹配距离按升序排列的方式放入优先队列中，以便优先队列中第一个索引节点一直为与查询目标模型匹配距离最近的节点。

当查询到叶子节点时说明此次查询已经到达该分支的尽头，叶子节点中对应多个子轨迹，将遍历该叶子节点的多个子轨迹，若某一个子轨迹与查询目标模型的实际距离小于当前的环境变量，则说明出现比当前的环境变量较小的最优距离，将该子轨迹的实际距离作赋值于环境变量，更新当前的环境变量，并将该子轨迹作为查询结果。在查询过程中不断更新环境变量，即不断缩小最优距离，直到该距离为最小距离。

步骤S207：判断索引节点的匹配距离是否大于当前的环境变量；

由于搜索过程中每次拾取最小匹配距离的索引节点，所以匹配距离应该是不断减小直到最小，即在索引过程中最优距离不断减小，若出现某一个索引节点与查询目标模型之间的匹配距离大于当前的最优距离，则说明最优距离不再减小，后续的索引节点与查询目标之间的索引节点也不可能产生比最优距离更小的距离，此时的最优距离则为全局的最优距离，所以此时停止搜索，当前查询结果中的子轨迹即为最优的子轨迹。若索引节点的匹配距离小于当前的环境变量，则进入步骤S203；若索引节点的匹配距离大于当前的环境变量，则进入步骤S208。

步骤S208：若索引节点的匹配距离大于当前的环境变量，则输出当前的查询结果。

本发明提供了一种行为轨迹的查询方法，本方法能够在地理空间层和主题空间层协同查询，在查询过程中不断剪枝，提高了查询效率。

下面对索引过程进行详细介绍：

对于给定查询，Q＝(W,loc)，其中W是对于期望活动的描述，loc是用户当前位置，当索引节点N_i不是叶子节点时，则索引节点N_i的主题空间为(m_i，R)，索引节点N_i与查询目标之间的匹配距离为：

\begin{matrix} D_{bm} (Q, N_{i}) = λ \cdot (\frac{2}{1 + e^{- {SD}_{\min}}} - 1) \\ + (1 - λ) \cdot | D_{T} ({TD}_{Q . W, m_{i}}) - {MD}_{i} | \end{matrix}

其中，D_bm(Q,N_i)为匹配距离，SD_min表示查询目标模型Q.loc与N_i所对应地理空间层MBR的最小距离，D_T(TD_Q.W,m_i)表示查询文本Q.W的主题分布与N_i在主题空间上中心点的距离，λ由用户设定、用于调节空间和主题权重、值域为[0，1]的变量，M表示聚簇的中心点，D_i表示代表聚簇的最大偏移距离。

当索引节点为叶子节点时，对于索引节点中的子轨迹定义它与Q的距离为：

D (Q, {Tr}_{i}^{j, k}) = λ \times D_{T} (Q, W, K ({Tr}_{i}^{j, k})) + (1 - λ) \times F_{S} (Q . loc, {Tr}_{i}^{j, k})

其中，表示行为轨迹/子轨迹上的所有文本；λ是由用户设定、用于调节空间和主题权重、值域为[0，1]的变量；为Q与在主题空间层的距离，是Q与在地理空间层的距离，计算公式为：

D_{S} (Q . loc, {Tr}_{i}^{j, k}) = \frac{2}{1 + e^{- dist (loc, {Tr}_{i} [j]) - Length ({Tr}_{i}^{j, k})}} - 1

其中，dist(loc,Tr_i[j])表示从loc到轨迹点Tr_i[j]的欧式空间距离；表示子轨迹在地理空间上的轨迹长度。由于和都经过归一化处理，因此的取值也在0、1之间。

对所有访问过的轨迹或子轨迹，我们维护一个代表当前最佳结果的全局距离上界D_UB；

D_{UB} = \min_{{Tr}_{i}^{j, k} &Element; T_{s}} {D (Q, {Tr}_{i}^{j, k})}

在查询处理过程中，D_UB被不断更新。随着查询的执行，D_UB逐步降低，查询剪枝能力不断提升。基于上述流程依次访问索引中D_bm(Q,N_i)值最高的可见索引节点(即父节点已经被访问)，当满足条件D_bm(Q,N_i)>D_UB时停止查询处理并返回结果，因为所有其他索引节点中的子轨迹均差于现有最好结果。

本发明提出一种行为轨迹表示方法，采用LDA主题模型学习得到每个单词在主题空间中的概率分布，通过聚集函数生成每个查询中文本描述的主题空间概率分布。对于给定的两个文本信息，可以通过它们的高维度主题分布来度量其语义的相似性。这种方法使得我们能够在语义层次(即主题)度量轨迹行为和查询意图的相关性，避免了传统信息检索文本相似性度量(例如编辑距离等)过度依赖于“形”的缺陷。

针对行为轨迹索引，采用空间-行为主题分层索引机制(Topic RetrievalR-Tree，简称TR²-Tree)来管理海量的轨迹数据。在地理空间层，通过层次式的索引结构来组织行为轨迹中的轨迹点，根据它们的空间相关性进行存放。在空间索引的每个叶子节点中，每个轨迹点都对应了若干条子轨迹，并且每条子轨迹都对应着一个高维度的主题分布(即高维空间中的一个点，用于描述)，将采用基于聚簇的高维索引技术来管理地理空间层叶子节点所对应的所有子轨迹，并对空间层叶子节点标注主题分布摘要的元信息。这样的混合索引结构为轨迹查询提供有效的存取路径。

针对行为轨迹查询与推荐，采取一种地理空间和主题敏感的轨迹相似性度量(Topic Distribution based Trajectory Similarity Measure)方法，从而实现对行为描述的理解、基于用户意图的轨迹查询。在查询处理方面，提出了一种面向地理空间和主题分布的协同轨迹搜索算法(Spatial and TopicCollaborative Trajectory Search Algorithm，简称ST算法)，对子轨迹进行检索，并根据排序规则将最好的结果返回给用户。具体来说，以索引的地理空间层为入口，逐步扫描索引结构细化搜索区域，对索引中的节点计算最优匹配距离(Best Match Distance)并进行剪枝，加速轨迹查询处理。

如图4所示，本发明还提供了一种行为轨迹的表示装置，包括：

获取单元41，用于获取用户查询的目标文本描述和预设LDA主题模型的轨迹文本描述，其中所述轨迹文本描述在所述预设LDA主题模型中对应一个模型主题分布；

输出单元42，用于将所述目标文本描述输入至所述预设LDA主题模型，经所述预设LDA主题模型计算后输出目标主题分布，所述预设LDA主题模型包括多个主题分布，以及，与每个主题分布对应的多个轨迹文本描述；

计算单元43，用于利用相似性函数计算表征所述目标主题分布与所述模型主题分布的语义相关性的相似性函数值，所述目标主题分布和所述模型主题分布的语义相关性，与，所述相似性函数值成反比。

本发明提出一种行为轨迹表示装置，预先采用LDA主题模型学习得到每个单词在主题空间中的概率分布，通过聚集函数生成每个查询的文本描述的主题分布，对于给定的两个文本信息，可以通过它们的高维度主题分布来度量其语义的相似性。本发明能够在语义层次(即主题)度量行为轨迹和查询意图的相关性，解决了传统信息检索文本相似性度量(例如编辑距离等)过度依赖于“形”的缺陷，并且本发明通过主题分布能够对文本描述进行有效理解。

如图5所示，本发明还提供了一种行为轨迹的查询装置，包括：

初始化单元51，用于获取用户的查询目标，对环境变量、查询结果和优先队列进行初始化，所述查询目标包括期望活动的目标文本描述和用户的当前位置；将所述查询目标经预设LDA主题模型转换为查询目标模型，所述查询目标模型包括与所述目标文本描述对应的目标主题分布和用户的当前位置；

距离计算单元52，用于从优先队列中读取第一个索引节点，初始时刻第一个索引节点为TR²-Tree地理空间层的根节点，所述TR²-Tree为依据预设LDA主题模型构建的包括地理空间层和主题空间层的模型；判断所述索引节点是否为叶子节点；当所述索引节点不为叶子节点时，则计算索引节点与所述查询目标模型的匹配距离，并计算索引节点的每个子节点与查询目标模型的匹配距离，将所述索引节点的子节点按匹配距离升序排列的方式插入至所述优先队列，当所述索引节点为叶子节点时遍历索引节点中每个子轨迹，逐个计算每个子轨迹与查询目标模型之间的实际距离，若某一子轨迹的实际距离小于当前的环境变量，则将所述实际距离作为当前的环境变量，将该子轨迹作为当前的查询结果；

判断单元53，用于判断索引节点的匹配距离是否大于当前的环境变量；若索引节点的匹配距离小于当前的环境变量，则进入距离计算单元；若索引节点的匹配距离大于当前的环境变量，则输出当前的查询结果。

如图5所示，一种行为轨迹的查询装置还包括：

构建单元54，用于构建TR²-Tree，其中所述地理空间层的创建过程包括：每个节点拥有自身的MBR以及m到2m个指向子节点的指针，以根节点为起点，依次将轨迹点插入至MBR死区面积变化最小的节点中，当某一节点中的指针个数超过2m时，对该节点执行分裂操作，分裂为两个死区面积最小的、指针个数分别为m和m+1的节点；在完成所有轨迹点的插入至地理空间层后，执行主题空间层的创建；所述主题空间层的创建过程：每个节点代表一个聚簇，其对应的主题空间采用中心和半径表示，对地理空间层每个叶子节点得到子轨迹集合，通过K-medoids算法对子轨迹集合依据主题分布聚类，每个新的聚簇均为该叶子节点的子节点，根据聚簇之间的包含关系组织成树形结构，对每个地理空间层的节点，以自底向上的方式计算其对应的主题空间。

本发明提供了一种行为轨迹的查询装置，针对行为轨迹索引，采用空间-行为主题分层索引机制(Topic Retrieval R-Tree，简称TR²-Tree)来管理海量的轨迹数据。在地理空间层，通过层次式的索引结构来组织行为轨迹中的轨迹点，根据它们的空间相关性进行存放。在空间索引的每个叶子节点中，每个轨迹点都对应了若干条子轨迹，并且每条子轨迹都对应着一个高维度的主题分布(即高维空间中的一个点，用于描述)，将采用基于聚簇的高维索引技术来管理地理空间层叶子节点所对应的所有子轨迹，并对空间层叶子节点标注主题分布摘要的元信息。这样的混合索引结构为轨迹查询提供有效的存取路径。

本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算设备可读取存储介质中。基于这样的理解，本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一台计算设备(可以是个人计算机，服务器，移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种行为轨迹的表示方法，其特征在于，包括：

获取用户查询的目标文本描述和预设LDA主题模型的轨迹文本描述，其中所述轨迹文本描述在所述预设LDA主题模型中对应一个模型主题分布；

将所述目标文本描述输入至所述预设LDA主题模型，经所述预设LDA主题模型计算后输出目标主题分布，所述预设LDA主题模型包括多个主题分布，以及，与每个主题分布对应的多个轨迹文本描述；

利用相似性函数计算表征所述目标主题分布，与，所述模型主题分布的语义相关性的相似性函数值；所述目标主题分布和所述模型主题分布的语义相关性，与，所述相似性函数值成反比。

2.如权利要求1所述的方法，其特征在于，所述利用相似性函数计算表征所述目标主题分布与所述模型主题分布的语义相关性的相似性函数值包括：

计算所述目标主题分布与所述模型主题分布的欧式距离，将两者的欧式距离作为表征两者的语义相关性的相似性函数值。

3.如权利要求1所述的方法，其特征在于，所述将所述目标文本描述输入至所述预设LDA主题模型，经所述预设LDA主题模型计算后输出目标主题分布包括：

对于所述目标文本描述w，通过预先构建的维护矩阵β计算目标文本描述w对应的所述目标主题分布TD_W，TD_W是一个高维向量共有|Z|个分量，其中，分量TD_W[j]代表了目标文本描述w与主题z_j的相关性，该分量通过以下公式计算：

{TD}_{W} [i] = \frac{\underset{k_{i} &Element; w}{Σ} freq (k_{i}, w) \times β [i] [j]}{\underset{k_{i} &Element; w}{Σ} freq (k_{i}, w)}

其中，freq(k_i,w)表示关键字k_i在文本w中出现的次数，β[i][j]表示关键字k_i与主题z_j的相关性；

通过上述公式计算目标文本描述w与每个主题的相关性、作为所述目标主题分布的每个分量，得到目标文本描述w的目标主题分布TD_W。

4.一种行为轨迹的查询方法，其特征在于，包括：

获取用户的查询目标，对环境变量、查询结果和优先队列进行初始化，所述查询目标包括期望活动的目标文本描述和用户的当前位置；

将所述查询目标经预设LDA主题模型转换为查询目标模型，所述查询目标模型包括与所述目标文本描述对应的目标主题分布和用户的当前位置；

步骤A：从优先队列中读取第一个索引节点，初始时刻第一个索引节点为TR²-Tree地理空间层的根节点，所述TR²-Tree为依据预设LDA主题模型构建的包括地理空间层和主题空间层的模型；

判断所述索引节点是否为叶子节点；

当所述索引节点不为叶子节点时，则计算索引节点与所述查询目标模型的匹配距离，并计算索引节点的每个子节点与查询目标模型的匹配距离，将所述索引节点的子节点按匹配距离升序排列的方式插入至所述优先队列，当所述索引节点为叶子节点时遍历索引节点中每个子轨迹，逐个计算每个子轨迹与查询目标模型之间的实际距离，若某一子轨迹的实际距离小于当前的环境变量，则将所述实际距离作为当前的环境变量，将该子轨迹作为当前的查询结果；

判断索引节点的匹配距离是否大于当前的环境变量；

若索引节点的匹配距离小于当前的环境变量，则进入步骤A；

若索引节点的匹配距离大于当前的环境变量，则输出当前的查询结果。

5.如权利要求4所述的方法，其特征在于，所述TR²-Tree的创建过程包括：地理空间层的创建过程和主题空间层的创建过程；

所述地理空间层的创建过程包括：

每个节点拥有自身的MBR以及m到2m个指向子节点的指针，以根节点为起点，依次将轨迹点插入至MBR死区面积变化最小的节点中，当某一节点中的指针个数超过2m时，对该节点执行分裂操作，分裂为两个死区面积最小的、指针个数分别为m和m+1的节点；

在完成所有轨迹点的插入至地理空间层后，执行主题空间层的创建；

所述主题空间层的创建过程：

每个节点代表一个聚簇，其对应的主题空间采用中心和半径表示，对地理空间层每个叶子节点得到子轨迹集合，通过K-medoids算法对子轨迹集合依据主题分布聚类，每个新的聚簇均为该叶子节点的子节点，根据聚簇之间的包含关系组织成树形结构，对每个地理空间层的节点，以自底向上的方式计算其对应的主题空间。

6.如权利要求4所述的方法，其特征在于，当索引节点不是叶子节点时，所述计算索引节点与所述查询目标模型的匹配距离包括：

通过下述公式计算索引节点与查询目标模型的匹配距离；

\begin{matrix} D_{bm} (Q, N_{i}) = λ \cdot (\frac{2}{1 + e^{- {SD}_{\min}}} - 1) \\ + (1 - λ) \cdot | D_{T} ({TD}_{Q . W,} m_{i}) - {MD}_{i} | \end{matrix};

7.如权利要求4所述的方法，其特征在于，当索引节点是叶子节点时，所述计算索引节点与所述查询目标模型的匹配距离包括：

对于索引节点中的子轨迹定义子轨迹与Q的距离为：

D (Q, {Tr}_{i}^{j, k}) = λ \times D_{T} (Q . W, K ({Tr}_{i}^{j, k})) + (1 - λ) \times D_{S} (Q . loc, {Tr}_{i}^{j, k});

其中，表示子轨迹上的所有文本，λ由用户设定、用于调节空间和主题权重、值域为[0，1]的变量，为Q与在主题空间层的距离，是Q与在地理空间层的距离；

计算公式为：

D_{S} (Q . loc, {Tr}_{i}^{j, k}) = \frac{2}{1 + e^{- dist (loc, {Tr}_{i} [j]) - Length ({Tr}_{i}^{j, k})}} - 1;

其中，dist(loc,Tr_i[j])表示从loc到轨迹点Tr_i[j]的欧式空间距离，表示子轨迹在地理空间上的轨迹长度，由于和经过归一化处理，的取值也在0、1之间。

8.一种行为轨迹的表示装置，其特征在于，包括：

获取单元，用于获取用户查询的目标文本描述和预设LDA主题模型的轨迹文本描述，其中所述轨迹文本描述在所述预设LDA主题模型中对应一个模型主题分布；

输出单元，用于将所述目标文本描述输入至所述预设LDA主题模型，经所述预设LDA主题模型计算后输出目标主题分布，所述预设LDA主题模型中预先存储有众多文本描述以及与所述众多文本描述对应的多个主题分布，其中一个主题分布对应多个文本描述；

计算单元，用于利用相似性函数计算表征所述目标主题分布与所述模型主题分布的语义相关性的相似性函数值，所述目标主题分布和所述模型主题分布的语义相关性，与，所述相似性函数值成反比。

9.一种行为轨迹的查询装置，其特征在于，包括：

初始化单元，用于获取用户的查询目标，对环境变量、查询结果和优先队列进行初始化，所述查询目标包括期望活动的目标文本描述和用户的当前位置；将所述查询目标经预设LDA主题模型转换为查询目标模型，所述查询目标模型包括与所述目标文本描述对应的目标主题分布和用户的当前位置；

距离计算单元，用于从优先队列中读取第一个索引节点，初始时刻第一个索引节点为TR²-Tree地理空间层的根节点，所述TR²-Tree为依据预设LDA主题模型构建的包括地理空间层和主题空间层的模型；判断所述索引节点是否为叶子节点；当所述索引节点不为叶子节点时，则计算索引节点与所述查询目标模型的匹配距离，并计算索引节点的每个子节点与查询目标模型的匹配距离，将所述索引节点的子节点按匹配距离升序排列的方式插入至所述优先队列，当所述索引节点为叶子节点时遍历索引节点中每个子轨迹，逐个计算每个子轨迹与查询目标模型之间的实际距离，若某一子轨迹的实际距离小于当前的环境变量，则将所述实际距离作为当前的环境变量，将该子轨迹作为当前的查询结果；

判断单元，用于判断索引节点的匹配距离是否大于当前的环境变量；若索引节点的匹配距离小于当前的环境变量，则进入距离计算单元；若索引节点的匹配距离大于当前的环境变量，则输出当前的查询结果。

10.如权利要求9所述的装置，其特征在于，还包括：

构建单元，用于构建TR²-Tree，其中所述地理空间层的创建过程包括：每个节点拥有自身的MBR以及m到2m个指向子节点的指针，以根节点为起点，依次将轨迹点插入至MBR死区面积变化最小的节点中，当某一节点中的指针个数超过2m时，对该节点执行分裂操作，分裂为两个死区面积最小的、指针个数分别为m和m+1的节点；在完成所有轨迹点的插入至地理空间层后，执行主题空间层的创建；所述主题空间层的创建过程：每个节点代表一个聚簇，其对应的主题空间采用中心和半径表示，对地理空间层每个叶子节点得到子轨迹集合，通过K-medoids算法对子轨迹集合依据主题分布聚类，每个新的聚簇均为该叶子节点的子节点，根据聚簇之间的包含关系组织成树形结构，对每个地理空间层的节点，以自底向上的方式计算其对应的主题空间。