CN108717447B

CN108717447B - 一种交互式多用户空间关键词查询方法

Info

Publication number: CN108717447B
Application number: CN201810476520.8A
Authority: CN
Inventors: 王勇; 郝玉洁; 林劼; 庞子卯; 高泽仁
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-05-17
Filing date: 2018-05-17
Publication date: 2022-02-11
Anticipated expiration: 2038-05-17
Also published as: CN108717447A

Abstract

本发明公开了一种交互式多用户空间关键词查询方法，其包括空间关键词数据处理步骤S1、构造查询请求步骤S2、查询初始化步骤S3、数据查询步骤S4、用户交互步骤S5；本发明提供了一种交互式空间关键词查询方法，能够适用于多用户查询的场景中，且能够通过与用户交互的方式度量查询用户潜藏的个人偏好信息，为用户提供更加准确地查询结果，提高用户查询满意度。

Description

一种交互式多用户空间关键词查询方法

技术领域

本发明涉及空间关键词查询领域，尤其涉及一种交互式多用户空间关键词查询方法。

背景技术

随着位置服务和智能终端的普及，基于位置的社交网络应用与人们的生活息息相关。在这类网络中，用户会发起多种多样的查询请求以满足自己的查询需求，例如:top-k查询、skyline查询和范围查询等。然而，这些查询仅能支持单用户发起的查询请求，却对多用户情景下的查询请求无能为力。此外，在查询处理过程中，用户往往具有某些潜藏的偏好信息。然而，这些查询却无法有效度量这些偏好信息，使得其查询结果不能精确满足用户偏好。因此，用户需要一种能够有效度量自己潜藏的偏好信息的多用户空间关键词查询方法。

专利申请号CN201610195409.2公开了一种多用户决定的空间数据查询验证方法，该方法能够提供一种多用户决定的空间数据查询验证方法，能够应用于多用户决定的场景中；一组用户可以提供自己所在的位置和偏好来得到一组满足用户需求的兴趣点；该方法可以在空间数据外包的服务模式下执行，为查询用户提供高效且准确的查询功能。该方法要求用户提供能够完美量化其偏好信息的数值向量，而非专业用户很难用一个数值向量量化其偏好信息；进而，对用户偏好信息不精确的量化会使查询产生不精确乃至错误的结果。

专利申请号CN201710556401.9公开了一种针对具备地理社交信息的群组推荐方法，该方法能为一组用户根据其查询历史推荐兴趣点；在考虑用户权重的基础上，该方法分析了每个用户的个人偏好、群组成员和社交关系，通过群组用户建模和群组推荐的方式为一组用户推荐兴趣点。该方法过于依赖用户过去的查询历史及其相关信息，无法解决冷启动等一系列的问题。

发明内容

为了解决上述问题，本发明提出一种交互式多用户空间关键词查询方法。

具体的，本发明的目的通过以下技术方案来实现：一种交互式多用户空间关键词查询方法，其特征在于，包括以下步骤：

S1.空间关键词数据处理：将携带关键词的空间地点数据视为兴趣点p，根据兴趣点p的空间邻近关系进行分组；每个分组作为一个最小边界矩形，每个最小边界矩形作为一个叶子结点e_i，较大的最小边界矩形索引覆盖一个或多个叶子结点e_i作为中间结点e_j构造IR树；每个叶子结点e_i和中间结点e_j都分别关联一个关键词表；

S2.构造查询请求：给定四元数组Q＝{U,k,Ω,T}，U代表一组查询用户组，k代表查询结束后返回的兴趣点p的个数，Ω为兴趣点p的集合，T代表根据查询用户潜藏的偏好构造的用户反馈集合；在查询提交时，用户反馈集合T被置为空集；

U＝{u₀，u₁，...，u_j，...，u_n-1}，式中u_i表示用户组U中第i+1个用户，n表示用户组U中用户的个数；每一个用户u_i均可表示为<uid，λ，ψ>，u.uid为用户u_i的唯一标识；u.λ为其位置信息，表示为u.λ＝<u.x,u.y>，u.x和u.y分别为用户u_i所在的经纬度；u.ψ为用户u_i的关键词需求；将用户提供的所有关键词称为查询关键词，记为Q_ψ；

Ω＝{p₀,p₁,...,p_i,...,p_s}，式中p_i，i＝1,2,3.....s，表示兴趣点p集合Ω中第i+1个兴趣点，s+1表示兴趣点p集合Ω中地点兴趣点的个数；

定义如下概念：

标准谷歌距离：给定两个关键词x和y，二者间的标准谷歌距离为：

式中f(x)和f(y)分别为谷歌搜索关键词x和y时返回的网页数目，f(x,y)为谷歌同时搜索关键词x和y的网页数目，N为谷歌索引的网页总数目；两个关键词的标准谷歌距离越小，其文本相关性越高；

文本相关度：给定兴趣点p和用户u_i，兴趣点p所携带的关键词与用户u_i所提供的关键词需求的文本相关度为：TXR(p，u_i)＝max_{x∈p·ψ，y∈u.ψ}(NGD(x，y))；

空间距离：给定兴趣点p_i，p_j和用户u_i，d_N(p_i，u_i)和d_N(p_i，p_j)分别代表兴趣点p_i到用户u_i和兴趣点p_i到兴趣点p_j的空间距离；

平衡向量：给定用户u_i和兴趣点p元组<p_τi，p_ιi>，在二维坐标系下构造用户u_i的平衡向量

其中，点

和点

的坐标分别为

式中

用户满意度：给定用户u_i和兴趣点元组

首先在二维坐标系下构造用户u_i的平衡向量

然后绘制两条垂直于衡向量

的直线且两条直线分别经过点

和

将整个平面被这两条直线分割为A，B，C三个区域，如图3所示；给定兴趣点p_j，在维坐标系下绘制点

然后由点

向平衡向量

及其延长线作垂线，垂足为

用户u_i对兴趣点p_j的用户满意度M_ij根据点

的位置分布分以下三种情况：

(1)如果点

位于区域A中，如图3(a)所示，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

(2)如果点

位于区域B中，如图3(b)所示，垂足

位于平衡向量

上；用户u_i对兴趣点p_j的满意度为：

(3)如果点

位于区域C中，如图3(c)所示，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

给定结果集R，用户u_i对结果集R的满意度为：

所述|R|为结果集R里兴趣点的个数，且M′_i的数值越低，用户u_i对结果集R的满意程度越高；

平均满意程度：给定结果集R，整个用户组U对结果集R的平均满意程度为：

变异系数：给定结果集R和用户组U，用户组U对结果集R的变异系数为：

代价函数Cost(R，Q，T)：给定结果集R、三元数组Q′＝{U，k，T}和用户反馈集合T，代价函数Cost(R，Q′，T)为：Cost(R，Q′，T)＝(C₁(R，Q′)+C₂(R))·C₃(R，T)，式中C₁(R，Q′)为max_p∈R(d_N(p，U))+max_p∈R(TXR(p，U))，C₂(R)为

C₃(R，T)为：

理想结果是最终k个兴趣点存储在结果集R中，且代价函数Cost(R，Q，T)最小；

S3.查询初始化：定义结果集R，并将其初始化为空；根据用户反馈集合T计算IR树中叶子结点、中间结点和兴趣点p的价值Val；

S4.数据查询：定义一个堆H以价值Val的升序扫描IR树的结点：先将IR树的根结点放入堆H中，每一次扫描，均将堆H的堆顶元素current弹出，并根据其状态对其进行处理；直到堆H为空或者结果集R中兴趣点p的个数达到k个，完成一次基本查询，并将结果集R返回给用户；

S5.用户交互：当查询用户组U收到返回的结果集R后，根据每一位用户潜藏的偏好信息构造用户反馈集合T，查询用户组U根据自己的满意度决定是否继续执行用户交互过程。

进一步地，步骤S1包括以下子步骤：

S11.兴趣点p的构造：每一个兴趣点p均可表示为<id,λ,ψ>，其中，p.id是兴趣点p的唯一标识，p.λ表示兴趣点p的位置，所述位置由经纬度构成，p.ψ为一组描述兴趣点p的关键词；所述p.λ＝(e，||p，v||)，表示兴趣点p位于道路网络G的边e上，其距离边e的端点v的长度为||p，v||；

S12.IR树的构造：将兴趣点p根据其空间位置关系信息进行分组聚集，IR树的叶子结点e_i索引覆盖一个最小边界矩形，每个最小边界矩形根据空间邻近关系覆盖一组兴趣点p，并关联一个关键词表

所述关键词表

包含叶子结点索引覆盖的所有兴趣点p携带的不同关键词；IR树的中间节点e_j索引一个较大的最小边界矩形，其覆盖一组较小的最小边界矩形，并关联一个关键词表

所述关键词表

为其索引覆盖的所有叶子结点e_i的关键词表

的并集。

进一步地，所述的步骤S3包括以下子步骤：

S31.结果集R初始化：定义结果集R，并将其初始化为空；

S32.价值Val计算：根据用户反馈集合T计算IR树中叶子结点、中间结点和兴趣点p的价值Val：

给定兴趣点p和计算兴趣点p价值时的结果集R′，兴趣点p的价值Val_p为：Val_p＝(C₁(R′∪p，Q)+C₂(R′∪p))·C₃(R′∪p，T)；

给定叶子结点e_i和计算结点e_i价值时的结果集R′，叶子结点e_i价值

为：

给定中间结点e_j和计算结点e_j价值时的结果集R′，中间结点e_j价值

为：

进一步地，对于任意一个结点来说，不论这个结点是叶子结点还是中间结点，它的价值Val一定低于或者等于其所有孩子结点的价值Val的最小值。

优选地，步骤S4中对堆顶元素current的状态处理分为以下两种情况：

(1)如果弹出的堆顶元素current是IR树的中间结点或者叶子结点，则计算current的所有孩子结点的价值，然后根据其所有孩子结点的价值，将这些孩子结点插入最小堆H中；

(2)如果弹出的堆顶元素current是一个兴趣点p，则兴趣点p为此时最小堆H中价值最小的元素，会被直接加入到结果集R中；最小堆H中的所有元素会根据新的结果集R更新自己的价值，最小堆H也会根据其包含的元素的价值执行更新操作。

进一步地，所述的步骤S5包括以下子步骤：

S51.交互停止条件：查询用户组U收到结果集R后，判断结果集R是否满足下列两个停止条件中的一个：

(1)用户组的每一个用户均对得到的结果集R满意；

(2)用户组的每一个用户均认为继续用户交互过程无法得到令他们满意的结果集R；

如果结果集R满足上述两个停止条件之一，用户交互过程停止，结果集R为最终结果集，否则，跳转至步骤S52；

S52.用户反馈集合的构造：根据每一位用户潜藏的偏好信息构造用户反馈集合T，其中，

元组

由用户从结果集R中根据自己的偏好信息筛选得出，兴趣点

和

分别表示用户在结果集R中最喜欢和最不喜欢的兴趣点p；

S53.重新执行查询：跳转至步骤S3，重新执行查询。

本发明的有益效果在于：允许用户在不提供精确的数值向量来量化其潜藏的偏好信息的情况下，通过用户交互的方式有效度量用户组的偏好信息，为用户提供更加准确地查询结果，提高用户查询满意度；比原有的空间关键词查询方法具有更快的查询速度和更短的响应时间，减少了用户的开支。

附图说明

图1是本发明的步骤图；

图2是本发明的流程图；

图3是本发明中计算用户满意度时的平面划分图；

图4是本发明的数据查询过程中的扫描流程图。

具体实施方式

为了对本发明的技术特征、目的和效果有更加清楚的理解，现对照附图说明本发明的具体实施方式。

如图1所示，一种交互式多用户空间关键词查询方法，其特征在于，包括以下步骤：

U＝{u₀，u₁，...，u_i，...，u_n-1}，式中u_i表示用户组U中第i+1个用户，n表示用户组U中用户的个数；每一个用户u_i均可表示为<uid，λ，ψ>，u.uid为用户u_i的唯一标识；u.λ为其位置信息，表示为u.λ＝<u.x,u.y>，u.x和u.y分别为用户u_i所在的经纬度；u.ψ为用户u_i的关键词需求；将用户提供的所有关键词称为查询关键词，记为Q_ψ；

定义如下概念：

文本相关度：给定兴趣点p和用户u_i，兴趣点p所携带的关键词与用户u_i所提供的关键词需求的文本相关度为：TXR(p，u_i)＝max_{x∈p.ψ，y∈u.ψ}(NGD(x，y))；

平衡向量：给定用户u_i和兴趣点p元组

在二维坐标系下构造用户u_i的平衡向量

其中，点

和点

的坐标分别为

式中

用户满意度：给定用户u_i和兴趣点元组

首先在二维坐标系下构造用户u_i的平衡向量

然后绘制两条垂直于衡向量

的直线且两条直线分别经过点

和

然后由点

向平衡向量

及其延长线作垂线，垂足为

用户u_i对兴趣点p_j的用户满意度M_ij根据点

的位置分布分以下三种情况：

(4)如果点

位于区域A中，如图3(a)所示，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

(5)如果点

位于区域B中，如图3(b)所示，垂足

位于平衡向量

上；用户u_i对兴趣点p_j的满意度为：

(6)如果点

位于区域C中，如图3(c)所示，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

给定结果集R，用户u_i对结果集R的满意度为：

代价函数Cost(R，Q，T)：给定结果集R、三元数组Q′＝{U，k，T}和用户反馈集合T，代价函数Cost(R，Q′，T)为：Cost(R，Q′，T)＝(C₁(R，Q′)+C₂(R))·C₃(R，T)，式中C₁(R，Q′)为max_p∈R(dN₍p，U))+max_p∈R(TXR(p，U))，C₂(R)为

C₃(R，T)为：

进一步地，步骤S1包括以下子步骤：

所述关键词表

所述关键词表

为其索引覆盖的所有叶子结点e_i的关键词表

的并集。

进一步地，所述的步骤S3包括以下子步骤：

S31.结果集R初始化：定义结果集R，并将其初始化为空；

为：

为：

进一步地，所述的步骤S5包括以下子步骤：

(1)用户组的每一个用户均对得到的结果集R满意；

元组

由用户从结果集R中根据自己的偏好信息筛选得出，兴趣点

和

分别表示用户在结果集R中最喜欢和最不喜欢的兴趣点p；

S53.重新执行查询：跳转至步骤S3，重新执行查询。

需要说明的是，对于前述的各个方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某一些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和单元并不一定是本申请所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、ROM、RAM等。

以上所揭露的仅为本发明较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种交互式多用户空间关键词查询方法，其特征在于，包括以下步骤：

价值Val计算的方法为：

为：

为：

对于任意一个结点来说，不论这个结点是叶子结点还是中间结点，它的价值Val一定低于或者等于其所有孩子结点的价值Val的最小值；

2.根据权利要求1所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的步骤S1包括以下子步骤：

所述关键词表

所述关键词表

为其索引覆盖的所有叶子结点e_i的关键词表

的并集。

3.根据权利要求1所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的步骤S2所述的查询用户组U和兴趣点p的集合Ω分别表示为：

U＝{u₀，u₁，…，u_i，…，u_n-1}，式中u_i表示用户组U中第i+1个用户，n表示用户组U中用户的个数；

Ω＝{p₀,p₁,...,p_i,...,p_s}，式中p_i，i＝1,2,3.....s，表示兴趣点p集合Ω中第i+1个兴趣点，s+1表示兴趣点p集合Ω中地点兴趣点的个数。

4.根据权利要求3所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的每一个用户u_i均可表示为<uid，λ，ψ>，u.uid为用户u_i的唯一标识；u.λ为其位置信息，表示为u.λ＝<u.x,u.y>，u.x和u.y分别为用户u_i所在的经纬度；u.ψ为用户u_i的关键词需求；将用户提供的所有关键词称为查询关键词，记为Q_ψ。

5.根据权利要求1所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的步骤S4中对堆顶元素current的状态处理分为以下两种情况：

情况1：如果弹出的堆顶元素current是IR树的中间结点或者叶子结点，则计算current的所有孩子结点的价值，然后根据其所有孩子结点的价值，将这些孩子结点插入最小堆H中；

情况2：如果弹出的堆顶元素current是一个兴趣点p，则兴趣点p为此时最小堆H中价值最小的元素，会被直接加入到结果集R中；最小堆H中的所有元素会根据新的结果集R更新自己的价值，最小堆H也会根据其包含的元素的价值执行更新操作。

6.根据权利要求1所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的步骤S5包括以下子步骤：

条件1：用户组的每一个用户均对得到的结果集R满意；

条件2：用户组的每一个用户均认为继续用户交互过程无法得到令他们满意的结果集R；

元组

由用户从结果集R中根据自己的偏好信息筛选得出，兴趣点

和

分别表示用户在结果集R中最喜欢和最不喜欢的兴趣点p；

S53.重新执行查询：跳转至步骤S3，重新执行查询。

7.根据权利要求6所述的一种交互式多用户空间关键词查询方法，其特征在于，所述的步骤S2定义如下概念：

平衡向量：给定用户u_i和兴趣点p元组

在二维坐标系下构造用户u_i的平衡向量

其中，点

和点

的坐标分别为

式中

用户满意度：给定用户u_i和兴趣点元组

首先在二维坐标系下构造用户u_i的平衡向量

然后绘制两条垂直于衡向量

的直线且两条直线分别经过点

和

将整个平面被这两条直线分割为A，B，C三个区域；给定兴趣点p_j，在维坐标系下绘制点

然后由点

向平衡向量

及其延长线作垂线，垂足为

用户u_i对兴趣点p_j的用户满意度M_ij根据点

的位置分布分以下三种情况：

情况1：如果点

位于区域A中，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

情况2：如果点

位于区域B中，垂足

位于平衡向量

上；用户u_i对兴趣点p_j的满意度为：

情况3：如果点

位于区域C中，垂足

位于平衡向量

的延长线上；用户u_i对兴趣点p_j的满意度为：

给定结果集R，用户u_i对结果集R的满意度为：

代价函数Cost(R，Q，T)：给定结果集R、三元数组Q′＝{U，k，T}和用户反馈集合T，代价函数Cost(R，Q′，T)为：Cost(R，Q′，T)＝(G₁(R，Q′)+C₂(R))·C₃(R，T)，式中C₁(R，Q′)为max_p∈R(d_N(p，U))+max_p∈R(TXR(p，U))，C₂(R)为

C₃(R，T)为：