CN112925893B

CN112925893B - 一种对话式兴趣点推荐方法、装置、电子设备及存储介质

Info

Publication number: CN112925893B
Application number: CN202110308770.2A
Authority: CN
Inventors: 赵朋朋; 李昌恒; 郝永静
Original assignee: Suzhou University
Current assignee: Suzhou University
Priority date: 2021-03-23
Filing date: 2021-03-23
Publication date: 2023-09-15
Anticipated expiration: 2041-03-23
Also published as: WO2022198982A1; CN112925893A

Abstract

本发明提供了一种对话式兴趣点推荐方法、装置、电子设备及介质，该方法包括：利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，历史访问序列中包含有用户访问兴趣点的访问时间及兴趣点的地理位置信息；将所有兴趣点、训练兴趣点序列、时间训练序列及位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值；当接收到用户发送的对话推荐请求时，确定接收时间及接收时间在一天中对应的预设时间段，并利用预设时间段、兴趣点推荐序列及访问预测值生成对话状态；将对话状态输入时空策略网络中进行强化学习，向用户进行对话推荐。本发明可综合兴趣点的时空因素提升兴趣点推荐准度。

Description

一种对话式兴趣点推荐方法、装置、电子设备及存储介质

技术领域

本发明涉及兴趣点推荐领域，特别涉及一种对话式兴趣点推荐方法、装置、电子设备及存储介质。

背景技术

对话推荐系统(CRS，Conversational Recommendation System)是一种可主动向用户获取偏好属性并利用该属性进行物品推荐的推荐系统，已在物品推荐中取得了较多的应用。但在进行兴趣点推荐时，由于兴趣点(POI，Point of Interest)是地理信息系统中具体的地理位置，现有的对话推荐系统仅能利用当前询问的属性进行推荐，无法考虑兴趣点的地理位置因素，同时也无法考虑用户访问兴趣点的时间因素，进而难以为用户准确有效地进行兴趣点推荐。

发明内容

本发明的目的是提供一种对话式兴趣点推荐方法、装置、电子设备及存储介质，可在对话推荐的过程中有效考虑兴趣点之间的地理位置因素及用户访问兴趣点的时间因素，进而准确有效地为用户推荐兴趣点。

为解决上述技术问题，本发明提供一种对话式兴趣点推荐方法，包括：

利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，所述历史访问序列中包含有所述用户访问所述兴趣点的访问时间及所述兴趣点的地理位置信息；

将所有所述兴趣点、所述训练兴趣点序列、所述时间训练序列及所述位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值；

当接收到所述用户发送的对话推荐请求时，确定接收时间及所述接收时间在一天中对应的预设时间段，并利用所述预设时间段、所述兴趣点推荐序列及所述访问预测值生成对话状态；

将所述对话状态输入时空策略网络中进行强化学习，向所述用户进行对话推荐。

可选地，所述将所有所述兴趣点、所述训练兴趣点序列、所述时间训练序列及所述位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值，包括：

将所有所述兴趣点及所述训练兴趣点序列输入所述时空兴趣点推荐网络的嵌入层，生成所有所述兴趣点对应的总嵌入矩阵及所述训练兴趣点序列对应的输入矩阵；

将所述时间训练序列及所述位置训练序列输入所述时空兴趣点推荐网络的时空权重块，生成时空权重矩阵；

将所述输入矩阵及所述时空权重矩阵输入所述时空兴趣点推荐网络的自注意块中进行特征学习，生成每一所述访问时间对应的学习向量；

利用所述学习向量与所述兴趣点向量输入所述时空兴趣点推荐网络的预测层计算所述兴趣点在所述访问时间的访问预测值，并将所述访问预测值输入损失函数中计算损失值；

利用反向传播算法对所述时空兴趣点推荐网络进行网络优化，直至所述损失值收敛时，利用所述损失值收敛时对应的访问预测值生成所述兴趣点推荐序列。

可选地，所述将所述访问预测值输入损失函数中计算损失值，包括：

将所述训练兴趣点序列中所述访问时间最晚的兴趣点设置为标准正样本，并利用所述标准正样本对所有所述兴趣点进行负采样，将被所述用户访问过的兴趣点设置为正样本，将未被所述用户访问过的兴趣点设置为负样本；

分别将所述正样本的访问预测值与所述负样本的访问预测值输入所述损失函数计算所述损失值。

可选地，所述将所述对话状态输入时空策略网络中进行强化学习，向所述用户进行对话推荐，包括：

将所述对话状态输入所述时空策略网络中，并利用所述时空策略网络的预设策略梯度进行网络优化，生成所述动作决策；

利用所述动作决策向所述用户进行对话推荐。

可选地，所述利用所述动作决策向所述用户进行对话推荐，包括：

当所述动作决策为推荐时，将推荐的兴趣点发送至用户端，并接收所述用户端发送的反馈信息；

若所述反馈信息为接受所述兴趣点时，退出所述对话推荐；

若所述反馈信息为拒绝所述兴趣点时，从兴趣点推荐序列移除所述兴趣点，并利用完成移除的兴趣点推荐序列继续执行所述利用所述预设时间段及所述兴趣点推荐序列生成对话状态的步骤；

当所述动作决策为向用户发送属性询问时，接收所述用户端的属性选择信息；

利用所述属性选择信息对所述兴趣点推荐序列中的兴趣点进行验证，并移除验证失败的兴趣点，最后利用完成移除操作后的兴趣点推荐序列继续利用所述预设时间段及所述兴趣点推荐序列生成对话状态的步骤。

可选地，所述利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列，包括：

确定所述历史访问序列中包含兴趣点的数量；

当所述数量小于预设数值时，则利用所述历史访问序列中的兴趣点生成所述训练兴趣点序列，并利用预设兴趣点对所述训练兴趣点序列进行补充，直至所述训练兴趣点序列包含的兴趣点数量达到所述预设数值；

当所述数量大于等于所述预设数值时，则利用历史访问序列中前所述预设数值的兴趣点生成所述训练兴趣点序列；

利用所述训练兴趣点序列包含的访问时间及地理位置信息，生成所述时间训练序列及所述位置训练序列。

可选地，所述利用所述预设时间段、所述兴趣点推荐序列及所述访问预测值生成对话状态，包括：

将所述兴趣点推荐序列中前预设数量的兴趣点作为推荐兴趣点；

利用所述推荐兴趣点所包含的属性计算属性熵，并将所述属性熵设置为属性熵状态；

利用所述推荐兴趣点的访问预测值，为所述推荐兴趣点所包含的属性计算属性预测值，并将所述属性预测值设置为属性预测状态；

利用所述推荐兴趣点的地理位置信息及所述训练兴趣点序列包含的地理位置信息生成空间状态；

利用所述训练兴趣点序列中在所述预设时间段内被访问的兴趣点所包含的属性以及所述推荐兴趣点所包含的属性计算时间状态；

将所述属性熵状态、所述属性预测状态、所述空间状态及所述时间状态设置为对话状态。

本发明还提供一种对话式兴趣点推荐装置，包括：

获取模块，用于利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，所述历史访问序列中包含所述用户访问所述兴趣点的访问时间及所述兴趣点的地理位置信息；

推荐模块，用于将所有所述兴趣点、所述训练兴趣点序列、所述时间训练序列及所述位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值；

对话状态生成模块，用于当接收到所述用户发送的对话推荐请求时，确定接收时间及所述接收时间在一天中对应的预设时间段，并利用所述预设时间段、所述兴趣点推荐序列及所述访问预测值生成对话状态；

对话模块，用于将所述对话状态输入时空策略网络中进行强化学习，向所述用户进行对话推荐。

本发明还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如上述所述的对话式兴趣点推荐方法。

本发明还提供一种存储介质，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如上述所述的对话式兴趣点推荐方法。

本发明提供一种对话式兴趣点推荐方法，包括：利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，所述历史访问序列中包含所述用户访问所述兴趣点的访问时间及所述兴趣点的地理位置信息；将所有所述兴趣点、所述训练兴趣点序列、所述时间训练序列及所述位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值；当接收到所述用户发送的对话推荐请求时，确定接收时间及所述接收时间在一天中对应的预设时间段，并利用所述预设时间段、所述兴趣点推荐序列及所述访问预测值生成对话状态；将所述对话状态输入时空策略网络中进行强化学习，向所述用户进行对话推荐。

可见，本方法首先利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列，并利用上述序列对时空兴趣点推荐网络进行训练，可确保时空兴趣点推荐网络同时兴趣点的地理位置因素及访问时间因素进行兴趣点推荐序列的生成；同时，本方法在生成对话状态时，还确定了接收到用户发送对话推荐请求的时间点，并利用该时间点所属的预设时间段与兴趣点推荐序列共同生成对话状态，可确保用户的历史访问时间因素与当前发起对话推荐的时间因素相结合，并进一步提升兴趣点推荐的准确性。本发明还提供一种对话式兴趣点推荐装置、电子设备及计算机可读存储介质，具有上述有益效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本发明实施例所提供的对话式兴趣点推荐方法的流程图；

图2为本发明实施例所提供的对话式兴趣点推荐装置的结构框图；

图3为本发明实施例所提供的时空对话推荐系统的结构框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

对话推荐系统(CRS，Conversational Recommendation System)是一种可主动向用户获取偏好属性并利用该属性进行物品推荐的推荐系统，已在物品推荐中取得了较多的应用。但在进行兴趣点推荐时，由于兴趣点(POI，Point of Interest)是地理信息系统中具体的地理位置，现有的对话推荐系统仅能利用当前询问的属性进行推荐，无法考虑兴趣点的地理位置因素，同时也无法考虑用户访问兴趣点的时间因素，进而难以为用户准确有效地进行兴趣点推荐。有鉴于此，本发明提供一种对话式兴趣点推荐方法，可在对话推荐的过程中有效考虑兴趣点之间的地理位置因素及用户访问兴趣点的时间因素，进而准确有效地为用户推荐兴趣点。请参考图1，图1为本发明实施例所提供的一种对话式兴趣点推荐方法的流程图，该方法可以包括：

S101、利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，历史访问序列中包含有用户访问兴趣点的访问时间及兴趣点的地理位置信息。

需要说明的是，本发明实施例并不限定用户访问兴趣点的具体方式，例如可以是用户查询过该兴趣点的具体信息，也可以该用户喜欢或收藏过该兴趣点，又或是用户到达过该兴趣点。进一步，本发明实施例并不限定历史访问序列的长度，该长度可为任意值。本发明也不限定访问时间在历史访问序列中的形式，例如可以为时间戳的形式，也可以为包含年月日及具体时间的形式。本发明也不限定地理位置信息在历史访问序列中的形式，例如可以为经纬度坐标，又或是以某一具体地理位置为坐标原点设置坐标系，并利用该坐标系生成的相对位置坐标。

进一步，本发明实施例并不限定训练兴趣点序列是否为固定长度，当本发明实施例所使用的推荐网络支持可变长度的向量或是可变维度的矩阵时，训练兴趣点序列可以为可变长度；若该推荐网络仅支持固定长度的向量或是固定维度的矩阵时，训练兴趣点序列也可为固定长度。考虑到可变维度的矩阵难以利用深度学习神经网络学习，因此在本发明实施例中，训练兴趣点序列可以为固定长度。可以理解的是，由于访问时间及地理位置信息与兴趣点一一对应，因此时间训练序列与位置训练序列与训练兴趣点序列的长度一致。本发明实施例并不限定固定长度的具体数值，可根据实际应用需求进行设定。

进一步，本发明实施例并不限定是否利用历史访问序列中保存的所有兴趣点进行序列生成，又或是利用历史序列中在预设时间区间内被访问的兴趣点进行序列生成，当需要考虑用户对兴趣点的所有访问历史时，可使用所有的兴趣点进行序列生成；当只需考虑用户在预设时间区间内的访问历史时，也可使用在预设时间区间内被访问的兴趣点进行序列生成。在本发明实施例中，考虑到用户的偏好一直在发生改变，若使用历史访问序列中所有的兴趣点将不能很好地反映用户在预设时间区间内的偏好，因此可以采用在预设时间区间内被访问的兴趣点进行训练序列生成。需要说明的是，本发明实施例并不限定预设时间区间的具体数值，该预设时间区间可任意调整。本发明实施例也不限定预设时间区间的设置方式，例如可以将预设时间区间设置于用户发起对话推荐之前紧邻的时刻，也可以将用户发起对话推荐之前最近访问的兴趣点的访问时间设置为预设时间区间末尾。最后，考虑到用户在预设时间区间内访问的兴趣点数量存在小于训练兴趣点序列的固定长度的情况，此时可利用预设兴趣点进行补充，该预设兴趣点仅用于填补数据位置，若最终的推荐结果出现了该预设兴趣点，则应当忽略该预设兴趣点。需要说明的是，本发明实施例并不限定具体的预设兴趣点，例如可以设置特殊标签，又或是设置特殊值。在本发明中，可设置特殊值表示该预设兴趣点，具体的，可将预设兴趣点设置为0。

在一种可能的情况中，利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列的过程，可以包括：

步骤11：确定历史访问序列中包含兴趣点的数量。

步骤12：当数量小于预设数值时，则利用历史访问序列的兴趣点生成训练兴趣点序列，并利用预设兴趣点对训练兴趣点序列进行补充，直至训练兴趣点序列包含的兴趣点数量达到预设数值。

步骤13：当数量大于等于预设数值时，则利用历史访问序列中前预设数值的兴趣点生成训练兴趣点序列。

步骤14：利用训练兴趣点序列包含的访问时间及地理位置信息，生成时间训练序列及位置训练序列。

下面结合具体例子解释上述序列生成过程。假设u∈U表示用户u来自用户集合U。令v∈V表示一个兴趣点v来自兴趣点集合V。每个兴趣点v都有一个属性集合P_v。把属性集合记作P并使用p表示一个具体的属性。用户u的访问记录根据时间排成一个序列其中|L|表示序列的长度。每个访问记录有时间戳和位置利用预设时间区间在序列L_u中查找兴趣点，并生成长度为m的训练兴趣点序列若用户u在预设时间区间内的访问记录不足m次，则利用0补全。在得到训练兴趣点序列之后，可利用兴趣点包含的访问时间及位置信息生成时间训练序列及位置训练序列

S102、将所有兴趣点、训练兴趣点序列、时间训练序列及位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值。

本发明实施例同时使用训练兴趣点序列、时间训练序列及位置训练序列对时空兴趣点推荐网络进行训练，可确保该网络融合兴趣点的时空因素进行兴趣点推荐序列生成，进而可有效提升兴趣点推荐的准确度。其中，所有兴趣点包含用户访问过的兴趣点及用户未访问过的兴趣点。

需要说明的是，本发明实施例所使用的时空兴趣点推荐网络基于深度学习神经网络，同时采用多层神经网络结构。本发明实施例并不限定时空兴趣点推荐网络的具体结构，只要该网络可有效融合兴趣点的历史访问时间因素及地理位置因素进行训练并生成兴趣点推荐序列即可。在一种可能的情况中，时空兴趣点推荐网络可具有嵌入层、时空权重块、自注意力块及预测层。本发明实施例并不限定上述结构的具体布局方式及训练方式，用户可参考STSAN(Spatio-Temporal Self-attention Network，时空自注意网络)的相关技术。

在一种可能的情况中，将所有兴趣点、训练兴趣点序列、时间训练序列及位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列，包括：

步骤21：将所有兴趣点及训练兴趣点序列输入时空兴趣点推荐网络的嵌入层，生成所有兴趣点对应的总嵌入矩阵及训练兴趣点序列对应的输入矩阵。

具体的，对于训练兴趣点序列及兴趣点集合v∈V，将所有兴趣点嵌入的总嵌入矩阵该矩阵为可学习矩阵，可编码所有兴趣点，d为可设置的超参数；再建立相对位置嵌入矩阵可编码训练兴趣点序列中的兴趣点在训练兴趣点序列中的相对位置，该矩阵也为可学习矩阵。将训练兴趣点序列中每个兴趣点在上述嵌入矩阵中的编码向量相加，形成训练兴趣点序列的输入矩阵E：

步骤22：将时间训练序列及位置训练序列输入时空兴趣点推荐网络的时空权重块，生成时空权重矩阵。

具体的，利用时间训练序列及位置训练序列计算时间转移矩阵T^u和空间转移矩阵S^u：

其中，为兴趣点和的访问时间和的时间间隔，为兴趣点和的地理位置信息和的空间间隔。利用衰减函数将上述转移矩阵转换为时间权重矩阵和空间权重矩阵分别为：

其中，g为衰减函数，g(x)＝1/log(e+x)。使用权重因子ρ平衡时空信息：

最后，对H使用线性变换，得到时空权重矩阵

其中，W为可学习矩阵，b为偏置系数。

步骤23：将输入矩阵及时空权重矩阵输入时空兴趣点推荐网络的自注意块中进行特征学习，生成每一访问时间对应的学习向量。

具体的，将输入矩阵E及时空权重矩阵输入自注意力层进行转换：

其中，softmax为逻辑回归模型，W^Q,W^K,W^V均为可学习矩阵，用于对E进行投影，W_SA和F均为自注意力层学习的中间结果。为了进一步学习兴趣点的转移特征，可把F输入两层全连接神经网络：

其中，LayerNorm为一种归一化函数，ReLU为线性整流函数，W₁,W₂均为可学习矩阵，b₁,b₂为可学习向量。O为自注意力块输出的学习矩阵，其中每一行均表示每一访问时间对应的学习向量。

步骤24：利用学习向量与兴趣点向量输入时空兴趣点推荐网络的预测层计算兴趣点在访问时间的访问预测值，并将访问预测值输入损失函数中计算损失值。

具体的，计算和O_t的点积，得到兴趣点v_i在访问时间t的访问预测值其中，O的每一行代表一个访问时间t对应的学习向量，O_t即表示O中表示访问时间t的那一行。

优选地，将访问预测值输入损失函数中计算损失值的步骤，可以包括：

步骤31：将训练兴趣点序列中访问时间最晚的兴趣点设置为标准正样本，并利用标准正样本对所有兴趣点进行负采样，将被用户访问过的兴趣点设置为正样本，将未被用户访问过的兴趣点设置为负样本；

步骤32：分别将正样本的访问预测值与负样本的访问预测值输入损失函数计算损失值。

需要说明的是，本发明实施例并不限定负采样的具体过程，用户可参考负采样的相关技术。

具体的，使用用户u的训练兴趣点序列中访问时间最晚的兴趣点设置为标准正样本，对所有兴趣点进行负采样，生成正负样本对其中表示正样本，表示负样本。按照以下损失函数loss优化网络：

步骤25：利用反向传播算法对时空兴趣点推荐网络进行网络优化，直至损失值收敛时，利用损失值收敛时对应的访问预测值生成兴趣点推荐序列。

可以理解的是，确定损失值是否收敛需要确定收敛区间。本发明实施例并不限定具体的收敛区间，用户可根据实际应用需求进行设定。

在利用访问预测值生成兴趣点推荐序列时，优选地，可以利用访问预测值按从大到小的顺序对兴趣点推荐序列中的兴趣点进行排列，以确保后续在与用户进行对话的过程中能够优先为用户推荐访问预测值较大的兴趣点。进一步，本发明实施例并不限定生成兴趣点推荐序列所利用的兴趣点，是否为该用户未访问过的兴趣点。当需要考虑向用户推荐访问过的兴趣点，以使用户再次访问该兴趣点时，生成兴趣点推荐序列所利用的兴趣点可同时包含用户访问过的及未访问过的兴趣点；当需要避免反复推荐时，以提升推荐结果的新颖性时，也可只利用用户未访问过的兴趣点。在本发明实施例中，为了避免反复推荐，可只使用该用户未访问的兴趣点。本发明实施例并不限定获取用户未访问的兴趣点的方法，在一种可能的情况中，可取包含所有兴趣点的总集合相对于历史交互序列对应的历史兴趣点集合的差集得到用户为访问的兴趣点。

需要说明的是，本发明实施例并不限定利用反向传播算法进行网络优化的具体过程，用户可参考对深度学习神经网络进行网络优化的相关技术。

S103、当接收到用户发送的对话推荐请求时，确定接收时间及接收时间在一天中对应的预设时间段，并利用预设时间段、兴趣点推荐序列及访问预测值生成对话状态。

对话状态为时空策略网络进行强化学习的一种向量参数。在对话推荐中，需要由用户首先向对话推荐系统发起询问，以使对话推荐系统进行对话推荐。在本发明实施例中，考虑到用户会在一天中不同的预设时间段访问不同类型的兴趣点，例如在午饭对应的时间段会主要访问带有饭店类型的兴趣点，因此本方法在为时空策略网络生成对话状态时，还考虑了用户发起对话的时间段，并结合历史访问时间共同生成对话状态，可进一步提升兴趣点推荐的准确度。需要说明的是，本发明实施例并不限定具体的预设时间段及时间段数值，可根据实际应用需求进行设置，例如可以包含表示上午的时间段(例如每日0点至12点)，及包含表示下午的时间段(例如每日的12点至次日0点)，当然也可以包含表示早晨、上午、中午、下午、傍晚、晚上、深夜、凌晨的时间段，需要说明的是，本发明实施例并不限定用户进行对话推荐的具体方式。

进一步，在对话推荐中，对话推荐系统将会向用户发送表示询问偏好属性的询问请求，以收集用户对兴趣点的偏好属性，并利用该属性对兴趣点推荐序列进行更新筛选，以及对策略网络进行动态学习，其中，属性可表示兴趣点的特征，例如饭店、景点等。由于兴趣点可带有多种属性，例如对于一个带有饭店属性的兴趣点，还可带有具体的菜系属性，例如粤菜、川菜等，因此在本发明实施例中，兴趣点可带有由一种或多种属性组成的属性集合。需要说明的是，本发明实施例并不限定属性之间的组织方式，属性之间可不具有层级结构，又或是具有层级结构，例如饭店属性中可包括粤菜、川菜等菜系属性，即饭店属性与菜系属性构成层级结构。本发明实施例也不限定对话推荐系统向用户询问偏好的属性的对话方式，例如可采用二进制对话方式，也可采用枚举制对话方式，其中二进制对话方式为：对话推荐系统在每一询问环节中，向用户发送单个属性，并由用户选择接受或是拒绝，每一询问环节中提问的属性之间并不存在层级结构；枚举制对话为：对话推荐系统使用具有层级结构的属性进行提问，其中对话推荐系统将会询问高层级属性，并向用户提供该高层级属性的所有次级属性，由用户选择接受或是拒绝；当用户选择接受时，用户端返回的反馈信息将同时包含高层级属性及用户选择的次级属性，当用户拒绝时，用户端返回的反馈信息将同时拒绝该高层级属性及其所包含的所有次级属性。例如对于上述具有层级结构的属性饭店和菜系，对话推荐系统首先会询问饭店属性，并向用户发送次级属性菜系，例如川菜饭店、粤菜饭店，由用户进行选择或拒绝；若用户接受川菜饭店，用户端返回的反馈信息将包含接收饭店属性及菜系属性中的川菜属性，反之反馈信息中将同时拒绝饭店属性及菜系属性。

进一步，在对话推荐中，对话推荐系统需要首先接收用户选择的一个偏好的属性，以进行强化学习。在本发明实施例中，用户发送的对话推荐请求可以为上述需要由用户发送的首个属性，当然也可以为其他形式的请求。可以理解的是，当对话推荐请求为其他形式时，对话推荐系统可将所有属性发送给用户，由用户从中选择一个偏好的属性，以进行强化学习。

进一步，本发明实施例并不限定对话状态中可包含的具体内容，例如可包含利用预设时间段计算的、表示时间特征的时间状态，也可以计算推荐的兴趣点与用户访问过的兴趣点在地理位置上的相似度，并包含表示该相似度的空间状态，也可以包含可用于选取用户偏好属性的属性预测状态，也可以包含量化兴趣点所包含属性信息熵的属性熵状态。

优选地，利用预设时间段及兴趣点推荐序列生成对话状态的过程，可以包括：

步骤41：将兴趣点推荐序列中前预设数量的兴趣点作为推荐兴趣点。

为了节省计算量，可从已完成排序的兴趣点推荐序列中选择前预设数量的兴趣点作为推荐兴趣点，以提升推荐兴趣点的代表性。需要说明的是，本发明实施例并不限定预设数量的具体数值，可根据实际应用需求进行设置。

步骤42：利用推荐兴趣点所包含的属性计算属性熵，并将属性熵设置为属性熵状态。

属性熵为信息熵，信息熵为消除信息不确定性的一种估量，在本发明实施例中可将属性熵状态记为S_st-ent。属性熵的计算方法与对话系统空向用户询问偏好的对话方式有关，当采用二进制对话方式时，属性熵的计算方式如下：

-p₁ logp₁-p₂ logp₂

其中，p₁表示某一属性在推荐兴趣点中出现的次数，与推荐兴趣点所包含的所有属性的数量的比例，p₂＝1-p₁。当采用枚举值对话时，对同属于一个层级结构的属性，首先利用上述属性熵的计算公式，为该层级结构中最底层属性的计算最底层属性熵，然后对最底层属性熵进行求和，得到次底层属性的次底层属性熵；反复执行上述过程，直至完成该层级结构中所有属性熵的计算。

步骤43：利用推荐兴趣点的访问预测值，为推荐兴趣点所包含的属性计算属性预测值，并将属性预测值设置为属性预测状态。

需要说明的是，属性预测状态的计算方法，与对话推荐系统向用户询问偏好的属性的对话方式有关，当采用二进制对话方式时，可首先将推荐兴趣点的访问预测值设置为属性的初始属性预测值，并利用该属性的所有初始属性预测值进行平均值计算，得到该属性预测值；当采用枚举值对话方式，对同属于一个层级结构的属性，首先将推荐兴趣点的访问预测值设置为该层级结构中最底层属性的初始属性预测值，并对最底层属性的初始属性预测值进行平均值计算，得到最底层属性的属性预测值，然后将同属于一个次底层属性的最底层属性的属性预测值进行平均值计算，得到次底层属性的属性预测值，最后对次底层属性的上级属性执行与次底层属性相同的计算方式，直至完成该层级结构中所有属性预测值的计算。

当然，在计算得到属性预测值之后，也可以利用Tanh函数进行缩放，以平衡属性预测值之间的差异。在一种可能的情况中，可将属性预测状态记为S_st-pre。

步骤44：利用推荐兴趣点的地理位置信息及训练兴趣点序列包含的地理位置信息生成空间状态。

具体的，利用训练兴趣点序列包含的地理位置信息计算训练兴趣点的平均位置坐标信息和位置方差并计算推荐兴趣点的平均位置坐标信息和位置方差最后对上述信息进行向量拼接得到空间状态S_spatial：

其中，表示向量拼接操作。

步骤45：利用训练兴趣点序列中在预设时间段内被访问的兴趣点的所包含的属性以及推荐兴趣点所包含的属性计算时间状态。

具体的，假设是用户u寻求兴趣点推荐的时刻。根据u访问的预设时间段(例如上午或下午)，计算训练兴趣点序列中在此时间段被访问的兴趣点的属性占所有属性的比例，并记为f_his。计算推荐兴趣点序列V_cand中前k个兴趣点(即推荐兴趣点)所包含的属性占所有属性的比例，并记为f_cand。计算f_his和f_cand的余弦相似度记作cos_{his_cand}。如果用户在某一时间段经常访问具有某一属性的兴趣点，那么应该在此时间段对这个属性提问。使用作为时间状态S_temporal。

步骤46：将属性熵状态、属性预测状态、空间状态及时间状态设置为对话状态。

除此之外，为了根据用户在对话推荐中的执行动作进行记录，并动态技术剩余的推荐兴趣点，在本发明实施例中，对话状态还可以包括：S_his对话历史状态，用于利用特殊预设值记录用户的对话历史。在一种可能的情况中，用户的对话动作可包括：接受兴趣点推荐、拒绝兴趣点推荐、接受属性询问及拒绝属性询问，此时可设置特殊预设值对上述四种对话动作进行记录。本发明实施例并不限定具体的特殊预设值，可根据实际应用需求进行设定。在一种可能的情况中，利用2表示接受兴趣点推荐，利用-1表示拒绝兴趣点推荐，利用1表示接受属性询问，利用0表示拒绝属性询问。对话状态还可以包括：S_len推荐兴趣点序列长度状态，其内容为推荐兴趣点序列长度的二进制编码。

S104、将对话状态输入时空策略网络中进行强化学习，向用户进行对话推荐。

在生成对话状态后，便可将对话状态输入时空策略网络中进行强化学习，以与用户进行对话推荐。时空策略网络会利用对话状态，计算出此轮对话中最佳的动作决策，并根据动作决策与用户进行对话推荐。本发明实施例并不限定时空策略网络进行强化学习的具体过程，用户可参考深度强化学习的相关技术。

在一种可能的情况中，将对话状态输入时空策略网络中进行强化学习，向用户进行对话推荐的过程，可以包括：

步骤51：将对话状态输入时空策略网络中，并利用时空策略网络的预设策略梯度进行网络优化，生成动作决策。

具体的，可将时空策略网络记作π(a_t|s_t)，该策略网络把对话状态s_t映射到动作空间。在每一轮对话中，时空策略网络根据输出层的输出选择动作a_t并得到奖励r_t，其中奖励为：在某一轮对话中，时空策略网络根据用户的反馈信息，对选择动作a_t生成的正反馈或负反馈。需要说明的是，本发明并不限定具体的奖励类型，例如在一种可能的情况中，奖励可包括：推荐成功、推荐失败、提问成功、提问失败、用户退出和每一轮对话的负奖励。时空策略网络目标是使每次对话动作的期望总奖励最大。可以使用如下策略梯度来优化策略网络：

其中θ是策略网络的参数，α是学习率，R_t是从第t轮开始到结束的总折扣奖励：

其中γ是折扣率。

步骤52：利用动作决策向用户进行对话推荐。

具体地，利用动作决策向用户进行对话推荐的过程，可以包括：

步骤61：当动作决策为推荐时，将推荐的兴趣点发送至用户端，并接收用户端发送的反馈信息；

步骤62：若反馈信息为接受兴趣点时，退出对话推荐；

步骤63：若反馈信息为拒绝兴趣点时，从兴趣点推荐序列移除兴趣点，并利用完成移除的兴趣点推荐序列继续执行利用预设时间段及兴趣点推荐序列生成对话状态的步骤；

步骤64：当动作决策为向用户发送属性询问时，接收用户端的属性选择信息；

步骤65：利用属性选择信息对兴趣点推荐序列中的兴趣点进行验证，并移除验证失败的兴趣点，最后利用完成移除操作后的兴趣点推荐序列继续利用预设时间段及兴趣点推荐序列生成对话状态的步骤。

最后，为了避免对话推荐一直持续进行，可设置最大对话轮次，当对话轮次到达该最大对话轮次时自动退出对话推荐。

基于上述实施例，本方法首先利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列，并利用上述序列对时空兴趣点推荐网络进行训练，可确保时空兴趣点推荐网络同时兴趣点的地理位置因素及访问时间因素进行兴趣点推荐序列的生成；同时，本方法在生成对话状态时，还确定了接收到用户发送对话推荐请求的时间点，并利用该时间点所属的预设时间段与兴趣点推荐序列共同生成对话状态，可确保用户的历史访问时间因素与当前发起对话推荐的时间因素相结合，并进一步提升兴趣点推荐的准确性。

下面对本发明实施例提供的对话式兴趣点推荐装置、电子设备及存储介质进行介绍，下文描述的对话式兴趣点推荐装置、电子设备及存储介质与上文描述的对话式兴趣点推荐方法可相互对应参照。

请参考图2，图2为本发明实施例所提供的一种对话式兴趣点推荐装置的结构框图，该装置包括：

获取模块201，用于利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，历史访问序列中包含用户访问兴趣点的访问时间及兴趣点的地理位置信息；

推荐模块202，用于将所有兴趣点、训练兴趣点序列、时间训练序列及位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值；

对话状态生成模块203，用于当接收到用户发送的对话推荐请求时，确定接收时间及接收时间在一天中对应的预设时间段，并利用预设时间段、兴趣点推荐序列及访问预测值生成对话状态；

对话模块204，用于将对话状态输入时空策略网络中进行强化学习，向用户进行对话推荐。

可选地，推荐模块202，包括：

嵌入层子模块，用于将所有兴趣点及训练兴趣点序列输入时空兴趣点推荐网络的嵌入层，生成所有兴趣点对应的总嵌入矩阵及训练兴趣点序列对应的输入矩阵；

时空权重子模块，用于将时间训练序列及位置训练序列输入时空兴趣点推荐网络的时空权重块，生成时空权重矩阵；

自注意子模块，用于将输入矩阵及时空权重矩阵输入时空兴趣点推荐网络的自注意块中进行特征学习，生成每一访问时间对应的学习向量；

预测子模块，用于利用学习向量与兴趣点向量输入时空兴趣点推荐网络的预测层计算兴趣点在访问时间的访问预测值，并将访问预测值输入损失函数中计算损失值；

网络优化子模块，用于利用反向传播算法对时空兴趣点推荐网络进行网络优化，直至损失值收敛时，利用损失值收敛时对应的访问预测值生成兴趣点推荐序列。

可选地，预测子模块，可以包括：

负采样单元，用于将训练兴趣点序列中访问时间最晚的兴趣点设置为标准正样本，并利用标准正样本对所有兴趣点进行负采样，将被用户访问过的兴趣点设置为正样本，将未被用户访问过的兴趣点设置为负样本；

损失值计算单元，用于分别将正样本的访问预测值与负样本的访问预测值输入损失函数计算损失值。

可选地，对话模块204，可以包括：

动作决策生成子模块，用于将对话状态输入时空策略网络中，并利用时空策略网络的预设策略梯度进行网络优化，生成动作决策；

对话推荐子模块，用于利用动作决策向用户进行对话推荐。

可选地，对话推荐子模块，包括：

第一对话单元，用于当动作决策为推荐时，将推荐的兴趣点发送至用户端，并接收用户端发送的反馈信息；

第一处理单元，用于若反馈信息为接受兴趣点时，退出对话推荐；

第二处理单元，用于若反馈信息为拒绝兴趣点时，从兴趣点推荐序列移除兴趣点，并利用完成移除的兴趣点推荐序列继续执行利用预设时间段及兴趣点推荐序列生成对话状态的步骤；

第二对话单元，用于当动作决策为向用户发送属性询问时，接收用户端的属性选择信息；

第三处理单元，用于利用属性选择信息对兴趣点推荐序列中的兴趣点进行验证，并移除验证失败的兴趣点，最后利用完成移除操作后的兴趣点推荐序列继续利用预设时间段及兴趣点推荐序列生成对话状态的步骤。

可选地，获取模块201，包括：

兴趣点数量确定子模块，用于确定历史访问序列中包含兴趣点的数量；

第一序列生成子模块，用于当数量小于预设数值时，则利用历史访问序列中的兴趣点生成训练兴趣点序列，并利用预设兴趣点对训练兴趣点序列进行补充，直至训练兴趣点序列包含的兴趣点数量达到预设数值；

第二序列生成子模块，用于当数量大于等于预设数值时，则利用历史访问序列中前预设数值的兴趣点生成训练兴趣点序列；

第三序列生成子模块，用于利用训练兴趣点序列包含的访问时间及地理位置信息，生成时间训练序列及位置训练序列。

可选地，对话状态生成模块203，可以包括：

推荐兴趣点设置子模块，用于将兴趣点推荐序列中前预设数量的兴趣点作为推荐兴趣点；

属性熵状态设置子模块，用于利用推荐兴趣点所包含的属性计算属性熵，并将属性熵设置为属性熵状态；

属性预测状态设置子模块，用于利用推荐兴趣点的访问预测值，为推荐兴趣点所包含的属性计算属性预测值，并将属性预测值设置为属性预测状态；

空间状态设置子模块，用于利用推荐兴趣点的地理位置信息及训练兴趣点序列包含的地理位置信息生成空间状态；

时间状态设置子模块，用于利用所述训练兴趣点序列中在所述预设时间段内被访问的兴趣点所包含的属性以及所述推荐兴趣点所包含的属性计算时间状态；

对话状态设置子模块，用于将属性熵状态、属性预测状态、空间状态及时间状态设置为对话状态。

基于上述实施例，请参考图3，图3为本发明实施例所提供的时空对话推荐系统的结构框图。在本发明实施例提供的时空对话推荐系统(STCRS，Spatio-TemporalConversational Recommendation System)中，Spatio-Temporal POI RecommendationModule为时空兴趣点推荐网络模块，用于实现上述实施例中获取模块201、推荐模块202及对话状态生成模块203的功能，其中的Embedding Layer为嵌入层，Spatio-Temporalweight block为时空权重块，Self-attention block为自注意块，Prediction layer为预测块；Spatio-Temporal Policy Network Module为时空策略网络模块，用于实现上述实施例中对话模块204的功能，User Simulator为用于测试时空对话推荐系统的用户模拟器，在实际应用中为用户端。

本发明实施例还提供一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现如上述的对话式兴趣点推荐方法的步骤。

由于电子设备部分的实施例与对话式兴趣点推荐方法部分的实施例相互对应，因此电子设备部分的实施例请参见对话式兴趣点推荐方法部分的实施例的描述，这里暂不赘述。

本发明实施例还提供一种存储介质，存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任意实施例的对话式兴趣点推荐方法的步骤。

由于存储介质部分的实施例与对话式兴趣点推荐方法部分的实施例相互对应，因此存储介质部分的实施例请参见对话式兴趣点推荐方法部分的实施例的描述，这里暂不赘述。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

以上对本发明所提供的对话式兴趣点推荐方法、装置、电子设备及存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种对话式兴趣点推荐方法，其特征在于，包括：

利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列；其中，所述历史访问序列中包含所述用户访问所述兴趣点的访问时间及所述兴趣点的地理位置信息；

2.根据权利要求1所述的对话式兴趣点推荐方法，其特征在于，所述将所有所述兴趣点、所述训练兴趣点序列、所述时间训练序列及所述位置训练序列输入时空兴趣点推荐网络中进行训练，生成兴趣点推荐序列及访问预测值，包括：

3.根据权利要求2所述的对话式兴趣点推荐方法，其特征在于，所述将所述访问预测值输入损失函数中计算损失值，包括：

4.根据权利要求1所述的对话式兴趣点推荐方法，其特征在于，所述将所述对话状态输入时空策略网络中进行强化学习，向所述用户进行对话推荐，包括：

将所述对话状态输入所述时空策略网络中，并利用所述时空策略网络的预设策略梯度进行网络优化，生成动作决策；

利用所述动作决策向所述用户进行对话推荐。

5.根据权利要求4所述的对话式兴趣点推荐方法，其特征在于，所述利用所述动作决策向所述用户进行对话推荐，包括：

若所述反馈信息为接受所述兴趣点时，退出所述对话推荐；

若所述反馈信息为拒绝所述兴趣点时，从所述兴趣点推荐序列移除所述兴趣点，并利用完成移除的兴趣点推荐序列继续执行所述利用所述预设时间段及所述兴趣点推荐序列生成对话状态的步骤；

6.根据权利要求1所述的对话式兴趣点推荐方法，其特征在于，所述利用用户访问兴趣点的历史访问序列生成训练兴趣点序列、时间训练序列及位置训练序列，包括：

确定所述历史访问序列中包含兴趣点的数量；

当所述数量大于等于所述预设数值时，则利用所述历史访问序列中前所述预设数值的兴趣点生成所述训练兴趣点序列；

7.根据权利要求1至6任一项所述的对话式兴趣点推荐方法，其特征在于，所述利用所述预设时间段、所述兴趣点推荐序列及所述访问预测值生成对话状态，包括：

8.一种对话式兴趣点推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的对话式兴趣点推荐方法。

10.一种存储介质，其特征在于，所述存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器加载并执行时，实现如权利要求1至7任一项所述的对话式兴趣点推荐方法。