CN110458663B

CN110458663B - 一种车辆推荐方法、装置、设备及存储介质

Info

Publication number: CN110458663B
Application number: CN201910721939.XA
Authority: CN
Inventors: 李斓; 朱思涵; 罗欣
Original assignee: Shanghai Xinwin Information Technology Co Ltd
Current assignee: Shanghai Lexiang Sijin Technology Co.,Ltd.
Priority date: 2019-08-06
Filing date: 2019-08-06
Publication date: 2020-06-02
Anticipated expiration: 2039-08-06
Also published as: CN110458663A

Abstract

本发明实施例公开了一种车辆推荐方法、装置、设备及存储介质。该方法包括：获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；将用户特征向量和车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据DDPG模型的输出结果确定当前用户对所述待推荐车辆产生交互行为的行为预测得分；根据各待推荐车辆对应的行为预测得分，对各待推荐车辆进行排序，并基于排序结果向当前用户进行车辆推荐。本发明实施例的技术方案能够在车辆推荐过程中针对用户反馈对推荐内容加以调整，提高了推荐车辆与用户的匹配度，进而提升了用户的使用体验。

Description

一种车辆推荐方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种车辆推荐方法、装置、设备及存储介质。

背景技术

共享经济作为一种新的经济形态，通过共享平台这一信息载体与用户进行高频交互，通过共享平台暂时转移供给方闲置资源，提高资产利用率，为需求方创造价值。

现有技术在共享租车平台中进行推荐和搜索时，通常根据用户的喜好，并基于日志和经验信息进行车辆信息排行展示。然而，上述方式无法及时根据用户反馈调整优化逻辑，缺乏一定的探索性，使得推荐信息与用户匹配度较差，降低了用户体验。

发明内容

本发明提供一种车辆推荐方法、装置、设备及存储介质，以提高推荐车辆与用户之间的匹配度，进而提升用户体验。

第一方面，本发明实施例提供了一种车辆推荐方法，包括：

获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；

将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分；

根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

第二方面，本发明实施例还提供了一种车辆推荐装置，包括：

特征向量获取模块，用于获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；

行为预测得分确定模块，用于将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分；

车辆推荐模块，用于根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

第三方面，本发明实施例还提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面实施例所提供的一种车辆推荐方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如第一方面实施例提供的一种车辆推荐方法。

本发明实施例通过获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；将用户特征向量和车辆特征向量作为智能体状态向量输入至预先训练好的DDPG(Deep Deterministic Policy Gradient，深度确定性策略梯度模型)模型中，根据DDPG模型的输出结果确定当前用户对待推荐车辆产生交互行为的行为预测得分；根据各待推荐车辆对应的行为预测得分，对各待推荐车辆进行排序，并基于排序结果向当前用户进行车辆推荐。上述技术方案通过将用户特征向量和车辆特征向量作为智能体状态向量，应用在训练好的DDPG模型中，进而根据DDPG的模型输出结果进行车辆推荐，通过DDPG模型的使用，使得在车辆推荐过程中能够针对用户反馈对推荐内容加以调整，提高了推荐车辆与用户的匹配度，进而提升了用户的使用体验。

附图说明

图1是本发明实施例一中的一种车辆推荐方法的流程图；

图2是本发明实施例二中的一种车辆推荐方法的流程图；

图3是本发明实施例三中的一种车辆推荐方法的流程图；

图4A是本发明实施例四中的一种车辆推荐方法；

图4B是本发明实施例四中的一种DDPG模型整体架构示意图；

图4C是本发明实施例四中的一种DDPG模型计算流程示意图；

图4D是本发明实施例四中的一种DDPG模型使用示意图；

图5是本发明实施例五中的一种车辆推荐装置的结构图；

图6是本发明实施例六中的一种电子设备的结构图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一中的一种车辆推荐方法的流程图，本发明实施例适用于在共享租车平台中向用户进行车辆推荐的情况，该方法由车辆推荐装置执行，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，其中电子设备可以是服务器或个人电脑。

如图1所示的一种车辆推荐方法，包括：

S110、获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量。

其中，用户特征特征向量用于表征不同用户对应的特征信息，以对不同用户加以区分。示例性地，用户对应的特征信息可以是用户的性别、年龄等基本属性信息，还可以是住址、以及职业等附加属性信息。

其中，车辆特征向量用于表征不同车辆对应的特征信息，以对不同类型的车辆加以区分。示例性地，车辆对应的特征信息可以是车型、颜色、排量、以及座位数等属性信息的至少一种。

示例性地，用户特征向量可以预先存储在电子设备本地、与电子设备所关联的其他存储设备或云端中；相应的，获取当前用户的用户特征向量，可以是从电子设备本地、与电子设备所关联的其他存储设备或云端中进行与当前用户相对应的用户特征向量的获取。

可选的，确定待推荐车辆的车辆特征向量，可以预先将当前用户在先产生过诸如浏览、收藏、下单、点击、或分享等交互行为的车辆作为待推荐车辆；并进行当前用户对应的待推荐车辆的车辆特征向量的获取。其中，车辆特征向量可以预先存储在电子设备本地、与电子设备相关联的其他存储设备或云端中；相应的，在进行车辆特征向量的获取时，从电子设备本地、与电子设备相关联的其他存储设备或云端进行查找获取。

在本发明实施例的另一可选实施方式中，确定待推荐车辆的车辆特征向量，还可以是根据当前用户的用户特征向量，确定与当前用户对应的多个待推荐车辆。示例性地，可以采用协同过滤算法，确定与当前用户的用户特征向量相对应的多个待推荐车辆。可以理解的是，待推荐车辆的数量可以由技术人员根据用户需要或经验值进行确定。

S120、将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分。

其中，DDPG模型用于针对不同用户对应的智能体状态向量，对用户对智能体状态向量所对应的各待推荐车辆产生交互行为的行为意愿进行预测，得到行为预测得分。其中，智能体状态向量包括用户特征向量和各待推荐车辆对应的车辆特征向量。

其中，交互行为可以是点击行为、分享行为、收藏行为以及下单行为中的至少一种。

在该步骤中，将当前用户的用户特征向量和车辆特征向量作为智能体状态向量，输入预先训练好的DDPG模型中，并将模型输出结果作为行为预测得分。其中，待推荐车辆的行为预测得分越高，表明用户对该待推荐车辆产生交互行为的可能性越大。

S130、根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

根据行为预测得分由大到小的顺序，对各待推荐车辆按照进行排序；按照设定推荐规则，基于排序结果向当前用户进行车辆推荐。

示例性地，按照设定推荐规则，基于排序结果向当前用户进行车辆推荐，可以是选取排序结果中排序最前的设定数量的待推荐车辆，和/或选取行为预测得分大于设定得分阈值的待推荐车辆；将选取的待推荐车辆按照排序顺序进行车辆推荐。

本发明实施例通过获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；将用户特征向量和车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据DDPG模型的输出结果确定当前用户对待推荐车辆产生交互行为的行为预测得分；根据各待推荐车辆对应的行为预测得分，对各待推荐车辆进行排序，并基于排序结果向当前用户进行车辆推荐。上述技术方案通过将用户特征向量和车辆特征向量作为智能体状态向量，应用在训练好的DDPG模型中，进而根据DDPG的模型输出结果进行车辆推荐，通过DDPG模型的使用，使得在车辆推荐过程中能够针对用户反馈对推荐内容加以调整，提高了推荐车辆与用户的匹配度，进而提升了用户的使用体验。

实施例二

图2是本发明实施例二中的一种车辆推荐方法的流程图，本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。

进一步地，在操作“将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中”之前，追加“对所述DDPG模型进行模型训练”；相应的，将操作“对所述DDPG模型进行模型训练”细化为“根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列；将各状态转移序列作为训练样本，对DDPG模型进行模型训练”，以完善DDPG模型的模型训练机制。

如图2所示的一种车辆推荐方法，包括：

S210、根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列。

示例性地，根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列，可以是：可以在预设时间段内对任一历史用户推荐车辆时，确定所述历史用户的智能体状态向量；其中，所述智能体状态向量包括所述历史用户的用户特征向量和与所述历史用户对应的候选推荐车辆的车辆特征向量；基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量，根据所述预估分数向量确定智能体动作向量；在根据所述候选推荐车辆的预估分数向量对所述候选推荐车辆进行排序并基于排序结果向所述历史用户进行车辆推荐后，根据所述历史用户对已推荐车辆的交互行为，确定反馈向量；根据所述智能体状态向量、所述智能体动作向量和所述反馈向量，采用设定形式组合得到与所述历史用户对应的状态转移序列。

可选的，确定所述历史用户的智能体状态向量，可以是：获取所述历史用户的用户特征向量；根据所述历史用户的用户特征向量确定与所述历史用户对应的多个候选推荐车辆；将所述用户特征向量和各所述候选推荐车辆的车辆特征向量进行组合，得到所述智能体状态向量。

示例性地，根据所述历史用户的用户特征向量确定与所述历史用户对应的多个候选推荐车辆，可以是预先将当前用户在先产生过诸如浏览、收藏、下单、点击、或分享等交互行为的车辆作为候选推荐车辆；根据历史用户的用户特征向量与候选推荐车辆之间的对应关系，进行多个候选推荐车辆的确定。或者，可选的，根据历史用户的用户特征向量确定与历史用户对应的多个候选推荐车辆，还可以是采用协同过滤算法，确定与历史用户的用户特征向量相对应的多个候选推荐车辆。可以理解的是，候选推荐车辆的数量可以由技术人员根据用户需要或经验值进行确定。

具体的，若历史用户的用户特征向量为user_feature，第i个候选推荐车辆的车辆特征向量为car_feature_i，候选推荐车辆的数量为N，那么，相应的，智能体状态向量s_t＝[user_feature,car_feature₁,car_feature₂,…,car_feature_N]。

可选的，基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量，可以是：针对各所述候选推荐车辆，将所述历史用户的用户特征向量和所述候选推荐车辆的车辆特征向量，输入至预先训练好的CTR(Click-Through Rate，点击率)预估模型，得到所述候选推荐车辆的预估分数向量。相应的，根据所述预估分数向量确定智能体动作向量，可以是直接将候选推荐车辆的预估分数向量作为智能体动作向量。

具体的，若第i个候选推荐车辆的预估分数为score_i，那么，智能体动作向量a_t＝[score₁,score₂,…,score_N]。

在CTR预估模型的模型训练阶段，预先将大量不同用户对应的用户特征向量，以及各用户的用户特征向量对应的候选推荐车辆的车辆特征向量作为训练样本输入至CTR预估模型中；根据不同用户特征向量对应的预估结果和实际结果对CTR预估模型中的模型参数进行调整，直至预估结果与实际结果之间的差值收敛，得到训练好的CTR预估模型。

可选的，基于排序结果向所述历史用户进行车辆推荐后，根据所述历史用户对已推荐车辆的交互行为，确定反馈向量，可以是在向历史用户进行车辆推荐后，以及下一次向历史用户进行车辆推荐前的时间段内，统计历史用户对已推荐车辆的交互行为，其中交互行为可以是点击行为、分享行为、收藏行为或下单行为；将统计结果作为反馈向量。若历史用户未产生交互行为，则相应的反馈向量的反馈值为0。其中，反馈向量用于作为奖励信号或惩罚信号，对用户对待推荐车辆的交互意愿进行正向或反向反馈，从而根据用户反馈调整优化策略。

可选的，根据所述智能体状态向量、所述智能体动作向量和所述反馈向量，采用设定形式组合得到与所述历史用户对应的状态转移序列，可以是：将所述智能体状态向量、所述智能体动作向量、所述反馈向量以及在下一次对所述历史用户进行车辆推荐时获得的智能体状态向量进行组合，得到所述状态转移序列。

具体的，将不同时刻对应的智能体状态向量s_t，智能体动作向量a_t，反馈向量r_t，以(s_t,a_t,r_t,s_t+1)的形式放入经验回放池R中以供采样。

例如，在一段时间的用户交互行为中，状态和车辆推荐榜单的单站可采用如下过程表示：s_t-1→a_t-1→r_t-1→s_t→a_t→r_t→s_t+1→a_t+1→r_t+1→s_t+2；

对上述序列进行滑动窗口采样，得到四元组序列(s_t-1,a_t-1,r_t-1,s_t)，(s_t,a_t,r_t,s_t+1)，以及(s_t+1,a_t+1,r_t+1,s_t+2)，方式如下：

(s_t-1→a_t-1→r_t-1→s_t)→a_t→r_t→s_t+1→a_t+1→r_t+1→s_t+2；

s_t-1→a_t-1→r_t-1→(s_t→a_t→r_t→s_t+1)→a_t+1→r_t+1→s_t+2；

s_t-1→a_t-1→r_t-1→s_t→a_t→r_t→(s_t+1→a_t+1→r_t+1→s_t+2)；

将得到的三个四元组序列作为样本放入经验回放池R，供DDPG模型训练时随机采样。

S220、将各状态转移序列作为训练样本，对DDPG模型进行模型训练。

DDPG模型包括策略网络(Actor)和价值网络(Critic)。其中策略网络输出动作，价值网络评判动作，各网络根据不同方式更新信息。典型的，策略网络通过梯度计算公式进行更新，而价值网络根据目标值进行更新。

首先，初始化策略网络μ(s_t|θ^μ)进行预训练，θ^μ为策略网络的参数，输入为智能体状态向量s_t，输出为估计的智能体动作向量

根据以下公式进行动作预测：

采用估计的智能体动作向量

作为进行车辆推荐，并获取用户对推荐结果的反馈向量。

其次，随机从经验回放池R中采样N条样本(s_i,a_i,r_i,s_i+1)组成一个训练子集(minibatch)，计算价值网络的输出y_i；

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')θ^Q')；

其中，γ为衰变系数，θ^Q为价值网络的参数。

然后，通过最小化损失函数Loss，更新价值网络：

Loss＝Σ(y_i-Q(s_i，a_i|θ^Q))²；

再者，计算策略梯度更新策略网络策略：

其中，J(μ)为目标函数。

采用上述方式对DDPG模型进行训练并对模型中的相应参数加以调整，直至DDPG模型稳定且模型精度满足设定要求。

S230、获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量。

S240、将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分。

S250、根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

本发明实施例通过在将用户特征向量和车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中之前，追加对DDPG模型的模型训练步骤，并具体根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各历史用户对应的状态转移序列；将各状态转移序列作为训练样本，对DDPG模型进行模型训练，完善了DDPG模型的模型训练机制，为基于当前用户的用户特征向量和待推荐车辆的车辆特征向量，向当前用户进行车辆推荐奠定了基础。

实施例三

图3是本发明实施例三中的一种车辆推荐方法的流程图，本发明实施例在上述各实施例的技术方案的基础上进行了优化改进。

进一步地，在操作“根据各所述待推荐车辆对应的所述行为预测得分对各所述待推荐车辆进行排序”之前，追加“将所述当前用户的用户特征向量和所述待推荐车辆的车辆特征向量，输入至预先训练好的分数预估模型，根据所述分数预估模型的输出结果得到所述待推荐车辆对应的参考预测得分；根据预设加权系数和所述待推荐车辆对应的参考预测得分以及所述行为预测得分，确定所述待推荐车辆对应的最终预测得分”；相应的，将操作“根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序”细化为“根据各所述待推荐车辆对应的所述最终预测得分，对各所述待推荐车辆进行排序”，以进一步提高推荐车辆与用户之间的匹配度。

如图3所示的一种车辆推荐方法，包括：

S310、获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量。

S320、将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分。

S330、将所述当前用户的用户特征向量和所述待推荐车辆的车辆特征向量，输入至预先训练好的分数预估模型，根据所述分数预估模型的输出结果得到所述待推荐车辆对应的参考预测得分。

其中，分数预估模型的输入为用户特征向量和待推荐车辆的车辆特征向量，分数预估模型的输出结果为用户对待推荐车辆产生交互行为的参考预测得分。一般的，参数预测得分越高，表明用户对待推荐车辆产生交互行为的可能性越大。其中，交互行为可以是点击行为、分享行为、收藏行为或下单行为。

在分数预估模型的模型训练阶段，获取不同用户的用户特征向量和待推荐车辆的车辆特征向量作为训练样本输入至预设的分数预估模型中，根据模型输出结果与实际结果之间的差值调整分数预估模型的模型参数，以优化分数预估模型，直至模型输出结果与实际结果之间的差值收敛，得到训练好的分数预估模型。示例性地，分数预估模型可以是CTR预估模型。

S340、根据预设加权系数和所述待推荐车辆对应的参考预测得分以及所述行为预测得分，确定所述待推荐车辆对应的最终预测得分。

采用如下公式，确定第i个待推荐车辆对应的最终预测得分S_i：

其中，

为第i个待推荐车辆对应的行为预测得分，

为第i个待推荐车辆对应的参考预测得分，λ为预设加权系数。

可以理解的是，通过融合不同机器学习模型对当前用户对待推荐车辆产生交互行为的预测得分，使得对待推荐车辆的最终预测得分能够在不同层面考量用户特征向量与待推荐车辆之间的映射关系，进一步提高了最终预测得分与用户交互行为意愿之间的契合度，从而提升了所推荐车辆与用户之间的匹配度。

S350、根据各所述待推荐车辆对应的所述最终预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

本发明实施例通过在根据各待推荐车辆对应的行为预测得分对各待推荐车辆进行排序之前，追加采用训练好的分数预估模型基于当前用户的用户特征向量和待推荐车辆的车辆特征向量，确定各待推荐车辆对应的参考预测得分，并根据预设加权系数对待推荐车辆的预测参考得分以及行为预测得分加权，进行最终预测得分的确定，基于确定的最终预测得分进行待推荐车辆的排序和车辆推荐，实现了不同机器学习模型的预测得分的结合，进而能够在不同层面考量用户特征向量与待推荐车辆之间的映射关系，进一步提高了最终预测得分与用户交互行为意愿之间的契合度，从而提升了所推荐车辆与用户之间的匹配度。

在上述各实施例的技术方案的基础上，为了进一步提高推荐车辆与用户的匹配度，还可以在根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序之前，确定待推荐车辆与当前用户的目标地址之间的距离系数，以及确定各待推荐车辆的可租率；根据待推荐车辆对应的距离系数、以及可租率，分别更新各待推荐车辆对应的行为预测得分。相应的，根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，可以是根据各待推荐车辆对应的更新后的行为预测得分，对各待推荐车辆进行排序。

示例性地，确定待推荐车辆与当前用户的目标地址之间的距离系数，可以是：获取待推荐车辆的当前定位地址，并根据待推荐车辆的当前定位地址和当前用户的目标地址之间的距离，确定距离系数。

具体的，根据以下公式，确定距离系数d：

d＝e^-0.07x；

其中，x为待推荐车辆的当前定位地址和当前用户的目标地址之间的距离。

为了避免待推荐车辆的当前定位地址获取失败对车辆推荐过程带来影响，在获取不到待推荐车辆的当前定位地址时，可以直接将待推荐车辆所在城市的市中心地址作为当前定位地址。

示例性地，确定各待推荐车辆的可租率，可以是根据待推荐车辆在设定时间段内的可租天数，确定可租率。

具体的，根据以下公式，确定可租率ε：

ε＝0.1*N；

其中，N为待推荐车辆在十天以内的可租天数。

具体的，根据待推荐车辆对应的距离系数、以及可租率，分别更新各待推荐车辆对应的行为预测得分，可以采用以下公式加以实现：

其中，

为第i个待推荐车辆对应的行为预测得分；

为更新后的行为预测得分。

上述技术方案通过距离系数和可租天数对待推荐车辆的行为预测得分进行加权，能够优先向用户推荐距离较近且可租天数较长的车辆，进一步提升了所推荐车辆与用户之间的匹配度，从而提升用户租车过程的体验度。

实施例四

图4A是本发明实施例四中的一种车辆推荐方法，本发明实施例在上述各实施例的技术方案的基础上提供了一种优选实施方式。

如图4A所述的一种车辆推荐方法，包括：

S410、训练样本准备阶段；

S420、DDPG模型训练阶段；

S430、DDPG模型使用阶段。

结合图4B所示的DDPG模型整体架构示意图、图4C所示的DDPG模型计算流程示意图以及图4D所示的DDPG模型使用示意图对车辆推荐方法进行详细说明。

其中，在训练样本准备阶段，包括以下步骤：

S411、构造智能体状态向量s_t；

具体的，获得历史用户的用户特征向量(包括性别以及年龄等)，返回[user_feature]；使用协同过滤算法获得对应该历史用户的用户特征向量的N辆候选推荐车辆，并将各候选推荐车辆的车辆特征向量(包括车型、颜色、以及排量等)，返回[car_feature₁,car_feature₂,…,car_feature_N]；将历史用户的用户特征向量和候选推荐车辆的车辆特征向量拼接组合，得到智能体状态向量s_t＝[user_feature,car_feature₁,car_feature₂,…,car_feature_N]。

S412、构造智能体动作向量a_t；

具体的，使用基于深度学习的CTR预估模型f(；θ)对N辆候选推荐车辆进行打分：

score_i＝sigmoid(f(car_feature_i；θ))；

将N辆车的分数向量作为智能体动作向量a_t用于进行DDPG模型中策略网络的预训练：

a_t＝[score₁,score₂,…,score_N]。

S413、构造反馈向量r_t；

通过每轮推荐榜单展示给用户进行车辆推荐后，在下一轮推荐榜单展示前，根据用户对榜单中已推荐车辆的行为反馈信息，计算反馈值，得到反馈向量：

r_t＝两轮榜单展示之间，用户对推荐列表中的车辆产生交互行为的交互次数；

若无交互，则r_t＝0。其中，交互行为包括点击行为、分享行为、收藏行为或下单行为。

S414、采样状态转移序列；

(s_t-1→a_t-1→r_t-1→s_t)→a_t→r_t→s_t+1→a_t+1→r_t+1→s_t+2；

s_t-1→a_t-1→r_t-1→(s_t→a_t→r_t→s_t+1)→a_t+1→r_t+1→s_t+2；

s_t-1→a_t-1→r_t-1→s_t→a_t→r_t→(s_t+1→a_t+1→r_t+1→s_t+2)；

其中，在DDPG模型训练阶段，包括：

S421、训练策略网络，进行动作预测；

初始化策略网络μ(s_t|θ^μ)进行预训练，θ^μ为策略网络的参数，输入为智能体状态向量s_t，输出为估计的智能体动作向量

根据以下公式进行动作预测：

采用估计的智能体动作向量

作为进行车辆推荐，并获取用户对推荐结果的反馈向量。

S422、采样经验回放池中的状态转移序列，更新价值网络；

随机从经验回放池R中采样N条样本(s_i,a_i,r_i,s_i+1)组成一个训练子集(minibatch)，计算价值网络的输出y_i；

y_i＝r_i+γQ'(s_i+1,μ'(s_i+1|θ^μ')θ^Q')；

其中，γ为衰变系数，θ^Q为价值网络的参数。

S423、最小化损失函数，更新价值网络；

根据如下公式确定损失函数：

Loss＝Σ(y_i-Q(s_i，a_i|θ^Q))²。

S424、计算策略梯度，更新策略网络。

根据如下公式进行策略梯度的计算：

其中，J(μ)为目标函数。

其中，在DDPG模型使用阶段，包括：

S431、构造智能体状态向量s_t；

获取当前用户的用户特征向量(包括性别以及年龄等)，返回[user_feature]；使用协同过滤算法获得对应该当前用户的用户特征向量的N辆候选推荐车辆，并将各候选推荐车辆的车辆特征向量(包括车型、颜色、以及排量等)，返回[car_feature₁,car_feature₂,…,car_feature_N]；将历史用户的用户特征向量和候选推荐车辆的车辆特征向量拼接组合，得到智能体状态向量s_t＝[user_feature,car_feature₁,car_feature₂,…,car_feature_N]。

S432、使用DDPG模型，进行打分；

将智能体状态向量s_t输入训练好的DDPG模型，得到各待推荐车辆的预测得分

S433、对DDPG模型的打分结果进行更新；

根据以下公式，确定当前用户与待推荐车辆的距离系数d：

d＝e^-0.07x；

根据以下公式，确定待推荐车辆的可租率ε：

ε＝0.1*N；

其中，N为待推荐车辆在十天以内的可租天数。

根据以下公式，对DDPG模型的打分结果进行更新；

其中，

为更新后的DDPG模型的打分结果。

需要说明的是，在进行可租率计算时，可租天数可以采用以下方式计算：当天可租时间不小于8小时，则可租天数记为1天；当前可租时间小于8小时按照可租时长向上取整后的值与8的比值计算，可累积。其中，可租时间为出去车主设置的车辆不可租时间和车辆已出租时间，其余时间均可租时间(不考虑不便交接车时间)。

S434、使用CTR预估模型，进行打分；

将智能体状态向量s_t输入训练好的CTR预估模型，得到各待推荐车辆的预测得分

S435、对两个模型打分加权，并进行排序展示；

其中，

为更新后的第i个待推荐车辆对应的DDPG模型的打分结果，

为第i个待推荐车辆对应的CTR预估模型的打分结果，λ为预设加权系数。

根据加权后的得分对待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

实施例五

图5是本发明实施例五中的一种车辆推荐装置的结构图，本发明实施例适用于在共享租车平台中向用户进行车辆推荐的情况，该装置采用软件和/或硬件实现，并具体配置于具备一定数据运算能力的电子设备中，其中电子设备可以是服务器或个人电脑。

如图5所示的一种车辆推荐装置，包括：特征向量获取模块510，行为预测得分确定模块520，以及车辆推荐模块530。

其中，特征向量获取模块510，用于获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；

行为预测得分确定模块520，用于将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分；

车辆推荐模块530，用于根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

本发明实施例通过特征向量获取模块获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；通过行为预测得分确定模块将用户特征向量和车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据DDPG模型的输出结果确定当前用户对待推荐车辆产生交互行为的行为预测得分；通过车辆推荐模块根据各待推荐车辆对应的行为预测得分，对各待推荐车辆进行排序，并基于排序结果向当前用户进行车辆推荐。上述技术方案通过将用户特征向量和车辆特征向量作为智能体状态向量，应用在训练好的DDPG模型中，进而根据DDPG的模型输出结果进行车辆推荐，通过DDPG模型的使用，使得在车辆推荐过程中能够针对用户反馈对推荐内容加以调整，提高了推荐车辆与用户的匹配度，进而提升了用户的使用体验。

进一步地，该装置还包括，模型训练模块，用于：

在将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中之前，对所述DDPG模型进行模型训练；

其中，模型训练模块，包括：

状态转移序列确定单元，用于根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列；

模型训练单元，用于将各状态转移序列作为训练样本，对DDPG模型进行模型训练。

进一步地，状态转移序列确定单元，包括：

智能体状态向量确定子单元，用于在预设时间段内对任一历史用户推荐车辆时，确定所述历史用户的智能体状态向量；其中，所述智能体状态向量包括所述历史用户的用户特征向量和与所述历史用户对应的候选推荐车辆的车辆特征向量；

智能体动作向量确定子单元，用于基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量，根据所述预估分数向量确定智能体动作向量；

反馈向量确定子单元，用于在根据所述候选推荐车辆的预估分数向量对所述候选推荐车辆进行排序并基于排序结果向所述历史用户进行车辆推荐后，根据所述历史用户对已推荐车辆的交互行为，确定反馈向量；

状态转移序列组合子单元，用于根据所述智能体状态向量、所述智能体动作向量和所述反馈向量，采用设定形式组合得到与所述历史用户对应的状态转移序列。

进一步地，智能体状态向量确定子单元，具体用于：

获取所述历史用户的用户特征向量；

根据所述历史用户的用户特征向量确定与所述历史用户对应的多个候选推荐车辆；

将所述用户特征向量和各所述候选推荐车辆的车辆特征向量进行组合，得到所述智能体状态向量。

进一步地，智能体动作向量确定子单元，在执行基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量时，具体用于：

针对各所述候选推荐车辆，将所述历史用户的用户特征向量和所述候选推荐车辆的车辆特征向量，输入至预先训练好的CTR预估模型，得到所述候选推荐车辆的预估分数向量。

进一步地，状态转移序列组合子单元，具体用于：

将所述智能体状态向量、所述智能体动作向量、所述反馈向量以及在下一次对所述历史用户进行车辆推荐时获得的智能体状态向量进行组合，得到所述状态转移序列。

进一步地，该装置还包括：

参考预测得分模块，用于在根据各所述待推荐车辆对应的所述行为预测得分对各所述待推荐车辆进行排序之前，将所述当前用户的用户特征向量和所述待推荐车辆的车辆特征向量，输入至预先训练好的分数预估模型，根据所述分数预估模型的输出结果得到所述待推荐车辆对应的参考预测得分；

最终预测得分确定模块，用于根据预设加权系数和所述待推荐车辆对应的参考预测得分以及所述行为预测得分，确定所述待推荐车辆对应的最终预测得分；

相应的，车辆推荐模块530，在执行根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序时，具体用于：

根据各所述待推荐车辆对应的所述最终预测得分，对各所述待推荐车辆进行排序。

进一步地，所述交互行为包括：点击行为、分享行为、收藏行为或下单行为。

上述车辆推荐装置可执行本发明任意实施例所提供的车辆推荐方法，具备执行车辆推荐方法相应的功能模块和有益效果。

实施例六

图6是本发明实施例六中的一种电子设备的结构图，该设备包括：输入装置610、输出装置620、处理器630以及存储装置640。

其中，输入装置610，用于获取当前用户的用户特征向量；

输出装置620，用于基于排序结果向所述当前用户进行车辆推荐；

一个或多个处理器630；

存储装置640，用于存储一个或多个程序。

图6中以一个处理器630为例，该电子设备中的输入装置610可以通过总线或其他方式与输出装置620、处理器630以及存储装置640相连，且处理器630和存储装置640也通过总线或其他方式连接，图6中以通过总线连接为例。

在本实施例中，电子设备中的处理器630可以控制输入装置610获取当前用户的用户特征向量；还可以确定待推荐车辆的车辆特征向量；还可以将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分；还可以根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序；还可以控制输出装置620基于排序结果向所述当前用户进行车辆推荐。

该电子设备中的存储装置640作为一种计算机可读存储介质，可用于存储一个或多个程序，所述程序可以是软件程序、计算机可执行程序以及模块，如本发明实施例中车辆推荐方法对应的程序指令/模块(例如，附图5所示的特征向量获取模块510，行为预测得分确定模块520，以及车辆推荐模块530)。处理器630通过运行存储在存储装置640中的软件程序、指令以及模块，从而执行电子设备的各种功能应用以及数据处理，即实现上述方法实施例中的车辆推荐方法。

存储装置640可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储数据等(如上述实施例中的用户特征向量、车辆特征向量、行为预测得分、以及待推荐车辆等)。此外，存储装置640可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储装置640可进一步包括相对于处理器630远程设置的存储器，这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例七

本发明实施例七还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被车辆推荐装置执行时实现本发明实施提供的车辆推荐方法，该方法包括：获取当前用户的用户特征向量，并确定待推荐车辆的车辆特征向量；将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中，根据所述DDPG模型的输出结果确定所述当前用户对所述待推荐车辆产生交互行为的行为预测得分；根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种车辆推荐方法，其特征在于，包括：

根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐；

其中，在将所述用户特征向量和所述车辆特征向量作为智能体状态向量输入至预先训练好的深度确定性策略梯度模型DDPG模型中之前，还包括：

对所述DDPG模型进行模型训练；

其中，对所述DDPG模型进行模型训练，包括：

根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列；

将各状态转移序列作为训练样本，对DDPG模型进行模型训练；

其中，根据多个历史用户在预设时间段内对已推荐车辆的交互行为信息，确定与各所述历史用户对应的状态转移序列，包括：

在预设时间段内对任一历史用户推荐车辆时，确定所述历史用户的智能体状态向量；其中，所述智能体状态向量包括所述历史用户的用户特征向量和与所述历史用户对应的候选推荐车辆的车辆特征向量；

基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量，根据所述预估分数向量确定智能体动作向量；

在根据所述候选推荐车辆的预估分数向量对所述候选推荐车辆进行排序，并基于排序结果向所述历史用户进行车辆推荐后，根据所述历史用户对已推荐车辆的交互行为，确定反馈向量；

根据所述智能体状态向量、所述智能体动作向量和所述反馈向量，采用设定形式组合得到与所述历史用户对应的状态转移序列。

2.根据权利要求1所述的方法，其特征在于，确定所述历史用户的智能体状态向量，包括：

获取所述历史用户的用户特征向量；

3.根据权利要求1所述的方法，其特征在于，基于分数预估模型分别确定各所述候选推荐车辆的预估分数向量，包括：

针对各所述候选推荐车辆，将所述历史用户的用户特征向量和所述候选推荐车辆的车辆特征向量，输入至预先训练好的点击通过率CTR预估模型，得到所述候选推荐车辆的预估分数向量。

4.根据权利要求1所述的方法，其特征在于，根据所述智能体状态向量、所述智能体动作向量和所述反馈向量，采用设定形式组合得到与所述历史用户对应的状态转移序列，包括：

5.根据权利要求1所述的方法，其特征在于，在根据各所述待推荐车辆对应的所述行为预测得分对各所述待推荐车辆进行排序之前，还包括：

将所述当前用户的用户特征向量和所述待推荐车辆的车辆特征向量，输入至预先训练好的分数预估模型，根据所述分数预估模型的输出结果得到所述待推荐车辆对应的参考预测得分；

根据预设加权系数和所述待推荐车辆对应的参考预测得分以及所述行为预测得分，确定所述待推荐车辆对应的最终预测得分；

相应的，根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述交互行为包括：点击行为、分享行为、收藏行为或下单行为。

7.一种车辆推荐装置，其特征在于，包括：

车辆推荐模块，用于根据各所述待推荐车辆对应的所述行为预测得分，对各所述待推荐车辆进行排序，并基于排序结果向所述当前用户进行车辆推荐；

所述装置还包括，模型训练模块，用于：

其中，模型训练模块，包括：

模型训练单元，用于将各状态转移序列作为训练样本，对DDPG模型进行模型训练；

其中，状态转移序列确定单元，包括：

8.一种电子设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-6任一项所述的一种车辆推荐方法。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-6任一项所述的一种车辆推荐方法。