CN111178944B

CN111178944B - 房源转化率的预测方法和装置、存储介质、设备

Info

Publication number: CN111178944B
Application number: CN201911292354.7A
Authority: CN
Inventors: 吴君彦
Original assignee: Seashell Housing Beijing Technology Co Ltd
Current assignee: Seashell Housing Beijing Technology Co Ltd
Priority date: 2019-12-16
Filing date: 2019-12-16
Publication date: 2023-05-05
Anticipated expiration: 2039-12-16
Also published as: CN111178944A

Abstract

本公开实施例公开了一种房源转化率的预测方法和装置、存储介质、设备，其中，方法包括：基于待处理数据集建立关系图；基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对房源发生转化的概率值；本实施例中通过用户向量描述该用户的房源偏好，通过房源向量描述房源的用户偏好，由于偏好的表达，提高了基于用户向量和房源向量预测的该用户对该房源发生转化的概率的准确率。

Description

房源转化率的预测方法和装置、存储介质、设备

技术领域

本公开涉及概率预测技术领域，尤其是一种房源转化率的预测方法和装置、存储介质、设备。

背景技术

在给用户推荐房源的场景中，可利用关系图，在关系图中将用户和房源当作图上节点，当用户浏览某个房源，则该用户节点与房源之间存在边；用户与房源组成的关系图能够反应用户的兴趣偏好，但是目前仍需要通过手动构造特征去描述用户偏好，无法直接从关系图上提取。

发明内容

为了解决上述技术问题，提出了本公开。本公开的实施例提供了一种房源转化率的预测方法和装置、存储介质、设备。

根据本公开实施例的一个方面，提供了一种房源转化率的预测方法，包括：

基于待处理数据集建立关系图；其中，所述待处理数据集中包括多条数据对，每条所述数据对中包括需要确定关系的一个用户和一个房源，所述关系图中每个所述用户与至少一个所述房源相连接；

基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；

基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值。

可选地，所述基于待处理数据集建立关系图，包括：

以所述待处理数据集中包括的每个用户和每个房源分别作为节点，得到多个节点；

针对所述待处理数据集中的每个所述用户，基于与所述用户存在关联关系的至少一个所述房源与所述用户之间的关联关系确定至少一条边；

基于针对所有所述用户对应的多条边连接所述多个节点，得到所述关系图。

可选地，所述以所述待处理数据集中包括的每个用户和每个房源分别作为节点，得到多个节点，包括：

基于所述待处理数据集中包括的每个用户的属性确定所述用户对应的用户特征向量，基于所述每个房源的属性确定所述房源对应的房源特征向量；

将每个所述用户特征向量和每个所述房源特征向量作为节点，得到多个节点。

可选地，所述基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量，包括：

针对所述待处理数据集中的每条数据对，基于所述关系图中与所述数据对中的用户存在关联关系的多个房源以及所述用户的属性，确定所述数据对中所述用户的用户向量；

基于所述关系图中与所述数据对中的房源存在关联关系的多个用户以及所述房源的属性，确定所述数据对中所述房源的房源向量。

可选地，所述基于所述关系图中所述数据对中的用户存在关联关系的多个房源以及所述用户的属性，确定所述用户的用户向量，包括：

基于所述关系图，获得以所述用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，所述奇数阶邻接点对应的节点为房源构成的节点；

基于所述奇数阶对应的所有邻接点对应的房源特征向量和基于所述用户的属性确定的用户特征向量，确定所述用户向量。

可选地，所述基于所述奇数阶对应的所有邻接点对应的房源特征向量和基于所述用户的属性确定的用户特征向量，确定所述用户向量，包括：

利用聚合函数对所述奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，

基于所述房源聚合向量和待学习参数矩阵，确定表达用户偏好的用户嵌入向量；其中，所述待学习参数矩阵基于训练获得；

对所述用户嵌入向量和所述用户特征向量进行拼接，得到所述用户向量。

可选地，所述基于所述关系图中所述数据对中的房源存在关联关系的多个用户以及所述房源的属性，确定所述房源的房源向量，包括：

基于所述关系图，获得以所述房源为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，所述奇数阶邻接点对应的节点为用户构成的节点；

基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量。

可选地，所述基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量，包括：

利用聚合函数对所述奇数阶对应的所有邻接点对应的用户特征向量进行处理，得到用户聚合向量；

基于所述用户聚合向量和待学习参数矩阵，确定表达房源偏好的房源嵌入向量；其中，所述待学习参数矩阵基于训练获得；

对所述房源嵌入向量和所述房源特征向量进行拼接，得到所述房源向量。

可选地，所述基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值，包括：

利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对所述房源发生转化的概率值。

可选地，在利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对所述房源发生转化的概率值之前，还包括：

利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练；其中，所述训练数据集中包括多条训练数据对，每对所述训练数据对中包括已知关系的一个用户和一个房源。

可选地，所述利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练，包括：

以所述训练数据集中包括的每个用户和每个房源分别作为节点，以所述每个用户与所述每个房源之间的关联关系为边，确定训练关系图；

针对所述训练数据集中的每条训练数据对，利用所述聚合函数和所述待学习参数矩阵确定所述训练关系图中所述训练数据对中用户的训练用户向量和房源的训练房源向量；

基于所述训练用户向量和所述训练房源向量确定所述完整空间多任务模型的输入，通过所述完整空间多任务模型的处理得到所述训练数据对对应的预测发生转化的概率；

基于所述预测发生转化的概率和所述训练数据对对应的已知标签确定网络损失，利用所述网络损失训练所述完整空间多任务模型和所述待学习参数矩阵。

根据本公开实施例的另一方面，提供了一种房源转化率的预测装置，包括：

图建立模块，用于基于待处理数据集建立关系图；其中，所述待处理数据集中包括多条数据对，每条所述数据对中包括需要确定关系的一个用户和一个房源，所述关系图中每个所述用户与至少一个所述房源相连接；

向量确定模块，用于基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；

概率估计模块，用于基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值。

可选地，所述图建立模块，包括：

节点确定单元，用于以所述待处理数据集中包括的每个用户和每个房源分别作为节点，得到多个节点；

边确定单元，用于针对所述待处理数据集中的每个所述用户，基于与所述用户存在关联关系的至少一个所述房源与所述用户之间的关联关系确定至少一条边；

关系图单元，用于基于针对所有所述用户对应的多条边连接所述多个节点，得到所述关系图。

可选地，所述节点确定单元，具体用于基于所述待处理数据集中包括的每个用户的属性确定所述用户对应的用户特征向量，基于所述每个房源的属性确定所述房源对应的房源特征向量；将每个所述用户特征向量和每个所述房源特征向量作为节点，得到多个节点。

可选地，所述向量确定模块，包括：

用户向量确定单元，用于针对所述待处理数据集中的每条数据对，基于所述关系图中与所述数据对中的用户存在关联关系的多个房源以及所述用户的属性，确定所述数据对中所述用户的用户向量；

房源向量确定单元，用于针对所述待处理数据集中的每条数据对，基于所述关系图中与所述数据对中的房源存在关联关系的多个用户以及所述房源的属性，确定所述数据对中所述房源的房源向量。

可选地，所述用户向量确定单元，具体用于基于所述关系图，获得以所述用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，所述奇数阶邻接点对应的节点为房源构成的节点；基于所述奇数阶对应的所有邻接点对应的房源特征向量和基于所述用户的属性确定的用户特征向量，确定所述用户向量。

可选地，所述用户向量确定单元在基于所述奇数阶对应的所有邻接点对应的房源特征向量和基于所述用户的属性确定的用户特征向量，确定所述用户向量时，用于利用聚合函数对所述奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，基于所述房源聚合向量和待学习参数矩阵，确定表达用户偏好的用户嵌入向量；其中，所述待学习参数矩阵基于训练获得；对所述用户嵌入向量和所述用户特征向量进行拼接，得到所述用户向量。

可选地，所述房源向量确定单元，具体用于基于所述关系图，获得以所述房源为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，所述奇数阶邻接点对应的节点为用户构成的节点；基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量。

可选地，所述房源向量确定单元在基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量时，用于利用聚合函数对所述奇数阶对应的所有邻接点对应的用户特征向量进行处理，得到用户聚合向量；基于所述用户聚合向量和待学习参数矩阵，确定表达房源偏好的房源嵌入向量；其中，所述待学习参数矩阵基于训练获得；对所述房源嵌入向量和所述房源特征向量进行拼接，得到所述房源向量。

可选地，所述概率估计模块，具体用于利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对所述房源发生转化的概率值。

可选地，所述装置还包括：

模型训练模块，用于利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练；其中，所述训练数据集中包括多条训练数据对，每对所述训练数据对中包括已知关系的一个用户和一个房源。

可选地，所述模型训练模块，具体用于以所述训练数据集中包括的每个用户和每个房源分别作为节点，以所述每个用户与所述每个房源之间的关联关系为边，确定训练关系图；针对所述训练数据集中的每条训练数据对，利用所述聚合函数和所述待学习参数矩阵确定所述训练关系图中所述训练数据对中用户的训练用户向量和房源的训练房源向量；基于所述训练用户向量和所述训练房源向量确定所述完整空间多任务模型的输入，通过所述完整空间多任务模型的处理得到所述训练数据对对应的预测发生转化的概率；基于所述预测发生转化的概率和所述训练数据已知标签确定网络损失，利用所述网络损失训练所述完整空间多任务模型和所述待学习参数矩阵。

根据本公开实施例的又一方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述任一实施例所述的房源转化率的预测方法。

根据本公开实施例的还一方面，提供了一种电子设备，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述任一实施例所述的房源转化率的预测方法。

基于本公开上述实施例提供的一种房源转化率的预测方法和装置、存储介质、设备，基于待处理数据集建立关系图；基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值；本实施例中通过用户向量描述该用户的房源偏好，通过房源向量描述房源的用户偏好，由于偏好的表达，提高了基于用户向量和房源向量预测的该用户对该房源发生转化的概率值的准确率。

下面通过附图和实施例，对本公开的技术方案做进一步的详细描述。

附图说明

通过结合附图对本公开实施例进行更详细的描述，本公开的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开实施例一起用于解释本公开，并不构成对本公开的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本公开一示例性实施例提供的房源转化率的预测方法的流程示意图。

图2是本公开图1所示的实施例中步骤102的一个流程示意图。

图3是本公开一示例性实施例提供的房源转化率的预测方法中得到的关系图的示意图。

图4是本公开图1所示的实施例中步骤104的一个流程示意图。

图5是本公开图4所示的实施例中步骤1041的一个流程示意图。

图6是本公开图4所示的实施例中步骤1042的一个流程示意图。

图7是本公开一示例性实施例提供的房源转化率的预测方法中模型训练的流程示意图。

图8是本公开一示例性实施例提供的房源转化率的预测装置的结构示意图。

图9是本公开一示例性实施例提供的电子设备的结构图。

具体实施方式

下面，将参考附图详细地描述根据本公开的示例实施例。显然，所描述的实施例仅仅是本公开的一部分实施例，而不是本公开的全部实施例，应理解，本公开不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

本领域技术人员可以理解，本公开实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本公开实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本公开实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本公开中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本公开中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本公开对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本公开实施例可以应用于终端设备、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与终端设备、计算机系统、服务器等电子设备一起使用的众所周知的终端设备、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统、大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

终端设备、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、房源程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

申请概述

在实现本公开的过程中，发明人发现，现有技术中，在给用户推荐房源的场景中，将用户和房源当作关系图上节点，通过关系图能够反应用户的兴趣偏好，但该技术方案至少存在以下问题：目前用户偏好是通过手动构造特征进行描述，无法直接从关系图上进行提取。

示例性方法

图1是本公开一示例性实施例提供的用户转化率的预测方法的流程示意图。本实施例可应用在电子设备上，如图1所示，包括如下步骤：

步骤102，基于待处理数据集建立关系图。

其中，待处理数据集中包括多条数据对，每条数据对中包括需要确定关系的一个用户和一个房源，关系图中每个用户与至少一个房源相连接。

可选地，关系图包括多个具有关联关系的节点，其中，两个具有关联关系的节点之间通过边连接，本实施例中以每个用户以及每个房源作为节点，由于房源和用户之间的关联特性，建立的关系图中，与每个用户具有关联关系的一阶邻接点都是房源，而与每个房源具有关联关系的一阶邻接点都是用户。

步骤104，基于关系图分别确定待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量。

在一实施例中，通过关系图确定需要确定关系的一条数据对中的用户对应的用户向量和该数据对中的房源对应的房源向量；其中，用户向量用于描述该用户对于房源的偏好，可选地，可通过与该用户节点为n阶邻接点的房源节点对应的房源特征向量确定，其中，n为大于1的奇数；房源向量用于描述该房源对于用户的偏好，可选地，可通过与该房源节点为n阶邻接点的用户节点对应的用户特征向量确定，其中，n为大于1的奇数；本实施例通过用户向量和房源向量描述用户偏好和房源偏好，克服了现有技术需要手动构造特征对用户偏好进行描述的问题，提高了偏好描述的效率。

步骤106，基于用户向量和房源向量，确定每条数据对中用户对房源发生转化的概率值。

其中，用户对房源发生转化是指用户对该房源进行点击等操作，本实施例确定的概率值表示数据对中的用户对该数据对中的房源进行点击的概率。

本实施例通过采用用户对房源的偏好的用户向量和房源对用户的偏好的房源向量来确定该用户对该房源发生转化的概率值，相比直接基于用户对应的用户特征向量和房源特征向量确定该用户对该房源发生转化的概率值，本实施例方案提高了概率值的准确率。

本公开上述实施例提供的一种预测用户对房源发生转化的概率的方法，基于待处理数据集建立关系图；基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值；本实施例中通过用户向量描述该用户的房源偏好，通过房源向量描述房源的用户偏好，由于偏好的表达，提高了基于用户向量和房源向量预测的该用户对该房源发生转化的概率值的准确率。

如图2所示，在上述图1所示实施例的基础上，步骤102可包括如下步骤：

步骤1021，以待处理数据集中包括的每个用户和每个房源分别作为节点，得到多个节点。

可选地，基于待处理数据集中包括的每个用户的属性确定用户对应的用户特征向量，基于每个房源的属性确定房源对应的房源特征向量；将每个用户特征向量和每个房源特征向量作为节点，得到多个节点。

本实施例中，通过用户的属性确定用户对应的特征向量，其中，用户属性可以包括但不限于：年龄、性别、房源偏好(近地铁、居室数量等)等，可选地，可通过对用户属性进行编码等方式获得用户对应的用户特征向量，以保证用户特征向量能体现该用户的所有属性；房源属性可以包括但不限于：居室数量、面积、楼层、是否近地铁等，可选地，可通过对房源的所有属性进行编码等方式获得房源对应的房源特征向量，以保证房源特征向量能体现该房源的所有属性。

步骤1022，针对待处理数据集中的每个用户，基于与用户存在关联关系的至少一个房源与用户之间的关联关系确定至少一条边。

本实施例中，将符合用户的房源偏好属性的房源都作为与用户之间存在关联关系的节点，与每个用户直接连接(一阶邻接点)的节点都是房源节点。

步骤1023，基于针对所有用户对应的多条边连接多个节点，得到关系图。

本实施例中，将所有用户特征向量和所有房源特征向量通过边连接，构成了包括多个节点和多条边的关系图，通过关系图将多个用户与多个房源之间的关系更直观的进行表达，为了确定用户偏好和房源偏好提供了基础。例如，图3是本公开一示例性实施例提供的预测用户对房源发生转化的概率的方法中得到的关系图的示意图。如图3所示，其中用户1的一阶邻接点包括5个房源节点，用户1的二阶邻接点为用户2，三阶邻接点包括2个房源节点。

如图4所示，在上述图1所示实施例的基础上，步骤104可包括如下步骤：

针对待处理数据集中的每条数据对：

步骤1041，基于关系图中与数据对中的用户存在关联关系的多个房源以及用户的属性，确定数据对中用户的用户向量。

步骤1042，基于关系图中与数据对中的房源存在关联关系的多个用户以及房源的属性，确定数据对中房源的房源向量。

本实施例中，将关系图中的每个用户节点看做一个中心时，其对应的奇数阶邻接点都是房源节点，此时，这些房源节点可体现该用户的房源偏好，因此，通过这些房源节点对应的房源特征向量可确定该作为中心的的用户的用户向量，同样的，将关系图中的每个房源节点看做一个中心时，可利用与其对应的奇数阶邻接点的用户节点对应的用户特征向量，确定该作为中心的房源的房源向量。

如图5所示，在上述图4所示实施例的基础上，步骤1041可包括如下步骤：

步骤501，基于关系图，获得以用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点。

其中，设定阶数为大于一的奇数，奇数阶邻接点对应的节点为房源构成的节点。

本实施例中，在关系图中，以一个用户为中心，可查找确定设定阶数的邻接点中的奇数阶对应的所有房源节点，并以这些与用户存在关系的房源节点来确定该用户的房源偏好。

步骤502，基于奇数阶对应的所有邻接点对应的房源特征向量和基于用户的属性确定的用户特征向量，确定用户向量。

可选地，利用聚合函数对奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，基于房源聚合向量和待学习参数矩阵，确定表达用户偏好的用户嵌入向量；对用户嵌入向量和用户特征向量进行拼接，得到用户向量。

本实施例中，通过聚合函数对用户相关的所有房源特征向量进行聚合，可选地，可通过加权平均的方式获得房源聚合向量，例如，对所有房源特征向量相加后求平均，以该平均向量作为房源聚合向量；可选地，将房源聚合向量与待学习参数矩阵相乘，以矩阵乘法得到的结果矩阵作为表达用户偏好的用户嵌入向量，其中，待学习参数矩阵基于训练获得；通过将表达用户偏好的用户嵌入向量和作为中心的用户对应的用户特征向量拼接，进一步体现了用户属性和用户对房源的偏好，因此，得到的用户向量能更多体现用户对哪些房源可能进行发生转化。

如图6所示，在上述图4所示实施例的基础上，步骤1042可包括如下步骤：

步骤601，基于关系图，获得以房源为中心的设定阶数邻接点中的奇数阶对应的所有邻接点。

其中，设定阶数为大于一的奇数，奇数阶邻接点对应的节点为用户构成的节点。

本实施例中，在关系图中，以一个房源为中心，可查找确定设定阶数的邻接点中的奇数阶对应的所有用户节点，并以这些与房源存在关系的用户节点来确定该房源的用户偏好(或者理解为对该房源存在偏好的所有用户)。

步骤602，基于奇数阶对应的所有邻接点对应的用户特征向量和基于房源的属性确定的房源特征向量，确定房源向量。

可选的，利用聚合函数对所述奇数阶对应的所有邻接点对应的用户特征向量进行处理，得到用户聚合向量；基于所述用户聚合向量和待学习参数矩阵，确定表达房源偏好的房源嵌入向量；对房源嵌入向量和房源特征向量进行拼接，得到所述房源向量。

本实施例中，通过聚合函数对房源相关的所有用户特征向量进行聚合，可选地，可通过加权平均的方式获得用户聚合向量，例如，对所有用户特征向量相加后求平均，以该平均向量作为用户聚合向量；可选地，将用户聚合向量与待学习参数矩阵相乘，以矩阵乘法得到的结果矩阵作为表达房源偏好的房源嵌入向量，其中，待学习参数矩阵基于训练获得；通过将表达房源偏好的房源嵌入向量和作为中心的房源对应的房源特征向量拼接，进一步体现了房源属性和房源相对用户的偏好，因此，得到的房源向量能更多体现房源可能会得到哪些用户的转化。

在一些可选的实施例中，步骤106包括：利用完整空间多任务(ESMM)模型对用户向量和房源向量进行处理，确定每条数据对中用户对房源发生转化的概率值。

完整空间多任务(ESMM)模型能够在完整的样本数据空间(即曝光的样本空间，下图最外层圈)同时学习点击率(post-view click-through rate，CTR)和转化率(post-click conversion rate，CVR)。本实施例中，在应用过程中，可单独使用p CTR分支或p CVR分支实现点击率或转化率的预测，在训练过程中，对完整的ESMM模型执行训练过程，可选地，训练过程包括：

利用训练数据集对完整空间多任务模型和待学习参数矩阵进行训练。

其中，训练数据集中包括多条训练数据对，每对训练数据对中包括已知转化关系的一个用户和一个房源。

为了使完整空间多任务模型中的参数更适合对点击率进行预测，本实施例在应用该完整空间多任务模型之前，利用训练数据集对完整空间多任务模型进行训练，本实施例为了提高输入到完整空间多任务模型中的向量对用户偏好和房源偏好的描述，将待学习参数矩阵和完整空间多任务模型进行联合训练，以提高训练后的完整空间多任务模型输出的概率值的可信度。

可选地，利用训练数据集对完整空间多任务模型和待学习参数矩阵进行训练，包括：

以训练数据集中包括的每个用户和每个房源分别作为节点，以每个用户与每个房源之间的关联关系为边，确定训练关系图；

针对训练数据集中的每条训练数据对，利用聚合函数和待学习参数矩阵确定训练关系图中训练数据对中用户的训练用户向量和房源的训练房源向量；

基于训练用户向量和训练房源向量确定完整空间多任务模型的输入，通过完整空间多任务模型的处理得到训练数据对对应的预测发生转化的概率；

基于预测发生转化的概率和训练数据的已知标签确定网络损失，利用网络损失训练完整空间多任务模型和待学习参数矩阵。

在一些可选示例中，将训练数据集中的用户和房源分别作为训练用户集和训练房源集，假设训练用户集为U＝{u_i，i∈R}，对每一个训练用户u_i，其特征向量为

训练房源集为H＝{h_j，j∈R}，对每一个训练房源h_j，其特征向量为

其中，R为大于1的整数；对训练用户u_i来说，其n阶邻接点定义为

设y为CTR任务的标签(label)，y＝0为已知用户未点击，y＝1为已知用户点击；z为CTCVR任务的标签(label)，z＝0为无商机(转化率为0)，z＝1为有商机(转化率为1)。可选地，该实施例中，aggregate为聚合函数，可以是任何聚合方式，例如，将所有向量相加求平均等；最后得到一个特征向量，这里

N为用户u_i的邻接点。W为待学习参数矩阵，由模型训练得到。θ_ctr为CTR模型部分的参数，θ_cvr为CVR模型部分的参数。可选地，图7是本公开一示例性实施例提供的预测用户对房源发生转化的概率的方法中模型训练的流程示意图。该训练过程可包括：pCVR部分的模型构建流程，在该实施例中设定阶数为3：

1.计算训练用户的用户嵌入向量(Embedding)和训练用户向量：

Fori in(1，3)：

#利用聚合函数对第i阶邻接点进行聚合；

embed＝embed₁+embed₃#利用图嵌入方法提取的用户对房源偏好的embedding表达，得到用户嵌入向量；

user_i＝W_i*concat(f_ui，embed)#得到训练用户的训练用户向量，其中，W_i表示待学习参数矩阵。

2.用同样的方式处理训练房源，得到训练房源向量house_i。

3.feature＝W_i*concat(user_i，house_i)#将user和house的嵌入表达通过拼接后乘以带学习参数矩阵，得到MLP的输入特征。

4.pCVR＝relu(MLP(feature))。

5.以同样的方式构建pCTR模型。

6.将两个模型的输出相乘，得到pCTCVR的预测输出。

7.以以下公式计算loss函数：

Loss＝L(f(θ_ctr)，y)+L(f(θ_ctr，θ_cvr)，y&z)

8.训练完整空间多任务模型，使得Loss尽可能小。

9.得到训练后的完整空间多任务模型(pCTCVR)。

本公开实施例提供的任一种房源转化率的预测方法可以由任意适当的具有数据处理能力的设备执行，包括但不限于：终端设备和服务器等。或者，本公开实施例提供的任一种房源转化率的预测方法可以由处理器执行，如处理器通过调用存储器存储的相应指令来执行本公开实施例提及的任一种房源转化率的预测方法。下文不再赘述。

示例性装置

图8是本公开一示例性实施例提供的房源转化率的预测装置的结构示意图。如图8所示，该实施例装置包括：

图建立模块81，用于基于待处理数据集建立关系图。

向量确定模块82，用于基于关系图分别确定待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量。

概率估计模块83，用于基于用户向量和房源向量，确定每条数据对中用户对房源发生转化的概率值。

本公开上述实施例提供的一种预测用户对房源发生转化的概率的装置，基于待处理数据集建立关系图；基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值；本实施例中通过用户向量描述该用户的房源偏好，通过房源向量描述房源的用户偏好，由于偏好的表达，提高了基于用户向量和房源向量确定的该用户对该房源发生转化的概率值的准确率。

在一些可选的实施例中，图建立模块81，包括：

边确定单元，用于针对待处理数据集中的每个用户，基于与用户存在关联关系的至少一个房源与用户之间的关联关系确定至少一条边；

关系图单元，用于基于针对所有用户对应的多条边连接多个节点，得到关系图。

可选地，节点确定单元，具体用于基于待处理数据集中包括的每个用户的属性确定用户对应的用户特征向量，基于每个房源的属性确定房源对应的房源特征向量；将每个用户特征向量和每个房源特征向量作为节点，得到多个节点。

在一些可选的实施例中，向量确定模块82，包括：

用户向量确定单元，用于针对待处理数据集中的每条数据对，基于关系图中与数据对中的用户存在关联关系的多个房源以及用户的属性，确定数据对中用户的用户向量；

房源向量确定单元，用于针对待处理数据集中的每条数据对，基于关系图中与数据对中的房源存在关联关系的多个用户以及房源的属性，确定数据对中房源的房源向量。

可选地，用户向量确定单元，具体用于基于关系图，获得以用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，设定阶数为大于一的奇数，奇数阶邻接点对应的节点为房源构成的节点；基于奇数阶对应的所有邻接点对应的房源特征向量和基于用户的属性确定的用户特征向量，确定用户向量。

可选地，用户向量确定单元在基于奇数阶对应的所有邻接点对应的房源特征向量和基于用户的属性确定的用户特征向量，确定用户向量时，用于利用聚合函数对奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，基于房源聚合向量和待学习参数矩阵，确定表达用户偏好的用户嵌入向量；其中，待学习参数矩阵基于训练获得；对用户嵌入向量和用户特征向量进行拼接，得到用户向量。

在一些可选的实施例中，房源向量确定单元，具体用于基于关系图，获得以房源为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，设定阶数为大于一的奇数，奇数阶邻接点对应的节点为用户构成的节点；基于奇数阶对应的所有邻接点对应的用户特征向量和基于房源的属性确定的房源特征向量，确定房源向量。

可选地，房源向量确定单元在基于奇数阶对应的所有邻接点对应的用户特征向量和基于房源的属性确定的房源特征向量，确定房源向量时，用于利用聚合函数对奇数阶对应的所有邻接点对应的用户特征向量进行处理，得到用户聚合向量；基于用户聚合向量和待学习参数矩阵，确定表达房源偏好的房源嵌入向量；其中，待学习参数矩阵基于训练获得；对房源嵌入向量和房源特征向量进行拼接，得到房源向量。

在一些可选的实施例中，概率估计模块83，具体用于利用完整空间多任务模型对用户向量和房源向量进行处理，确定每条数据对中用户对房源发生转化的概率值。

可选地，本实施例提供的装置还包括：

模型训练模块，用于利用训练数据集对完整空间多任务模型和待学习参数矩阵进行训练；其中，训练数据集中包括多条训练数据对，每对训练数据对中包括已知转化关系的一个用户和一个房源。

在一些可选的实施例中，模型训练模块，具体用于以训练数据集中包括的每个用户和每个房源分别作为节点，以每个用户与每个房源之间的关联关系为边，确定训练关系图；针对训练数据集中的每条训练数据对，利用聚合函数和待学习参数矩阵确定训练关系图中训练数据对中用户的训练用户向量和房源的训练房源向量；基于训练用户向量和训练房源向量确定完整空间多任务模型的输入，通过完整空间多任务模型的处理得到训练数据对对应的预测发生转化的概率；基于预测发生转化的概率和训练数据的已知标签确定网络损失，利用网络损失训练完整空间多任务模型和待学习参数矩阵。

示例性电子设备

下面，参考图9来描述根据本公开实施例的电子设备。该电子设备可以是第一设备100和第二设备200中的任一个或两者、或与它们独立的单机设备，该单机设备可以与第一设备和第二设备进行通信，以从它们接收所采集到的输入信号。

图9图示了根据本公开实施例的电子设备的框图。

如图9所示，电子设备90包括一个或多个处理器91和存储器92。

处理器91可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备90中的其他组件以执行期望的功能。

存储器92可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器91可以运行所述程序指令，以实现上文所述的本公开的各个实施例的房源转化率的预测方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以存储诸如输入信号、信号分量、噪声分量等各种内容。

在一个示例中，电子设备90还可以包括：输入装置93和输出装置94，这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如，在该电子设备是第一设备100或第二设备200时，该输入装置93可以是上述的麦克风或麦克风阵列，用于捕捉声源的输入信号。在该电子设备是单机设备时，该输入装置93可以是通信网络连接器，用于从第一设备100和第二设备200接收所采集的输入信号。

此外，该输入设备93还可以包括例如键盘、鼠标等等。

该输出装置94可以向外部输出各种信息，包括确定出的距离信息、方向信息等。该输出设备94可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图9中仅示出了该电子设备90中与本公开有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备90还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本公开的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的房源转化率的预测方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本公开的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本公开各种实施例的房源转化率的预测方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本公开的基本原理，但是，需要指出的是，在本公开中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本公开为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本公开的方法和装置。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和装置。用于所述方法的步骤的上述顺序仅是为了进行说明，本公开的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本公开实施为记录在记录介质中的程序，这些程序包括用于实现根据本公开的方法的机器可读指令。因而，本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。

还需要指出的是，在本公开的装置、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此，本公开不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种房源转化率的预测方法，其特征在于，包括：

基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；其中，用户向量的确定包括：针对所述待处理数据集中的每条数据对，基于所述关系图，获得以所述用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，奇数阶邻接点对应的节点为房源构成的节点；利用聚合函数对所述奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，将所述房源聚合向量与待学习参数矩阵相乘，以矩阵乘法得到的结果确定表达用户偏好的用户嵌入向量；其中，所述待学习参数矩阵基于训练获得；对所述用户嵌入向量和用户特征向量进行拼接，得到所述用户向量；所述用户特征向量基于所述待处理数据集中包括的每个用户的属性确定，所述房源特征向量基于每个房源的属性确定；

2.根据权利要求1所述的方法，其特征在于，所述基于待处理数据集建立关系图，包括：

3.根据权利要求2所述的方法，其特征在于，所述以所述待处理数据集中包括的每个用户和每个房源分别作为节点，得到多个节点，包括：

将每个所述用户对应的用户特征向量和每个所述房源对应的房源特征向量作为节点，得到多个节点。

4.根据权利要求1-3任一所述的方法，其特征在于，所述基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量，包括：

针对所述待处理数据集中的每条数据对，基于所述关系图中与所述数据对中的房源存在关联关系的多个用户以及所述房源的属性，确定所述数据对中所述房源的房源向量。

5.根据权利要求4所述的方法，其特征在于，所述基于所述关系图中所述数据对中的房源存在关联关系的多个用户以及所述房源的属性，确定所述房源的房源向量，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量，包括：

7.根据权利要求4所述的方法，其特征在于，所述基于所述用户向量和所述房源向量，确定所述每条数据对中所述用户对所述房源发生转化的概率值，包括：

利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对房源发生转化的概率值。

8.根据权利要求7所述的方法，其特征在于，在利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对所述房源发生转化的概率值之前，还包括：

利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练；其中，所述训练数据集中包括多条训练数据对，每对所述训练数据对中包括已知转化关系的一个用户和一个房源。

9.根据权利要求8所述的方法，其特征在于，所述利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练，包括：

基于所述预测发生转化的概率和所述训练数据的已知标签确定网络损失，利用所述网络损失训练所述完整空间多任务模型和所述待学习参数矩阵。

10.一种房源转化率的预测装置，其特征在于，包括：

向量确定模块，用于基于所述关系图分别确定所述待处理数据集中包括的多条数据对中每条数据对中的用户对应的用户向量和房源对应的房源向量；包括：用户向量确定单元，用于针对所述待处理数据集中的每条数据对，获得以所述用户为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，奇数阶邻接点对应的节点为房源构成的节点；利用聚合函数对所述奇数阶对应的所有邻接点对应的房源特征向量进行处理，得到房源聚合向量，将所述房源聚合向量与待学习参数矩阵相乘，以矩阵乘法得到的结果确定表达用户偏好的用户嵌入向量；其中，所述待学习参数矩阵基于训练获得；对所述用户嵌入向量和用户特征向量进行拼接，得到所述用户向量；所述用户特征向量基于所述待处理数据集中包括的每个用户的属性确定，所述房源特征向量基于每个房源的属性确定；

11.根据权利要求10所述的装置，其特征在于，所述图建立模块，包括：

12.根据权利要求11所述的装置，其特征在于，所述节点确定单元，具体用于将每个所述用户对应的用户特征向量和每个所述房源对应的房源特征向量作为节点，得到多个节点。

13.根据权利要求10-12任一所述的装置，其特征在于，所述向量确定模块，还包括：

14.根据权利要求13所述的装置，其特征在于，所述房源向量确定单元，具体用于基于所述关系图，获得以所述房源为中心的设定阶数邻接点中的奇数阶对应的所有邻接点；其中，所述设定阶数为大于一的奇数，所述奇数阶邻接点对应的节点为用户构成的节点；基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量。

15.根据权利要求14所述的装置，其特征在于，所述房源向量确定单元在基于所述奇数阶对应的所有邻接点对应的用户特征向量和基于所述房源的属性确定的房源特征向量，确定所述房源向量时，用于利用聚合函数对所述奇数阶对应的所有邻接点对应的用户特征向量进行处理，得到用户聚合向量；基于所述用户聚合向量和待学习参数矩阵，确定表达房源偏好的房源嵌入向量；其中，所述待学习参数矩阵基于训练获得；对所述房源嵌入向量和所述房源特征向量进行拼接，得到所述房源向量。

16.根据权利要求13所述的装置，其特征在于，所述概率估计模块，具体用于利用完整空间多任务模型对所述用户向量和所述房源向量进行处理，确定所述每条数据对中所述用户对所述房源发生转化的概率值。

17.根据权利要求16所述的装置，其特征在于，所述装置还包括：

模型训练模块，用于利用训练数据集对所述完整空间多任务模型和所述待学习参数矩阵进行训练；其中，所述训练数据集中包括多条训练数据对，每对所述训练数据对中包括已知转化关系的一个用户和一个房源。

18.根据权利要求17所述的装置，其特征在于，所述模型训练模块，具体用于以所述训练数据集中包括的每个用户和每个房源分别作为节点，以所述每个用户与所述每个房源之间的关联关系为边，确定训练关系图；针对所述训练数据集中的每条训练数据对，利用所述聚合函数和所述待学习参数矩阵确定所述训练关系图中所述训练数据对中用户的训练用户向量和房源的训练房源向量；基于所述训练用户向量和所述训练房源向量确定所述完整空间多任务模型的输入，通过所述完整空间多任务模型的处理得到所述训练数据对对应的预测发生转化的概率；基于所述预测发生转化的概率和所述训练数据对对应的已知标签确定网络损失，利用所述网络损失训练所述完整空间多任务模型和所述待学习参数矩阵。

19.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-9任一所述的房源转化率的预测方法。

20.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述指令以实现上述权利要求1-9任一所述的房源转化率的预测方法。