CN114756753A

CN114756753A - 一种产品推荐方法、装置、电子设备及存储介质

Info

Publication number: CN114756753A
Application number: CN202210420129.2A
Authority: CN
Inventors: 刘文海; 于敬; 石京京; 王灿; 李文聪; 熊凡; 丁佼; 陈运文; 纪达麒
Original assignee: Datagrand Information Technology Shanghai Co ltd
Current assignee: Datagrand Information Technology Shanghai Co ltd
Priority date: 2022-04-20
Filing date: 2022-04-20
Publication date: 2022-07-15

Abstract

本发明实施例公开了一种产品推荐方法、装置、电子设备及存储介质。该产品推荐方法具体包括：获取目标用户的用户描述数据；将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品；获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据；将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。本发明实施例的技术方案能够更好的构建用户画像，提高产品推荐的准确性。

Description

一种产品推荐方法、装置、电子设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及一种产品推荐方法、装置、电子设备及存储介质。

背景技术

随着机器学习的发展，模型逐渐融入人们的生活中，例如，通过模型为用户推荐感兴趣的产品。

现有的产品推荐方法通常是将用户信息和产品信息，输入至产品推荐网络模型中，以通过产品推荐网络模型获取产品推荐值，从而基于产品推荐值为用户推荐产品。但是，不同平台的信息数据都是相对独立的，单一平台的可用信息数据较少，由此构建的用户画像无法准确的了解用户，降低了产品推荐的准确性，从而导致现有的产品推荐方法无法准确的对用户进行产品推荐。

发明内容

本发明实施例提供一种产品推荐方法、装置、电子设备及存储介质，能够更好的构建用户画像，提高产品推荐的准确性。

根据本发明的一方面，提供了一种产品推荐方法，包括：

获取目标用户的用户描述数据；

将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品；

获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据；

将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

根据本发明的另一方面，提供了一种产品推荐装置，包括：

用户描述数据获取模块，用于获取目标用户的用户描述数据；

待推荐产品获取模块，用于将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品；

查询数据构建模块，用于获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据；

产品推荐值获取模块，用于将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

根据本发明的另一方面，提供了一种电子设备，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本发明任一实施例所述的产品推荐方法。

根据本发明的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本发明任一实施例所述的产品推荐方法。

本发明实施例的技术方案，通过获取目标用户的用户描述数据，将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品，获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据，以将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，从而根据各产品推荐值，向目标用户进行产品推荐，解决了现有的产品推荐方法无法准确的对用户进行产品推荐的问题，能够更好的构建用户画像，提高产品推荐的准确性。

应当理解，本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征，也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的一种产品推荐方法的流程图；

图2是本发明实施例二提供的一种产品推荐方法的流程图；

图3是本发明实施例三提供的一种产品推荐方法的示例流程图；

图4是本发明实施例四提供的一种产品推荐装置的示意图；

图5是实现本发明实施例的产品推荐方法的电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

图1是本发明实施例一提供的一种产品推荐方法的流程图，本实施例可适用于提高产品推荐的准确性的情况，该方法可以由产品推荐装置执行，该装置可以通过软件和/或硬件的方式实现，并一般可以直接集成在执行本方法的电子设备中，该电子设备可以是终端设备，也可以是服务器设备，本发明实施例并不对执行产品推荐方法的电子设备的类型进行限定。具体的，如图1所示，该产品推荐方法具体可以包括如下步骤：

S110、获取目标用户的用户描述数据。

其中，目标用户可以是任意一个用户。可以理解的是，在推荐产品的过程中，任意一个用户都可以是目标用户。本发明实施例通过确定目标用户，以实现向不同目标用户推荐与各目标用户匹配的产品。用户描述数据可以是能够描述目标用户特征的数据，例如可以是用户ID(Identity document，身份标识号)数据、用户年龄数据或用户籍贯数据等，本发明实施例对此并不进行限制。

在本发明实施例中，获取目标用户的用户描述数据，以将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络。需要说明的是，本发明实施例对获取目标用户的用户描述数据的具体实现方式并不进行限制，只要能够实现目标用户的用户描述数据的获取即可。

S120、将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品。

其中，本地离线产品推荐网络可以是在本地节点中能够进行离线产品推荐的网络。具体的，本地离线产品推荐网络可以是通过联邦学习训练得到的网络。待推荐产品可以是通过本地离线产品推荐网络筛选得到的，能够向目标用户推荐的产品。

在本发明实施例中，在获取目标用户的用户描述数据之后，可以进一步将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品。可以理解的是，每个目标用户可以对应多个待推荐产品。不同目标用户对应的待推荐产品的数量可以是相同的，也可以是不同的，本发明实施例对此并不进行限制。

S130、获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据。

其中，当前状态数据可以是目标用户在当前时刻的状态数据，例如可以是查询状态数据，也可以是浏览状态数据等，本发明实施例对此并不进行限制。每个待推荐产品分别对应的查询数据可以是查询各待推荐产品与目标用户的匹配度的数据。可以理解的是，可以通过每个待推荐产品分别对应的查询数据，确定各待推荐产品与目标用户的匹配度，以向目标用户推荐匹配度最高的待推荐产品。

在本发明实施例中，在将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品之后，可以进一步获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据。可以理解的是，查询数据的数量与待推荐产品的数量是匹配的。另一可以理解的是，查询数据与目标用户的当前状态数据是匹配的，也即不同状态数据构建的查询数据不同。

S140、将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

其中，在线产品推荐网络可以是用户在线过程中，向用户推荐产品的网络。可以理解的是，在线产品推荐网络是基于强化学习构建的网络。产品推荐值可以是表征各待推荐产品与目标用户匹配程度的值。

在本发明实施例中，在获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据之后，可以进一步将各查询数据输入至基于强化学习的在线产品推荐网络，以获取与各待推荐产品对应的产品推荐值，从而根据各产品推荐值，向目标用户进行产品推荐。

本实施例的技术方案，通过获取目标用户的用户描述数据，将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品，获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据，以将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，从而根据各产品推荐值，向目标用户进行产品推荐，解决了现有的产品推荐方法无法准确的对用户进行产品推荐的问题，能够更好的构建用户画像，提高产品推荐的准确性。

实施例二

图2是本发明实施例二提供的一种产品推荐方法的流程图，本实施例是对上述各技术方案的进一步细化，给出了将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品，以及将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值的多种具体可选的实现方式。本实施例中的技术方案可以与上述一个或多个实施例中的各个可选方案结合。

如图2所示，该方法可以包括如下步骤：

S210、获取目标用户的用户描述数据。

S220、将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络。

可选的，在将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络之前，还可以包括：根据本地用户描述数据集，以及产品描述数据集，对本地离线产品推荐网络进行训练，得到本地训练参数；将本地训练参数发送至联邦学习服务器进行联合训练；其中，联邦学习服务器用于根据本地训练参数，以及至少一个第三方节点根据第三方用户描述数据集训练得到的第三方训练参数进行联合训练，得到联合训练参数；根据联邦学习服务器反馈的联合训练参数，对本地离线产品推荐网络进行参数更新。

其中，本地用户描述数据集可以是本地节点中所有本地用户的描述数据的集合。产品描述数据集可以是本地节点中所有产品的描述数据的集合。示例性的，产品的描述数据可以包括产品ID、产品类别、产品版本、产品适用人群、产品等级或产品源等，本发明实施例对此并不进行限制。本地训练参数可以是对本地离线产品推荐网络进行训练得到的本地离线产品推荐网络的网络参数。第三方节点可以是除本地节点之外的任意的含有用户描述数据的节点，例如可以是电商平台，也可以是银行APP(Application，应用程序)，或者还可以是支付平台等，本发明实施例对此并不进行限制。第三方用户描述数据集可以是第三方节点中所有用户的描述数据的集合。

第三方训练参数可以是根据第三方用户描述数据集训练得到的网络参数。联合训练参数可以是联邦学习服务器在联合训练后得到的网络参数。

具体的，本地节点在将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络之前，还可以根据本地用户描述数据集，以及产品描述数据集，对本地离线产品推荐网络进行训练，得到本地训练参数，并将本地训练参数发送至联邦学习服务器进行联合训练。同时第三方节点根据第三方用户描述数据集，对第三方节点中的产品推荐网络进行训练，得到至少一个第三方训练参数，并将第三方训练参数发送至联邦学习服务器进行联合训练。联邦学习服务器根据本地训练参数，以及至少一个第三方训练参数进行联合训练，得到联合训练参数，并将联合训练参数反馈至本地节点。本地节点根据联邦学习服务器反馈的联合训练参数，对本地离线产品推荐网络进行参数更新。

可选的，用户描述数据可以包括用户横向描述数据和用户纵向描述数据。具体的，用户横向描述数据的特点是数据样本差别比较大，但是数据样本的特征大部分相似，例如，银行节点或者金融类三方节点等节点的用户数据源。用户纵向描述数据的特点是数据样本基本相似，但是数据特征差异性较大，例如电商平台或者视频类网站等节点的用户数据源。

可选的，本地离线产品推荐网络可以包括横向用户模型、纵向用户模型和产品模型。其中，横向用户模型可以用于对输入的用户横向描述数据进行特征分析，以输出本地用户横向特征向量。纵向用户模型可以用于对输入的用户纵向描述数据进行特征分析，以输出本地用户纵向特征向量。产品模型可以用于对输入的产品描述数据进行特征分析，以输入本地产品特征向量。

可选的，本地用户描述数据集可以包括本地用户横向描述数据集和/或本地用户纵向描述数据集。第三方用户描述数据集可以包括第三方用户横向描述数据集和/或第三方用户纵向描述数据集。本地训练参数可以包括本地用户横向训练参数、本地用户纵向训练参数和本地产品训练参数中的至少一个。第三方训练参数可以包括第三方用户横向训练参数和/或第三方用户纵向训练参数。联合训练参数可以包括联合用户横向训练参数、联合用户纵向训练参数和联合产品训练参数中的至少一个。

可选的，联邦学习服务器可以根据本地用户横向训练参数、以及至少一个第三方用户横向训练参数进行联合训练，得到联合用户横向训练参数。联邦学习服务器可以根据本地用户纵向训练参数、以及至少一个第三方用户纵向训练参数进行联合训练，得到联合用户纵向训练参数；联邦学习服务器可以根据本地产品训练参数，得到联合产品训练参数。

S230、通过所述本地离线产品推荐网络，计算与所述用户描述数据匹配的用户特征向量。

其中，用户特征向量可以是表征用户特征的向量。可选的，用户特征向量可以是对用户横向特征向量和用户纵向特征向量进行向量结合得到的。

在本发明实施例中，在根据联邦学习服务器反馈的联合训练参数，对本地离线产品推荐网络进行参数更新之后，可以进一步通过本地离线产品推荐网络，计算与用户描述数据匹配的用户特征向量。可选的，可以通过本地离线产品推荐网络的用户模型，计算与用户描述数据匹配的用户特征向量。

S240、通过所述本地离线产品推荐网络，计算各产品的产品特征向量与所述用户特征向量之间的相似度。

其中，产品特征向量可以是表征产品特征的向量。可以理解的是，产品特征向量可以是本地离线产品推荐网络根据各产品的描述数据计算得到的。

在本发明实施例中，在通过本地离线产品推荐网络，计算与用户描述数据匹配的用户特征向量之后，可以进一步通过本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度。可选的，通过所述本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度，可以是通过所述本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的余弦距离，并通过各产品的产品特征向量与用户特征向量之间的余弦距离，确定各产品的产品特征向量与用户特征向量之间的相似度。

可选的，在通过本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度之前，可以通过本地离线产品推荐网络，计算各产品的产品特征向量。可以理解的是，在没有产品更新的情况下，产品特征向量只计算一次即可。

S250、通过所述本地离线产品推荐网络，根据相似度计算结果，输出所述用户特征向量以及至少一个待推荐产品的产品特征向量。

其中，相似度计算结果可以是根据各产品的产品特征向量与用户特征向量之间的相似度得到的计算结果，例如可以是相似度正序排序的计算结果等，本发明实施例对此并不进行限制。

在本发明实施例中，在通过本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度之后，可以进一步通过本地离线产品推荐网络，根据相似度计算结果，输出用户特征向量以及至少一个待推荐产品的产品特征向量。

S260、获取目标用户的当前状态数据，并计算与所述当前状态数据匹配的状态特征向量。

其中，状态特征向量可以是表征目标用户当前状态特征的向量。

在本发明实施例中，在通过本地离线产品推荐网络，根据相似度计算结果，输出用户特征向量以及至少一个待推荐产品的产品特征向量之后，可以进一步获取目标用户的当前状态数据，并计算与当前状态数据匹配的状态特征向量。

S270、将每个待推荐产品的产品特征向量，分别与所述用户特征向量以及所述状态特征向量进行组合，构建出与每个待推荐产品分别对应的查询数据。

在本发明实施例中，在获取目标用户的当前状态数据，并计算与当前状态数据匹配的状态特征向量之后，可以进一步将每个待推荐产品的产品特征向量，分别与用户特征向量以及状态特征向量进行组合，构建出每个待推荐产品对应的查询数据。可以理解的是，待推荐产品的查询数据可以包括该待推荐产品的产品特征向量、用户特征向量以及状态特征向量。

S280、将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据。

其中，奖赏函数数据可以是根据用户在不同状态下进行转移的奖赏值构建的函数数据。可以理解的是，用户在当前状态转移到另一个状态时，会有对应的奖赏值。示例性的，假设用户在当前状态，可以有浏览或购买等行为。对于购买行为，只有转移到购买成功状态时，奖赏值才是最高的。对于浏览行为，奖赏值会随着时间逐渐减少。对于长期不浏览的行为，可以得到负的奖赏值。可以理解的是，用户在不同状态下进行转移，可以是用户产生动作(也即行为)实现的。用户产生的动作可以包括点击、浏览、购买或查看详情等。用户在同一时刻只能选择一个动作。可选的，在未进行产品推荐时，可以定期进行状态的更新。

在本发明实施例中，在将每个待推荐产品的产品特征向量，分别与用户特征向量以及状态特征向量进行组合，构建出与每个待推荐产品分别对应的查询数据之后，可以进一步将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据。

可选的，在获取在线产品推荐网络的训练网络的奖赏函数数据之前，还可以包括：根据第三方节点中的用户历史行为数据确定在线产品推荐网络的训练网络的奖赏函数数据。

其中，用户历史行为数据可以是用户在过去一段时间内的行为数据。可以理解的是，用户历史行为数据可以是所有用户的历史行为数据。

具体的，在获取在线产品推荐网络的训练网络的奖赏函数数据之前，可以根据第三方节点中的用户历史行为数据确定在线产品推荐网络的训练网络的奖赏函数数据。

S290、通过所述在线产品推荐网络的训练网络，获取与所述目标用户的当前状态数据对应的目标用户的推荐动作数据。

其中，推荐动作数据可以是将与查询数据匹配的待推荐产品推荐给目标用户后，目标用户在当前状态下产生的动作数据。可以理解的是，推荐动作数据可以是不同的动作数据。

在本发明实施例中，在将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据之后，可以进一步通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据。

S2100、通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据，确定所述目标用户的更新状态数据，并更新所述奖赏函数数据，得到更新奖赏函数数据。

其中，更新状态数据可以是用户在当前状态下执行动作(或行为)，所产生的新的状态数据。更新奖赏函数数据可以是用户在执行动作(或行为)后，对奖赏函数数据进行更新后得到的。

在本发明实施例中，在通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据之后，可以进一步通过在线产品推荐网络的训练网络，根据推荐动作数据确定目标用户的更新状态数据，并根据推荐动作数据更新奖赏函数数据，得到更新奖赏函数数据。

S2110、通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据、所述更新状态数据和所述更新奖赏函数数据，确定目标值函数数据。

其中，目标值函数数据可以是用户在当前状态下，产生动作后进行奖赏得到的函数数据。

在本发明实施例中，在通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据，确定所述目标用户的更新状态数据，并更新所述奖赏函数数据，得到更新奖赏函数数据之后，可以进一步通过在线产品推荐网络的训练网络，根据推荐动作数据、更新状态数据和更新奖赏函数数据确定目标值函数数据。

S2120、判断所述目标值函数数据是否满足收敛条件；若是，执行S2130；否则，执行S290。

其中，收敛条件可以是目标值函数数据达到稳定状态。可以理解的是，在目标值函数数据未满足收敛条件时，目标值函数数据会由于推荐动作数据的不同而发生变化。

在本发明实施例中，在通过在线产品推荐网络的训练网络，根据推荐动作数据、更新状态数据和更新奖赏函数数据确定目标值函数数据之后，可以进一步判断目标值函数数据是否满足收敛条件。

如果目标值函数数据满足收敛条件，说明目标值函数数据达到稳定状态，也即目标值函数数据不会由于推荐动作数据的不同而变化，则可以根据目标值函数数据更新在线产品推荐网络的更新网络。如果目标值函数数据未满足收敛状态，说明目标值函数数据未达到稳定状态，也即目标值函数数据仍然会由于推荐动作数据的不同而变化，则可以返回执行通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据的操作。

S2130、根据所述目标值函数数据更新在线产品推荐网络的更新网络。

在本发明实施例中，在确定目标值函数数据满足收敛条件之后，可以进一步根据目标值函数数据更新在线产品推荐网络的更新网络。

S2140、根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

在本发明实施例中，在根据目标值函数数据更新在线产品推荐网络的更新网络之后，可以进一步根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

本实施例的技术方案，通过获取目标用户的用户描述数据，并将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，以通过本地离线产品推荐网络，计算与用户描述数据匹配的用户特征向量，并计算各产品的产品特征向量与用户特征向量之间的相似度，从而根据相似度计算结果，输出用户特征向量以及至少一个待推荐产品的产品特征向量。再获取目标用户的当前状态数据，并计算与当前状态数据匹配的状态特征向量，以将每个待推荐产品的产品特征向量，分别与用户特征向量以及状态特征向量进行组合，构建出与每个待推荐产品分别对应的查询数据。将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据，通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据，并根据推荐动作数据确定目标用户的更新状态数据，并更新奖赏函数数据得到更新奖赏函数数据，以根据推荐动作数据、更新状态数据和更新奖赏函数数据，确定目标值函数数据，从而进一步判断目标值函数数据是否满足收敛条件。在确定目标值函数数据未满足收敛条件时，返回执行通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据的操作。并在确定目标值函数数据满足收敛条件时，根据目标值函数数据更新在线产品推荐网络的更新网络，根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。解决了现有的产品推荐方法无法准确的对用户进行产品推荐的问题，能够更好的构建用户画像，提高产品推荐的准确性。

实施例三

本发明实施例以银行业务推荐的应用场景为例具体说明，随着银行业务的高速发展，银行业务推广变得越来越重要，当前银行业务推广主要的方式就是通过前台办理业务的时候推广，并且银行APP中的业务并不能针对性的根据用户的实际情况和用户的偏好进行有效的推广。然而，每个用户都不止拥有一个银行的银行卡，这就导致一个用户在一个银行的行为和可用信息较少，信息的价值也缺乏，往往这样构建出来的用户画像只能了解到用户的一个方面。而且用户的很多交易信息以及用户的喜好等根据银行的知识库是了解不全的，需要从第三方平台获取，但是第三方平台的用户信息都是独立不共享的。此外，在银行业务推荐场景中，用户停留的时间很短，对在线推荐的要求较高。只有实时捕获用户的意图和心理，才能更好的在用户在线的时间段内为用户推荐业务。因此，银行业务推荐具有重要意义。图3是本发明实施例三提供的一种产品推荐方法的示例流程图，如图3所示，具体可以包括以下步骤：

(1)对本地节点中的本地离线产品推荐网络进行训练。其中，本地节点可以是需要对银行业务进行推荐的平台节点。本地节点中的本地离线产品推荐网络可以包括横向用户模型、纵向用户模型和产品模型。可以理解的是，横向用户模型、纵向用户模型和产品模型之间的模型参数都是相互独立的。

具体的，获取本地节点中的本地用户描述数据集以及产品描述数据集，并将本地用户描述数据集和产品描述数据集输入至本地离线产品推荐网络中，通过本地离线产品推荐网络的横向用户模型得到本地用户横向训练参数和本地用户横向特征向量，通过本地离线产品推荐网络的纵向用户模型得到本地用户纵向训练参数和本地用户纵向特征向量，并通过本地离线产品推荐网络的产品模型得到本地产品训练参数和本地产品特征向量。

获取第三方节点中的第三方用户描述数据集，并将第三方用户描述数据集输入至第三方节点中的离线产品推荐网络，通过离线产品推荐网络中的用户模型得到第三方训练参数和第三方用户特征向量。可以理解的是，第三方用户描述数据集可以是第三方用户横向描述数据集，也可以是第三方用户纵向描述数据集。当第三方用户描述数据集是第三方用户横向描述数据集时，第三方离线产品推荐网络中的用户模型为横向用户模型，第三方训练参数为第三方用户横向训练参数，第三方用户特征向量为第三方用户横向特征向量。当第三方用户描述数据集是第三方用户纵向描述数据集时，第三方离线产品推荐网络中的用户模型为纵向用户模型，第三方训练参数为第三方用户纵向训练参数，第三方用户特征向量为第三方用户纵向特征向量。

将各训练参数和各特征向量，通过加密的方式上传到联邦学习服务器。联邦学习服务器中的离线产品推荐网络的横向用户模型的联合训练参数为本地用户横向训练参数和各第三方用户横向训练参数整合得到的。联邦学习服务器中的离线产品推荐网络的纵向用户模型的联合训练参数为本地用户纵向训练参数和各第三方用户纵向训练参数整合得到的。联邦学习服务器中的离线产品推荐网络的纵向产品模型的联合训练参数为本地产品训练参数。将本地用户横向特征向量和第三方用户横向特征向量，输入至联邦学习服务器中的离线产品推荐网络的横向用户模型，以得到用户横向特征向量。将本地用户纵向特征向量和第三方用户纵向特征向量，输入至联邦学习服务器中的离线产品推荐网络的纵向用户模型，以得到用户纵向特征向量。将用户横向特征向量和用户纵向特征向量结合，加入到DNN网络层，合并得到用户特征向量。将本地产品特征向量输入至联邦学习服务器中的离线产品推荐网络的产品模型，以得到产品特征向量。计算用户特征向量和产品特征向量的余弦距离。可以理解的是，余弦距离值越大，说明用户查询、购买等行为的产品与用户之间的距离越近。

在本地离线产品推荐网络的训练过程中，使用的损失函数为：

L_hinge＝y*(user*item)+(1-y)*max(margin-(user*item))

其中，L_hinge表示本地离线产品推荐网络的hinge损失函数；y表示用户是否购买或点击了产品；user表示用户特征向量；item表示产品特征向量。

在损失函数达到收敛时，停止本地离线产品推荐网络的训练。并根据联邦学习服务器的联合训练参数，对本地离线产品推荐网络进行参数更新，以完成本地节点中的本地离线产品推荐网络的训练。

(2)获取目标用户的用户描述数据，以将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的前N个待推荐产品。具体的，将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络；通过本地离线产品推荐网络，计算与用户描述数据匹配的用户特征向量；通过本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度；通过本地离线产品推荐网络，根据相似度计算结果，输出用户特征向量以及前N个待推荐产品的产品特征向量。可选的，根据相似度计算结果，输出用户特征向量以及前N个待推荐产品的产品特征向量，可以包括根据银行产品运营规则和相似度计算结果，输出用户特征向量以及前N个待推荐产品的产品特征向量。

(3)获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据。

(4)将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

具体的，通过所述在线产品推荐网络的训练网络，确定目标用户的当前状态数据下用e-greedy算法(贪心算法)获得的推荐动作数据；目标用户执行推荐动作得到更新状态数据、更新奖赏函数数据和目标值函数数据，将更新状态数据、更新奖赏函数数据和目标值函数数据存入经验池，并训练经验池，更新在线产品推荐网络的训练网络，在确定所述目标值函数数据满足收敛条件的情况下，根据所述目标值函数数据更新在线产品推荐网络的更新网络；根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值。并根据各产品推荐值，向目标用户进行产品推荐。其中，在更新在线产品推荐网络的训练网络时，加入了当前网络选择，以降低更新速度，降低网络模型的偏差。

可选的，在更新在线产品推荐网络的训练网络时，可以采用以下优化函数进行优化：

其中，

表示t时刻的目标值函数数据；R_t+1表示t+1时刻的奖赏函数数据；γ表示衰减系数；S_t+1表示t+1时刻的状态数据；a表示推荐动作数据；θ_t表示t时刻在线产品推荐网络的训练网络的模型参数；θ’_t表示t时刻在线产品推荐网络的更新网络的模型参数。

上述技术方案，通过采集其他银行机构间的以及其他第三方交易平台的用户信息，包括纵向和横向的用户信息，使得用户画像模型更精准、详尽，同时可以保护各个数据源的数据隐私，尽可能避免数据的泄露；可以有效的在线采集信息，实时在线更新模型，并实现在线的预测功能，将客户的动作和反馈实时体现在银行业务的推荐方向上，从而提高产品推荐的准确性。

实施例四

图4是本发明实施例四提供的一种产品推荐装置的示意图，如图4所示，所述装置包括：用户描述数据获取模块410、待推荐产品获取模块420、查询数据构建模块430以及产品推荐值获取模块440，其中：

用户描述数据获取模块410，用于获取目标用户的用户描述数据；

待推荐产品获取模块420，用于将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品；

查询数据构建模块430，用于获取目标用户的当前状态数据，并根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据；

产品推荐值获取模块440，用于将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，并根据各产品推荐值，向目标用户进行产品推荐。

可选的，待推荐产品获取模块420，可以具体用于：根据本地用户描述数据集，以及产品描述数据集，对本地离线产品推荐网络进行训练，得到本地训练参数；将本地训练参数发送至联邦学习服务器进行联合训练；其中，联邦学习服务器用于根据本地训练参数，以及至少一个第三方节点根据第三方用户描述数据集训练得到的第三方训练参数进行联合训练，得到联合训练参数；根据联邦学习服务器反馈的联合训练参数，对本地离线产品推荐网络进行参数更新。

可选的，待推荐产品获取模块420，还可以具体用于：将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络；通过本地离线产品推荐网络，计算与用户描述数据匹配的用户特征向量；通过本地离线产品推荐网络，计算各产品的产品特征向量与用户特征向量之间的相似度；通过本地离线产品推荐网络，根据相似度计算结果，输出用户特征向量以及至少一个待推荐产品的产品特征向量。

可选的，查询数据构建模块430，可以具体用于：计算与当前状态数据匹配的状态特征向量；将每个待推荐产品的产品特征向量，分别与用户特征向量以及状态特征向量进行组合，构建出与每个待推荐产品分别对应的查询数据。

可选的，产品推荐值获取模块440，可以具体用于：将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据；通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据；通过在线产品推荐网络的训练网络，根据推荐动作数据，确定目标用户的更新状态数据，并更新奖赏函数数据，得到更新奖赏函数数据；通过在线产品推荐网络的训练网络，根据推荐动作数据、更新状态数据和更新奖赏函数数据，确定目标值函数数据；在确定目标值函数数据满足收敛条件的情况下，根据目标值函数数据更新在线产品推荐网络的更新网络；根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值。

可选的，产品推荐值获取模块440，还可以具体用于：根据第三方节点中的用户历史行为数据确定在线产品推荐网络的训练网络的奖赏函数数据。

可选的，产品推荐值获取模块440，还可以具体用于：在确定目标值函数数据未满足收敛条件的情况下，返回执行通过在线产品推荐网络的训练网络，获取与目标用户的当前状态数据对应的目标用户的推荐动作数据的操作，直至目标值函数数据满足收敛条件。

本发明实施例所提供的产品推荐装置可执行本发明任意实施例所提供的产品推荐方法，具备执行方法相应的功能模块和有益效果。

实施例五

图5示出了可以用来实施本发明的实施例的电子设备10的结构示意图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本发明的实现。

如图5所示，电子设备10包括至少一个处理器11，以及与至少一个处理器11通信连接的存储器，如只读存储器(ROM)12、随机访问存储器(RAM)13等，其中，存储器存储有可被至少一个处理器执行的计算机程序，处理器11可以根据存储在只读存储器(ROM)12中的计算机程序或者从存储单元18加载到随机访问存储器(RAM)13中的计算机程序，来执行各种适当的动作和处理。在RAM 13中，还可存储电子设备10操作所需的各种程序和数据。处理器11、ROM 12以及RAM 13通过总线14彼此相连。输入/输出(I/O)接口15也连接至总线14。

电子设备10中的多个部件连接至I/O接口15，包括：输入单元16，例如键盘、鼠标等；输出单元17，例如各种类型的显示器、扬声器等；存储单元18，例如磁盘、光盘等；以及通信单元19，例如网卡、调制解调器、无线通信收发机等。通信单元19允许电子设备10通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

处理器11可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器11的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器11执行上文所描述的各个方法和处理，例如产品推荐方法。

在一些实施例中，产品推荐方法可被实现为计算机程序，其被有形地包含于计算机可读存储介质，例如存储单元18。在一些实施例中，计算机程序的部分或者全部可以经由ROM 12和/或通信单元19而被载入和/或安装到电子设备10上。当计算机程序加载到RAM 13并由处理器11执行时，可以执行上文描述的产品推荐方法的一个或多个步骤。备选地，在其他实施例中，处理器11可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行产品推荐方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器，使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本发明的上下文中，计算机可读存储介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。备选地，计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在电子设备上实施此处描述的系统和技术，该电子设备具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、区块链网络和互联网。

计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本发明的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种产品推荐方法，其特征在于，包括：

获取目标用户的用户描述数据；

2.根据权利要求1所述的方法，其特征在于，在将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络之前，还包括：

根据本地用户描述数据集，以及产品描述数据集，对所述本地离线产品推荐网络进行训练，得到本地训练参数；

将所述本地训练参数发送至联邦学习服务器进行联合训练；

其中，所述联邦学习服务器用于根据所述本地训练参数，以及至少一个第三方节点根据第三方用户描述数据集训练得到的第三方训练参数进行联合训练，得到联合训练参数；

根据联邦学习服务器反馈的联合训练参数，对所述本地离线产品推荐网络进行参数更新。

3.根据权利要求1或2所述的方法，其特征在于，将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络，并获取与目标用户对应的至少一个待推荐产品，包括：

将用户描述数据输入至通过联邦学习训练的本地离线产品推荐网络；

通过所述本地离线产品推荐网络，计算与所述用户描述数据匹配的用户特征向量；

通过所述本地离线产品推荐网络，计算各产品的产品特征向量与所述用户特征向量之间的相似度；

通过所述本地离线产品推荐网络，根据相似度计算结果，输出所述用户特征向量以及至少一个待推荐产品的产品特征向量。

4.根据权利要求3所述的方法，其特征在于，根据当前状态数据和用户描述数据，构建与每个待推荐产品分别对应的查询数据，包括：

计算与所述当前状态数据匹配的状态特征向量；

将每个待推荐产品的产品特征向量，分别与所述用户特征向量以及所述状态特征向量进行组合，构建出与每个待推荐产品分别对应的查询数据。

5.根据权利要求1所述的方法，其特征在于，将各查询数据输入至基于强化学习的在线产品推荐网络，获取与各待推荐产品对应的产品推荐值，包括：

将各查询数据输入至基于强化学习的在线产品推荐网络，并获取在线产品推荐网络的训练网络的奖赏函数数据；

通过所述在线产品推荐网络的训练网络，获取与所述目标用户的当前状态数据对应的目标用户的推荐动作数据；

通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据，确定所述目标用户的更新状态数据，并更新所述奖赏函数数据，得到更新奖赏函数数据；

通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据、所述更新状态数据和所述更新奖赏函数数据，确定目标值函数数据；

在确定所述目标值函数数据满足收敛条件的情况下，根据所述目标值函数数据更新在线产品推荐网络的更新网络；

根据更新后的在线产品推荐网络的更新网络，获取与各待推荐产品对应的产品推荐值。

6.根据权利要求5所述的方法，其特征在于，在所述获取在线产品推荐网络的训练网络的奖赏函数数据之前，还包括：

根据第三方节点中的用户历史行为数据确定在线产品推荐网络的训练网络的奖赏函数数据。

7.根据权利要求5所述的方法，其特征在于，在所述通过所述在线产品推荐网络的训练网络，根据所述推荐动作数据、所述更新状态数据和所述更新奖赏函数数据，确定目标值函数数据之后，还包括：

在确定所述目标值函数数据未满足收敛条件的情况下，返回执行通过所述在线产品推荐网络的训练网络，获取与所述目标用户的当前状态数据对应的目标用户的推荐动作数据的操作，直至目标值函数数据满足收敛条件。

8.一种产品推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-7中任一项所述的产品推荐方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的产品推荐方法。