CN114528323A

CN114528323A - 一种基于多场景数据融合推荐的方法

Info

Publication number: CN114528323A
Application number: CN202111669757.6A
Authority: CN
Inventors: 韩弘炀; 傅剑文; 陈心童; 章建森; 周文彬
Original assignee: Tianyi Electronic Commerce Co Ltd
Current assignee: Tianyi Electronic Commerce Co Ltd
Priority date: 2021-12-30
Filing date: 2021-12-30
Publication date: 2022-05-24

Abstract

本发明公开了一种基于多场景数据融合推荐的方法，包括以下：(1)采集模块：利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为table_i；应当指出的是，数据采集技术及存储形式包括但不限于以上方式。本专利针对推荐系统中多场景推荐，提出一种基于多场景数据融合推荐的方法，补充了其他场景中的用户交互信息，既丰富了样本又补充了用户真实近期交互物料，能够使用更为丰富的数据进行建模。通过提取用户、物料、场景相关信息建模，利用单个模型充分学习用户在不同场景下对物料的兴趣表征，使得同一用户在不同场景对同样的物料有不同的展示顺序，能够在节省消耗的同时利用简单的模型得到准确的推荐结果。

Description

一种基于多场景数据融合推荐的方法

技术领域

本发明涉及推荐系统领域，特别涉及一种基于多场景数据融合推荐的方法。

背景技术

传统多场景推荐模型都是每个场景构建一个模型，这样缺失了用户在其他场景的交互行为以及用户实际近期交互行为，使得在某些场景下对用户推荐效果不够准确。尽管少量场景使用了此类交互信息，但仅在于增加样本，并未考虑不同场景下用户的兴趣偏好存在差异；

千人千面形式的个性化推荐已在众多生活中的场景发挥其作用，不断智能化地满足用户各方面的喜好，其准确捕捉用户兴趣的来源就是用户大量的交互数据。如何利用好用户的交互数据是推荐系统中的重要环节。目前推荐系统的使用大多都是每个场景构建一个模型，这样无可避免的缺失了用户在其他场景对同样物料行为的交互信息。即使少量场景使用了此类交互信息，也仅在于增加样本，并未考虑不同场景下用户的兴趣偏好存在差异；

针对这一实际背景，本方案提出了一种基于多场景数据融合推荐的方法，既能够利用多个场景中的用户交互信息，又考虑了用户在不同场景下偏好的差异，还能够对于多个场景仅使用单个模型得到每个场景更为准确的推荐结果，节约人力物力资源消耗的同时又简化了模型。

发明内容

本发明要解决的技术问题是克服现有技术的缺陷，提供一种基于多场景数据融合推荐的方法。

本发明提供了如下的技术方案：

本发明提供一种基于多场景数据融合推荐的方法，包括以下：

(1)采集模块：

利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为table_i；应当指出的是，数据采集技术及存储形式包括但不限于以上方式；

(2)数据融合模块：

对于hive中的所有table_i进行样本合并，丰富用户对物料的交互行为，并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence，对于每条样本，曝光样本label记为0，点击样本label记为1，最终存储至hive中记为table_all；

(3)模型训练模块：

a.对于用户近t日点击的场景&物料sequence，将场景和物料的embedding进行concat得到向量序列{V_i}，并将其与样本中场景与物料concat后的embedding V进行attention操作(函数f)，得到对当前样本场景&物料sequence的表征A；

b.利用attention后的结果A，与用户embedding U共同输入一个多层深度网络(函数g)，有效生成用户在不同场景下对不同物料的兴趣偏好表征B；

B＝g(A，B)；

c.使用用户在不同场景下对不同物料的兴趣偏好表征concat非场景特征的其他特征embedding形成向量X_in输入一个多层深度网络进行训练，其损失函数为：

(4)多场景推荐模块：

a.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征，并根据近t日所有表table_i取该用户的场景&物料sequence；

b.利用训练好的模型对结果进行预测，每个场景j生成一个推荐结果表result_j储存在hive中。

与现有技术相比，本发明的有益效果如下：

本专利针对推荐系统中多场景推荐，提出一种基于多场景数据融合推荐的方法，补充了其他场景中的用户交互信息，既丰富了样本又补充了用户真实近期交互物料，能够使用更为丰富的数据进行建模。通过提取用户、物料、场景相关信息建模，利用单个模型充分学习用户在不同场景下对物料的兴趣表征，使得同一用户在不同场景对同样的物料有不同的展示顺序，能够在节省消耗的同时利用简单的模型得到准确的推荐结果。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明算法融合多场景数据推荐算法训练及推断示意图；

图2是本发明的实施流程图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。其中附图中相同的标号全部指的是相同的部件。

实施例1

如图1-2，本发明提供一种基于多场景数据融合推荐的方法，包括以下：

(1)采集模块：

(2)数据融合模块：

(3)模型训练模块：

B＝g(A，B)；

(4)多场景推荐模块：

进一步的，示例如下：

1.利用流技术对用户在第i场景下的曝光和点击数据进行采集并存储至hive中记为table_i。

2.对于hive中的所有table_i进行样本合并，并在样本维度上拼接用户、物料、场景等相关补充特征及回溯样本生成日期前t日用户点击的场景&物料sequence，对于每条样本，曝光样本label记为0，点击样本label记为1，最终存储至hive中记为table_all。

3.将每条样本场景&物料sequence转化为场景和物料embedding拼接后的sequence，并与该条样本中场景与物料拼接后的embedding进行attention操作得到表征A。

4.使用多层深度网络及表征A和用户embeddingU生成用户在不同场景下对不同物料的兴趣偏好表征B。

5.使用表征B拼接非场景特征的其他特征embedding输入多层深度网络进行模型学习。

6.对于每个场景j用SQL取其场景及召回算法对用户召回的物料相应的特征及其补充特征，并根据近t日所有表table_i取该用户的场景&物料sequence。

7.利用训练好的模型对结果进行预测，每个场景j生成一个推荐结果表result_j储存在hive中并将结果推至hbase。

8.用户登录后进入场景j，通过接口调用hbase结果将其顺序展示至前端。

本发明技术要点如下：

1.本发明提出了利用多场景数据进行单模型建模的方法对多场景进行推荐结果输出，能够在获取更准确的结果基础上避免对场景单独建模，降低资源消耗；

2.提出了多场景数据补充的方法，利用不同场景间用户对同类物料交互行为丰富该用户样本及信息，能够提取更多用户偏好信息；

3.提出了用户、场景、物料表征学习的方法，利用多场景数据充分捕捉用户在不同场景下对不同物料的兴趣表征，能够有效提升模型准确性。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于多场景数据融合推荐的方法，其特征在于，包括以下：

(1)采集模块：

(2)数据融合模块：

(3)模型训练模块：

B＝g(A,B)；

(4)多场景推荐模块：