CN113742572A

CN113742572A - 一种数据的推荐方法、装置、电子设备及存储介质

Info

Publication number: CN113742572A
Application number: CN202110886342.8A
Authority: CN
Inventors: 苗壮; 邢萌林; 吕强; 刘森茂
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2021-08-03
Filing date: 2021-08-03
Publication date: 2021-12-03

Abstract

本公开涉及数据处理技术领域，尤其涉及一种数据的推荐方法、装置、电子设备及存储介质，用以解决无法挖掘用户个性化的需求，以及无法基于用户个性化的需求准确地进行数据的推荐的问题，获取用户特征向量后，确定用户对应的候选推荐数据集合，并基于获得的各个数据参数和所述用户特征向量，分别对应的各个预期收益，然后基于预期收益，确定推荐给所述用户的数据，并基于用户的反馈信息，更新对应的目标待推荐数据的数据参数。这样，能够基于用户特征向量预估用户对于候选推荐数据集合中各个候选推荐数据的偏好情况，实现了对于用户个性化需求的挖掘，有助于维持用户的活跃度，同时采用了在线学习的方式，提高了数据推荐的准确性。

Description

一种数据的推荐方法、装置、电子设备及存储介质

技术领域

本公开涉及数据处理技术领域，尤其涉及一种数据的推荐方法、装置、电子设备及存储介质。

背景技术

随着互联网技术的发展，可向用户推荐的各类数据的规模日益庞大，为了使得新发布的各类数据能够被用户操作，通常需要将各类数据针对性的推荐给感兴趣的用户。

相关技术下，在向用户推荐数据时，可以基于用户对于数据的历史操作记录，向用户推荐与操作过的历史数据相似的数据，或者，可以直接向用户推荐热度较高的话题对应的数据，又或者，可以采用诸如epsilon-greedy算法，将数据随机推荐给用户，还或者，可以基于用户的人口统计学特征以及预设的标签特征，预估用户可能感兴趣的数据，并确定对应的推荐数据。

但是，对于现有的数据的推荐方式来说，仅推荐与操作的历史数据相似的数据或者热度较高的话题对象的数据，将无法满足针对各个用户进行个性化推荐的需要，而且极大影响了推荐结果的多样性，同时，无法挖掘用户潜在的喜好，因而无法向用户准确推荐可能感兴趣的数据。

发明内容

本公开实施例提供一种数据的推荐方法、装置、电子设备及存储介质，用以解决现有技术中存在无法挖掘用户个性化的需求，以及无法基于用户个性化的需求准确地进行数据的推荐的问题。

本公开实施例提供的具体技术方案如下：

第一方面，提出一种数据的推荐方法，包括：

获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的；

确定所述用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益；

基于所述预期收益，从所述各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给所述用户，并获得所述用户对所述目标待推荐数据的反馈信息；

基于所述反馈信息，更新对应的目标待推荐数据的数据参数。

可选的，所述基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益，包括：

采用置信区间上界linUCB算法，基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于所述各个候选推荐数据的初始收益和上界浮动收益，并基于各个初始收益和上界浮动收益，分别确定所述用户对于相应的候选推荐数据的预期收益。

可选的，所述数据参数中包括第一数据参数和第二数据参数；所述基于所述反馈信息，更新对应的目标待推荐数据的数据参数，包括：

确定所述反馈信息对应的调整因子，并确定与所述反馈信息对应的目标待推荐数据的数据参数，以及基于所述调整因子与所述用户特征向量的第一点乘结果，对所述数据参数中的第一数据参数进行更新，获得更新后的第一数据参数；

基于所述用户特征向量与所述用户特征向量的转置向量的第二点乘结果，对所述数据参数中的第二数据参数进行更新，获得更新后的第二数据参数。

可选的，所述获取用户对应的用户特征向量，包括：

获取用户在指定历史时间段内的历史行为信息，并基于所述历史行为信息确定所述用户的兴趣数据集合；

确定所述兴趣数据集合中包括的各个兴趣数据，并分别确定所述各个兴趣数据各自对应的内容特征组，以及采用已训练的深度学习模型，基于所述各个兴趣数据的内容特征组分别预测得到对应的拟合行为特征向量；

获取所述各个兴趣数据各自对应的拟合行为特征向量中，各个位置分别对应的向量元素，并将同一位置的各个向量元素加权平均后的结果，作为对应位置的向量新元素，以及将各个位置的向量新元素组成的向量，作为所述用户的用户特征向量。

可选的，兴趣数据的内容特征组中包括以下至少一项或组合：

将兴趣数据关联的文本内容进行分词处理得到分词结果后，采用词至向量算法，对分词结果进行向量化处理，得到向量形式的内容特征；或者，

将在生成所述深度学习模型的训练样本时，对兴趣数据关联的音频内容进行编码处理，得到的第一编码信息，作为对应的兴趣数据的内容特征；或者，

将在生成所述深度学习模型的训练样本时，对兴趣数据关联的图像帧进行编码处理，得到的第二编码信息，作为对应的兴趣数据的内容特征；或者，

将在生成所述深度学习模型的训练样本时，对兴趣数据关联的对象进行编码处理，得到的第三编码信息，作为对应的兴趣数据的内容特征；或者，

将在生成所述深度学习模型的训练样本时，对兴趣数据关联的标签进行编码处理，得到的第四编码信息，作为对应的兴趣数据的内容特征。

可选的，所述采用词至向量算法，对分词结果进行向量化处理后，得到向量形式的内容特征，包括：

按照所述分词结果中各个词语出现的频率，从所述文本内容中筛选出至少一个关键词语，以及采用词至向量word2vec算法，获得所述分词结果对应的各个词向量；

确定所述至少一个关键词语各自对应的词向量，并根据至少一个词向量确定的平均词向量，作为所述兴趣数据的向量形式的内容特征。

可选的，所述将在生成所述深度学习模型的训练样本时，对兴趣数据关联的音频内容进行编码处理，得到的第一编码信息，作为对应的兴趣数据的内容特征，包括：

获取在生成所述深度学习模型的训练样本时，基于各个数据各自关联的音频内容，以及各个音频内容在所述各个数据中出现的总次数，对所述各个音频内容进行排序后，对应所述各个音频内容编码得到的各个第一编码信息；

确定兴趣数据关联的目标音频内容，并获取所述目标音频内容对应的第一编码信息，以及将所述第一编码信息作为对应的兴趣数据的内容特征。

可选的，所述基于所述历史行为信息确定所述用户的兴趣数据集合，包括：

基于所述历史行为信息，确定所述用户在所述指定历史时间段内操作的历史数据，并将历史数据对应的浏览时长超过设定阈值的历史数据，作为兴趣数据添加至针对所述用户设置的兴趣数据集合中；和/或，

基于所述历史行为数据，确定所述用户在所述指定时间段内操作的历史数据，并将存在偏好操作行为的历史数据，作为兴趣数据添加至针对所述用户设置的兴趣数据集合中。

可选的，所述深度学习模型的训练过程包括：

周期性地生成用于训练深度学习模型的训练样本集合；

采用所述训练样本集合，周期性地对所述深度学习模型进行迭代训练，直至所述深度学习模型的损失值连续低于设定值的次数达到指定门限值，其中，所述深度学习模型是基于多层感知机MLP架构搭建的，一条训练样本中包括一个数据的行为特征向量和内容特征组，在一次训练过程中，执行以下操作：

将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，得到所述深度学习模型预测的输出结果；

采用平均平方误差MSE损失函数，基于所述输出结果与所述一个训练样本中行为特征向量之间的元素取值差异，计算所述深度学习模型的损失值，并基于所述损失值，调整所述深度学习模型的模型参数。

可选的，所述周期性地生成用于训练深度学习模型的训练样本集合，包括：

以预设时长为周期，获取各个用户对于各个数据的历史行为信息；

根据所述各个用户对于各个数据的历史行为信息，生成用于表征用户对于数据的操作情况的行为矩阵，并采用交叉最小二乘ALS算法，从所述行为矩阵中分解出所述各个数据各自对应的行为特征向量；

获取各个数据各自对应的内容特征组，并根据所述各个数据各自对应的行为特征向量和内容特征组，分别生成深度学习模型的训练样本集合，其中，所述训练样本集合中的一条训练样本中，包括一个数据的内容特征组和行为特征向量。

可选的，所述将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，得到所述深度学习模型预测的输出结果，包括：

将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，并通过所述深度学习模型构建所述内容特征组中各个内容特征各自对应的内容特征子向量，以及通过所述深度学习模型，将各个内容特征子向量按照预设的顺序组成为内容特征向量；

通过所述深度学习模型，将所述内容特征向量映射为指定维度的中间特征向量，并基于所述中间特征向量预测得到对应的拟合行为特征向量，并将所述拟合行为特征向量作为所述深度学习模型的输出结果，其中，所述拟合行为特征向量与所述行为特征向量的向量维度相同。

可选的，所述通过所述深度学习模型构建所述内容特征组中各个内容特征各自对应的内容特征子向量，包括：

确定所述内容特征组中存在多个相同内容特征类型的内容特征时，通过所述深度学习模型，针对相同内容特征类型的各个内容特征，分别生成对应的同类内容特征子向量，其中，所述深度学习模型能够针对对应各类编码信息设置的默认编码信息，分别构建对应内容特征类型的同类内容特征子向量；

通过所述深度学习模型，将根据各个同类内容特征子向量确定的平均内容特征子向量，作为对应类型的内容特征的内容特征子向量。

第二方面，提出一种数据的推荐装置，包括：

获取单元，用于获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的；

确定单元，用于确定所述用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益；

筛选单元，用于基于所述预期收益，从所述各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给所述用户，并获得所述用户对所述目标待推荐数据的反馈信息；

更新单元，用于基于所述反馈信息，更新对应的目标待推荐数据的数据参数。

可选的，所述基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益时，所述筛选单元用于：

可选的，所述数据参数中包括第一数据参数和第二数据参数；所述基于所述反馈信息，更新对应的目标待推荐数据的数据参数时，所述更新单元用于：

可选的，所述获取用户对应的用户特征向量时，所述获取单元用于：

可选的，所述获取单元在确定兴趣数据的内容特征组时，执行以下至少一项或组合：

可选的，所述采用词至向量算法，对分词结果进行向量化处理后，得到向量形式的内容特征时，所述获取单元用于：

可选的，所述将在生成所述深度学习模型的训练样本时，对兴趣数据关联的音频内容进行编码处理，得到的第一编码信息，作为对应的兴趣数据的内容特征时，所述获取单元用于：

可选的，所述基于所述历史行为信息确定所述用户的兴趣数据集合时，所述获取单元用于：

可选的，所述装置还包括训练单元，所述训练单元在所述深度学习模型的训练过程，执行以下操作：

周期性地生成用于训练深度学习模型的训练样本集合；

可选的，所述周期性地生成用于训练深度学习模型的训练样本集合时，所述训练单元用于：

可选的，所述将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，得到所述深度学习模型预测的输出结果时，所述训练单元用于：

可选的，所述通过所述深度学习模型构建所述内容特征组中各个内容特征各自对应的内容特征子向量时，所述训练单元用于：

第三方面，提出一种电子设备，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行上述第一方面中任一所述方法的步骤。

第四方面，提出一种计算机可读存储介质，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行上述第一方面中任一所述方法的步骤。

本发明有益效果如下：

本公开实施例中，获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的，再确定所述用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益，然后基于所述预期收益，从所述各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给所述用户，并获得所述用户对所述目标待推荐数据的反馈信息，再基于所述反馈信息，更新对应的目标待推荐数据的数据参数。

这样，处理设备在根据用户的兴趣数据确定用户特征向量后，能够基于用户特征向量预估用户对于候选推荐数据集合中各个候选推荐数据的偏好情况，实现在候选推荐数据集合中确定用户潜在感兴趣的目标待推荐数据，实现了对于用户个性化需求的挖掘，有助于维持用户的活跃度，进而，能够基于用户对于目标待推荐数据的反馈信息，对目标待推荐数据对应的数据参数进行更新，相当于采用了在线学习的方式，能够根据用户对于数据的反馈情况，及时调整数据对应的数据参数，使得在后续的推荐中基于调整后的数据参数进行处理，提高数据推荐的准确性。

附图说明

图1a为本公开实施例中深度学习模型的训练流程示意图；

图1b为本公开实施例中训练样本的生成流程示意图；

图1c为本公开实施例中行为矩阵示意图；

图2a为本公开实施例中数据的推荐流程示意图；

图2b为本公开实施例中确定用户特征向量的流程示意图；

图3为本公开实施例中推荐新发布视频数据的过程示意图；

图4为本公开实施例中数据的推荐装置的逻辑结构示意图；

图5为本公开实施例中数据的推荐装置的实体结构示意图。

具体实施方式

为了使本公开的目的、技术方案及有益效果更加清楚明白，以下结合附图及实施例，对本公开进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本公开，并不用于限定本公开。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

为了方便理解，下面对本公开实施例中涉及的名词进行解释：

多模态：本公开实施例中，将每一种信息的来源或者形式，分别称为一种模态，如，视频数据中包括的媒介可能是语音、视频数据、文字等，可以将上述媒介中的任一种作为一种模态。在本公开实施例中，多模态指的是数据中可能包含的文本、图像、歌曲、艺人和标签等信息。

冷启动：由于新用户或新数据在推荐系统中往往是没有过往信息积累的，故需要通过累计一定的曝光量和互动量来收集基础数据。本公开实施例中，将推荐新发布的数据的过程，称为数据的冷启动。

Bandit算法：为了解决多臂赌博机问题(multi-armed bandit problem，MAB)而提出的算法，能够在不确定收益的情况下选择实现收益最大化。本公开实施例中，借助于MAB机制解决新数据的冷启动问题，具体的过程可以理解为，对于进入推荐系统的新发布的数据，可以按照一定的策略推荐给用户，如果用户对该数据感兴趣，那么就能够基于用户对该数据的操作情况，获得相应的收益，否则就不获得收益。

Embedding：将特征经过身份标识(Identity，ID)映射转化为向量表示即为嵌入(embedding)。本公开实施例中，用于将处理设备无法识别的特征，进行数值化处理，转换为统一向量空间的特征。基于各个特征各自的embedding之间的相似度，能够衡量对应的特征之间的相似度。

平均平方误差(mean-square error，MSE)：是应用于机器学习与深度学习的一种常见损失函数，它是误差的平方的期望，公式表示为：MSE＝E((T-θ)²)，其中，T为预测值，θ为目标值。

多层感知机(Multilayer Perceptron，MLP)：一种前向结构的人工神经网络模型，包含输入层、输出层和多个隐藏层，且MLP能够实现特征的高阶交叉。

交叉最小二乘法(Alternating Least Squares，ALS)：是一种常见的矩阵分解算法，能够拟合用户对物品的偏好程度，并且生成用户和物品的embedding。

收益：本公开实施例中，是指向用户推荐数据后，针对用户对于被推荐的数据的反馈操作设置的权值，所述反馈操作具体如，用户的点击、点赞、转发、评论等等，换言之，在向用户推荐数据后，根据用户对于数据的反馈操作，确定向用户推荐该数据所能够得到的收益。

服务器：可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务以及大数据和人工智能平台等基础云计算服务的云服务器。

终端设备：可以是移动终端、固定终端或便携式终端，例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统设备、个人导航设备、个人数字助理、音频/视频数据播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合，包括这些设备的配件和外设或者其任意组合。还可预见到的是，终端设备能够支持任意类型的针对用户的接口(例如可穿戴设备)等。

下面参考本公开的若干代表性实施方式，详细阐释本公开的原理和精神。

相关技术下，在向用户推荐数据时，一些实现方式中，可以基于用户对于数据的历史操作记录，确定用户曾经感兴趣的内容，进而向用户推荐类似的数据，这也就极大的限制了向用户推荐的数据的多样性，向用户推荐的数据只能局限于指定类型，无法兼顾用户个性化的需求和可能随时会发生变化的兴趣，无法保证向用户推荐的数据能够满足用户的使用需要。

相关技术下的另一些实现方式中，可以采用已有的推荐算法，向用户随机推荐平均收益最高的数据，或者，仅基于用户的人口统计学特征，如，年龄，性别等特征，以及用户关联的偏好标签特征，确定用户可能偏好的数据，这样，基于简单表征用户属性的特征，无法准确挖掘用户潜在的偏好，进而无法准确把握用户的个性化需求，使得无法向用户准确的推荐数据。

应用场景总览

本公开所提出的数据的推荐方法，可以应用于对各类多媒体数据进行推荐的场景，本公开中推荐的数据可以是文本数据，如，小说、论文、新闻等内容的推荐，推荐的数据也可以是音频数据，如，音乐等内容的推荐，推荐的内容还可以是视频数据等内容。在本公开一些可能的应用场景中，可以针对新发布的多媒体数据进行推荐，实现新发布的多媒体数据的冷启动。

本公开提出的技术方案中，在向用户进行数据推荐时，处理设备获取采用已训练的深度学习模型，根据用户关联的各个兴趣数据，预测得到的用户特征向量，进而确定用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，其中，所述数据参数用于辅助预估将对应的候选推荐数据推送给用户后能够得到的收益。进而基于获得的各个数据参数和用户特征向量，预估所述用户对于所述候选推荐数据集合中各个候选推荐数据的预期收益。所述处理设备再基于确定的各个预期收益，从候选推荐数据集合中筛选出推荐给用户的目标待推荐数据，并将确定的目标待推荐数据推荐给用户，以及基于用户对于目标待推荐数据的反馈信息，更新对应的目标待推荐数据的数据参数。

具体的，本公开实施例中，在不同的应用场景下，可以选择性的配置候选推荐数据集合中包括的内容，如，在数据冷启动的场景下，可以基于新发布的数据生成候选推荐数据集合，使得在实际的推荐过程中，向用户推荐新发布的数据，且本公开提出的技术方案中，无论是新发布的数据，还是已经存在操作记录的数据，均存在对应的数据参数，对于每个数据来说，其对应的数据参数是全局性的，其中，所述全局性是指所述数据参数能够根据任何用户的反馈信息进行调整，且能够响应于各个用户的历史行为信息，对数据对应的数据参数进行维护。

示例性方法

需要说明的是，本公开实施例中，进行深度学习模型训练的第一处理设备，与进行数据推荐的第二处理设备可以为同一个处理设备，或者，可以为能够交互的不同的处理设备，所述第一处理设备和所述第二处理设备可以是服务器或者具有处理能力的终端设备，本公开不对所述第一处理设备和所述第二处理设备的类型进行具体限定。在本公开一些可能的实现方式中，可以由第一处理设备完成深度学习模型的训练后，将已训练的模型发送至第二处理设备，进行处理。以下的说明中，仅以一个处理设备既实现深度学习模型的训练，又实现数据的推荐为例，对本公开所提出的数据的推荐方法进行说明，其中，所述处理设备可以是服务器或者可以是终端设备。

下面结合附图，对本公开的实施方式进行详细说明：

下面首先对本公开实施例中，深度学习模型的训练过程进行说明：

参阅图1a所示，其为本公开实施例中深度学习模型的训练流程示意图：

步骤101：处理设备周期性地生成用于训练深度学习模型的训练样本集合。

处理设备在执行步骤101时，可以通过执行以下步骤，生成训练样本集合。

参阅图1b所示，其为本公开实施例中训练样本的生成流程示意图，下面结合附图1b进行详细说明：

步骤1011：处理设备以预设时长为周期，获取各个用户对于各个数据的历史行为信息。

本公开实施例中，为了保证深度学习模型的有效性和准确性，可以以预设时长为周期，周期性的获取全局范围内的各个用户对于全局范围内的各个数据的历史行为信息，其中，预设时长可以根据实际的处理需要进行配置，如，配置为1天。

需要说明的是，本公开实施例中，处理设备可以根据实际处理需要，选择性的获取截止至当前时间为止的全部数据，或者，考虑到距离当前时间较远的数据的参考性较差，处理设备可以选择性的获取截止至当前时间的一段历史时间段内的全部数据，其中，所述全部数据是指在指定时间段内，全局范围内的各用户对于全局范围内的各个数据的历史行为信息，所述全局范围内的各用户，指代记录有对于数据的历史行为信息的全部用户，所述全局范围内的各个数据，指代已发布的全部数据。

步骤1012：处理设备根据各个用户对于各个数据的历史行为信息，生成用于表征用户对于数据的操作情况的行为矩阵，并采用ALS算法，从所述行为矩阵中分解出所述各个数据各自对应的行为特征向量。

具体的，处理设备获取历史行为信息之后，建立表征各个用户对于各个数据的操作情况的行为矩阵，其中，所述历史行为信息中记录有用户对于数据的操作。

本公开实施例中，处理设备可以将用户对于数据的历史行为信息进行量化处理，具体可以针对用户对于数据的不同操作，配置不同的数值评分，进而根据用户对数据的历史行为信息确定该用户对于该数据的评分，进而基于各个用户对于各个数据的评分，生成行为矩阵，同时，考虑到对于一个用户来说，可能存在用户未曾操作过的数据，故可以将行为矩阵中不对应实际历史行为信息的位置，进行初始化赋值，其中，赋予的初始值根据实际处理需要确定，在此不做过多限制。

例如，假设当前的各个数据具体为视频数据，处理设备可以将用户对于视频数据的历史行为信息进行量化处理，具体可以针对用户对于视频数据的不同操作，配置不同的数值评分，进而根据用户对视频数据的历史行为信息确定该用户对于该视频数据的评分，进而基于各个用户对于各个视频数据的评分，生成行为矩阵。

又例如，参阅图1c所示，其为本公开实施例中行为矩阵示意图，假设针对用户对视频数据的转发操作配置的数值评分为5，针对用户对视频数据的评论操作配置的数值评分为3，以及针对用户对视频数据的点赞操作配置的数值评分为1，全局范围内存在m个用户和n个视频数据，则根据用户对于数据的历史行为信息，可以得到图1c所示意的行为矩阵，其中，行为矩阵中的“*”表示该位置用户未对相应的视频数据产生历史行为信息，可以将“*”所对应的位置进行初始化赋值，如，将图1c中的行为矩阵中的“*”赋值为0。

进一步的，处理设备建立行为矩阵后，可以采用ALS算法，从行为矩阵中分解出各个数据各自对应的行为特征向量。

具体的，处理设备可以根据实际的处理需要确定行为特征向量的维度，进而采用ALS算法，将行为矩阵进行分解，得到各个数据各自对应的指定维度的行为特征向量，其中，由于行为矩阵是基于用户对于数据的历史行为信息构建的，故命名为行为矩阵，进而将基于行为矩阵分别得到的，数据对应的向量称为行为特征向量。

例如，假设行为矩阵的维度为m*n，m表征用户的总数，n表示数据的总数，指定的行为特征向量维度为z，则可以采用ALS算法，将m*n的行为矩阵，拆分为m*z，以及n*z的矩阵，使得针对每个数据，能够得到对应的z维的向量，作为数据对应的行为特征向量。

这样，处理设备基于全局范围内的用户对于数据的历史行为信息，建立了行为矩阵，进而针对每个数据，分别确定了指定维度的行为特征向量，相当于在融合了海量的用户历史行为信息的情况下，根据各个用户对于数据的反馈情况，确定数据的向量表示，使得针对数据生成的行为特征向量更具参考价值。

步骤1013：处理设备获取各个数据各自对应的内容特征组，并根据所述各个数据各自对应的行为特征向量和内容特征组，分别生成深度学习模型的训练样本集合。

处理设备在生成训练样本集合时，获取各个数据各自对应的内容特征组，并基于一个数据的内容特征组和行为特征向量，生成训练样本集合中的一条训练样本，下面对确定数据对应的内容特征组的过程进行说明：

本公开实施例中，考虑到数据可能是视频数据，或者，可能是文本数据，又或者，可能是音频数据，故处理设备在确定一个数据对应的内容特征时，提取的内容特征根据实际的处理需要，可能是以下的任意一项或组合：

A、将数据关联的文本内容进行分词处理得到分词结果后，采用词至向量算法，对分词结果进行向量化处理，得到向量形式的内容特征。

具体的，处理设备确定数据关联的文本内容后，首先对所述文本内容进行分词处理，得到针对所述文本内容的分词结果，其中，按照数据类型的不同，所述文本内容可以是以下任意一种内容或组合：数据的简介；数据的标题；数据的用户评论；数据的字幕；数据的正文。

例如，在向用户推荐视频数据的场景下，基于视频数据生成训练样本时，可以将视频数据的简介，作为视频数据关联的文本内容。

进一步的，处理设备可以按照所述分词结果中各个词语出现的频率，从所述文本内容中筛选出至少一个关键词语，以及采用词至向量(word2vec)算法，获得所述分词结果对应的各个词向量，再确定所述至少一个关键词语各自对应的词向量，并根据至少一个词向量确定的平均词向量，作为所述数据的向量形式的内容特征。

具体的，处理设备在对数据关联的文本内容进行分词处理后，可以选择性的从分词得到的各个词语中，按照词语出现的频率，筛选出现频率最高的指定数目的词语，作为关键词语，进而采用word2vec算法，获得各个关键词语各自对应的词向量，进而将根据各个词向量确定的平均词向量，作为对应的兴趣数据的一个内容特征。

例如，假设对于一个视频数据X，根据视频数据X的简介，分词得到3个关键词，分别为关键词1、关键词2，以及关键词3，进而采用word2vec算法，得到关键词1对应的词向量为(X11、X21、X31…Xz1)，关键词2对应的词向量为(X12、X22、X32…Xz2)，以及关键词3对应的词向量为(X13、X23、X33…Xz3)，因而，处理后得到视频数据X对应的一个内容特征为

B、将各个数据各自关联的音频内容进行编码处理，得到的各个音频内容各自对应的第一编码信息，并根据各个第一编码信息，分别确定对应数据中的音频内容的内容特征。

具体的，处理设备确定各个数据中各自包括的音频内容后，可以选择性的按照音频内容在所述各个数据中出现的总次数，对音频内容进行排序，并按照排序的顺序，对各个音频内容进行编码，得到各个音频内容各自对应的第一编码信息，其中，所述第一编码信息用于将音频内容标记为深度学习模型能够处理的形式。

需要说明的是，本公开实施例中，在针对音频内容进行编码处理时，对于在所述各个数据中出现的总次数低于第一设定阈值的音频内容，可以配置统一的默认编码；在所述各个数据中出现的总次数高于第一设定阈值的音频内容中，对于出现的总次数相同的各个音频内容，可以随机进行先后排序。

例如，假设第一设定阈值的取值为1，获取的音频内容的总数为77个，且根据音频内容在获得的各个数据中出现的总次数，确定存在17个音频内容对应的总次数为1，且存在5个音频内容：音频内容1-5，对应的总次数并列最高，则可以按照随机的排序方式，对音频内容1-5进行排序，进而按照排序结果进行编码，以及将对应的总次数为1的17个音频内容，统一编码为默认编码。

C、将各个数据各自关联的图像帧进行编码处理，得到的各个图像帧各自对应的第二编码信息，并根据各个第二编码信息，分别确定对应数据中的图像帧的内容特征。

具体的，处理设备确定各个数据中各自包括的图像帧后，以选择性的按照图像帧在所述各个数据中出现的总次数，对图像帧进行排序，并按照排序的顺序，对各个图像帧进行编码，得到各个图像帧各自对应的第二编码信息，其中，所述第二编码信息用于将图像帧标记为深度学习模型能够处理的形式。

需要说明的是，本公开实施例中，在针对图像帧进行编码处理时，对于在所述各个数据中出现的总次数低于第二设定阈值的图像帧，可以配置统一的默认编码；在所述各个数据中出现的总次数高于第二设定阈值的图像帧中，对于出现的总次数相同的各个图像帧，可以随机进行先后排序。

例如，假设数据为视频数据，则可以视频数据的封面图像，作为视频数据的图像帧，进而进行排序编码。

D、将各个数据各自关联的对象进行编码处理，得到的各个对象各自对应的第三编码信息，并根据各个第三编码信息，分别确定对应数据中的对象的内容特征。

具体的，处理设备确定各个数据中各自包括的对象后，以选择性的按照对象在所述各个数据中出现的总次数，对各个对象进行排序，并按照排序的顺序，对各个对象进行编码，得到各个对象各自对应的第三编码信息，其中，所述第三编码信息用于将对象标记为深度学习模型能够处理的形式。

需要说明的是，本公开实施例中，在针对对象进行编码处理时，对于在所述各个数据中出现的总次数低于第三设定阈值的对象，可以配置统一的默认编码；在所述各个数据中出现的总次数高于第三设定阈值的对象中，对于出现的总次数相同的各个对象，可以随机进行先后排序。

例如，假设数据为视频数据，则可以视频数据关联的演艺人员，作为数据关联的对象。

E、将各个数据各自关联的标签进行编码处理，得到的各个标签各自对应的第四编码信息，并根据各个第四编码信息，分别确定对应数据中的标签的内容特征。

具体的，处理设备确定各个数据中各自包括的标签后，以选择性的按照标签在所述各个数据中出现的总次数，对各个标签进行排序，并按照排序的顺序，对所述各个标签进行编码，得到各个标签各自对应的第四编码信息，其中，所述第四编码信息用于将标签标记为深度学习模型能够处理的形式。

需要说明的是，本公开实施例中，在针对标签进行编码处理时，对于在所述各个数据中出现的总次数低于第四设定阈值的标签，可以配置统一的默认编码；在所述各个数据中出现的总次数高于第四设定阈值的标签中，对于出现的总次数相同的各个标签，可以随机进行先后排序。

例如，假设数据为视频数据，可以将视频数据关联的，在运营阶段标注的分类标签，作为视频数据关联的标签。

进一步的，处理设备可以根据实际的处理需要，基于上述A-E所示意的内容特征，生成数据对应的内容特征组，并将一个数据对应的内容特征组作为输入样本，以及将所述一个数据对应的行为特征向量作为输出样本，生成一条训练样本，进而基于生成的各条训练样本建立训练样本集合。

这样，在生成训练样本时，融合了数据的多模态特征，相当于从不同的角度提取数据的内容特征，为后续数据的准确推荐提供了依据，而且，生成的训练样本中包括内容特征组和行为特征向量，为深度学习模型根据数据的内容特征学习到行为特征提供了依据。

步骤102：处理设备采用训练样本集合，周期性地对深度学习模型进行迭代训练，直至所述深度学习模型的损失值连续低于设定值的次数达到指定门限值。

处理设备获得训练样本集合后，采用所述训练样本集合中的训练样本，对深度学习模型进行迭代训练，直至所述深度学习模型的损失值连续低于设定值的次数达到指定门限值，其中，所述深度学习模型可以是基于多层感知机MLP架构搭建的，一条训练样本中包括一个数据的行为特征向量和内容特征组。

需要说明的是，本公开实施例中，在一次训练过程中，可以根据实际的处理需要，输入设定数目的输入样本，同时进行训练，为了便于描述，以下的叙述中将仅以基于一个训练样本对深度学习模型进行训练为例，对一次训练过程中，执行的操作进行说明。

具体的，在一次训练过程中，处理设备执行以下操作：

S1：处理设备将一个训练样本中的内容特征组，作为输入样本输入深度学习模型中，得到所述深度学习模型预测的输出结果。

本公开实施例中，当一个训练样本的内容特征组中，不同类型内容特征的数目都仅为一个时，处理设备可以将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，并通过所述深度学习模型构建所述内容特征组中各个内容特征各自对应的内容特征子向量，以及通过所述深度学习模型，将各个内容特征子向量按照预设的顺序组成为内容特征向量，再通过所述深度学习模型，将所述内容特征向量映射为指定维度的中间特征向量，并基于所述中间特征向量预测得到对应的拟合行为特征向量，并将所述拟合行为特征向量作为所述深度学习模型的输出结果，其中，所述拟合行为特征向量与所述行为特征向量的向量维度相同。

具体的，处理设备将内容特征组输入待训练的深度学习模型中后，采用所述深度学习模型，针对所述内容特征组中的各个内容特征，分别生成对应的内容特征子向量，进而将获得的各个内容特征子向量拼接得到内容特征向量，再将拼接得到的内容特征向量作为MLP网络的输入，通过所述MLP网络的处理，将所述内容特征向量映射为指定维度的中间特征向量，进而基于所述中间特征向量，预测得到对应的拟合行为特征向量，以实现将内容特征向量映射到与行为特征向量相同的向量空间内，其中，对应不同类型的内容特征生成的内容特征子向量的维度可能不同。

需要说明的是，在针对内容特征组中的编码信息，生成内容特征子向量时，在初始的训练周期内，采用深度学习模型通过随机初始化的方式，针对编码信息生成对应的随机初始化的内容特征子向量，而在后续的训练周期内，可以将在前的一个训练周期中调整得到的内容特征子向量，作为在后的一个训练周期中对应的内容特征子向量的初始值。特殊的，对于文本内容对应的内容特征子向量，可以直接沿用生成的向量形式的内容。

这样，在一次的训练过程中，将数据的内容特征组输入待训练的深度学习模型后，使得深度学习模型能够针对内容特征组中包括的各类内容特征，进行适应性的处理。

特殊的，本公开实施例中，处理设备确定所述内容特征组中存在多个相同内容特征类型的内容特征时，通过所述深度学习模型，针对相同内容特征类型的各个内容特征，分别生成对应的同类内容特征子向量，其中，所述深度学习模型能够针对对应各类编码信息设置的默认编码信息，分别构建对应的内容特征子向量，并能够在分别构建对应相同内容特征类型的同类内容特征子向量之后，将相同内容特征类型的各个同类内容特征子向量之间的加权平均结果，作为对应类型的内容特征的内容特征子向量。

例如，假设一个视频数据对应的内容特征组中，存在多个用于表征音频内容的编码信息，那么，将内容特征组输入待训练的深度学习模型后，通过深度学习模型可以针对每个音频内容对应的编码信息生成对应的同类内容特征子向量，进而，通过所述深度学习模型，将各个同类内容特征子向量的加权平均结果，作为音频内容对应的内容特征子向量，其中，计算加权平均结果时使用的权重可以是学习得到的，或者是，使用的权重可以是预先设置的，如均预先设置为1。

这样，当内容特征组中存在多个同类内容特征时，为了保证处理的一致性，处理设备可以将同类内容特征对应的同类内容特征子向量进行融合，使得针对一类内容特征，最终只生成一个相应维度的内容特征子向量。

S2：处理设备采用MSE损失函数，基于输出结果与一个训练样本中行为特征向量之间的元素取值差异，计算深度学习模型的损失值，并基于所述损失值，调整所述深度学习模型的模型参数。

具体的，处理设备采用MSE损失函数，通过最小化深度学习模型的输出结果和行为特征向量之间的MSE损失，实现对所述深度学习模型的训练，其中，所述深度学习模型的输出结果记为拟合行为特征向量。

在此基础上，处理设备重复S1-S2所示意的训练操作，直至损失函数收敛，换言之，处理设备确定所述深度学习模型的损失值持续低于设定值的次数达到指定门限值，则可判定模型收敛。

这样，处理设备能够得到完成训练的深度学习模型，使得通过所述深度学习模型，能够实现基于数据的内容特征组，预测得到数据对应的拟合行为特征向量，为新发布的数据的推荐提供了处理依据。

可选择的，处理设备获得当前训练周期下，训练得到的深度学习模型之后，可以保存训练完成的所述深度学习模型，并在向用户推荐数据之前，通过所述深度学习模型生成数据推荐池中各个数据的拟合行为特征向量，用以后续直接用以预测用户的偏好情况。

参阅图2a所示，其为本公开实施例中数据的推荐流程示意图，下面结合附图2a，对处理设备基于训练完成的深度学习模型，进行数据推荐的过程进行说明：

步骤201：处理设备获取用户特征向量。

具体的，在执行步骤201时，处理设备可以通过执行以下步骤，获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的，所述深度学习模型用于实现特征的映射，具体用于将数据的内容特征，映射为对应的拟合行为特征向量。

需要说明的是，本公开一些可能的实施例中，还可以直接基于用户的基础特征进行深度学习，生成用户特征向量，其中，所述基础特征可以是用户的人口统计学特征及用户对于数据的操作序列特征等等。本公开另一些可能的实施例中，可以基于用户在指定历史时间段内的兴趣数据，根据兴趣数据对应的拟合行为特征向量，得到用户的用户特征向量，以下的描述中，仅以基于用户的兴趣数据确定用户特征向量为例进行详细说明。

参阅图2b所示，其为本公开实施例中确定用户特征向量的流程示意图。

步骤2011：处理设备获取用户在指定历史时间段内的历史行为信息，并基于所述历史行为信息确定所述用户的兴趣数据集合。

具体的，处理设备可以采用以下方式中的任意一种或组合，根据用户在指定历史时间段内的历史行为信息，确定用户的兴趣数据集合，其中，所述指定历史时间段可以根据实际的使用需要进行配置，本公开在此不做过多限制。

方式一、处理设备基于用户对历史数据的浏览时长，确定用户的兴趣数据集合。

具体的，处理设备基于用户的历史行为信息，确定所述用户在指定历史时间段内操作的历史数据，并将历史数据对应的浏览时长超过设定阈值的历史数据，作为兴趣数据添加至针对所述用户设置的兴趣数据集合中，其中，所述设定阈值的取值根据实际的处理需要进行适应性设置。

例如，假设根据用户7日内的历史数据，确定用户的兴趣数据集合，且设定阈值的取值为30s，则处理设备获取7日内用户操作的各条历史数据，并将各条历史数据中，对应的浏览时间超过30s的历史数据，作为兴趣数据添加至针对该用户设置的兴趣数据集合中。

方式二、基于用户对历史数据的偏好历史行为信息，确定用户的兴趣数据集合。

具体的，处理设备基于用户的历史行为数据，确定所述用户在指定时间段内操作的历史数据，并将存在偏好操作行为的历史数据，作为兴趣数据添加至针对所述用户设置的兴趣数据集合中，其中，所述存在偏好操作行为的历史数据包括存在用户的点赞、转发、收藏，以及评论等任意一项操作的历史数据。

这样，借助于对指定历史时间段内用户的历史行为数据的分析，能够有效把握用户在指定历史时间段内用户对于数据的兴趣，为实现向用户推荐可能感兴趣的数据提供了依据。

步骤2012：处理设备确定所述兴趣数据集合中包括的各个兴趣数据，并分别确定所述各个兴趣数据各自对应的内容特征组，以及采用已训练的深度学习模型，基于所述各个兴趣数据的内容特征组分别预测得到对应的拟合行为特征向量。

具体的，处理设备确定用户的兴趣数据集合后，针对兴趣数据集合中的每个兴趣数据，处理设备执行以下操作：确定一个兴趣数据对应的内容特征组，并采用已训练的深度学习模型，基于所述一个兴趣数据的内容特征组，预测所述一个兴趣数据对应的拟合行为特征向量。

下面首先对获取兴趣数据对应的内容特征组的过程进行说明，可以理解的是，处理设备在执行数据的推荐流程时，采用的是已训练的深度学习模型进行处理的，因而在确定兴趣数据对应的内容特征组时，处理设备基于距离当前最近的一次训练深度学习模型过程中所使用的训练样本集合，确定兴趣数据对应的内容特征组，其中，在不同推荐的数据推荐场景下，处理设备对应不同类型的数据建立的内容特征组中，可能包括不同的内容特征，因而建立的内容特征组中可能包括以下内容特征中的至少一项或组合：

A1、处理设备将兴趣数据关联的文本内容进行分词处理得到分词结果后，采用词至向量算法，对分词结果进行向量化处理，得到向量形式的内容特征。

具体的，在根据兴趣数据的文本内容生成向量形式的内容特征时，可以继续采用步骤1013的A项中示意的过程，采用word2vec算法，基于分词处理后的文本内容，生成向量形式的内容特征。

B1、处理设备将在生成所述深度学习模型的训练样本时，对兴趣数据关联的音频内容进行编码处理，得到的第一编码信息，作为对应的兴趣数据的内容特征。

本公开实施例中，处理设备提取一个兴趣数据中的至少一个音频内容，并根据距离当前最近的一个训练过程中使用的训练样本，确定所述至少一个音频内容各自对应的第一编码信息。

具体的，处理设备获取在生成所述深度学习模型的训练样本时，基于各个数据各自关联的音频内容，以及各个音频内容在所述各个数据中出现的总次数，对所述各个音频内容进行排序后，对应所述各个音频内容编码得到的各个第一编码信息，再确定兴趣数据关联的目标音频内容，并获取所述目标音频内容对应的第一编码信息，以及将所述第一编码信息作为对应的兴趣数据的内容特征。

特殊的，若当前的兴趣数据中，包括未对应第一编码信息的音频内容X，则将在生成深度学习模型的训练样本的过程中，对应音频内容建立的默认编码，设置为音频内容X对应的第一编码信息。

这样，兴趣数据的内容特征组的确定，依赖于构建的最新完成训练的深度学习模型的训练样本，沿用生成所述训练样本时的编码结果，生成兴趣数据的音频内容对应的第一编码信息，保证了前后处理过程的一致性，与此同时，考虑到深度学习模型的训练周期，与数据推荐过程的时间差异，可能造成基于用户的历史行为信息确定的兴趣数据，未包含在最近一次的深度学习模型的训练样本中，故通过将未关联第一编码信息的音频内容配置为默认编码，提高了兴趣数据的可处理性。

C1、处理设备将在生成所述深度学习模型的训练样本时，对兴趣数据关联的图像帧进行编码处理，得到的第二编码信息，作为对应的兴趣数据的内容特征。

具体的，处理设备提取一个兴趣数据中的至少一个图像帧，并根据距离当前最近的一个训练过程中使用的训练样本，确定所述至少一个图像帧各自对应的第二编码信息。

特殊的，若当前的兴趣数据中，包括未对应第二编码信息的图像帧X，则将在生成深度学习模型的训练样本的过程中，对应图像帧建立的默认编码，设置为图像帧X对应的第二编码信息。

D1、处理设备将在生成所述深度学习模型的训练样本时，对兴趣数据关联的对象进行编码处理，得到的第三编码信息，作为对应的兴趣数据的内容特征。

具体的，处理设备提取一个兴趣数据中的至少一个对象，并根据距离当前最近的一个训练过程中使用的训练样本，确定所述至少一个对象各自对应的第三编码信息。

特殊的，若当前的兴趣数据中，包括未对应第三编码信息的对象X，则将在生成深度学习模型的训练样本的过程中，对应对象建立的默认编码，设置为对象X对应的第三编码信息。

E1、处理设备将在生成深度学习模型的训练样本时，对兴趣数据关联的标签进行编码处理，得到的第四编码信息，作为对应的兴趣数据的内容特征。

具体的，处理设备提取一个兴趣数据中的至少一个标签，并根据距离当前最近的一个训练过程中使用的训练样本，确定所述至少一个标签各自对应的第四编码信息。

特殊的，若当前的兴趣数据中，包括未对应第四编码信息的标签X，则将在生成深度学习模型的训练样本的过程中，对应标签建立的默认编码，设置为标签X对应的第四编码信息。

这样，基于步骤A1-E1中所示意的内容特征的确定过程可知，处理设备基于在生成深度学习模型的训练样本时，针对各类内容特征所编码的内容，完成兴趣数据的内容特征组的构建，建立了能够使用已训练的深度学习模型进行处理的数据形式，保证了数据推荐过程的有效进行。

处理设备基于A1-E1的步骤，构建兴趣数据对应的内容特征组后，将对应各个兴趣数据分别构建的内容特征组，分别输入至已训练的深度学习模型中，得到深度学习模型针对所述各个兴趣数据分别预测得到的拟合行为特征向量。

例如，在实际的处理过程中，对于一个兴趣数据X来说，假设该兴趣数据关联有3个音频内容：音频内容1-3，2个标签：标签1-2，那么，内容特征组中，包括{音频内容1对应的第一编码信息，音频内容2对应的第一编码信息，音频内容3对应的第一编码信息，标签1对应的第四编码信息，标签2对应的第四编码信息}。

需要说明的是，本公开实施例中，在生成数据对应的拟合行为特征向量时，可以在深度学习模型训练完成后，针对待推荐池中现存的各个待推荐数据，采用已训练的深度学习模型，分别基于待推荐数据的内容特征组，生成对应的拟合行为特征向量，以便后续进行数据推荐时使用，或者，可选择地，处理设备可以根据数据推荐过程中的处理需要，在线采用已训练的深度学习模型，对应确定的兴趣数据生成对应的拟合行为特征向量。

本公开实施例中，对于不同训练周期训练得到的深度学习模型进行数据推荐时，对应兴趣数据生成的内容特征组中，同一内容关联的编码结果可能不同。

例如，在第一次周期性训练完成后，处理设备基于对应第一次周期性训练生成的训练样本，确定对应ID为“1234”的音频内容，配置的第一编码结果为“1”，则在第二次周期性训练完成后，处理设备基于对应第二次周期性训练生成的训练样本，确定对应ID为“1234”的音频内容对应的第一编码结果可能是“10”。

这样，基于不同训练周期得到的深度学习模型进行数据推荐时，能够基于当前训练周期生成的训练样本，确定兴趣数据对应的内容特征组中包括的内容，使得能够基于最新确定的编码信息，确定兴趣数据中包括的内容特征，能够实现对于兴趣数据的准确表征。

步骤2013：处理设备获取各个兴趣数据各自对应的拟合行为特征向量中，各个位置分别对应的向量元素，并将同一位置的各个向量元素加权平均后的结果，作为对应位置的向量新元素，以及将各个位置的向量新元素组成的向量，作为用户的用户特征向量。

本公开实施例中，处理设备获取各个兴趣数据各自对应的拟合行为特征向量后，将获得的各个拟合行为特征向量进行加权平均，得到用户的用户特征向量。

具体的，处理设备可以获取各个兴趣数据各自对应的拟合行为特征向量中，各个位置分别对应的向量元素，并将同一位置的各个向量元素加权平均后的结果，作为对应位置的向量新元素，以及将各个位置的向量新元素组成的向量，作为用户的用户特征向量，其中，所述各个向量元素各自对应的权值可以根据实际的处理需要自行设置。

例如，假设用户的兴趣数据为：兴趣数据1和兴趣数据2，且根据已训练的深度学习模型确定的拟合行为特征向量分别为：[1，0，…1，0]和[0，1，…0，1]，则可以计算得到用户特征向量为[0.5，0.5，…，0.5，0.5]。

需要说明的是，本公开一些可能的实现方式中，处理设备可以预先针对各个用户分别确定对应的用户特征向量，并将生成的用户特征向量存储到缓存，以便后续在线进行数据推荐时能够使用预先离线获得的用户特征向量进行处理。

这样，由于深度学习模型是基于海量的用户行为信息和数据内容特征组，训练得到的，相当于在深度学习模型的训练过程中，融合了海量的用户行为信息，使得后续处理设备通过聚合用户的历史兴趣数据对应的拟合行为特征向量，得到的用户特征向量，能够有效表征用户的偏好，提高了后续推荐过程的准确性。

步骤202：处理设备确定用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益。

本公开实施例中，处理设备可以根据实际的处理需要，确定用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，其中，所述数据参数用于协助确定将候选推荐数据推荐给用户时能够得到的预期收益。

需要说明的是，当本公开提出的推荐方式应用于新数据的冷启动的应用场景下时，处理设备可以基于新发布的数据，生成候选推荐数据集合。

实际确定将候选推荐数据推荐给用户能够得到的预期收益的过程中，处理设备可以采用置信区间上界(lin Upper Confidence Bound，linUCB)算法，基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于所述各个候选推荐数据的初始收益和上界浮动收益，并基于各个初始收益和上界浮动收益，分别确定所述用户对于相应的候选推荐数据的预期收益。

具体实施时，处理设备在确定用户登录页面或者刷新页面后，可以通过获取用户的历史行为信息确定用户特征向量，以及获取针对候选推荐数据设置的数据参数，或者，在预先存储有各个用户各自对应的用户特征向量的情况下，处理设备可以线上从缓存中获取到用户特征向量以及候选推荐数据的数据参数，其中，所述数据参数具体指与候选推荐数据对应设置的bandit参数。

在确定预期收益时，将获得的用户特征向量记为x，且x被表征为一个d维的实数向量，记为，x∈R^d。并将获取到的数据参数记为A，b，其中，A∈R^d×d，数据参数A可以表示为一个d×d维的矩阵，b∈R^d×1，b可以表示为一个d维列向量，特殊的，当候选推荐数据为第一次被推荐时，则将数据参数A初始化为一个单位矩阵记为A＝I_d，将数据参数b初始化为一个d维列向量，且d维列向量中值均为0，记为b＝0_d×1。

具体的，处理设备可以通过以下公式，确定一个候选推荐数据的预期收益：

其中，(A^-1b)^Tx表示一个候选待推荐数据的初始收益；

表示所述一个候选待推荐数据的上界浮动收益；x为用户特征向量；A和b为数据参数；α表示探索因子，具体取值可以根据实际的业务需要配置，当α越大时越倾向于探索新发布的数据，当α越小时越倾向于推荐当前已取得良好收益的数据。

需要说明的是，一个数据的数据参数是全局性的，而且数据参数可以根据用户的反馈情况进行调整，使得在不同时机确定相同或不同用户，对于同一数据的预期收益时，使用的数据参数可能不同。

这样，借助于配置的数据参数，能够有效预估将各个候选推荐数据推荐给用户时能够得到的收益，同时，考虑到得到的收益反映了用户对于被推荐的数据的兴趣，通过计算预期收益，能够为新发布的数据的推荐提供参考依据，使得能够向用户推荐符合个性化需要的数据。

步骤203：处理设备基于预期收益，从各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给用户，并获得所述用户对所述目标待推荐数据的反馈信息。

具体的，处理设备通过步骤202的计算方式，确定各个候选推荐数据的预期收益后，可以将得到的各个预期收益按照取值从大到小的顺序排列，进而筛选出满足设定条件的目标待推荐数据推荐给用户，其中，所述预设条件可能是预期收益最高的前N个数据，N为根据实际需要设置的整数，如，N设置为1。

进一步的，处理设备从各个候选推荐数据中，筛选出将推荐给用户的目标待推荐数据后，获得用户对于被推荐的目标待推荐数据的反馈信息，其中，所述反馈信息中指示了用户对于目标待推荐数据的历史行为信息，所述历史行为信息中记录有用户对目标待推荐数据产生的诸如点赞、收藏、转发等操作。

这样，处理设备通过向用户推荐筛选出的最有可能获得最大收益的N个候选推荐数据，相当于向用户推荐了预估的最有可能符合用户的个性化需要的N个候选推荐数据，使得向用户推荐的候选推荐数据能够最大可能的契合用户的使用需要，保证数据的推荐效率，同时，基于用户特征向量预估用户对于候选推荐数据集合中各个候选推荐数据的偏好情况，实现了在候选推荐数据集合中确定用户潜在感兴趣的目标待推荐数据，实现了对于用户个性化需求的挖掘，有助于维持用户的活跃度。

步骤204：处理设备基于反馈信息，更新对应的目标待推荐数据的数据参数。

本公开实施例中，处理设备确定用户对于被推荐的目标待推荐数据的反馈信息后，确定所述反馈信息对应的调整因子，并确定与所述反馈信息对应的目标待推荐数据的数据参数，以及基于所述调整因子与所述用户特征向量的第一点乘结果，对所述数据参数中的第一数据参数进行更新，获得更新后的第一数据参数，再基于所述用户特征向量与所述用户特征向量的转置向量的第二点乘结果，对所述数据参数中的第二数据参数进行更新，获得更新后的第二数据参数。

具体实施时，处理设备实时收集用户的反馈信息，并根据用户的反馈信息生成对应的调整因子r，其中，所述调整因子可以表示为根据用户对于数据的不同操作行为反馈的回报值，基于所述调整因子能够区分用户对数据的偏好程度。

本公开实施例中，可以预先针对用户对于被推荐的数据的不同操作行为，设置不同的调整因子，如，对应用户对于数据的浏览行为，设置调整因子的取值为r＝1，对应用户对于数据的点赞行为，设置调整因子的取值为r＝5等等。

进一步的，基于获得的调整因子r，处理设备可以对相应的数据的数据参数进行更新，具体实施时，可以采用以下公式，更新数据参数：

A_new＝A_old+xx^T；b_new＝b_old+rx

其中，A_new表示更新后的数据参数A，A_old表示更新前的数据参数A，x表示用户的用户特征向量，b_new表示更新后的数据参数b，b_old表示更新前的数据参数b，r表示根据用户对数据的历史行为信息确定的调整因子。

进一步的，处理设备针对一个数据，确定该数据更新后的数据参数后，可以将更新后的数据参数更新到缓存中，以便下次推荐时使用。

这样，通过对应用户对于数据的不同历史行为信息设置不同的调整因子，能够准确刻画用户对数据的偏好，同时，采用了在线学习的方式，能够根据用户对于数据的反馈情况，及时调整数据对应的数据参数，使得在后续的推荐中可以更准确的向用户推荐合适的数据，提高数据推荐的准确性。

参阅图3所示，其为本公开实施例中推荐新发布视频数据的过程示意图，下面将结合附图3，在向用户推荐新发布的视频数据的场景下，对数据的推荐过程进行示意性的说明。

在向用户推荐新发布的视频数据，实现新视频数据的冷启动时，处理设备可以根据指定历史时间段内的海量用户行为，建立用户对于视频数据的行为矩阵，进而采用ALS算法，对行为矩阵进行分解，得到各个视频数据各自对应的设定维数的行为特征向量，其中，海量用户行为是指各个用户对于各个数据的历史行为信息。

进一步的，处理设备可以选择性的获取距离当前时间7天或者14天以内的，各个用户视频数据的历史行为信息，以生成深度学习模型的训练样本集合，并针对每个视频数据分别生成一个对应的训练样本，其中，一条训练样本中包括一个视频数据的内容特征组，以及一个视频数据对应的行为特征向量，视频数据中包括的内容特征可能由标签、图像，以及文本等等。再基于生成的训练样本集合，对深度学习模型进行训练，得到训练后的深度学习模型，然后，根据已训练的深度学习模型，聚合用户感兴趣的多个视频数据，具体为，根据已训练的深度学习模型确定用户感兴趣的视频数据对应的拟合行为特征向量，并将获得的各个拟合行为特征向量进行加权平均后，得到以用户特征向量的形式表示的用户特征。

处理设备基于用户的用户特征、预先设置的探索因子权重(即为上述步骤202公式中的探索因子)，以及缓存的各个视频数据对应的视频bandit参数，采用bandit算法分别估计所述用户对于各个视频数据的预期收益，并根据预期收益确定向用户推荐的视频数据，以及将向用户推荐的视频数据呈现在用户端的可操作页面上，其中，在实际的推荐过程中，处理设备可以将确定推荐的视频数据，与采用其他方式推荐的视频，共同展示在用户端的可操作页面中。

处理设备接收用户对于被推荐的视频数据的用户反馈，并根据用户反馈确定对应的调整因子，以及基于所述调整因子更新对应的视频bandit参数，并将更新后的视频bandit参数保存在缓存中。

这样，处理设备基于各个用户的历史行为数据，视频数据的内容特征，以及用于确定预期收益的算法，能够最大限度的挖掘对用户对于新视频数据的感兴趣程度，极大的适应了用户的个性化需要，同时，提升视频数据的推荐效率。

基于同一发明构思，参阅图4所示，其为本公开实施例中数据的推荐装置的逻辑结构示意图，包括：获取单元401，确定单元402，筛选单元403、更新单元404，以及训练单元405，其中，

获取单元401，用于获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的；

确定单元402，用于确定所述用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益；

筛选单元403，用于基于所述预期收益，从所述各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给所述用户，并获得所述用户对所述目标待推荐数据的反馈信息；

更新单元404，用于基于所述反馈信息，更新对应的目标待推荐数据的数据参数。

可选的，所述基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益时，所述筛选单元403用于：

可选的，所述数据参数中包括第一数据参数和第二数据参数；所述基于所述反馈信息，更新对应的目标待推荐数据的数据参数时，所述更新单元404用于：

可选的，所述获取用户对应的用户特征向量时，所述获取单元401用于：

可选的，所述获取单元401在确定兴趣数据的内容特征组时，执行以下至少一项或组合：

可选的，所述采用词至向量算法，对分词结果进行向量化处理后，得到向量形式的内容特征时，所述获取单元401用于：

可选的，所述将在生成所述深度学习模型的训练样本时，对兴趣数据关联的音频内容进行编码处理，得到的第一编码信息，作为对应的兴趣数据的内容特征时，所述获取单元401用于：

可选的，所述基于所述历史行为信息确定所述用户的兴趣数据集合时，所述获取单元401用于：

可选的，所述装置还包括训练单元405，所述训练单元405在所述深度学习模型的训练过程，执行以下操作：

周期性地生成用于训练深度学习模型的训练样本集合；

可选的，所述周期性地生成用于训练深度学习模型的训练样本集合时，所述训练单元405用于：

可选的，所述将一个训练样本中的内容特征组，作为输入样本输入所述深度学习模型中，得到所述深度学习模型预测的输出结果时，所述训练单元405用于：

参阅图5所示，其为本公开实施例中数据的推荐装置的实体结构示意图。基于同一发明构思，可以包括存储器501和处理器502。

存储器501，用于存储处理器502执行的计算机程序。存储器501可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。处理器502，可以是一个中央处理单元(central processing unit，CPU)，或者为数字处理单元等。本申请实施例中不限定上述存储器501和处理器502之间的具体连接介质。本申请实施例在图5中以存储器501和处理器502之间通过总线503连接，总线503在图5中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线503可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器501可以是易失性存储器(volatile memory)，例如随机存取存储器(random-access memory，RAM)；存储器501也可以是非易失性存储器(non-volatilememory)，例如只读存储器，快闪存储器(flash memory)，硬盘(hard disk drive，HDD)或固态硬盘(solid-state drive，SSD)、或者存储器601是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器501可以是上述存储器的组合。

处理器502，用于调用存储器501中存储的计算机程序时执行如图2a中所示的实施例提供的数据的推荐方法。

基于同一发明构思，本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意方法实施例中的数据的推荐方法。

综上所述，本公开实施例中，获取用户特征向量，其中，所述用户特征向量是采用已训练的深度学习模型，基于所述用户关联的各个兴趣数据预测得到的，再确定所述用户对应的候选推荐数据集合，并获取所述候选推荐数据集合中各个候选推荐数据各自对应的数据参数，以及基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益，然后基于所述预期收益，从所述各个候选推荐数据中，筛选出满足设定条件的目标待推荐数据推荐给所述用户，并获得所述用户对所述目标待推荐数据的反馈信息，再基于所述反馈信息，更新对应的目标待推荐数据的数据参数。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种数据的推荐方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述基于获得的各个数据参数和所述用户特征向量，分别确定所述用户对于各个候选推荐数据的预期收益，包括：

3.如权利要求1或2任一项所述的方法，其特征在于，所述数据参数中包括第一数据参数和第二数据参数；所述基于所述反馈信息，更新对应的目标待推荐数据的数据参数，包括：

4.如权利要求1所述的方法，其特征在于，所述获取用户对应的用户特征向量，包括：

5.如权利要求4所述的方法，其特征在于，兴趣数据的内容特征组中包括以下至少一项或组合：

6.如权利要求1-2、4-5任一项所述的方法，其特征在于，所述深度学习模型的训练过程包括：

周期性地生成用于训练深度学习模型的训练样本集合；

7.如权利要求6所述的方法，其特征在于，所述周期性地生成用于训练深度学习模型的训练样本集合，包括：

8.一种数据的推荐装置，其特征在于，包括：

9.一种电子设备，其特征在于，其包括处理器和存储器，其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行权利要求1～7中任一所述方法的步骤。

10.一种计算机可读存储介质，其特征在于，其包括程序代码，当所述程序代码在电子设备上运行时，所述程序代码用于使所述电子设备执行权利要求1～7中任一所述方法的步骤。