CN112182384B

CN112182384B - 基于对抗学习的内容推荐方法、装置和计算机设备

Info

Publication number: CN112182384B
Application number: CN202011044966.7A
Authority: CN
Inventors: 方聪; 张旭; 郑越; 旷雄; 黄宇星
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2023-08-25
Anticipated expiration: 2040-09-28
Also published as: CN112182384A; WO2021169451A1

Abstract

本申请涉及智能画像领域，揭示了基于对抗学习的内容推荐方法，包括：通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；根据加权压缩向量对生成器和判别器进行建模；将建模后的生成器与判别器联合，在对抗模型下进行对抗学习；判断生成器和判别器的对抗学习是否达到预设条件；若是则将当前用户的历史信息输入对抗学习后的生成器中，结合对抗学习后的判别器的反馈值，确定当前用户的兴趣偏好特征；根据当前用户的兴趣偏好特征，向当前用户推荐与当前用户的兴趣偏好特征匹配的内容信息。通过加权压缩对行为特征建模，捕获用户行为特征的时序变化特征，并基于对抗学习使得生成器可获取兴趣偏好特征，以精准推荐内容信息。

Description

基于对抗学习的内容推荐方法、装置和计算机设备

技术领域

本申请涉及智能画像领域，特别是涉及到基于对抗学习的内容推荐方法、装置和计算机设备。

背景技术

现有的内容推荐系统，一般是基于人工特征提取，协同过滤分解等技术来实现自动化推荐，通过采集用户行为数据、系统日志数据等信息，对用户的偏好兴趣进行建模，并将用户根据偏好兴趣进行聚类分组，为具有相似偏好兴趣的用户推荐同一种内容。但发明人意识到现有的内容推荐系统，将采集到的用户行为数据视作是统计特征，却无法考虑到用户偏好兴趣发展变化的时序逻辑，推荐内容不具有与时俱进的自动更新功能。

发明内容

本申请的主要目的为提供基于对抗学习的内容推荐，旨在解决现无法考虑到用户偏好兴趣发展变化的时序逻辑，推荐内容不具有与时俱进的自动更新的技术问题。

本申请提出一种基于对抗学习的内容推荐方法，包括：

通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；

根据所述加权压缩向量对生成器和判别器进行建模；

将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；

判断所述生成器和判别器的对抗学习是否达到预设条件；

若是，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；

根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

优选地，所述通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量的步骤，包括：

在时序维度和特征维度的二维空间上，对所述用户特征按照进行时序编码，得到所述用户特征对应的时序特征矩阵；

将所述时序特征矩阵与第一压缩权重矩阵相乘，得到数据压缩后的第一乘积矩阵；

将所述第一乘积矩阵通过第一偏执向量矫正后，得到第一矫正矩阵；

将所述第一矫正矩阵输入sigmoid函数，得到所述用户历史行为特征对应的嵌入向量；

将所述用户历史行为特征对应的嵌入向量与指定时刻对应的时序特征拼接，形成第一拼接向量；

将所述第一拼接向量与第二压缩权重矩阵相乘，得到数据压缩后的第二乘积矩阵；

将所述第二乘积矩阵通过第二偏执向量矫正后，得到用户历史行为特征对应的加权压缩向量。

优选地，所述用户特征包括用户属性特征、历史点击特征和行为线索特征，所述根据所述加权压缩向量对生成器和判别器进行建模的步骤，包括：

将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量；

在固定所述判别器的模型参数下，将所述第二拼接向量输入所述生成器的模型中，通过第一交叉熵损失函数约束，对所述生成器的模型进行建模；

判断所述第一交叉熵损失函数是否达到最小值；

若是，则得到所述生成器的模型。

优选地，所述将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量的步骤之前，包括：

将所述加权压缩向量输入sigmoid函数，得到所述加权压缩向量的输出结果；

将所述加权压缩向量的输出结果，乘以回报函数参数，得到回报值；

将所述回报值的计算方式作为所述判别器的模型。

优选地，所述将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习的步骤，包括：

将所述第二拼接向量与所述生成器的建模结果拼接，形成负样本特征向量，将所述第二拼接向量与所述第二拼接向量对应的用户点击真实值拼接为正样本特征向量；

将所述负样本特征向量和正样本特征向量输入所述判别器，固定所述生成器参数，在第二交叉熵损失函数的约束下对所述判别器进行建模；

判断所述第二交叉熵损失函数是否达到最小值；

若是，则确定所述判别器的参数；

根据所述生成器和所述判别器的建模过程，通过对抗模型将所述生成器和所述判别器对抗学习，至所述第一交叉熵损失函数和所述第二交叉熵损失函数均达到最小值。

优选地，所述将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征的步骤，包括：

将所述当前用户的历史信息和指定营销活动信息输入对抗学习后的所述生成器中；

判断对抗学习后的所述判别器的反馈值是否等于1；

若是，则判定所述指定营销活动信息属于所述当前用户的兴趣偏好特征。

优选地，所述根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息的步骤之后，包括：

获取影响用户点击动作的指定特征，其中，所述指定特征为影响用户点击动作的所有特征中任意一个；

改变所述指定特征输入所述判别器时的特征数据范围；

获取跟随所述特征数据范围对应变化的输出值变化范围；

判断所述输出值变化范围是否超过预设范围；

若是，则判定所述指定特征为影响所述用户点击动作的敏感特征。

本申请还提供了一种基于对抗学习的内容推荐装置，包括：

得到模块，用于通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；

建模模块，用于根据所述加权压缩向量对生成器和判别器进行建模；

对抗学习模块，用于将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；

第一判断模块，用于判断所述生成器和判别器的对抗学习是否达到预设条件；

确定模块，用于若达到预设条件，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；

推荐模块，用于根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

本申请还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

本申请还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

本申请通过加权压缩对用户的历史行为特征进行建模，以捕获用户的历史行为特征跟随时序变化的特征，并基于对抗学习使得生成器可获取在线用户的兴趣偏好特征，并精准推荐内容信息。

附图说明

图1本申请一实施例的基于对抗学习的内容推荐方法流程示意图；

图2本申请一实施例的基于对抗学习的内容推荐装置结构示意图；

图3本申请一实施例的计算机设备内部结构示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

参照图1，本申请一实施例的基于对抗学习的内容推荐方法，包括：

S1：通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；

S2：根据所述加权压缩向量对生成器和判别器进行建模；

S3：将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；

S4：判断所述生成器和判别器的对抗学习是否达到预设条件；

S5：若是，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；

S6：根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

本申请实施例构造的用户特征包括用户属性特征P、历史点击特征T、行为线索特征Q以及用户点击行为c。用户属性特征P包括但不限于用户的年龄、职业等用户画像信息；行为线索特征Q包括但不限于推广的信息种类、优惠策略等；历史点击特征T包括但不限于用户历史个人信息以及用户历史点击的内容信息；用户点击行为c包括点击行为的赋值是否为真，为真即发生了点击行为，否则未发生。本申请通过加权压缩将上述用户特征中的时序特征进行编码，形成时序特征矩阵，并通过时序特征矩阵和用户属性特征一并对生成器以及判别器进行建模以及对抗学习，使学习后的生成器能识别用户特征中的时序特征，得到携带时序变化特征的用户的兴趣偏好特征，然后根据用户的兴趣偏好特征进行内容信息的推荐。本申请相比于现有直接根据静态的历史数据进行内容信息推荐，更贴合当前用户的兴趣偏好，推荐内容更精准、更有针对性。

进一步地，所述通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量的步骤S1，包括：

S11：在时序维度和特征维度的二维空间上，对所述用户特征按照进行时序编码，得到所述用户特征对应的时序特征矩阵；

S12：将所述时序特征矩阵与第一压缩权重矩阵相乘，得到数据压缩后的第一乘积矩阵；

S13：将所述第一乘积矩阵通过第一偏执向量矫正后，得到第一矫正矩阵；

S14：将所述第一矫正矩阵输入sigmoid函数，得到所述用户历史行为特征对应的嵌入向量；

S15：将所述用户历史行为特征对应的嵌入向量与指定时刻对应的时序特征拼接，形成第一拼接向量；

S16：将所述第一拼接向量与第二压缩权重矩阵相乘，得到数据压缩后的第二乘积矩阵；

S17：将所述第二乘积矩阵通过第二偏执向量矫正后，得到用户历史行为特征对应的加权压缩向量。

本申请实施例通过在时序维度和特征维度的二维空间上，对用户特征按照进行时序编码，得到用户特征对应的时序特征矩阵。上述用户历史行为特征是对用户特征的历史数据的特征表示，是用户特征和历史时序特征的综合。本申请通过一级加权压缩对时序特征矩阵进行处理，得到用户历史行为特征对应的嵌入向量。得到嵌入向量的一级加权压缩的计算过程如下：其中，S^t表示嵌入向量，h表示根据时序特征矩阵/>进行运算的运算符，vec表示拉成向量的运算符，σ表示sigmoid函数，W表示特征权重矩阵，即上述的第一压缩权重矩阵，B表示特征偏执向量，即上述的第一偏执向量。二级加权压缩的过程，即将嵌入向量S^t与指定时刻t时的时序特征f^t _a拼接后，与压缩权重矩阵V相乘，再加上压缩偏执向量b，得到加权压缩向量/>本申请通过二级加权压缩对用户的历史行为特征进行建模，以捕获用户的历史行为特征跟随时序变化的特征，模拟兴趣偏好虽时间变化的趋势，及时跟随兴趣偏好的偏离改变，更新内容信息的推荐策略。本申请的“第一”、“第二”等用语用于区别，不用于限定，其他类似语作用相同，不赘述。

进一步地，所述用户特征包括用户属性特征、历史点击特征和行为线索特征，所述根据所述加权压缩向量对生成器和判别器进行建模的步骤S2，包括：

S21：将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量；

S22：在固定所述判别器的模型参数下，将所述第二拼接向量输入所述生成器的模型中，通过第一交叉熵损失函数约束，对所述生成器的模型进行建模；

S24：判断所述第一交叉熵损失函数是否达到最小值；

S25：若是，则得到所述生成器的模型。

本申请实施例中，将用户属性特征、历史点击特征和行为线索特征，进行向量拼接得到第二拼接向量[P；T；Q]。本申请中对判别器进行建模时，首先构造样本训练数据，具体方法是将第二拼接向量[P；T；Q]与生成器输出的cpred拼接作为负样本特征向量；将第二拼接向量[P；T；Q]与用户真实的点击c拼接后作为正样本特征向量。本申请的生成器的模型公式如下：其中，φ为基于多层卷积神经网络的策略模型，R(φ)为正则化项，η为正则化参数，r表示固定参量的判别器。生成器对输入第二拼接向量[P；T；Q]时的输出结果表示为cpred＝MultiConv([P；T；Q])，上述第一交叉熵损失函数表示为：lossg＝CrossEntropy(cpred,c)，即表示cpred与c之间的损失度量。本申请的多层卷积神经网络的参数经过Adam算法的优化。

进一步地，所述将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量的步骤S21之前，包括：

S201：将所述加权压缩向量输入sigmoid函数，得到所述加权压缩向量的输出结果；

S202：将所述加权压缩向量的输出结果，乘以回报函数参数，得到回报值；

S203：将所述回报值的计算方式作为所述判别器的模型。

本申请判别器的模型的公式为：v^T表示回报函数参数。

进一步地，所述将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习的步骤S3，包括：

S31：将所述第二拼接向量与所述生成器的建模结果拼接，形成负样本特征向量，将所述第二拼接向量与所述第二拼接向量对应的用户点击真实值拼接为正样本特征向量；

S32：将所述负样本特征向量和正样本特征向量输入所述判别器，固定所述生成器参数，在第二交叉熵损失函数的约束下对所述判别器进行建模；

S33：判断所述第二交叉熵损失函数是否达到最小值；

S34：若是，则确定所述判别器的参数；

S35：根据所述生成器和所述判别器的建模过程，通过对抗模型将所述生成器和所述判别器对抗学习，至所述第一交叉熵损失函数和所述第二交叉熵损失函数均达到最小值。

本申请的第二交叉熵损失函数由两部分组成，一部分对应于生成器对第二拼接向量的输出约束，另一部分对应于对真实点击动作的输出约束，即loss_d＝loss₁+loss₂，loss₁＝CrossEntropy(0,MultiConv([P；T；Q；cpred]))；loss₂＝CrossEntropy(1,MultiConv([P；T；Q；c]))。本申请的对抗模型的公式表示为：

其中，θ表示对抗学习中判别器的优化参数，α表示对抗学习中生成器的参数。本申请的对抗学习中，生成器的学习目标为根据构造的用户特征的向量，尽可能生成类似用户点击行为cpred，而判别器的学习目标则是能够区分出真实的用户点击行为与生成器生成的类似用户点击行为。对抗学习中判别器和生成器的参数交替固定。先固定判别器的参数，通过loss_g训练生成器，当loss_g下降时，说明生成器生成的cpred成功欺骗了判别器。然后固定生成器参数，在loss_d约束下训练判别器，当loss_d下降时，说明判别器又成功区分了cpred和c。交替训练学习，直至loss_d和loss_g均小于预设阈值，达到最小值。此时的生成器能考虑用户的历史点击信息，并尽可能模仿用户点击动作的决策，而判别器能够模拟用户点击动作的反馈。

进一步地，所述将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征的步骤S5，包括：

S51：将所述当前用户的历史信息和指定营销活动信息输入对抗学习后的所述生成器中；

S52：判断对抗学习后的所述判别器的反馈值是否等于1；

S53：若是，则判定所述指定营销活动信息属于所述当前用户的兴趣偏好特征。

本申请实施例以用于选择营销活动信息为例，进行详细说明。上述营销活动信息包括但不限于发红包、发优惠劵、返回扣等，通过将不同的营销活动信息对于特征向量与当前用户的历史信息对应的向量输入生成器，由生成器模拟用户在不同营销活动信息的点击行为，并通过判别器反馈的区别值的大小，确定用户对不同营销活动信息的兴趣偏好。

进一步地，根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息的步骤S6之后，包括：

S61：获取影响用户点击动作的指定特征，其中，所述指定特征为影响用户点击动作的所有特征中任意一个；

S62：改变所述指定特征输入所述判别器时的特征数据范围；

S63：获取跟随所述特征数据范围对应变化的输出值变化范围；

S64：判断所述输出值变化范围是否超过预设范围；

S65：若是，则判定所述指定特征为影响所述用户点击动作的敏感特征。

本申请实施例通过将用户历史特征和真实点击行为输入判别器，判别器反馈输出值为1，则说明是真实的点击行为。上述指定特征比如为时间，特征数据范围包括时间跨度，跟随时间跨度的变化，判别器输出值改变范围也大幅改变，说明用户对时间特征是敏感的，则确定时间特征为用户的敏感特征，可通过敏感特征对用户形成持续发展的画像，以便实时更新用户分类和聚群。

参照图2，本申请一实施例的基于对抗学习的内容推荐装置，包括：

得到模块1，用于通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；

建模模块2，用于根据所述加权压缩向量对生成器和判别器进行建模；

对抗学习模块3，用于将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；

第一判断模块4，用于判断所述生成器和判别器的对抗学习是否达到预设条件；

确定模块5，用于若达到预设条件，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；

推荐模块6，用于根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

进一步地，得到模块1，包括：

编码单元，用于在时序维度和特征维度的二维空间上，对所述用户特征按照进行时序编码，得到所述用户特征对应的时序特征矩阵；

第一相乘单元，用于将所述时序特征矩阵与第一压缩权重矩阵相乘，得到数据压缩后的第一乘积矩阵；

第一矫正单元，用于将所述第一乘积矩阵通过第一偏执向量矫正后，得到第一矫正矩阵；

第一输入单元，用于将所述第一矫正矩阵输入sigmoid函数，得到所述用户历史行为特征对应的嵌入向量；

第一拼接单元，用于将所述用户历史行为特征对应的嵌入向量与指定时刻对应的时序特征拼接，形成第一拼接向量；

第二相乘单元，用于将所述第一拼接向量与第二压缩权重矩阵相乘，得到数据压缩后的第二乘积矩阵；

第二矫正单元，用于将所述第二乘积矩阵通过第二偏执向量矫正后，得到用户历史行为特征对应的加权压缩向量。

进一步地，所述用户特征包括用户属性特征、历史点击特征和行为线索特征，建模模块2，包括：

第二拼接单元，用于将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量；

第一建模单元，用于在固定所述判别器的模型参数下，将所述第二拼接向量输入所述生成器的模型中，通过第一交叉熵损失函数约束，对所述生成器的模型进行建模；

第一判断单元，用于判断所述第一交叉熵损失函数是否达到最小值；

得到单元，用于若达到最小值，则得到所述生成器的模型。

进一步地，第二拼接单元，包括：

输入子单元，用于将所述加权压缩向量输入sigmoid函数，得到所述加权压缩向量的输出结果；

得到子单元，用于将所述加权压缩向量的输出结果，乘以回报函数参数，得到回报值；

作为子单元，用于将所述回报值的计算方式作为所述判别器的模型。

本申请判别器的模型的公式为：v^T表示回报函数参数。

进一步地，对抗学习模块3，包括：

第三拼接单元，用于将所述第二拼接向量与所述生成器的建模结果拼接，形成负样本特征向量，将所述第二拼接向量与所述第二拼接向量对应的用户点击真实值拼接为正样本特征向量；

第二建模单元，用于将所述负样本特征向量和正样本特征向量输入所述判别器，固定所述生成器参数，在第二交叉熵损失函数的约束下对所述判别器进行建模；

第二判断单元，用于判断所述第二交叉熵损失函数是否达到最小值；

确定单元，用于若达到最小值，则确定所述判别器的参数；

对抗学习单元，用于根据所述生成器和所述判别器的建模过程，通过对抗模型将所述生成器和所述判别器对抗学习，至所述第一交叉熵损失函数和所述第二交叉熵损失函数均达到最小值。

进一步地，确定模块5，包括：

第二输入单元，用于将所述当前用户的历史信息和指定营销活动信息输入对抗学习后的所述生成器中；

第三判断单元，用于判断对抗学习后的所述判别器的反馈值是否等于1；

判定单元，用于若等于1，则判定所述指定营销活动信息属于所述当前用户的兴趣偏好特征。

进一步地，基于对抗学习的内容推荐装置，包括：

第一获取模块，用于获取影响用户点击动作的指定特征，其中，所述指定特征为影响用户点击动作的所有特征中任意一个；

改变模块，用于改变所述指定特征输入所述判别器时的特征数据范围；

第二获取模块，用于获取跟随所述特征数据范围对应变化的输出值变化范围；

第二判断模块，用于判断所述输出值变化范围是否超过预设范围；

判定模块，用于若超过预设范围，则判定所述指定特征为影响所述用户点击动作的敏感特征。

参照图3，本申请实施例中还提供一种计算机设备，该计算机设备可以是服务器，其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于对抗学习的内容推荐过程需要的所有数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于对抗学习的内容推荐方法。

上述处理器执行上述基于对抗学习的内容推荐方法，包括：通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；根据所述加权压缩向量对生成器和判别器进行建模；将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；判断所述生成器和判别器的对抗学习是否达到预设条件；若是，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

上述计算机设备，通过加权压缩对用户的历史行为特征进行建模，以捕获用户的历史行为特征跟随时序变化的特征，并基于对抗学习使得生成器可获取在线用户的兴趣偏好特征，并精准推荐内容信息。

在一个实施例中，上述处理器通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量的步骤，包括：在时序维度和特征维度的二维空间上，对所述用户特征按照进行时序编码，得到所述用户特征对应的时序特征矩阵；将所述时序特征矩阵与第一压缩权重矩阵相乘，得到数据压缩后的第一乘积矩阵；将所述第一乘积矩阵通过第一偏执向量矫正后，得到第一矫正矩阵；将所述第一矫正矩阵输入sigmoid函数，得到所述用户历史行为特征对应的嵌入向量；将所述用户历史行为特征对应的嵌入向量与指定时刻对应的时序特征拼接，形成第一拼接向量；将所述第一拼接向量与第二压缩权重矩阵相乘，得到数据压缩后的第二乘积矩阵；将所述第二乘积矩阵通过第二偏执向量矫正后，得到用户历史行为特征对应的加权压缩向量。

在一个实施例中，用户特征包括用户属性特征、历史点击特征和行为线索特征，上述处理器根据所述加权压缩向量对生成器和判别器进行建模的步骤，包括：将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量；在固定所述判别器的模型参数下，将所述第二拼接向量输入所述生成器的模型中，通过第一交叉熵损失函数约束，对所述生成器的模型进行建模；判断所述第一交叉熵损失函数是否达到最小值；若是，则得到所述生成器的模型。

在一个实施例中，上述处理器将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量的步骤之前，包括：将所述加权压缩向量输入sigmoid函数，得到所述加权压缩向量的输出结果；将所述加权压缩向量的输出结果，乘以回报函数参数，得到回报值；将所述回报值的计算方式作为所述判别器的模型。

在一个实施例中，上述处理器将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习的步骤，包括：将所述第二拼接向量与所述生成器的建模结果拼接，形成负样本特征向量，将所述第二拼接向量与所述第二拼接向量对应的用户点击真实值拼接为正样本特征向量；将所述负样本特征向量和正样本特征向量输入所述判别器，固定所述生成器参数，在第二交叉熵损失函数的约束下对所述判别器进行建模；判断所述第二交叉熵损失函数是否达到最小值；若是，则确定所述判别器的参数；根据所述生成器和所述判别器的建模过程，通过对抗模型将所述生成器和所述判别器对抗学习，至所述第一交叉熵损失函数和所述第二交叉熵损失函数均达到最小值。

在一个实施例中，上述处理器将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征的步骤，包括：将所述当前用户的历史信息和指定营销活动信息输入对抗学习后的所述生成器中；判断对抗学习后的所述判别器的反馈值是否等于1；若是，则判定所述指定营销活动信息属于所述当前用户的兴趣偏好特征。

在一个实施例中，上述处理器根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息的步骤之后，包括：获取影响用户点击动作的指定特征，其中，所述指定特征为影响用户点击动作的所有特征中任意一个；改变所述指定特征输入所述判别器时的特征数据范围；获取跟随所述特征数据范围对应变化的输出值变化范围；判断所述输出值变化范围是否超过预设范围；若是，则判定所述指定特征为影响所述用户点击动作的敏感特征。

本领域技术人员可以理解，图3中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定。

本申请一实施例还提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现基于对抗学习的内容推荐方法，包括：通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量；根据所述加权压缩向量对生成器和判别器进行建模；将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习；判断所述生成器和判别器的对抗学习是否达到预设条件；若是，则将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征；根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息。

上述计算机可读存储介质，通过加权压缩对用户的历史行为特征进行建模，以捕获用户的历史行为特征跟随时序变化的特征，并基于对抗学习使得生成器可获取在线用户的兴趣偏好特征，并精准推荐内容信息。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，上述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

以上所述仅为本申请的优选实施例，并非因此限制本申请的专利范围，凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本申请的专利保护范围内。

Claims

1.一种基于对抗学习的内容推荐方法，其特征在于，包括：

根据所述加权压缩向量对生成器和判别器进行建模；

判断所述生成器和判别器的对抗学习是否达到预设条件；

根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息；

所述通过加权压缩预先构建的用户特征，得到用户历史行为特征对应的加权压缩向量的步骤，包括：

2.根据权利要求1所述的基于对抗学习的内容推荐方法，其特征在于，所述用户特征包括用户属性特征、历史点击特征和行为线索特征，所述根据所述加权压缩向量对生成器和判别器进行建模的步骤，包括：

判断所述第一交叉熵损失函数是否达到最小值；

若是，则得到所述生成器的模型_。

3.根据权利要求2所述的基于对抗学习的内容推荐方法，其特征在于，所述将所述用户属性特征、历史点击特征和行为线索特征，进行向量拼接，得到第二拼接向量的步骤之前，包括：

将所述回报值的计算方式作为所述判别器的模型_。

4.根据权利要求2所述的基于对抗学习的内容推荐方法，其特征在于，所述将建模后的所述生成器与判别器联合，在对抗模型下进行对抗学习的步骤，包括：

判断所述第二交叉熵损失函数是否达到最小值；

若是，则确定所述判别器的参数；

根据所述生成器和所述判别器的建模过程，通过对抗模型将所述生成器和所述判别器对抗学习，至所述第一交叉熵损失函数和所述第二交叉熵损失函数均达到最小值；

所述第一交叉熵损失函数表示为：lossg＝CrossEntropy(cpred,c)，即表示cpred与c之间的损失度量；其中，CrossEntropy表示交叉熵，cpred为所述生成器对输入所述第二拼接向量[P；T；Q]时的输出结果，cpred＝MultiConv([P；T；Q])，P表示用户属性特征，T表示历史点击特征、Q表示行为线索特征，c表示用户点击行为；所述第二交叉熵损失函数由两部分组成，一部分对应于所述生成器对所述第二拼接向量的输出约束，另一部分对应于对真实点击动作的输出约束，即lossd＝loss1+loss2，loss1＝CrossEntropy(0,MultiConv([P；T；Q；cpred]))；

loss2＝CrossEntropy(1,MultiConv([P；T；Q；c]))。

5.根据权利要求1所述的基于对抗学习的内容推荐方法，其特征在于，所述将当前用户的历史信息输入对抗学习后的所述生成器中，结合对抗学习后的所述判别器的反馈值，确定所述当前用户的兴趣偏好特征的步骤，包括：

判断对抗学习后的所述判别器的反馈值是否等于1；

6.根据权利要求1所述的基于对抗学习的内容推荐方法，其特征在于，所述根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息的步骤之后，包括：

改变所述指定特征输入所述判别器时的特征数据范围；

获取跟随所述特征数据范围对应变化的输出值变化范围；

判断所述输出值变化范围是否超过预设范围；

7.一种基于对抗学习的内容推荐装置，其特征在于，包括：

推荐模块，用于根据所述当前用户的兴趣偏好特征，向所述当前用户推荐与所述当前用户的兴趣偏好特征匹配的内容信息；

所述得到模块，包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。