CN114090890B

CN114090890B - 一种基于图卷积网络的反事实项目推荐方法

Info

Publication number: CN114090890B
Application number: CN202111396495.0A
Authority: CN
Inventors: 王庆先; 黄庆; 常奥; 刘鹏宇; 曾昌强; 吴苏强
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-04-28
Anticipated expiration: 2041-11-23
Also published as: CN114090890A

Abstract

本发明公开了一种基于图卷积网络的反事实项目推荐方法，本发明通过对图卷积网络GCN引入满意度，且满意度与项目曝光特征、项目内容特征、用户项目曝光特征偏好和项目内容特征偏好均有关，使得本发明提出的方法充分考虑了数据间的因果关系，从而达到通过本方法生成的项目推荐列表更符合用户期望，大大减少“点击欺骗”的概率；本发明解决了传统的推荐方法得到的推荐列表与用户期望存在较大差距的问题。

Description

一种基于图卷积网络的反事实项目推荐方法

技术领域

本发明涉及互联网领域，具体涉及一种基于图卷积网络的反事实项目推荐方法。

背景技术

传统的推荐方法大多数基于历史行为数据利用机器学习算法构建用户偏好预测模型，并制定推荐列表。但是，一方面机器学习依赖的相关性并不能代表因果性，导致现存模型缺少因果可解释性，另一方面，推荐列表与用户满意度之间是存在巨大差距的。通常情况下，用户会被有吸引力的标题/封面“欺骗”而点击某个项目，即存在“点击欺骗”问题。目前，神经网络传播模型作为目前解决“点击欺骗”问题最常用的技术，例如，通过将双向长短期记忆网络(LSTM)与注意力和文本和图像上的神经网络结合在一起来创建预测模型，但同类方法仅仅是使用卷积神经网络计算了文字的字符级表示，并没有反映数据间的因果关系。同时，避免“点击欺骗”的推荐方法都较少地关注表征数据背后的因果关系。通过研究在数据中存在关联关系的前提下，表示出数据之间的因果关系，从而提高推荐列表的真实有效性，进行高质量的推荐是具有现实意义的。

发明内容

针对现有技术中的上述不足，本发明提供的一种基于图卷积网络的反事实项目推荐方法解决了传统的推荐方法得到的推荐列表与用户期望存在较大差距的问题。

为了达到上述发明目的，本发明采用的技术方案为：一种基于图卷积网络的反事实项目推荐方法，包括以下步骤：

S1、采集并预处理点击欺骗的新闻推荐数据和商品推荐数据；

S2、对预处理后的点击欺骗的新闻推荐数据和商品推荐数据进行特征提取，得到特征数据；

S3、对特征数据进行分类，得到分类特征；

S4、提取分类特征中的视频和图片，并采用卷积神经网络将视频和图片数据转换为视觉特征向量；

S5、采用预训练语言表征模型Bert提取分类特征中的文本特征向量；

S6、根据视觉特征向量和文本特征向量，得到项目曝光特征向量和项目内容特征向量；

S7、根据项目曝光特征向量和项目内容特征向量，采用图卷积网络GCN计算用户项目评分；

S8、根据用户项目评分，对卷积神经网络和图卷积网络GCN进行联合训练，得到训练完成的卷积神经网络和图卷积网络GCN；

S9、根据训练完成的卷积神经网络和图卷积网络GCN，生成排序的项目推荐列表。

进一步地，所述步骤S3中特征数据包括：项目特征I；

步骤S3中将项目特征I分为：项目曝光特征h、项目内容特征c和静态特征λ；

所述项目曝光特征h分为：曝光的视频(h,I_video)、封面图片(h,I_fig)和封面标题(h,I_char)；

所述项目内容特征c分为：项目内容的视频(c,I_video)、内容图片(c,I_fig)和内容文字(c,I_char)；

所述静态特征分为λ：项目静态特征λ_i；

所述曝光的视频(h,I_video)、封面图片(h,I_fig)、曝光的视频(h,I_video)和封面图片(h,I_fig)属于视觉特征；

所述封面标题(h,I_char)和内容文字(c,I_char)属于文本特征。

进一步地，所述步骤S4包括以下分步骤：

S41、提取项目曝光特征h和项目内容特征c中的视频和图片，得到表征视觉特征的图像数据；

S42、对图像数据进行二值化处理，得到像素矩阵；

S43、对像素矩阵进行卷积操作，得到特征图；

S44、对特征图池化处理，得到降低数据量后的特征图；

S45、采用全连接层将降低数据量后的特征图切割成一维向量，得到视觉特征向量。

进一步地，所述步骤S43中特征图的大小表达公式为：

其中，R^*为特征图的大小，R为像素矩阵的大小，q为补零层数，k为卷积核大小，p为移动步幅。

进一步地，所述步骤S45中采用全连接层将降低数据量后的特征图切割成一维向量的公式为：

χ_h-view＝relu(W*Γ+b)

其中，χ_h-view为一维的视觉特征向量，relu()为激活函数，W为全连接层的权重，b为全连接层的偏置，Γ为降低数据量后的特征图。

上述进一步方案的有益效果为：静态特征及标签包含了项目的长期属性，和增强项目的曝光特征的表示和项目内容特征的表示。

进一步地，所述步骤S6包括以下分步骤：

S61、将视觉特征向量和文本特征向量拼接到项目曝光特征h字符串和项目内容特征c字符串，得到初步项目曝光特征向量和初步项目内容特征向量；

S62、采用项目静态特征λ_i分别对初步项目曝光特征向量和初步项目内容特征向量进行再次拼接，得到最终的项目曝光特征向量和项目内容特征向量。

进一步地，所述步骤S61中将视觉特征向量和文本特征向量进行拼接的公式为：

χ_h＝[χ_h-view,χ_h-char]

χ_c＝[χ_c-view,χ_c-char]

其中，χ_h-view为一维的视觉特征向量，χ_c-view为一维的文本特征向量，[,]为拼接符号，χ_h-char为项目曝光特征h文本特征，χ_c-char为项目内容特征c文本特征，χ_h为一维的初步项目曝光特征向量，χ_c为一维的初步项目内容特征向量。

进一步地，所述步骤S62中采用项目静态特征λ_i分别对初步项目曝光特征向量和初步项目内容特征向量进行再次拼接的公式为：

h′＝[χ_h,λ′]

c′＝[χ_c,λ′]

其中，λ′为项目静态特征λ_i的一维向量，[χ_h,λ′]为将初步项目曝光特征向量χ_h和项目静态特征λ_i的一维向量λ′相拼接，[χ_c,λ′]为将初步项目内容特征向量χ_c和项目静态特征λ_i的一维向量λ′相拼接，h′为最终的项目曝光特征向量，c′为最终的项目内容特征向量。

上述进一步方案的有益效果为：用户的静态特征包含了用户的长期偏好，结合用于增强用户对曝光特征偏好的表示和用户对喜欢的项目的内容特征偏好的表示。

进一步地，所述步骤S7包括以下分步骤：

S71、计算项目曝光特征向量与用户项目曝光特征偏好之间的欧式距离，并将欧式距离作为初始满意度；

S72、根据初始满意度，计算图卷积网络GCN引入满意度后的预测评分误差；

S73、计算加入项目内容特征向量和用户项目内容特征偏好的图卷积网络GCN的预测评分；

S74、根据预测评分误差和加入项目内容特征向量和用户项目内容特征偏好的图卷积网络GCN的预测评分，计算用户项目评分。

进一步地，所述步骤S72中计算图卷积网络GCN引入满意度后的预测评分误差的公式为：

S＝d(h′,m)

Error＝Y′-Y

其中，S为基于项目曝光特征向量h′和用户项目曝光特征偏好的满意度，d(,)为欧式距离，h′为项目曝光特征向量，m为用户项目曝光特征偏好，Error为预测评分误差，Y为图卷积网络GCN未引入满意度的预测评分，Y′为图卷积网络GCN引入满意度S后的预测评分；

所述步骤S73中计算加入项目内容特征向量和用户项目内容特征偏好的图卷积网络GCN的预测评分的公式为：

S^*＝d([h′,c^′],[m,n])

其中，h′为项目曝光特征向量，m为用户项目曝光特征偏好，c′为项目内容特征向量，n为项目内容特征偏好，S^*为基于项目曝光特征向量、项目内容特征向量、用户项目曝光特征偏好和项目内容特征偏好的满意度，[,]为拼接符号，d(,)为欧式距离，Y为图卷积网络GCN未引入满意度的预测评分，Y″为图卷积网络GCN引入满意度S^*后的预测评分；

所述步骤S74中计算用户项目评分的公式为：

Y″′＝Y″-Error

其中，Y″′为用户项目评分，Y″为图卷积网络GCN引入满意度S^*后的预测评分，Error为预测评分误差。

上述进一步方案的有益效果为：更好地捕捉用户的偏好，并补充当前统计深度学习模型中缺失的因果关联性，解释了曝光特征、内容特征、用户项目曝光偏好、用户项目内容偏好和预测之间的因果关系，调整了曝光特征和用户项目曝光偏好对用户评分的影响程度，进而减小了用户受曝光特征和内容特征不相符的“点击欺骗”概率。

综上，本发明的有益效果为：本发明通过对图卷积网络GCN引入满意度，且满意度与项目曝光特征、项目内容特征、用户项目曝光特征偏好和项目内容特征偏好均有关，使得本发明提出的方法充分考虑了数据间的因果关系，从而达到通过本方法生成的项目推荐列表更符合用户期望，大大减少“点击欺骗”的概率。

附图说明

图1为一种基于图卷积网络的反事实项目推荐方法的流程图；

图2为卷积神经网络的结构示意图；

图3为反事实构建因果图；

图4为基于因果的图卷积神经网络框架的架构图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，一种基于图卷积网络的反事实项目推荐方法，包括以下步骤：

数据主要采集与点击欺骗密切相关的新闻推荐和商品推荐的相关数据，并在预处理阶段去掉用户项目交互小于5次的不完备数据和不必要的交互记录。其次，针对缺失值的处理原则：主要是通过回归等方式，使用最可能的值代替缺失值，使缺失值与其他数值之间的关系保持最大。整条删除异常条目。

特征提取的操作包括：文本特征抽取，视觉特征抽取，并将数值型特征进行标准缩放：归一化、标准化等。从而降低部分特征相相关度高带来的特征冗余，避免消耗计算性能并减小噪声。

S3、对特征数据进行分类，得到分类特征；

所述步骤S3中特征数据包括：项目特征I；

所述静态特征分为λ：项目静态特征λ_i；

所述封面标题(h,I_char)和内容文字(c,I_char)属于文本特征。

项目曝光特征h属于展示在推荐条目可以被直接观测到的视觉特征和文本特征。

项目内容特征c属于用户点击推荐条目跳转获得的具体视觉特征和文本特征。

在做了上述对数据的初步处理后，本发明使用因果推断理论分析，构建了反事实满意度因果图，并采用CNN和GCN两种联合神经网络进行模型实现。

具体理论基础如下：

第一步是引入满意度S，现存因果推荐模型未将满意度作为实际变量考虑，但理论上实际存在。所以在未引入满意度S前，现有以优化点击率为目的的推荐系统其用户满意度主要是通过项目曝光特征h与用户项目曝光特征偏好m共同学习表示。即现有模型中，虽未量化满意度，但当项目曝光特征h与用户项目曝光特征偏好m匹配度高，引发用户进行点击时，模型是潜在认为用户满意度高，这不是合理的。

将满意度S这一概念提出，并在现存因果推荐模型上，考虑了满意度也受项目内容特征c与用户项目内容特征偏好n影响，因由h，m，c，n共同表示。并以此解决因为项目曝光特征h、用户项目曝光特征偏好m、项目内容特征c和用户项目内容特征偏好n相互不匹配而引发的点击诱饵问题。

第二步构建反事实构建因果图，即图3，在引入满意度之后，考虑一个反事实世界，在这个世界中，对现存满意度补充其受到项目内容特征c与用户项目内容特征偏好n的共同影响。并最终通过满意度进而影响用户的预测评分。故此，在现实事实路径(实线路径)中也应该存在的反事实路径，即在学习用户满意度S的表示的过程中，相较于传统的通过聚合项目曝光特征h和用户项目曝光特征偏好m以外，还应计算出由项目内容特征C到用户满意度S的虚拟路径的对S表示的影响，和用户项目内容特征偏好n到用户满意度S的虚拟路径对S的表示的影响。该两条反事实路径在图3中为虚线路径。其中，S为满意度，m为用户项目曝光特征偏好，n为用户项目内容特征偏好，F为预测结果。

以下是将上述理论具体用于本发明中的具体过程，是利用CNN和GCN两种联合神经网络进行模型实现。

S4、提取分类特征中的视频和图片，并采用卷积神经网络(CNN)将视频和图片数据转换为视觉特征向量，图2为卷积神经网络(CNN)的结构示意图；

步骤S4包括以下分步骤：

S42、对图像数据进行二值化处理，得到像素矩阵；

S43、对像素矩阵进行卷积操作，得到特征图；

步骤S43中特征图的大小表达公式为：

S44、对特征图池化处理，得到降低数据量后的特征图；

步骤S45中采用全连接层将降低数据量后的特征图切割成一维向量的公式为：

χ_h-view＝relu(W*Γ+b)

步骤S6包括以下分步骤：

步骤S61中将视觉特征向量和文本特征向量进行拼接的公式为：

χ_h＝[χ_h-view,χ_h-char]

χ_c＝[χ_c-view,χ_c-char]

步骤S62中采用项目静态特征λ_i分别对初步项目曝光特征向量和初步项目内容特征向量进行再次拼接的公式为：

h′＝[χ_h,λ′]

c′＝[χ_c，λ′]

其中，λ′为项目静态特征λ_i的一维向量，[χ_h,λ′]为将初步项目曝光特征向量χ_h和项目静态特征λ_i的一维向量λ′相拼接，[χ_c,λ′]为将初步项目内容特征向量χ_c和项目静态特征λ_i的一维向量λ′相拼接，h′为项目曝光特征向量，c′为项目内容特征向量。

利用基于满意度的反事实因果图，分析曝光特征与内容特征之间的差异对用户满意度的影响，并重新计算用户评分预测算法。通过反事实的方法，营造一个满意度受项目曝光特征和内容特征以及用户项目曝光特征偏好和用户项目实际特征偏好的反事实世界，它想象内容特征以及用户项目内容特征偏好通过满意度S＝d()对用户评分预测结果产生的影响。再基于现实的实验数据利用后门调整的方式纠正当前未考虑曝光特征与内容特征差异的用户评分预测结果的满意度偏差，具体内容如下：

利用图卷积网络GCN的节点信息融合思想，如图4所示，将上述项目曝光特征h、用户项目曝光特征偏好m、项目内容特征c和用户项目内容特征偏好n的4种特征分别转换为图4中得出的h、c、m、n节点，并将4种节点的信息聚集起来，表示满意度s，具体方案如下：基于项目曝光特征h以及用户项目曝光特征偏好m的满意度模块，为原本未量化考虑满意度的因果推荐的输出评分根据满意度，即项目曝光特征以及用户项目曝光特征偏好的近似程度进行调整，并使用欧式距离来衡量曝光特征h和用户项目曝光特征偏好m之间距离。

步骤S7包括以下分步骤：

S71、计算项目曝光特征向量与用户项目曝光特征偏好之间的欧式距离，并将欧式距离作为满意度；

S72、根据满意度，计算图卷积网络GCN引入满意度后的预测评分误差；

步骤S72中计算图卷积网络GCN引入满意度后的预测评分误差的公式为：

S＝d(h′m,)

Error＝Y′-Y

其中，S为基于项目曝光特征向量和用户项目曝光特征偏好的满意度，d(,)为欧式距离，h′为项目曝光特征向量，m为用户项目曝光特征偏好，Error为预测评分误差，Y为图卷积网络GCN未引入满意度的预测评分，Y′为图卷积网络GCN引入满意度S后的预测评分；

S^*＝d([h′,c′],[m,n])

所述步骤S74中计算用户项目评分的公式为：

Y″′＝Y″-Error

对联合神经网络模型的训练，首先，对于联合神经网络的训练，采用十折交叉验证，随机选择10％的以喜欢结尾的点击构成一个测试集，其余的作为训练集。另外，从训练集中随机抽取10％的点击量作为验证集。利用验证集来调整超参数，并为测试阶段选择最佳模型。对于每次点击，随机选择一个用户从未交互过的物品作为负样本进行训练。

其次，超参数设置，包括：学习率设置为0.001，静态特征向量λ′大小为64，通过BPR损失来优化模型；损失考虑用户物品交互中的可观察项和不可观察项的相对顺序，BPR假定更能反映出用户偏好与可观察项的交互相较于那些不可观察项来说应该赋予高的预测值，其定义如下：

其中，Loss为损失函数，其中

表示累计计算所有符合规则的数据条，σ()为激活函数，y₊为正向样本，y_-为负样本，

为权重，ρ为超参数，||||²为二范数，

表示模型的正则化权值和参数。

根据因果满意度偏差的预测评分降序生成项目推荐列表，对于每个用户，提出了一个策略：

根据满意度因果理论，在推理过程中对推荐的前20个条目重新降序排序。对于每一项物品，最终的排名是根据最终调整后的预测评分计算出来。

一种基于图卷积网络的反事实项目推荐方法，用户的满意度表示与“点击欺骗”问题的关键是用户的满意度可以通过点击后行为得到体现，如页面停留时间等，很多研究都使用了该信息用作为用户满意度的指标，事实上，结合因果推断的方法，可以让用户满意度得到更加细粒度的体现。对于“点击欺骗”问题，用户的满意度可以表示为：项目实际内容与暴露信息的匹配程度以及用户对暴露信息的偏好和对实际内容的偏好都会影响用户满意度，进而影响用户评分。使用因果推断方法可以使这些偏好对于预测结果影响的因果关系得到展现，修正基于点击优化的推荐系统中片面根据项目曝光特征与用户对其偏好进行推荐的逻辑，就可以进而修正用户评分预测结果，缓解推荐过程中的“点击欺骗”问题。

Claims

1.一种基于图卷积网络的反事实项目推荐方法，其特征在于，包括以下步骤：

S3、对特征数据进行分类，得到分类特征；

项目曝光特征h属于展示在推荐条目可以被直接观测到的视觉特征和文本特征，项目内容特征c属于用户点击推荐条目跳转获得的具体视觉特征和文本特征；

所述步骤S6包括以下分步骤：

S62、采用项目静态特征λ_i分别对初步项目曝光特征向量和初步项目内容特征向量进行再次拼接，得到最终的项目曝光特征向量和项目内容特征向量；

所述步骤S7包括以下分步骤：

S74、根据预测评分误差和加入项目内容特征向量和用户项目内容特征偏好的图卷积网络GCN的预测评分，计算用户项目评分；

所述步骤S72中计算图卷积网络GCN引入满意度后的预测评分误差的公式为：

S＝d(h′,m)

Error＝Y′-Y

其中，S为基于项目曝光特征向量h^′和用户项目曝光特征偏好的满意度，d(,)为欧式距离，h′为项目曝光特征向量，m为用户项目曝光特征偏好，Error为预测评分误差，Y为图卷积网络GCN未引入满意度的预测评分，Y′为图卷积网络GCN引入满意度S后的预测评分；

S^*＝d([h′,c′],[m,n])

所述步骤S74中计算用户项目评分的公式为：

Y″′＝Y″-Error

其中，Y″′为用户项目评分，Y″为图卷积网络GCN引入满意度S^*后的预测评分，Error为预测评分误差；

2.根据权利要求1所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S3中特征数据包括：项目特征I；

所述静态特征分为λ：项目静态特征λ_i；

所述曝光的视频(h,I_video)和封面图片(h,I_fig)属于视觉特征；

所述封面标题(h,I_char)和内容文字(c,I_char)属于文本特征。

3.根据权利要求2所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S4包括以下分步骤：

S42、对图像数据进行二值化处理，得到像素矩阵；

S43、对像素矩阵进行卷积操作，得到特征图；

S44、对特征图池化处理，得到降低数据量后的特征图；

4.根据权利要求3所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S43中特征图的大小表达公式为：

5.根据权利要求3所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S45中采用全连接层将降低数据量后的特征图切割成一维向量的公式为：

χ_h-view＝relu(W*Γ+b)

6.根据权利要求5所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S61中将视觉特征向量和文本特征向量进行拼接的公式为：

χ_h＝[χ_h-view,χ_h-char]

χ_c＝[χ_c-view,χ_c-char]

其中，χ_h-viex为一维的视觉特征向量，χ_c-view为一维的文本特征向量，[,]为拼接符号，χ_h-char为项目曝光特征h文本特征，χ_c-char为项目内容特征c文本特征，χ_h为一维的初步项目曝光特征向量，χ_c为一维的初步项目内容特征向量。

7.根据权利要求6所述的基于图卷积网络的反事实项目推荐方法，其特征在于，所述步骤S62中采用项目静态特征λ_i分别对初步项目曝光特征向量和初步项目内容特征向量进行再次拼接的公式为：

h′＝[χ_h,λ′]

c′＝[χ_c,λ′]