CN109800853B

CN109800853B - 融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备

Info

Publication number: CN109800853B
Application number: CN201811453628.1A
Authority: CN
Inventors: 曾碧卿; 商齐
Original assignee: South China Normal University
Current assignee: South China Normal University
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2022-11-08
Anticipated expiration: 2038-11-30
Also published as: CN109800853A

Abstract

本发明涉及一种融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备。方法包括如下步骤：将物品的用户描述文档表示为词向量矩阵；将用户对物品的评分集合映射为二进制向量；通过卷积注意力神经网络和堆叠降噪自动编码器分别获取物品和用户的隐含因子；对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到预测评分矩阵；根据所述预测评分矩阵与真实评分矩阵之间的损失函数，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。本发明的融合卷积神经网络和显式反馈的矩阵分解方法可解释性好，能减轻物品冷启动问题，并能改善数据稀疏问题，提高评分预测的准确率。

Description

融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备

技术领域

本发明涉及数据处理技术领域，特别是涉及一种融合卷积神经网络和显式反馈的矩阵分解方法、装置及电子设备。

背景技术

基于矩阵分解的推荐方法是目前一种常用的基本方法，通过分解给定用户对物品的评分矩阵，用两个低秩矩阵的乘积来逼近原来的评分矩阵，逼近的目标就是使预测的评分矩阵和原来的评分矩阵之间的误差平方最小。两个低秩矩阵分别为用户和物品的特征矩阵，矩阵中的这些特征向量可以简单地理解为用户对不同属性的偏好。与基于内容的过滤方法相比，矩阵分解具有较好的领域适应性，能够处理非结构化的数据，如音乐、视频等。但存在数据稀疏和冷启动问题。这是因为，纯粹的矩阵分解忽略了物品的评论文本和描述文本的隐含特征，使得矩阵分解的预测性能受限。

现有的评分预测将用户对物品的评分信息看作单纯的评分，没有从用户和物品的角度，深入思考用户对不同物品的评分和不同用户对同一物品的评分所蕴含的深层含义，简单的矩阵分解无法添加文本特征，不能深入理解用户对物品的评论文本，因此无法解决冷启动和推荐的可解释性问题。

卷积神经网络可用于提取文本的隐含特征，但是卷积神经网络往往忽略对单一词的特征提取，而且文本中不同词对评分预测的重要性不一，而大部分工作没有考虑不同词对评分预测的差异性。

发明内容

基于此，本发明的目的在于，提供一种融合卷积神经网络和显式反馈的矩阵分解方法，其可解释性好，能有效减轻物品冷启动问题，并能改善数据稀疏问题，提高评分预测的准确率。

本发明融合卷积神经网络和显式反馈的矩阵分解方法是通过如下方案实现的：

一种融合卷积神经网络和显式反馈的矩阵分解方法，包括如下步骤：

将物品的用户描述文档表示为词向量矩阵；

将用户对物品的评分集合映射为二进制向量；

将所述词向量矩阵输入卷积注意力神经网络，获取物品的隐含因子；

将所述用户评分信息以及其对应的二进制向量输入堆叠降噪自动编码器，获取用户的隐含因子；

通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到用户对该物品的预测评分，并根据用户对于该物品的预测评分，建立预测评分矩阵；

根据所述预测评分矩阵与真实评分矩阵之间的损失函数，使用误差反向传播算法，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。

本发明所述的融合卷积神经网络和显式反馈的矩阵分解方法，通过卷积注意力神经网络提取物品的隐含因子，通过堆叠降噪自动编码器提取用户的隐含因子，再通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到预测评分，建立预测评分矩阵，其可解释性好，能有效减轻物品冷启动问题，并能改善数据稀疏问题，提高评分预测的准确率。

在一种实施例中，将物品的用户描述文档表示为词向量矩阵前，还包括如下步骤：

去除所述用户描述文档中频率过高的词汇；

去除所述用户描述文档中频率过低的词汇。

通过对用户描述文档进行筛选，能更准确的获取用户描述文档的词向量矩阵。

在一种实施例中，将用户对物品的评分集合映射为二进制向量前，还包括如下步骤：

去除没有用户描述文档的物品。

在一种实施例中，对所述物品的隐含因子和所述用户的隐含因子求向量内积前，还包括如下步骤：

根据物品的评分数量对所述物品赋予不同程度的高斯噪声，其中，评分数量越少，所赋予的高斯噪声越大。

通过根据物品的评分数量对所述物品赋予不同程度的高斯噪声，可以提高所述物品隐含因子的鲁棒性。

进一步地，本发明还提供一种融合卷积神经网络和显式反馈的矩阵分解装置，包括：

词向量矩阵模块，用于将物品的用户描述文档表示为词向量矩阵；

二进制向量映射模块，用于将用户对物品的评分集合映射为二进制向量；

物品隐含因子获取模块，用于将所述词向量矩阵输入卷积注意力神经网络，获取物品的隐含因子；

用户隐含因子获取模块，用于将所述用户评分信息以及其对应的二进制向量输入堆叠降噪自动编码器，获取用户的隐含因子；

概率矩阵分解模块，用于通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到用户对该物品的预测评分，并根据用户对于该物品的预测评分，建立预测评分矩阵；

优化模块，用于根据所述预测评分矩阵与真实评分矩阵之间的损失函数，使用误差反向传播算法，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。

本发明所述的融合卷积神经网络和显式反馈的矩阵分解装置，通过卷积注意力神经网络提取物品的隐含因子，通过堆叠降噪自动编码器提取用户的隐含因子，再通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到预测评分，建立预测评分矩阵，其可解释性好，能有效减轻物品冷启动问题，并能改善数据稀疏问题，提高评分预测的准确率。

在一种实施例中，还包括：

第一预处理模块，用于将物品的用户描述文档表示为词向量矩阵前，去除所述用户描述文档中频率过高的词汇，以及去除所述用户描述文档中频率过低的词汇。

在一种实施例中，还包括：

第二预处理模块，用于将用户对物品的评分集合映射为二进制向量前，去除没有用户描述文档的物品。

在一种实施例中，还包括：

高斯噪声赋予模块，用于对所述物品的隐含因子和所述用户的隐含因子求向量内积前，根据物品的评分数量对所述物品赋予不同程度的高斯噪声，其中，评分数量越少，所赋予的高斯噪声越大。

进一步地，本发明还提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任意一项融合卷积神经网络和显式反馈的矩阵分解方法。

进一步地，本发明还提供一种电子设备，包括存储器、处理器以及储存在所述存储器并可被所述处理器执行的计算机程序，所述处理器执行所述计算机程序时，实现如上述的任意一项融合卷积神经网络和显式反馈的矩阵分解方法。

为了更好地理解和实施，下面结合附图详细说明本发明。

附图说明

图1为一种实施例中融合卷积神经网络和显式反馈的矩阵分解方法流程图；

图2为一种实施例中对物品描述文档预处理流程图；

图3为融合卷积神经网络和显式反馈的矩阵分解模型示意图；

图4为卷积注意力神经网络的结构示意图；

图5为堆叠降噪自动编码器的网络结构示意图；

图6为一种实施例中融合卷积神经网络和显式反馈的矩阵分解方法流程图；

图7为一种实施例中融合卷积神经网络和显式反馈的矩阵分解模型的优化流程示意图；

图8为一种实施例中融合卷积神经网络和显式反馈的矩阵分解装置结构示意图；

图9为一种实施例中电子设备结构示意图。

具体实施方式

请参阅图1，在一种实施例中，本发明融合卷积神经网络和显式反馈的矩阵分解方法包括如下步骤：

步骤S101：将物品的用户描述文档表示为词向量矩阵。

步骤S102：将用户对物品的评分集合映射为二进制向量。

所述物品包括用户购买、或使用的商品，包括实务商品，也包括电影、电视剧、书籍等商品，所述用户描述文档为用户对该物品发表的评论，所述用户评分信息为用户对该物品所发表的评分信息。

所述词向量矩阵通过词嵌入层，将物品的描述文档映射到向量空间，向量之间的距离表征了描述文档中，词与词之间的语义关系。将用户对物品的评分集合映射为二进制向量，是通过将用户对物品的评分集合进行二进制编码来完成的。

步骤S103：将所述词向量矩阵输入卷积注意力神经网络，获取物品的隐含因子。

所述卷积注意力神经网络包括注意力层，用于提取用户描述文档的局部特征，所述物品的隐含因子，为隐语义模型中，物品与隐类之间的关系矩阵。

步骤S104：将所述用户评分信息以及其对应的二进制向量输入堆叠降噪自动编码器，获取用户的隐含因子。

所述堆叠降噪自动编码器训练时可在输入信号中加入不同类型、不同强度的噪声，其编码过程具有良好的稳定性和鲁棒性，所述用户的隐含因子，为隐语义模型中，用户评分与隐类之间的关系矩阵。

步骤S105：通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到用户对该物品的预测评分，并根据用户对于该物品的预测评分，建立预测评分矩阵。

所述概率矩阵分解的目标为根据现有的物品的隐含因子和用户的隐含因子，用户-物品评分矩阵中的未知值。

步骤S106：根据所述预测评分矩阵与真实评分矩阵之间的损失函数，使用误差反向传播算法，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。

请参阅图2，在一种实施例中，将物品的用户描述文档表示为词向量矩阵前，还包括如下步骤：

步骤S201：去除所述用户描述文档中频率过高的词汇。

步骤S202：去除所述用户描述文档中频率过低的词汇。

在本实施例中，通过计算物品的描述文档中每个词的词频-逆文档频率，进而去除掉词频-逆文档频率过高或过低的词汇。

在一种实施例中，还包括如下步骤：

去除没有用户描述文档的物品。

在一种实施例中，为提高物品隐含因子的鲁棒性，对所述物品的隐含因子和所述用户的隐含因子求向量内积前，还包括如下步骤：

所述高斯噪声为概率密度函数服从高斯分布(即正态分布)的一类噪声。

在一个具体的实施例中，请参阅图3-7，其中，图3为本发明所述的融合卷积神经网络和显式反馈的矩阵分解方法所使用的融合卷积神经网络和显式反馈的矩阵分解模型(RACMF)的示意图，图4为卷积注意力神经网络(ACNN)的结构示意图，图5为堆叠降噪自动编码器(aSDAE)的网络结构示意图，其中，融合卷积神经网络和显式反馈的矩阵分解模型将卷积注意力神经网络和堆叠降噪自动编码器整合到概率矩阵分解的框架下，提高评分预测的准确性。其中，图中R为评分矩阵，U为用户隐含因子，V为物品隐含因子，X为物品的描述文档，Y为用户的评分信息，W为ACNN网络的权值和偏置，W⁺为aSDAE网络的权值和偏置，σ²为变量的方差。

请参阅图6和图7，其中，图7为融合卷积神经网络和显式反馈的矩阵分解模型(RACMF)的优化流程示意图，在所述预测评分矩阵与真实评分矩阵之间的均方根误差不满足设定条件时，继续对卷积注意力神经网络(ACNN)堆叠降噪自动编码器(aSDAE)进行训练。

本实施例的融合卷积神经网络和显式反馈的矩阵分解方法包括如下步骤：

步骤S601：对物品的用户描述文档进行预处理，将用户描述文档表示为词向量矩阵。

其中，对物品的用户描述文档进行预处理包括如下步骤：

步骤S6011：对用户描述文档长度取值为300(文档长度超过300仅保留该文档中前300个词)。

步骤S6012：去除用户描述文档中的停用词。

步骤S6013：计算用户描述文档中每个词的词频-逆文档频率。

步骤S6014：去除用户描述文档中频率高于0.5的词。

步骤S6015：挑出词频-逆文档频率最大的8000个词生成词汇表。

步骤S6016：从文档中删除未出现在词汇表里的词。

通过词嵌入层，包含T个词的文档映射到维度为d的词向量隐含空间中，文档对应的词嵌入矩阵为

可表示为：D＝(x₁,x₂,...,x_T)。

步骤S602：对物品的用户评分数据进行预处理，去除没有用户描述文档的物品。

对于ML-100k、ML-1m、ML-10m和Amazon评分数据，从中去除没有描述文档的物品。对于Amazon评分数据，去除评分少于6项的用户得到AIV-6，最后经过统计得到表1-1。与ML-100k、ML-1m、ML-10m相比，AIV-6评分数据的稠密度更低。

表1-1四个数据集的数据统计

步骤S603：对用户的评分信息进行二进制编码，将用户对物品的评分集合映射为二进制向量。将评分由[1，5]映射为二进制向量的形式，比如“1”映射为“10000”，“5”映射为“00001”。

步骤S604：将所述词向量矩阵输入卷积注意力神经网络，获取物品的隐含因子。

卷积注意力神经网络(ACNN)先通过局部注意力层和卷积层提取文本特征，局部注意力模块通过滑动窗口来获取文本序列的注意力得分，用以表示各中心词的权重大小，卷积层用于提取文本的局部特征，然后再使用池化层对卷积层的输出进行降维，最后输出物品的隐含因子。

其中，ACNN网络参数设置如下：

1)初始化词向量：通过Glove初始化词向量，词向量的维度为200；

2)局部注意力的滑动窗口长度为5；

3)卷积层使用长度为5和1的卷积核各50个；

4)卷积层的激活函数为ReLU；

5)优化器为“Adam”；

6)设物品隐含因子的维度为50。

步骤S605：将所述用户评分信息以及其对应的二进制向量输入堆叠降噪自动编码器，获取用户的隐含因子。其中，堆叠降噪自动编码器采用优化器“RMSprop”且隐含因子的维度设为50。

步骤S606：根据物品的评分数量对所述物品赋予不同程度的高斯噪声，其中，评分数量越少，所赋予的高斯噪声越大。

方程如下：

v_j＝acnn_W(X_j)+∈_j，

物品的隐含因子为：

步骤S607：通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到用户对该物品的预测评分，并根据用户对于该物品的预测评分，建立预测评分矩阵。

矩阵分解的目标是找到合适的用户和物品隐含因子U和V，然后通过U^TV预测未知评分，其中

根据条件概率分布可知，已知评分的条件分布为：

其中，N(x|μ,σ²)表示均值为μ，方差为σ²的高斯正态分布的概率密度函数。

对于用户隐含因子，使用aSDAE网络生成，方差为

步骤S608：根据所述预测评分矩阵与真实评分矩阵之间的损失函数，使用误差反向传播算法，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。

损失函数如以下方程：

对于参数U和V的优化，本发明采用坐标下降法(Coordinate Descent)。

u_i←(VI_iV^T+λ_UI_K)^-1(VR_i+λ_Uasdae_W+(Y_i))

v_j←(UI_jU^T+h(n_j)λ_VI_K)^-1(UR_j+h(n_j)λ_Vacnn_W(X_j))

对于变量W，将损失函数方程看作关于W的二次函数，损失函数方程可简化为：

本发明采用反向传播算法优化变量W⁺和W

通过优化参数U、V、W⁺和W，最后就可以预测用户关于物品的未知评分：

本发明提出的一种融合卷积神经网络和显式反馈的矩阵分解方法在ML-100k、ML-1m、ML-10m、AIV-6数据集上，均方根误差分别为0.88498、0.84255、0.77440和1.01727，均方根误差RMSE相对其他常见算法均有一定程度的下降，说明本发明的融合卷积神经网络和显式反馈的矩阵分解方法提高评分预测的准确率。

本发明所述的融合卷积神经网络和显式反馈的矩阵分解方法，通过卷积注意力神经网络提取物品的隐含因子，通过堆叠降噪自动编码器提取用户的隐含因子，再通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到预测评分，建立预测评分矩阵，其可解释性好，能有效减轻物品冷启动问题，并能改善数据稀疏问题，提高评分预测的准确率；在卷积神经网络中添加局部注意力机制，降低了文档中无关词的干扰，对文档中不同的词赋予不同的权值，改善了评分预测的准确率。

请参阅图8，在一种实施例中，本发明融合卷积神经网络和显式反馈的矩阵分解装置800包括：

词向量矩阵模块801，用于将物品的用户描述文档表示为词向量矩阵。

二进制向量映射模块802，用于将用户对物品的评分集合映射为二进制向量。

物品隐含因子获取模块803，用于将所述词向量矩阵输入卷积注意力神经网络，获取物品的隐含因子。

用户隐含因子获取模块804，用于将所述用户评分信息以及其对应的二进制向量输入堆叠降噪自动编码器，获取用户的隐含因子。

概率矩阵分解模块805，用于通过概率矩阵分解交替更新用户隐含因子和物品隐含因子，对所述物品的隐含因子和所述用户的隐含因子求向量内积，得到用户对该物品的预测评分，并根据用户对于该物品的预测评分，建立预测评分矩阵。

优化模块806，用于根据所述预测评分矩阵与真实评分矩阵之间的损失函数，使用误差反向传播算法，优化所述卷积注意力神经网络和所述堆叠降噪自动编码器的参数。

在一种实施例中，还包括：

第一预处理模块807，用于将物品的用户描述文档表示为词向量矩阵前，去除所述用户描述文档中频率过高的词汇，以及去除所述用户描述文档中频率过低的词汇。

在另一种实施例中，还包括：

第二预处理模块808，用于将用户对物品的评分集合映射为二进制向量前，去除没有用户描述文档的物品。

高斯噪声赋予模块809，用于对所述物品的隐含因子和所述用户的隐含因子求向量内积前，根据物品的评分数量对所述物品赋予不同程度的高斯噪声，其中，评分数量越少，所赋予的高斯噪声越大。

本发明还提供一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任意一项实施例中的融合卷积神经网络和显式反馈的矩阵分解方法。

请参阅图9，在一种实施例中，本发明的电子设备900包括存储器901和处理器902，以及储存在所述存储器901并可被所述处理器902执行的计算机程序，所述处理器902执行所述计算机程序时，实现如上述任意一项实施例中的融合卷积神经网络和显式反馈的矩阵分解方法。

在本实施例中，控制器902可以是一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件。存储介质901可采用在一个或多个其中包含有程序代码的存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。计算机可读储存介质包括永久性和非永久性、可移动和非可移动媒体，可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括但不限于：相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。