CN108804565A

CN108804565A - 一种基于知识表示学习的协同矩阵分解方法

Info

Publication number: CN108804565A
Application number: CN201810499629.3A
Authority: CN
Inventors: 刘琼昕; 覃明帅; 马敬; 高春晓
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2018-01-24
Filing date: 2018-05-23
Publication date: 2018-11-13
Anticipated expiration: 2038-05-23
Also published as: CN108153912A; CN108804565B

Abstract

本发明涉及一种基于知识表示学习的协同矩阵分解方法，属于推荐系统以及表示学习技术领域。针对协同过滤算法中用户反馈数据的稀疏性问题，在物品的知识图谱上进行随机游走采样，学习其向量表示，并在此基础上联合地分解反馈矩阵和物品关联度矩阵，具体基于根据物品的共现情况计算物品的关联度矩阵，然后基于矩阵分解模型采用协同矩阵分解方法联合地分解用户对物品的反馈矩阵和物品的关联度矩阵；最后，两种矩阵共享物品向量，利用物品的语义信息弥补反馈数据的缺失。实验结果表明，该方法显著地提升了矩阵分解模型的推荐效果，在一定程度上解决了协同过滤的冷启动问题。

Description

一种基于知识表示学习的协同矩阵分解方法

技术领域

本发明涉及一种基于知识表示学习的协同矩阵分解方法，属于推荐系统领域。

背景技术

在推荐系统中，基于协同过滤(collaborative filtering)的算法是应用最广泛的一类方法。协同过滤算法简单且高效，只需要用户对物品的反馈信息即可推测用户可能感兴趣的物品。反馈信息包括显式反馈(如用户对物品的评分)和隐式反馈(如用户是否点击过物品)。协同过滤算法存在冷启动问题，它仅考虑了用户对物品的反馈信息，如果反馈数据太稀疏，推荐的效果通常不理想。另外，新加入的物品没有任何反馈信息，协同过滤算法无法对其进行推荐。

为解决冷启动问题，研究人员在协同过滤的基础上结合用户或物品的附加信息提出了一些混合推荐算法。Singh等人提出了一种协同矩阵分解(collective matrixfactorization,CMF)框架，首先将用户、物品或者其他实体之间存在的关系转化为关系矩阵，然后联合分解反馈矩阵和多个关系矩阵。CoFactor利用用户的消费记录生成一个物品共现矩阵，和CMF一样对其进行联合分解，但是该方法本质上还是只用到了用户反馈信息，没有利用物品的客观信息。

本申请提出了一种基于知识表示学习的协同矩阵分解方法，利用物品知识图谱的结构信息生成一个物品关联度矩阵，联合地分解用户反馈矩阵和物品关联度矩阵。实验表明，该方法相较于普通的矩阵分解方法，在各种评价指标上都表现得更好，对于反馈较少的用户和物品，效果提升更加显著。

发明内容

本发明的目的在于针对单一矩阵分解模型冷启动问题，即存在新物品加入时无评价导致无法推荐，提出了一种基于知识表示学习的协同矩阵分解方法。

本发明的核心思想是：在物品的知识图谱上进行随机游走采样，根据物品的共现情况计算物品的关联度矩阵，然后基于矩阵分解模型采用协同矩阵分解方法联合地分解用户对物品的反馈矩阵和物品的关联度矩阵。

一种基于知识表示学习的协同矩阵分解方法，包括如下步骤：

步骤一、根据物品的知识图谱计算物品的关联度矩阵，具体包含如下子步骤：

步骤1.1、将知识图谱视为一个无向图，对无向图中的实体节点进行随机游走采样；

其中，一个无向图，G，记为：G＝(V,E)；其中，V为无向图G中实体节点的集合，E为无向图G中边的集合，对于无向图G中的每一个实体节点u∈V，以u为起始节点进行一次随机游走得到一个长度为l的节点序列；

用c_i表示节点序列中的第i个节点，其中c₀＝u，假设当前已从取值为t的节点c_i-2游走到取值为v的节点c_i-1，下一个节点c_i取值为x的概率P通过式(1)和式(2)计算：

其中，s表示随机游走的状态；s有0和1两种状态，且s的初始值为0；

从公式(1)可以看出，当s＝0时，所有与取值为v的节点相连的节点被选中的概率相同；当s＝1时，节点x被选中的概率取决于π_vx，π_vx为未归一化的转移概率，Z为归一化常量，d(t)表示取值为t的节点c_i-2的度；π_vx的计算通过取值为t的节点游走到取值为v的节点后，下一次游走返回取值为t节点的概率由节点t的度d(t)和超参数p共同决定；取值为t的节点所连接的节点越多，则返回节点t的概率越大，这样可以充分地挖掘其局部结构信息；

步骤1.2、统计实体节点的共现频次，具体为：利用步骤1.1得到节点序列c₀,c₁,…,c_l-1后，设定一个窗口大小值m，对于每个c_x，c_y(x+1≤y≤x+m)构成其上下文；；每个(c_x,c_y)分别为#(c_x,c_y)和#(c_y,c_x)贡献一个计数，遍历并所有的(c_x,c_y)，统计得到每两个节点i和j的共现频次#(i,j)；

其中，实体节点对应物品；

步骤1.3、计算实体节点的关联度矩阵，具体利用步骤1.2得到的#(i,j)按式(3)计算节点i和节点j之间的互信息PMI(i,j)：

其中，点互信息，即pointwise mutual information，缩写为PMI；log是以2为底的对数；

#(i)＝∑_j#(i,j)，#(i)表示以i开头的(i,j)对的总数，#(j)＝∑_i#(i,j)，#(j)表示以j结尾的(i,j)对的总数，D表示所有(i,j)对的总数；

关联度矩阵M∈R^I×J的元素m^ij按式(4)计算：

m_ij＝max{PMI(i,j)-logk,0} (4)

步骤二、联合分解反馈矩阵和关联度矩阵；具体包括如下子步骤：

步骤2.1、设定向量维度K，正则化向权重λ，迭代次数N，随机初始化用户向量θ，物品向量β，上下文向量γ；

步骤2.2、基于交替最小二乘法对矩阵分解模型进行训练；

步骤2.2.1构造矩阵分解模型的损失函数，其定义见式(5)：

其中，超参数c_ui是用于衡量反馈的置信度；当y_ui＝0时，为c_ui设定一个较小的值c₀，当y_ui≠0时，为c_ui设定一个较大的值c₁；θ_u为用户u的向量，β_i为物品i的向量，γ_j为上下文j的向量；

超参数λ控制L2正则项的权重；

步骤2.2.2设定计数最大值N，初始化循环计数值，其中循环计数值记为k，初始化k＝1；

步骤2.2.3按照式(6)、式(7)和式(8)更新θ_u、β_i和γ_j的值；

其中，I是单位矩阵；

步骤2.2.4判断循环计数值k是否已经达到计数最大值N，如果是，完成本方法；否则k＝k+1，跳至步骤2.2.3。

有益效果

一种基于知识表示学习的协同矩阵分解方法，与现有方法相比，具有如下有益效果：

传统的协同过滤算法仅考虑了用户对物品的反馈信息，存在冷启动问题，对于新的物品或用户无法进行推荐。本发明从实体描述文本中提出了一种基于知识图谱的推荐方法，该方法从物品的知识图谱中提取物品的关联度信息，并将其结合到矩阵分解模型中，实验结果表明，本发明在公开数据集上的推荐效果优于传统的单一矩阵分解方法。

附图说明

图1是本发明一种基于知识表示学习的协同矩阵分解方法及实施例1中的流程示意图；

图2是本发明一种基于知识表示学习的协同矩阵分解方法及实施例1中的随机游走的状态s的转换图；

图3是本发明一种基于知识表示学习的协同矩阵分解方法及实施例1中的随机游走的转移概率π的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步说明和详细描述。

实施例1

本实施例叙述了本发明一种基于知识表示学习的协同矩阵分解方法的具体实现过程，图1本实施例的实现流程示意图。

从图1中可以看出，本发明及本实施例的具体实现步骤如下:

步骤A、在物品的知识图谱上进行随机游走采样得到多个实体节点序列，统计实体共现频次，并计算实体的关联度；具体包含如下子步骤：

步骤A.1、知识图谱中关系的集合用R表示，实体集合用E表示，对于每个关系r∈R，仅保留该关系对应的边，得到子图G_r；

步骤A.2、随机游走采样；

在步骤A.1得到的每个子图G_r上分别进行采样，具体步骤为：对于每个实体e∈E，以e为初始节点采样一条长度为l的序列seq，并加入到序列集合seq中，其中随机游走的概率根据式(1)和式(2)计算；

图2是本发明一种基于知识表示学习的协同矩阵分解方法及本实施例中的随机游走的状态s的转换图；具体来说：状态s根据图3进行转换，即图3是本发明一种基于知识表示学习的协同矩阵分解方法及本实施例中的随机游走的转移概率π的示意图；

步骤A.3、统计实体节点的共现频次，并计算物品的关联度；

其中，实体节点对应物品；

在每个seq∈seq上以m为窗口大小统计物品i和j的共现频次#(i,j)，然后根据式(3)和式(4)计算物品的关联度矩阵M。

步骤B、模型训练，得到用户和物品的向量表示，具体包括如下子步骤：

步骤B.1、设定向量维度K，正则化向权重λ，迭代次数N，随机初始化用户向量θ，物品向量β，上下文向量γ；

步骤B.2、基于交替最小二乘法对模型进行训练；

步骤B.2.1构造模型的损失函数；

模型的损失函数的定义见式(5)；

步骤B.2.2初始化循环计数值，其中循环计数值记为k，初始化k＝1；

步骤B.2.3按照式(6)、式(7)和式(8)更新θ_u、β_i和γ_j的值；

步骤B.2.4判断循环计数值k是否已经达到计数最大值N，如果是，完成本方法；否则k＝k+1，跳至步骤B.2.3；

按照步骤A到步骤B，就可以完成基于知识表示学习的协同矩阵分解方法，通过本发明中的训练方法，可以得到优化后的参数，即用户和物品的向量化表示。

以上所述为本发明的较佳实施例而已，本发明不应该局限于该实施例和附图所公开的内容。凡是不脱离本发明所公开的精神下完成的等效或修改，都落入本发明保护的范围。

Claims

1.一种基于知识表示学习的协同矩阵分解方法，其特征在于：核心思想是在物品的知识图谱上进行随机游走采样，根据物品的共现情况计算物品的关联度矩阵，然后基于矩阵分解模型采用协同矩阵分解方法联合地分解用户对物品的反馈矩阵和物品的关联度矩阵，包括如下步骤：

其中，实体节点对应物品；

关联度矩阵M∈R^I×J的元素m_ij按式(4)计算：

m_ij＝max{PMI(i,j)-logk,0} (4)

步骤2.2、基于交替最小二乘法对矩阵分解模型进行训练；

步骤2.2.1 构造矩阵分解模型的损失函数，其定义见式(5)：

其中，超参数λ控制L2正则项的权重；

步骤2.2.2 设定计数最大值N，初始化循环计数值，其中循环计数值记为k，初始化k＝1；

步骤2.2.3 按照式(6)、式(7)和式(8)更新θ_u、β_i和γ_j的值；

其中，I是单位矩阵；

步骤2.2.4 判断循环计数值k是否已经达到计数最大值N，如果是，完成本方法；否则k＝k+1，跳至步骤2.2.3。