CN108491469A

CN108491469A - 引入概念标签的神经协同过滤概念描述词推荐算法

Info

Publication number: CN108491469A
Application number: CN201810185963.1A
Authority: CN
Inventors: 鲁伟明; 刘佳卉; 庄越挺; 吴飞; 魏宝刚
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2018-03-07
Filing date: 2018-03-07
Publication date: 2018-09-04
Anticipated expiration: 2038-03-07
Also published as: CN108491469B

Abstract

本发明公开了一种引入概念标签的神经协同过滤概念描述词推荐算法。模型引入概念的标签信息知识库，提高概念的语义向量表达能力。同时结合深度神经网络和经典矩阵分解的优点，通过广义矩阵分解和多层感知机的融合模型拟合概念和描述词之间的潜在结构，得到面向概念的描述词列表。该算法改善了图模型计算复杂且不能保存的缺点，提高了概念、描述词的隐语义表达能力。本发明完成面向概念的描述词推荐技术研究及应用。针对指定概念，按概念的多侧面描述来组织图书内容，例如对于“二极管”，可以从“特性”、“工作原理”、“作用”等方面来进行组织，构建概念多侧面描述类专题，为读者构建全面的知识专题。

Description

引入概念标签的神经协同过滤概念描述词推荐算法

技术领域

本发明涉及一种引入概念标签的神经协同过滤概念描述词推荐算法。

背景技术

在数字图书馆中，人们获取知识的方式仍以图书整本阅读为主要手段。这种知识获取方式的效率低下，而且由于领域专家的知识有限，其撰写的图书不能涵盖各个方面，使得用户通过阅读单本图书获取的知识具有片面性。同时，由于海量图书导致的“信息过载”问题，用户也不能快速获得较为全面权威的知识。

显然，用户希望能在数字图书馆中获取尽可能完整的知识，而数字图书恰好具有可分解的特性，能用适当的重组和归纳方式来组织用户所需的知识。如果我们能够按照人们的学习认知过程来分解、重组和归纳数字图书馆中的图书，并引入互联网资源，这将极大的帮助人们快速获取知识。我们称这种数字图书馆中的知识组织方式为图书专题。图书专题可以分为三类：一类是按照概念的上下级关系来组织图书内容，例如对于“变压器”，下级内容可以按“三相变压器”、“二相变压器”等下级概念来进行组织，可称为概念层次描述类专题；第二类是按某个概念的多侧面描述来组织图书内容，例如对于“二极管”，可以从“特性”、“工作原理”、“作用”等方面来进行组织，可称为概念多侧面描述类专题；第三类是按知识点的时序连贯性来组织图书内容，例如对于“数据结构”，可以从“线性表”、“堆栈”、“树”、“图”、“查找”、“排序”等方面来组织知识，类似于知识链，因此可称为知识链类专题。当然，这三类专题形式也可以融合一体。本文主要关心“概念多侧面描述类专题”的自动生成，即面向概念的描述词推荐，然后基于推荐的描述词来组织概念的相关内容。通过概念和描述词的组合，可以得到知识目录，如“传感器的相关概念”、“传感器的分类”、“传感器的特征”，“传感器的产业现状”，通过知识目录，到图书中进行查找，即可获取相应的内容，通过合适的组织方式，在图书专题系统中进行展示，从而丰富知识专题的服务。

发明内容

本发明的目的在于提供一种引入概念标签的神经协同过滤概念描述词推荐算法，为读者构建全面的知识专题。

本发明解决其技术问题采用的技术方案如下：

一种引入概念标签的神经协同过滤概念描述词推荐算法包括以下步骤：

1)概念标签信息选择：选定概念词后，获取互联网百科标签信息以及中图分类标签信息作预排序，并对概念词的标签信息作截断处理，获取该概念词的Top-m标签信息；

2)概念标签向量的引入及融合：对于步骤1)中选取的Top-m标签信息做词嵌入操作，随机初始化后并做池化操作，得到Top-m标签信息向量，并与概念词的向量进行融合训练，使概念词的向量与标签信息向量映射到同一向量空间，并使概念词的向量与标签信息向量的距离损失函数值最小，最终得到概念-标签信息融合向量；

3)引入标签信息的广义矩阵分解：在神经协同过滤框架下对矩阵分解模型进行扩展，用神经网络拟合概念词和描述词之间的关系，并通过模型的损失函数来学习权重矩阵，利用非线性激活函数表达矩阵分解模型；

4)引入标签信息的多层感知机模型：用多层感知机模型来学习概念词和描述词之间的潜在交互信息，选用Relu作为多层感知机模型的激活函数，对于网络结构的设计，遵循塔模式，其中底层是最宽的，并且连续的神经网络层的神经元逐渐递减；

5)引入标签信息的广义矩阵分解和多层感知机模型的融合：通过学习不同的词嵌入层，融合广义矩阵分解模型和多层感知机模型最后的隐藏层，得到最后的输出向量，在训练整个神经协同过滤模型的同时，训练概念词、描述词以及概念标签信息向量，输出概念词与描述词之间的权重，依照权重值进行排序，得到基于概念词的描述词推荐列表。

优选的，所述步骤1)具体为：

概念的标签信息是指用于描述概念属性或者所属领域的词语，如概念“传感器”，该概念的标签信息为科技产品、电子学、工业技术、自动化技术、计算机技术、自动化元件等等。概念的标签信息来源可有两部分组成，一部分来源于互联网资源，如百度百科，维基百科等，另一部分来源于中图分类，中图分类是当今图书馆使用最为广泛的分类法体系。，对于任意概念t，可以有n个标签(label)组成，n是一个不确定的值，首先，要对标签进行挑选，对n个标签作截断处理，选择Top-m标签信息，在获取来源时，对标签信息作预排序，对于互联网百科标签信息来说，位置越靠前的标签越重要，对于中图分类来说，位置越靠后的标签越细化，两种标签组成Top-m标签信息。

优选的，所述步骤2)具体为：

对步骤1)中得到的Top-m标签信息作词嵌入操作，在输入时，随机初始化词嵌入向量，在后续优化过程中，同时优化标签信息的词嵌入向量；然后，对Top-m标签信息组成的标签向量做最大池化操作，输出池化后的向量tag_pooling，同时得到概念词的词嵌入向量t_embedding，在广义矩阵分解模型中，将概念词的词嵌入向量t_embedding与词标签向量tag_pooling作乘积运算，而在基于多层感知机模型的协同过滤中，将概念词的词嵌入向量t_embedding与词标签向量tag_pppling作直接连接，最终得到概念-标签信息联合词向量表达。概念向量经过概念标签向量的融合，可以更好地表达概念，更好地获取概念与概念间的隐性关系。在下文中，所有关于概念的语义向量均表示经过概念和概念标签融合后得到的概念语义向量。

优选的，对步骤3)具体为：

通过步骤2)已经得到了概念-标签信息的融合词向量表达，令融合的词向量表达为mf_p_tl，经过词嵌入层后描述词的语义向量表示为q_c，则mf_p_tl的获取方法如下：

mf_p_tl＝p_t⊙p_l

其中，p_t表示概念词的词嵌入向量，p_l表示标签信息的词嵌入向量，

令神经协同过滤网络的第一层映射函数为：

ψ₁(mf_p_tl,q_c)＝mf_p_tl⊙q_c

其中，⊙为element-wise product，表示对应元素相乘，

然后将向量投影到输出层：

其中，a_out表示激活函数，h表示输出层的权重矩阵；在上述式子中，可以发现，如果a_out是一个恒等函数，且h为所有维度值都为1的向量，那就是一个景点的矩阵分解模型。

在NCF框架下，可以基于矩阵分解的模型进行扩展。当h通过模型学习而非人为给定时，即为NCF框架下经典矩阵分解模型的扩展。经典的矩阵分解模型是一种用户项目间潜在因素的线性模型，用元素内积来估计低维空间内用户和项目间的交互行为，但是线性模型无法很好地拟合复杂的用户和项目间的行为，如果要更好地拟合，就需要增加低维空间的复杂度，而增加低维空间的复杂度，在用户-项目间的评分矩阵非常稀疏时，就会发生过拟合现象，过拟合现象的解决方案之一是增加正则化项，而基于广义矩阵分解的推荐模型将通过深度神经网络来解决矩阵分解的线性表达问题。

广义矩阵分解模型选用非线性的激活函数来表达，选用sigmoid函数:

a_out＝σ(x)＝1/1+e^-x

同时，h函数通过模型的损失函数来学习，通过上述两步转化，得到基于广义矩阵分解的协同过滤模型。

优选的，所述的步骤4)具体为：

令在多层感知机模型中，经过概念词嵌入层以及概念与概念标签融合后，概念词的语义向量表示为mlp_p_tl，

其中，W_x，b_x，a_x表示权重矩阵，偏置向量和第x层的激活函数，激活函数可以有多种形式，如sigmoid函数，tanh函数，Relu函数等。在本算法中，选取Relu函数作为激活函数，对于网络结构的设计，遵循塔模式，其中底层是最宽的，并且连续的神经网络层的神经元逐渐递减。通过对更高层使用少量隐藏单元，从而学习数据的更多抽象特征。

所述的步骤5)具体为：

令GMF表示广义矩阵分解，MLP表示多层感知机模型；

步骤3)的基于广义矩阵分解模型得到：

ψ^GMF＝mf_p_tl ^G⊙q_c ^G

步骤4)中基于多层感知机模型得到：

通过学习不同的词嵌入层，融合两个模型最后的隐藏层，得到最后的输出向量：

其中，mf_ptl^G，mlp_p_tl ^M分别表示GMF，MLP的概念词嵌入层，q_c ^G，q_c ^M表示描述词的词嵌入层，对于最后隐藏层的融合，实现方式如下：

通过上述方式，实现线性MF和非线性DNN方法的融合，同时融合了概念词的标签信息，实现引入标签信息的神经协同过滤模型；

在训练模型的过程中，优化目标为：

其中，embedding_GMF_concept表示GMF模型的概念词嵌入向量，embedding_GMF_aspect表示GMF模型的描述词嵌入向量，embeddind_GMF_tag表示GMF模型的标签信息词嵌入向量。embedding_MLP_concept表示MLP模型的概念词嵌入向量，embedding_MLP_aspect表示MLP模型的描述词嵌入向量，embedding_MLP_tag表示MLP模型的标签信息词嵌入向量；

在训练整个神经协同过滤模型的同时，训练概念词、描述词以及概念标签信息向量，输出概念词与描述词之间的权重，依照权重值进行排序，得到基于概念词的描述词推荐列表。

本发明方法与现有技术相比具有的有益效果：

1.本方法可以保存训练好的模型，当用户查询新的概念词时，只需加载模型即可，不需要进行重新训练。

2.模型引入概念的标签信息知识库，提高概念的语义向量表达能力，使得概念向量和标签信息向量在同一向量空间尽可能地相近。

3.算法结合深度神经网络和经典矩阵分解的优点，通过广义矩阵分解和多层感知机的融合模型拟合概念和描述词之间的潜在结构。

4.本方法框架简单、通用，它并不局限于本文所提出的模型，而是旨在作为开发推荐的深度学习方法的指南。这项工作补充了主流的浅层协同过滤模型，为基于深度学习的推荐开辟了一条新的研究途径。

附图说明

图1是本发明的流程图；

图2是本发明的整体模型图；

图3是步骤2)的方法图。

具体实施方式

下面结合附图和具体实施例对本发明作进一步详细说明。

如图1和2所示，一种引入概念标签的神经协同过滤概念描述词推荐算法包括以下步骤：

优选的，所述步骤1)具体为：

优选的，所述步骤2)具体为：

对步骤1)中得到的Top-m标签信息作词嵌入操作，在输入时，随机初始化词嵌入向量，在后续优化过程中，同时优化标签信息的词嵌入向量；然后，对Top-m标签信息组成的标签向量做最大池化操作，输出池化后的向量tag_pooling，同时得到概念词的词嵌入向量t_embedding，在广义矩阵分解模型中，将概念词的词嵌入向量t_embedding与词标签向量tag_pooling作乘积运算，而在基于多层感知机模型的协同过滤中，将概念词的词嵌入向量t_embedding与词标签向量tag_pooling作直接连接，最终得到概念-标签信息联合词向量表达。概念向量经过概念标签向量的融合，可以更好地表达概念，更好地获取概念与概念间的隐性关系。在下文中，所有关于概念的语义向量均表示经过概念和概念标签融合后得到的概念语义向量。

优选的，对步骤3)具体为：

mf_p_tl＝p_t⊙p_l

令神经协同过滤网络的第一层映射函数为：

ψ₁(mf_p_tl,q_c)＝mf_p_tl⊙q_c

其中，⊙为element-wise product，表示对应元素相乘，

然后将向量投影到输出层：

a_out＝σ(x)＝1/1+e^-x

优选的，所述的步骤4)具体为：

所述的步骤5)具体为：

令GMF表示广义矩阵分解，MLP表示多层感知机模型；

步骤3)的基于广义矩阵分解模型得到：

ψ^GMF＝mf_p_tl ^G⊙q_c ^G

步骤4)中基于多层感知机模型得到：

其中，mf_p_tl ^G，mlp_p_tl ^M分别表示GMF，MLP的概念词嵌入层，Q_c ^G，q_c ^M表示描述词的词嵌入层，对于最后隐藏层的融合，实现方式如下：

在训练模型的过程中，优化目标为：

其中，embedding_GMF_concept表示GMF模型的概念词嵌入向量，embedding_GMF_aspect表示GMF模型的描述词嵌入向量，embedding_GMF_tag表示GMF模型的标签信息词嵌入向量。embedding_MLP_concept表示MLP模型的概念词嵌入向量，embedding_MLP_aspect表示MLP模型的描述词嵌入向量，embedding_MLP_tag表示MLP模型的标签信息词嵌入向量；

实施例

下面结合本发明的方法详细说明本实例实施的具体步骤，如下：

1)训练数据集主要来源于工程科教图书服务系统积累的图书和在线百科资源。其中，概念个数共计1653937个，描述词个数共计1119213个，不同的标签信息个数共计489670个。以“无梗拉拉藤”为例，基于互联网的词条标签为：生物物种，植物。中图分类标签为：藤蔓植物、农业科学。由此选取藤蔓植物、植物、农业科学、生物物种为候选标签。

2)获取藤蔓植物、植物、农业科学、生物物种在训练集中的词嵌入向量(即标签信息向量)以及无梗拉拉藤的词嵌入向量(概念向量),对标签信息向量做最大池化操作，得到新的标签信息向量。同时获取候选描述词向量。

3)将各组词嵌入向量作为已训练好的引入标签信息的广义矩阵分解和多层感知机模型的融合模型中。得到概念-描述词预测分数。取分数最高的10个作为概念词的描述词。

4)无梗拉拉藤的描述词为：医药价值、生境分布、种属分布、使用价值、生境习性、用途、形态特征、相关种属、基本信息、简介。

Claims

1.一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于包括以下步骤：

2.根据权利要求1所述的一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于，所述步骤1)具体为：

概念词的标签信息是指用于描述概念属性或者所属领域的词语，概念词的标签信息来源有两部分组成，一部分来源于互联网百科资源，另一部分来源于中图分类，对于任意概念t，可以有n个标签组成，n是一个不确定的值，首先，要对标签进行挑选，对n个标签作截断处理，选择Top-m标签信息，在获取来源时，对标签信息作预排序，对于互联网百科标签信息来说，位置越靠前的标签越重要，对于中图分类来说，位置越靠后的标签越细化，两种标签组成Top-m标签信息。

3.根据权利要求1所述的一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于，所述步骤2)，具体为：

对步骤1)中得到的Top-m标签信息作词嵌入操作，在输入时，随机初始化词嵌入向量，在后续优化过程中，同时优化标签信息的词嵌入向量；然后，对Top-m标签信息组成的标签向量做最大池化操作，输出池化后的向量tag_pooling，同时得到概念词的词嵌入向量t_embedding，在广义矩阵分解模型中，将概念词的词嵌入向量t_embedding与词标签向量tag_pooling作乘积运算，而在基于多层感知机模型的协同过滤中，将概念词的词嵌入向量t_embedding与词标签向量tag_pooling作直接连接，最终得到概念-标签信息联合词向量表达。

4.根据权利要求1所述一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于，对步骤3)中引入标签信息的广义矩阵分解，具体为：

mf_p_tl＝p_t⊙p_l

令神经协同过滤网络的第一层映射函数为：

ψ₁(mf_p_tl,q_c)＝mf_p_tl⊙q_c

其中，⊙为element-wise product，表示对应元素相乘，

然后将向量投影到输出层：

其中，a_out表示激活函数，h表示输出层的权重矩阵；

a_out＝σ(x)＝1/1+e^-x

5.根据权利要求1所述一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于，选用多层感知机模型来学习概念词和描述词之间的潜在交互信息，具体为：

其中，W_x，b_x，a_x表示权重矩阵，偏置向量和第x层的激活函数，选取Relu函数作为激活函数，对于网络结构的设计，遵循塔模式，其中底层是最宽的，并且连续的神经网络层的神经元逐渐递减。

6.根据权利要求1所述一种引入概念标签的神经协同过滤概念描述词推荐算法，其特征在于，基于广义矩阵分解的模型和多层感知机模型进行融合，具体为：

令GMF表示广义矩阵分解，MLP表示多层感知机模型；

步骤3)的基于广义矩阵分解模型得到：

ψ^GMF＝mf_p_tl ^G⊙q_c ^G

步骤4)中基于多层感知机模型得到：

在训练模型的过程中，优化目标为：