CN112231547A

CN112231547A - 一种基于知识图谱的内容推荐方法和系统

Info

Publication number: CN112231547A
Application number: CN201910635055.2A
Authority: CN
Inventors: 曹秀亭
Original assignee: Potevio Information Technology Co Ltd
Current assignee: Potevio Information Technology Co Ltd
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2021-01-15

Abstract

本申请公开了一种基于知识图谱的内容推荐方法，包括：获取用户在一段设定时间内点击过的历史内容，并确定与所述历史内容相似的若干候选内容；对于所述历史内容和所述候选内容，分别使用KCNN将其语义表示与知识表示进行融合，得到各个内容对应的KCNN映射结果；根据所述历史内容和所述候选内容的KCNN映射结果，通过Attention机制确定各个候选内容的得分，所述候选内容的得分表示所述候选内容被所述用户点击的概率；将得分最高的N个候选内容推荐给所述用户，其中，N≥1。本申请还公开了一种对应的内容推荐系统。应用本申请公开的技术方案，能够充分挖掘用户潜在的感兴趣的知识内容，实现更为智能的个性化内容推荐。

Description

一种基于知识图谱的内容推荐方法和系统

技术领域

本申请涉及智能推荐技术领域，特别涉及一种基于知识图谱的内容推荐方法和系统。

背景技术

推荐系统存在的主要意义在于：在信息爆炸的时代，如何从大量的数据中选择合适的信息向个性化用户进行推荐。推荐系统在新闻领域有很大的发展前景，一般来说，新闻语言高度浓缩，充满了知识实体和常识知识。目前的新闻推荐方法主要依靠统计机器进行学习，通过新闻的关键词判断新闻之间的相似性，然后将相似的新闻推荐给用户。

一种现有的实现方案是基于内容相似度进行新闻推荐。基于内容相似度进行新闻推荐，顾名思义，就是将与用户感兴趣的新闻内容相似的新闻推荐给该用户。基于内容相似度的推荐算法的主要优势在于：无冷启动问题，只要用户产生了初始的历史数据(即看了某新闻)，就可以开始进行推荐的计算。而且随着用户的浏览记录数据的增加，这种推荐通常也会越来越准确。

这里有两个重要的关键点需要进行说明：

1.如何知道用户喜欢看哪些新闻，即：如何确定用户感兴趣的新闻。

用户有历史的浏览记录，可以从用户历史浏览的新闻中“提取”能代表新闻主要内容的关键词，判断哪些关键词出现得最多。比如：可以有“手机”，“电脑游戏”、“发布会”等等关键词。

或者，也可以统计这些新闻所属的领域是哪些，比如：国际政治、社会、民生、娱乐，找出用户看的新闻来源最多的几个领域。不过，按这种方式判断用户兴趣容易太宽泛，哪怕是同一个领域下的新闻，也可能存在较大差异。比如：某用户可能喜欢A女星，而不喜欢B女星，而如果只是认为该用户喜欢娱乐新闻，结果把B女星的新闻不停地推荐给用户，显然这种推荐是不合适的。而上述的提取关键词的方法就可以比较好地规避这个问题。

2.如何判断两个新闻的内容是否相似

将一篇文本通过词频-逆文本频率指数(TF-IDF：term frequency–inversedocument frequency)算法进行处理，能够返回一组对应于该文本的“关键词-TFIDF值”的词数对，这些关键词最好地代表了这篇文本的核心内容，而这些关键词相对于这篇文本的关键程度由它的TF-IDF值量化。

采用提取关键词并量化关键程度的方法得到两篇文本各自的TF-IDF值后，通过计算这两组TF-IDF值的余弦距离可以得到两篇文本的相似程度，从而利用文本之间的相似度来推荐新闻。

上述基于内容相似度的新闻推荐局限于简单的词匹配，不能合理地扩展，存在很大的不准确性。并且，上述方法没有考虑到用户兴趣的多样性，当用户量达到一定的数量级，整个推荐系统不能为用户进行个性化推荐，从而失去了推荐系统的意义。此外，从技术层面考虑，本申请的发明人发现：现有新闻推荐方法没有利用外在知识，也没有充分发现新闻之间潜在的知识层面的联系，因而无法挖掘用户潜在的感兴趣的知识。

发明内容

本申请提供了一种基于知识图谱的内容推荐方法和系统，以充分挖掘用户潜在的感兴趣的知识内容，实现更为智能的个性化内容推荐。

本申请公开了一种基于知识图谱的内容推荐方法，包括：

获取用户在一段设定时间内点击过的历史内容，并确定与所述历史内容相似的若干候选内容；

对于所述历史内容和所述候选内容，分别使用融合了知识的卷积神经网络KCNN将其语义表示与知识表示进行融合，得到各个内容对应的KCNN映射结果；

根据所述历史内容和所述候选内容的KCNN映射结果，通过注意力Attention机制确定各个候选内容的得分，所述候选内容的得分表示所述候选内容被所述用户点击的概率；

将得分最高的N个候选内容推荐给所述用户，其中，N≥1。

较佳的，所述使用KCNN将其语义表示与知识表示进行融合，具体包括：

对于每一个待处理的内容，将所述内容中的词和知识图谱中的实体进行实体链接；

在所述知识图谱中为每个所述实体向量进行上下文向量映射；

对所述内容的词表示和知识表示进行融合，得到所述内容的融合了知识的向量表示；

将所述融合了知识的向量表示传入卷积神经网络CNN中进行处理，得到所述内容的KCNN映射结果。

较佳的，所述将所述内容中的词和知识图谱中的实体进行实体链接，具体包括：

将所述内容标题中的每一个词映射为对应的词向量；

将所述词向量和知识图谱中的实体向量一一对应，如果所述词向量在所述知识图谱中没有与之对应的实体，则用0向量填充。

较佳的，所述内容的融合了知识的向量表示为以下矩阵：

W＝[w1g(e1)g(ē1)][w2g(e2)g(ē2)]...[wng(en)g(ēn)]

g(e)＝tanh(Me+b)

其中，wi是词向量，ei是实体向量，ēi是上下文向量，i∈[1,n]；

g(e)是一种非线性转换函数，用于将知识图谱的中的实体向量和上下文向量转化为词向量的格式；

ēi采取与对应实体相邻的向量均值。

较佳的，在所述CNN中进行处理时，从所述特征值中取最高的K个特征值，并保留特征值的先后顺序，其中，K≥2。

较佳的，所述根据所述历史内容和所述候选内容的KCNN映射结果，通过注意力Attention机制确定各个候选内容的得分，具体包括：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；

将所述两个KCNN映射结果进行全连接，然后使用深度神经网络作为Attention网络对所述全连接的结果进行处理，并对所述处理的结果进行规格化；

将所述规格化的结果输出为所述一个历史内容对所述一个候选内容点击率的影响权重；

对于各个候选内容，将每一个历史内容的KCNN映射结果和该历史内容对所述候选内容的点击率的影响权重进行加权平均，将所述加权平均的结果作为所述候选内容的得分。

较佳的，用softmax函数进行所述规格化，公式为：

上述公式表示历史内容tⁱ _k对候选内容t_j的点击率的影响权重，其中：

tⁱ _k是编号为k的历史内容，t_j是编号为j的候选内容，H是深度神经网络。

本申请还公开了一种基于知识图谱的内容推荐系统，包括：内容获取模块、KCNN处理模块、Attention处理模块和推荐模块，其中：

所述内容获取模块，用于获取用户在一段设定时间内点击过的历史内容，并确定与所述历史内容相似的若干候选内容；

所述KCNN处理模块，用于对所述历史内容和所述候选内容，分别使用KCNN将其语义表示与知识表示进行融合，得到各个内容对应的KCNN映射结果；

所述Attention处理模块，容易根据所述KCNN处理模块处理得到的所述历史内容和所述候选内容的KCNN映射结果，通过注意力Attention机制确定各个候选内容的得分，所述候选内容的得分表示所述候选内容被所述用户点击的概率；

所述推荐模块，用于根据所述Attention处理模块处理得到的各个候选内容的得分，将得分最高的N个候选内容推荐给所述用户，其中，N≥1。

较佳的，所述KCNN处理模块具体用于：

较佳的，所述Attention处理模块具体用于：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；

由上述技术方案可见，本发明提供的基于知识图谱的内容推荐方法和系统，通过知识图谱添加外部知识用于点击率预估，利用词向量、实体向量、上下文向量对内容进行表示，输入是用户点击过的一系列历史内容的标题和一个候选内容的标题，最终输出是用户点击这条候选内容的概率。本发明利用用户的历史点击数据来针对每一个用户进行个性化的内容推荐，这不仅考虑了词对推荐系统的影响，也关注到了内容潜在知识对推荐的影响，从而充分利用了外在知识来发现内容之间潜在的知识层面的联系，能够充分挖掘用户潜在的感兴趣的知识内容，实现更为智能的内容推荐。

附图说明

图1为本申请基于知识图谱的内容推荐系统的组成结构示意图；

图2为本申请实施例中基于知识图谱的内容推荐方法的示意图；

图3为本申请实施例中的注意力机制示意图。

具体实施方式

为使本申请的目的、技术方案及优点更加清楚明白，以下参照附图并举实施例，对本申请作进一步详细说明。

为解决现有技术所存在的问题，本申请提供了一种基于知识图谱的内容推荐方法，该方法包括：

获取用户在一段设定时间内点击过的历史内容，并确定与所述历史内容相似的若干候选内容；本申请所述内容可以是新闻、文章、文字片段等；

将得分最高的N个候选内容推荐给所述用户，其中，N≥1。

其中，所述使用KCNN将其语义表示与知识表示进行融合，具体包括：

上述处理中，所述将所述内容中的词和知识图谱中的实体进行实体链接具体包括：

将所述内容标题中的每一个词映射为对应的词向量；

其中，所述内容的融合了知识的向量表示，为以下矩阵：

W＝[w1g(e1)g(ē1)][w2g(e2)g(ē2)]...[wng(en)g(ēn)]

g(e)＝tanh(Me+b)

ēi采取与对应实体相邻的向量均值。

在所述CNN中进行处理时，从所述特征值中取最高的K个特征值，并保留特征值的先后顺序，从而避免同一特征的强度信息丢失，其中，K≥2。

所述根据所述历史内容和所述候选内容的KCNN映射结果，通过注意力Attention机制确定各个候选内容的得分，具体包括：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；

较佳的，可以用softmax函数进行所述规格化，公式为：

对应于上述内容推荐方法，本申请还提供了一种基于知识图谱的内容推荐系统，其组成结构如图1所示，包括：内容获取模块、KCNN处理模块、Attention处理模块和推荐模块，其中：

其中，所述KCNN处理模块具体用于：

其中，所述Attention处理模块具体用于：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；

下面通过一个具体实施例对本申请技术方案进行进一步详细说明。

本实施例以新闻为例进行说明。本实施例提供一种基于知识图谱的新闻推荐方法，该方法的示意图如图2所示：

首先，对于各个新闻(包括用户一段时间内点击过的历史新闻和候选新闻)，分别使用融合了知识的卷积神经网络KCNN(Knowledge-aware Convolutional NeuralNetwork)将其语义表示与知识表示进行融合，形成新的映射(embedding)表示，称为KCNN映射结果；

然后，建立从用户点击的历史新闻到候选新闻的注意力(Attention)机制，确定各个候选新闻的得分；

最后，选出得分较高的候选新闻推荐给用户。

参见图2，本实施例基于知识图谱的新闻模型的输入和输出分别为：

输入：某用户在一段设定时间内点击过的新闻(称为“历史新闻”)的标题、一条候选新闻的标题。分别如图2中User’s clicked news和Candidate news所示。

输出：用户点击这条候选新闻的概率，如图2中的Click probability。

从输入到输出的处理步骤大致可以分为两个阶段：KCNN阶段和Attention阶段，下面分别予以说明。

1、KCNN阶段的处理具体包括：

(1)对于每一个待处理的新闻标题，将该新闻标题中的词和知识图谱中的实体做实体链接。具体的，参见图2左下半部分：

本实施例采用多通道(multi-channel)的方式进行处理：把词映射(wordembedding)、实体映射(entity embedding)、上下文映射(context embedding)作为CNN的三个通道。

当前待处理的新闻标题如图中Sentence所示，包含7个词，分别标记为w₁～w₇。首先，将标题中的每一个词映射为对应的词向量，然后，进行词语-实体对齐(word-entity-aligned)，即：将所述词向量和知识图谱中的实体向量一一对应，如果词向量在知识图谱中没有与之对应的实体，就用0向量来填充。

(2)为每个实体搜索它在知识图谱中的相邻实体，即：进行上下文向量映射，以此来获得更加丰富、具有区分力的信息。

(3)使用KCNN进行处理，即：融合新闻的词表示和知识表示，得到该新闻的Knowledge-aware的向量表示。

进行上述3个步骤的处理后，当前待处理的新闻的矩阵表示为：

W＝[w1g(e1)g(ē1)][w2g(e2)g(ē2)]...[wng(en)g(ēn)]

g(e)＝tanh(Me+b)

其中，wi是词向量，ei是实体向量，ēi是上下文向量，i∈[1,n]。

由于词向量和实体向量来自两个不同的向量空间，且训练出来的相连的维度也不一样，因此，本实施例通过函数g(e)将实体向量映射到词向量空间中。g(e)是一种非线性转换函数，可以将知识图谱的中的向量转化为词向量的格式。ēi采取与对应实体相邻的向量均值。

(4)将得到的多通道堆叠矩阵放入卷积神经网络(CNN)中进行处理，得到新闻标题的KCNN向量映射结果。

由于原有的MaxPooling会导致同一特征的强度信息丢失，因此，本实施例在这里采用从所有特征值中取Top-K(即：最高的K个)的值，并保留特征值的先后顺序的方式，来改进现有技术，避免上述现有技术所存在的问题。这种方式称为K-MaxPooling，K-MaxPooling可以表达同一类特征出现的多次情况，也会保留特征间的相对顺序。经本步骤处理后，最终得到新闻标题的向量映射结果。

2、Attention阶段

本实施例通过注意力网络(Attention Network)抽取用户兴趣，最后再将用户兴趣的KCNN映射结果和候选新闻的KCNN映射结果做全连接，放到一个DNN中进行处理，最终得到用户点击该条候选新闻的概率。具体而言：

Attention Network用于抽取用户兴趣，用户对于自己点击过的每个新闻话题的兴趣并不是完全一样的，所以用户点击过的每个新闻(以下称为“历史新闻”)对于用户是否点击候选新闻的影响力也是不一样的，因此，本实施例加入Attention机制，如图3所示，其对应于图2左上半部分所示出的处理。

输入：两条新闻标题的KCNN映射结果。

如图所示，所述的两条新闻标题，一条是用户点击过的历史新闻(图中所示One ofuser’s clicked news)，另一条是候选新闻(图中所示Candidate News)。

输出：该历史新闻对于该候选新闻点击率的影响权重(图中所示weight)。

从输入到输出的处理过程：首先，将两个映射结果进行全连接(图中所示concat)，然后使用深度神经网络(DNN：Deep Neural Networks)作为Attention网络对所述全连接的结果进行处理，最后再用softmax函数来规格化影响权重，具体公式如下：

上述公式表示历史新闻tⁱ _k对候选新闻t_j的点击率的影响权重，其中：

tⁱ _k是编号为k的历史新闻，t_j是编号为j的候选新闻，H是DNN网络。

按照上述处理得到某用户一段时间内点击的所有历史新闻对某候选新闻的影响权重后，对所述所有历史新闻的向量和对应的权重进行加权平均，最后，将加权平均的结果作为该用户点击该候选新闻的可能性分值。

在按照图2和图3所示方法得到用户点击所有候选新闻的可能性分值后，将分值较高的前N条候选新闻推荐给用户。

本申请提出的基于知识图谱的内容推荐方法，很好地利用了外部知识，充分利用了内容之间的潜在的知识层面的联系，通过从语义层面和知识层面对内容进行表示，并使用实体和单词的对齐机制融合异构的信息源，从而能够更好地捕捉内容之间的隐含关系，实现更为智能的内容推荐。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种基于知识图谱的内容推荐方法，其特征在于，包括：

将得分最高的N个候选内容推荐给所述用户，其中，N≥1。

2.根据权利要求1所述的方法，其特性在于，所述使用KCNN将其语义表示与知识表示进行融合，具体包括：

3.根据权利要求2所述的方法，其特征在于，所述将所述内容中的词和知识图谱中的实体进行实体链接，具体包括：

将所述内容标题中的每一个词映射为对应的词向量；

4.根据权利要求3所述的方法，其特征在于，所述内容的融合了知识的向量表示为以下矩阵：

W＝[w1g(e1)g(ē1)][w2g(e2)g(ē2)]...[wng(en)g(ēn)]

g(e)＝tanh(Me+b)

ēi采取与对应实体相邻的向量均值。

5.根据权利要求2至4任一项所述的方法，其特征在于：

在所述CNN中进行处理时，从所述特征值中取最高的K个特征值，并保留特征值的先后顺序，其中，K≥2。

6.根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述历史内容和所述候选内容的KCNN映射结果，通过注意力Attention机制确定各个候选内容的得分，具体包括：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；

7.根据权利要求6所述的方法，其特征在于：

用softmax函数进行所述规格化，公式为：

8.一种基于知识图谱的内容推荐系统，其特征在于，包括：内容获取模块、KCNN处理模块、Attention处理模块和推荐模块，其中：

9.根据权利要求8所述的系统，其特征在于，所述KCNN处理模块具体用于：

10.根据权利要求8所述的系统，其特征在于，所述Attention处理模块具体用于：

以一个历史内容与一个候选内容的KCNN映射结果作为输入；