CN115640462A

CN115640462A - 一种基于知识库增强的跨域新闻推荐方法

Info

Publication number: CN115640462A
Application number: CN202211382100.6A
Authority: CN
Inventors: 张日崇; 刘德志; 王健宇; 屈云陆
Original assignee: Beihang University
Current assignee: Beihang University
Priority date: 2022-11-07
Filing date: 2022-11-07
Publication date: 2023-01-24

Abstract

本发明通过网络安全领域的方法，实现了一种基于知识库增强的跨域新闻推荐方法。方法通过引入外部数据集作为输入，提取新闻内容语料输入基于对抗训练的跨域实体抽取模型，并输出新闻实体名称后，与实体共同输入基于多策略集成的新闻实体链接模型，得到最终实体间匹配度得分；将所述最终实体间匹配度得分、新闻内容语料，新闻类别信息得到的词汇三者共同作为多知识图谱增强的新闻推荐模型的输入，经过计算得到对用户兴趣点进行推理及预测，在待选新闻中找出符合用户兴趣点的新闻向用户推荐。本发明实现了一个可以有效解决跨域推荐问题的知识库增强的新闻推荐系统，并在MIND数据集上对各个子模块及完整算法的有效性进行评估。

Description

一种基于知识库增强的跨域新闻推荐方法

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于知识库增强的跨域新闻推荐方法。

背景技术

随着互联网的普及，人们已经进入到一个信息爆炸的时代。每天都有海量的新闻产生和发布，人们难以在有限的时间内从大量新闻中找到自己感兴趣的内容，面临严重的新闻信息过载问题。为了帮助用户阅读到自己感兴趣的新闻，新闻推荐系统应运而生，它通过学习用户阅读新闻的历史，挖掘新闻内容之间的关联，提取出用户的兴趣，从而从海量的新闻中为用户个性化地筛选出用户感兴趣的新闻。新闻推荐系统已经广泛地应用在国内外众多新闻平台中，如Google News、Microsoft News、今日头条、腾讯新闻等，这些系统凭借精准的推荐功能，帮助用户高效的获取新闻信息，获得了大量用户的青睐。随着互联网中出现了大量的高质量资源，包括Wikipedia、百度百科等，许多大规模的知识库得以建立，例如Freebase、YAGO、DBpedia等。知识库使用海量的结构化三元组来表示知识。知识库中包含丰富的异构信息，因此可以从知识库中获得从单一领域无法获取的信息。随着越来越多的知识库被构建和完善，知识库中丰富的知识信息可以帮助新闻推荐系统更好地提取新闻之间的高阶关系，从而向用户更加精准地推荐新闻。

知识图谱以结构化的方式来叙述客观世界中概念、实体以及它们之间的关联，将互联网的信息叙述成更贴合人类认知世界的形式，提供更好的组织、管理和理解互联网庞大信息的能力。知识图谱促使互联网的信息搜索从传统的数据服务到更为人性化的知识服务。知识图谱在知识组织和展现上都表现出巨大的优势，这使它成为互联网时代的研究热点。

知识库在各领域的应用变得越来越广，推荐系统作为一门多领域交叉学科，可以借助其他领域的技术提高推荐系统的性能。因此，将知识库和推荐系统融合起来也是提升推荐系统性能的重要研究方向。基于知识库的推荐系统可以结合多源信息内容，更好地挖掘用户与商品之间的潜在关系，促进电子商务成为基于知识库的推荐系统的重要实践平台。在当今时代，国内外的众多大型公司已经建立知识库并将其用在自身的推荐模式中。

基于知识库的推荐系统通过将知识库和推荐系统融合在一起，不仅能达到推荐的目的，也能借助知识库技术来提升推荐的性能。但其在跨域新闻推荐领域的研究还处于理论研究阶段，本发明通过提出一种基于多知识库增强的跨域新闻推荐框架，将知识库在新闻推荐领域中进行推广和应用。

现有新闻推荐系统的研究中大量采用了基于语义相似度匹配的新闻推荐算法模型。通过训练语义提取模型，从新闻标题、摘要等非结构化文本信息中抽取与用户兴趣点相关的语义特征，将新闻编码为语义特征向量，并依据候选新闻与用户浏览历史新闻之间的语义相似度来实现个性化推荐。但新闻语言通常是高度浓缩的，由大量知识实体组成，因此此类方法存在三个弊端：

跨域问题严重。新闻领域类别数量较多，领域之间即使在语义和用户兴趣点方面有较大相关性，但在文本表述上的区别可能导致数据驱动的深度学习模型过度拟合领域相关但与用户兴趣判别无关的特征，从而导致跨域新闻推荐的准确度下降。

无法去除用户兴趣无关特征。新闻文本中包含了大量与用户兴趣无关的内容，这些内容之间的相似性无法用来刻画用户兴趣，反而会对基于语义相似度匹配的模型造成干扰，让模型难以抽取到与用户兴趣相关的语义信息。

缺少常识信息。已有的模型只使用语义信息建模用户兴趣，没有使用到知识库中的常识和知识，无法根据常识做相关兴趣点的推理。这些方法只能基于单词的共现或聚类结构来找到新闻的关联性，几乎无法发现新闻之间潜在的知识层级的关联性。新闻的文本中存在着大量的新闻实体，可以链接到知识库中，从而获得实体相关的大量信息作为推荐的特征。如果用户历史阅读过的新闻中包含的实体与某个新闻中的实体有关联，那么用户很可能会对这个新闻感兴趣。融入知识库信息可以更好更精准地向用户推荐感兴趣的新闻。

发明内容

为此，本发明首先提出一种基于知识库增强的跨域新闻推荐方法，方法通过引入Freebase、WordNet和MIND数据集作为输入，从MIND数据集中提取新闻内容语料输入基于对抗训练的跨域实体抽取模型，并输出新闻实体名称后，与从Freebase中引入的实体共同输入基于多策略集成的新闻实体链接模型，得到最终实体间匹配度得分；将所述最终实体间匹配度得分、MIND数据集中提取的所述新闻内容语料，MIND数据集中提取的新闻类别信息得到的词汇以及Word Net中得到词汇三者共同作为多知识图谱增强的新闻推荐模型的输入，经过计算得到对用户兴趣点进行推理及预测，在待选新闻中找出符合用户兴趣点的新闻向用户推荐。

方法分为三个部分：

一是基于对抗训练的跨域实体抽取模型：通过构建领域判别器与对抗损失函数，引导词嵌入模型学习到与新闻领域无关、但对实体识别及序列标注有价值的单词特征，高质量地实现新闻非结构化文本内容中的跨域实体识别与抽取；

二是基于多策略集成的新闻实体链接模型：通过定义四类实体间匹配度度量指标，构建一个集成词干匹配度、符号相似度、语义相似度、实体流行度等多维度信息的实体链接模型，实现了新闻文本抽取所得实体到知识库中实体的映射；

三是多知识图谱增强的新闻推荐模型：设计构建了一个融合新闻内容语义表征、新闻实体知识编码、新闻类别与子类别知识编码的推荐系统算法框架，实现利用知识库中的常识信息来对用户兴趣点进行推理及预测。

所述基于对抗训练的跨域实体抽取模型具体结构为：将源域带标注数据与目标域无标注数据通过新闻标题及摘要文本特征提取模型，分别得到源域词向量序列和目标域词向量序列；源域词向量序列经过BIO标注模型得到源域BIO标注序列，并使用损失函数计算损失；目标域词向量序列经过梯度翻转模块和注意力模块得到句向量，并使用领域判别计算损失；最终得出损失函数；

模型的运算部由两部分构成，分别是生成BIO标注的基础分类器，以及使用对抗训练方法的跨域鉴别器；

所述生成BIO标注的基础分类器输入源域词向量序列，即给出x＝[w₁,w₂,…,w_n],经过BIO序列标注模型得到源域BIO标注序列y＝[l₁,l₂,…,l_n],对新闻的内容语料x＝[w₁,w₂,…w_n]进行实体抽取；BIO序列标注模型首先将新闻的内容语料中的每个单词w_t转换成单词的嵌入向量e_t，得到新闻内容语料的词嵌入向量表示[e₁,e₂,…e_n]；接着，使用文本特征提取器对新闻内容语料中每个单词的词嵌入向量e_t进行上下文信息提取，得到每个单词的隐层的向量表示h_t；选用特征提取方面常用的双向长短期记忆模型以及在大规模数据上经过预训练的BERT模型作为文本特征提取器；

BiLSTM作为文本特征提取器时，隐层向量表示为：

BERT模型作为文本特征提取器时，隐层向量表示为：

h_t＝BERT(e_t)

进而，对新闻内容语料中各词的词向量经过特征抽取，得到新闻内容语料的特征表示[h₁,h₂,…h_n]；该特征表示作为实体抽取中的任务分类器的输入，通过线性层和softmax层预测每个单词的BIO标注，新闻内容语料中第t个单词所对应标注的概率分布y_t为：

y_t＝softmax(W_yh_t+b_y)

y_t是一个三维向量，代表新闻内容语料中第t个词属于BIO这三类标注的概率分布。第t个词的BIO标注l_t根据y_t的分布情况得到：

损失函数L的计算方法为：所述使用对抗训练方法的跨域鉴别器输入源域词向量序列和目标域词向量序列，经过梯度反转模块、注意力模块后，分别得到源域句向量和目标域句向量，并输入领域判别器得到领域判别损失函数

为了特征提取器能够尽可能地提取出领域无关的特征，构建一个对抗损失函数L_adv。在这个损失函数中，我们为表示新闻内容语料属于源领域还是目标领域设置了变量z_i。对于每个新闻内容语料x_i，如果它是来自源领域，就置z_i＝1；如果它是来自目标领域，则置z_i＝0。对抗损失函数

最终的联合损失函数L为基础分类器损失函数L_cr和跨域对抗鉴别器损失函数L_adv二者的加和，即L＝L_cr+λ_advL_adv；

所述基于多策略集成的新闻实体链接模型采用无监督的实体链接方式，给定一个新闻内容语料抽取所得实体与一个候选知识库实体，预处理后的新闻实体名称将与候选知识库实体名称进行四项匹配度指标的计算，本文定义的这些指标分别为：实体词根匹配度、实体符号匹配度、实体语义匹配度和知识库实体流行度。计算最终实体间匹配度得分。并根据匹配度得分选取最高的n个新闻实体，或者MIND的语料或wordNet的词汇，生成出新闻表征向量。

所述多知识图谱增强的新闻推荐模型目标是基于用户新闻浏览历史数据计算出用户对候选新闻的预测点击率，根据预测点击率对候选新闻进行排序，最后将排序靠前的新闻组成新闻推荐列表推荐给用户以满足用户的新闻阅读兴趣，模型的输入为用户i点击浏览过的历史新闻

和一篇候选新闻n_j；对于每一篇新闻，将新闻原始数据分为新闻内容语料x与新闻类别两部分关键信息项；其中将新闻的内容语料x完成分词作为RoBERTa的输入，然后经过池化层得到新闻的内容文本表征；另外将新闻内容语料x作为前文提出的实体抽取及链接预测模块的输入，结合Freebase知识库获得关键的实体信息，然后经过知识编码模块和池化层得到新闻的内容图表征；类别c与子类别subc信息作为结合WordNet知识库的前文提出的实体链接预测模块的输入，获得包含上下位语义关系的类别信息，然后经过知识编码模块得到新闻的类别图表征与子类别图表征；最后将这四部分信息表征融合成深度全面语义的新闻信息表征；

通过用户i点击浏览过的历史新闻

获得用户i点击浏览过的历史新闻表征

通过候选新闻n_j获得候选新闻表征e(n_j)；为了得到用户i关于当前候选新闻n_j的用户表征e(i)，使用基于注意力的方法，计算候选新闻n_j与每一篇历史新闻

的相似度

将相似度

作为权重汇总用户的历史新闻阅读兴趣，生成用户表征e(i)；用户表征e(i)和候选新闻表征e(n_j)通过点击预测模块计算用户i点击候选新闻n_j的概率

本发明所要实现的技术效果在于：

本发明通过对实体抽取、实体链接、新闻推荐方法的研究，实现了一个可以有效解决跨域推荐问题的知识库增强的新闻推荐系统，并在MIND数据集上对各个子模块及完整算法的有效性进行评估。

附图说明

图1整体模型框架

图2基于对抗训练的跨域实体抽取模型框架

图3基于多策略集成的新闻实体链接模型框架

图4多知识图谱增强的新闻推荐方法模型框架

具体实施方式

以下是本发明的优选实施例并结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于此实施例。

本发明提出了一种基于知识库增强的跨域新闻推荐方法。通过引入两项外源知识库：Freebase与WordNet，利用知识库中的常识信息辅助新闻中与用户兴趣点相关特征的提取，实现了一个知识增强的新闻推荐系统，同时基于对抗训练方法提升了系统在跨域新闻推荐问题上的有效性。

方法通过引入Freebase、WordNet和MIND数据集作为输入，从MIND数据集中提取新闻内容语料输入基于对抗训练的跨域实体抽取模型，并输出新闻实体名称后，与从Freebase中引入的实体共同输入基于对抗训练的跨域实体抽取模型，得到最终实体间匹配度得分；将所述最终实体间匹配度得分、MIND数据集中提取的所述新闻内容语料，MIND数据集中提取的新闻类别信息得到的词汇以及WordNet中得到词汇三者共同作为多知识图谱增强的新闻推荐模型的输入，经过计算得到对用户兴趣点进行推理及预测，在待选新闻中找出符合用户兴趣点的新闻向用户推荐。

Freebase是一个类似维基百科的创意分享网站，它也采取了众包的形式，所有内容都由用户添加，它使用一个创造性的共享许可证，可以自由引用。Freebase和维基百科最大的区别在于Freebase条目是结构化数据，而不像维基百科。此外，Freebase更注重数据的质量，为信息的查询和处理提供了便利。根据数据大小，其结构分为三个层：域、类型和主题。目前Freebase有5600多万个实体和7000多个关系或属性。Freebase在2010年被谷歌收购，并宣布在2015年关闭访问，但它的数据仍然可供研究人员下载和使用。基于Freebase的千万量级的实体信息，以及其信息的高质量、开源等特征，因此本任务采用Freebase作为新闻实体表征增强的外部知识库。

WordNet是美国普林斯顿大学教授乔治·阿米蒂格·米勒创建的英语词典，它包含语义信息，根据词义将单词分类到集合中。一组具有相同含义的单词被定义为同义词集(Synset)。然后在语义上连接和关联来创建一个词汇网络。WordNet目前包含超过11万个概念和20万个连接。WordNet拥有典型的词汇语义上下位结构，可以用于增强新闻类别的树状层级结构特征。

MIND(MIcrosoft News Dataset)数据集是

微软亚洲研究院联合微软新闻产品团队在ACL 2020上发布的一个大规模的英文新闻推荐数据集。它是从六周内Microsoft News用户的匿名化新闻点击记录中构建的，它包含16万多条新闻条目，1500余万次展示记录，以及来自100万匿名用户的2400余万次点击行为。

方法分为三个部分：

BiLSTM作为文本特征提取器时，隐层向量表示为：

BERT模型作为文本特征提取器时，隐层向量表示为：

h_t＝BERT(e_t)

y_t＝softmax(W_yh_t+b_y)

这里形式化地定义实体词根匹配度为Match_rot，定义实体符号匹配度为Match_tok，定义实体语义匹配度为Match_sem，定义知识库实体流行度为Popular_ent，最终新闻实体名称Mention与知识库实体Entity间匹配得分Score(Mention,Entity)为：

Score(Mention,Entity)

＝α₁×Match_rot(Mention,Entity)+α₂

×Match_tok(Mention,Entity)+α₃×Match_sem(Mention,Entity)

+α₄×Popular_ent(Entity)

实体词根匹配度指标算法伪代码如下

实体词根匹配度指标算法伪代码

实体符号匹配度计算方法为：给定待匹配的新闻实体名称字符串Mention＝[x₁,x₂,…,x_m]，其中x_i为新闻实体名称字符串的第i个字符，m为新闻实体名称字符串的长度，候选的知识库实体名称字符串Entity＝[y₁,y₂,…,y_n]，其中y_i为知识库实体名称字符串的第i个字符，n为知识库实体名称字符串的长度，目标是将Mention字符串变成Entity字符串的形式，这里定义一个m行n列的二维距离d(m,n)矩阵：

d(m,n)＝d[i,j],1≤i≤m,1≤j≤n}

其中，d[i,j]为矩阵d(m,n)中第i行第j列元素，代表子串Mention[1,i]＝[x₁,x₂,…,x_i]和Entity[1,j]＝[y₁,y₂,…,y_j]之间的最小编辑距离，则d[i,j]处的编辑距离可以表示为由d[i,j-1]、d[i-1,j]以及d[i-1,j-1]三个状态下的编辑距离推导，具体为：

其中，Mention[i]＝x_i，Entity[j]＝y_j。

由此便可以求得新闻实体名称与知识库实体名称之间的距离d[m,n]，再将两个字符串的总长度之和|Mention|+|Entity|减去该距离再与两个字符串的总长度之和做商便可得到新闻实体名称与知识库实体名称之间的实体符号匹配度指标Match_tok：

这里形式化地定义知识库中的实体为Entity，其在知识库中作为关系尾实体的三元组数量为EdgeNum_tail(Entity)，作为关系头实体的三元组数量为EdgeNum_head(Entity)，则计算知识库实体流行度指标为：

Popular_ent(Entity)＝EdgeNum_tail(Entity)+EdgeNum_head(Entity)

通过用户i点击浏览过的历史新闻

获得用户i点击浏览过的历史新闻表征

的相似度

将相似度

Claims

1.一种基于知识库增强的跨域新闻推荐方法，其特征在于：方法通过引入Freebase、WordNet和MIND数据集作为输入，从MIND数据集中提取新闻内容语料输入基于对抗训练的跨域实体抽取模型，并输出新闻实体名称后，与从Freebase中引入的实体共同输入基于多策略集成的新闻实体链接模型，得到最终实体间匹配度得分；将所述最终实体间匹配度得分、MIND数据集中提取的所述新闻内容语料，MIND数据集中提取的新闻类别信息得到的词汇以及WordNet中得到词汇三者共同作为多知识图谱增强的新闻推荐模型的输入，并基于用户浏览历史作为另一输入参数，经过计算得到对用户兴趣点进行推理及预测，在待选新闻中找出符合用户兴趣点的新闻，最终将新闻推荐给用户。

2.如权利要求1所述的一种基于知识库增强的跨域新闻推荐方法，其特征在于：所述基于对抗训练的跨域实体抽取模型具体结构为：将源域带标注数据与目标域无标注数据通过新闻标题及摘要文本特征提取模型，分别得到源域词向量序列和目标域词向量序列；源域词向量序列经过BIO标注模型得到源域BIO标注序列，并使用损失函数计算损失；目标域词向量序列经过梯度翻转模块和注意力模块得到句向量，并使用领域判别计算损失；最终得出损失函数；

所述生成BIO标注的基础分类器输入源域词向量序列，即给出x＝[w₁，w₂，...，w_n]，经过BIO序列标注模型得到源域BIO标注序列y＝[l₁，l₂，...，l_n]，对新闻的内容语料x＝[w₁，w₂，...w_n]进行实体抽取；BIO序列标注模型首先将新闻的内容语料中的每个单词w_t转换成单词的嵌入向量e_t，得到新闻内容语料的词嵌入向量表示[e₁，e₂，...e_n]；接着，使用文本特征提取器对新闻内容语料中每个单词的词嵌入向量e_t进行上下文信息提取，得到每个单词的隐层的向量表示h_t；选用特征提取方面常用的双向长短期记忆模型以及在大规模数据上经过预训练的BERT模型作为文本特征提取器；

BiLSTM作为文本特征提取器时，隐层向量表示为：

BERT模型作为文本特征提取器时，隐层向量表示为：

h_t＝BERT(e_t)

进而，对新闻内容语料中各词的词向量经过特征抽取，得到新闻内容语料的特征表示[h₁，h₂，...h_n]；该特征表示作为实体抽取中的任务分类器的输入，通过线性层和softmax层预测每个单词的BIO标注，新闻内容语料中第t个单词所对应标注的概率分布y_t为：

y_t＝softmax(W_yh_t+b_y)

y_t是一个三维向量，代表新闻内容语料中第t个词属于BIO这三类标注的概率分布，第t个词的BIO标注l_t根据y_t的分布情况得到：

为了特征提取器能够尽可能地提取出领域无关的特征，构建一个对抗损失函数L_adv，为表示新闻内容语料属于源领域还是目标领域而设置变量z_i，对于每个新闻内容语料x_i，如果来自源领域，z_i＝1；如果来自目标领域，z_i＝0；对抗损失函数

联合损失函数L＝L_cr+λ_advL_adv。

3.如权利要求1所述的一种基于知识库增强的跨域新闻推荐方法，其特征在于：所述基于多策略集成的新闻实体链接模型采用无监督的实体链接方式，给定一个新闻内容语料抽取所得实体与一个候选知识库实体，预处理后的新闻实体名称将与候选知识库实体名称进行四项匹配度指标的计算，本文定义的这些指标分别为：实体词根匹配度、实体符号匹配度、实体语义匹配度和知识库实体流行度，计算最终实体间匹配度得分，并根据匹配度得分选取最高的n个新闻实体，或者MIND的语料或wordNet的词汇，生成出新闻表征向量。

4.如权利要求3所述的一种基于知识库增强的跨域新闻推荐方法，其特征在于：定义实体词根匹配度为Match_rot，定义实体符号匹配度为Match_tok，定义实体语义匹配度为Match_sem，定义知识库实体流行度为Popular_ent，最终新闻实体名称Mention与知识库实体Entity间匹配得分Score(Mention，Entity)为：

Score(Mention，Entity)

＝α₁×Match_rot(Mention，Entity)+α₂×Match_tok(Mention，Entity)+α₃×Match_sem(Mention，Entity)+α₄×Popular_ent(Entity)

其中实体词根匹配度指标算法为：输入新闻实体名称字符串text、候选知识库实体名称字符串entity，首先对两个字符串进行分词，并获取词性还原和词干提取后的词干，之后对于新闻实体名称中的每个词语词干，判断它与每个候选实体的字符串的匹配，只有每个词干都被匹配，才认为当前实体名称字符串有匹配的知识库实体，最终输出实体词根匹配度score，取值0表示不匹配，1表示匹配；

实体符号匹配度计算方法为：给定待匹配的新闻实体名称字符串Mention＝[x₁，x₂，...，x_m]，其中x_i为新闻实体名称字符串的第i个字符，m为新闻实体名称字符串的长度，候选的知识库实体名称字符串Entity＝[y₁，y₂，...，y_n]，其中y_i为知识库实体名称字符串的第i个字符，n为知识库实体名称字符串的长度，目标是将Mention字符串变成Entity字符串的形式，这里定义一个m行n列的二维距离d(m，n)矩阵：

d(m，n)＝{d[i，j]，1≤i≤m，1≤j≤n}

其中，d[i，j]为矩阵d(m，n)中第i行第j列元素，代表子串Mention[1，i]＝[x₁，x₂，...，x_i]和Entity[1，j]＝[y₁，y₂，...，y_j]之间的最小编辑距离，则d[i，j]处的编辑距离可以表示为由d[i，j-1]、d[i-1，j]以及d[i-1，j-1]三个状态下的编辑距离推导，具体为：

其中，Mention[i]＝x_i，Entity[j]＝y_j；

由此便可以求得新闻实体名称与知识库实体名称之间的距离d[m，n]，再将两个字符串的总长度之和|Mention|+|Entity|减去该距离再与两个字符串的总长度之和做商便可得到新闻实体名称与知识库实体名称之间的实体符号匹配度指标Match_tok：

定义知识库中的实体为Entity，其在知识库中作为关系尾实体的三元组数量为EdgeNum_tail(Entity)，作为关系头实体的三元组数量为EdgeNum_head(Entity)，则计算知识库实体流行度指标为：

Popular_ent(Entity)＝EdgeNum_tail(Entity)+EdgeNum_head(Entity)。

5.如权利要求1所述的一种基于知识库增强的跨域新闻推荐方法，其特征在于：所述多知识图谱增强的新闻推荐模型目标是基于用户新闻浏览历史数据计算出用户对候选新闻的预测点击率，根据预测点击率对候选新闻进行排序，最后将排序靠前的新闻组成新闻推荐列表推荐给用户以满足用户的新闻阅读兴趣，模型的输入为用户i点击浏览过的历史新闻

通过用户i点击浏览过的历史新闻

获得用户i点击浏览过的历史新闻表征

的相似度

将相似度