CN114840747A - 一种基于对比学习的新闻推荐方法 - Google Patents

一种基于对比学习的新闻推荐方法 Download PDF

Info

Publication number
CN114840747A
CN114840747A CN202210404048.3A CN202210404048A CN114840747A CN 114840747 A CN114840747 A CN 114840747A CN 202210404048 A CN202210404048 A CN 202210404048A CN 114840747 A CN114840747 A CN 114840747A
Authority
CN
China
Prior art keywords
news
interest
user
entity
representation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210404048.3A
Other languages
English (en)
Inventor
郑海涛
刘浩壮
李明超
江勇
夏树涛
肖喜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen International Graduate School of Tsinghua University
Original Assignee
Shenzhen International Graduate School of Tsinghua University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen International Graduate School of Tsinghua University filed Critical Shenzhen International Graduate School of Tsinghua University
Priority to CN202210404048.3A priority Critical patent/CN114840747A/zh
Publication of CN114840747A publication Critical patent/CN114840747A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于对比学习的新闻推荐方法,包括基于对比学习的用户兴趣抽取步骤;所述用户兴趣抽取步骤包括:提供一用户兴趣编码器,该用户兴趣编码器被配置为对用户浏览的新闻序列进行编码得到兴趣向量;对所述用户浏览的新闻序列进行编码得到第一兴趣向量;对所述用户浏览的新闻序列进行数据增强,再对数据增强后的新闻序列进行编码得到第二兴趣向量;训练所述用户兴趣编码器,训练过程中,引入使所述第一兴趣向量和所述第二兴趣向量相接近,并使所述第一兴趣向量与其它用户的兴趣向量相远离的兴趣对比学习损失。

Description

一种基于对比学习的新闻推荐方法
技术领域
本发明涉及计算机应用技术领域,尤其是数据挖掘和机器学习领域,具体涉及一种基于对比学习的新闻推荐方法。
背景技术
在线新闻平台,如腾讯新闻和今日头条等,吸引了大量用户阅读数字新闻。然而,每天都有大量的新闻文章涌现,让用户从大量的在线新闻文章中寻找感兴趣的新闻是不现实的。因此,针对用户的兴趣进行个性化的新闻推荐是网络新闻平台的重要任务,这可以帮助用户找到他们感兴趣的新闻文章,缓解信息过载的问题。
最近,新闻推荐在工业和学术领域都引起了关注,已有许多方法被提出。与一般的产品推荐不同的是,新闻文章具有时间敏感性,并且会很快过时。因此,那些传统的基于ID的推荐方法会受到冷启动问题的影响。此外,新闻文章包含丰富的文本信息,如新闻标题,新闻中的实体词等,这些信息应该被更好地建模来用于推荐。大多数现有的方法利用深度学习技术来学习新闻特征和基于用户最近的历史点击记录来对兴趣建模。例如,早期有些工作使用自动编码器提取新闻语义特征,然后采用GRU(Gated Recurrent Unit,门控循环单元)网络从历史点击的新闻序列中捕捉用户兴趣。后来一些学者提出通过多通道CNN(卷积神经网络)将知识图谱整合到新闻表征学习中,并采用新闻级注意力来聚合历史点击的新闻。此外使用多头自注意力网络来捕获用户兴趣,并使用注意力网络来获得统一的用户表示。
然而,上述的这些方法,只关心如何更准确地对新闻和用户进行建模而忽略了新闻之间以及用户之间的联系。
对比学习在自然语言处理和计算机视觉领域有很多成果。以SimCLR模型为例,文中作者提出了10种不一样的图片增强操作,例如旋转、色调转换、剪裁、放大缩小等。在训练时随机抽取两种方案,分别作用在原始图像上,形成两张经过增强的新图像,两者互为正例。训练时,Batch内任意其他图像,都可以作为其负例。训练时,通过拉近向量空间内正例的距离,推远负例距离。在多个任务上,对比学习有了非常不错的效果。
发明内容
本发明的主要目的在于结合对比学习的思想,以及新闻推荐系统的任务特殊性,提出了基于对比学习的新闻推荐方法,以解决现有的新闻推荐系统推荐不够精准的技术问题。
为达上述目的,本发明提出如下技术方案:
一种基于对比学习的新闻推荐方法,包括基于对比学习的用户兴趣抽取步骤;所述用户兴趣抽取步骤包括:提供一用户兴趣编码器,该用户兴趣编码器被配置为对用户浏览的新闻序列进行编码得到兴趣向量;对所述用户浏览的新闻序列进行编码得到第一兴趣向量;对所述用户浏览的新闻序列进行数据增强,再对数据增强后的新闻序列进行编码得到第二兴趣向量;训练所述用户兴趣编码器,训练过程中,引入使所述第一兴趣向量和所述第二兴趣向量相接近,并使所述第一兴趣向量与其它用户的兴趣向量相远离的兴趣对比学习损失。
在进一步的技术方案中,所述基于对比学习的新闻推荐方法还包括基于对比学习的新闻内容理解步骤;所述新闻内容理解步骤包括:提供一新闻编码模块,该新闻编码模块被配置为对所述用户浏览的新闻进行编码得到新闻表示;对所述用户浏览的新闻进行编码得到原始新闻表示;对所述用户浏览的新闻进行第三数据增强,再对进行所述第三数据增强后的新闻进行编码得到增强新闻表示;训练所述新闻编码模块,训练过程中引入内容对比学习损失,所述内容对比学习损失用于使所述用户的所述原始新闻表示与所述增强新闻表示相接近,并使所述用户的所述原始新闻表示与其它用户的新闻表示相远离。
本发明另一方面还提出如下技术方案:
一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的基于对比学习的新闻推荐方法。
本发明的有益效果在于:使用分层用户兴趣建模的方式让用户兴趣的粒度更细,对子主题的兴趣建模能力更强。在用户兴趣建模层面上的对比学习,让在某主题级浏览记录相似的用户其主题兴趣向量更相似,而浏览记录不相似的用户其兴趣向量相似度变小。相比于现有的新闻推荐算法,能更有效地、准确地捕捉用户兴趣,进行更精准的新闻推荐。
在本发明的进一步技术方案中,在新闻内容理解层面也进行对比学习,有效改进了新闻内容理解模块的编码能力,让内容相似但表述有差别的新闻其表示相似度变大,不同新闻之间的相似度变小,来提高模型对新闻内容理解的鲁棒性,从而在准确建模用户兴趣的基础上,为用户精准推送感兴趣新闻。
附图说明
图1是本发明实施例新闻内容理解的示例;
图2是本发明实施例用户兴趣抽取的示例;
图3是本发明实施例基于对比学习的新闻内容理解的示意图;
图4是本发明实施例基于对比学习的多层用户兴趣编码的示意图。
具体实施方式
下面结合附图和具体的实施方式对本发明作进一步说明。
针对同一事件的新闻,不同的作者在描述上会存在差异。如图1所示,两则新闻都是在描述“中国女子冰壶战胜英国”这件事,但二者的文本和实体均存在差异。此处文本是新闻的标题,实体是从新闻标题中抽取的实体词。实体抽取可以采用简单的文本匹配和基于深度学习的命名实体识别两种方式。我们可以看到,两则在文字描述上存在差异的新闻,其传达的事件内容实质上是一样。因此模型在对文本编码时应该让两个新闻编码后的向量表示相接近,同时让不相似的新闻之间相互远离。图2是用户兴趣抽取的示例,用户1按“新闻1”、“新闻2”、“新闻3”的顺序浏览了三个新闻,而用户2按“新闻3”、“新闻1”、“新闻2”的顺序浏览了同样的三个新闻。二者浏览的新闻内容相同,只是浏览顺序不同,如果使用线性编码模型进行兴趣建模,则二者相差相对较大。
因此,本发明实施例结合对比学习的思想,以及新闻推荐系统的任务特殊性,提出了基于对比学习的兴趣分层新闻推荐方法,对用户兴趣抽取时进行多层次的兴趣建模,以更准确地建模用户的兴趣。此外基于对比学习进行新闻内容理解,提高模型对新闻内容理解的鲁棒性。具体而言,由于大量的新闻工作者同时对社会上的热点事件进行报道,其文本大都大同小异,这就要求模型对于文字表述差距不大的新闻其内容编码应大致相似。同样,在进行用户兴趣抽取时,新闻浏览历史大体相似的用户也应有相接近的兴趣编码,模型应该减少新闻的浏览顺序,个别新闻的影响。
在文本编码部分,我们使用了四种数据增强方式:文本替换、文本删除、实体删除和实体顺序调换。为了对用户兴趣进行更细粒度的建模,本发明实施例按照子主题级、主题级和用户级三个层级对用户兴趣进行了分层。子主题级的兴趣例如足球、篮球;主题级的兴趣例如运动,它包含多个子主题级兴趣(如足球、篮球);用户级的兴趣是用户感兴趣的主题的集合。在用户兴趣抽取部分,本发明实施例对于子主题级兴趣采用了打乱新闻浏览顺序、随机删除浏览新闻两种数据增强方式,由用户浏览历史中新闻类别为具体子主题的新闻建模而得到。在生成主题级兴趣以及用户级兴趣时使用两层的图注意力网络进行聚合,即,将子主题级兴趣向量聚合成主题级兴趣向量,以及将主题级兴趣向量聚合成用户级兴趣向量。
如图3所示,对于新闻内容理解部分,框架分为文本的数据增强和实体的数据增强。在文本的数据增强部分,采用了随机删除单词和随机替换文字两种数据增强方式,首先将输入的新闻文本转化为对应文字索引,在数据增强时按照7.5%的概率随机将文字索引转化为0,0索引对应的词向量全为0,按照7.5%的概率随机将文字索引替换为随机索引,得到增强文本。在实体的数据增强部分,采用了随机删除实体词和调换实体词出现顺序两种数据增强方式,将新闻中的实体映射为实体索引,以7.5%的概率将实体索引转化为0,同时以30%的概率将新闻中的实体进行顺序打乱,得到增强实体。
继续参考图3,数据增强操作后,使用新闻编码模块对新闻进行编码建模。它首先应用一个文本嵌入层来丰富语义信息,将数据增强前后的文本和实体转化为预训练好的词向量和实体向量后,进一步分别应用文本和实体的自注意力网络来捕捉新闻文字间的关联性和实体间的关联性。接下来,分别利用文本和实体注意力网络,通过聚合新闻文本来学习新闻的文本表示,通过聚合新闻中的实体来聚合新闻的实体表示。最后,拼接文本表示向量和实体表示向量作为对应新闻的表示向量。具体而言,首先,将数据增强前的文本映射为原始词向量,将所述增强文本映射为增强词向量;将数据增强前的实体映射为原始实体向量,将所述增强实体映射为增强实体向量。然后,对所述原始词向量依次使用文本自注意力机制和文本注意力机制获得文本的原始表示nt,对所述增强词向量依次使用文本自注意力机制和文本注意力机制获得文本的增强表示nt’。对所述原始实体向量依次使用实体自注意力机制和实体注意力机制获得实体的原始表示ne,对所述增强实体向量依次使用实体自注意力机制和实体注意力机制获得实体的增强表示ne’。接着,将文本的原始表示nt与实体的原始表示ne拼接成为新闻的原始表示(原始新闻表示)(即原文本编码)n,将文本的增强表示nt’与实体的增强表示ne’拼接成为新闻的增强表示(增强新闻表示)(即数据增强文本编码)n’。最后利用对比学习将同一新闻的原始表示和增强表示相接近,而不同新闻的表示相远离。此处的对比学习,利用欧氏距离作为相似度度量,构建对比学习的损失函数,让同一新闻的原始表示和增强表示的相似度变大,让新闻的原始表示和其他新闻的增强表示相似度变小。
在一具体实施例中,将新闻A的标题作为新闻的文本,记为T:
T=[w1,w2,w3,…,wn] (1)
式(1)表示新闻的文本T包含n个单词;
对文本的数据增强方式包括两种,可以随机选择使用其中一种数据增强方式。第一种是随机删除文本中的若干个单词,得到增强文本T1
T1=[w1,w3,…,wn] (2)
式(2)表示删除了单词w2,以图1的新闻为例,比如删除了文本中的单词“8:4”。
另一种对文本进行数据增强的方式是随机替换文本中的文字/单词,得到增强文本T2
T2=[w1,wt,w3,…,wn] (3)
式(3)表示将文本T中的单词w2替换为随机单词wt,比如将“壶”字替换为一个随机的字“氢”。
对于前述新闻A的实体集合,记为E:
E=[e1,e2,e3,…,em] (4)
式(4)表示新闻A的实体包含m个单词。
如图3所示,对于实体,可以采用随机删除实体词的数据增强方式,也可以使用调换实体词顺序的数据增强方式。删除实体词的数据增强后的实体例如E1,调换实体词顺序的数据增强后的实体例如E2
E1=[e2,e3,…,em] (5)
E2=[ei,ej,…,ek] (6)
式(6)中,下标i、j、k分别表示不同索引位置的实体。比如,图1的新闻示例,从实体词集合中随机删除实体词“英国”,或者,将实体词的出现顺序由“中国女子冰壶英国”调换为“英国女子冰壶中国”。
本发明使用一个文本编码器对新闻进行编码建模。它首先应用一个词嵌入层来丰富模型的语义信息:
Embt=Ft(T) (7)
Embe=Fe(E) (8)
其中,Embt、Embe分别为新闻的文本嵌入和实体嵌入;Ft是词嵌入的表示函数,使用预训练好的GloVe作为词嵌入层的初始化参数;Fe是实体嵌入的表示函数,使用TransE实体嵌入来作为其初始化参数;
接下来,采用文本自注意力网络,从新闻文本的语境中学习单词表征。然后,使用文本注意力网络,通过聚合单词表征来学习文本表征nt。此外,应用一个实体编码器来学习新闻的实体表示,首先使用实体嵌入层,将实体的信息纳入模型,进一步应用实体自注意力网络来捕捉实体间的关联性。接下来,利用一个实体注意力网络,通过聚合实体来学习新闻的实体表征ne。最后,拼接文本信息和实体信息作为新闻表征(也可称“新闻表示”):n=[nt,ne]。对于增强后的文本和实体,也是同样的处理方式,得到增强后的新闻表征n'=[nt',ne']。
对于原始新闻的文本和实体得到的新闻表征为n,经过数据增强后的新闻的文本和实体得到的新闻表征为n'。为了让同一新闻数据增强前后的新闻表征更加接近,而不同新闻的新闻表征更加远离,本发明实施例利用欧式距离来度量数据增强前后的新闻表示的相似度,以及不同用户间新闻表示的相似度,从而构建如下关于新闻内容理解的对比学习损失函数
Figure BDA0003601096900000061
Figure BDA0003601096900000071
其中,sim表示向量的相似度计算函数,τ是可调整的超参数,N是新闻的条数,ni表示第i条新闻的原始新闻表征,ni'表示第i条新闻经过数据增强后的增强新闻表征。上述损失函数使数据增强后的新闻表征ni'与原始新闻表征ni接近,而随机的其他新闻比如第j条新闻的增强新闻表征nj'与ni远离。
对于新闻的用户兴趣抽取部分,也引入了类似的对比学习,基于对比学习的用户兴趣抽取包括:提供如图4所示的用户兴趣编码器,该用户兴趣编码器被配置为对用户浏览的新闻序列进行编码得到兴趣向量;对所述用户浏览的新闻序列进行编码得到第一兴趣向量;对所述用户浏览的新闻序列进行数据增强,再对数据增强后的新闻序列进行编码得到第二兴趣向量;训练所述用户兴趣编码器,训练过程中在原本的点击率预估损失的基础上引入兴趣对比学习损失,所述兴趣对比学习损失用于使所述第一兴趣向量和所述第二兴趣向量的表示相接近,并使所述第一兴趣向量与其它用户的兴趣向量相远离。此处对所述用户浏览的新闻序列进行数据增强包括第一数据增强和第二数据增强,将在后续进行详述。
本发明实施例利用如图4所示的用户兴趣编码器从用户浏览的新闻序列中对用户兴趣进行了分层建模,即分为子主题级兴趣、主题级兴趣和用户级兴趣,子主题级兴趣是用户浏览历史中新闻类别为特定子主题(比如“足球”)的新闻建模而来。在子主题级兴趣进行编码建模时,本发明实施例采用了所述第一数据增强,即:随机删除新闻序列中的若干条新闻和/或打乱新闻浏览顺序的数据增强方式。同时通过使用图注意力网络对子主题级兴趣进行分层聚合,在聚合时采用了所述第二数据增强,即:删除图注意力网络的点或边的数据增强方式。而用户级兴趣由主题级兴趣汇总得到,一个用户只对应一个用户级兴趣。
浏览新闻的用户可能同时对多个不同的主题感兴趣,比如电影、金融和体育。本发明实施例对用户浏览过的新闻进行分类,从而对每个子主题进行独立建模,来抽取到用户更细粒度的兴趣,之后再使用基于图注意力网络的兴趣聚合的方式得到大类的兴趣向量(主题级的兴趣)。如图4所示,使用图3中对新闻进行编码时的新闻编码模块得到每一个新闻的表示,通过注意力网络来对用户点击过的子主题新闻进行兴趣聚合,所得兴趣向量与子主题的类别嵌入进行相加得到最终用户在子主题下的兴趣表示。在获取子主题级的兴趣向量时采用了对比学习的方式,其中用到了所述第一数据增强,主要包含了两种信息增强的方式,第一种是对新闻进行随机删除,如图4左下角所示,随机删除一定比例的新闻对用户的兴趣向量影响不大。另一种方式是如图4右下角所示,对新闻的浏览顺序进行打乱,经过打乱后的用户兴趣应当与打乱前一致。
其次,本发明学习了主题级兴趣向量,以模拟主要新闻主题(如体育、财经)的粗粒度用户兴趣。具体而言,构建如图4中包含三层节点的图注意力网络,其中部分白色节点为用户的子主题级兴趣,例如用户对足球的兴趣;浅灰色节点为用户主题级兴趣,例如用户对体育的兴趣;深灰色节点对应用户级兴趣,是主题级兴趣的聚合,每个用户对应一个用户级兴趣。由于对不同子主题的新闻点击数量一定程度反映了子主题用户兴趣的重要性,因此在子主题兴趣嵌入的基础上加上了新闻点击数量对应的向量。对于三层兴趣网络,最外层子主题级别的兴趣为聚合后的向量,而中间层主题级别的兴趣和最里层用户级的兴趣则初始化为全0的向量。模型使用图注意力网络让其兴趣向量由细粒度往粗粒度进行流动。同时采用了所述第二数据增强,删掉了图注意力网络中的部分边或点。最后使用对比学习的损失函数来对子主题级兴趣、主题级兴趣和用户级兴趣进行编码的改进。
对于浏览新闻的用户来说,可能同时对多个不同的主题新闻感兴趣,比如电影、金融和体育,此外对于体育感兴趣的用户也可能在体育这个大类下只对其中几个小类感兴趣,称为子主题新闻。对于每个子主题新闻,如足球,用户可能只对某个球队感兴趣,如果将整个体育的类别或者对所有新闻统一建模,则很难抽取到用户在足球这个子主题的兴趣。因此本发明实施例对用户浏览过的新闻进行分类,从而对每个子主题进行独立建模,从而抽取到用户更细粒度的兴趣,然后再使用兴趣聚合的方式得到粗粒度的兴趣向量。也就是说对于用户的新闻浏览序列M={ti|i=1,2,…,l},l为用户访问的新闻个数,根据新闻的类别进行分类,将M中所有主题为k、子主题为b的新闻归为了一组,记为
Figure BDA0003601096900000081
Figure BDA0003601096900000082
其中,d为用户浏览新闻序列中主题为k、子主题为b的新闻个数。图4中,新闻
Figure BDA0003601096900000091
表示用户浏览过的主题1下的子主题1的n条新闻,新闻
Figure BDA0003601096900000092
表示用户浏览过的主题2下的子主题1的n条新闻,新闻
Figure BDA0003601096900000093
表示用户浏览过的主题2下的子主题为o、p、q的新闻。此外,图4中
Figure BDA0003601096900000094
表示主题1、子主题1的类别向量表示,
Figure BDA0003601096900000095
表示主题1、子主题1的未融合类别向量的用户兴趣表示,
Figure BDA0003601096900000096
表示主题1、子主题1经过新闻随机删除后未融合类别向量的用户兴趣表示,
Figure BDA0003601096900000097
表示主题1、子主题1的用户兴趣
Figure BDA0003601096900000098
和类别向量
Figure BDA0003601096900000099
相加之和即主题1、子主题1的完整用户兴趣,
Figure BDA00036010969000000910
表示主题1、子主题1新闻随即删除后的用户兴趣表示
Figure BDA00036010969000000911
和类别向量
Figure BDA00036010969000000912
相加之和的完整数据增强后的用户兴趣,
Figure BDA00036010969000000913
表示主题2、子主题1的类别向量,
Figure BDA00036010969000000914
表示主题2、子主题1的未融合类别向量的用户兴趣表示,
Figure BDA00036010969000000915
表示主题2、子主题1的新闻随即调换后的未融合类别向量用户兴趣表示,
Figure BDA00036010969000000916
表示主题2、子主题1的用户兴趣
Figure BDA00036010969000000917
和新闻个数
Figure BDA00036010969000000918
相加之和即主题2、子主题1的完整用户兴趣,
Figure BDA00036010969000000919
表示主题2、子主题1新闻随即删除后的用户兴趣表示
Figure BDA00036010969000000920
和新闻个数
Figure BDA00036010969000000921
相加之和的完整数据增强后的用户兴趣。
在兴趣抽取部分,首先使用新闻编码模块Newsen得到每一个新闻的新闻表示
Figure BDA00036010969000000922
Figure BDA00036010969000000923
由于点击的新闻对于建模用户兴趣可能有不同的信息量,通过注意力网络来对信息量大的点击新闻设置更高的权重:
Figure BDA00036010969000000924
其中,
Figure BDA00036010969000000925
表示主题为k、子主题为b的兴趣向量;wj表示
Figure BDA00036010969000000926
中第j个被点击的新闻
Figure BDA0003601096900000101
的关注权重,
Figure BDA0003601096900000102
是第j个被点击的新闻
Figure BDA0003601096900000103
的新闻表示,φS表示全连接网络。此外为了让模型区分不同的主题,模型采用了一个主题嵌入进行标识,
Figure BDA0003601096900000104
为主题k、子主题b的主题嵌入。最后,将
Figure BDA0003601096900000105
Figure BDA0003601096900000106
的相加作为子主题级的兴趣向量
Figure BDA0003601096900000107
Figure BDA0003601096900000108
同样,模型也为用户点击的其他子主题学习了相应的兴趣向量。
本发明在对子主题级兴趣编码时也采用了对比学习的思想,其中主要用到了两种用户侧数据增强的方式,第一种是对新闻进行随机删除,如图4左下角所示,随机删除一定比例的新闻对用户的兴趣向量影响不大。另一种方式是如图4右下角所示,对新闻的浏览顺序进行打乱,经过打乱后的用户兴趣应当与打乱前一致。因此,本发明实施例利用数据增强前后的子主题级兴趣向量的相似度来构建子主题级损失函数
Figure BDA0003601096900000109
Figure BDA00036010969000001010
其中,K为数据集中包含的主题,|K|为数据集包含的主题个数;Bk为主题k中包含的子主题,|Bk|为主题k中包含的子主题个数。
Figure BDA00036010969000001011
表示对应用户对主题k下的子主题b的兴趣向量,
Figure BDA00036010969000001012
为数据增强后的主题k子主题b的用户兴趣,
Figure BDA00036010969000001013
表示数据增强后的主题h子主题j的用户兴趣,τ是可调整的控制对比学习重要程度的超参数,此处设定为0.07。
其次,本发明实施例学习了主题级兴趣向量,以模拟主要新闻主题(如体育、财经)的粗粒度用户兴趣。仍然是如图4所示的图注意力网络,其中包含三层节点,分别是子主题级兴趣向量
Figure BDA00036010969000001014
主题级兴趣向量uk以及用户级兴趣向量u。由于对不同子主题的新闻点击数量一定程度反映了子主题用户兴趣的重要性,因此得到子主题级兴趣向量
Figure BDA00036010969000001015
之后,加上新闻点击数量对应的嵌入向量,得到最终的子主题级兴趣向量
Figure BDA00036010969000001016
Fn表示新闻数量与嵌入向量的映射函数,
Figure BDA00036010969000001017
表示新闻主题为k、子主题为b的新闻个数。如图4所示,使用新闻主题为k、子主题为i的新闻的最终子主题级兴趣向量
Figure BDA00036010969000001018
对图注意力网络中子主题级兴趣的节点进行初始化,对于主题级兴趣节点和用户级兴趣节点,则初始化为0。
Figure BDA0003601096900000111
表示新闻主题1、子主题1的加上新闻访问数量嵌入的子主题级兴趣向量,
Figure BDA0003601096900000112
表示数据增强后的新闻主题1、子主题1的加上新闻访问数量嵌入的子主题级兴趣向量,
Figure BDA0003601096900000113
表示新闻主题1、子主题1的加上新闻访问数量嵌入的子主题级兴趣向量,
Figure BDA0003601096900000114
表示数据增强后的新闻主题2、子主题1的加上新闻访问数量嵌入的子主题级兴趣向量。本发明实施例将图注意力网络中子主题级兴趣、主题级兴趣和用户级兴趣对应的所有节点统称为X,其中第i个节点向量称为xi。根据子主题与主题之间的包含关系构建了图注意力网络
Figure BDA0003601096900000115
其中
Figure BDA0003601096900000116
表示与第i个节点相连的其他节点,使用图注意力网络进行聚合,公式表示如下:
Figure BDA0003601096900000117
Figure BDA0003601096900000118
其中,αi,j表示节点i和节点j之间的注意力系数,αi,i表示节点i的自注意力系数,LeakyReLU是激活函数;a是一个向量,其向量长度为xi长度的二倍;xj表示图注意力网络中第j个节点的向量表示,xk表示图注意力网络中第k个节点的向量表示;||表示矩阵拼接;Θ是一个权重矩阵,用来将图注意力网络节点做线性映射;xj’是图注意力网络的下一层。
在将子主题级兴趣聚合为主题级兴趣时,同样应用了对比学习的方式,在图注意力网络中随机删除掉少量的边,即删掉
Figure BDA0003601096900000119
中的一些元素,以此来做数据增强。将删掉少量边之后使用图注意力网络得到的主题级兴趣和用户级兴趣分别设为xt'和xu',然后利用数据增强前后的主题级兴趣向量的相似度来构建主题级损失函数
Figure BDA00036010969000001110
以及利用数据增强前后的用户级兴趣向量的相似度来构建的用户级损失函数
Figure BDA00036010969000001111
如下:
Figure BDA0003601096900000121
Figure BDA0003601096900000122
其中,
Figure BDA0003601096900000123
表示主题级兴趣的对比学习损失函数,
Figure BDA0003601096900000124
表示用户级兴趣的对比学习损失函数;
Figure BDA0003601096900000125
为数据集中主题的个数,xt表示经过聚合后的主题级兴趣向量,xu表示经过聚合后的用户级兴趣向量。
由于模型分三层对用户兴趣建模,在进行新闻匹配时,同样分三层进行匹配。对于用户c和主题为k、子主题为b的新闻y来说,通过新闻编码模块得到新闻y的新闻表示ny,同时获得用户c的兴趣向量,其中包含子主题级兴趣向量
Figure BDA0003601096900000126
主题级兴趣向量uk以及用户级兴趣向量u。如前文所述,用户在每个子主题上应该单独建模,这样更容易把握用户当前的兴趣。因此本发明实施例在子主题级的兴趣匹配时只采用了新闻对应类别的子主题的兴趣向量,即
Figure BDA0003601096900000127
scores表示用户的子主题兴趣和候选新闻的匹配得分。同样这种兴趣匹配方式作用在主题级别的兴趣匹配上,即scoret=uk·ny,scoret表示用户的主题兴趣和候选新闻的匹配得分。最后是用户级别的兴趣匹配,scoreu=u·ny,scoreu表示用户的用户级兴趣和候选新闻的匹配得分。最终模型给出用户c对新闻y感兴趣的程度为:
score=λsscorestscoret+(1-λst)scoreu (18)
其中,
Figure BDA0003601096900000128
是超参数,用于控制不同层次的兴趣分数的相对重要性,本发明实施例将λs,λt分别设为0.7和0.15。
也就是说,候选集的新闻与用户的兴趣进行匹配,从而得到用户对每一个新闻感兴趣的程度得分,对其进行排序,并将得分高(比如Top20高)的新闻推荐给用户。
本发明实施例利用噪声对比估计损失
Figure BDA0003601096900000129
进行模型优化,噪声对比估计损失是点击率预估损失的一种。对于给定的训练数据集D,其中包含用户点击的正样本,以及显示给用户但是用户未点击的K个负样本。模型旨在让正样本的得分比其他负样本分配更高的兴趣分数,其表述如下:
Figure BDA0003601096900000131
其中,|D|为数据集中训练样本数,
Figure BDA0003601096900000132
为用户点击样本模型预估的感兴趣程度得分,K为采样的用户未点击新闻个数,
Figure BDA0003601096900000133
为用户未点击样本模型预估的感兴趣程度得分。
整个推荐模型的损失函数
Figure BDA0003601096900000134
包含两部分,对比学习的损失函数和新闻匹配的损失函数,形式如下:
Figure BDA0003601096900000135
其中,α是控制对比学习损失的重要程度,η1234是控制对比学习损失的重要程度的超参数,实验中分别设为0.2,0.4,0.2,0.2。
本发明的另一实施例还提出一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,能够实现前述实施例提出的基于对比学习的新闻推荐方法。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的技术人员来说,在不脱离本发明构思的前提下,还可以做出若干等同替代或明显变型,而且性能或用途相同,都应当视为属于本发明的保护范围。

Claims (12)

1.一种基于对比学习的新闻推荐方法,其特征在于,包括基于对比学习的用户兴趣抽取步骤;所述用户兴趣抽取步骤包括:
提供一用户兴趣编码器,该用户兴趣编码器被配置为对用户浏览的新闻序列进行编码得到兴趣向量;
对所述用户浏览的新闻序列进行编码得到第一兴趣向量;
对所述用户浏览的新闻序列进行数据增强,再对数据增强后的新闻序列进行编码得到第二兴趣向量;
训练所述用户兴趣编码器,训练过程中,引入使所述第一兴趣向量和所述第二兴趣向量相接近,并使所述第一兴趣向量与其它用户的兴趣向量相远离的兴趣对比学习损失。
2.如权利要求1所述的基于对比学习的新闻推荐方法,其特征在于,所述数据增强包括第一数据增强,所述第一数据增强包括:随机删除新闻序列中的新闻,和/或打乱新闻序列中的新闻浏览顺序。
3.如权利要求2所述的基于对比学习的新闻推荐方法,其特征在于,所述用户兴趣编码器对用户浏览的新闻序列进行编码时,对用户浏览的新闻序列,按照由细到粗的类别粒度分子主题级、主题级、用户级三个层级进行兴趣的分层建模;再将较细粒度的兴趣向量进行聚合得到较粗粒度的兴趣向量。
4.如权利要求3所述的基于对比学习的新闻推荐方法,其特征在于,还包括:将所述用户对同一子主题级的新闻浏览次数的向量嵌入到所述用户在该子主题级下的兴趣向量中。
5.如权利要求3所述的基于对比学习的新闻推荐方法,其特征在于,所述兴趣对比学习损失包括:利用在所述第一数据增强前后的子主题级兴趣向量的相似度来构建的子主题级损失函数。
6.如权利要求3所述的基于对比学习的新闻推荐方法,其特征在于,将较细粒度的兴趣向量进行聚合得到较粗粒度的兴趣向量时,采用图注意力网络进行聚合;并且,在聚合时,采用随机删除图注意力网络上的点或边的第二数据增强;
所述兴趣对比学习损失还包括:利用在所述第二数据增强前后的主题级兴趣向量的相似度来构建的主题级损失函数,以及利用在所述第二数据增强前后的用户级兴趣向量的相似度来构建的用户级损失函数。
7.如权利要求1所述的基于对比学习的新闻推荐方法,其特征在于,还包括:按照子主题级、主题级、用户级三个层级对所述用户进行新闻匹配,并对候选集的每条新闻,根据每个层级的兴趣向量计算用户对该条新闻的感兴趣程度得分,然后将得分高于预设值的新闻推荐给所述用户。
8.如权利要求1所述的基于对比学习的新闻推荐方法,其特征在于,还包括基于对比学习的新闻内容理解步骤;所述新闻内容理解步骤包括:
提供一新闻编码模块,该新闻编码模块被配置为对所述用户浏览的新闻进行编码得到新闻表示;
对所述用户浏览的新闻进行编码得到原始新闻表示;
对所述用户浏览的新闻进行第三数据增强,再对进行所述第三数据增强后的新闻进行编码得到增强新闻表示;
训练所述新闻编码模块,训练过程中引入内容对比学习损失,所述内容对比学习损失用于使所述用户的所述原始新闻表示与所述增强新闻表示相接近,并使所述用户的所述原始新闻表示与其它用户的新闻表示相远离。
9.如权利要求8所述的基于对比学习的新闻推荐方法,其特征在于,所述第三数据增强包括文本增强和实体增强;所述文本增强包括:对新闻的文本进行单词的随机删除和/或随机替换,得到增强文本;所述实体增强包括:对新闻的实体进行实体词的随机删除和/或实体词出现顺序的调换,得到增强实体。
10.如权利要求9所述的基于对比学习的新闻推荐方法,其特征在于,所述新闻编码模块对新闻进行编码得到新闻表示,包括:
对原始词向量依次使用文本自注意力机制和文本注意力机制获得文本的原始表示,对增强词向量依次使用文本自注意力机制和文本注意力机制获得文本的增强表示;对原始实体向量依次使用实体自注意力机制和实体注意力机制获得实体的原始表示,对增强实体向量依次使用实体自注意力机制和实体注意力机制获得实体的增强表示;
其中,所述原始词向量、所述增强词向量分别由进行文本增强前、后的文本映射而来,所述原始实体向量、所述增强实体向量分别由进行实体增强前、后的实体映射而来;
将文本的原始表示与实体的原始表示拼接得到所述原始新闻表示,将文本的增强表示与实体的增强表示拼接得到所述增强新闻表示。
11.如权利要求8所述的基于对比学习的新闻推荐方法,其特征在于,所述内容对比学习损失包括:利用在所述第三数据增强前后的新闻表示的相似度,以及所述用户的新闻表示与其它用户的新闻表示的相似度来构建的新闻损失函数。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现权利要求1-11任一项所述的基于对比学习的新闻推荐方法。
CN202210404048.3A 2022-04-18 2022-04-18 一种基于对比学习的新闻推荐方法 Pending CN114840747A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210404048.3A CN114840747A (zh) 2022-04-18 2022-04-18 一种基于对比学习的新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210404048.3A CN114840747A (zh) 2022-04-18 2022-04-18 一种基于对比学习的新闻推荐方法

Publications (1)

Publication Number Publication Date
CN114840747A true CN114840747A (zh) 2022-08-02

Family

ID=82566419

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210404048.3A Pending CN114840747A (zh) 2022-04-18 2022-04-18 一种基于对比学习的新闻推荐方法

Country Status (1)

Country Link
CN (1) CN114840747A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150508A (zh) * 2023-04-23 2023-05-23 江苏亿友慧云软件股份有限公司 一种基于对比学习的物品推荐方法、电子设备及存储介质
CN116432870A (zh) * 2023-06-13 2023-07-14 齐鲁工业大学(山东省科学院) 一种城市流量预测方法
CN118037362A (zh) * 2024-04-12 2024-05-14 中国传媒大学 基于用户多意图对比的序列推荐方法及系统
CN118096267A (zh) * 2024-04-29 2024-05-28 山东铂明网络科技有限公司 一种基于数据分析的个性化广告投放系统及方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150508A (zh) * 2023-04-23 2023-05-23 江苏亿友慧云软件股份有限公司 一种基于对比学习的物品推荐方法、电子设备及存储介质
CN116432870A (zh) * 2023-06-13 2023-07-14 齐鲁工业大学(山东省科学院) 一种城市流量预测方法
CN116432870B (zh) * 2023-06-13 2023-10-10 齐鲁工业大学(山东省科学院) 一种城市流量预测方法
CN118037362A (zh) * 2024-04-12 2024-05-14 中国传媒大学 基于用户多意图对比的序列推荐方法及系统
CN118096267A (zh) * 2024-04-29 2024-05-28 山东铂明网络科技有限公司 一种基于数据分析的个性化广告投放系统及方法

Similar Documents

Publication Publication Date Title
CN110162700B (zh) 信息推荐及模型的训练方法、装置、设备以及存储介质
CN114840747A (zh) 一种基于对比学习的新闻推荐方法
CN108920641A (zh) 一种信息融合个性化推荐方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN107992531A (zh) 基于深度学习的新闻个性化智能推荐方法与系统
Deepak et al. An intelligent inventive system for personalised webpage recommendation based on ontology semantics
CN110659411B (zh) 一种基于神经注意力自编码器的个性化推荐方法
CN112966091B (zh) 一种融合实体信息与热度的知识图谱推荐系统
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
WO2021139415A1 (zh) 数据处理方法、装置、计算机可读存储介质及电子设备
CN113343125B (zh) 一种面向学术精准推荐的异质科研信息集成方法及系统
CN111079409A (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN108920521A (zh) 基于伪本体的用户画像-项目推荐系统及方法
CN113987155B (zh) 一种融合知识图谱与大规模用户日志的会话式检索方法
CN112699310A (zh) 基于深度神经网络的冷启动跨域混合推荐的方法及系统
CN113326384A (zh) 一种基于知识图谱的可解释推荐模型的构建方法
CN115982467A (zh) 一种去偏化用户多兴趣推荐方法、装置及存储介质
CN116431919A (zh) 基于用户意图特征的智能新闻推荐方法和系统
CN114722287A (zh) 一种融入层级结构的长短期推荐方法
Tan et al. Attentional autoencoder for course recommendation in mooc with course relevance
CN115640462A (zh) 一种基于知识库增强的跨域新闻推荐方法
CN116975615A (zh) 基于视频多模态信息的任务预测方法和装置
CN115964560A (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN116720519B (zh) 一种苗医药命名实体识别方法
CN116842934A (zh) 一种基于持续学习的多文档融合深度学习标题生成方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination