CN115168724A - 一种融合多粒度信息的新闻推荐方法及系统 - Google Patents

一种融合多粒度信息的新闻推荐方法及系统 Download PDF

Info

Publication number
CN115168724A
CN115168724A CN202210846466.8A CN202210846466A CN115168724A CN 115168724 A CN115168724 A CN 115168724A CN 202210846466 A CN202210846466 A CN 202210846466A CN 115168724 A CN115168724 A CN 115168724A
Authority
CN
China
Prior art keywords
news
user
representation
candidate
granularity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210846466.8A
Other languages
English (en)
Inventor
杨振宇
崔来平
李治军
李怡雯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qilu University of Technology
Original Assignee
Qilu University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qilu University of Technology filed Critical Qilu University of Technology
Priority to CN202210846466.8A priority Critical patent/CN115168724A/zh
Publication of CN115168724A publication Critical patent/CN115168724A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9027Trees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种融合多粒度信息的新闻推荐方法及系统,属于新闻的个性化推荐领域,首先在候选新闻与用户浏览的历史新闻间应用交互注意力以捕获新闻中的关键语义信息,并进行加权聚合获取文本的重点部分,之后构建特征粒度网络提取新闻的多粒度表示;使用Bi‑LSTM与表示注意力来学习每个新闻的表示;将特征表达后的多粒度用户兴趣信息与原始信息进行连接得到最终的用户兴趣表示向量,以匹配候选新闻计算点击概率。本发明利用交互注意网络和表示注意力将基于交互和基于表示的模型进行融合,而且充分考虑了新闻文本中存在的多个粒度信息,并对用户不同层次兴趣的表示进行建模,提高新闻推荐的精度。

Description

一种融合多粒度信息的新闻推荐方法及系统
技术领域
本发明属于新闻的个性化推荐领域,尤其涉及一种融合多粒度信息的新闻推荐方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
信息爆炸的今天,个性化新闻推荐技术已经变成了许多数字新闻平台的关键技术;MSN news、Goole news等数字新闻平台的兴起为用户提供了大量的新闻,然而用户从大量新闻中选出自己感兴趣的新闻是比较困难的,个性化新闻推荐技术的应用,不仅可以缓解信息过载的状况,还可以提升用户的新闻阅读体验,提高用户粘性尤为重要。
用户兴趣与候选新闻的准确匹配是个性化新闻推荐的前提,很多现有的方法基于表示的匹配策略,它们通常对每条新闻进行词嵌入获得新闻的表示,然后通过聚合用户浏览过的历史新闻来学习每个用户的综合兴趣表示,最后,将该综合向量表示与候选新闻向量匹配来执行推荐,取得了不错的效果。
尽管如此,这些方法也存在不足,在用户建模过程中并没有考虑候选新闻,由于学习到的用户兴趣在最后一步才与候选新闻匹配,这可能会削弱用户和候选新闻之间的细粒度匹配信号(词级关系)。最近的研究通过对候选新闻和用户浏览的每篇新闻文章之间的细粒度交互匹配的推荐方法进行建模来解决这一点;基于交互的新闻推荐方法可以较好地把握新闻中的语义焦点,关注词级行为交互,但是可能无法从用户浏览的新闻中抽象出高层的用户的兴趣表示,无法把握用户的兴趣偏向。
因此,以有效的方式充分利用以上两种架构使得模型既能实现从细粒度的行为交互中发现用户兴趣的丰富细节线索,又可以实现对用户抽象出高层的用户兴趣表示是一个值得解决的问题。
发明内容
为克服上述现有技术的不足,本发明提供了一种融合多粒度信息的新闻推荐方法及系统,利用交互注意网络和表示注意力将基于交互和基于表示的模型进行融合,充分考虑新闻文本中存在的多个粒度信息,对用户不同层次兴趣的表示进行建模,提高新闻推荐的精度。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种融合多粒度信息的新闻推荐方法;
一种融合多粒度信息的新闻推荐方法,包括:
获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到候选新闻向量表示和用户历史点击新闻向量表示;
基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得多粒度用户兴趣表示;
联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
进一步的,所述新闻编码的具体步骤为:
获取新闻的标题;
使用预先训练好的G l ove嵌入对标题进行词嵌入;
通过词嵌入查找表对新闻标题中的单词进行编码,得到单词向量形式的新闻表示。
进一步的,所述加权聚合的具体步骤为:
生成候选新闻表示和用户历史点击新闻表示之间的相似度矩阵;
基于相似度矩阵,计算候选新闻表示每个单词的注意力权重;
对候选新闻表示进行注意力加权聚合,得到加权候选新闻表示。
进一步的,所述用不同的卷积窗对新闻表示进行分组卷积,具体步骤:
对新闻表示进行信息提取和降维;
进行粒度信息提取和维度扩展;
结合提取的所有粒度信息,得到多粒度特征。
进一步的,通过层次化的兴趣树RTCN,获得多粒度用户兴趣表示,具体步骤为:
提取不同层次的用户历史点击新闻向量表示;
将不同层次的用户历史点击新闻向量表示进行拼接;
将注意力机制应用于拼接向量。
进一步的,所述预测用户浏览每个候选新闻的概率,计算候选新闻和用户的匹配分数。
进一步的,所述候选新闻和用户的匹配分数为所述多粒度用户兴趣表示和候选新闻向量表示的内积。
本发明第二方面提供了一种融合多粒度信息的新闻推荐系统。
一种融合多粒度信息的新闻推荐系统,包括新闻编码模块、多粒度提取模块、新闻向量构建模块、兴趣分层提取模块和概率预测模块;
新闻编码模块,被配置为:获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
多粒度提取模块,被配置为:基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
新闻向量构建模块,被配置为:将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到候选新闻向量表示和用户历史点击新闻向量表示;
兴趣分层提取模块,被配置为:基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得多粒度用户兴趣表示;
概率预测模块,被配置为:联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种融合多粒度信息的新闻推荐方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种融合多粒度信息的新闻推荐方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
针对现有的新闻推荐模型基于表示的方法会丢失细粒度的匹配信号,而基于交互的方法又会无法把握新闻的全局语义信息,本发明提出了一种融合多粒度信息的新闻推荐方法,不仅利用交互注意网络和表示注意力将基于交互和基于表示的模型进行融合,而且充分考虑了新闻文本中存在的多个粒度信息,并对用户不同层次兴趣的表示进行建模,提高新闻推荐的精度。
本发明先通过交互注意力构建加权后的新闻表示,进而通过构建特征提取的粒度网络,来提取新闻文本中的多个粒度信息;使用了Bi-LSTM来学习每个新闻的表示,并在聚合过程中引入注意力机制来表征每个单词对新闻表示的重要性;设计了RTCN模块来对用户浏览的历史新闻构建用户的层次兴趣树,不同的层次对应不同粒度的用户兴趣;最终将不同的层次用户历史浏览新闻表示进行拼接聚合成最终的多粒度用户兴趣以匹配候选新闻计算点击概率,并进行了全面的实证评估,在MIND新闻的真实数据集上的进行了实验验证了方案的有效性。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为两个用户新闻的阅读行为的例子。
图2为第一个实施例的方法流程图。
图3为第二个实施例的系统结构图。
具体实施方式
应该指出,以下详细说明都是示例性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
事实上,同一用户的点击新闻之间的单词级交互包含了理解用户兴趣的丰富细节线索,然而,现有的大多数方法建模的用户兴趣在最后一步才与候选新闻匹配,在这之前并没有与候选新闻发生互动,忽略了词级行为交互,这可能导致用户的兴趣建模并不是最优的。
图1为两个用户新闻的阅读行为的例子,d1-d3是用户的三篇历史点击新闻,c是后来实际点击的新闻。
根据用户1的阅读历史,可以看出候选新闻Colin Kaepernick与用户1第一次点击的新闻中单词Justin Reid相匹配(细粒度的互动发生),这促使用户当前的点击;此外,还可以从“NFL Game”和“Dallas Cowboys”推断用户是NFL的球迷来说很重要,因为它们指的是这项比赛以及球队;不幸的是,采取表示的匹配策略得到的用户聚合向量会混合d1、d2和d3中的所有术语,Christmas和travel等噪音也被包括在内,而这些噪音与当前的点击无关,从而模糊了这些细粒度的兴趣,降低了用户兴趣建模的能力。为了捕获候选新闻和用户之间的细粒度匹配信号,研究人员提出了交互的匹配策略,例如,FIM为每个新闻提取多级表示,并通过卷积执行细粒度匹配,AMM利用不同字段(如标题、摘要和正文)的互补信息,获得多字段匹配表示。
基于交互的新闻推荐方法极大的挖掘了与用户兴趣相关的语义线索,然而这些方法忽略了来自同一用户的不同点击新闻之间的关系,而这些不同点击新闻之间的关系某种程度上包含丰富的细节线索来推断用户兴趣。
例如,从用户2的阅读历史分析来看,根据d1、d2、d3中“dementia”、”“anxietysymptom”以及“Nutritionally”综合分析推断该用户浏览的是与健康有关的新闻,但采取基于交互的匹配策略并不能促使用户2点击候选新闻,一方面是候选新闻中的关键词Weight-Loss与历史新闻中的dementia和anxiety symptom以及Nutritionally在语义空间上距离比较远;另一方面同一用户的不同点击新闻之间并没有发生互动,无法高层的抽象出用户的兴趣信息。
上述两种不同的匹配策略并非单纯的包含关系,而是一种相互补充的关系;因而,以有效方式使得模型既能实现候选新闻与用户浏览的新闻单词级细粒度行为交互,又能实现对用户兴趣的高层次抽象表达是解决的问题。
为了解决这个问题,本发明提供了一种融合多粒度信息的新闻推荐方法,提出一种用于新闻推荐的融合多粒度信息的模型MnRec;在模型中,使用交互注意力和表示注意力将上述两种匹配方法进行了融合,以充分利用二者框架的优势并弥补单一匹配方法暴露的问题;此外,为了更好地实现对新闻建模,设计了粒度网络模块来实现对新闻的多粒度信息提取;最终,还提出了一个用户的多层次兴趣建模框架,以增强用户的兴趣表示。
实施例一
如图2所示,本实施例公开了一种融合多粒度信息的新闻推荐方法,包含以下几个主要的步骤:新闻编码、多粒度提取、新闻向量构建、兴趣分层提取以及计算用户点击候选新闻的概率的预测。
步骤1:获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
步骤101、获取用户的点击新闻以及候选新闻的标题,对新闻标题进行编码,得到新闻标题单词向量序列,作为新闻表示,其中,新闻编码的具体步骤为:
(1)使用预先训练好的G l ove嵌入,候选新闻标题单词序列Dc=[w1,w2,…,wT],用户历史点击的第k个新闻标题单词序列为Dk=[w1,w2,…,wJ]。其中,T表示候选新闻标题中的单词数目,J表示用户历史点击的第k个新闻标题的单词数目。
(2)通过一个词嵌入查找表
Figure BDA0003753037860000081
将新闻标题单词序列转换成单词向量序列。其中,V和D分别是词汇量和词嵌入维数。
从而得到映射到低维向量空间的候选新闻表示为c=[e1,e2,…,eT],用户历史点击新闻表示为d=[e1,e2,…,eJ]。其中用户历史点击的第k个新闻表示为dk
步骤102、对候选新闻表示进行加权聚合,得到加权候选新闻表示;
所述加权聚合的具体步骤为:
(1)生成候选新闻表示和用户历史点击新闻表示之间的相似度矩阵Mc,k=Linear(c·dk+bias),其中,Linear是线性层,bias是可训练的参数。用
Figure BDA0003753037860000082
表示候选新闻中第t个单词跟第k个历史新闻中第j个单词之间的相似性,T和J分别表示新闻c和dk的单词长度。
(2)基于相似度矩阵,计算候选新闻表示每个单词的注意力权重;
让at∈RJ表示候选新闻第t个单词对用户历史点击新闻的每个单词的注意力权重,∑atj=1,注意力权重的计算方法为
Figure BDA0003753037860000083
(3)对候选新闻表示进行注意力加权聚合,得到加权候选新闻表示;
加权的候选新闻表示为
Figure BDA0003753037860000084
因此,
Figure BDA0003753037860000085
是一种包含历史新闻信息参与的候选新闻向量。
由于用户浏览的历史新闻并非只有一个,即每一个候选新闻参与计算会得到对应的k个新闻的加权表示,使用关注机制来聚合k个加权新闻条目得到新闻表示cagg
为了丰富新闻语义关系,将聚合得到的向量cagg与原始向量c相结合,得到一个包含用户新闻浏览历史信息的加权候选新闻表示cinit,以便在信息抽取和新闻表示过程中更容易捕捉新闻标题中的重要关键信息。
步骤2、基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
用于特征提取的ResNeXt网络不仅能解决深度神经网络的退化问题,而且还能促进收敛,所以本发明将残差网络引入到推荐任务中,实现文本信息的多粒度特征提取,网络每层中的三元组信息表示输入特征维数、卷积核大小和输出特征维数,MnRec模型在残差网络中使用不同卷积窗的一维卷积代替二维卷积,实现新闻文本的多粒度特征提取,本发明将这种特征提取网络称为粒度网络Granet,该网络使用三个不同的卷积窗对原始文本进行分组卷积,每组卷积窗提取不同粒度的特征表示,以捕捉更多的文本特征信息,多粒度网络的具体公式如下:
Figure BDA0003753037860000091
Figure BDA0003753037860000092
Figure BDA0003753037860000093
其中,i,j∈{1,2,3};
第一层:对新闻表示进行信息提取和降维,
Figure BDA0003753037860000094
表示Granet网络第一层原始文本经过信息提取和降维后的张量表示;
第二层:进行粒度信息提取和维度扩展,
Figure BDA0003753037860000095
表示第二层中粒度信息提取和维度扩展的结果;Wmul表示粒度滑动窗口,随着窗口的滑动,逐渐提取文本序列中的粒度信息;σ代表ReLU激活函数。
第三层:该模型结合所有粒度的文本信息,得到一个多粒度的新闻表示张量。
最后使用ResNeXt中的残差拼接操作将特征提取的候选新闻含有的多粒度信息cfin与原始信息cinit拼接,得到候选新闻的多粒度特征向量表示cmult。对用户历史点击新闻表示执行相同的操作,得到历史点击新闻的多粒度特征向量表示dmult
步骤3、将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到含有深层语义信息的候选新闻向量表示和用户历史点击新闻向量表示;
因为关于新闻的重要信息可能出现在新闻标题的任何地方,所以本发明使用基于注意力的双向长短期记忆网络Att-Bi-LSTM来捕捉句子中最重要的语义信息。对于预测阶段的新闻匹配,粒度网络提取的短语信息的重要性不同,重要性低的短语信息可能是噪声;因此,MnRec模型包含了双LSTM之后的表征注意机制,通过对新闻的每个单词加权聚合得到新闻向量表示;候选新闻向量表示的计算公式如下:
cbl=Bi-LSTM(cmult)
α=softmax(wT tanh(cbl))
crep=cblαT
同样,对dmult执行同样的操作得到用户历史点击新闻向量表示drep
步骤4、基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得含有不同粒度大小的用户兴趣表示;
用户的兴趣是多层次、多粒度的,对用户兴趣进行分层建模有助于提高最终的推荐预测,所以本发明构建了一个层次化的兴趣树RTCN,以层次化的方式在多个粒度上捕捉用户的兴趣。
RTCN使用三层结构,对用户浏览的新闻序列应用不同的膨胀率进行扩张卷积,由于膨胀率的不同,每组卷积窗提取的新闻特征表示粒度不同;这种方法使模型能够捕捉不同粒度的用户兴趣;用r0表示用户历史点击的新闻集合,其中r0=[drep1,…,drepN](N是用户历史点击的新闻序列的长度),drepN表示用户历史点击的第N个新闻表示。RTCN分层兴趣树的计算方法如下:
Figure BDA0003753037860000101
其中,δ是膨胀率,Fw表示卷积核,2w+1是其窗口大小,b是可学习的参数。ReLU是激活函数。每个卷积层的输入是前一层的输出。
所以,通过层次化的兴趣树RTCN,获得多粒度用户新闻向量表示,具体步骤为:
每层获得的用户新闻点击向量集表示为rl=[dl rep1,…,dl repN],其中l表示层数。
为了丰富用户兴趣信息,将不同层次的用户新闻向量集表示进行拼接得到r=[r0,…,rl];
将注意力机制应用于拼接向量,以获得最终的多粒度用户兴趣表示u.公式如下:
Figure BDA0003753037860000111
Figure BDA0003753037860000112
其中W、b是参数,q表示注意力查询向量。
步骤5、联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
基于候选新闻的匹配得分来预测用户浏览候选新闻的概率。候选新闻的匹配得分首先由该新闻和用户表示向量的内积计算,公式如下:
Figure BDA0003753037860000113
新闻推荐中一个常见的观察是,大多数用户通常只点击曝光序列中显示的几条新闻,因此,正面和负面(同一曝光序列中,用户未点击的)新闻样本的数量是高度不平衡的。在模型训练过程中,通过联合预测点击评分k+1新闻来应用负采样技术。k+1新闻由一个用户的正样本和随机选择的一个用户的负样本组成,然后共同预测正面新闻
Figure BDA0003753037860000114
和K个负面新闻
Figure BDA0003753037860000121
将新闻点击预测问题公式化为伪K+1路分类任务;使用softmax对这些点击概率分数进行归一化,以计算正样本的后向点击概率,如下所示:
Figure BDA0003753037860000122
其中,y+表示第i条正面新闻的点击概率得分,yj -表示与第i条正面新闻处于同一时段的第j条负面新闻的点击概率得分;模型训练方法中的损失函数L是所有正样本负对数似然,具体如下:
Figure BDA0003753037860000123
其中s是正训练样本的集合。
实施例二
本实施例公开了一种融合多粒度信息的新闻推荐系统;
如图3所示,一种融合多粒度信息的新闻推荐系统,包括新闻编码模块、多粒度提取模块、新闻向量构建模块、兴趣分层提取模块和概率预测模块;
新闻编码模块,被配置为:获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
多粒度提取模块,被配置为:基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
新闻向量构建模块,被配置为:将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到候选新闻向量表示和用户历史点击新闻向量表示;
兴趣分层提取模块,被配置为:基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得多粒度用户兴趣表示;
概率预测模块,被配置为:联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例1所述的一种融合多粒度信息的新闻推荐方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例1所述的一种融合多粒度信息的新闻推荐方法中的步骤。
本领域内的技术人员应明白,本公开的实施例可提供为方法、系统、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
上述虽然结合附图对本公开的具体实施方式进行了描述,但并非对本公开保护范围的限制,所属领域技术人员应该明白,在本公开的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本公开的保护范围以内。

Claims (10)

1.一种融合多粒度信息的新闻推荐方法,其特征在于,包括:
获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到候选新闻向量表示和用户历史点击新闻向量表示;
基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得多粒度用户兴趣表示;
联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
2.如权利要求1所述的一种融合多粒度信息的新闻推荐方法,其特征在于,所述新闻编码的具体步骤为:
获取新闻的标题;
使用预先训练好的Glove嵌入对标题进行词嵌入;
通过词嵌入查找表对新闻标题中的单词进行编码,得到单词向量形式的新闻表示。
3.如权利要求1所述的一种融合多粒度信息的新闻推荐方法,其特征在于,所述加权聚合的具体步骤为:
生成候选新闻表示和用户历史点击新闻表示之间的相似度矩阵;
基于相似度矩阵,计算候选新闻表示每个单词的注意力权重;
对候选新闻表示进行注意力加权聚合,得到加权候选新闻表示。
4.如权利要求1所述的一种融合多粒度信息的新闻推荐方法,其特征在于,所述用不同的卷积窗对新闻表示进行分组卷积,具体步骤:
对新闻表示进行信息提取和降维;
进行粒度信息提取和维度扩展;
结合提取的所有粒度信息,得到多粒度特征。
5.如权利要求1所述的一种融合多粒度信息的新闻推荐方法,其特征在于,通过层次化的兴趣树RTCN,获得多粒度用户兴趣表示,具体步骤为:
提取不同层次的用户历史点击新闻向量表示;
将不同层次的用户历史点击新闻向量表示进行拼接;
将注意力机制应用于拼接向量。
6.如权利要求1所述的一种融合多粒度信息的新闻推荐方法,其特征在于,所述预测用户浏览每个候选新闻的概率,计算候选新闻和用户的匹配分数。
7.如权利要求6所述的一种融合多粒度信息的新闻推荐方法,其特征在于,所述候选新闻和用户的匹配分数为所述多粒度用户兴趣表示和候选新闻向量表示的内积。
8.一种融合多粒度信息的新闻推荐系统,其特征在于:包括新闻编码模块、多粒度提取模块、新闻向量构建模块、兴趣分层提取模块和概率预测模块;
新闻编码模块,被配置为:获取候选新闻和用户历史点击新闻,分别进行新闻编码,得到候选新闻表示和用户历史点击新闻表示;对候选新闻表示进行加权聚合,得到加权候选新闻表示;
多粒度提取模块,被配置为:基于加权候选新闻表示和用户历史点击新闻表示,用不同的卷积窗对新闻表示进行分组卷积,分别提取多粒度特征;
新闻向量构建模块,被配置为:将候选新闻和历史点击新闻的多粒度特征分别输入到基于注意力的双向长短期记忆网络中,得到候选新闻向量表示和用户历史点击新闻向量表示;
兴趣分层提取模块,被配置为:基于用户历史点击新闻向量表示,以层次化的方式进行不同膨胀率的扩张卷积,获得多粒度用户兴趣表示;
概率预测模块,被配置为:联合多粒度用户兴趣表示和候选新闻向量表示,预测用户浏览每个候选新闻的概率,基于预测概率向用户推荐候选新闻。
9.计算机可读存储介质,其上存储有程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一项所述的一种融合多粒度信息的新闻推荐方法中的步骤。
10.电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7任一项所述的一种融合多粒度信息的新闻推荐方法中的步骤。
CN202210846466.8A 2022-07-19 2022-07-19 一种融合多粒度信息的新闻推荐方法及系统 Pending CN115168724A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210846466.8A CN115168724A (zh) 2022-07-19 2022-07-19 一种融合多粒度信息的新闻推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210846466.8A CN115168724A (zh) 2022-07-19 2022-07-19 一种融合多粒度信息的新闻推荐方法及系统

Publications (1)

Publication Number Publication Date
CN115168724A true CN115168724A (zh) 2022-10-11

Family

ID=83496019

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210846466.8A Pending CN115168724A (zh) 2022-07-19 2022-07-19 一种融合多粒度信息的新闻推荐方法及系统

Country Status (1)

Country Link
CN (1) CN115168724A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648496A (zh) * 2024-01-25 2024-03-05 云南日报报业集团 新闻推荐方法及计算机可读存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117648496A (zh) * 2024-01-25 2024-03-05 云南日报报业集团 新闻推荐方法及计算机可读存储介质

Similar Documents

Publication Publication Date Title
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN109829104B (zh) 基于语义相似度的伪相关反馈模型信息检索方法及系统
CN108932342A (zh) 一种语义匹配的方法、模型的学习方法及服务器
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
CN108363790A (zh) 用于对评论进行评估的方法、装置、设备和存储介质
CN112948708B (zh) 一种短视频推荐方法
CN111444320A (zh) 文本检索方法、装置、计算机设备和存储介质
EP3155540A1 (en) Modeling interestingness with deep neural networks
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN111078833B (zh) 一种基于神经网络的文本分类方法
CN106202294B (zh) 基于关键词和主题模型融合的相关新闻计算方法及装置
CN109388743B (zh) 语言模型的确定方法和装置
CN110991290B (zh) 基于语义指导与记忆机制的视频描述方法
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN110879938A (zh) 文本情感分类方法、装置、设备和存储介质
Tamkin et al. Dabs: A domain-agnostic benchmark for self-supervised learning
CN108536735B (zh) 基于多通道自编码器的多模态词汇表示方法与系统
CN112464100B (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
CN111985243B (zh) 情感模型的训练方法、情感分析方法、装置及存储介质
CN114201683A (zh) 一种基于多级匹配的兴趣激活新闻推荐方法及系统
CN115048586B (zh) 一种融合多特征的新闻推荐方法及系统
CN113326374A (zh) 基于特征增强的短文本情感分类方法及系统
CN116975271A (zh) 文本相关性的确定方法、装置、计算机设备和存储介质
CN115098786A (zh) 一种基于门控多头自我关注的新闻推荐方法及系统
CN115168724A (zh) 一种融合多粒度信息的新闻推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination