CN115481236A - 一种基于用户兴趣建模的新闻推荐方法 - Google Patents

一种基于用户兴趣建模的新闻推荐方法 Download PDF

Info

Publication number
CN115481236A
CN115481236A CN202211053861.7A CN202211053861A CN115481236A CN 115481236 A CN115481236 A CN 115481236A CN 202211053861 A CN202211053861 A CN 202211053861A CN 115481236 A CN115481236 A CN 115481236A
Authority
CN
China
Prior art keywords
news
user
interest
recommendation
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211053861.7A
Other languages
English (en)
Inventor
许毅
赵太银
解修蕊
罗光春
赵航
张博闻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202211053861.7A priority Critical patent/CN115481236A/zh
Publication of CN115481236A publication Critical patent/CN115481236A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于用户兴趣建模的个性化新闻推荐方法,包括步骤:获得新闻文本数据,将文本数据进行预处理,删除停用词,向量化等操作;将向量化的新闻数据输送到文本特征提取器进行特征抽取,获得新闻特征;构建基于用户兴趣的新闻推荐模型,结合残差图卷积网络模块与用户热兴趣模块,输出用户点击概率;模型训练,模型训练基于交叉熵损失函数进行训练;对输入的一系列候选新闻的点击预测概率进行排序,输出设定好的前K篇新闻作为推荐结果。本发明用于用户个性化的新闻推荐,能有效提升推荐有效性。

Description

一种基于用户兴趣建模的新闻推荐方法
技术领域
本发明涉及新闻推荐领域,具体涉及一种基于用户阅读偏好的深度学习新闻推荐方法。
背景技术
个性化推荐系统利用用户的行为(如搜索历史记录、阅读记录等)为该用户生成推荐列表。传统的新闻推挤方法大抵可分为基于内容的过滤方法和基于协同过滤的方法。两类方法虽然可以在一定程度上实现新闻推荐的功能,但是这两类方法都存在一定的缺陷,实际推荐效果不佳,难以满足实际使用需求。
基于内容的算法在最初是最流行、最高效的方法,因此在任何推荐系统开始时被广泛应用。在基于内容过滤的推荐方法中,通过分析用户过去感兴趣的新闻的属性,推荐用户某些未读过的新闻。这些系统不关心用户对这些项目的评分。在基于内容的算法中,相似度计算方法直接影响推荐结果的准确性。有几种被广泛使用的相似性计算方法:①欧几里德距离:通过计算两个向量中每个元素的平方距离之和来衡量两个向量之间相似性的最常用方法之一。②余弦:该方法的主要思想是通过计算两个向量之间的夹角余弦来测量两个向量。③Pearson:Pearson相关系数反映两个向量之间的线性相关程度。④Jaccard:Jaccard相似度通常用于比较两个有限样本集之间的相似性和差异。与其他协同过滤系统相比,基于内容的推荐系统有很多好处,例如:用户独立性、透明度、冷启动问题时的新项目。但是基于内容的方法还存在一些不足之处,如分析内容有限、过于专业化或缺乏新用户的评分数据,以及对某些特定问题的准确性不够。
在协同过滤方法中,用户对新闻的评价会被考虑在内以做出建议。具有相似评价的用户称为邻居,用于预测未评分新闻项的评分。基于协同过滤的推荐方法准确性依赖于不同算法(如SVM、朴素贝叶斯、决策树、聚类等)开发的有效建模。然而,在实际场景中,许多商业推荐系统中使用的数据集非常稀疏,因为用户通常不会对每个项目进行评分,而是只对少数项目进行评分。
近年来,以用户-新闻交互为基础构建的图神经网络模型将用户与新闻建模为二部图结构,以新闻嵌入更新用户兴趣,并依此计算候选新闻与用户兴趣的相似度来预测用户的点击偏好,此类模型在新闻推荐任务上取得了优秀的效果,但仍不适用于稀疏环境。
发明内容
本发明所要解决的技术问题是,针对在交互数据集中于少数新闻的稀疏环境中,仅使用交互行为构建的模型相在稀疏环境中存在严重的准确性问题,提供一种能解决现有基于协同过滤和基于内容的新闻推荐方法受限于数据集数据分布不均且稀疏造成的冷启动问题的基于用户兴趣的深度学习新闻推荐方法。
本发明为解决上述技术问题所采用的技术方案是,一种基于用户兴趣建模的新闻推荐方法,包括以下步骤:
步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;用于训练的新闻数据集中,用户与新闻之间存在交互则标记为正样本,表示用户阅读过该新闻,否则标记为负样本;
步骤2、新闻推荐模型的构建与训练:
利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练,当满足预置的停止训练条件时,得到训练好的新闻推荐网络模型;
所述新闻推荐网络模型用于,输出用户点击候选新闻的概率,包括特征提取模块、残差图卷积网络GCN、用户热兴趣模块和全连接神经网络;特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征;残差GCN用于接收新闻文本特征输出新闻嵌入以及用户长期兴趣特征;用户热兴趣模块用于接收用户近期点击序列特征输出用户热兴趣特征;全连接神经网络用于将用户长期兴趣特征与用户热兴趣特征进行结合,结合后的结果作为用户的最终兴趣表示;
步骤3、新闻推荐模型输出用户点击的预测结果:
对于给定的用户和候选新闻,基于预设的输入数据格式,对候选新闻进行筛选和预处理得到新闻数据,将新闻数据输入完成训练的新闻推荐模型,新闻推荐模型输出用户的最终兴趣表示以及新闻嵌入,将用户的最终兴趣表示作为用户嵌入,利用用户嵌入与新闻嵌入计算得到用户点击候选新闻的概率值;最后根据所述概率值再选择候选新闻推荐给用户。
本发明的有益效果是,从用户兴趣出发,针对个性化新闻推荐任务,有效利用新闻文本特征信息以及用户-新闻交互过程中产生的用户兴趣表示,从而弥补了现有方法仅利用交互记录的不足,提高新闻推荐准确度,最终实现针对用户的个性化新闻推荐;通过用户热兴趣的提取对用户特征进行补充,进一步提升新闻推荐的性能。
附图说明
图1为本发明的个性化新闻推荐原理图;
图2为本发明的模型总体结构图;
图3为本发明的训练过程示意图。
具体实施方式
深度学习新闻推荐方法基于构造的新闻推荐网络模型实现,新闻推荐网络模型用于点击预测,输出用户点击候选新闻的概率。基于用户兴趣建模的新闻推荐网络模型的设计思想为:通过利用新闻文本长度以及用户停留时间,计算该新闻对用户兴趣的影响权重,然后通过新闻特征与对应权重值相乘,并对特征向量进行组合的方式得到出基于新闻特征的用户兴趣向量。
构建基于用户兴趣建模的新闻推荐网络模型包括特征提取模块、基于用户-新闻交互的残差图卷积网络GCN(Graph Convolutional Networks)、基于用户近期阅读兴趣的用户热兴趣模块和全连接神经网络。
特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征,用户近期点击序列特征输入至用户热兴趣模块,新闻文本特征输入至残差GCN。残差GCN用于根据用户与新闻的交互关系,即用户的新闻阅读历史记录以及新闻特征向量来捕获用户长期稳定的兴趣特征,此外,对残差GCN中的新闻通过主题抽取的方式根据主题类别进行聚类,一定程度上可缓解部分新闻因缺少交互导致的数据稀疏问题。
残差GCN输出的特征向量作为长期兴趣特征会和从用户热兴趣模块中计算得到的用户热兴趣特征通过全连接神经网络进行结合,全连接神经网络输出这两个特征向量结合后的结果作为用户的最终兴趣表示参与后续的新闻点击预测计算。
具体实施步骤如下:
步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;
根据需要,实施例采用在真实世界的在线新闻数据集Adressa进行实验。具体来说,模型训练选择具有十周时间跨度的新闻点击日志Adressa-10week,这是一个新闻点击日志数据集。实验初期主要依据用户-新闻交互以及新闻属性信息进行网络模型构建。用于训练的新闻数据集中,用户与新闻之间存在交互则标记为正样本,表示用户阅读过该新闻,如果标记为负样本,则该新闻对于用户来说是未曾见过的。
步骤2、新闻推荐模型训练:
利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练,当满足预置的停止训练条件时,得到训练好的新闻推荐网络模型;
步骤3、基于用户兴趣的新闻推荐模型输出用户点击的预测结果:
对于给定的用户和候选新闻,基于预设的输入数据格式,对候选新闻进行筛选和预处理得到新闻数据,将新闻数据输入至新闻文本特征提取器,提取出候选新闻的文本特征作为图卷积网络的输入。
残差GCN接收由新闻文本特征提取器抽取到的新闻特征向量,计算出用户长期稳定的兴趣特征。长期兴趣特征还作为调整候选新闻数据的输入。用户热兴趣模块接收点击序列特征提取器由用户近期的新闻阅读记录抽取得到点击序列特征,计算并输出用户热兴趣向量。
最后,全连接神经网络结合用户长期兴趣和用户热兴趣得到最终兴趣表示,最终兴趣表示作为用户嵌入与作为新闻嵌入的候选新闻数据通过一层深度神经网络计算得出点击概率,进行点击预测。
具体的,从Adressa-10week数据集中筛选后得到的新闻数据,其摘要文本部分包含新闻内容中的主要相关实体以及对应的实体类型。
参见图1,对于给定的用户以及候选新闻,通过下列步骤对该用户是否会点击候选新闻进行预测:
步骤S1对数据集中数据进行筛选,选择阅读会话事件开始与结束的时间、用户id、新闻id、时间戳、新闻标题和新闻概要,新闻文章长度来构建数据集。同时,使用该数据集中前八周的交互数据来进行图的构建,第九周的数据用来生成训练数据,最后一周数据的20%用于验证实验,80%用于测试。
构造出的一条用户数据对应一个由新闻id组成的新闻序列向量,而一条新闻数据则包含着由阅读会话事件开始与结束的时间计算得出的用户停留时间,新闻标题单词序列,新闻概要实体的单词序列以及新闻正文的单词数几个部分。
步骤S2根据预设的规则对输入的新闻数据进行预处理:
首先是过滤停用词,即对于无有效语义的停用词进行过滤,例如“吧”、“呢”等。去除停用词使训练数据的冗余度降低,同时过滤掉新闻简介中无意义的实体和实体类型,如情感、地点以及首字母缩略词等;接着对这些处理后得到的语料进行编码转换,采用独热编码的方式将单词初步转换为向量模式;最后将新闻文本向量作为输出的预处理后的新闻数据。
步骤S3通过文本特征提取器CNN计算获向量形式的新闻特征向量,新闻特征向量一方面会作为新闻嵌入的候选新闻数据参与到最后的点击概率预测中,另一方面将输出至残差GCN;
文本特征提取器的训练以步骤201所得的新闻文本向量作为输入数据,训练文本特征提取器。该特征提取器是一个基于两个平行卷积神经网络(Convolution NeuralNetwork,CNN)的网络模块,分别以新闻的标题和简介的向量为输入,学习新闻的标题级和简介级表示。这两种表征的串联被视为新闻的最终特征表征。文本特征提取器使用两个CNN并行处理标题嵌入T和概要嵌入G,CNN具有单独的权重参数。文本特征提取器中的每个CNN由一个卷积层和一个最大池化层组成。由于卷积层需要固定长度的输入,因此需要在原始输入的末尾用特殊符号填充长度小于10的所有标题输入以及长度小于80的概要文档输入。单词嵌入和实体类型嵌入的维度均设置为K=50,新闻嵌入、用户嵌入和主题嵌入的维度均设置为D=128。
步骤S4新闻推荐模型的残差GCN接收步骤S3得到的新闻特征向量输出新闻嵌入以及用户长期稳定的兴趣特征。用户热兴趣模块接收点击序列特征提取器由用户近期的新闻阅读记录抽取得到点击序列特征,计算并输出用户热兴趣向量。全连接神经网络结合用户长期兴趣和用户热兴趣得到最终兴趣表示,最终兴趣表示作为用户嵌入与作为新闻嵌入通过一层深度神经网络计算得出用户点击候选新闻的概率值;
步骤S5基于步骤S4得到的概率值,对一系列的候选新闻进行比较与排序,最终选择排名靠前的K篇新闻推荐给用户。
本具体实施方式中,基于用户兴趣的个性化新闻推荐模型方法包含训练和预测两部分,训练部分主要是获得训练好的(即训练完善的)新闻推荐模型,其中步骤S2中,通过所设置的文本特征提取器获得新闻文本特征,该文本特征提取器由训练部分获得;获得训练完善的新闻推荐模型后,输入需要预测的候选新闻序列,即可得到用户对候选新闻的点击概率预测以及新闻推荐结果。预测部分即基于所训练好的新闻推荐模型执行上述步骤S2-S5。
训练时,采用基于绝对误差的损失函数和Adam优化器。文本特征提取器训练完成后,输入任意新闻文本的独热码向量,取其输出向量作为新闻文本特征向量,以作后续两个模块神经网络模型的输入。残差GCN模块的输入为文本特征提取器处理的全体新闻的文本特征以及用户-新闻的交互关系。用户热兴趣模块的输入为文本特征提取器处理的用户近期点击的新闻序列文本特征。
本领域的技术人员可以理解,新闻推荐模型构建过程如下:
假设存在S个用户U={u1,u2,…,uS}对Q个新闻项I={d1,d2,…,dQ}的点击历史记录。用户与新闻的交互矩阵Y∈RS×Q是根据用户的隐性反馈定义的,其中yu,d=1表示用户u点击了新闻d,否则yu,d=0。此外,从最近的点击历史中,可以获得用户u的近期一段时间的点击序列su={du,1,du,2,…,du,n},其中du,j∈I是用户u近期点击的第j条新闻。此外,对于每篇新闻d来说,可以通过LDA模型获得其主题分布Td={Td,i},i=1,2…,k,
Figure BDA0003824274730000061
其中Td,i表示新闻d属于第i项主题的概率,然后选择最大概率的主题类别来建立新闻d和主题z之间的关联。
本实施例中,使用Python语言构建新闻推荐模型,模型分为特征提取模块,残差GCN模块和用户热兴趣模块三个部分。模型将新闻的标题和概要作为特征进行输入,每个新闻标题T包含一系列单词T=[w1,w2,..,wm]。新闻概要包含一系列实体E={e1,e2,…,en}及其类型C={c1,c2,…,cn},其中cj是第j个实体ej的类型。
在新闻信息抽取阶段,将标题表示T=[w1,w2,..,wm]T与概要表示G=[e1,f(c1),e2,f(c2),…,en,f(cn)]T分别输入至特征提取模块的两个并行CNN中对应一个。f(cj)=Wccj是变换函数,
Figure BDA0003824274730000062
是可训练的矩阵,k1是实体嵌入维度,k2是实体类型嵌入维度。两个CNN的分别输出
Figure BDA0003824274730000063
Figure BDA0003824274730000064
连接起来作为最终的新闻文本特征表示d:
Figure BDA0003824274730000071
上式中d∈RD,D是文本嵌入维度,fc是一个密接层,将
Figure BDA0003824274730000072
Figure BDA0003824274730000073
连接起来作为新闻文本特征的最终表达。
残差GCN模块通过计算其所有采样邻域的线性平均组合的方式来计算新闻文本特征表示d从邻居接收的嵌入:
Figure BDA0003824274730000074
上式中N(d)表示对于以新闻文本特征表示d为新闻嵌入节点来说统一采样固定大小20个邻居节点。u与z是与新闻嵌入节点d关联用户和新闻主题的特征向量。u和z在训练时进行随机初始化,而新闻嵌入节点d是用从上文中提到的文本信息提取器获得的特征嵌入进行初始化的。Wu∈RD×D和Wz∈RD×D分别是用户和主题的可训练权重矩阵。新闻嵌入的更新
Figure BDA0003824274730000075
计算如下:
Figure BDA0003824274730000076
上式中σ1与σ2是非线性激活函数ReLU,Wi∈RD×D和bi∈RD×D分别是GCN第i层的权重矩阵和偏差,X表示初始输入的节点向量作为残差项参与节点更新。最终计算出候选新闻嵌入
Figure BDA0003824274730000077
针对用户长期兴趣特征ul,类似的,通过用户的邻居新闻节点聚合而来。但需要考虑不同新闻对用户兴趣的影响权重,这里采用一个用户阅读速度指标v来表示用户对某新闻感兴趣的程度,v=dlen/t。dlen为新闻单词数,t为用户停留时间。同时,对这些阅读速度进行归一化得到ν′,然后与对应的新闻特征相乘,最后将这些特征相加得到用户长期兴趣特征ul,计算如下:
Figure BDA0003824274730000078
其中,di和ν′i表示对应用户点击记录中第i项的新闻特征和归一化后的阅读速度。
针对用户热兴趣模块,该模块接受经特征提取模块处理的用户近期点击序列特征。本发明采用Transformer网络对用户短期的交互序列进行嵌入,Transformer网络因其特性在嵌入中考虑了新闻项之间的顺序关系。此外,基于注意力机制的神经网络模型也可以通过注意力引导模型关注那些对用户的最终选择影响较大的特征。假设用户u的最新点击的l条新闻{d1,d2,…,dl},使用多头注意机制来建模用户最近点击的新闻对候选新闻d的不同影响,计算用户热兴趣嵌入us
Figure BDA0003824274730000079
其中uc是用户当前的内容级兴趣嵌入,αj是用户点击新闻dj(j=1,…,l)对候选新闻d的影响权重。将长期用户嵌入向量ul和短期用户嵌入向量us的串联后通过一个全连接网络变换为K=50维,计算得到最终用户嵌入u=W[ul;us]。最后将用户嵌入u与候选新闻嵌入
Figure BDA0003824274730000081
进行比较,通过余弦相似性计算
Figure BDA0003824274730000082
来进行用户u点击新闻d的概率预测:
Figure BDA0003824274730000083
模型结构如图2所示,新闻推荐模型由文本特征提取模块,残差GCN模块和用户热兴趣模块构成。
其中,文本特征提取模块首先通过文本特征提取器将步骤1所得的新闻文本向量转换为文本特征向量(即通过文本特征提取器将新闻文本中的每个文本词向量转换为文本特征向量),图2中的CNN部分即为文本特征提取器。该模块利用两个平行的CNN分别提取新闻的标题和概要特征,然后将两部分特征拼接起来作为基础的新闻特征供后续模块使用。
残差GCN模块由基于GCN的图网络模块组成,GCN模块堆叠3层GCN网络,用于提取用户长期兴趣特征以及新闻特征。
用户热兴趣模块由基于Transformer的序列模型组成,Transformer由6个基础的编码器和解码器组成,用于从近期行为序列中提取用户短期兴趣特征。
本领域的技术人员可以理解,新闻推荐模型训练的具体参数设计过程如下:
1)模型训练过程如图3所示。选定的用户近期点击新闻数设置为10。对于LDA,主题数设置为20。在GCN中,节点采样固定数量的相邻用户与相邻新闻文档,其中用户采样节点和新闻采样节点数量设置为10和30。训练数据(即训练用的网络话题所对应的融合向量时间序列)采用256的批大小,每一次训练,计算模型的损失函数值,基于损失函数值,使用Adam优化算法调整模型参数,当本次损失函数值高于前次损失函数值时,模型训练终止。使用平均值为0、标准偏差为0.1的高斯分布随机初始化用户与主题的嵌入。采用Adam算法对参数进行优化,学习率为0.0001。L2正则系数设置为0.005,dropout设置为0.5。
为了训练本发明中的模型,从现有的点击阅读历史中选择正样本,从未出现的点击行为中选择等量的负样本。训练样本表示为X=(u,x,y),其中x是y用来预测的是否会被点击的候选新闻,y是预测的点击概率。每个正样本y=1,每个负样本y=0。每个输入样本都有各自的估计概率
Figure BDA0003824274730000084
用以表示用户是否会点击新闻x。本申请中对新闻推荐模型训练时所采用的损失函数为交叉熵损失函数,损失函数计算如下;
Figure BDA0003824274730000091
上式中δ+表示正样本数据集,δ-是负样本数据集,||W||2为网络中所有可训练参数的L2正则化,λ是惩罚系数。
2)排序推荐。
新闻推荐模型输出用户点击输入模型的一系列候选新闻的概率P={p1,p2,…,pl},基于此概率分数对这些候选新闻进行排序,选择排名靠前的K篇候选新闻作为推荐结果展示给用户,K可为大于1小于候选新闻序列长度的整数。
以上所述,仅为本发明的具体实施方式,本说明书中所公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换;所公开的所有特征、或所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以任何方式组合。

Claims (3)

1.一种基于用户兴趣建模的新闻推荐方法,其特征在于,包括以下步骤:
步骤1、根据所需的新闻属性信息进行预处理得到新闻数据构造新闻数据集;用于训练的新闻数据集中,用户与新闻之间存在交互则标记为正样本,表示用户阅读过该新闻,否则标记为负样本;
步骤2、新闻推荐模型的构建与训练:
利用新闻数据集中的训练数据对所述新闻推荐模型进行深度学习训练,当满足预置的停止训练条件时,得到训练好的新闻推荐网络模型;
所述新闻推荐网络模型用于,输出用户点击候选新闻的概率,包括特征提取模块、残差图卷积网络GCN、用户热兴趣模块和全连接神经网络;特征提取模块包括点击序列特征提取器和新闻文本特征提取器,分别用于提取用户近期点击序列特征和新闻文本特征;残差GCN用于接收新闻文本特征输出新闻嵌入以及用户长期兴趣特征;用户热兴趣模块用于接收用户近期点击序列特征输出用户热兴趣特征;全连接神经网络用于将用户长期兴趣特征与用户热兴趣特征进行结合,结合后的结果作为用户的最终兴趣表示;
步骤3、新闻推荐模型输出用户点击的预测结果:
对于给定的用户和候选新闻,基于预设的输入数据格式,对候选新闻进行筛选和预处理得到新闻数据,将新闻数据输入完成训练的新闻推荐模型,新闻推荐模型输出用户的最终兴趣表示以及新闻嵌入,将用户的最终兴趣表示作为用户嵌入,利用用户嵌入与新闻嵌入计算得到用户点击候选新闻的概率值;最后根据所述概率值再选择候选新闻推荐给用户。
2.如权利要求1所述方法,其特征在于,所述预处理包括过滤停用词以及新闻简介中无意义的实体和实体类型,再对过滤处理后得到的语料进行编码转换,采用独热编码的方式将单词初步转换为向量模式,最后将新闻文本向量作为预处理后的新闻数据。
3.如权利要求1所述方法,其特征在于,所述新闻数据包含由阅读会话事件开始与结束的时间计算得出的用户停留时间、新闻标题单词序列、新闻概要实体的单词序列以及新闻正文的单词。
CN202211053861.7A 2022-08-31 2022-08-31 一种基于用户兴趣建模的新闻推荐方法 Pending CN115481236A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211053861.7A CN115481236A (zh) 2022-08-31 2022-08-31 一种基于用户兴趣建模的新闻推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211053861.7A CN115481236A (zh) 2022-08-31 2022-08-31 一种基于用户兴趣建模的新闻推荐方法

Publications (1)

Publication Number Publication Date
CN115481236A true CN115481236A (zh) 2022-12-16

Family

ID=84420883

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211053861.7A Pending CN115481236A (zh) 2022-08-31 2022-08-31 一种基于用户兴趣建模的新闻推荐方法

Country Status (1)

Country Link
CN (1) CN115481236A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029357A (zh) * 2023-03-29 2023-04-28 荣耀终端有限公司 训练样本生成、模型训练、点击率评估方法及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116029357A (zh) * 2023-03-29 2023-04-28 荣耀终端有限公司 训练样本生成、模型训练、点击率评估方法及电子设备
CN116029357B (zh) * 2023-03-29 2023-08-15 荣耀终端有限公司 训练样本生成、模型训练、点击率评估方法及电子设备

Similar Documents

Publication Publication Date Title
CN113239181A (zh) 基于深度学习的科技文献引文推荐方法
Shi et al. Deep adaptively-enhanced hashing with discriminative similarity guidance for unsupervised cross-modal retrieval
CN110287323B (zh) 一种面向目标的情感分类方法
CN111079409B (zh) 一种利用上下文和方面记忆信息的情感分类方法
CN109597493B (zh) 一种表情推荐方法及装置
CN112328900A (zh) 一种融合评分矩阵和评论文本的深度学习推荐方法
CN112131350A (zh) 文本标签确定方法、装置、终端及可读存储介质
CN110751188B (zh) 基于多标记学习的用户标签预测方法、系统及存储介质
CN110807324A (zh) 一种基于IDCNN-crf与知识图谱的影视实体识别方法
CN112016002A (zh) 融合评论文本层级注意力和时间因素的混合推荐方法
CN116450796A (zh) 一种智能问答模型构建方法及设备
Zhiyuli et al. Bookgpt: A general framework for book recommendation empowered by large language model
CN115630145A (zh) 一种基于多粒度情感的对话推荐方法及系统
CN116431919A (zh) 基于用户意图特征的智能新闻推荐方法和系统
CN115982467A (zh) 一种去偏化用户多兴趣推荐方法、装置及存储介质
CN115934951A (zh) 一种网络热点话题用户情绪预测方法
CN113934835B (zh) 结合关键词和语义理解表征的检索式回复对话方法及系统
CN115618101A (zh) 基于负反馈的流媒体内容推荐方法、装置及电子设备
CN115481236A (zh) 一种基于用户兴趣建模的新闻推荐方法
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
CN114020900A (zh) 基于融合空间位置注意力机制的图表英语摘要生成方法
CN113516094A (zh) 一种用于为文档匹配评议专家的系统以及方法
CN110415081B (zh) 一种基于内容的用户个性化产品的匹配推荐方法
CN111914084A (zh) 一种基于深度学习的带有情感标签文本生成及评估系统
CN115408605A (zh) 基于边信息和注意力机制的神经网络推荐方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination