CN115048586A - 一种融合多特征的新闻推荐方法及系统 - Google Patents

一种融合多特征的新闻推荐方法及系统 Download PDF

Info

Publication number
CN115048586A
CN115048586A CN202210958119.4A CN202210958119A CN115048586A CN 115048586 A CN115048586 A CN 115048586A CN 202210958119 A CN202210958119 A CN 202210958119A CN 115048586 A CN115048586 A CN 115048586A
Authority
CN
China
Prior art keywords
news
vector
user
obtaining
characterization
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210958119.4A
Other languages
English (en)
Other versions
CN115048586B (zh
Inventor
郑海利
陈平华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202210958119.4A priority Critical patent/CN115048586B/zh
Publication of CN115048586A publication Critical patent/CN115048586A/zh
Application granted granted Critical
Publication of CN115048586B publication Critical patent/CN115048586B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供了一种融合多特征的新闻推荐方法及系统,分别获取候选新闻特征信息和历史点击新闻特征信息;基于所述候选新闻特征信息,获得候选新闻表征向量;基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;基于所述历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量;基于所述候选新闻表征向量和所述用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。本发明充分利用新闻中的特征信息,形成更准确和全面的新闻表征,有效结合发生行为的上下文特征信息以及用户真实的行为特征信息,挖掘用户对新闻的喜好程度,建立更准确的兴趣模型。

Description

一种融合多特征的新闻推荐方法及系统
技术领域
本发明属于计算机应用技术领域,尤其涉及一种融合多特征的新闻推荐方法及系统。
背景技术
随着科技的迅速发展和广泛应用互联网信息技术,互联网已逐渐成为人们获取信息的重要渠道。世界上每天都有数以亿计的网络信息出现,人们从信息时代“客户时代”逐步进入信息超载时代。面对如此巨大的信息量,互联网用户往往无法快速有效地获取他们所需要的真正有价值的信息。个性化新闻推荐技术是一个帮助用户快速找到他们最有可能感兴趣的信息的工具,研究如何处理海量的异构新闻数据,构建最优的用户偏好模型,提高新闻个性化推荐的整体性能,能够帮助用户有效缓解信息过载,帮助平台增强用户的黏着性,实现双方的共赢。
新闻内容作为用户兴趣的反映,包含丰富的信息。比如用户即使点击新闻的内容不同,也可能属于一个类别,占多数的类别反映了用户的长期兴趣;新闻的关键词或者标签也可能直接反映用户的兴趣点。因此,充分利用新闻的特征信息是有效的。然而,现有的方法大多只考虑了标题和内容,很难学习到准确的新闻表征。
对用户的建模大多是基于静态的用户画像和最近的用户行为,假定每一个点击序列都能刻画用户的兴趣,但是在新闻推荐中,新闻具有很强的时效性,间隔很久浏览的新闻对当前用户的兴趣影响较小;用户的兴趣点常常发生漂移,兴趣跨度比较大,可能用户点击了热点新闻或者仅仅被标题吸引而不真正的对内容感兴趣。当前的方法没有很好的结合用户行为的特征信息建模用户的兴趣模型,模拟和理解真实的点击情况,导致对用户的推荐结果不够准确。
发明内容
为解决上述技术问题,本发明提出一种融合多特征的新闻推荐方法,该方法形成更准确的新闻表征,建立更准确的用户兴趣模型。
为实现上述目的,本发明提供了一种融合多特征的新闻推荐方法,包括如下步骤:
分别获取候选新闻特征信息和历史点击新闻特征信息;
基于所述候选新闻特征信息,获得候选新闻表征向量;
基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;
基于所述历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量;
基于所述候选新闻表征向量和所述用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
优选的,所述候选新闻特征信息和所述历史点击新闻特征信息均包括标题特征、类别特征和正文特征。
优选的,获得所述候选新闻表征向量和所述历史点击新闻表征向量的方法均包括:
将所述标题特征、所述类别特征和所述正文特征分别转换为标题向量、类别向量和正文向量;
基于注意力机制,对所述标题向量、所述类别向量和所述正文向量进行融合,获得新闻表征向量。
优选的,将所述标题特征转换为所述标题向量的方法包括:
基于自然语言处理实体识别技术,获得新闻实体关键词;
基于训练好的词嵌入向量,将所述新闻实体关键词的单词序列转换为低维词向量序列;
基于卷积神经网络,对所述低维词向量序列进行卷积运算,获得所述低维词向量序列的局部上下文特征;
对所述低维词向量序列的局部上下文特征进行最大值池化,获得整体的标题向量表示;
对所述新闻实体关键词进行注意力系数求和,获得关注实体向量;
基于所述整体的标题向量表示和所述关注实体向量,获得所述标题向量。
优选的,将所述类别特征转换为所述类别向量的方法包括:
基于查表的方式,将所述类别特征转换为低维向量;
基于所述低维向量,获得所述类别向量。
优选的,将所述正文特征转换为所述正文向量的方法包括:基于训练语料和主题模型,从所述正文向量中提取潜在的主题分布;
基于所述主题分布,获得词分布;基于所述词分布,获得所述正文向量。
优选的,基于所述历史点击新闻表征向量和所述用户行为特征向量,获得用户兴趣向量的方法包括:
基于自注意力机制,获得所述历史点击新闻表征向量之间的相关性;
基于指数衰减函数,获得时间向量;
基于阅读时间上限阈值,获得用户对历史点击新闻的停留时间向量;
基于所述时间向量和所述用户对历史点击新闻的停留时间向量,利用元素积的方式,获得所述用户行为特征向量;
基于所述历史点击新闻表征向量之间的相关性和所述用户行为特征向量,利用GRU网络,获得用户的短期兴趣;
基于用户的嵌入向量,获得用户的长期兴趣;
基于全连接层,拼接所述用户的短期兴趣和所述用户的长期兴趣,获得用户兴趣向量。
一种融合多特征的新闻推荐系统,包括获取模块、候选新闻表征模块、历史点击新闻表征模块、用户兴趣挖掘模块和新闻推荐模块;
所述获取模块用于分别获取候选新闻特征信息和历史点击新闻特征信息;
所述候选新闻表征模块用于基于所述候选新闻特征信息,获得候选新闻表征向量;
所述历史点击新闻表征模块用于基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;
所述用户兴趣挖掘模块用于基于所述历史点击新闻表征向量和所述用户行为特征向量,获得用户兴趣向量;
所述新闻推荐模块用于基于所述候选新闻表征向量和所述用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
与现有技术相比,本发明具有如下优点和技术效果:
现有技术在新闻表征阶段多由人工选取有用特征,并且没有充分利用新闻的多种特征信息。本发明技术结合新闻信息的特点,设计了一个合理的特征提取和融合方案,无需人工设计特征,并且可以附加别的特征信息,有很强的拓展性。
现有技术在用户兴趣建模阶段多采用特征交叉和记忆的方法,没有很好的利用用户的行为特征。本发明技术从用户可能的行为特点出发,考虑两种时间因素对用户兴趣的影响,是对用户时间点击情况的模拟和理解,能够更好的衡量不同新闻对用户兴趣建模的重要性。同时考虑长短期兴趣对用户感兴趣的新闻进行预测。本发明具有广阔的推广空间和使用价值。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一一种融合多特征的新闻推荐方法的流程示意图;
图2为本发明实施例二一种融合多特征的新闻推荐系统的结构示意图;
图3为本发明实施例二获得新闻表征向量的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
实施例一:
一种融合多特征的新闻推荐方法,如图1所示,具体方法包括:分别获取候选新闻特征信息和历史点击新闻特征信息;基于候选新闻特征信息,获得候选新闻表征向量;基于历史点击新闻特征信息,获得历史点击新闻表征向量;基于历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量;基于候选新闻表征向量和用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
优选的,候选新闻特征信息和历史点击新闻特征信息均包括标题特征、类别特征和正文特征。
优选的,获得候选新闻表征向量和历史点击新闻表征向量的方法均包括:
将标题特征、类别特征和正文特征分别转换为标题向量、类别向量和正文向量;基于注意力机制,对标题向量、类别向量和正文向量进行融合,获得新闻表征向量。
优选的,将标题特征转换为标题向量的方法包括:
基于自然语言处理实体识别技术,获得新闻实体关键词;基于训练好的词嵌入向量,将新闻实体关键词的单词序列转换为低维词向量序列;基于卷积神经网络,对低维词向量序列进行卷积运算,获得低维词向量序列的局部上下文特征;对低维词向量序列的局部上下文特征进行最大值池化,获得整体的标题向量表示;对新闻实体关键词进行注意力系数求和,获得关注实体向量;基于整体的标题向量表示和所述关注实体向量,获得标题向量。
对于新闻的标题特征,新闻标题本身是对内容的高度凝练,通常情况下包含实体关键词,用户大概率被陈述实体所吸引,通过自然语言处理中实体识别技术识别出新闻实体。然后通过训练好的词嵌入向量,将单词序列转换为低维词向量序列。一方面对标题向量通过CNN(卷积神经网络),使用卷积运算来捕获单词的局部上下文特征,然后再通过最大值池化每一个卷积,拼接获得整体的标题向量表示。一维卷积层是深度学习中常用的架构,通过可训练参数构成的卷积核即矩阵参数在输入的矩阵上进行滑动计算。卷积对文本的高阶特征提取是利用卷积核提取局部特征,通过滑动得到全文的各个部分的局部特征,再通过池化操作选取突出特征。反复叠加卷积、池化操作从而得到高阶局部特征。卷积核的计算是卷积核与其当前输入矩阵被覆盖位置的部分对应相乘再求和得到当前部分位置的一个特征值。然后卷积核再像下平移对新覆盖的区域进行特征值计算然后继续滑动直到走完全部输入。此外,由于文本词向量的性质,对文本的一维卷积卷积核默认宽为词向量维度大小;另外由于卷积核内参数的不同,它与卷积部分的计算得到的特征值不同,我们可以将其视为是对不同特征的一个侧重提取。因此我们往往使用多个卷积核对同一输入进行计算得到不同的特征值使得提取到的高阶特征更加的丰富。另一方面,用户对不同关键实体的关注程度是不一样的,通过实体注意力层衡量用户感兴趣的点,使用注意力系数求和得到关注实体向量。整体的标题向量表示和关注实体向量,获得标题向量。
优选的,将类别特征转换为所述类别向量的方法包括:基于查表的方式,将所述类别特征转换为低维向量;基于所述低维向量,获得所述类别向量。
对于新闻的类别特征,用于提取新闻的显式主题特征,比如新闻可以分为财经、体育、科技等,同时大类别下可能存在子类别,直接反映用户的关注领域。类别特征采用查表的方式转换为低维向量,表的大小就是类别数。
优选的,将所述正文特征转换为所述正文向量的方法包括:基于训练语料和主题模型,从正文向量中提取潜在的主题分布;基于主题分布,获得词分布;基于词分布,获得正文向量。
对于新闻正文特征,通常长短不一,通过主题模型LDA从正文中提取潜在主题分布。给定一组由所有新闻正文组成的训练语料,LDA为每条新闻生成其主题分布,并且为每个主题生成其词分布。经过LDA生成K维向量,每一维表示新闻属于某一潜在主题的概率。然后经过一个MLP全连接层,使用非线性激活函数,这样能够使得主题分布映射到与标题和类别表示相同的隐空间中。
最后,对于新闻的特征,对于刻画用户的兴趣重要程度不一样,标题和关键实体常 常反映用户的临时兴趣,而类别和潜在主题分布则体现用户对某一领域的长期兴趣,用 注意力机制用于建模不同新闻信息的不同的重要性程度并形成统一的新闻表示向量。分别 记标题文本、标题关键实体、类别、正文主题分布的注意力权重为
Figure 420803DEST_PATH_IMAGE001
采用 神经网络拟合查询向量与各表示向量之间的相似性程度,然后利用softmax 函数对相似性 计算结果进行归一化以求得权重系数,公式如下:
Figure 806785DEST_PATH_IMAGE002
同理可求
Figure 179998DEST_PATH_IMAGE003
则新闻的最终表征为:
Figure 778469DEST_PATH_IMAGE004
新闻的最终表征即为候选新闻表征向量和历史点击新闻表征向量。
基于历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量的方法包括:
基于自注意力机制,获得历史点击新闻表征向量之间的相关性;
基于指数衰减函数,获得时间向量;基于阅读时间上限阈值,获得用户对历史点击新闻的停留时间向量;基于时间向量和用户对历史点击新闻的停留时间向量,利用元素积的方式,获得时间特征系数,即获得用户行为特征向量;基于历史点击新闻表征向量之间的相关性和用户行为特征向量,利用GRU网络,获得用户的短期兴趣;基于用户的嵌入向量,获得用户的长期兴趣;基于全连接层,拼接用户的短期兴趣和用户的长期兴趣,获得用户兴趣向量。
通过历史点击新闻表征向量,用户的历史点击序列编码成了向量矩阵。用户兴趣挖掘模块用来捕获用户随时间演化的动态兴趣,通过用户行为特征向量,获得用户兴趣向量,用户兴趣挖掘模块主要解决三个问题:挖掘不同新闻间的相关性、考虑用户行为特征建模用户兴趣、联合长短期兴趣。
首先,用户点击的新闻可能具备内在联系,最近自注意力机制在序列建模应用体 现了强大的性能,它通过三个可学习的参数矩阵
Figure 186317DEST_PATH_IMAGE005
处理输入形成
Figure 360113DEST_PATH_IMAGE006
向 量,意在学习上下文项目和当前项目的相关性大小,可以同时学习长短距离依赖,因此通过 自注意力层增强新闻表征之间的相关性,历史点击新闻表征向量的向量矩阵通过自注意力 层后形状没有变化。
由于新闻具有很强的时效性,都有新的新闻出现,而几天前的新闻对用户当前的兴趣影响较小,因此引入用户点击的时间因素是有必要的。这里采用指数衰减函数:
Figure 95988DEST_PATH_IMAGE007
Figure 29309DEST_PATH_IMAGE008
代表最近的一次点击距历史点击的时间间隔,
Figure 291663DEST_PATH_IMAGE009
是可学习的参数,这样可以 使得距离当前点击越久的新闻预测下一个新闻点击的影响就越小。最终得到时间向量
Figure 753868DEST_PATH_IMAGE010
是用户点击序列的长度,R代表实数,长度为L的实数相连的每一维度反映了点 击新闻时间的重要性系数。
除此之外,还有一个重要的用户行为特征是用户浏览当前新闻的停留时间
Figure 836094DEST_PATH_IMAGE011
。 通常来讲,用户如果在当前新闻停留时间较长,用户对当前新闻内容越感兴趣,这样能在一 定程度上抑制用户单纯由于新闻标题吸引和对内容不感兴趣对用户兴趣建模的影响。为了 考虑用户离开新闻页面导致的长时间停留情况,需要给阅读时间设置阅读时间上限的阈 值,如500秒。用当前新闻停留时间除以序列中总的停留时间,可以反映用户对这些新闻的 相对关注度:
Figure 166581DEST_PATH_IMAGE012
则用户的停留时间向量
Figure 158808DEST_PATH_IMAGE013
,每一维度反映了用户停留时间的重要性系数。
总和以上两种用户的时间行为特征,采用元素积的方式,每一维度对应相乘,得到时间特征系数:
Figure 323073DEST_PATH_IMAGE014
Figure 158174DEST_PATH_IMAGE015
, 采用元素积的方式在于二者可以相互辅助,即便距离当前时间较 远的新闻,也可能由于停留时间较长而得到较大的注意力系数;而距离当前时间较近的新 闻也会因为较小的停留时间而得到较小的注意力系数。对用户时间行为的考虑,是对用户 兴趣的更全面、更准确的衡量。
为了捕捉用户随时间不断进化的兴趣,利用GRU网络从历史点击行为序列中建模 用户的顺序兴趣。GRU 擅长处理具有时序特征的数据,其结合当前时刻的输入和上一时刻 的隐状态输出,经特定计算,得到当前时刻的隐状态输出。该计算过程将被重复执行,并且 通过重置门和更新门来控制信息的多少以及流向。注意力得分
Figure 167718DEST_PATH_IMAGE016
在GRU的每一步中都可以 增强相关兴趣所起的作用,减弱无关兴趣对总体结果的影响,更好地建模用户对目标项的 兴趣变化。但是由于隐藏状态
Figure 139085DEST_PATH_IMAGE017
只捕捉了用户兴趣之间的相互依赖关系,并不能有效的表 示用户动态变化的兴趣。通过使用注意力分数
Figure 802148DEST_PATH_IMAGE016
来控制GRU隐藏状态的更新来解决这个问 题,保留原始重置门
Figure 327807DEST_PATH_IMAGE018
的信息,注意力分数越小,对隐藏状态的影响越小:
Figure 734517DEST_PATH_IMAGE019
Figure 701336DEST_PATH_IMAGE020
是融合时间注意力分数后的更新门,能够对输入信息进行控制。最后将GRU网络 的最后一个输出作为用户短期兴趣的表示,记为
Figure 66459DEST_PATH_IMAGE021
。同时用户的长期兴趣反映用户的一般 性特征,将用户的嵌入向量作为长期兴趣,记为
Figure 220359DEST_PATH_IMAGE022
。最后将长期兴趣和短期兴趣拼接在一 起,通过一个全连接层DNN,这样使得长短兴趣特征充分结合,得到用户兴趣向量,并且向量 维度和候选新闻的表征维度相同。最后通过用户兴趣向量和候选新闻表征向量的内积作为 用户对候选新闻的点击率。
对用户喜爱新闻的推荐的具体方法如下:
对在线新闻服务平台来说,用户和新闻表示可以提前离线计算出来,为了减少推荐延迟,点击率的计算应该尽可能简单。因此,使用内积计算用户对候选新闻的点击率:
Figure 696340DEST_PATH_IMAGE023
此外,新闻推荐中正负样本比例高度不平衡,一个用户点击的新闻,即正样本,在新闻稿件库中的比例非常小,所以为了更好的训练模型,采用负采样策略,随机采样M条出现在该用户的会话中,但是未被点击的新闻作为负样本。则点击率的预测问题可以看作M+1类分类任务,采用交叉熵损失函数来优化该分类问题。M代表随机采样的条数,M+1代表分类个数。首先将这些点击概率进行softmax归一化以计算正样本的后验点击概率:
Figure 111141DEST_PATH_IMAGE024
其中
Figure 381585DEST_PATH_IMAGE025
是正样本,
Figure 22782DEST_PATH_IMAGE026
是相对于正样本的R中的负样本,接着使用所有正样本的 负对数似然函数作为最终的损失函数:
Figure 771295DEST_PATH_IMAGE027
其中P表示所有正新闻样本的集合。
获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
实施例二:
一种融合多特征的新闻推荐系统,包括获取模块、候选新闻表征模块、历史点击新闻表征模块、用户兴趣挖掘模块和新闻推荐模块;
获取模块用于分别获取候选新闻特征信息和历史点击新闻特征信息;候选新闻特征信息和历史点击新闻特征信息均包括标题特征、类别特征和正文特征。
候选新闻表征模块用于基于所述候选新闻特征信息,获得候选新闻表征向量;
历史点击新闻表征模块用于基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;
候选新闻表征模块和历史点击新闻表征模块向量转换的方法均如下所述:将标题特征、类别特征和正文特征分别转换为标题向量、类别向量和正文向量;基于注意力机制,对所述标题向量、所述类别向量和所述正文向量进行融合,获得新闻表征向量。获得新闻表征向量的具体流程如图3所示。
标题特征转换为标题向量的方法包括:基于自然语言处理实体识别技术,获得新闻实体关键词;基于训练好的词嵌入向量,将新闻实体关键词的单词序列转换为低维词向量序列;基于卷积神经网络,对低维词向量序列进行卷积运算,获得低维词向量序列的局部上下文特征;对低维词向量序列的局部上下文特征进行最大值池化,获得整体的标题向量表示;对新闻实体关键词进行注意力系数求和,获得关注实体向量;基于整体的标题向量表示和关注实体向量,获得所述标题向量。
类别特征转换为所述类别向量的方法包括:基于查表的方式,将类别特征转换为低维向量;基于所述低维向量,获得类别向量。
将正文特征转换为正文向量的方法包括:基于训练语料和主题模型,从正文向量中提取潜在的主题分布;基于所述主题分布,获得词分布;基于词分布,获得正文向量。
用户兴趣挖掘模块用于基于所述历史点击新闻表征向量,获得用户兴趣向量;基于自注意力机制,获得所述历史点击新闻表征向量之间的相关性;基于指数衰减函数,获得时间向量;基于阅读时间上限阈值,获得用户对历史点击新闻的停留时间向量;基于所述时间向量和所述用户对历史点击新闻的停留时间向量,利用元素积的方式,获得用户行为特征向量;基于历史点击新闻表征向量之间的相关性和所述用户行为特征向量,利用GRU网络,获得用户的短期兴趣;基于用户的嵌入向量,获得用户的长期兴趣;基于全连接层,拼接所述用户的短期兴趣和所述用户的长期兴趣,获得用户兴趣向量。
新闻推荐模块用于基于候选新闻表征向量和用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。整体结构如图2所示。
以上,仅为本申请较佳的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (8)

1.一种融合多特征的新闻推荐方法,其特征在于,
分别获取候选新闻特征信息和历史点击新闻特征信息;
基于所述候选新闻特征信息,获得候选新闻表征向量;
基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;
基于所述历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量;
基于所述候选新闻表征向量和所述用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
2.根据权利要求1所述的一种融合多特征的新闻推荐方法,其特征在于,
所述候选新闻特征信息和所述历史点击新闻特征信息均包括标题特征、类别特征和正文特征。
3.根据权利要求2所述的一种融合多特征的新闻推荐方法,其特征在于,获得所述候选新闻表征向量和所述历史点击新闻表征向量的方法均包括:
将所述标题特征、所述类别特征和所述正文特征分别转换为标题向量、类别向量和正文向量;
基于注意力机制,对所述标题向量、所述类别向量和所述正文向量进行融合,获得新闻表征向量。
4.根据权利要求3所述的一种融合多特征的新闻推荐方法,其特征在于,将所述标题特征转换为所述标题向量的方法包括:
基于自然语言处理实体识别技术,获得新闻实体关键词;
基于训练好的词嵌入向量,将所述新闻实体关键词的单词序列转换为低维词向量序列;
基于卷积神经网络,对所述低维词向量序列进行卷积运算,获得所述低维词向量序列的局部上下文特征;
对所述低维词向量序列的局部上下文特征进行最大值池化,获得整体的标题向量表示;
对所述新闻实体关键词进行注意力系数求和,获得关注实体向量;
基于所述整体的标题向量表示和所述关注实体向量,获得所述标题向量。
5.根据权利要求3所述的一种融合多特征的新闻推荐方法,其特征在于,将所述类别特征转换为所述类别向量的方法包括:
基于查表的方式,将所述类别特征转换为低维向量;
基于所述低维向量,获得所述类别向量。
6.根据权利要求3所述的一种融合多特征的新闻推荐方法,其特征在于,将所述正文特征转换为所述正文向量的方法包括:
基于训练语料和主题模型,从所述正文向量中提取潜在的主题分布;
基于所述主题分布,获得词分布;
基于所述词分布,获得所述正文向量。
7.根据权利要求1所述的一种融合多特征的新闻推荐方法,其特征在于,基于所述历史点击新闻表征向量和所述用户行为特征向量,获得用户兴趣向量的方法包括:
基于自注意力机制,获得所述历史点击新闻表征向量之间的相关性;
基于指数衰减函数,获得时间向量;
基于阅读时间上限阈值,获得用户对历史点击新闻的停留时间向量;
基于所述时间向量和所述用户对历史点击新闻的停留时间向量,利用元素积的方式,获得所述用户行为特征向量;
基于所述历史点击新闻表征向量之间的相关性和所述用户行为特征向量,利用GRU网络,获得用户的短期兴趣;
基于用户的嵌入向量,获得用户的长期兴趣;
基于全连接层,拼接所述用户的短期兴趣和所述用户的长期兴趣,获得用户兴趣向量。
8.一种融合多特征的新闻推荐系统,其特征在于,包括获取模块、候选新闻表征模块、历史点击新闻表征模块、用户兴趣挖掘模块和新闻推荐模块;
所述获取模块用于分别获取候选新闻特征信息和历史点击新闻特征信息;
所述候选新闻表征模块用于基于所述候选新闻特征信息,获得候选新闻表征向量;
所述历史点击新闻表征模块用于基于所述历史点击新闻特征信息,获得历史点击新闻表征向量;
所述用户兴趣挖掘模块用于基于所述历史点击新闻表征向量和用户行为特征向量,获得用户兴趣向量;
所述新闻推荐模块用于基于所述候选新闻表征向量和所述用户兴趣向量,获得用户对候选新闻的点击率,完成对用户喜爱新闻的推荐。
CN202210958119.4A 2022-08-11 2022-08-11 一种融合多特征的新闻推荐方法及系统 Active CN115048586B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210958119.4A CN115048586B (zh) 2022-08-11 2022-08-11 一种融合多特征的新闻推荐方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210958119.4A CN115048586B (zh) 2022-08-11 2022-08-11 一种融合多特征的新闻推荐方法及系统

Publications (2)

Publication Number Publication Date
CN115048586A true CN115048586A (zh) 2022-09-13
CN115048586B CN115048586B (zh) 2023-02-21

Family

ID=83167228

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210958119.4A Active CN115048586B (zh) 2022-08-11 2022-08-11 一种融合多特征的新闻推荐方法及系统

Country Status (1)

Country Link
CN (1) CN115048586B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911958A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 推荐系统模型训练方法、装置、电子设备及存储介质
CN117131182A (zh) * 2023-10-26 2023-11-28 江西拓世智能科技股份有限公司 一种基于ai的对话回复生成方法及系统
CN117541298A (zh) * 2023-12-26 2024-02-09 中邮消费金融有限公司 一种业务推荐方法、装置、设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503014A (zh) * 2015-09-08 2017-03-15 腾讯科技(深圳)有限公司 一种实时信息的推荐方法、装置和系统
CN111369278A (zh) * 2020-02-19 2020-07-03 杭州电子科技大学 一种基于用户长短时期兴趣建模的点击率预测方法
CN111444428A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN113065062A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种基于用户阅读时间行为的新闻推荐方法及系统
CN114201683A (zh) * 2021-12-15 2022-03-18 齐鲁工业大学 一种基于多级匹配的兴趣激活新闻推荐方法及系统
CN114722287A (zh) * 2022-04-14 2022-07-08 西安邮电大学 一种融入层级结构的长短期推荐方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106503014A (zh) * 2015-09-08 2017-03-15 腾讯科技(深圳)有限公司 一种实时信息的推荐方法、装置和系统
CN111369278A (zh) * 2020-02-19 2020-07-03 杭州电子科技大学 一种基于用户长短时期兴趣建模的点击率预测方法
CN111444428A (zh) * 2020-03-27 2020-07-24 腾讯科技(深圳)有限公司 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN113065062A (zh) * 2021-03-09 2021-07-02 北京工业大学 一种基于用户阅读时间行为的新闻推荐方法及系统
CN114201683A (zh) * 2021-12-15 2022-03-18 齐鲁工业大学 一种基于多级匹配的兴趣激活新闻推荐方法及系统
CN114722287A (zh) * 2022-04-14 2022-07-08 西安邮电大学 一种融入层级结构的长短期推荐方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116911958A (zh) * 2023-09-12 2023-10-20 深圳须弥云图空间科技有限公司 推荐系统模型训练方法、装置、电子设备及存储介质
CN117131182A (zh) * 2023-10-26 2023-11-28 江西拓世智能科技股份有限公司 一种基于ai的对话回复生成方法及系统
CN117541298A (zh) * 2023-12-26 2024-02-09 中邮消费金融有限公司 一种业务推荐方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN115048586B (zh) 2023-02-21

Similar Documents

Publication Publication Date Title
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN110162749B (zh) 信息提取方法、装置、计算机设备及计算机可读存储介质
CN111339415B (zh) 一种基于多交互式注意力网络的点击率预测方法与装置
CN115048586B (zh) 一种融合多特征的新闻推荐方法及系统
CN111581510A (zh) 分享内容处理方法、装置、计算机设备和存储介质
US20150213361A1 (en) Predicting interesting things and concepts in content
CN106462626A (zh) 利用深度神经网络对兴趣度建模
CN113139134B (zh) 一种社交网络中用户生成内容的流行度预测方法、装置
CN110147494A (zh) 信息搜索方法、装置,存储介质及电子设备
CN114218922A (zh) 一种基于双通道图卷积网络的方面情感分析方法
Zhu Network Course Recommendation System Based on Double‐Layer Attention Mechanism
Deng et al. Improving personalized search with dual-feedback network
CN116680481B (zh) 搜索排序方法、装置、设备、存储介质及计算机程序产品
Li et al. Session Recommendation Model Based on Context‐Aware and Gated Graph Neural Networks
CN113535928A (zh) 基于注意力机制下长短期记忆网络的服务发现方法及系统
CN111753151B (zh) 一种基于互联网用户行为的服务推荐方法
CN117132923A (zh) 视频分类方法、装置、电子设备及存储介质
CN113407776A (zh) 标签推荐方法、装置、标签推荐模型的训练方法和介质
CN114491296B (zh) 提案联名人推荐方法、系统、计算机设备及可读存储介质
CN113536785B (zh) 一种文本推荐方法、智能终端及计算机可读存储介质
WO2023048807A1 (en) Hierarchical representation learning of user interest
CN113051607B (zh) 一种隐私政策信息提取方法
CN116226320A (zh) 一种预测下文信息的方法、装置、电子设备及存储介质
Zhang et al. Big data fusion method based on Internet of Things collection
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant