CN113343142A - 一种基于用户行为序列填充和筛选的新闻点击率预测方法 - Google Patents

一种基于用户行为序列填充和筛选的新闻点击率预测方法 Download PDF

Info

Publication number
CN113343142A
CN113343142A CN202110527149.5A CN202110527149A CN113343142A CN 113343142 A CN113343142 A CN 113343142A CN 202110527149 A CN202110527149 A CN 202110527149A CN 113343142 A CN113343142 A CN 113343142A
Authority
CN
China
Prior art keywords
news
user behavior
user
behavior sequence
screening
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110527149.5A
Other languages
English (en)
Other versions
CN113343142B (zh
Inventor
蔡世民
黄振
胡铮
曾重庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202110527149.5A priority Critical patent/CN113343142B/zh
Publication of CN113343142A publication Critical patent/CN113343142A/zh
Application granted granted Critical
Publication of CN113343142B publication Critical patent/CN113343142B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/147Network analysis or design for predicting network behaviour

Abstract

该发明公开了一种基于用户行为序列填充和筛选的新闻点击率预测方法,属于信息处理领域,特别是基于用户行为序列填充和筛选的新闻点击率预测方法。和现有的技术相比,本发明在用户行为序列较短时,对行为序列进行了有意义的填充,使得序列填充用户潜在可能会点击的行为;当用户行为序列较长时,进行行为的筛选,使得行为序列能够近似全局兴趣的情况下兼顾考虑和候选新闻的关系;建立了用户行为序列填充和筛选方法,只需要通过简单的预训练方法就可以进行文本语义相似度的计算,从而进行用户行为的填充和筛选,大大的节约了计算时间和有助于方法的快速迁移;在真实的数据集上进行了大量的实验并且进行了充分的对比,本发明方法能够取得更好的实验结果。

Description

一种基于用户行为序列填充和筛选的新闻点击率预测方法
技术领域
本发明属于信息处理领域,特别是基于用户行为序列填充和筛选的新闻点击率预测方法。
背景技术
关键术语定义:
用户行为序列:用户行为序列是指用户与新闻产生实际交互的有效行为,用户行为可以反应用户的兴趣特点,从而根据用户的兴趣特点进行推荐他感兴趣的内容。
行为序列填充:在用户行为序列较短时,通过一定的技术手段进行补充,使得用户序列行为达到一定数量。
行为序列筛选:在用户行为序列较短时,通过一定的技术手段进行筛选,使得筛选的用户行为达到一定数量。
注意力网络:注意力网络是根据一段文本中不同文字的重要性程度,计算出相应的权重值,使得该值可以表示文字的重要性程度。
新闻点击率预测在线上新闻推荐平台中起着至关重要的作用,为了构建准确的新闻推荐方法,通常是根据用户的行为序列获取用户新闻兴趣,从而基于用户个人兴趣构建个性化新闻推荐。
线上新闻平台如:腾讯新闻、网易新闻、谷歌信息、微软新闻等极大的满足了用户在线观看新闻的需求。这些线上新闻平台每天会产生大量的新闻内容,他们的主要目的是预测用户对于指定新闻的点击概率。大量的用户在这些平台上产生了海量的新闻点击和浏览行为,如何充分的利用这些行为提高CTR的预测,成为了新闻线上平台一个至关重要的问题。
在传统方法中,如DeepFM、NFM等方法被提出,DeepFM方法将FM的方法和Wide&Deep方法进行了整合,延续了双方法组合的结构,同时将Wide&Deep的Wide部分替换成了FM,加强了浅层网络的组合能力;NFM用神经网络替换了FM中二阶隐向量的交叉方式,使得其具有更强的表达能力和特征交叉能力。在深度学习方法中,如NPA、NRMS等新闻推荐方法。NPA方法使用词嵌入方法表示新闻内容,通过CNN方法进行第一次提取新闻特征,再使用attention第二次提取新闻特征,得到最后候选新闻的表示,在其基础上再进行一次attention得到用户行为的表示。NRMS使用多头的attention神经网络进行候选新闻和用户行为方法的建立。
现有技术的缺点:
传统推荐方法,由于网络结构比较简单,文本的特征提取和特征交叉能力始终有限,不能进一步的提升文本的理解能力。深度推荐方法,进一步提取了文本的语义信息,然而没有对用户行为序列的充分关注使得用户行为序列表达不完整,不能再提升推荐效果。
同时,在用户序列较短时用户的行为序列不能完整的刻画用户的行为兴趣,这样导致用户的行为兴趣是不准确的,从而影响了新闻点击预测的准确性。在用户行为序列较长时,一般的方法是截取用户最近的历史行为,然而这样只能获得用户的局部兴趣,忽略了用户的全局的兴趣;还有一种方法是进行全局的随机抽样去近似用户的全局兴趣,但是这样却忽略了和候选新闻的关系。
发明内容
在本文中,为了解决上述出现的问题,尝试从数据视角出发。目标是建立一个用户行为序列的填充和筛选方法从而得到用户最终的行为序列,使得这个行为序列能够更好的进行新闻点击率的预测。
在同一个用户的不同候选新闻方面,其他方法是使用用户最近行为进行预测;而在本发明方法中会从行为序列中选择不同的行为,使用最后形成的行为序列进行预测。整体框架中包括了用户行为序列填充和筛选方法、新闻点击率预测方法,用户行为序列填充和筛选基于sentence-bert网络方法进行行为序列的填充和筛序;新闻点击率预测方法基于bert方法得到最终的预测概率。
本发明本技术方案为一种基于用户行为序列填充和筛选的新闻点击率预测方法,该方法包括:
步骤1:数据获取;
使用微软提供的新闻数据集MIND(Microsoft News Dataset),从MIND数据集中随机抽样50000用户和他们的行为记录,记为MIND-small数据集;MIND-small数据集中包括两部分,用户数据、新闻数据;用户数据的属性包括:用户ID、时间戳、用户点击历史,新闻数据的属性包括:新闻ID、新闻标题、新闻摘要、新闻内容、新闻类别;
步骤2:用户行为序列填充,用户行序列是由用户点击的新闻组成,一个点击新闻代表了一个行为;
当用户的行为序列中的数量N小于等于G时采用符号“0”或者其它相应符号进行填充这些用户行为序列,G为用户行为序列可以填充的最小阈值,;
当用户行为序列中的数量N大于G少于阈值K时,将这些用户行为序列使用sentence-Bert方法得到用户行为序列向量,使用sentence-Bert方法得到所有新闻列表中每个新闻的句子向量,计算用户行为序列向量与新闻的句子向量的相关度,选取相关度最大的K-N个新闻进行用户行为填充;
步骤3:用户行为序列筛选,当用户行为序列中的数量N大于K时,对用户行为进行筛选;
计算该用户N个行为与候选新闻的相关度,从这N个行为中筛选出与候选新闻相关度最大的S个行为,S小于K,再从剩余行为中随机选择K-S个行为,共同组成K个行为;
步骤4:新闻点击预测;
将在获得最终的用户行为序列之后,构建新闻点击概率预测神经网络模型,该模型输入为用户行为序列和当前候选新闻,输出为候选新闻被点击的概率,该神经网络的损失函数L为:
Figure BDA0003066117670000031
yi为新闻点击率样本标签,当用户点击了该候选新闻时为1,否则为0;
Figure BDA0003066117670000032
为模型实际的输出概率值,D为训练样本的总数量。
进一步的,所述步骤2中G大于等于6小于等于8,K大于等于12小于等于15。
进一步的,所述步骤2和步骤3中计算相关度为余弦相关度。
和现有的技术相比,本发明有益效果为:
1.在用户行为序列较短时,对行为序列进行了有意义的填充,使得序列填充用户潜在可能会点击的行为;当用户行为序列较长时,进行行为的筛选,使得行为序列能够近似全局兴趣的情况下兼顾考虑和候选新闻的关系
2.建立了用户行为序列填充和筛选方法,只需要通过简单的预训练方法就可以进行文本语义相似度的计算,从而进行用户行为的填充和筛选,大大的节约了计算时间和有助于方法的快速迁移。
3.本文提出的方法,在真实的数据集上进行了大量的实验并且进行了充分的对比,的方法能够取得更好的实验结果。
附图说明
图1为整体方法架构图。
图2为用户行为序列填充和筛选方法图。
图3为新闻点击率预测方法图。
具体实施方案
为了使本发明的目的更加清楚,以下结合附图对本发明进一步详细介绍。
图1可视化地表示出了本发明提出的新闻点击率预测方法的整体架构。具体而言包括用户行为序列填充和筛选方法、新闻点击率预测方法。用户和新闻构成了user-item的二部图,用户点击的新闻映射为初始用户行为,用户未点击的新闻是潜在的用户行为。在新闻填充和选择方法中,在未点击新闻中寻找潜在新闻进行行为填充;在点击新闻中选择候选新闻相关的新闻表示行为序列,二者共同形成了最终的用户行为序列。最终的用户行为序列和候选新闻共同输入到预测方法中,计算得到最终新闻点击概率。
图2介绍了用户行为序列填充和筛选方法,在图左边是用户序列填充方法:
将上述过程抽象为数学表达,用户行为序列中包括N个用户行为B={b1,b2...,bN},新闻列表中包括M个新闻E={e1,e2...,eM},候选新闻为C={ci;i=1,2,3,...},则:
Figure BDA0003066117670000041
sbei=SB(ei),i=1,2,...,M
SB表示Sentence-Bert方法,
Figure BDA0003066117670000042
表示将左右两边的行为拼接为一个行为,sbb表示用户行为全局向量,sbei表示第i个新闻的全局向量,则:
si=cosin(sbb,sbei),i=1,2,...,M
cosin表示使用余弦相似度计算二者的相关度,si表示第i个新闻和当前用户行为的相似度,则最终的用户行为序列为:
Figure BDA0003066117670000043
top-sim表示选择一定数量的相似度最高的新闻和原始新闻共同组成最终的用户行为序列(ffb),fill-zero表示使用符号“0”对行为序列进行填充形成最终的用户行为序列。图2左边为用户序列筛选方法:
抽象为数学表达式为:
sbbi=SB(bi),i=1,2,...,N
sbc=SB(C)
sbi=cosin(sbbi,sbc),i=1,2,...,N
sbbi表示用户行为序列中每个行为经过Sentence-Bert得到的向量表示,sbc表示当前候选新闻经过Sentence-Bert的向量表示,sbi计算二者的相关度使用余弦函数。从用户行为序列选择S个和候选新闻相关的:
fsb=sort-sim(S,sbi,B),i=1,2,...,N
sort-sim表示从用户行为序列中选择S个最相关的行为,使得用户行为序列中至少包含这S个行为。
最后得到用户行为序列的最终表达式为:
Figure BDA0003066117670000051
图3为新闻点击率预测方法:
整个过程描述为:
cls=bert(b1,b2,...,bi,C),bi∈fb
bert是Bert方法,cls是Bert方法输出的分类向量,通过Bert方法最终得到了用户行为和候选新闻的分类向量。在cls向量后面接上一层感知网络,通过softmax得到点击概率:
xi=clsi×w+b
Figure BDA0003066117670000052
clsi是每个训练样本的分类向量,w是感知网络的一次项参数,b是常数项参数,xi是经过感知网络的神经网络向量,yi是用户对当前候选新闻的点击概率。

Claims (3)

1.一种基于用户行为序列填充和筛选的新闻点击率预测方法,该方法包括:
步骤1:数据获取;
使用微软提供的新闻数据集MIND(Microsoft News Dataset),从MIND数据集中随机抽样50000用户和他们的行为记录,记为MIND-small数据集;MIND-small数据集中包括两部分,用户数据、新闻数据;用户数据的属性包括:用户ID、时间戳、用户点击历史,新闻数据的属性包括:新闻ID、新闻标题、新闻摘要、新闻内容、新闻类别;
步骤2:用户行为序列填充,用户行序列是由用户点击的新闻组成,一个点击新闻代表了一个行为;
当用户的行为序列中的数量N小于等于G时采用符号“0”或者其它相应符号进行填充这些用户行为序列,G为用户行为序列可以填充的最小阈值,;
当用户行为序列中的数量N大于G少于阈值K时,将这些用户行为序列使用sentence-Bert方法得到用户行为序列向量,使用sentence-Bert方法得到所有新闻列表中每个新闻的句子向量,计算用户行为序列向量与新闻的句子向量的相关度,选取相关度最大的K-N个新闻进行用户行为填充;
步骤3:用户行为序列筛选,当用户行为序列中的数量N大于K时,对用户行为进行筛选;
计算该用户N个行为与候选新闻的相关度,从这N个行为中筛选出与候选新闻相关度最大的S个行为,S小于K,再从剩余行为中随机选择K-S个行为,共同组成K个行为;
步骤4:新闻点击预测;
将在获得最终的用户行为序列之后,构建新闻点击概率预测神经网络模型,该模型输入为用户行为序列和当前候选新闻,输出为候选新闻被点击的概率,该神经网络的损失函数L为:
Figure FDA0003066117660000011
yi为新闻点击率样本标签,当用户点击了该候选新闻时为1,否则为0;
Figure FDA0003066117660000012
为模型实际的输出概率值,D为训练样本的总数量。
2.如权利要求1所述的一种基于用户行为序列填充和筛选的新闻点击率预测方法,其特征在于,所述步骤2中G大于等于6小于等于8,K大于等于12小于等于15。
3.如权利要求1所述的一种基于用户行为序列填充和筛选的新闻点击率预测方法,其特征在于,所述步骤2和步骤3中计算相关度为余弦相关度。
CN202110527149.5A 2021-05-14 2021-05-14 一种基于用户行为序列填充和筛选的新闻点击率预测方法 Active CN113343142B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110527149.5A CN113343142B (zh) 2021-05-14 2021-05-14 一种基于用户行为序列填充和筛选的新闻点击率预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110527149.5A CN113343142B (zh) 2021-05-14 2021-05-14 一种基于用户行为序列填充和筛选的新闻点击率预测方法

Publications (2)

Publication Number Publication Date
CN113343142A true CN113343142A (zh) 2021-09-03
CN113343142B CN113343142B (zh) 2022-05-31

Family

ID=77470163

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110527149.5A Active CN113343142B (zh) 2021-05-14 2021-05-14 一种基于用户行为序列填充和筛选的新闻点击率预测方法

Country Status (1)

Country Link
CN (1) CN113343142B (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582874A (zh) * 2018-12-10 2019-04-05 北京搜狐新媒体信息技术有限公司 一种基于双向lstm的相关新闻挖掘方法及系统
CN110032679A (zh) * 2019-04-16 2019-07-19 北京航空航天大学 一种基于层次注意力网络的动态新闻推荐的方法
CN111046231A (zh) * 2019-12-13 2020-04-21 广东融合通信股份有限公司 一种基于标签语义相似度的短视频推荐方法
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111368203A (zh) * 2020-03-09 2020-07-03 电子科技大学 一种基于图神经网络的新闻推荐方法及其系统
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统
CN112395504A (zh) * 2020-12-01 2021-02-23 中国计量大学 一种基于序列胶囊网络的短视频点击率预测方法
CN112508609A (zh) * 2020-12-07 2021-03-16 深圳市欢太科技有限公司 人群扩量的预测方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109582874A (zh) * 2018-12-10 2019-04-05 北京搜狐新媒体信息技术有限公司 一种基于双向lstm的相关新闻挖掘方法及系统
CN110032679A (zh) * 2019-04-16 2019-07-19 北京航空航天大学 一种基于层次注意力网络的动态新闻推荐的方法
CN111046231A (zh) * 2019-12-13 2020-04-21 广东融合通信股份有限公司 一种基于标签语义相似度的短视频推荐方法
CN111339404A (zh) * 2020-02-14 2020-06-26 腾讯科技(深圳)有限公司 基于人工智能的内容热度预测方法、装置和计算机设备
CN111368203A (zh) * 2020-03-09 2020-07-03 电子科技大学 一种基于图神经网络的新闻推荐方法及其系统
CN111859160A (zh) * 2020-08-07 2020-10-30 成都理工大学 一种基于图神经网络会话序列推荐方法及系统
CN112395504A (zh) * 2020-12-01 2021-02-23 中国计量大学 一种基于序列胶囊网络的短视频点击率预测方法
CN112508609A (zh) * 2020-12-07 2021-03-16 深圳市欢太科技有限公司 人群扩量的预测方法、装置、设备及存储介质

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIIAHUI LIU等: ""Personalized news recommendation based on click behavior"", 《IUI 10:PROCEEDINGS OF THE 15TH INTERNATIONAL CONFERENCE ON INTELLIGENT USER INTERFACES》 *
REIMERS NILS等: ""Sentence-BERT:Sentence Embeddings using Siamese BERT-Networks"", 《ARXIV.ORG》 *
杜芳池: ""基于文本变量的新闻点击预测分析"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Also Published As

Publication number Publication date
CN113343142B (zh) 2022-05-31

Similar Documents

Publication Publication Date Title
CN111177575B (zh) 一种内容推荐方法、装置、电子设备和存储介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
CN111382361B (zh) 信息推送方法、装置、存储介质和计算机设备
CN110909182B (zh) 多媒体资源搜索方法、装置、计算机设备及存储介质
AU2015310494A1 (en) Sentiment rating system and method
CN112100504B (zh) 内容推荐方法、装置、电子设备及存储介质
CN111400586A (zh) 群组展示方法、终端、服务器、系统及存储介质
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
CN115048586A (zh) 一种融合多特征的新闻推荐方法及系统
CN112749330A (zh) 信息推送方法、装置、计算机设备和存储介质
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111597361B (zh) 多媒体数据处理方法、装置、存储介质及设备
CN114817692A (zh) 确定推荐对象的方法、装置和设备及计算机存储介质
CN113051468A (zh) 一种基于知识图谱和强化学习的电影推荐方法及系统
CN115964560B (zh) 基于多模态预训练模型的资讯推荐方法及设备
CN113343142B (zh) 一种基于用户行为序列填充和筛选的新闻点击率预测方法
CN116956183A (zh) 多媒体资源推荐方法、模型训练方法、装置及存储介质
CN116010696A (zh) 融合知识图谱和用户长短期兴趣的新闻推荐方法、系统及介质
CN114647787A (zh) 一种基于多模态数据的用户个性化推荐方法
CN115374348A (zh) 一种信息推荐方法、信息推荐装置和可读存储介质
CN117216300B (zh) 一种基于一键生成h5的图片上传方法及系统
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
CN114880572B (zh) 新闻客户端智能推荐系统
CN108197142B (zh) 网络事务关联性确定方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant