CN116340641A - 基于显式和隐式兴趣特征的智能新闻推荐方法和系统 - Google Patents
基于显式和隐式兴趣特征的智能新闻推荐方法和系统 Download PDFInfo
- Publication number
- CN116340641A CN116340641A CN202310412932.6A CN202310412932A CN116340641A CN 116340641 A CN116340641 A CN 116340641A CN 202310412932 A CN202310412932 A CN 202310412932A CN 116340641 A CN116340641 A CN 116340641A
- Authority
- CN
- China
- Prior art keywords
- news
- vector
- interest
- explicit
- feature vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 99
- 238000012549 training Methods 0.000 claims abstract description 114
- 238000013528 artificial neural network Methods 0.000 claims abstract description 41
- 239000013598 vector Substances 0.000 claims description 335
- 239000011159 matrix material Substances 0.000 claims description 56
- 230000006870 function Effects 0.000 claims description 49
- 238000010276 construction Methods 0.000 claims description 37
- 238000013507 mapping Methods 0.000 claims description 28
- 230000008569 process Effects 0.000 claims description 22
- 230000004913 activation Effects 0.000 claims description 17
- 238000007781 pre-processing Methods 0.000 claims description 17
- 238000005457 optimization Methods 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 15
- 230000006399 behavior Effects 0.000 claims description 14
- 239000000654 additive Substances 0.000 claims description 12
- 230000000996 additive effect Effects 0.000 claims description 12
- 238000003860 storage Methods 0.000 claims description 12
- 230000004931 aggregating effect Effects 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000008878 coupling Effects 0.000 claims description 6
- 238000010168 coupling process Methods 0.000 claims description 6
- 238000005859 coupling reaction Methods 0.000 claims description 6
- 238000009826 distribution Methods 0.000 claims description 6
- 238000001914 filtration Methods 0.000 claims description 6
- 230000002452 interceptive effect Effects 0.000 claims description 6
- 239000012633 leachable Substances 0.000 claims description 6
- 238000012545 processing Methods 0.000 claims description 5
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000001902 propagating effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 claims description 3
- 238000009499 grossing Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims 1
- 238000010801 machine learning Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Probability & Statistics with Applications (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于显式和隐式兴趣特征的智能新闻推荐方法和系统,解决的技术问题为现有的新闻推荐方法无法识别显式和隐式兴趣特征,从而导致推荐结果不准确的问题,采用的技术方案为:该方法具体如下:S1、构建新闻推荐模型的训练数据集;S2:构建基于显式和隐式兴趣特征的新闻推荐模型:具体如下:S201、构建新闻编码器;S202、构建显式兴趣编码器、S203、构建词频‑逆向文件频率TF‑IDF算法模块;S204、构建隐式兴趣编码器;S205、构建图神经网络;S206、构建隐式兴趣解码器;S207、构建点击率预测器;S3、训练基于显式和隐式兴趣特征的新闻推荐模型。该系统包括训练数据集生成单元、基于显式和隐式兴趣特征的新闻推荐模型构建单元和模型训练单元。
Description
技术领域
本发明涉及推荐系统和自然语言处理领域,具体涉及一种基于显式和隐式兴趣特征的智能新闻推荐方法和系统。
背景技术
现实中,用户的行为经常受到他们显式兴趣和隐式兴趣的影响。在大多数情况下,用户往往会有目的性地去阅读一些与主题或事件相关的新闻,比如经济类的新闻,这表明了他们阅读的显式兴趣。那么,出于同样的目的(例如阅读经济类的新闻),不同的用户可能对特定的新闻有不同的偏好,因此可能会阅读不同的经济类的新闻。然而,现有的新闻推荐方法通常依照用户浏览记录中的新闻文本内容建立用户单一的兴趣表示,进而基于单一的兴趣特征执行推荐任务。尽管这些方法在新闻推荐任务中取得了一定的成果,但是它们都忽略了用户的显式兴趣和隐式兴趣;仅仅建模单一的笼统的用户兴趣特征,往往无法准确地捕捉用户全面的兴趣特征,这不可避免地会影响到新闻推荐结果的准确性。
发明内容
本发明的技术任务是提供一种基于显式和隐式兴趣特征的智能新闻推荐方法和系统,来解决新闻推荐系统中推荐结果不准确的问题。
本发明的技术任务是按以下方式实现的,一种基于显式和隐式兴趣特征的智能新闻推荐方法,该方法包括如下步骤:
S1、构建新闻推荐模型的训练数据集:首先下载网络上公开的新闻数据集,然后预处理数据集,最后构建正例数据和负例数据,组合生成最终的训练数据集;
S2、构建基于显式和隐式兴趣特征的新闻推荐模型:利用神经网络和深度学习方法构建新闻推荐模型;
S3、训练模型:在步骤S1所得到训练数据集中对步骤S2构建的新闻推荐模型进行训练。
一种基于显式和隐式兴趣特征的智能新闻推荐系统,该系统包括:
训练数据集生成单元,首先在线上新闻网站获得用户的浏览记录信息,随后对其进行预处理操作,从而得到符合训练要求的用户浏览记录及其新闻文本内容;
基于显式和隐式兴趣特征的新闻推荐模型构建单元,用于载入训练数据集、构建新闻编码模块、构建显式兴趣编码模块、构建TF-IDF算法模块、构建隐式兴趣编码模块、构建图神经网络模块、构建隐式兴趣解码模块以及构建点击率预测器模块;
模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练。
一种存储介质,其中存储有多条指令,所述指令由处理器加载,执行上述的基于用户隐式兴趣特征的智能新闻推荐方法的步骤。
一种电子设备,所述电子设备包括:上述的存储介质;以及处理器,用于执行所述存储介质中的指令。
作为优选,新闻编码器的构建过程如下:
首先,针对数据集中每一个单词构建单词映射表,并将表中每一个单词映射成唯一的数字标识,映射规则为:以数字1为起始,随后按照每个单词被录入单词映射表的顺序依次递增排序,从而形成单词映射转换表;使用Glove预训练语言模型,得到每个单词的词向量表示;在词嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表示,记为x=[x1,x2,...,xN],其中,N表示一个新闻标题的长度,xN表示每个单词的向量表示,w表示新闻标题中的一个单词。
最后,以隐层表示h作为输入,通过全连接层进行重构得到新闻特征向量r。公式如下:
r=f(U'h+u')
其中,r为新闻特征向量,f(·)表示sigmoid激活函数,U'和u'是从训练过程学到的参数。
更优地,所述基于显式和隐式兴趣特征的新闻推荐模型构建过程具体如下:
构建显式兴趣编码器:为了生成用户的显式兴趣特征,显示兴趣编码器利用Fastformer方法对用户浏览记录进行处理,输出显示兴趣特征向量;具体如下:
首先,Fastformer将输入的新闻特征向量通过三种参数不共享的线性层转换成query、key和value三种向量表示,公式如下:
qi=Wqri
ki=Wkri
vi=Wvri
其中,Wq、Wk和Wv皆为可学习的参数,ri表示第i个新闻特征向量,qi表示第i个新闻的query向量,ki表示第i个新闻的key向量,vi表示第i个新闻的value向量;
然后,使用加性注意力机制将query向量进行聚合并压缩,公式表示如下:
q=Att(q1,q2,...,qN)
其中,qi表示第i个新闻的query向量,q表示聚合了上下文信息的query向量,Att表示加性注意力机制;
之后,再使用加性注意力机制和按位相乘运算计算key向量与query向量的交互信息,公式如下:
k=Att(q⊙k1,q⊙k2,...,q⊙ki,...,q⊙kN)
其中,ki表示第i个新闻的key向量,k表示聚合了上下文信息的key向量,表示按位相乘,Att表示加性注意力机制;
然后,通过点积运算和线性层处理key向量和value向量,从而得到单个注意力头部的新闻特征向量。公式表示如下:
最后,根据M个注意力头部的输出,结合用户浏览记录,建立显式兴趣特征向量,公式表示如下:
up=[d1;d2;...;dk;...;dN]
其中,[;]表示联接操作,为第n个注意力头部输出的第k个新闻特征向量,M为注意力头部的个数,N为用户浏览记录的长度,dk为经过M个注意力头部汇聚联接而得到的第k个新闻特征向量,up为显式兴趣特征向量。
构建TF-IDF算法模块:首先,将一段用户的浏览记录Cu={v1,...,vi,...,vt-1}输入到该模块,其中,v表示每条用户浏览记录;然后,使用TF-IDF算法从用户浏览记录中提取关键词;最后,将关键词通过词嵌入层映射到一个关键词向量矩阵K,其中该矩阵包含了此段用户浏览记录的关键词向量。
构建隐式兴趣编码器,隐式兴趣编码器旨在从用户浏览记录中推测用户的隐式兴趣,具体如下:
构建多层感知机:
将用户浏览记录的关键词向量矩阵K作为输入,使用多层感知机编码这些向量,公式表示如下:
C=MLP(W′K+b′)
其中,K为关键词向量矩阵,W′表示多层感知机的可学习参数,b′为偏置,C表示经过多层感知机处理输出的关键词向量,MLP为多层感知机。
构建兴趣推理模块:
为了从历史新闻序列的关键词向量中推测隐式兴趣,首先从新闻推荐数据集中使用TF-IDF方法抽取所有新闻的关键词,将其通过词嵌入层映射为一个全局关键词向量矩阵H,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在全局关键词向量矩阵H中的分布概率可以得到可能的关键词向量矩阵,即初始隐式兴趣特征向量;具体的过程公式表示如下:
Wp=softmax(HMC);
Cp=WpH;
其中,softmax表示softmax归一化函数,Wp表示可学习的权重矩阵。Cp表示可能的关键词向量矩阵,包含了所有的初始隐式兴趣特征向量。
构建图神经网络:以初始隐式兴趣特征向量Cp作为输入,通过图神经网络得到更新的隐式兴趣特征向量;具体的,第l层图神经网络的操作过程表示如下:
其中,σ表示激活函数;Hl为第l层图神经网络的节点表示,Wl表示第l层图神经网络的可学习参数,D为度矩阵;A=A+I,其中A为邻接矩阵,I为单位矩阵;具体的,第一层的输入为Cp,那么其输出为H0=Cp;经过n层的图神经网络,在t时刻更新的隐式兴趣特征向量,可表示为Ct=Hn。
构建隐式兴趣解码器:以更新的隐式兴趣特征向量Ct作为输入,利用多层感知机作为解码器以生成最终的隐式兴趣特征向量,公式如下:
uo=MLP(WCt+b)
其中,Ct为更新的隐式兴趣特征向量,W为多层感知机可学习的参数,b为偏置,uo为最终的隐式兴趣特征向量,MLP为多层感知机。
更优地,所述点击率预测器的构建过程具体如下:
构建门控网络:其被设计用来选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量;以显式兴趣编码器生成的显式兴趣特征向量up和隐式兴趣解码器生成的最终的隐式兴趣特征向量uo作为输入,通过门控网络生成用户特征向量ug;公式表示如下:
g=ReLU(Wg[uo;up]+bg)
ug=g⊙tanh(Vuo+v)+(1-g)⊙up
其中,Wg、Wb、V和v表示可学习的参数,bg表示偏置,符号;表示联接操作,up为显式兴趣特征向量,uo为最终的隐式兴趣特征向量,ReLU、tanh为激活函数,ug为用户特征向量,g为门控网络。
构建基于候选新闻的注意力网络,其被设计用来将候选新闻的特征整合到用户特征向量中,从而生成最终的用户特征向量;公式表示如下:
α=Att(WQn,WKug);
其中,WQ、WK为可学习的参数,n为由新闻编码器生成的候选新闻的新闻特征向量,ug为用户特征向量,L为一个用户浏览记录的长度,u为最终的用户特征向量,Att表示注意力机制函数,α为注意力权重。
构建预测模块:其将由新闻编码器生成的候选新闻的新闻特征向量n和最终的用户特征向量u作为输入,通过点积运算预测候选新闻的点击率,公式如下:
本方法模型尚未进行充分训练时,需要在训练数据集上进行训练,以优化模型参数;当模型训练完毕时,点击率预测器可预测每一条候选新闻的推荐得分,根据得分,推荐合适的新闻给用户。
更优地,所述训练数据集的构建过程具体如下:
构建新闻数据集或者选择已公开的新闻数据集;
预处理新闻数据集:预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的标题、类别、子类别和摘要信息;
构建训练正例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为1的新闻编号,即被用户点击的新闻的编号,构建训练正例;
构建训练负例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为0的新闻编号,即未被用户点击的新闻的编号,构建训练负例;
构建训练数据集:将全部的正例数据和负例数据进行组合,并打乱其顺序,构建最终的训练数据集;
所述的新闻推荐模型构建完成后通过训练数据集进行新闻推荐模型的训练与优化,具体如下:
构建损失函数:采用负采样技术,将一个用户的已点击的新闻定义为正样例,没有点击过的新闻定义为负样例,计算正样例的点击预测值pi。公式如下:
新闻推荐的损失函数为所有正样例的负对数似然函数,公式如下:
优化训练模型:选择使用Adam优化函数作为本模型的优化函数,其中,学习率设置为0.001,平滑常数设置为(0.9,0.999),eps设置为1e-8,L2惩罚值设置为0。
一种基于显式和隐式兴趣特征的智能新闻推荐系统,该系统包括,
训练数据集生成单元,首先在线上新闻网站获得用户的浏览记录信息,随后对其进行预处理操作,从而得到符合训练要求的用户浏览记录及其新闻文本内容;训练数据集生成单元包括,
原始数据获取单元,负责下载网络上已经公开的新闻网站数据集,将其作为构建训练数据集的原始数据;
原始数据预处理单元,负责预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的关键信息,如标题;从而构建训练数据集;
基于显式和隐式兴趣特征的新闻推荐模型构建单元,用于载入训练数据集、构建新闻编码模块、构建显式兴趣编码模块、构建TF-IDF算法模块、构建隐式兴趣编码模块、构建图神经网络模块、构建隐式兴趣解码模块以及构建点击率预测器模块,基于显式和隐式兴趣特征的新闻推荐模型构建单元包括,
训练数据集载入单元,负责加载训练数据集;
新闻编码模块构建单元,负责在训练数据集中训练基于Glove词向量模型的新闻特征向量,并定义所有的新闻特征向量;首先使用全连接层编码新闻标题向量,得到隐层表示,最后使用全连接层解码隐层表示,重构得到新闻特征向量。
显式兴趣编码模块构建单元,负责根据用户浏览记录构建显式兴趣特征向量;其中,用户浏览记录的新闻特征向量由新闻编码模块构建单元得到,利用Fastformer方法得到显式兴趣特征向量。
TF-IDF算法模块构建单元,负责利用TF-IDF算法抽取用户浏览记录中的新闻关键词,然后再利用词嵌入方法将每一个关键词映射到同一个向量空间,从而得到新闻内容的关键词向量。
隐式兴趣编码模块构建单元,负责利用多层感知机抽取关键词向量的主要特征并通过聚合操作生成关键词向量矩阵,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在关键词向量矩阵中的分布概率得到可能的关键词向量矩阵,该矩阵包含了初始隐式兴趣特征向量。
图神经网络模块构建单元,负责利用图神经网络传播和聚合初始隐式兴趣特征向量,从而得到更新的隐式兴趣特征向量。
隐式兴趣解码模块构建单元,负责利用多层感知机解码更新的隐式兴趣特征向量,从而得到最终的隐式兴趣特征向量。
点击率预测器模块构建单元,首先利用门控网络选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量得到用户特征向量,然后基于候选新闻的注意力网络融合用户特征向量和候选新闻的新闻特征向量,得到最终的用户特征向量,最后将最终的用户特征向量和候选新闻的新闻特征向量作为输入,通过点积运算生成每个候选新闻的得分即点击率,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户。
模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练;模型训练单元包括,
损失函数构建单元,负责计算预测的候选新闻与真实的目标新闻之间的误差;
模型优化单元,负责训练并调整模型训练中的参数,减小预测误差。
一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行上述的基于显式和隐式兴趣特征的智能新闻推荐方法的步骤。
一种电子设备,其特征在于,所述电子设备包括:
上述的存储介质;以及
处理器,用于执行所述存储介质中的指令。
本发明的基于显式和隐式兴趣特征的智能新闻推荐方法和系统具有以下优点:
(一)本发明提出了基于显式和隐式兴趣特征的智能新闻推荐方法,挖掘了用户的显式和隐式兴趣特征,能够较全面的建模用户的特征表示,进而提升新闻推荐的准确性。
(二)本发明首先通过TF-IDF方法对用户浏览记录中的新闻内容进行关键词特征抽取,然后利用多层感知机和图神经网络对用户浏览记录进行编码和解码,从而准确建模隐式兴趣表示。
(三)本发明根据用户浏览记录构建显式兴趣特征向量,首先通过新闻编码模块得到用户浏览记录的新闻特征向量,然后利用Fastformer方法得到显式兴趣特征向量,能够准确的建模显式兴趣特征,进而提升新闻推荐的准确性。
(四)本发明通过门控网络融合显式兴趣特征表示和隐式兴趣特征表示,然后基于候选新闻的注意力融合用户特征向量和候选新闻的新闻特征向量,从而提升推荐的准确性。
(五)本发明通过点击率预测器模块,可以根据准确的新闻表示和用户表示,准确地输出候选新闻序列的预测分数。
附图说明
下面结合附图对本发明进一步说明。
图1为基于显式和隐式兴趣特征的智能新闻推荐方法的流程图
图2为构建新闻推荐模型的训练数据集的流程图
图3为构建基于显式和隐式兴趣特征的新闻推荐模型的流程图
图4为训练基于显式和隐式兴趣特征的新闻推荐模型的流程图
图5为基于显式和隐式兴趣特征的新闻推荐模型的示意图
图6为新闻编码器的示意图
具体实施方式
参照说明书附图和具体实施例对本发明的基于显式和隐式兴趣特征的智能新闻推荐方法和系统作以下详细地说明。
实施例1:
本发明的总体模型框架如图5所示。由图5可知,本发明的主要框架结构包含新闻编码器、显式兴趣编码器、词频-逆向文件频率(TF-IDF)算法模块、隐式兴趣编码器、图神经网络、隐式兴趣解码器和点击率预测器模块。其中,新闻编码器负责利用全连接层从新闻标题向量中提取新闻标题的主要特征,并生成新闻特征向量;显式兴趣编码器负责利用Fastformer方法聚合和编码用户浏览记录的新闻特征向量,并生成显式兴趣特征向量;TF-IDF算法模块负责从用户浏览记录中抽取新闻内容的关键词,然后利用词嵌入层生成关键词向量;隐式兴趣编码器负责利用多层感知机从关键词向量中编码出初始隐式兴趣特征向量;图神经网络负责利用图卷积神经网络传播输入的初始隐式兴趣特征向量,并通过信息汇聚得到更新的隐式兴趣特征向量;隐式兴趣解码器负责利用多层感知机解码从图神经网络中得到的更新的隐式兴趣特征向量,并得到最终的隐式兴趣特征向量;点击率预测器模块,首先利用门控网络选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量得到用户特征向量,然后基于候选新闻的注意力网络融合用户特征向量和候选新闻的新闻特征向量,得到最终的用户特征向量,最后将最终的用户特征向量和候选新闻的新闻特征向量作为输入,通过点积运算生成每个候选新闻的得分即点击率,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户;以上所述为本模型发明的结构简介。
实施例2:
如附图1所示,本发明的基于显式和隐式兴趣特征的智能新闻推荐方法,该方法具体如下:
S1、构建新闻推荐模型的训练数据集:新闻数据集包含两部分数据文件:用户浏览记录和新闻文本内容;其中,用户浏览记录包含用户编号、时间、历史新闻序列、交互行为序列;新闻文本内容包含新闻编号、类别、子类别、标题、摘要、实体;选取用户浏览记录中历史新闻序列和交互行为序列构建训练数据集的用户行为数据,选取新闻文本内容的标题、类别、子类别、摘要构建训练数据集的新闻文本数据;其中,用户行为数据将用于显式和隐式兴趣特征的提取,新闻文本内容数据将用于新闻特征的提取;构建训练数据集的方法具体如下:
S101、构建新闻数据集或者选择已公开的新闻数据集。
举例:下载网络上Microsoft已经公开的MIND新闻数据集,将其作为新闻推荐的原始数据。MIND是目前最大的英文新闻推荐系统数据集,包含20万个类别的1,000,000用户和161,013条新闻,分为训练集、验证集和测试集。MIND数据集同时提供了新闻文本内容的详细信息。每个新闻都有新闻编号、链接、标题、摘要、类别和实体:
另外,MIND数据集也提供了用户浏览记录,每条记录都包含用户编号、时间、历史新闻序列、交互行为序列:
其中,用户编号表示每一个用户在新闻平台唯一的编号;时间表示用户点击浏览一系列新闻的开始时间;历史新闻序列表示用户浏览过的一系列新闻编号的序列;交互行为序列表示用户在系统推荐的一系列新闻上的实际交互行为,1表示点击,0表示未点击。
S102、预处理新闻数据集:预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的标题、类别、子类别和摘要信息。
S103、构建训练正例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为1的新闻编号,即被用户点击的新闻的编号,构建训练正例。
举例:对步骤S101中展示的新闻实例,构建的正例数据形式化为:(N29038,N15201,N8018,N32012,N30859,N26552,N25930)。其中最后一个编号为被用户点击的新闻的编号。
S104、构建训练负例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为0的新闻编号,即未被用户点击的新闻的编号,构建训练负例。
举例:对步骤S101中展示的新闻实例,构建的负例数据形式化为:(N29038,N15201,N8018,N32012,N30859,N26552,N17825)。其中最后一个编号为未被用户点击的新闻的编号。
S105、构建训练数据集:将经过步骤S103和步骤S104操作后所获得的全部的正例数据和负例数据进行组合,并打乱其顺序,构建最终的训练数据集。
S2、构建基于显式和隐式兴趣特征的新闻推荐模型:如附图3所示,该新闻推荐模型包含新闻编码器、显式兴趣编码器、词频-逆向文件频率(TF-IDF)算法模块、隐式兴趣编码器、图神经网络、隐式兴趣解码器和点击率预测器模块。具体如下:
S201、构建新闻编码器,如附图6所示,以新闻的标题信息作为输入,从上述信息中学习新闻特征向量,具体如下:
首先,针对数据集中每一个单词构建单词映射表,并将表中每一个单词映射成唯一的数字标识,映射规则为:以数字1为起始,随后按照每个单词被录入单词映射表的顺序依次递增排序,从而形成单词映射转换表;使用Glove预训练语言模型,得到每个单词的词向量表示;在词嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表示,记为x=[x1,x2,...,xN],其中,N表示一个新闻标题的长度,xN表示每个单词的向量表示,w表示新闻标题中的一个单词。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
self.f1=nn.Linear(in_features=config.word_embedding_dim,out_features=config.hidden_dim,bias=True)
corrupted_word_embedding=self.dropout_(word_embedding)
h=torch.sigmoid(self.f1(corrupted_word_embedding))
其中,nn.Linear、torch.sigmoid分别为pytorch中内置的线性层方法和激活函数。corrupted_word_embedding为有噪声的向量。h为隐层表示。
最后,以隐层表示h作为输入,通过全连接层进行重构得到新闻特征向量r。公式如下:
r=f(U'h+u')
其中,r为新闻特征向量,f(·)表示sigmoid激活函数,U'和u'是从训练过程学到的参数。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
self.f2=nn.Linear(in_features=config.hidden_dim,out_features=config.word_embedding_dim,bias=True)
news_representation=torch.sigmoid(self.f2(h))
其中,torch.sigmoid、nn.Linear分别为pytorch中内置的激活函数,连接层方法。news_representation为新闻特征向量。
S202、构建显式兴趣编码器,为了生成用户的显式兴趣特征,显示兴趣编码器利用Fastformer方法对用户浏览记录进行处理,输出显示兴趣特征向量;具体如下:
首先,Fastformer将输入的新闻特征向量通过三种参数不共享的线性层转换成query、key和value三种向量表示,公式如下:
qi=Wqri
ki=Wkri;
vi=Wvri
其中,Wq、Wk和Wv皆为可学习的参数,ri表示第i个新闻特征向量,qi表示第i个新闻的query向量,ki表示第i个新闻的key向量,vi表示第i个新闻的value向量;
然后,使用加性注意力机制将query向量进行聚合并压缩,公式表示如下:
q=Att(q1,q2,...,qN)
其中,qi表示第i个新闻的query向量,q表示聚合了上下文信息的query向量,Att表示加性注意力机制;
之后,再使用加性注意力机制和按位相乘运算计算key向量与query向量的交互信息,公式如下:
k=Att(q⊙k1,q⊙k2,...,q⊙ki,...,q⊙kN)
其中,ki表示第i个新闻的key向量,k表示聚合了上下文信息的key向量,表示按位相乘,Att表示加性注意力机制;
然后,通过点积运算和线性层处理key向量和value向量,从而得到单个注意力头部的新闻特征向量。公式表示如下:
最后,根据M个注意力头部的输出,结合用户浏览记录,建立显式兴趣特征向量,公式表示如下:
up=[d1;d2;...;dk;...;dN]
其中,[;]表示联接操作,为第n个注意力头部输出的第k个新闻特征向量,M为注意力头部的个数,N为用户浏览记录的长度,dk为经过M个注意力头部汇聚联接而得到的第k个新闻特征向量,up为显式兴趣特征向量。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
self.fastformer=FastformerEncoder(config)
h=self.fastformer(history_embedding.view(batch_size,-1,self.news_embedding_dim))
其中,FastformerEncoder(config)为自定义的Transformer方法。
S203、构建TF-IDF算法模块:首先,将一段用户的浏览记录Cu={v1,...,vi,...,vt-1}输入到该模块,其中,v表示每条用户浏览记录;然后,使用TF-IDF算法从用户浏览记录中提取关键词;最后,将关键词通过词嵌入层映射到一个关键词向量矩阵K,其中该矩阵包含了此段用户浏览记录的关键词向量。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
tfidf_model=TfidfVectorizer().fit(df)
sparse_result=tfidf_model.transform(df)
其中,df为输入的数据,TfidfVectorizer()为TF-IDF算法的向量化方法,tfidf_model.transform()为稀疏矩阵转换的方法。
S204、构建隐式兴趣编码器,隐式兴趣编码器旨在从用户浏览记录中推测用户的隐式兴趣,具体如下:
S20401、构建多层感知机:
将用户浏览记录的关键词向量矩阵K作为输入,使用多层感知机编码这些向量,公式表示如下:
C=MLP(W′K+b′)
其中,K为关键词向量矩阵,W′表示多层感知机的可学习参数,b′为偏置,C表示经过多层感知机处理输出的关键词向量,MLP为多层感知机。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
其中,nn.Sequential、nn.Linear、nn.ReLU分别为pytorch中内置的搭建神经网络模块方法、连接层方法和激活函数。
S20402、构建兴趣推理模块:
为了从历史新闻序列的关键词向量中推测隐式兴趣,首先从新闻推荐数据集中使用TF-IDF方法抽取所有新闻的关键词,将其通过词嵌入层映射为一个全局关键词向量矩阵H,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在全局关键词向量矩阵H中的分布概率可以得到可能的关键词向量矩阵,即初始隐式兴趣特征向量;具体的过程公式表示如下:
Wp=softmax(HMC);
Cp=WpH;
其中,softmax表示softmax归一化函数,Wp表示可学习的权重矩阵。Cp表示可能的关键词向量矩阵,包含了所有的初始隐式兴趣特征向量。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
temp=torch.matmul(c.reshape(-1,self.word_embedding_dim),self.transform_matrix)
t=torch.matmul(temp,self.pretrained_concept_embedding.transpose(0,1))concept_weight=F.softmax(t,dim=1)
personalized_concept_vector=torch.matmul(concept_weight,self.pretrained_concept_embedding).reshape(batch_size,-1,self.word_embedding_dim)
其中,torch.matmul为矩阵乘法,F.softmax为softmax归一化函数。
S205、构建图神经网络:
以初始隐式兴趣特征向量Cp作为输入,通过图神经网络得到更新的隐式兴趣特征向量;具体的,第l层图神经网络的操作过程表示如下:
其中,σ表示激活函数;Hl为第l层图神经网络的节点表示,Wl表示第l层图神经网络的可学习参数,D为度矩阵;A=A+I,其中A为邻接矩阵,I为单位矩阵;具体的,第一层的输入为Cp,那么其输出为H0=Cp;经过n层的图神经网络,在t时刻更新的隐式兴趣特征向量,可表示为Ct=Hn。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
其中,GCN为pytorch_geometric工具包的图神经网络方法,in_dim为输入向量的尺寸,out_dim为输出向量的尺寸,hidden_dim为隐藏层向量的尺寸,num_layers为图神经网络的层数。
S206、构建隐式兴趣解码器:
以更新的隐式兴趣特征向量Ct作为输入,利用多层感知机作为解码器以生成最终的隐式兴趣特征向量,公式如下:
uo=MLP(WCt+b)
其中,Ct为更新的隐式兴趣特征向量,W为多层感知机可学习的参数,b为偏置,uo为最终的隐式兴趣特征向量,MLP为多层感知机。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
其中,nn.Sequential、nn.Linear、nn.relu分别为pytorch中内置的搭建神经网络模块方法、连接层方法和激活函数,user_vector为最终的隐式兴趣特征向量。
S207、构建点击率预测器,主要包含基于候选新闻的注意力网络和预测模块。具体如下:
S20701、构建门控网络,其被设计用来选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量;以显式兴趣编码器生成的显式兴趣特征向量up和隐式兴趣解码器生成的最终的隐式兴趣特征向量uo作为输入,通过门控网络生成用户特征向量ug;公式表示如下:
g=ReLU(Wg[uo;up]+bg)
ug=g⊙tanh(Vuo+v)+(1-g)⊙up
其中,Wg、Wb、V和v表示可学习的参数,bg表示偏置,符号;表示联接操作,up为显式兴趣特征向量,uo为最终的隐式兴趣特征向量,ReLU、tanh为激活函数,ug为用户特征向量,g为门控网络。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
其中,nn.Sequential为pytorch内置的模型构造方法,nn.Linear为线性层方法,nn.Sigmoid为激活函数,torch.cat为向量联接方法。
S20702、构建基于候选新闻的注意力网络,其被设计用来将候选新闻的特征整合到用户特征向量中,从而生成最终的用户特征向量。公式表示如下:
α=Att(WQn,WKug)
其中,WQ、WK为可学习的参数,n为由新闻编码器生成的候选新闻的新闻特征向量,ug为用户特征向量,L为一个用户浏览记录的长度,u为最终的用户特征向量,Att表示注意力机制函数,α为注意力权重。
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
其中,ScaledDotProduct_CandidateAttention为自定义的点乘注意力方法。
S20703、构建预测模块,其将由新闻编码器生成的候选新闻的新闻特征向量n和最终的用户特征向量u作为输入,通过点积运算预测候选新闻的点击率,公式如下:
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
probability=torch.bmm(
user_vector.unsqueeze(dim=1),
candidate_news_vector.unsqueeze(dim=2)).flatten()
其中,torch.bmm为点积运算,user_vector为用户特征向量,candidate_news_vector为新闻特征向量。
S3、训练模型:如附图4所示,具体如下:
S301、构建损失函数:采用负采样技术,将一个用户的已点击的新闻定义为正样例,没有点击过的新闻定义为负样例,计算正样例的点击预测值pi。公式如下:
新闻推荐的损失函数为所有正样例的负对数似然函数,公式如下:
举例说明:在pytorch机器学习框架中,对于上面描述的代码实现如下所示:
loss=torch.stack([x[0]for x in-F.log_softmax(y_pred,dim=1)
]).mean()
其中,F.log_softmax为pytorch内置的log_softmax损失函数,y_pred为点击预测值pi。
S302、优化模型:选择使用Adam优化函数作为本模型的优化函数,其中,学习率设置为0.0001,平滑常数设置为(0.9,0.999),eps设置为1e-8,L2惩罚值设置为0。
在实验中,本发明选取ROC曲线下的面积AUC、平均倒数排名MRR、累计增益nDCG作为评价指标。
举例说明:上面描述的优化函数在pytorch中使用代码表示为:
optimizer=torch.optim.Adam(model.parameters(),lr=learning_rate)
其中,torch.optim.Adam为pytorch内嵌的Adam优化函数,model.parameters()为模型训练的参数集合,learning_rate为学习率。
本发明的模型在MIND公开数据集上取得了优于当前模型的结果,实验结果的对比具体见下表:
本发明模型和现有模型进行了比较,可见本发明方法较其他方法其性能最优。其中,libFM出自文献《Factorization machines with libfm》,DKN出自文献《DKN:Deepknowledge-aware network for news recommendation》。
实施例3:
基于实施例2构建基于显式和隐式兴趣特征的智能新闻推荐系统,该系统包括:
训练数据集生成单元,首先在线上新闻网站获得用户的浏览记录信息,随后对其进行预处理操作,从而得到符合训练要求的用户浏览记录及其新闻文本内容;训练数据集生成单元包括,
原始数据获取单元,负责下载网络上已经公开的新闻网站数据集,将其作为构建训练数据集的原始数据;
原始数据预处理单元,负责预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的关键信息,如标题;从而构建训练数据集;
基于显式和隐式兴趣特征的新闻推荐模型构建单元,用于载入训练数据集、构建新闻编码模块、构建显式兴趣编码模块、构建TF-IDF算法模块、构建隐式兴趣编码模块、构建图神经网络模块、构建隐式兴趣解码模块以及构建点击率预测器模块,基于显式和隐式兴趣特征的新闻推荐模型构建单元包括,
训练数据集载入单元,负责加载训练数据集;
新闻编码模块构建单元,负责在训练数据集中训练基于Glove词向量模型的新闻特征向量,并定义所有的新闻特征向量;首先使用全连接层编码新闻标题向量,得到隐层表示,最后使用全连接层解码隐层表示,重构得到新闻特征向量。
显式兴趣编码模块构建单元,负责根据用户浏览记录构建显式兴趣特征向量;其中,用户浏览记录的新闻特征向量由新闻编码模块构建单元得到,利用Fastformer方法得到显式兴趣特征向量;
TF-IDF算法模块构建单元,负责利用TF-IDF算法抽取用户浏览记录中的新闻关键词,然后再利用词嵌入方法将每一个关键词映射到同一个向量空间,从而得到新闻内容的关键词向量。
隐式兴趣编码模块构建单元,负责利用多层感知机抽取关键词向量的主要特征并通过聚合操作生成关键词向量矩阵,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在关键词向量矩阵中的分布概率得到可能的关键词向量矩阵,该矩阵包含了初始隐式兴趣特征向量。
图神经网络模块构建单元,负责利用图神经网络传播和聚合初始隐式兴趣特征向量,从而得到更新的隐式兴趣特征向量。
隐式兴趣解码模块构建单元,负责利用多层感知机解码更新的隐式兴趣特征向量,从而得到最终的隐式兴趣特征向量。
点击率预测器模块构建单元,首先利用门控网络选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量得到用户特征向量,然后基于候选新闻的注意力网络融合用户特征向量和候选新闻的新闻特征向量,得到最终的用户特征向量,最后将最终的用户特征向量和候选新闻的新闻特征向量作为输入,通过点积运算生成每个候选新闻的得分即点击率,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户。
模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练;模型训练单元包括,
损失函数构建单元,负责计算预测的候选新闻与真实的目标新闻之间的误差;
模型优化单元,负责训练并调整模型训练中的参数,减小预测误差。
实施例4:
基于实施例2的存储介质,其中存储有多条指令,指令有处理器加载,执行实施例2的基于显式和隐式兴趣特征的智能新闻推荐方法的步骤。
实施例5:
基于实施例4的电子设备,电子设备包括:实施例4的存储介质;以及处理器,用于执行实施例4的存储介质中的指令。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。
Claims (9)
1.一种基于显式和隐式兴趣特征的智能新闻推荐方法,其特征在于,该方法通过构建并训练由新闻编码器、显式兴趣编码器、词频-逆向文件频率TF-IDF算法模块、隐式兴趣编码器、图神经网络、隐式兴趣解码器和点击率预测器模块所构成的新闻推荐模型,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户;具体如下:
构建新闻编码器,以新闻的标题信息作为输入,从上述信息中学习新闻特征向量;
构建基于显式和隐式兴趣特征的新闻推荐模型,以新闻编码器生成的新闻特征向量为输入,使用Fastformer得到显式兴趣特征向量;以用户的浏览记录为输入,使用词频-逆向文件频率TF-IDF算法、多层感知机和图神经网络得到隐式兴趣特征向量;
构建点击率预测器模块,首先利用门控网络选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量得到用户特征向量,然后基于候选新闻的注意力网络融合用户特征向量和候选新闻的新闻特征向量,得到最终的用户特征向量,最后将最终的用户特征向量和候选新闻的新闻特征向量作为输入,通过点积运算生成每个候选新闻的得分即点击率,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户。
2.根据权利要求1所述的基于显式和隐式兴趣特征的智能新闻推荐方法,其特征在于,所述新闻编码器的构建过程具体如下:
首先,针对数据集中每一个单词构建单词映射表,并将表中每一个单词映射成唯一的数字标识,映射规则为:以数字1为起始,随后按照每个单词被录入单词映射表的顺序依次递增排序,从而形成单词映射转换表;使用Glove预训练语言模型,得到每个单词的词向量表示;在词嵌入层将每一个新闻标题T=[w1,w2,...,wN]转换成向量表示,记为x=[x1,x2,...,xN],其中,N表示一个新闻标题的长度,xN表示每个单词的向量表示,w表示新闻标题中的一个单词;
最后,以隐层表示h作为输入,通过全连接层进行重构得到新闻特征向量r,公式如下:
r=f(U'h+u');
其中,r为新闻特征向量,f(·)表示sigmoid激活函数,U'和u'是从训练过程学到的参数。
3.根据权利要求1所述的基于显式和隐式兴趣特征的智能新闻推荐方法,其特征在于,所述基于显式和隐式兴趣特征的新闻推荐模型的构建过程具体如下:
构建显式兴趣编码器:为了生成用户的显式兴趣特征,显示兴趣编码器利用Fastformer方法对用户浏览记录进行处理,输出显示兴趣特征向量;具体如下:
首先,Fastformer将输入的新闻特征向量通过三种参数不共享的线性层转换成query、key和value三种向量表示,公式如下:
qi=Wqri;
ki=Wkri;
vi=Wvri;
其中,Wq、Wk和Wv皆为可学习的参数,ri表示第i个新闻特征向量,qi表示第i个新闻的query向量,ki表示第i个新闻的key向量,vi表示第i个新闻的value向量;
然后,使用加性注意力机制将query向量进行聚合并压缩,公式表示如下:
q=Att(q1,q2,,qN);
其中,qi表示第i个新闻的query向量,q表示聚合了上下文信息的query向量,Att表示加性注意力机制;
之后,再使用加性注意力机制和按位相乘运算计算key向量与query向量的交互信息,公式如下:
k=Att(q⊙k1,q⊙k2,...,q⊙ki,...,q⊙kN);
其中,ki表示第i个新闻的key向量,k表示聚合了上下文信息的key向量,表示按位相乘,Att表示加性注意力机制;
然后,通过点积运算和线性层处理key向量和value向量,从而得到单个注意力头部的新闻特征向量;公式表示如下:
最后,根据M个注意力头部的输出,结合用户浏览记录,建立显式兴趣特征向量,公式表示如下:
up=[d1;d2;...;dk;...;dN];
其中,[;]表示联接操作,为第n个注意力头部输出的第k个新闻特征向量,M为注意力头部的个数,N为用户浏览记录的长度,dk为经过M个注意力头部汇聚联接而得到的第k个新闻特征向量,up为显式兴趣特征向量;
构建TF-IDF算法模块:首先,将一段用户的浏览记录Cu={v1,...,vi,...,vt-1}输入到该模块,其中,v表示每条用户浏览记录;然后,使用TF-IDF算法从用户浏览记录中提取关键词;最后,将关键词通过词嵌入层映射到一个关键词向量矩阵K,其中该矩阵包含了此段用户浏览记录的关键词向量;
构建隐式兴趣编码器,隐式兴趣编码器旨在从用户浏览记录中推测用户的隐式兴趣,具体如下:
构建多层感知机:
将用户浏览记录的关键词向量矩阵K作为输入,使用多层感知机编码这些向量,公式表示如下:
C=MLP(W′K+b′);
其中,K为关键词向量矩阵,W′表示多层感知机的可学习参数,b′为偏置,C表示经过多层感知机处理输出的关键词向量,MLP为多层感知机;
构建兴趣推理模块:
为了从历史新闻序列的关键词向量中推测隐式兴趣,首先从新闻推荐数据集中使用TF-IDF方法抽取所有新闻的关键词,将其通过词嵌入层映射为一个全局关键词向量矩阵H,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在全局关键词向量矩阵H中的分布概率可以得到可能的关键词向量矩阵,即初始隐式兴趣特征向量;具体的过程公式表示如下:
Wp=softmax(HMC);
Cp=WpH;
其中,softmax表示softmax归一化函数,Wp表示可学习的权重矩阵;Cp表示可能的关键词向量矩阵,包含了所有的初始隐式兴趣特征向量;
构建图神经网络:以初始隐式兴趣特征向量Cp作为输入,通过图神经网络得到更新的隐式兴趣特征向量;具体的,第l层图神经网络的操作过程表示如下:
其中,σ表示激活函数;Hl为第l层图神经网络的节点表示,Wl表示第l层图神经网络的可学习参数,D为度矩阵;A=A+I,其中A为邻接矩阵,I为单位矩阵;具体的,第一层的输入为Cp,那么其输出为H0=Cp;经过n层的图神经网络,在t时刻更新的隐式兴趣特征向量,可表示为Ct=Hn;
构建隐式兴趣解码器:以更新的隐式兴趣特征向量Ct作为输入,利用多层感知机作为解码器以生成最终的隐式兴趣特征向量,公式如下:
uo=MLP(WCt+b);
其中,Ct为更新的隐式兴趣特征向量,W为多层感知机可学习的参数,b为偏置,uo为最终的隐式兴趣特征向量,MLP为多层感知机。
4.根据权利要求1所述的基于显式和隐式兴趣特征的智能新闻推荐方法其特征在于,所述点击率预测器的构建过程具体如下:
构建门控网络:其被设计用来选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量;以显式兴趣编码器生成的显式兴趣特征向量up和隐式兴趣解码器生成的最终的隐式兴趣特征向量uo作为输入,通过门控网络生成用户特征向量ug;公式表示如下:
g=ReLU(Wg[uo;up]+bg);
ug=g⊙tanh(Vuo+v)+(1-g)⊙up;
其中,Wg、Wb、V和v表示可学习的参数,bg表示偏置,符号;表示联接操作,up为显式兴趣特征向量,uo为最终的隐式兴趣特征向量,ReLU、tanh为激活函数,ug为用户特征向量,g为门控网络;
构建基于候选新闻的注意力网络,其被设计用来将候选新闻的特征整合到用户特征向量中,从而生成最终的用户特征向量;公式表示如下:
α=Att(WQn,WKug);
其中,WQ、WK为可学习的参数,n为由新闻编码器生成的候选新闻的新闻特征向量,ug为用户特征向量,L为一个用户浏览记录的长度,u为最终的用户特征向量,Att表示注意力机制函数,α为注意力权重;
构建预测模块,其将由新闻编码器生成的候选新闻的新闻特征向量n和最终的用户特征向量u作为输入,通过点积运算预测候选新闻的点击率,公式如下:
本方法模型尚未进行充分训练时,需要在训练数据集上进行训练,以优化模型参数;当模型训练完毕时,点击率预测器可预测每一条候选新闻的推荐得分,根据得分,推荐合适的新闻给用户。
5.根据权利要求1所述的基于显式和隐式兴趣特征的智能新闻推荐方法,其特征在于,所述训练数据集的构建过程具体如下:
构建新闻数据集或者选择已公开的新闻数据集;
预处理新闻数据集:预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的标题、类别、子类别和摘要信息;
构建训练正例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为1的新闻编号,即被用户点击的新闻的编号,构建训练正例;
构建训练负例:使用用户浏览记录中的历史新闻序列和交互行为序列中标签为0的新闻编号,即未被用户点击的新闻的编号,构建训练负例;
构建训练数据集:将全部的正例数据和负例数据进行组合,并打乱其顺序,构建最终的训练数据集。
6.根据权利要求1所述的基于显式和隐式兴趣特征的新闻推荐模型构建完成后通过训练数据集进行新闻推荐模型的训练与优化,具体如下:
构建损失函数:采用负采样技术,将一个用户的已点击的新闻定义为正样例,没有点击过的新闻定义为负样例,计算正样例的点击预测值pi;公式如下:
新闻推荐的损失函数为所有正样例的负对数似然函数,公式如下:
优化训练模型:选择使用Adam优化函数作为本模型的优化函数,其中,学习率设置为0.001,平滑常数设置为(0.9,0.999),eps设置为1e-8,L2惩罚值设置为0。
7.一种基于显式和隐式兴趣特征的智能新闻推荐系统,该系统包括,
训练数据集构建单元,首先在线上新闻网站获得用户的浏览记录信息,随后对其进行预处理操作,从而得到符合训练要求的用户浏览记录及其新闻文本内容;训练数据集构建单元包括,
原始数据获取单元,负责下载网络上已经公开的新闻网站数据集,将其作为构建训练数据集的原始数据;
原始数据预处理单元,负责预处理新闻数据集中的每一条新闻文本,去除新闻数据集中的停用词及特殊字符;分别抽取每一条新闻文本的关键信息,如标题;从而构建训练数据集;
基于显式和隐式兴趣特征的新闻推荐模型构建单元,用于载入训练数据集、构建新闻编码模块、构建显式兴趣编码模块、构建TF-IDF算法模块、构建隐式兴趣编码模块、构建图神经网络模块、构建隐式兴趣解码模块以及构建点击率预测器模块,基于显式和隐式兴趣特征的新闻推荐模型构建单元包括,
训练数据集载入单元,负责加载训练数据集;
新闻编码模块构建单元,负责在训练数据集中训练基于Glove词向量模型的新闻特征向量,并定义所有的新闻特征向量;首先使用全连接层编码新闻标题向量,得到隐层表示,最后使用全连接层解码隐层表示,重构得到新闻特征向量;
显式兴趣编码模块构建单元,负责根据用户浏览记录构建显式兴趣特征向量;其中,用户浏览记录的新闻特征向量由新闻编码模块构建单元得到,利用Fastformer方法得到显式兴趣特征向量;
TF-IDF算法模块构建单元,负责利用TF-IDF算法抽取用户浏览记录中的新闻关键词,然后再利用词嵌入方法将每一个关键词映射到同一个向量空间,从而得到新闻内容的关键词向量;
隐式兴趣编码模块构建单元,负责利用多层感知机抽取关键词向量的主要特征并通过聚合操作生成关键词向量矩阵,然后通过一个可学习的映射矩阵M过滤可能的关键词,再通过计算可能的关键词在关键词向量矩阵中的分布概率得到可能的关键词向量矩阵,该矩阵包含了初始隐式兴趣特征向量;
图神经网络模块构建单元,负责利用图神经网络传播和聚合初始隐式兴趣特征向量,从而得到更新的隐式兴趣特征向量;
隐式兴趣解码模块构建单元,负责利用多层感知机解码更新的隐式兴趣特征向量,从而得到最终的隐式兴趣特征向量;
点击率预测器模块构建单元,首先利用门控网络选择重要的特征信息以及聚合显式兴趣特征向量和最终的隐式兴趣特征向量得到用户特征向量,然后基于候选新闻的注意力网络融合用户特征向量和候选新闻的新闻特征向量,得到最终的用户特征向量,最后将最终的用户特征向量和候选新闻的新闻特征向量作为输入,通过点积运算生成每个候选新闻的得分即点击率,将所有候选新闻依据点击率大小由高到低进行排序,将Top-K条新闻推荐给用户;
模型训练单元,用于构建模型训练过程中所需要的损失函数,并完成模型的优化训练;模型训练单元包括,
损失函数构建单元,负责计算预测的候选新闻与真实的目标新闻之间的误差;
模型优化单元,负责训练并调整模型训练中的参数,减小预测误差。
8.一种存储介质,其中存储有多条指令,其特征在于,所述指令由处理器加载,执行权利要求1-6中所述的基于显式和隐式兴趣特征的新闻推荐方法的步骤。
9.一种电子设备,其特征在于,所述电子设备包括:
权利要求8所述的存储介质;以及处理器,用于执行所述存储介质中的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412932.6A CN116340641A (zh) | 2023-04-13 | 2023-04-13 | 基于显式和隐式兴趣特征的智能新闻推荐方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310412932.6A CN116340641A (zh) | 2023-04-13 | 2023-04-13 | 基于显式和隐式兴趣特征的智能新闻推荐方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116340641A true CN116340641A (zh) | 2023-06-27 |
Family
ID=86877284
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310412932.6A Pending CN116340641A (zh) | 2023-04-13 | 2023-04-13 | 基于显式和隐式兴趣特征的智能新闻推荐方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116340641A (zh) |
-
2023
- 2023-04-13 CN CN202310412932.6A patent/CN116340641A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107836000B (zh) | 用于语言建模和预测的改进的人工神经网络方法、电子设备 | |
CN109829104B (zh) | 基于语义相似度的伪相关反馈模型信息检索方法及系统 | |
CN109376222B (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
CN112085565B (zh) | 基于深度学习的信息推荐方法、装置、设备及存储介质 | |
CN111291188B (zh) | 一种智能信息抽取方法及系统 | |
CN110390052B (zh) | 搜索推荐方法、ctr预估模型的训练方法、装置及设备 | |
CN111914062B (zh) | 一种基于关键词的长文本问答对生成系统 | |
CN112328900A (zh) | 一种融合评分矩阵和评论文本的深度学习推荐方法 | |
CN111209386A (zh) | 一种基于深度学习的个性化文本推荐方法 | |
CN116431919A (zh) | 基于用户意图特征的智能新闻推荐方法和系统 | |
CN117453921B (zh) | 一种大语言模型的数据信息标签处理方法 | |
US11533495B2 (en) | Hierarchical video encoders | |
CN112464100B (zh) | 信息推荐模型训练方法、信息推荐方法、装置及设备 | |
CN112256859A (zh) | 一种基于双向长短期记忆网络显式信息耦合分析的推荐方法 | |
CN114943034A (zh) | 基于细粒度方面特征的智能新闻推荐方法和系统 | |
CN114386513A (zh) | 一种集成评论与评分的交互式评分预测方法及系统 | |
CN114077661A (zh) | 信息处理装置、信息处理方法和计算机可读介质 | |
CN116401542A (zh) | 一种多意图多行为解耦推荐方法及装置 | |
Xiao et al. | User preference mining based on fine-grained sentiment analysis | |
CN115695950A (zh) | 一种基于内容感知的视频摘要生成方法 | |
CN111079011A (zh) | 一种基于深度学习的信息推荐方法 | |
CN114065063A (zh) | 信息处理方法、信息处理装置、存储介质与电子设备 | |
CN117171440A (zh) | 基于新闻事件和新闻风格联合建模的新闻推荐方法和系统 | |
Meng et al. | Variational Bayesian representation learning for grocery recommendation | |
CN115203206A (zh) | 数据内容搜索方法、装置、计算机设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |