CN112115243A - 通过对时序时间相关性建模的会话表示学习方法 - Google Patents
通过对时序时间相关性建模的会话表示学习方法 Download PDFInfo
- Publication number
- CN112115243A CN112115243A CN202010803951.8A CN202010803951A CN112115243A CN 112115243 A CN112115243 A CN 112115243A CN 202010803951 A CN202010803951 A CN 202010803951A CN 112115243 A CN112115243 A CN 112115243A
- Authority
- CN
- China
- Prior art keywords
- item
- conversation
- session
- sequence
- influence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种通过对时序时间相关性建模的会话表示学习方法,包括以下步骤:利用会话的时序特性,如项目特征、项目之间的位置特征、会话的长度特征,获取会话之中各个项目的融合系数;在会话级别上,整体归一化融合系数,之后利用归一化的融合系数融合会话中所有的项目,生成最终的会话表示;会话表示通过一个分类器进行预测。本发明对序列中时序相关性建模来学习会话表示,充分考虑了不同时序特性对于会话表示的贡献,可以获得更高的预测结果。
Description
技术领域
本发明涉及会话推荐技术领域,具体涉及一种通过对时序时间相关性建模的会话表示学习方法。
背景技术
互联网的诞生催生了海量数据,这让人们难以选择有用的信息。会话推荐是一种短期推荐,通常不跟踪用户ID,仅使用短期历史记录进行推荐。由于许多平台都支持匿名访问,因此这种情况已在社交平台上广泛出现。当会话关闭时,平台将丢失匿名用户的身份。因此,关键是要利用现有会话之间的相似行为,估计用户兴趣并预测其后续行为。
协同过滤是推荐系统中经典的算法之一,该算法通过用户和项目之间的交互记录来分析用户的兴趣并做出预测。协同过滤也可以在会话推荐中使用。较为常见的是Item-KNN方法。Item-KNN根据项目之间的相似性做出预测,这种方法通常仅考虑会话中用户最后一次与之交互的项目,而忽略历史交互项目对当前预测的影响。Session-KNN基于会话之间的相似性做出预测,通常会考虑整个会话序列,但不考虑会话中项目的时序关系。矩阵分解也是推荐系统中的经典算法,它将用户与项目之间的交互矩阵分解为用户与项目的潜在因子矩阵,然后通过内部积进行预测。在会话推荐中,我们通常使用会话和项目之间的交互矩阵,而不是用户和项目之间的交互矩阵。由于会话并不完全等同于用户,因此在实践中,该方法的实用性将降低。后来,马尔可夫链应用于会话推荐中。马尔可夫链通常只能基于局部序列构造模型,而忽略序列的历史记录。
近年来,随着深度学习的发展,基于神经网络的模型已广泛应用于各种任务之中。同样的,该模型也应用于会话推荐。由于会话固有的时序性质,一些工作尝试使用递归神经网络(RNN)解决此类推荐问题。GRU4REC首先将RNN应用于会话推荐,并取得了良好的效果。之后,一些工作尝试在GRU4REC的基础上进行改进,包括分层RNN,数据增强,融合注意力机制,融合邻居会话和融合图网络。这些方法本质上都是基于RNN的。经实践证明,RNN可以很好地解决序列推荐问题。但是,逐次融合项目的RNN策略,始终在寻找局部最优融合策略,很难找到长序列项目的最优融合方式。
发明内容
本发明的目的在于提供一种通过对时序时间相关性建模的会话表示学习方法,方法整体上采用前馈神经网络构建,通过大量的学习样本来学习网络中各个部分的参数。
实现本发明目的的技术方案为:一种通过对时序时间相关性建模的会话表示学习方法,包括以下步骤:
步骤1,项目影响系数学习:根据会话序列的当前项目、最后项目、项目位置、会话长度共同学习项目影响系数并进行归一化;
步骤2,会话表示学习:利用学习好的项目影响系数融合会话中所有的项目,得到最终的会话表示;
步骤3,构建一个多分类的分类器,获得会话的预测概率。
本发明与现有技术相比,其显著优点为:(1)在获得项目的融合系数的过程中,本发明比其他方法多考虑了项目之间的相对位置和会话长度这两个会话特征;(2)本发明提出了一种向量级的融合系数来融合序列中的项目,这种方法能够充分考虑项目分量对于最终预测的影响;(3)本发明的方法可以整体考虑会话项目的融合方案,而不是像RNN一样需要逐次融合,这样能够更容易的找到最优融合策略。
附图说明
图1为本发明通过对时序时间相关性建模的会话表示学习方法的流程图。
具体实施方式
结合图1,本发明提出一种通过对时序时间相关性建模的会话表示学习方法,该方法用于解决会话推荐问题,会话推荐的定义是预测会话下一个可能被单击的项目;已知会话点击过的项目序列,项目以索引号的形式给出;项目的其他信息和用户信息均为未知;让I={i1,i2,...,in}代表由n个项目组成的集合,∑={s1,s2,...,sm}表示由m个会话组成的集合;包含着b个项目的会话∑a即为,∑a=[ia,1,ia,2,...,ia,b],其中ia,j∈I;需要预测会话∑a下一个可能交互的项目的概率排序预测概率生成推荐列表从而进行top-k推荐。
本发明的具体步骤如下:
步骤1,项目影响系数学习:根据会话序列的当前项目、最后项目、项目位置、会话长度共同学习项目影响系数并进行归一化;
设有一个包含k个项目的会话序列,∑1=[i1,i2,...,ik],其中ij∈I。
会话中除去最后一项的项目影响系数向量的公式如下:
对于序列∑1,上述公式可以计算项目ia的影响系数向量;cp表示除最后一项之外的其他项目的影响系数向量,其中cp∈RD,D是项目的嵌入维度;表示项目ia的影响系数向量。Mx,Ml,Mp,Me是四个影响系数矩阵,我们将在后面详细介绍。ia,ik,k-1,k分别表示项目a的索引号,项目k的索引号,项目a和项目k之间的距离,会话的长度。bx,bl,bp,be代表相应的偏置参数,其中bx∈RD,bl∈RD,bp∈RD,be∈RD。σ表示非线性激活函数。
Mx为项目自身影响系数矩阵,表示项目本身对影响系数的影响。Mx是一个从项目索引号到系数向量的映射集,包含着所有项目的系数向量。Mx∈RN×D,其中N表示项目的数量,D表示项目的嵌入维度。Mx是一个可学习的参数矩阵。
Ml为会话最后一项影响系数矩阵,表示会话序列中最后一项项目对影响系数的影响。Ml是一个从项目索引号到系数向量的映射集,包含着所有项目的系数向量。Ml∈RN×D,其中N表示项目的数量,D表示项目的嵌入维度。Ml是一个可学习的参数矩阵。
Mp为会话项目位置影响系数矩阵,表示会话序列中任意一个项目与最后项目的距离对影响系数的影响。Mp是一个从距离到系数向量的映射集,包含着数据集中所有距离的系数向量。Mp∈R(maxlen-1)×D,其中maxlen表示会话的最大长度,D表示项目的嵌入维度。Mp是一个可学习的参数矩阵。
Me为会话长度影响系数矩阵,表示会话序列长度对影响系数的影响。Me是一个从长度到系数向量的映射集,包含着数据集中所有序列长度的系数向量。Me∈Rmaxlen×D,其中maxlen表示会话的最大长度,D表示项目的嵌入维度。Me是一个可学习的参数矩阵。
会话中最后一项的项目影响系数向量的表达式如下:
对于序列∑1,上述公式可以计算项目ik的影响系数向量,也就是会话最后一项项目的影响系数向量。cl表示最后一项的影响系数向量,其中cl∈RD,D是项目的嵌入维度。表示ik的影响系数向量。1D表示维度为D且每个分量都为1的向量。σ表示cp的非线性激活函数。
影响系数的归一化公式如下:
对于序列∑1,上述公式可以计算项目ix经过归一化的影响系数向量。ix表示序列中的任意项目。n表示经过归一化的影响系数向量,其中n∈RD,D表示是项目嵌入维度。
步骤2,会话表示学习:利用学习好的项目影响系数融合会话中所有的项目,得到最终的会话表示;
在会话推荐中,通常使用嵌入层把项目转化成一个高维稠密向量。这里本发明使用了同样的方法。嵌入层是一个前馈神经网络,它将项目的索引号投射到高维空间。
会话表示公式如下:
序列∑1的会话表示如上式所示,其中 表示项目ij经过归一化后的影响系数向量,其中E表示项目的嵌入矩阵,其E∈RN×D,N表示项目的数量,D表示项目的嵌入维度。根据项目的索引号找到对应项目的嵌入向量。表示项目ij的嵌入向量。*表示哈德玛积。
步骤3,构建多分类器,进行模型预测;
会话预测得分公式如下:
这里,使用批梯度下降法进行训练。应该注意的是,本发明首先提取了序列的相应特征。序列特征包括当前项目的索引号,最后一个项目的索引号,项目的位置信息和序列的长度信息。这些序列特征是模型的输入。序列的真实标签是该序列下一次点击的项目。使用softmax函数作为损失函数,使用Adam作为优化器。
损失函数公式如下:
下面结合实施例对本发明进行详细说明。
实施例1
本实施例采用2015年RecSys挑战赛的Yoochoose数据集。数据过滤掉长度为1的会话和出现次数小于5次的项目,测试集为最后一天的会话,共55,898个,训练集为离最后一天最近的1/64时间切片,共369,859个。项目嵌入矩阵维度为150,激活函数为Sigmoid,训练epoch为100,学习率为0.001。本实施例的测试结果使用Recall和MRR进行评估,结果如下:
Recall | MRR |
71.77 | 30.55 |
实施例2
本实施例采用2016年CIKM挑战赛的Dignetica数据集。数据过滤掉长度为1的会话和出现次数小于5次的项目,测试集为最后七天的会话,共60,858个,训练集为剩余的其他会话,共369,859个。项目嵌入矩阵维度为150,激活函数为Sigmoid,训练epoch为100,学习率为0.001。本实施例的测试结果使用Recall和MRR进行评估,结果如下:
Recall | MRR |
54.56 | 18.74 |
本发明对序列中时序相关性建模来学习会话表示,考虑了会话的序列性质;充分考虑了不同时序特性对于会话表示的贡献,可以获得更高的预测结果。
Claims (4)
1.一种通过对时序时间相关性建模的会话表示学习方法,其特征在于,包括以下步骤:
步骤1,项目影响系数学习:根据会话序列的当前项目、最后项目、项目位置、会话长度共同学习项目影响系数并进行归一化;
步骤2,会话表示学习:利用学习好的项目影响系数融合会话中所有的项目,得到最终的会话表示;
步骤3,构建一个多分类的分类器,获得会话的预测概率。
2.根据权利要求1所述的通过对时序时间相关性建模的会话表示学习方法,其特征在于,项目影响系数学习的具体方法如下:
已知会话点击过的项目序列,项目以索引号的形式给出;项目的其他信息和用户信息均为未知;由I={i1,i2,...,in}代表由n个项目组成的集合,∑={s1,s2,...,sm}表示由m个会话组成的集合;包含着b个项目的会话∑a即为,∑a=[ia,1,ia,2,...,ia,b],其中ia,j∈I;需要预测会话∑a下一个可能交互的项目的概率排序预测概率生成推荐列表从而进行top-k推荐;
设有一个包含k个项目的会话序列,∑1=[i1,i2,...,ik],其中ij∈I;
会话中除去最后一项的项目影响系数向量的公式如下:
对于序列∑1,上述公式可以计算项目ia的影响系数向量;cp表示除最后一项之外的其他项目的影响系数向量,其中cp∈RD,D是项目的嵌入维度;表示项目ia的影响系数向量;Mx,Ml,Mp,Me是四个影响系数矩阵,ia,ik,k-1,k分别表示项目a的索引号,项目k的索引号,项目a和项目k之间的距离,会话的长度;bx,bl,bp,be代表相应的偏置参数,其中bx∈RD,bl∈RD,bp∈RD,be∈RD;σ表示非线性激活函数;
Mx为项目自身影响系数矩阵,表示项目本身对影响系数的影响;Mx是一个从项目索引号到系数向量的映射集,包含着所有项目的系数向量;Mx∈RN×D,其中N表示项目的数量;
Ml为会话最后一项影响系数矩阵,表示会话序列中最后一项项目对影响系数的影响;Ml是一个从项目索引号到系数向量的映射集,包含着所有项目的系数向量;Ml∈RN×D;
Mp为会话项目位置影响系数矩阵,表示会话序列中任意一个项目与最后项目的距离对影响系数的影响;Mp是一个从距离到系数向量的映射集,包含着数据集中所有距离的系数向量;Mp∈R(maxlen-1)×D,其中maxlen表示会话的最大长度;
Me为会话长度影响系数矩阵,表示会话序列长度对影响系数的影响;Me是一个从长度到系数向量的映射集,包含着数据集中所有序列长度的系数向量;Me∈Rmaxlen×D;
Mx、Ml、Mp、Me是可学习的参数矩阵;
会话中最后一项的项目影响系数向量的表达式如下:
对于序列∑1,上述公式可计算项目ik的影响系数向量,也就是会话最后一项项目的影响系数向量;cl表示最后一项的影响系数向量,其中cl∈RD;表示ik的影响系数向量;1D表示维度为D且每个分量都为1的向量;σ表示cp的非线性激活函数;
影响系数的归一化公式如下:
对于序列∑1,上述公式可计算项目ix经过归一化的影响系数向量;ix表示序列中的任意项目;n表示经过归一化的影响系数向量,其中n∈RD。
4.根据权利要求3所述的通过对时序时间相关性建模的会话表示学习方法,其特征在于,步骤3构建多分类的分类器,进行模型预测,获得会话的预测概率,具体方法如下:在获得会话表示之后,计算所有候选项目的得分其中
会话预测得分公式如下:
使用批梯度下降法进行训练;首先提取序列的相应特征;序列特征包括当前项目的索引号,最后一个项目的索引号,项目的位置信息和序列的长度信息;这些序列特征是模型的输入;序列的真实标签是该序列下一次点击的项目;使用softmax函数作为损失函数,使用Adam作为优化器;
损失函数公式如下:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803951.8A CN112115243B (zh) | 2020-08-11 | 2020-08-11 | 通过对时序时间相关性建模的会话表示学习方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010803951.8A CN112115243B (zh) | 2020-08-11 | 2020-08-11 | 通过对时序时间相关性建模的会话表示学习方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112115243A true CN112115243A (zh) | 2020-12-22 |
CN112115243B CN112115243B (zh) | 2023-06-16 |
Family
ID=73804877
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010803951.8A Active CN112115243B (zh) | 2020-08-11 | 2020-08-11 | 通过对时序时间相关性建模的会话表示学习方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112115243B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685657A (zh) * | 2021-01-06 | 2021-04-20 | 中国计量大学 | 一种基于多模态交叉融合图网络的会话社交推荐方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
CN109992780A (zh) * | 2019-03-29 | 2019-07-09 | 哈尔滨理工大学 | 一种基于深度神经网络特定目标情感分类方法 |
CN110399553A (zh) * | 2019-06-28 | 2019-11-01 | 南京工业大学 | 一种基于对抗学习的会话推荐列表生成方法 |
CN111460331A (zh) * | 2020-04-07 | 2020-07-28 | 中国计量大学 | 一种基于时空图的会话推荐方法 |
-
2020
- 2020-08-11 CN CN202010803951.8A patent/CN112115243B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109710761A (zh) * | 2018-12-21 | 2019-05-03 | 中国标准化研究院 | 基于注意力增强的双向lstm模型的情感分析方法 |
CN109992780A (zh) * | 2019-03-29 | 2019-07-09 | 哈尔滨理工大学 | 一种基于深度神经网络特定目标情感分类方法 |
CN110399553A (zh) * | 2019-06-28 | 2019-11-01 | 南京工业大学 | 一种基于对抗学习的会话推荐列表生成方法 |
CN111460331A (zh) * | 2020-04-07 | 2020-07-28 | 中国计量大学 | 一种基于时空图的会话推荐方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112685657A (zh) * | 2021-01-06 | 2021-04-20 | 中国计量大学 | 一种基于多模态交叉融合图网络的会话社交推荐方法 |
CN112685657B (zh) * | 2021-01-06 | 2022-03-04 | 中国计量大学 | 一种基于多模态交叉融合图网络的会话社交推荐方法 |
Also Published As
Publication number | Publication date |
---|---|
CN112115243B (zh) | 2023-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111581520B (zh) | 基于会话中物品重要性的物品推荐方法和系统 | |
CN109299396B (zh) | 融合注意力模型的卷积神经网络协同过滤推荐方法及系统 | |
CN109934261B (zh) | 一种知识驱动参数传播模型及其少样本学习方法 | |
CN108829763B (zh) | 一种基于深度神经网络的影评网站用户的属性预测方法 | |
CN112381581B (zh) | 一种基于改进Transformer的广告点击率预估方法 | |
Silva-Ramírez et al. | Missing value imputation on missing completely at random data using multilayer perceptrons | |
CN111079985B (zh) | 一种基于bert并融合可区分属性特征的刑事案件刑期预测方法 | |
CN111859166B (zh) | 一种基于改进的图卷积神经网络的物品评分预测方法 | |
CN110781409B (zh) | 一种基于协同过滤的物品推荐方法 | |
CN108038492A (zh) | 一种基于深度学习的感性词向量及情感分类方法 | |
CN111506835B (zh) | 一种融合用户时间特征和个性特征的数据特征提取方法 | |
Bordes et al. | Learning to generate samples from noise through infusion training | |
Liu et al. | Customized nonlinear bandits for online response selection in neural conversation models | |
CN115618196A (zh) | 基于时空特征下的Transformer异常检测方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN112650933A (zh) | 一种基于高阶聚合的图卷积融合多头注意力机制的会话推荐方法 | |
CN117786602A (zh) | 一种基于多元信息交互的长周期多元时间序列预测方法 | |
CN113505307A (zh) | 一种基于弱监督增强的社交网络用户地域识别方法 | |
CN110738314B (zh) | 一种基于深度迁移网络的点击率预测方法及装置 | |
CN112115243B (zh) | 通过对时序时间相关性建模的会话表示学习方法 | |
CN116452241B (zh) | 一种基于多模态融合神经网络的用户流失概率计算方法 | |
Jasim et al. | Analyzing Social Media Sentiment: Twitter as a Case Study | |
CN116680456A (zh) | 基于图神经网络会话推荐系统的用户偏好预测方法 | |
Bouneffouf et al. | Dialogue system with missing observation | |
Bhalekar et al. | Machine learning: Survey, types and challenges |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |