CN112948681A - 一种融合多维度特征的时间序列数据推荐方法 - Google Patents

一种融合多维度特征的时间序列数据推荐方法 Download PDF

Info

Publication number
CN112948681A
CN112948681A CN202110270394.2A CN202110270394A CN112948681A CN 112948681 A CN112948681 A CN 112948681A CN 202110270394 A CN202110270394 A CN 202110270394A CN 112948681 A CN112948681 A CN 112948681A
Authority
CN
China
Prior art keywords
time
session
representing
click
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110270394.2A
Other languages
English (en)
Other versions
CN112948681B (zh
Inventor
冀振燕
吴梦丹
王开阳
赵阳
杨昕阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jiaotong University
Original Assignee
Beijing Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jiaotong University filed Critical Beijing Jiaotong University
Priority to CN202110270394.2A priority Critical patent/CN112948681B/zh
Publication of CN112948681A publication Critical patent/CN112948681A/zh
Application granted granted Critical
Publication of CN112948681B publication Critical patent/CN112948681B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种融合多维度特征的时间序列数据推荐方法。该方法包括:利用多通道卷积神经网络从不同维度捕获项目的内部特征;将内部特征与时间序列网络模型捕获的外部特征合并;通过注意机制将内部特征和外部特征合并,作为转换函数的输入;对于用户下一次点击事件,预测输出用户点击项目的可能性。本发明既考虑了会话项目推荐的外部特征,又包含了会话项目推荐的内部特征,能够利用会话丰富的嵌入特征提供高精确度的个性化推荐。

Description

一种融合多维度特征的时间序列数据推荐方法
技术领域
本发明涉及互联网技术领域,更具体地,涉及一种融合多维度特征的时间序列数据推荐方法。
背景技术
为了应对互联网信息时代信息的爆炸性增长,使得用户能够快速找到需要的商品信息,推荐系统已成为用户处理大量信息的有效解决方案。为了获得更好的用户体验,个性化推荐系统已应用于许多场景,包括电影推荐,音乐推荐,在线购物等。
传统的推荐系统主要分为基于协同过滤(CF)的推荐系统,基于内容的推荐系统(CB)和混合推荐系统(HRS)。基于CF的推荐系统通过用户或项目的相似性来建立用户偏好模型。基于内容的推荐系统基于项目的内容特征进行推荐。但是,基于CF的建议存在数据稀疏和冷启动问题。为了解决这些问题,混合推荐系统应运而生,并提取了包括项目属性,用户的社交网络和项目评论在内的信息。
近年来,深度学习技术被广泛用于推荐系统。在许多神经模型中,首先应用递归神经网络方法。然后,数据的丰富特征通过神经网络等方法进行提取,其中,用户时间行为用于数据扩充。最近,许多推荐方法通过考虑全局偏好和局部偏好来捕获用户的兴趣。尽管上述方法取得了很大的进步,但仍然有一些局限性。首先,大量的会话推荐系统是基于用户的历史行为信息,没有大量的用户信息,这些推荐系统将无法准确地进行推荐。其次,尽管按时间顺序标记的顺序特征被捕获,但项目之间的信息却被忽略。
发明内容
本发明的目的是克服上述现有技术的缺陷,提供一种融合多维度特征的时间序列数据推荐方法,是涉及文本处理、信息提取、特征提取等的新技术方案。
本发明的技术方案是提供一种融合多维度特征的时间序列数据推荐方法。该方法包括以下步骤:
步骤S1,构建数据集,该数据集所包含的会话中的点击条目被表示为向量;
步骤S2,针对所述数据集,利用知识图提取生成初始会话嵌入,每个会话被建模为有向图,其中用户的点击事件中的前一项点击和后一项点击之间的交互信息生成该有向图中的一条边,将用户点击事件中的点击条目生成该有向图中的节点;
步骤S3,利用图神经网络生成节点的嵌入向量表示,使用步骤S1得到的向量嵌入,经过图神经网络聚合节点特征,生成新的节点嵌入向量;
步骤S4,利用卷积神经网络提取多个维度的局部信息作为会话的内部特征;
步骤S5,以步骤S3获得的嵌入向量为输入,利用时间序列网络模型提取序列信息作为会话的外部特征;
步骤S6,将提取到的会话的外部特征和内部特征通过注意力机制进行数据融合;
步骤S7,对于用户下一次点击事件,预测输出用户点击项目的可能性。
与现有技术相比,本发明的优点在于,融合了会话的外部和内部特征,应用卷积神经网络充分提取不同维度的局部信息,通过递归神经网络提取条目序列信息作为外部信息,提高了推荐精确度。进一步地,将提取的特征经过自适应机制,自适应权重聚合特征,最后经过非线性变换函数输出下一次点击条目的可能性。此外,为了处理这些数据,建立了知识图提取数据结构和条目信息。在提取序列条目信息的过程中,将经过时间序列网络模型提取的序列信息作为外部信息,经过多通道卷积神经网络提取的信息作为内部特征。本发明提出的融合多维度特征的时间序列数据推荐方法充分提取了用户历史点击事件信息,同时,融合会话内部特征和外部特征进行推荐,也缓解了推荐系统的冷启动问题。
通过以下参照附图对本发明的示例性实施例的详细描述,本发明的其它特征及其优点将会变得清楚。
附图说明
被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例,并且连同其说明一起用于解释本发明的原理。
图1是根据本发明一个实施例的融合多维度特征的时间序列数据推荐方法的流程图;
图2是根据本发明一个实施例的融合多维度特征的时间序列数据推荐方法的整体过程示意图。
具体实施方式
现在将参照附图来详细描述本发明的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有例子中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它例子可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
结合图1和图2所示,所提供的融合多维度特征的时间序列数据推荐方法包括以下步骤。
步骤S110,对会话数据进行预处理,构建数据集。
具体地,对会话数据预处理包括以下步骤:
步骤S111,分割数据
根据不同的数据集,可采取不同的数据分割方法。例如,对于不同的数据集,数据的断点不同,可根据不同的断点分割数据集。
步骤S112,统计词频
例如,采用循环方法,遍历整个数据集,记录并存储每个条目出现的次数。对于每个会话,统计会话的长度。
步骤S113,生成时间戳
为提取数据集的时间属性,可将时间按照年、月、日或者年、月、日、小时、分钟、秒的形式提取和存储。
步骤S114,筛选数据
将上述提取的数据进行统计信息后,将会话长度小于5和出现总次数小于5的条目和会话删除,以提供后续预测的精确度。
步骤S115,划分训练集、测试集
根据日期划分训练集和测试集,将训练集和测试集均以会话的形式保存。
步骤S116,会话编号
将训练会话转换为序列并重新编号,将测试会话转换为序列,而忽略训练集中未出现的项目。
经上述处理,可以去除对后续提升预测精确度有影响的数据,并生成便于处理的数据形式。例如,会话中点击的条目可用向量表示,每个会话被表示为:[条目1,条目2,条目3,……]。
步骤S120,利用知识图提取生成初始会话嵌入。
优选地,结合知识图生成初始用户点击条目向量能更加精确的生成会话的向量嵌入。知识图是一种有向图,图中的节点表示用户点击的条目,有向边表示用户的点击序列信息。将用户的点击序列生成有向图能够进一步提取条目以及序列信息。
在一个实施例中,利用知识图提取生成初始会话嵌入包括如下几个步骤:
步骤121,有向图加边
将用户的点击事件中的前一项点击和后一项点击之间的交互信息生成知识有向图中的一条边,并存储在知识有向图中。同时,赋予该条边权重为1。
步骤S122,有向图加节点
将用户点击事件中的点击条目生成有向图中的节点存储到知识有向图中。
步骤S123,划分训练集和验证集
将生成的数据根据设定的大小分为训练集和验证集。
例如,每个会话都被建模为有向图Gs=(Vss),其中V={v1,v2,v3,···,vn}表示用户点击的条目集合,
Figure BDA0002974114980000051
表示一个会话中用户点击条目的集合。具体地,Vs表示有向图中的节点,ξs表示有向图中的边,如用户点击条目标记为
Figure BDA0002974114980000052
则下一个点击条目可以表示为
Figure BDA0002974114980000053
并且
Figure BDA0002974114980000054
经过有向图生成的会话中节点的向量嵌入可以表示为
Figure BDA0002974114980000055
步骤S130,利用图神经网络生成节点的嵌入向量表示。
在该步骤中,通过图神经网络进一步生成用户的嵌入向量表示。在一个实施例中,损失函数定义为交叉熵:
Figure BDA0002974114980000056
其中,y表示用户点击事件中的点击条目的独热向量编码,i表示用户点击条目的编号,m表示用户点击条目的数量,
Figure BDA0002974114980000057
表示样本预测为正的概率,
Figure BDA0002974114980000058
则表示样本预测为负的概率。
步骤S140,利用多通道卷积神经网络进行内部特征提取。
具体地,利用多通道卷积神经网络进行内部特征提取包括以下步骤:
步骤S141,扩围数据
例如,将原始的二维数据进行扩围,扩围之后的数据是四维;
步骤S142,提取局部信息
例如,将四维的数据利用多通道卷积神经网络分别进行多个层面的局部信息提取,生成相应的嵌入的向量。
在一个实施例中,设计为三通道卷积神经网络,三个通道的卷积核分别设置为[1,1,1,1],[1,2,1,1],[1,3,1,1]。经过局部特征提取之后的嵌入向量分别表示为
Figure BDA0002974114980000061
其中,
Figure BDA0002974114980000062
表示在t时刻在卷积核设置为[1,1,1,1]时,经过局部特征提取之后的嵌入向量表示;相应地,
Figure BDA0002974114980000063
表示在t时刻在卷积核设置为[1,2,1,1]时,经过局部特征提取之后的嵌入向量表示,
Figure BDA0002974114980000064
表示在t时刻在卷积核设置为[1,3,1,1]时,经过局部特征提取之后的嵌入向量表示。
步骤S143,通过非线性函数变换生成内部特征
对经过扩围之后的嵌入向量进行非线性函数变换,生成最终的内部特征向量。
步骤S150,利用时间序列网络模型进行外部特征提取。
为提取点击事件的时间序列信息,捕获点击事件之间的关联性,采用时间序列网络模型进行外部特征提取,时间序列网络模型例如包括门控神经网络、长短期记忆网络(LSTM)等。
在下文的描述中,将以门控神经网络为例进行说明,其包含多个门控循环单元(GRU)。
具体地,利用门控循环单元(GRU)提取外部特征包括以下步骤:
步骤S151,更新门计算
更新门通过如下方式计算:
Figure BDA0002974114980000065
其中,
Figure BDA0002974114980000066
表示在会话s中的t时刻的更新门计算,
Figure BDA0002974114980000067
表示在会话s中的t时刻的输入,
Figure BDA0002974114980000068
表示会话s中t-1时刻的隐藏层,Wnz和Whz分别表示t时刻以及t-1时刻的权重,σ(·)表示sigmoid函数:
Figure BDA0002974114980000069
步骤S152,重置门计算
重置门确定当前时刻的候选状态是否需要依赖于前一时刻的网络状态以及它所依赖的状态。重置门通过如下方式进行计算:
Figure BDA00029741149800000610
同样地,
Figure BDA00029741149800000611
表示在会话s中的t时刻的重置门计算,
Figure BDA00029741149800000612
表示在会话s中的t时刻的输入,
Figure BDA0002974114980000071
表示会话s中t-1时刻的隐藏层,Wnr和Whr分别表示t时刻以及t-1时刻的权重。
步骤S153,记忆单元计算
记忆单元是一个中间值,由最后一刻的存储值和当前输入值确定。通过如下方式进行计算:
Figure BDA0002974114980000072
其中,ct表示t时刻的记忆单元计算,
Figure BDA0002974114980000073
表示在会话s中的t时刻的重置门计算结果,AGG表示聚合函数,Wnn和Wrc分别表示t时刻以及t-1时刻的权重,ht-1表示t-1时刻隐藏层的输出,tanh(·)表示tanh函数,是sigmoid函数的一种变形,与sigmoid不同的是,tanh函数的均值是0,其计算公式如下:
Figure BDA0002974114980000074
步骤S154,隐藏层计算
隐藏层的状态值通过如下的方式进行计算:
Figure BDA0002974114980000075
其中AGG表示聚合器,ht表示t时刻隐藏层的输出,
Figure BDA0002974114980000076
表示在会话s中的t时刻的更新门计算结果,ct表示t时刻的记忆单元计算结果,ht-1表示t-1时刻隐藏层的输出。经过GRU单元之后的节点的嵌入向量可以表示为:
Figure BDA0002974114980000077
步骤S160,基于注意力机制融合内部特征和外部特征。
在该步骤中,将提取到的会话的外部特征和内部特征通过注意力机制自适应的进行数据融合。数据融合过程包括以下步骤:
步骤S161,融合会话的最后一次点击事件,融合公式表示为:
Figure BDA0002974114980000078
其中
Figure BDA0002974114980000079
i∈[1,m],
Figure BDA00029741149800000710
Figure BDA00029741149800000711
表示会话s中的最后一个点击条目的嵌入向量表示,
Figure BDA00029741149800000712
表示会话s中的第i个点击条目的嵌入向量表示,v,ω12均为权重,b为偏置,σ(·)为sigmoid函数。
步骤S162,融合会话的外部嵌入和内部嵌入,即融合会话的外部特征和内部特征,融合公式如下:
Figure BDA0002974114980000081
其中
Figure BDA0002974114980000082
表示全局嵌入向量表示,
Figure BDA0002974114980000083
表示最后一次点击条目的嵌入向量表示,矩阵
Figure BDA0002974114980000084
将两个组合的嵌入向量压缩到潜在空间
Figure BDA0002974114980000085
步骤S170,针对用户下一次点击事件,预测点击项目的可能性。
该步骤实现用户下一次点击事件的非线性预测,例如,具体包括以下步骤:
步骤S171,计算候选项目得分
在一个实施例中,针对用户下一次点击事件的非线性预测,通过向量内积计算候选向量的得分,进而经过softmax函数输出用户点击项目的可能性。向量内积计算方式如下:
Figure BDA0002974114980000086
其中,ω3是相应的转换向量矩阵,
Figure BDA0002974114980000087
表示候选集的相似性得分,
Figure BDA0002974114980000088
表示会话s中的第i个条目的嵌入向量表示。
步骤S172,计算用户点击项目的可能性
例如,用户点击项目的可能性表示为:
Figure BDA0002974114980000089
其中,
Figure BDA00029741149800000810
表示用户点击下一个条目的可能性。
为进一步验证本发明的效果,保证推荐结果的可靠性,采用了以下评价指标。
1)精确度
精确度(Precision)用来描述最终的推荐列表中有多少比例是发生过的用户-物品评分记录。精确度的计算方式如下:
Figure BDA00029741149800000811
其中N表示测试集中测试数据的个数,精确度表示在top-K中,标准结果所占的比例。
2)平均倒数排名
平均倒数排名(MRR,Mean reciprocal rank)是指多个推荐结果的排名倒数的均值,其评估假设是基于唯一的一个相关结果,即第一个结果为推荐的最终结果,分数为1,第二个为推荐的最终结果,分数为0.5,第n个为推荐的最终结果,分数为1/n,如果推荐结果中没有最后的结果,则分数为0。最终的分数为所有得分之和。
平均倒数排名的计算方式表示为:
Figure BDA0002974114980000091
即,MRR是将标准答案在推荐系统给出的推荐结果的排名的倒数的均值作为评价结果指标。其中N表示推荐结果的总数,ranki是第i个推荐结果的排名。
除了上述的评价指标以外,还可以使用如下的排名预测评价指标:
1)召回率
召回率(Recall)描述的是,在结果集中用户-物品评分记录出现的比例。召回率的计算方式为:
Figure BDA0002974114980000092
其中,Ru表示推荐结果中推荐项目的数量,Tu表示项目的总数量。
4)平均准确率
平均准确率(MAP,Mean average precision)同时考虑了准确率和召回率,平衡了两者之间的关系。平均准确率的计算方式如下:
Figure BDA0002974114980000093
其中,R表示相关结果的数量,Position(r)表示第r个结果在结果中的排名。
需说明的是,在不违背本发明精神和范围的前提下,本领域技术人员可对上述实施例进行改变或变型。例如,采用除softmax之外的其他的回归模型计算用户点击项目的概率分布,又如,设置更多通道的卷积神经网络,或其他尺寸的卷积核等。
综上所述,为了提高推荐系统的推荐准确度和推荐性能,同时,提取会话项目之间的丰富信息,本发明通过多通道卷积神经网络从不同维度捕获项目的内部特征,并将内部特征与时间序列网络模型提取的外部特征合并,其中内部特征通过挖掘用户点击条目的内容之间的相似性特征获得,用于表征用户点击条目的内容维度特征,外部特征通过挖掘用户点击条目的序列特征获得,用于表征用户点击条目的时序维度特征。然后,通过注意机制将内部特征和外部特征合并在一起,作为转换函数的输入。最后,概率分布将在softmax函数之后输出。本发明既考虑了会话项目推荐的外部特征,又包含了会话项目推荐的内容特征(即内部特征),能够利用会话丰富的嵌入特征提供高精确度的个性化推荐。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++、Python等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。对于本领域技术人员来说公知的是,通过硬件方式实现、通过软件方式实现以及通过软件和硬件结合的方式实现都是等价的。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。本发明的范围由所附权利要求来限定。

Claims (10)

1.一种融合多维度特征的时间序列数据推荐方法,包括以下步骤:
步骤S1,构建数据集,该数据集所包含的会话中的点击条目被表示为向量;
步骤S2,针对所述数据集,利用知识图提取生成初始会话嵌入,每个会话被建模为有向图,其中用户的点击事件中的前一项点击和后一项点击之间的交互信息生成该有向图中的一条边,将用户点击事件中的点击条目生成该有向图中的节点;
步骤S3,利用图神经网络生成节点的嵌入向量表示,使用步骤S1得到的向量嵌入,经过图神经网络聚合节点特征,生成新的节点嵌入向量;
步骤S4,利用卷积神经网络提取多个维度的局部信息作为会话的内部特征;
步骤S5,以步骤S3获得的嵌入向量为输入,利用时间序列网络模型提取序列信息作为会话的外部特征;
步骤S6,将提取到的会话的外部特征和内部特征通过注意力机制进行数据融合;
步骤S7,对于用户下一次点击事件,预测输出用户点击项目的可能性。
2.根据权利要求1所述的方法,其特征在于,在步骤S2中,每个会话被建模为有向图:
Gs=(Vss)
其中V={v1,v2,v3,…,vn}表示用户点击的条目集合,
Figure FDA0002974114970000011
表示一个会话中用户点击条目的集合,Vs表示有向图中的节点,ξs表示有向图中的边,对于用户点击条目
Figure FDA0002974114970000012
其下一个点击条目表示为
Figure FDA0002974114970000013
Figure FDA0002974114970000014
经过有向图生成的会话中节点的向量嵌入表示为
Figure FDA0002974114970000015
3.根据权利要求1所述的方法,其特征在于,在步骤S4中,所述利用卷积神经网络提取多个维度的局部信息作为会话的内部特征包括:
将原始的二维数据扩围为四维数据;
将获得四维的数据利用多通道神经网络分别进行三个层面的局部信息提取,生成相应的嵌入的向量;
将经过扩围后的嵌入向量进行非线性函数变换,生成最终的内部特征向量。
4.根据权利要求1所述的方法,其特征在于,所述时间序列网络模型是门控神经网络,包含多个门控循环单元,步骤S5包括:
更新门的计算表示为:
Figure FDA0002974114970000021
其中,
Figure FDA0002974114970000022
表示在会话s中的t时刻的更新门计算,
Figure FDA0002974114970000023
表示在会话s中的t时刻的输入,
Figure FDA0002974114970000024
表示会话s中t-1时刻的隐藏层,Wnz和Whz分别表示t时刻以及t-1时刻的权重,σ(·)表示sigmoid函数;
重置门确定当前时刻的候选状态是否需要依赖于前一时刻的网络状态以及它所依赖的状态,重置门的计算表示为:
Figure FDA0002974114970000025
其中,
Figure FDA0002974114970000026
表示在会话s中的t时刻的重置门计算,
Figure FDA0002974114970000027
表示在会话s中的t时刻的输入,
Figure FDA0002974114970000028
表示会话s中t-1时刻的隐藏层,Wnr和Whr分别表示t时刻以及t-1时刻的权重;
记忆单元是一个中间值,由最后一刻的存储值和当前输入值确定,记忆单元的计算表示为:
Figure FDA0002974114970000029
其中,ct表示t时刻的记忆单元计算,
Figure FDA00029741149700000210
表示在会话s中的t时刻的重置门计算结果,AGG表示聚合函数,Wnn和Wrc分别表示t时刻以及t-1时刻的权重,ht-1表示t-1时刻隐藏层的输出,tanh(·)表示tanh函数;
隐藏层的状态值计算表示为:
Figure FDA00029741149700000211
其中AGG表示聚合器,ht表示t时刻隐藏层的输出,
Figure FDA00029741149700000212
表示在会话s中的t时刻的更新门计算结果,ct表示t时刻的记忆单元计算结果,ht-1表示t-1时刻隐藏层的输出;
经过门控循环单元之后的节点的嵌入向量表示为:
Figure FDA00029741149700000213
5.根据权利要求1所述的方法,其特征在于,步骤S6,将提取到的外部特征和内部特征通过注意力机制进行数据融合包括:
步骤S51,融合会话的最后一次点击事件;
步骤S52,融合会话的外部嵌入和内部嵌入。
6.根据权利要求5所述的方法,其特征在于,在步骤S51中,融合公式表示为:
Figure FDA0002974114970000031
其中
Figure FDA0002974114970000032
Figure FDA0002974114970000033
表示会话s中的最后一个点击条目的嵌入向量表示,
Figure FDA0002974114970000034
表示会话s中的第i个点击条目的嵌入向量表示,v,ω1,ω2均为权重,b为偏置,σ(·)为sigmoid函数。
7.根据权利要求5所述的方法,其特征在于,在步骤S52中,融合公式表示为:
Figure FDA0002974114970000035
其中
Figure FDA0002974114970000036
表示全局嵌入向量表示,
Figure FDA0002974114970000037
表示最后一次点击条目的嵌入向量表示,矩阵
Figure FDA0002974114970000038
将两个组合的嵌入向量压缩到潜在空间
Figure FDA0002974114970000039
8.根据权利要7所述的方法,其特征在于,在步骤S7中,所述对于用户下一次点击事件,预测输出用户点击项目的可能性包括:
对于用户下一次点击事件,通过向量内积计算候选向量的得分,向量内积计算表示为:
Figure FDA00029741149700000310
利用softmax函数输出用户点击项目的可能性,表示为:
Figure FDA00029741149700000311
其中,ω3是相应的转换向量矩阵,
Figure FDA00029741149700000312
表示候选集的相似性得分,
Figure FDA00029741149700000313
表示用户点击下一个条目的可能性,
Figure FDA00029741149700000314
表示会话s中的第i个条目的嵌入向量表示。
9.一种计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现根据权利要求1至8中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,在所述存储器上存储有能够在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至8中任一项所述的方法的步骤。
CN202110270394.2A 2021-03-12 2021-03-12 一种融合多维度特征的时间序列数据推荐方法 Active CN112948681B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110270394.2A CN112948681B (zh) 2021-03-12 2021-03-12 一种融合多维度特征的时间序列数据推荐方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110270394.2A CN112948681B (zh) 2021-03-12 2021-03-12 一种融合多维度特征的时间序列数据推荐方法

Publications (2)

Publication Number Publication Date
CN112948681A true CN112948681A (zh) 2021-06-11
CN112948681B CN112948681B (zh) 2024-02-27

Family

ID=76229629

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110270394.2A Active CN112948681B (zh) 2021-03-12 2021-03-12 一种融合多维度特征的时间序列数据推荐方法

Country Status (1)

Country Link
CN (1) CN112948681B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521972A (zh) * 2022-01-19 2023-08-01 腾讯科技(深圳)有限公司 信息预测方法、装置、电子设备和存储介质
WO2023197910A1 (zh) * 2022-04-12 2023-10-19 华为技术有限公司 一种用户行为预测方法及其相关设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110490717A (zh) * 2019-09-05 2019-11-22 齐鲁工业大学 基于用户会话及图卷积神经网络的商品推荐方法及系统
CN112035746A (zh) * 2020-09-01 2020-12-04 湖南大学 一种基于时空序列图卷积网络的会话推荐方法
CN112150210A (zh) * 2020-06-19 2020-12-29 南京理工大学 一种基于ggnn网络的改进型神经网络推荐方法及系统
CN112364976A (zh) * 2020-10-14 2021-02-12 南开大学 基于会话推荐系统的用户偏好预测方法
WO2021038592A2 (en) * 2019-08-30 2021-03-04 Tata Consultancy Services Limited System and method for handling popularity bias in item recommendations

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021038592A2 (en) * 2019-08-30 2021-03-04 Tata Consultancy Services Limited System and method for handling popularity bias in item recommendations
CN110490717A (zh) * 2019-09-05 2019-11-22 齐鲁工业大学 基于用户会话及图卷积神经网络的商品推荐方法及系统
CN112150210A (zh) * 2020-06-19 2020-12-29 南京理工大学 一种基于ggnn网络的改进型神经网络推荐方法及系统
CN112035746A (zh) * 2020-09-01 2020-12-04 湖南大学 一种基于时空序列图卷积网络的会话推荐方法
CN112364976A (zh) * 2020-10-14 2021-02-12 南开大学 基于会话推荐系统的用户偏好预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孙鑫;刘学军;李斌;梁珂;: "基于图神经网络和时间注意力的会话序列推荐", 计算机工程与设计, no. 10 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116521972A (zh) * 2022-01-19 2023-08-01 腾讯科技(深圳)有限公司 信息预测方法、装置、电子设备和存储介质
WO2023197910A1 (zh) * 2022-04-12 2023-10-19 华为技术有限公司 一种用户行为预测方法及其相关设备

Also Published As

Publication number Publication date
CN112948681B (zh) 2024-02-27

Similar Documents

Publication Publication Date Title
WO2022041979A1 (zh) 一种信息推荐模型的训练方法和相关装置
US10664757B2 (en) Cognitive operations based on empirically constructed knowledge graphs
US10635952B2 (en) Cognitive analysis and classification of apparel images
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
WO2023065859A1 (zh) 物品推荐方法、装置及存储介质
Olmezogullari et al. Pattern2Vec: Representation of clickstream data sequences for learning user navigational behavior
CN112464100B (zh) 信息推荐模型训练方法、信息推荐方法、装置及设备
CN112948681B (zh) 一种融合多维度特征的时间序列数据推荐方法
CN114265981A (zh) 推荐词确定方法、装置、设备及存储介质
US10521727B2 (en) System, method, and storage medium for generating hypotheses in data sets
CN113032676A (zh) 基于微反馈的推荐方法和系统
CN111127057B (zh) 一种多维用户画像恢复方法
CN115080856A (zh) 推荐方法及装置、推荐模型的训练方法及装置
US20230134798A1 (en) Reasonable language model learning for text generation from a knowledge graph
CN112328899B (zh) 信息处理方法、信息处理装置、存储介质与电子设备
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
CN114529399A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
CN116628310B (zh) 内容的推荐方法、装置、设备、介质及计算机程序产品
CN114637921B (zh) 基于建模偶然不确定性的物品推荐方法、装置和设备
WO2022262561A1 (zh) 多媒体资源的处理方法、装置、设备及存储介质
Ravanmehr et al. Deep Discriminative Session-Based Recommender System
Zhang An intelligent recommendation method of remote ideological and political education resources based on user clustering
Anand et al. KEMM: A Knowledge Enhanced Multitask Model for Travel Recommendation
Almutairi APPLYING BEHAVIOURAL TARGETING TO SOLVE COLD START PROBLEM IN RECOMMENDER SYSTEMS

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant