CN111966889A - 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 - Google Patents
一种图嵌入向量的生成方法以及推荐网络模型的生成方法 Download PDFInfo
- Publication number
- CN111966889A CN111966889A CN202010431356.6A CN202010431356A CN111966889A CN 111966889 A CN111966889 A CN 111966889A CN 202010431356 A CN202010431356 A CN 202010431356A CN 111966889 A CN111966889 A CN 111966889A
- Authority
- CN
- China
- Prior art keywords
- graph
- item
- data
- vertex
- static
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000013598 vector Substances 0.000 title claims abstract description 190
- 238000000034 method Methods 0.000 title claims abstract description 97
- 230000003068 static effect Effects 0.000 claims abstract description 88
- 230000006399 behavior Effects 0.000 claims description 103
- 238000012549 training Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 21
- 230000002123 temporal effect Effects 0.000 claims description 15
- 238000004891 communication Methods 0.000 claims description 10
- 230000007704 transition Effects 0.000 claims description 7
- 238000005295 random walk Methods 0.000 description 33
- 230000006870 function Effects 0.000 description 13
- 238000009826 distribution Methods 0.000 description 11
- 238000004422 calculation algorithm Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000005012 migration Effects 0.000 description 6
- 238000013508 migration Methods 0.000 description 6
- 238000006243 chemical reaction Methods 0.000 description 5
- 238000005070 sampling Methods 0.000 description 5
- 238000010276 construction Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000009827 uniform distribution Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- XHEFDIBZLJXQHF-UHFFFAOYSA-N fisetin Chemical compound C=1C(O)=CC=C(C(C=2O)=O)C=1OC=2C1=CC=C(O)C(O)=C1 XHEFDIBZLJXQHF-UHFFFAOYSA-N 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 229920000642 polymer Polymers 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种图嵌入向量的生成方法以及推荐网络模型的生成方法,所述图嵌入向量的生成方法包括获取待处理的数据样本;基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表;基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。本发明通过确定数据样本的静态图数据以及动态时间图数据,确定静态嵌入向量表和动态嵌入向量表,这样通过静态嵌入向量表和动态嵌入向量表可以扩大项目对应的嵌入向量的适用范围。
Description
技术领域
本申请涉及数据处理技术领域,特别涉及一种图嵌入向量的生成方法以及推荐网络模型的生成方法。
背景技术
随着深度学习不断发展,深度学习模型已经普遍应用于推荐算法。在目前的深度学习推荐系统基础框架中,嵌入方法主要是作为深度学习网络中的嵌入层,作用是完成从高维稀疏特征向量到低维稠密特征向量的转换。然而,在基于深度学习的推荐方法中,嵌入层操作普遍是针对序列数据的,现已不再适用于真实环境下的图形数据的嵌入。
发明内容
本申请要解决的技术问题在于,针对现有技术的不足,提供一种图嵌入向量的生成方法以及推荐网络模型的生成方法。
为了解决上述技术问题,本申请实施例第一方面提供了一种图嵌入向量的生成方法,所述方法包括:
获取待处理的数据样本,其中,所述数据样本包括若干用户历史行为序列;
基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,其中,所述静态图数据的顶点和动态时间图数据的顶点均为用户历史序列中的项目;
基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表;
基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。
所述图嵌入向量的生成方法,其中,所述静态图数据中的权重用于反映若干用户历史行为中相关项目对的频率。
所述图嵌入向量的生成方法,其中,所述静态图数据的构建过程具体包括:
获取若干用户历史行序列包括的所有项目,以得到所述静态图数据对应的顶点集;
对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
根据获取到的所有项目对,确定顶点序列中各顶点之间的边以及各边的出现次数;
将各边的出现次数作为各边对应的权重,以得到所述静态图数据。
所述图嵌入向量的生成方法,其中,所述基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表具体包括:
获取所述静态图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
对于每个参考顶点序列,对该参考点序列进行随机游走以得到若干随机顶点序列;
基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的静态图嵌入向量,以得到所述数据样本对应的静态图嵌入向量表。
所述图嵌入向量的生成方法,其中,所述动态时间图数据中的权重用于反映若干用户历史行为中相关项目对的频率以及项目对中两个项目转换的行为时间。
所述图嵌入向量的生成方法,其中,所述动态时间图数据的构建过程具体包括:
获取若干用户历史行序列包括的所有项目,以得到所述动态时间图数据对应的顶点集;
对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
根据获取到的所有项目对,确定顶点序列中各顶点之间的边,以得到动态时间图数据对应的边;
对于动态时间图数据的每条边,确定该边对应的各项目对以及各项目对中目标项目对应的时间戳,并基于各项目以及各项目对应的时间戳确定该边对应的权重,以得到所述动态时间图数据。
所述图嵌入向量的生成方法,其中,所述基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表具体包括:
获取所述动态时间图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
对于每个参考顶点序列,对该参考点序列进行时态游走以得到若干随机顶点序列,其中,所述时态游走为以时序顺序为约束条件的随机游走;
基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的动态图嵌入向量,以得到所述数据样本对应的动态图嵌入向量表。
本实施例第二方面提供了一种推荐网络模型的生成方法,所述方法包括:
获取训练样本集;
对于训练样本集中的每个训练样本,基于预设图嵌入向量表确定该训练样本对应的图嵌入向量,其中,所述图嵌入向量为基于如上任一所述的图嵌入向量的生成方法确定的;
基于所述训练样本以及所述图嵌入向量,对预设网络模型进行训练,以得到推荐网络模型。
第三方面本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上所述的图嵌入向量的生成方法中的步骤,和/或以实现如上所述的推荐网络模型的生成方法中的步骤。
第四方面本实施例提供了一种终端设备,其包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如上所述的图嵌入向量的生成方法中的步骤,和/或实现如上所述的推荐网络模型的生成方法中的步骤。
有益效果:与现有技术相比,本申请提供了一种图嵌入向量的生成方法以及推荐网络模型的生成方法,所述图嵌入向量的生成方法包括获取待处理的数据样本;基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表;基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。本发明通过确定数据样本的静态图数据以及动态时间图数据,确定静态嵌入向量表和动态嵌入向量表,这样通过静态嵌入向量表和动态嵌入向量表可以扩大项目对应的嵌入向量的适用范围。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员而言,在不符创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请提供的图嵌入向量的生成方法的流程图。
图2为本申请提供的图嵌入向量的生成方法中数据样本的一个示例图。
图3为本申请提供的图嵌入向量的生成方法中静态图数据的一个示例图。
图4为本申请提供的图嵌入向量的生成方法中动态时间图数据的一个示例图。
图5为本申请提供的图嵌入向量的生成方法中随机游走的一个示例图。
图6为本申请提供的推荐网络模型的生成方法的流程图。
图7为本申请提供的推荐网络模型的生成方法的流程示意图。
图8为本申请提供的推荐网络模型的生成方法中注意力机制的原理示意图。
图9为本申请提供的终端设备的结构原理图。
具体实施方式
本申请提供一种图嵌入向量的生成方法以及推荐网络模型的生成方法,为使本申请的目的、技术方案及效果更加清楚、明确,以下参照附图并举实施例对本申请进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面结合附图,通过对实施例的描述,对申请内容作进一步说明。
本实施提供了一种图嵌入向量的生成方法,如图1所示,所述方法包括:
S10、获取待处理的数据样本,其中,所述数据样本包括若干用户历史行为序列。
具体地,所述数据样本包括若干用户历史行为序列,若干用户历史行为序列中的每个用户历史行为序列均包括若干用户行为项,每个用户行为项包括行为对象以及行为时间,所述行为对象与行为时间相同。这里将行为对象作为项目,行为时间作为时间戳。可以理解的是,每个用户历史行为序列均包括若干由项目和时间戳构成的用户行为项;并且用户历史行为序列中各用户行为项按照时间顺序依次排列。例如,如图2所示,所述数据样本包括四个用户历史行为序列,分别记为用户1对应的用户历史行为序列,用户2对应的用户历史行为序列,用户3对应的用户历史行为序列以及用户4对应的用户历史行为序列,其中,用户1对应的用户历史行为序列包括4个用户行为项,分别为(A,t1),(C、t5),(E,t9)和(F,t12),(A,t1),(C、t5),(E,t9)和(F,t12)形成的历史行为序列为{(A,t1),(C、t5),(E,t9),(F,t12)}其中,(a,b)中a表示项目,b表示时间戳。此外,对于两个用户行为项,位于前的用户行为项的发生时间早于位于后的用户行为项的发生时间,例如,对于(C、t5)和(E,t9),(C、t5)的发生时间早于(E,t9)的发生时间。
此外,值得说明的是,在下面的说明中,对于各用户历史行为序列终端用户行为项中的时间戳采用tn表示,其中,n为正整数,并且tn中n值越大,表示该时间戳的发生时间越晚,即对于tn-1和tn,tn-1对应的用户行为项的发生时间早于tn对应的用户行为项的发生时间。
进一步,对于若干用户历史行为序列中的任意两个用户历史行为序列,记为第一用户历史行为序列和第二用户历史行为序列,第一用户历史行为序列中各用户行为项对应的时间戳与第二用户历史行为序列中各用户行为项对应的时间戳互不相同,第一用户历史行为序列中可以存在用户行为项对应的项目与第二用户历史行为序列中的用户行为项对应的项目相同。例如,如图2所示,用户1对应的用户历史行为序列中的(C,t2)和用户2对应的用户历史行为序列中的(C,t7),(C,t2)和(C,t7)对应的项目均为C,(C,t2)对应的时间戳为t2,(C,t7)对应的时间戳为t7。
S20、基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,其中,所述静态图数据的顶点和动态时间图数据的顶点均为用户历史序列中的项目。
具体地,图数据是一种抽象程度高,表达能力强的数据结构。图数据结构很好的表达了数据之间的关联性(relationships between data),关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。比如,通过为购物者之间的关系建模,就能很快找到兴趣相似的用户,并为之推荐商品;或者在社交网络中,通过传播关系发现意见领袖。
进一步,图数据可以包括若干非空顶点以及一组顶点之间的边组成,通常表示为:G(V,E),其中,G表示一个图,V={v1,v2,...,vn}是图中的一组顶点,是图中的一组边,n为正整数。对于V={v1,v2,...,vn}中的两个顶点vi和vj之间的边eij,若边eij为无向边,则G为无向导图;若边eij为有向边,则G为有向导图。此外,图中的边可以携带有权重,所述权重可以表示一个顶点到另一个顶点的距离或成本,并且将具有权重的图成为加权图。在加权图中,两个顶点vi和vj之间的边eij的权重记为wij,其中,wij的值通常为非负的,即如果边eij存在,则wij>0,若边eij不存在,基于此,可以将加权图记为G(V,E,W)。
此外,在图数据中顶点之间的度量参数包括一阶邻近度和二阶邻近度,其中,顶点vi和vj之间的边eij的权重wij称为顶点vi和vj之间的一阶邻近度,因为它是两个顶点之间的相似度的第一个度量。为了方便起见,我们将vi和vj之间的一阶邻近度记录为fpij。二阶邻近度为两个顶点的邻域之间的相似度,令PFi={fpi1,fpi2,...,fpin}表示vi与其他顶点之间的一阶接近度集合。然后,可以由PFi和PFj的相似性确定vi和vj之间的二阶邻近度。PFi和PFj的相似性可以用欧式距离(Euclidean Distance)、夹角余弦(Cosine)、杰卡德距离(Jaccard Distance)等方法度量。二阶邻近度比较的是两个顶点的邻域,如果它们具有相似的邻域,则将它们视为相似。当然,我们也可以使用其他指标来定义高阶接近度。
进一步,在本实施例的一个实现方式中,所述静态图数据为有向加权图,所述静态图数据中的权重用于反映若干用户历史行为中相关项目对的频率。相应的,所述静态图数据的构建过程具体包括:
A10、获取若干用户历史行序列包括的所有项目,以得到所述静态图数据对应的顶点集;
A20、对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
A30、根据获取到的所有项目对,确定顶点序列中各顶点之间的边以及各边的出现次数;
A40、将各边的出现次数作为各边对应的权重,以得到所述静态图数据。
具体地,所有项目指的是若干用户历史行序列中包括的不相同项目,可以理解的是,对于所有项目中的任一项目,至少一个用户历史行序列包含各项目,并且所有项目中的各项目互不相同。例如,如图2所示,用户1对应的项目A、C、E以及F,用户2对应的项目为B、C以及D,那么用户1和用户2对应的所有项目为A、B、C、D、E以及F。
进一步,在获取到静态图数据的顶点集后,对于每个用户历史行序列,将用户历史行序列中相邻两个项目作为一个项目对,以得到若干项目对。对于每个项目对中的两个项目,分别记为第一项目和第二项目,第一项目和第二项目包含于同一用户历史行为序列中,并且在该用户行为序列中,按照时间顺序第一项目和第二项目相邻。可以理解的是,在第一项目和第二项目中,该用户历史行为序列中不存在一个第三项目,第三项目对应的时间戳位于第一项目对应的时间戳和第二项目对应的时间戳之间。例如,如图2所示的用户1对应的用户历史行为序列中,项目A和项目C构成一个项目对,项目C和项目E构成一个项目对,项目E和项目F构成一个项目对。
进一步,在获取到若干用户历史行为序列对应的所有项目对后,对于每个项目对(itemi,itemj),如果项目itemi和项目itemj之间不存在边eij,则添加边eij,且该边eij为有向边,边eij的方向为时间戳较早的项目指向时间戳较晚的项目,并记边eij的权重wij为1;如果项目对中的两个项目itemi和itemj之间已存在边eij,则不再添加边,并把边eij对应的权重wij加1。基于此,针对项目对(itemi,itemj)的边eij的权重wij的确定规则可以为:
其中,eij表示项目itemi和项目itemj之间的边,wij表示为边eij对应的权重。
基于此,各边eij的权重wij为边eij的出现次数;即静态图数据中的权重为全部用户历史行为中的有关联的项目对的出现次数。可以理解的是,边的权重等于全部用户购买历史行为中的项目间的转化频率。这样构建的静态图数据能够保留用户历史行为中的项目间的前后关系以及不同项目之间的相似性。
举例说明:数据样本包括如图2所示的用户1对应的用户历史行为序列,用户2对应的用户历史行为序列,用户3对应的用户历史行为序列以及用户4对应的用户历史行为序列,基于上述的动态时间图数据的生成过程,可以得到如图3所示的静态图数据。
进一步,在本实施例的一个实现方式中,所述动态时间图数据中的权重用于反映若干用户历史行为中相关项目对的频率以及项目对中两个项目转换的行为时间。所述动态时间图数据中的权重包括频率权重wfij以及时间权重wtij,所述频率权重用于反映相关项目对的出现频率,时间权重用于反映相关项目对的行为时间。相应的,所述动态时间图数据的构建过程具体包括:
B10、获取若干用户历史行包括的所有项目,以得到所述动态时间图数据对应的顶点序列;
B20、对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
B30、根据获取到的所有项目对,确定顶点序列中各顶点之间的边,以得到动态时间图数据对应的边;
B40、对于动态时间图数据的每条边,确定该边对应的各项目对以及各项目对中目标项目对应的时间戳,并基于各项目以及各项目对应的时间戳确定该边对应的权重,以得到所述动态时间图数据。
具体地,所述动态时间图数据中的边为待时间标签的边,动态时间图数据可以为记为GT(V,ET,τ),其中,V={v1,v2,...,vn}是动态时间图数据的顶点集合,ET为动态时间图数据中一组带有时间标签的边,τ是一个将边带有的时间标签映射为时间戳的函数。为方便起见,没有特别说明的情况下,τ表示时间戳Unixtime与真实时间的转换函数。此外,所述动态时间图数据对应的所有项目与静态图数据对应的所有项目相同,所有项目为若干用户历史行序列中包括的不相同项目。可以理解的是,对于所有项目中的任一项目,至少一个用户历史行序列包含各项目,并且所有项目中的各项目互不相同。
进一步,在获动态时间图数据的顶点集后,对于每个用户历史行序列,将用户历史行序列中相邻两个项目作为一个项目对,以得到若干项目对。对于每个项目对中的两个项目,分别记为第一项目和第二项目,第一项目和第二项目包含于同一用户历史行为序列中,并且在该用户行为序列中,按照时间顺序第一项目和第二项目相邻。可以理解的是,在第一项目和第二项目中,该用户历史行为序列中不存在一个第三项目,第三项目对应的时间戳位于第一项目对应的时间戳和第二项目对应的时间戳之间。例如,如图2所示的用户1对应的用户历史行为序列中,项目A和项目C构成一个项目对,项目C和项目E构成一个项目对,项目E和项目F构成一个项目对。
进一步,在获取到若干用户历史行为序列对应的所有项目对后,对于每个项目对(itemi,itemj),如果项目itemi和项目itemj之间不存在边eij,则添加边eij,且该边eij为有向边,边eij的方向为时间戳较早的项目指向时间戳较晚的项目,并记边eij的权重wfij为1,并将项目itemi和项目itemj的较晚的时间戳添加到时间权重wtij的时间权重列表中;如果项目对中的两个项目itemi和itemj之间已存在边eij,则不再添加边,并把边eij对应的权重wfij加1,将项目itemi和项目itemj的较晚的时间戳添加到时间权重wtij的时间权重列表中。基于此,针对项目对(itemi,itemj)的边eij的权重wij的中频率权重wfij以及时间权重wtij的确定规则可以分别为:
其中,eij表示项目itemi和项目itemj之间的边,wfij表示为边eij对应的频率权重,wtij表示为边eij对应的时间权重。
基于此,动态时间图数据的权重用于反映全部用户历史购买行为中的有关联的项目对的出现次数以及项目对中两个项目转换的行为时间,也就是说,边eij的频率权重wfij为全部用户购买历史行为中的itemi转化为itemj的频率,时间权重为全部用户购买历史行为中的itemi转化为itemj的时间戳集合。这样构建的动态时间图数据不仅能够保留用户购买历史行为中的项目间的前后关系以及不同项目之间的相似性,还能够保留用户购买历史行为中项目的时间依存关系。
举例说明:数据样本包括如图2所示的用户1对应的用户历史行为序列,用户2对应的用户历史行为序列,用户3对应的用户历史行为序列以及用户4对应的用户历史行为序列,基于上述的动态时间图数据的生成过程,可以得到如图4所示的动态时间图数据。
此外,在实际应用中,静态图数据和动态时间图数据可以共享同一个存储结构。有向加权项目图是一个大型稀疏图,基于此可以采用邻接表的形式来存储。在邻接表中,每个顶点都拥有一个单链表,单链表中的节点元素是从该顶点出去的有向边相连的另一个顶点的相关信息,每个节点包含相连顶点、时间权重和频率权重。当图数据为静态图数据时,邻接表中节点的相连顶点和频率权重将会被激活;而当图数据为动态时间图数据时,邻接表中节点的相连顶点和时间权重将会被激活。
S30、基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表。
具体地,所述静态图嵌入向量表包括若干嵌入向量,若干嵌入向量中每个嵌入向量对于一个项目,即基于所述静态图像嵌入向量表可以确定项目对应的嵌入向量。其中,静态图嵌入向量表中的各嵌入向量可以通过词向量训练程序Word2Vec,基于静态图数据进行词向量训练,生成各项目的所对应的嵌入向量,并将所述项目对应的嵌入向量,保存到静态图嵌入向量表中。此外,关于词向量训练算法,除了上述的Word2Vec算法之外,也可以使用如Glove或者FastText等其他的词向量算法和工具。总之,本说明书不限定词向量训练的方法和种类,本领域技术人员可根据实际需要,采用能够适用于申请场景的词向量算法和工具。
在本实施例的一个实现方式中,所述基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表具体包括:
C10、获取所述静态图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
C20、对于每个参考顶点序列,对该参考点序列进行随机游走以得到若干随机顶点序列;
C30、基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的静态图嵌入向量,以得到所述数据样本对应的静态图嵌入向量表。
具体地,在所述步骤C10中,所述顶点集合为静态图数据中所有顶点行程的集合,即对于静态图数据中的每个顶点,该顶点均包含与所述顶点集合中,并且对于顶点集合中的每个顶点,该顶点为所述静态图数据的一个顶点。对于若干参考顶点序列中每个参考顶点序列,该参考顶点序列包括顶点集合中的所有顶点,并且该个参考序列中的各顶点互不相同;并且若干参考顶点序列中各参考顶点序列中的各顶点的排列顺序可以不同。例如,数据样本如图2所示,顶点集合包括A、B、C、D、E以及F,参考顶点序列包括参考顶点序列A和参考顶点序列B,参考顶点序列A可以为A、B、C、D、E以及F,参考顶点训练B可以为A、C、D、B、E以及F。在本实施例的一个具体实现方式中,所述参考顶点序列为对顶点集合中的所有顶点进行随机排序得到,并且若干参考顶点序列中的每个参考顶点序列均为通过对所述对顶点集合中的所有顶点进行随机排序得到。例如,将顶点集合中的所有顶点进行T次随机排序,以得到T个参考顶点序列。
进一步,在所述步骤C20中,所述随机游走为抽象概念模型,通过随机游走可以确认大量的随机性事件的分布。可以理解的是,虽然随机游走在单个随机事件面前,可能会存在差异性,但是在大量随机事件面前,通过随机游走可以预测大量随机事件整体的特征相似性。基于此,随机游走可以用于捕捉有向加权项目图的拓扑结构,其中,随机游走可以选择静态图数据中的某个顶点作为第一步,然后在边上随机迁移。此外,为了截断随机游走,随机游走对应有游走序列的最大长度,其中,游走序列的最大长度用于通过随机游走方式得到的游走序列的序列长度。
进一步,在本实施例的一个具体实现方式中,对参考顶点序列进行随机游走以得到若干随机顶点序列的具体过程可以为:对于参考序列中的每个顶点,首先将该顶点作为随机游走的起点,按照预设转移概率移动至邻居顶点,其次,以随机游走一次后的顶点作为起点,按照预设转移概率移动至邻居顶点步骤,依次类推,直至随机游走满足预设条件,以得到该顶点对应的随机游走序列,例如,如图5所示。由此可知,对于每个参考顶点序列,通过随机游走的方式可以获取预设数量的随机顶点序列,其中,所述预设数量与参考顶点序列包括的顶点数量相同。
所述随机游走对应的预设条件包括随机游走最大长度,以及随机游走后的顶点按照静态图数据不存在相邻顶点。所述随机游走满足预设条件指的是所述随机游走满足所述随机游走长度达到随机游走最大长度,或者随机游走后的顶点按照静态图数据不存在相邻顶点。由此,随机顶点序列的序列长度小于或者等于随机游走最大长度。
所述预设概率可以根据顶点与相邻顶点之间的边的权重确定,顶点与相邻顶点之间的边的权重大时,预设概率大,反之,当顶点与相邻顶点之间的边的权重小时,预设概率小。在本实施例的一个具体实现方式中,所述预设概率与权重的对应关系可以为:
其中,out(vi)表示从顶点vi出去的所有的有向边的另一个顶点的集合,a表示是否停留在现顶点的超参数,wij表示为顶点vi到顶点vj的边eij对应的权重。
举例说明:随机游走的长度为12,每个顶点的随机游走数量为20,通过对静态图数据中的每个顶点的20次随机游走序列采样,得到长度最多为12的随机顶点序列,随机顶点序列中隐含项目间的高阶邻近关系。
进一步,在所述步骤C30中,在获取到随机顶点序列后,可以通过词向量训练程序Word2Vec对顶点(即项目)进行图嵌入,以得到各顶点对应的图嵌入向量。在本实施例中,可以采用Skip-Gram模型学习顶点的图嵌入向量,Skip-Gram模型的目标是最大化随机点序列中两个顶点的同时出现概率。由此,优化目标的数学表达为:
minimizeφlogPr({vi-w,...,vi+w)\vi|φ(vi))
进一步,在本实施例的一个实现方式中,为了提高Skip-Gram模型迭代速度太慢,可以采用引入负采样方法来加速顶点的词向量训练。在引入负采样方法后,优化目标的数学表达可以为:
其中,N(vi')是vi的负样本,σ(·)是sigmoid函数,其表达式可以为:
进一步,所述动态时间图嵌入向量表包括若干嵌入向量,若干嵌入向量中每个嵌入向量对于一个项目,即基于所述动态时间可以确定项目对应的嵌入向量。所述动态时间图嵌入向量表中的各嵌入向量可以通过词向量训练程序Word2Vec,基于动态时间图数据进行词向量训练,生成各项目的所对应的嵌入向量,并将所述项目对应的嵌入向量,保存到动态时间图嵌入向量表中。此外,关于词向量训练算法,除了上述的Word2Vec算法之外,也可以使用如Glove或者FastText等其他的词向量算法和工具。总之,本说明书不限定词向量训练的方法和种类,本领域技术人员可根据实际需要,采用能够适用于申请场景的词向量算法和工具。此外,值得说明的,所述动态时间图嵌入向量对应的词向量训练程序和所述静态图嵌入向量对应的词向量训练程序可以相同,也可以不同,在本实施例的一个实现方式中,所述动态时间图嵌入向量对应的词向量训练程序和所述静态图嵌入向量对应的词向量训练程序相同,这样不需要建立两个词向量训练程序,提高了图嵌入向量的获取速度。
在本实施例的一个具体实现方式中,所述动态时间图数据的构建过程具体包括:
D10、获取所述动态时间图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
D20、对于每个参考顶点序列,对该参考点序列进行时态游走以得到若干随机顶点序列,其中,所述时态游走为以时序顺序为约束条件的随机游走;
D30、基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的动态图嵌入向量,以得到所述数据样本对应的动态图嵌入向量表。
在所述步骤D10中,所述顶点集合为动态时间图数据中所有顶点行程的集合,即对于动态时间图数据中的每个顶点,该顶点均包含与所述顶点集合中,并且对于顶点集合中的每个顶点,该顶点为所述动态时间图数据的一个顶点。对于若干参考顶点序列中每个参考顶点序列,该参考顶点序列包括顶点集合中的所有顶点,并且该个参考序列中的各顶点互不相同;并且若干参考顶点序列中各参考顶点序列中的各顶点的排列顺序可以不同。例如,数据样本如图2所示,顶点集合包括A、B、C、D、E以及F,参考顶点序列包括参考顶点序列A和参考顶点序列B,参考顶点序列A可以为A、B、C、D、E以及F,参考顶点训练B可以为A、C、D、B、E以及F。在本实施例的一个具体实现方式中,所述参考顶点序列为对顶点集合中的所有顶点进行随机排序得到,并且若干参考顶点序列中的每个参考顶点序列均为通过对所述对顶点集合中的所有顶点进行随机排序得到。例如,将顶点集合中的所有顶点进行T次随机排序,以得到T个参考顶点序列。
进一步,在所述步骤D20中,所述时态游走为以时序顺序为约束条件的随机游走。可以理解的是,在随机游走时需要遵循时序关系的约束条件,并且经过的边的时间戳为递增关系,并且对于顶点集合V中的两个任意的顶点vi和vj,如果存在一个从顶点vi到顶点vj的时态游走,那么顶点vi和顶点vj时态相连。
此外,由于时态游走过程中经过的边的时间戳为递增关系,从而通过时态游走得到的随机顶点序列中各顶点按照时间戳递增的顺序排列。可以理解的是,对于动态时间图数据GT(V,ET,τ),从顶点v1时态游走到vk的随机顶点序列记为<v1,...,vm,...,vk>,其中,且τ(vi-1,vi)≤τ(vi,vi+1)。例如,随机游走中第一步对应的顶点的时间戳为t2,那么第二步对应的顶点的时间戳需要大于或者等于t2,例如,t4等。此外,由于时态游走过程中经过的边的时间戳为递增关系,从而通过时态游走得到的随机顶点序列中各顶点按照时间戳递增的顺序排列。
进一步,在动态时间图中,每条边eij(vi,vj)∈ET与时间t=τ(eij)=τ(vj)有关。开始顶点的选取为开始边的选取,在开始边选取时可以采用均匀分布或者加权分布的方式确定时间戳,然后将距离时间戳最近的边作为开始边。在边组中选取开始边时可以采用均匀分布、指数分布以及线性分布,相应的,所述开始边的转移概率写成数学形式为:
其中,estart为开始边。
进一步,在进行时态游走时,边的选取可以采用均匀分布、指数分布以及线性分布中的一种。相应的,边的转移概率可以为:
其中,NET表示为边ecur=(vi,vj)中一个顶点vj出去的所有的有向边的集合。均匀分别是一种无偏的邻近边选择,其本质就是从相邻边集合中等概率选择一条边。指数分布和线性分布均是有偏的邻近边选择。指数分布中的函数τ(·)如果是一个单调递增函数,那么指数分布是一种偏向于选择时间较晚出现的邻近边选择策略;如果函数τ(·)是一个单调递减函数,那么指数分布是一种偏向于选择接连发生边的邻近边选择策略。线性分布中的τ(·)是一个函数,其本身是一种偏向于时间较晚出现的邻近边选择策略。
举例说明:随机游走的长度为12,开始边和开始时间的选择无偏的方式,通过引入的时间态,根据时间戳的增加来追踪项目图中边的增加,从而捕获项目图的动态变化。动态环境下采样的随机游走序列不仅隐含项目间的高阶邻近关系,还因其依照严格的时序关系使得时序关系能够完美保留,并能够根据动态变化进行更多的时态游走从而满足系统的扩展性要求。
进一步,在所述步骤D30中,在获取到随机顶点序列后,可以通过词向量训练程序Word2Vec对顶点(即项目)进行图嵌入,以得到各顶点对应的图嵌入向量。在本实施例中,可以采用Skip-Gram模型学习顶点的图嵌入向量,Skip-Gram模型的目标是最大化随机点序列中两个顶点的同时出现概率。由此,优化目标的数学表达为:
minimizeflogPr(WT={vi-w,...,vi+w)\vi|f(vi))
进一步,在本实施例的一个实现方式中,为了提高Skip-Gram模型迭代速度太慢,可以采用引入负采样方法来加速顶点的词向量训练。在引入负采样方法后,优化目标的数学表达可以为:
其中,N(vi')是vi的负样本,σ(·)是sigmoid函数,其表达式可以为:
进一步,在本实施例的一个实现方式中,冷启动项目即没有用户交互的项目在有向加权图中的体现是呈现出了一个孤点。要为冷启动项目学习准确的嵌入仍然是一项挑战。为了解决冷启动问题,我们使用附加到冷启动项的辅助信息(例如,类别、子类别和品牌信息等)来增强项目的图嵌入。一般情况下,具有相似辅助信息的项目在嵌入空间中应该更靠近。基于此,对于孤点可以采用辅助信息嵌方式。具体而言,H表示嵌入矩阵,H0表示itemi的嵌入向量,表示嵌入附在itemi上的第c类辅助信息。那么,对于具有种辅助信息的项目itemi,我们会有n+1个向量其中,d是嵌入维数,其中,项目和嵌入信息的嵌入尺寸相同。此外,为了合并辅助信息,将itemi的n+1个嵌入向量连接起来,并添加一个具有平均池操作的层以汇总与itemi有关的所有嵌入:
其中,Si是itemi的聚合嵌入。这样合并边信息,以使具有相似辅助信息的项目在嵌入空间中更接近。这样可以更准确地嵌入冷启动项,并提高离线和在线性能。
S40、基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。
具体地,将静态嵌入向量表与动态图嵌入向量表相关联存储,以得到所述数据样本对应的图嵌入向量表。对于每个项目,基于图嵌入向量表均可以得到该项目对应的静态嵌入向量以及动态图嵌入向量。
综上所述,本实施例提供了一种图嵌入向量的生成方法,所述图嵌入向量的生成方法包括获取待处理的数据样本;基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表;基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。本发明通过确定数据样本的静态图数据以及动态时间图数据,确定静态嵌入向量表和动态嵌入向量表,这样通过静态嵌入向量表和动态嵌入向量表可以扩大项目对应的嵌入向量的适用范围。
基于上述图嵌入向量的生成方法,本实施例提供了一种推荐网络模型的生成方法,如图6和7所示,所述方法包括:
N10、获取训练样本集;
N20、对于训练样本集中的每个训练样本,基于预设图嵌入向量表确定该训练样本对应的图嵌入向量,其中,所述图嵌入向量为基于如上述实施例所述的图嵌入向量的生成方法确定的;
N30、基于所述训练样本以及所述图嵌入向量,对预设网络模型进行训练,以得到推荐网络模型。
具体地,所述图嵌入向量的获取过程为推荐网络模型的预处理过程,这样将图嵌入过程与推荐网络模型的训练分离,可以提高推荐网络模型的训练过程。可以理解的是,所述图嵌入向量可以为预先获取的,并且确定图嵌入向量的过程与推荐网络模型的训练相互独立,将图嵌入过程是作为预处理,作用是预训练生成项目的嵌入向量,并且将项目对应的嵌入向量以及训练样本作为预设网络模型的输入向,之后的池化层会按照组的方式进行操作,并通过全连接层拼接在一起形成稠密的整体表示向量。在获得到稠密的整体表示向量后,使用全连接层来自动学习组合特征。
此外,预设网络模型中添加了注意力机制,如图8所示,注意力机制的过程可以为:首先是把u和v以及u-v的对应元素差值向量合并起来作为输入,然后输入全连接层以得到权重。在训练过程中,我们使用的目标函数是负对数似然函数,其定义为:
其中,Train是大小为N的训练集,x是预设网络模型的输入向,y∈{0,1}是属性标签,p(x)是softmax层之后的预设网络模型的输出项。
基于上述图嵌入向量的生成方法,本实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如上述实施例所述的图嵌入向量的生成方法中的步骤。
基于上述图嵌入向量的生成方法,本申请还提供了一种终端设备,如图9所示,其包括至少一个处理器(processor)20;显示屏21;以及存储器(memory)22,还可以包括通信接口(Communications Interface)23和总线24。其中,处理器20、显示屏21、存储器22和通信接口23可以通过总线24完成相互间的通信。显示屏21设置为显示初始设置模式中预设的用户引导界面。通信接口23可以传输信息。处理器20可以调用存储器22中的逻辑指令,以执行上述实施例中的方法。
此外,上述的存储器22中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。
存储器22作为一种计算机可读存储介质,可设置为存储软件程序、计算机可执行程序,如本公开实施例中的方法对应的程序指令或模块。处理器20通过运行存储在存储器22中的软件程序、指令或模块,从而执行功能应用以及数据处理,即实现上述实施例中的方法。
存储器22可包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端设备的使用所创建的数据等。此外,存储器22可以包括高速随机存取存储器,还可以包括非易失性存储器。例如,U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等多种可以存储程序代码的介质,也可以是暂态存储介质。
此外,上述存储介质以及终端设备中的多条指令处理器加载并执行的具体过程在上述方法中已经详细说明,在这里就不再一一陈述。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (10)
1.一种图嵌入向量的生成方法,其特征在于,所述方法包括:
获取待处理的数据样本,其中,所述数据样本包括若干用户历史行为序列;
基于若干用户历史行为序列,确定所述数据样本对应的静态图数据以及动态时间图数据,其中,所述静态图数据的顶点和动态时间图数据的顶点均为用户历史序列中的项目;
基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表,并基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表;
基于所述静态图嵌入向量表以及所述动态图嵌入向量表,确定所述数据样本对应的图嵌入向量表。
2.根据权利要求1所述图嵌入向量的生成方法,其特征在于,所述静态图数据中的权重用于反映若干用户历史行为中相关项目对的频率。
3.根据权利要求2所述图嵌入向量的生成方法,其特征在于,所述静态图数据的构建过程具体包括:
获取若干用户历史行序列包括的所有项目,以得到所述静态图数据对应的顶点集;
对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
根据获取到的所有项目对,确定顶点序列中各顶点之间的边以及各边的出现次数;
将各边的出现次数作为各边对应的权重,以得到所述静态图数据。
4.根据权利要求1所述图嵌入向量的生成方法,其特征在于,所述基于所述静态图数据确定所述数据样本对应的静态图嵌入向量表具体包括:
获取所述静态图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
对于每个参考顶点序列,对该参考点序列进行随机游走以得到若干随机顶点序列;
基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的静态图嵌入向量,以得到所述数据样本对应的静态图嵌入向量表。
5.根据权利要求1所述图嵌入向量的生成方法,其特征在于,所述动态时间图数据中的权重用于反映若干用户历史行为中相关项目对的频率以及项目对中两个项目转换的行为时间。
6.根据权利要求5所述图嵌入向量的生成方法,其特征在于,所述动态时间图数据的构建过程具体包括:
获取若干用户历史行序列包括的所有项目,以得到所述动态时间图数据对应的顶点集;
对于若干用户历史行为中对每个用户历史行为,确定该用户历史行为对应的项目对,其中,所述项目对包括第一项目和第二项目,所述第一项目和第二项目按照时间顺序为相邻项目;
根据获取到的所有项目对,确定顶点序列中各顶点之间的边,以得到动态时间图数据对应的边;
对于动态时间图数据的每条边,确定该边对应的各项目对以及各项目对中目标项目对应的时间戳,并基于各项目以及各项目对应的时间戳确定该边对应的权重,以得到所述动态时间图数据。
7.根据权利要求1所述图嵌入向量的生成方法,其特征在于,所述基于所述动态时间图数据确定所述数据样本对应的动态图嵌入向量表具体包括:
获取所述动态时间图数据对应的顶点集合,根据所述顶点集合形成若干参考顶点序列;
对于每个参考顶点序列,对该参考点序列进行时态游走以得到若干随机顶点序列,其中,所述时态游走为以时序顺序为约束条件的随机游走;
基于获取到的所有随机顶点序列进行词向量训练,生成每个顶点对应的动态图嵌入向量,以得到所述数据样本对应的动态图嵌入向量表。
8.一种推荐网络模型的生成方法,其特征在于,所述方法包括:
获取训练样本集;
对于训练样本集中的每个训练样本,基于预设图嵌入向量表确定该训练样本对应的图嵌入向量,其中,所述图嵌入向量为基于如权利要求1-7任一所述的图嵌入向量的生成方法确定的;
基于所述训练样本以及所述图嵌入向量,对预设网络模型进行训练,以得到推荐网络模型。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现如权利要求1~7任意一项所述的图嵌入向量的生成方法中的步骤,和/或以实现如权利要求8所述的推荐网络模型的生成方法中的步骤。
10.一种终端设备,其特征在于,包括:处理器、存储器及通信总线;所述存储器上存储有可被所述处理器执行的计算机可读程序;
所述通信总线实现处理器和存储器之间的连接通信;
所述处理器执行所述计算机可读程序时实现如权利要求1~7任意一项所述的图嵌入向量的生成方法中的步骤,和/或实现如权利要求8所述的推荐网络模型的生成方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431356.6A CN111966889B (zh) | 2020-05-20 | 2020-05-20 | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010431356.6A CN111966889B (zh) | 2020-05-20 | 2020-05-20 | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111966889A true CN111966889A (zh) | 2020-11-20 |
CN111966889B CN111966889B (zh) | 2023-04-28 |
Family
ID=73358122
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010431356.6A Active CN111966889B (zh) | 2020-05-20 | 2020-05-20 | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966889B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541639A (zh) * | 2020-12-22 | 2021-03-23 | 宜宾电子科技大学研究院 | 基于图神经网络和注意力机制的推荐系统评分预测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344295A (zh) * | 2018-08-24 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 分布式图嵌入方法、装置、设备及系统 |
CN109597844A (zh) * | 2019-01-31 | 2019-04-09 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于深度神经网络与图网络的核心用户挖掘方法及系统 |
CN110245269A (zh) * | 2019-05-06 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 获取关系网络图中节点的动态嵌入向量的方法和装置 |
CN110430440A (zh) * | 2019-06-19 | 2019-11-08 | 鹏城实验室 | 视频传输方法、系统、计算机设备和存储介质 |
CN110580314A (zh) * | 2019-07-16 | 2019-12-17 | 华南师范大学 | 基于图卷积神经网络和动态权重的课程推荐方法和系统 |
CN110852856A (zh) * | 2019-11-04 | 2020-02-28 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法 |
-
2020
- 2020-05-20 CN CN202010431356.6A patent/CN111966889B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109344295A (zh) * | 2018-08-24 | 2019-02-15 | 阿里巴巴集团控股有限公司 | 分布式图嵌入方法、装置、设备及系统 |
CN109597844A (zh) * | 2019-01-31 | 2019-04-09 | 中科人工智能创新技术研究院(青岛)有限公司 | 基于深度神经网络与图网络的核心用户挖掘方法及系统 |
CN110245269A (zh) * | 2019-05-06 | 2019-09-17 | 阿里巴巴集团控股有限公司 | 获取关系网络图中节点的动态嵌入向量的方法和装置 |
CN110430440A (zh) * | 2019-06-19 | 2019-11-08 | 鹏城实验室 | 视频传输方法、系统、计算机设备和存储介质 |
CN110580314A (zh) * | 2019-07-16 | 2019-12-17 | 华南师范大学 | 基于图卷积神经网络和动态权重的课程推荐方法和系统 |
CN110852856A (zh) * | 2019-11-04 | 2020-02-28 | 西安交通大学 | 一种基于动态网络表征的发票虚开识别方法 |
Non-Patent Citations (2)
Title |
---|
HIROSHI YONAI等: "Mercem: Method Name Recommendation Based on Call Graph Embedding" * |
都奕冰;孙静宇;: "融合项目嵌入表征与注意力机制的推荐算法" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112541639A (zh) * | 2020-12-22 | 2021-03-23 | 宜宾电子科技大学研究院 | 基于图神经网络和注意力机制的推荐系统评分预测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111966889B (zh) | 2023-04-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110119467B (zh) | 一种基于会话的项目推荐方法、装置、设备及存储介质 | |
EP3711000B1 (en) | Regularized neural network architecture search | |
CN112487168B (zh) | 知识图谱的语义问答方法、装置、计算机设备及存储介质 | |
CN112307214A (zh) | 一种基于深度强化学习的推荐方法及推荐装置 | |
CN110276406B (zh) | 表情分类方法、装置、计算机设备及存储介质 | |
CN111737535B (zh) | 一种基于元结构和图神经网络的网络表征学习方法 | |
CN111967972B (zh) | 理财产品推荐方法及装置 | |
WO2024032096A1 (zh) | 反应物分子的预测方法、训练方法、装置以及电子设备 | |
CN116186390A (zh) | 一种融合超图的对比学习会话推荐方法 | |
CN115618101A (zh) | 基于负反馈的流媒体内容推荐方法、装置及电子设备 | |
CN114417161B (zh) | 基于异构图的虚拟物品时序推荐方法、装置、介质及设备 | |
CN115423037A (zh) | 一种基于大数据的用户分类方法及系统 | |
CN111966889B (zh) | 一种图嵌入向量的生成方法以及推荐网络模型的生成方法 | |
CN113705402A (zh) | 视频行为预测方法、系统、电子设备及存储介质 | |
CN116974249A (zh) | 柔性作业车间调度方法和柔性作业车间调度装置 | |
CN111460275B (zh) | 一种面向社交网络的动态网络表示学习方法及系统 | |
CN116302088B (zh) | 一种代码克隆检测方法、存储介质及设备 | |
CN112446739A (zh) | 一种基于分解机和图神经网络的点击率预测方法及系统 | |
CN116975686A (zh) | 训练学生模型的方法、行为预测方法和装置 | |
CN113065321B (zh) | 基于lstm模型和超图的用户行为预测方法及系统 | |
CN115952438A (zh) | 社交平台用户属性预测方法、系统、移动设备及存储介质 | |
CN114493674A (zh) | 一种广告点击率预测模型及方法 | |
CN114610967A (zh) | 一种应用于用户画像领域的数据增广方法 | |
WO2011016281A2 (ja) | ベイジアンネットワーク構造学習のための情報処理装置及びプログラム | |
CN116089722B (zh) | 基于图产出标签的实现方法、装置、计算设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |