CN114647789A - 一种推荐模型的确定方法和相关装置 - Google Patents
一种推荐模型的确定方法和相关装置 Download PDFInfo
- Publication number
- CN114647789A CN114647789A CN202210335018.1A CN202210335018A CN114647789A CN 114647789 A CN114647789 A CN 114647789A CN 202210335018 A CN202210335018 A CN 202210335018A CN 114647789 A CN114647789 A CN 114647789A
- Authority
- CN
- China
- Prior art keywords
- graph
- node
- graph node
- nodes
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请实施例公开了一种推荐模型的确定方法和相关装置,涉及人工智能领域中的机器学习,在基于对象对资源产生的历史交互行为确定的二部图中,将任意一个图节点作为起始图节点,根据关联关系随机游走预设步长,得到游走路径。将大于2且不大于预设步长的大小设置为预设长度,以预设长度的窗口在该游走路径上滑动,将处于同一个窗口内的任意两个图节点确定为正样本对。不仅丰富了训练样本,还通过添加多跳连接有效增大了冷启动图节点和其他图节点的共现性,如将处于同一个窗口内的不相邻的两个对象节点构成一个正样本对,两个对象节点对应的对象具有了相似性。由此,根据较多的正样本对训练得到的推荐模型,降低了该推荐模型出现过拟合的概率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种推荐模型的确定方法和相关装置。
背景技术
随着互联网技术的发展,越来越多的用户利用互联网平台浏览自身感兴趣的视频、商品、文章等资源。现有的提供资源的平台中,通过训练得到的推荐模型,为用户推荐其感兴趣的资源。
相关技术中,通常采用直推式学习的方式训练推荐模型,所谓直推式学习,就是先观察特定的训练样本,然后对特定的训练样本做出预测,即在训练的过程中,所使用的图数据需要包含要预测的所有图节点。在训练样本丰富的场景下,通过直推式学习训练得到的推荐模型效果较好。
但是,在训练样本较少的场景,训练得到的推荐模型容易出现过拟合,导致在给用户推荐资源时,资源推荐的准确率较低。
发明内容
为了解决上述技术问题,本申请提供了一种推荐模型的确定方法和相关装置,用于在给用户推荐资源时,提高资源推荐的准确率。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供一种推荐模型的确定方法,其特征在于,所述方法包括:
根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
根据所述正样本对训练得到推荐模型。
另一方面,本申请实施例提供一种推荐模型的确定装置,所述装置包括:构建单元、采样单元、确定单元和训练单元;
所述构建单元,用于根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
所述采样单元,用于在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
所述确定单元,用于以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
所述训练单元,用于根据所述正样本对训练得到推荐模型。
另一方面,本申请实施例提供一种计算机设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面所述的方法。
由上述技术方案可以看出,在基于对象对资源产生的历史交互行为确定的二部图中,包括对象节点、资源节点,以及对象和资源间体现的关联关系。在二部图中将任意一个图节点作为起始图节点,根据关联关系随机游走预设步长,得到游走路径。将大于2且不大于预设步长的大小设置为预设长度,以预设长度的窗口在该游走路径上滑动,将处于同一个窗口内的任意两个图节点确定为正样本对。由于处于同一个窗口内的图节点具有相似性,故能够将不具有关联关系但却处于一个窗口内的两个图节点新增为一个正样本对,相比于仅将有关联关系的两个图节点作为正样本对,不仅丰富了训练样本,还通过添加多跳连接有效增大了冷启动图节点和其他图节点的共现性,如将处于同一个窗口内的不相邻的两个对象节点构成一个正样本对,两个对象节点对应的对象具有了相似性。由此,即使在训练样本较少的场景,通过前述方式能够增加正样本对的数量,根据较多的正样本对训练得到的推荐模型,由于增加了训练样本的数量,降低了该推荐模型出现过拟合的概率。在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的推荐模型的确定方法的应用场景示意图;
图2为本申请实施例提供的一种推荐模型的确定方法的流程示意图;
图3为本申请实施例提供的一种邻居节点的示意图;
图4为本申请实施例提供的一种推荐模型的示意图;
图5为本申请实施例提供的一种关系感知图注意力模块的示意图;
图6为本申请实施例提供的一种推荐模型的确定装置的示意图;
图7为本申请实施例提供的服务器的结构示意图;
图8为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
若采用相关技术中的直推式学习方式,如随机游走(DeepWalk方法)等采用图节点的共现频率来度量图节点向量的相似性,使得推荐模型在训练的过程中,所使用的图数据需要包含要预测的所有图节点。而在训练样本较少的场景,如提供资源的平台处于发展阶段,存在很多冷启动的对象(如新注册的用户)和冷启动的资源(如用户新上传的视频),这些冷启动的对象和冷启动的资源由于历史交互行为较少,在推荐模型训练的过程中极易出现过拟合。
基于此,本申请实施例提供一种推荐模型的确定方法和相关装置,通过增加训练样本的数量,降低推荐模型出现过拟合的概率,在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率。
本申请实施例提供的推荐模型的确定方法是基于人工智能实现的。人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
在本申请实施例中,主要涉及的人工智能技术包括上述机器学习/深度学习等方向。
本申请提供的推荐模型的确定方法可以应用于具有确定用于资源推荐的推荐模型功能的确定设备,如终端设备、服务器。其中,终端设备具体可以为手机、电脑、智能语音交互设备、智能家电、车载终端、飞行器等等,但并不局限于此;服务器可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
该确定设备还可以具备机器学习能力。机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
在本申请实施例提供的推荐模型的确定方法中,采用的人工智能模型主要涉及对机器学习的应用,通过添加多跳连接,不仅增加了训练样本的数量,还增加了冷启动图节点与其他图节点的共现性,降低了该推荐模型出现过拟合的概率,在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率。
为了便于理解本申请的技术方案,下面结合实际应用场景,对本申请实施例提供的推荐模型的确定方法进行介绍。
参见图1,该图为本申请实施例提供的推荐模型的确定方法的应用场景示意图。在图1所示的应用场景中,前述的确定设备为服务器100,通过历史交互行为训练得到推荐模型,以便通过推荐模型为对象推荐其感兴趣的资源。
需要说明的是,对象是执行交互行为的主体,如短视频点赞、评论等行为的用户、设备、账号等。资源为对象执行交互行为的受体,如短视频等。交互行为如点赞、评论等对象对资源产生的行为。
对象通过终端设备200对资源产生的历史交互行为,会上传至服务器100,服务器100根据历史交互行为构建二部图。其中,二部图包括图节点和关联关系,如图1所示,图节点的节点类型包括如顶点A所示的对象节点和如顶点B所示的资源节点,顶点A与顶点B之间的连线为对象与资源基于历史交互行为体现的关联关系。
在二部图中,将顶点A中第六个对象节点u6作为起始图节点,预设步长设置为4,根据关联关系随机游走得到的游走路径可以为u6→i3→u1→i2→u3。以预设长度为3的窗口在游走路径上滑动,通过窗口能够将游走路径上的图节点分为划分为多组,如u6、i3和u1处于同一个窗口,i3、u1和i2处于同一个窗口等。由于处于同一个窗口内的图节点具有相似性,故能够将不具有关联关系但却处于一个窗口内的两个图节点新增为一个正样本对,如u6和u1。由此,相比于游走路径中仅相邻的对象节点和资源节点具有关联关系,添加多跳连接增加了处于同一个窗口却不相邻的图节点之间的关联关系,使其成为正样本对,有效增大了冷启动图节点和其他图节点的共现性,丰富了训练样本。
即使在训练样本较少的场景,由于通过前述方式能够增加正样本对的数量,服务器100根据较多的正样本对训练得到的推荐模型,降低了该推荐模型出现过拟合的概率,在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率,并将推荐模型的应用场景扩展至样本较少的场景。
本申请实施例所提供的推荐模型的确定方法可以由服务器执行。但是,在本申请的其它实施例中,终端设备也可以与服务器具有相似的功能,从而执行本申请实施例所提供的推荐模型的确定方法,或者由终端设备和服务器共同执行本申请实施例所提供的推荐模型的确定方法,本实施例对此不做限定。
下面结合附图,以前述所述的确定设备为服务器为例,对本申请实施例提供的一种推荐模型的确定方法进行介绍。
参见图2,该图为本申请实施例提供的一种推荐模型的确定方法的流程示意图,如图2所示,该识别模型的确定方法包括S201-S204。
S201:根据对象对资源产生的历史交互行为构建二部图。
二部图,又称为二分图,是图论中的一种特殊模型。设G=(V,E)是一个无向图,如果顶点V可分割为两个互不相交的子集(A,B),并且图中的每条边(i,j)所关联的两个顶点i和j分别属于这两个不同的顶点集i∈A,j∈B,则称图G为一个二分图。也就是说,二部图包括图节点和关联关系。在本申请实施例中,图节点是对象节点和资源节点的统称,对象节点用于标识对象,资源节点用于标识资源,对象节点与资源节点之间的连线称为对象与资源基于历史交互行为体现的关联关系。
作为一种可能的实现方式,由于后续的推荐模型具有处理上限,故可以将所有的历史交互行为按照固定时长进行切分,从而根据固定时长的历史交互行为构建二部图。需要说明的是,由于对象的兴趣爱好存在波动,故固定时长可以设置为较短的时长,如1个小时。
作为一种可能的实现方式,还可以根据对象与其他对象间的对象关联关系更新二部图,更新后的二部图的关联关系包括节点关联关系和对象关联关系,其中,节点关联关系用于体现对象和资源间的关联,对象关联关系用于体现对象和其他对象间的关联。
S202:在二部图中,根据关联关系,从起始图节点随机游走预设步长,得到游走路径。
将二部图中的任意一个图节点作为起始图节点,根据关联关系随机游走预设步长,得到游走路径,游走路径上相邻两个图节点的节点类型不同,且二者具有关联关系。
本申请实施例不具体限定预设步长的大小,本领域技术人员可以根据实际需要进行设置,如预设步长为4。
作为一种可能的实现方式,在二部图中,根据关联关系,多次从起始图节点随机游走预设步长,每一次随机游走得到一条游走路径,从而得到多条游走路径。从而不仅可以降低仅通过一次随机游走得到的游走路径产生的偏差,还能够增大训练样本的数量,进而降低推荐模型过拟合的概率。
进一步的,将连接关联关系的数量超过数量阈值的图节点作为起始图节点。本申请实施例不具体限定数量阈值的大小,本领域技术人员可以根据实际需要设置。其中,未超过数量阈值的图节点可以被称为“低频节点”,低频节点的历史交互行为较少,若将其作为起始图节点,通过多次随机游走会产生较多与低频节点有关的正样本对,容易导致推荐模型过拟合。但是,低频节点在二部图中占比较大,如果直接将低频节点从二部图中移除,会造成二部图的规模和图节点向量的有值率大大降低。故通过限制低频节点不作为随机游走的起点,即不将低频节点作为起始图节点,但仍然在随机游走的过程中被采样作为游走路径中的中间节点,甚至在后续邻居采样的过程中被采样作为邻居节点,使得推荐模型会学习到低频节点及其邻居节点的特征,推荐模型输出的图节点向量具有一定的代表性,提高推荐模型推荐资源的准确性。
作为一种可能的实现方式,在更新后的二部图中,关联关系的类型包括节点关联关系和对象关联关系,根据节点关联关系和对象关联关系从起始图节点随机游走预设步长,得到游走路径,此时,游走路径中相邻的两个图节点的节点类型不仅可以包括资源节点和对象节点,还可以包括对象节点和对象节点。其中对象关联关系可以为社交软件中的好友关系,由于假设具有好友关系的两个对象的兴趣爱好相似,更新后的二部图所包括的图节点之间数据类型更为丰富,使得一些冷启动的对象能够具有一些兴趣爱好较为相似的其他对象的特征。
进一步的,还可以预先设置游走路径中对象节点比例,以便在随机游走的过程中,根据对象节点比例确定关联关系的类型,根据关联关系的类型进行随机游走。虽然更新后的二部图中对象节点的数量增多,通过控制对象节点比例控制得到的游走路径中对象节点的数量,从而避免较多冷启动图节点造成推荐模型过拟合。
S203:以预设长度的窗口在游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对。
其中,预设长度为大于2且不大于预设步长的整数,如3、4、5等。窗口在游走路径上滑动的过程中,游走路径上与预设长度相等的图节点会处于同一个窗口中,由于处于同一个窗口内的图节点具有相似性,如两个对象节点均与一个资源节点具有关联关系,两个对象节点间具有一定的相似性。又如两个资源节点均与一个对象节点具有关联关系,两个资源节点间具有一定相似性。
由此,通过将不具有关联关系但却处于一个窗口内的两个图节点新增为一个正样本对,相比于仅将有关联关系的两个图节点作为正样本对,丰富了训练样本,即使在训练样本较少的场景,通过增加训练样本的数量,根据较多的训练样本训练得到的推荐模型,降低了该推荐模型出现过拟合的概率。此外,通过添加多跳连接(即在不具有关联关系的两个图节点间增加联系)有效增大了冷启动图节点和其他图节点的共现性,使得冷启动图节点的特征更为丰富,提高了推荐模型的准确性。
S204:根据正样本对训练得到推荐模型。
由于通过前述方式生成了较多的正样本对,增加了训练样本的数量,使得训练得到的推荐模型即使在训练样本较少的场景中也能够拥有较高的准确率。
此外,由于增加两个对象节点构成的正样本对,或者两个资源节点构成的正样本对,使得训练得到的推荐模型更适用于实际推荐业务,即在训练过程中,推荐模型没有区分对象-资源二部图中图节点的角色,不会导致训练得到推荐模型仅实现U2I(寻找相似资源推荐给用户)召回,还能够实现I2I(为对象寻找相似对象,进而为用户推荐资源)召回,以及实现U2U(寻找相似对象,然后推荐相似对象喜欢的资源)召回。
由上述技术方案可以看出,在基于对象对资源产生的历史交互行为确定的二部图中,包括对象节点、资源节点,以及对象和资源间体现的关联关系。在二部图中将任意一个图节点作为起始图节点,根据关联关系随机游走预设步长,得到游走路径。将大于2且不大于预设步长的大小设置为预设长度,以预设长度的窗口在该游走路径上滑动,将处于同一个窗口内的任意两个图节点确定为正样本对。由于处于同一个窗口内的图节点具有相似性,故能够将不具有关联关系但却处于一个窗口内的两个图节点新增为一个正样本对,相比于仅将有关联关系的两个图节点作为正样本对,不仅丰富了训练样本,还通过添加多跳连接有效增大了冷启动图节点和其他图节点的共现性,如将处于同一个窗口内的不相邻的两个对象节点构成一个正样本对,两个对象节点对应的对象具有了相似性。由此,即使在训练样本较少的场景,通过前述方式能够增加正样本对的数量,根据较多的正样本对训练得到的推荐模型,由于增加了训练样本的数量,降低了该推荐模型出现过拟合的概率。在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率。
下面通过几个实施例对推荐模型的训练过程进行说明。
作为一种可能的实现方式,在训练推荐模型的过程中,不仅要根据正样本对训练模型,还需要根据负样本对进行训练,其中,负样本对为二部图中不具体有关联关系的图节点构成的。由此,通过正样本对和负样本对推荐模型进行训练,能够让推荐模型学习到的分类效果更好,以避免将对象不喜欢的资源推荐给对象。进一步的,还可以适当增加负样本对的数量,从而进一步避免推荐模型将对象讨厌的资源推荐给对象。
作为一种可能的实现方式,推荐模型包括第一编码器和第二编码器,两个编码器用于对正样本对所包括的两个图节点分别进行编码。下面具体进行说明。
若正样本对所包括的两个图节点分别为第一图节点和第二图节点,将第一图节点输入至初始第一编码器中,得到第一图节点向量,将第二图节点输入至初始第二编码器中,得到第二图节点向量。由此,根据初始第一编码器和初始第二编码器得到正样本对包括的图节点对应的图节点向量。
将两个来自不同正样本对的图节点构成负样本对,故在获取正样本所包括的图节点对应的图节点向量后,可以获取负样本对所包括的图节点对应的图节点向量。例如,针对目标图节点,获取预设数量的目标正样本对所包括的图节点对应的图节点向量;其中,目标正样本对包括所述目标图节点和其他图节点,将任意两个其他图节点对应的图节点向量确定为负样本对所包括图节点对应的图节点向量。由此,没有通过如正样本对一样采样得到负样本对,而是通过将一批正样本对的图节点向量随机排列,从而为每个图节点采样得到负样本节点对应的图节点向量(如每个图节点采样6-10个负样本节点),降低了数据处理复杂度。不仅提高了数据处理速度,还使得调整负样本对更加简单便捷。
在获得正样本对和负样本对所包括的图节点向量后,基于正样本对中两个图节点对应的图节点向量间的相似度最小化、负样本对中两个图节点对应的图节点向量间的相似度最大化的训练方向,训练初始第一编码器和初始第二编码器,对应得到第一编码器和第二编码器。进而根据第一编码器和第二编码器,确定推荐模型。
例如,上述训练方向可以表示为公式(1):
其中,hv是正样本对中一个图节点对应的图节点向量,hu是正样本对中另一个图节点对应的图节点向量,是与hu构成负样本对的图节点对应的图节点向量集合,σ表示sigmoid函数。通过公式(1)能够让hu尽量靠近hv,而让尽量远离hu,从而提高推荐模型的准确性。
为了保证图节点向量的统一性,第一编码器和第二编码器的模型参数是共享的。
相关技术中,推荐模型一般采用传统的图卷积神经网络,传统的图卷积神经网络需要在整张图上进行运算,这种方式无法处理具有对象规模较大的真实推荐场景。基于此,本申请实施例通过先采样邻居节点,然后进行向量聚合,这种方式的计算复杂度不会随着图数据的增大而增大,从而能够更好地适应大规模推荐场景。下面对采样邻居节点进行说明。
根据正样本对包括的第一图节点、第一图节点的邻居节点,以及第一图节点和第一图节点的邻居节点间的关联关系,通过初始第一编码器得到第一图节点向量;其中,第一图节点的邻居节点为根据关联关系确定的图节点,即第一图节点的邻居节点为与第一图节点具有关联关系的图节点。
同理,根据正样本对包括的第二图节点、第二图节点的邻居节点,以及第二图节点和第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量;其中,第二图节点的邻居节点为根据关联关系确定的图节点,即第二图节点的邻居节点为与第二图节点具有关联关系的图节点。
为了进一步提高泛化性,可以通过多阶采样获得邻居节点。随着阶数增多,计算量会越来越大,作为一种可能的实现方式,可以通过二阶采样获得邻居节点,在保证计算量不会太大的同时,还能够提高模型的泛化效果。
参见图3,该图为本申请实施例提供的一种邻居节点的示意图。以采集对象节点u1的邻居节点为例,可以先从其历史交互行为中均匀随机采样4个具有关联关系的资源节点i1、i2、i3和i4,然后以4个资源节点中每一个资源节点为中心,再分别采样8个具有关联关系的对象节点,并将这二阶的32个对象节点(图3中仅示出部分对象节点)、一阶的4个资源节点,以及零阶的一个对象节点构成一个卷积块。
下面对向量聚合进行说明。每个编码器均包括多层编码层,对节点进行多次编码,下面以两层编码层为例进行说明。
通过向量映射得到正样本对包括的第一图节点的特征向量;通过向量映射得到第一图节点的邻居节点的特征向量;通过向量映射得到第一图节点和所述第一图节点的邻居节点间的关联关系的特征向量。
作为一种可能的实现方式,可以将图节点通过向量映射得到表示该节点的特征向量,如将第一图节点通过向量映射得到第一图节点的向量特征。
根据第一图节点的特征向量、第一图节点的邻居节点的特征向量,以及第一图节点和第一图节点的邻居节点间的关联关系的特征向量,通过初始第一编码器的第一层编码层得到针对第一图节点的第1个向量。根据第一图节点的第1个向量和第一图节点的邻居节点的特征向量,通过初始第一编码器的第二层编码层得到针对所述第二图节点的第2个向量。拼接第一图节点的特征向量、第一图节点的第1个向量和第一图节点的第2个向量,得到所述第一图节点向量。
同理,通过向量映射得到正样本对包括的第二图节点的特征向量;通过向量映射得到第二图节点的邻居节点的特征向量;通过向量映射第二图节点和第二图节点的邻居节点间的关联关系的特征向量。根据第二图节点的特征向量、第二图节点的邻居节点的特征向量,以及第二图节点和所述第二图节点的邻居节点间的关联关系的特征向量,通过初始第二编码器的第二层编码层得到针对第二图节点的第1个向量。根据第二图节点的第1个向量和第二图节点的邻居节点的特征向量,通过初始第二编码器的第二层编码层得到针对第二图节点的第2个向量。拼接第二图节点的特征向量、第二图节点的第1个向量和第二图节点的第2个向量,得到第二图节点向量。
由此,不再仅根据图节点本申请训练得到推荐模型,还根据图节点的邻居节点以及与邻居节点的关联关系训练得到推荐模型,增大了训练样本的数量,降低推荐模型过拟合的概率,提高资源推荐的准确率。
作为一种可能的实现方式,不仅可以将图节点本身进行映射得到特征向量,还可以为图节点增加更多的泛化特征,如性别、年龄、地区等维度特征。需要说明的是,在本申请的具体实施方式中,涉及到性别、年龄、地区等用户相关的数据,当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
由于聚合过程中,推荐模型会学习邻居节点的特征,从而带来噪声信息,无法提取真正有用的协同信息。基于此,本申请实施例提出了基于关系感知的动态注意力机制进行聚合,根据关联关系为不同的邻居节点配置不同的权重,从而在聚合邻居节点时显示考虑交互行为类型,从而过滤采样和数据本身带来的噪声干扰。下面具体说明。
参见图4,该图为本申请实施例提供的一种推荐模型的示意图。u1和i3作为一对正样本对,分别输入至初始第一编码器和初始第二编码器中,下面以初始第一编码器为例进行说明。
将正样本对包括的第一图节点u1、第一图节点的邻居节点i1、i2和i4(由于将u1和i3进行未知关系进行预测,故不将i3作为u1的邻居节点),以及第一图节点和第一图节点的邻居节点间的关联关系r11、r12和r14输入至初始第一编码器中的关系感知图注意力模块,通过关系感知图注意力模块输出每一个邻居节点对应的权重αi1、αi2和αi4。将第一图节点的邻居节点i1、i2和i4和第一图节点的邻居节点分别对应的权重αi1、αi2和αi4进行加权求和,通过维度变换(图4所示的FC Layer)后将和第一图节点的节点特征结合并归一化(图4所示的Normalization)作为初始第一编码器的第一层编码层的输出。经过多层编码层后,每层的中心节点向量将通过拼接模块被拼接起来作为第一图节点对应的图节点向量,
通过初始第二编码器得到第二图节点对应的图节点向量同理,从而计算第一图节点u1和第二图节点i3的相似度,根据相似度调整初始第一编码器得到第一编码器,调整初始第二编码器得到第二编码器。进而根据第一编码器和第二编码器得到推荐模型。
参见图5,该图为本申请实施例提供的一种关系感知图注意力模块的示意图。该关系感知图注意力模块基于关系感知的动态注意力机制进行工作,hi和hj是两个图节点对应的图节点向量,rij是两个图节点的关联关系对应的向量,Θ是共享的参数矩阵,α是用于过滤噪声信息的权重。作为一种一种可能的实现方式,还可以添加m,用于过滤掉全零向量带来的影响。因为采样是按照固定数目进行的,如果某个图节点的邻居节点数量不够,就会通过全零向量进行填充。
作为一种可能的实现方式,在得到推荐模型后,获取目标对象对应的对象节点以及任意资源对应的任意资源节点,将目标对象节点和任意资源节点输入至推荐模型中,通过推荐模型得到目标对象节点和任意资源节点间的目标相似度,如将目标对象节点与任意资源节点构成的二部图输入至少推荐模型中,通过推荐模型得到目标相似度,目标相似度用于标识目标对象对任意资源感兴趣的程度,从而根据目标相似度向目标对象推荐任意资源节点对应的资源,如将目标相似度超过相似度阈值对应的资源推荐给目标对象。
由此,通过推荐模型,能够确定任意对象与任意资源间的相似度,从而根据相似度为对象推荐其可能感兴趣的资源,不仅可以为冷启动对象推荐对应的资源,且资源推荐的准确率较高,提升了对象的体验感,还能为对象推荐冷启动资源,扩大了对象能够查看的资源范围,提升了对象的体验感。
接下来,将结合图4,以用户看视频的场景为例进行说明。用户在看视频的过程中,可能会对喜欢的视频进行点赞、评论、分享等交互行为。
S1:筛选掉无效的交互行为,如用户由于操作失误点击视频产生的交互行为等,并将历史交互行为进行切分,每一段历史交互行为的时长为1小时。
S2:根据1个小时的历史交互行为构建二部图。
S3:将非低频节点作为起始节点,在二部图中,根据关联关系,多次从起始图节点随机游走预设步长,得到游走路径,
S4:以预设长度的窗口在游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对。
每个图节点将会首先采样若干个邻居节点,然后推荐模型根据中心节点(被采样的图节点)和邻居节点、中心节点和邻居节点的关联关系计算动态权重,并对采样的邻居节点进行加权求和。下面以第一图节点u1和第二图节点i3构成的正样本对进行说明。
S5:通过向量映射得到第一图节点u1的特征向量xv;通过向量映射得到第一图节点的邻居节点的特征向量xu;通过向量映射得到第一图节点和第一图节点的邻居节点间的关联关系的特征向量xuv。
作为一种可能的实现方式,邻居节点采样阶段可以根据交互行为的类型、交互时间进行有选择的采样。交互行为的类型(如点赞物品,喜爱物品)能够对某些线上指标显著提升,交互时间能够捕获用户的兴趣变化,使推荐模型时效性更强。
S6:将xv、xu和xuv输入至如图4所示的初始第一编码器中,同初始第一编码器包括的多层编码层为每一个邻居节点配置对应权重,从而过滤掉邻居节点带来的噪声信息。具体参见公式(2):
其中,表示第k层编码层输出的第一图节点的第k个向量,σ是sigmoid函数,Wk和Bk是两个映射矩阵,是第一编码器要学习的模型参数,表示图节点v(如第一图节点u1)的邻居节点集合,u是邻居节点集合中的一个邻居节点,αuv是图节点v和邻居节点u对应的权重,是第k-1层编码层输出的邻居节点,是第k-1层编码层输出的第一图节点的第k-1个向量。
其中,第0个向量可以表示为公式(3):
考虑到聚合过程中每个邻居并不是等权的,推荐模型应该学会过滤邻居带来的噪声信息。因此本发明在聚合邻居节点向量时采用了动态注意力机制的思想。模型中注意力机制的计算思想如下面公式所示:
其中,||表示拼接操作,αvu表示图节点k聚合到图节点v时的权重,该权重通过softmax函数计算得到。Softmax函数中,aT是过滤向量,可以看作用于过滤拼接向量hv,hk,rkv,hv,hu,ruv不重要的成分。rkv是图节点k和图节点v间关联关系的类型,也被映射为向量。ruv是图节点u和图节点v间关联关系的类型,也被映射为向量。Θ是模型参数,可以为映射矩阵。LeakyReLU是非线性激活函数,表示图节点v的邻居集合。
S7:通过初始第一编码器中的拼接模块(如图4所示的Layer Combination)拼接每一层得到所有向量,得到第一图节点向量。具体可以参见公式(4):
S8:通过初始第二编码器得到第二图节点向量可以参照S5-S7,在此不再赘述。
S9:获取包括第一图节点的正样本对中其他图节点对应的图节点向量,将两个其他图节点对应的图节点向量确定为负样本对所包括图节点对应的图节点向量。
S10:根据前述公式(1)训练初始第一编码器和初始第二编码器,对应得到第一编码器和第二编码器。
S11:根据第一编码器和第二编码器,确定推荐模型。
S12:将目标对象节点和任意资源节点输入至推荐模型,通过推荐模型得到目标对象节点和任意资源节点间的相似度。
将想要为其推荐资源的用户作为目标对象节点,将任意资源作为任意资源节点,通过推荐模型得到目标对象节点和任意资源节点间的目标相似度。
S13:根据目标相似度向目标对象推荐任意资源节点对应的资源。
目标相似度用于描述目标对象节点对应的用户对任意资源节点对应的资源的感兴趣程度,若目标相似度超过相似度阈值,可以将该资源推荐给用户。
在处于发展阶段的资源平台需要大规模推荐场景下,通过实现基于随机游走和邻居聚合的大规模图向量生成方案,解决了大量冷启用户和冷启资源导致的训练样本不足问题以及数据噪声过大问题,在线上A/B实验中取得了用户人均停留时长(分钟)提升1.85%,种子(feed)人均播放数(Video View,VV)提升1.11%的效果。
针对上述实施例提供的识别模型的确定方法,本申请实施例还提供了一种识别模型的确定装置。
参见图6,该图为本申请实施例提供的一种推荐模型的确定装置的示意图。如图6所示,该推荐模型的确定装置600包括:构建单元601、采样单元602、确定单元603和训练单元604;
所述构建单元601,用于根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
所述采样单元602,用于在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
所述确定单元603,用于以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
所述训练单元604,用于根据所述正样本对训练得到推荐模型。
作为一种可能的实现方式,所述采样单元602,用于:
在所述二部图中,根据所述关联关系,多次从起始图节点随机游走预设步长,对应得到多条游走路径。
作为一种可能的实现方式,所述推荐模型的确定装置600还包括起始图节点确定单元,用于将连接关联关系的数量超过数量阈值的图节点确定为起始图节点。
作为一种可能的实现方式,所述训练单元604,用于:
根据所述正样本对包括的第一图节点,通过初始第一编码器得到第一图节点向量;根据所述正样本对包括的第二图节点,通过初始第二编码器得到第二图节点向量;
根据所述正样本对所包括的图节点对应的图节点向量,获取负样本对所包括图节点的图节点向量;其中,所述负样本对为两个来自不同正样本对的图节点构成;
基于所述正样本对中两个图节点对应的图节点向量间的相似度最小化、所述负样本对中两个图节点对应的图节点向量间的相似度最大化的训练方向,训练所述初始第一编码器和所述初始第二编码器,对应得到第一编码器和第二编码器;
根据所述第一编码器和所述第二编码器,确定推荐模型。
作为一种可能的实现方式,所述训练单元604,用于:
针对目标图节点,获取预设数量的目标正样本对所包括的图节点对应的图节点向量;其中,所述目标正样本对包括所述目标图节点和其他图节点;
将任意两个其他图节点对应的图节点向量确定为负样本对所包括图节点对应的图节点向量。
作为一种可能的实现方式,所述训练单元604,用于:
根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器得到第一图节点向量;其中,所述第一图节点的邻居节点为根据所述关联关系确定的图节点;
所述根据所述正样本对包括的第二图节点,通过初始第二编码器得到第二图节点向量,包括:
根据所述正样本对包括的第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量;其中,所述第二图节点的邻居节点为根据所述关联关系确定的图节点。
作为一种可能的实现方式,所述初始第一编码器包括两层编码层,所述初始第二编码器包括两层编码层,所述训练单元604,用于:
通过向量映射得到所述正样本对包括的第一图节点的特征向量;通过向量映射得到所述第一图节点的邻居节点的特征向量;通过向量映射得到所述第一图节点和所述第一图节点的邻居节点间的关联关系的特征向量;
根据所述第一图节点的特征向量、所述第一图节点的邻居节点的特征向量,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系的特征向量,通过所述初始第一编码器的第一层编码层得到针对所述第一图节点的第1个向量;
根据所述第一图节点的第1个向量和所述第一图节点的邻居节点的特征向量,通过所述初始第一编码器的第二层编码层得到针对所述第二图节点的第2个向量;
拼接所述第一图节点的特征向量、所述第一图节点的第1个向量和所述第一图节点的第2个向量,得到所述第一图节点向量;
通过向量映射得到所述正样本对包括的第二图节点的特征向量;通过向量映射得到所述第二图节点的邻居节点的特征向量;通过向量映射所述第二图节点和所述第二图节点的邻居节点间的关联关系的特征向量;
根据所述第二图节点的特征向量、所述第二图节点的邻居节点的特征向量,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系的特征向量,通过所述初始第二编码器的第二层编码层得到针对所述第二图节点的第1个向量;
根据所述第二图节点的第1个向量和所述第二图节点的邻居节点的特征向量,通过所述初始第二编码器的第二层编码层得到针对所述第二图节点的第2个向量;
拼接所述第二图节点的特征向量、所述第二图节点的第1个向量和所述第二图节点的第2个向量,得到所述第二图节点向量。
作为一种可能的实现方式,所述训练单元604,用于:
根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器中的关系感知图注意力模块为所述第一图节点的邻居节点一一设置对应的权重;
根据所述第一图节点的邻居节点、所述第一图节点的邻居节点分别对应的权重,以及所述第一图节点,通过所述初始第一编码器中的拼接模块得到第一图节点向量;
根据所述第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量,包括:
根据所述正样本对包括的第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器中的关系感知图注意力模块为所述第二图节点的邻居节点一一设置对应的权重;
根据所述第二图节点的邻居节点、所述第二图节点的邻居节点分别对应的权重,以及所述第二图节点,通过所述初始第二编码器中的拼接模块得到第二图节点向量。
作为一种可能的实现方式,所述推荐模型的确定装置600还包括更新单元,用于根据所述对象与其他对象间的对象关联关系更新所述二部图,更新后的二部图的关联关系的关系类型包括节点关联关系和对象关联关系,所述节点关联关系用于体现所述对象和所述资源间的关联,所述对象关联关系用于体现所述对象和所述其他对象间的关联;
所述采样单元602,用于在所述更新后的二部图中,根据所述节点关联关系和所述对象关联关系,从起始图节点随机游走预设步长,得到游走路径。
作为一种可能的实现方式,所述推荐模型的确定装置600还包括预设单元,用于:
预先设置所述游走路径中对象节点比例;
在所述随机游走的过程中,根据所述对象节点比例确定所述关联关系的类型,根据所述关联关系的类型进行随机游走。
作为一种可能的实现方式,所述推荐模型的确定装置600还包括应用单元,用于:
将目标对象节点和任意资源节点输入至所述推荐模型,通过所述推荐模型得到所述目标对象节点和所述任意资源节点间的目标相似度;
根据所述目标相似度向所述目标对象推荐所述任意资源节点对应的资源。
由上述技术方案可以看出,在基于对象对资源产生的历史交互行为确定的二部图中,包括对象节点、资源节点,以及对象和资源间体现的关联关系。在二部图中将任意一个图节点作为起始图节点,根据关联关系随机游走预设步长,得到游走路径。将大于2且不大于预设步长的大小设置为预设长度,以预设长度的窗口在该游走路径上滑动,将处于同一个窗口内的任意两个图节点确定为正样本对。由于处于同一个窗口内的图节点具有相似性,故能够将不具有关联关系但却处于一个窗口内的两个图节点新增为一个正样本对,相比于仅将有关联关系的两个图节点作为正样本对,不仅丰富了训练样本,还通过添加多跳连接有效增大了冷启动图节点和其他图节点的共现性,如将处于同一个窗口内的不相邻的两个对象节点构成一个正样本对,两个对象节点对应的对象具有了相似性。由此,即使在训练样本较少的场景,通过前述方式能够增加正样本对的数量,根据较多的正样本对训练得到的推荐模型,由于增加了训练样本的数量,降低了该推荐模型出现过拟合的概率。在通过该推荐模型给用户推荐资源时,提高了资源推荐的准确率。
本申请实施例还提供了一种计算机设备,该计算机设备为前述介绍的计算机设备,该计算机设备可以为服务器或者终端设备,前述所述的推荐模型的确定装置可以内置于服务器或终端设备中,下面将从硬件实体化的角度对本申请实施例提供的计算机设备进行介绍。其中,图7所示为服务器的结构示意图,图8所示为终端设备的结构示意图。
参见图7,该图为本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(CentralProcessing Units,CPU)1422和存储器1432,一个或一个以上应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,CPU 1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图7所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
根据所述正样本对训练得到推荐模型
可选的,CPU 1422还可以执行本申请实施例中推荐模型的确定方法任一具体实现方式的方法步骤。
参见图8,该图为为本申请实施例提供的一种终端设备的结构示意图。图8示出的是与本申请实施例提供的终端设备相关的智能手机的部分结构的框图,该智能手机包括:射频(Radio Frequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图8中示出的智能手机结构并不构成对智能手机的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图8对智能手机的各个构成部件进行具体的介绍:
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现智能手机的各种功能应用以及数据处理。
输入单元1530可用于接收输入的数字或字符信息,以及产生与智能手机的用户设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入设备1532。触控面板1531,也称为触摸屏,可收集用户在其上或附近的触摸操作,并根据预先设定的程式驱动相应的连接装置。除了触控面板1531,输入单元1530还可以包括其他输入设备1532。具体地,其他输入设备1532可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
显示单元1540可用于显示由用户输入的信息或提供给用户的信息以及智能手机的各种菜单。显示单元1540可包括显示面板1541,可选的,可以采用液晶显示器(LiquidCrystal Display,简称LCD)、有机发光二极管(Organic Light-Emitting Diode,简称OLED)等形式来配置显示面板1541。
智能手机还可包括至少一种传感器1550,比如光传感器、运动传感器以及其他传感器。至于智能手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
音频电路1560、扬声器1561,传声器1562可提供用户与智能手机之间的音频接口。音频电路1560可将接收到的音频数据转换后的电信号,传输到扬声器1561,由扬声器1561转换为声音信号输出;另一方面,传声器1562将收集的声音信号转换为电信号,由音频电路1560接收后转换为音频数据,再将音频数据输出处理器1580处理后,经RF电路1510以发送给比如另一智能手机,或者将音频数据输出至存储器1520以便进一步处理。
处理器1580是智能手机的控制中心,利用各种接口和线路连接整个智能手机的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行智能手机的各种功能和处理数据。可选的,处理器1580可包括一个或多个处理单元。
智能手机还包括给各个部件供电的电源1590(比如电池),优选的,电源可以通过电源管理系统与处理器1580逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
尽管未示出,智能手机还可以包括摄像头、蓝牙模块等,在此不再赘述。
在本申请实施例中,该智能手机所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该智能手机所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的推荐模型的确定方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的推荐模型的确定方法。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述方面的各种可选实现方式中提供的推荐模型的确定方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:Read-Only Memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。因此,本申请的保护范围应该以权利要求的保护范围为准。
Claims (15)
1.一种推荐模型的确定方法,其特征在于,所述方法包括:
根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
根据所述正样本对训练得到推荐模型。
2.根据权利要求1所述的方法,其特征在于,所述在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径,包括:
在所述二部图中,根据所述关联关系,多次从起始图节点随机游走预设步长,对应得到多条游走路径。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
将连接关联关系的数量超过数量阈值的图节点确定为起始图节点。
4.根据权利要求1所述的方法,其特征在于,所述根据所述正样本对训练得到推荐模型,包括:
根据所述正样本对包括的第一图节点,通过初始第一编码器得到第一图节点向量;根据所述正样本对包括的第二图节点,通过初始第二编码器得到第二图节点向量;
根据所述正样本对所包括的图节点对应的图节点向量,获取负样本对所包括图节点的图节点向量;其中,所述负样本对为两个来自不同正样本对的图节点构成;
基于所述正样本对中两个图节点对应的图节点向量间的相似度最小化、所述负样本对中两个图节点对应的图节点向量间的相似度最大化的训练方向,训练所述初始第一编码器和所述初始第二编码器,对应得到第一编码器和第二编码器;
根据所述第一编码器和所述第二编码器,确定推荐模型。
5.根据权利要求4所述的方法,其特征在于,所述根据所述正样本对所包括的图节点对应的图节点向量,获取负样本对所包括图节点的图节点向量,包括:
针对目标图节点,获取预设数量的目标正样本对所包括的图节点对应的图节点向量;其中,所述目标正样本对包括所述目标图节点和其他图节点;
将任意两个其他图节点对应的图节点向量确定为负样本对所包括图节点对应的图节点向量。
6.根据权利要求4所述的方法,其特征在于,所述根据所述正样本对包括的第一图节点,通过初始第一编码器得到第一图节点向量,包括:
根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器得到第一图节点向量;其中,所述第一图节点的邻居节点为根据所述关联关系确定的图节点;
所述根据所述正样本对包括的第二图节点,通过初始第二编码器得到第二图节点向量,包括:
根据所述正样本对包括的第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量;其中,所述第二图节点的邻居节点为根据所述关联关系确定的图节点。
7.根据权利要求6所述的方法,其特征在于,所述初始第一编码器包括两层编码层,所述根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器得到第一图节点向量,包括:
通过向量映射得到所述正样本对包括的第一图节点的特征向量;通过向量映射得到所述第一图节点的邻居节点的特征向量;通过向量映射得到所述第一图节点和所述第一图节点的邻居节点间的关联关系的特征向量;
根据所述第一图节点的特征向量、所述第一图节点的邻居节点的特征向量,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系的特征向量,通过所述初始第一编码器的第一层编码层得到针对所述第一图节点的第1个向量;
根据所述第一图节点的第1个向量和所述第一图节点的邻居节点的特征向量,通过所述初始第一编码器的第二层编码层得到针对所述第二图节点的第2个向量;
拼接所述第一图节点的特征向量、所述第一图节点的第1个向量和所述第一图节点的第2个向量,得到所述第一图节点向量;
所述初始第二编码器包括两层编码层,所述根据所述正样本对包括的第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量,包括:
通过向量映射得到所述正样本对包括的第二图节点的特征向量;通过向量映射得到所述第二图节点的邻居节点的特征向量;通过向量映射所述第二图节点和所述第二图节点的邻居节点间的关联关系的特征向量;
根据所述第二图节点的特征向量、所述第二图节点的邻居节点的特征向量,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系的特征向量,通过所述初始第二编码器的第二层编码层得到针对所述第二图节点的第1个向量;
根据所述第二图节点的第1个向量和所述第二图节点的邻居节点的特征向量,通过所述初始第二编码器的第二层编码层得到针对所述第二图节点的第2个向量;
拼接所述第二图节点的特征向量、所述第二图节点的第1个向量和所述第二图节点的第2个向量,得到所述第二图节点向量。
8.根据权利要求6所述的方法,其特征在于,所述根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器得到第一图节点向量,包括:
根据所述正样本对包括的第一图节点、所述第一图节点的邻居节点,以及所述第一图节点和所述第一图节点的邻居节点间的关联关系,通过初始第一编码器中的关系感知图注意力模块为所述第一图节点的邻居节点一一设置对应的权重;
根据所述第一图节点的邻居节点、所述第一图节点的邻居节点分别对应的权重,以及所述第一图节点,通过所述初始第一编码器中的拼接模块得到第一图节点向量;
根据所述第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器得到第二图节点向量,包括:
根据所述正样本对包括的第二图节点、所述第二图节点的邻居节点,以及所述第二图节点和所述第二图节点的邻居节点间的关联关系,通过初始第二编码器中的关系感知图注意力模块为所述第二图节点的邻居节点一一设置对应的权重;
根据所述第二图节点的邻居节点、所述第二图节点的邻居节点分别对应的权重,以及所述第二图节点,通过所述初始第二编码器中的拼接模块得到第二图节点向量。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述对象与其他对象间的对象关联关系更新所述二部图,更新后的二部图的关联关系的关系类型包括节点关联关系和对象关联关系,所述节点关联关系用于体现所述对象和所述资源间的关联,所述对象关联关系用于体现所述对象和所述其他对象间的关联;
所述在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径,包括:
在所述更新后的二部图中,根据所述节点关联关系和所述对象关联关系,从起始图节点随机游走预设步长,得到游走路径。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
预先设置所述游走路径中对象节点比例;
在所述随机游走的过程中,根据所述对象节点比例确定所述关联关系的类型,根据所述关联关系的类型进行随机游走。
11.根据权利要求1-10任意一项所述的方法,其特征在于,所述方法还包括:
将目标对象节点和任意资源节点输入至所述推荐模型,通过所述推荐模型得到所述目标对象节点和所述任意资源节点间的目标相似度;
根据所述目标相似度向所述目标对象推荐所述任意资源节点对应的资源。
12.一种推荐模型的确定装置,其特征在于,所述装置包括:构建单元、采样单元、确定单元和训练单元;
所述构建单元,用于根据对象对资源产生的历史交互行为构建二部图;其中,所述二部图包括图节点和关联关系,所述图节点的节点类型包括标识所述对象的对象节点和标识所述资源的资源节点,所述关联关系用于体现所述对象与所述资源基于所述历史交互行为的关联;
所述采样单元,用于在所述二部图中,根据所述关联关系,从起始图节点随机游走预设步长,得到游走路径;其中,所述起始图节点为所述二部图中任意一个图节点;
所述确定单元,用于以预设长度的窗口在所述游走路径上滑动,确定处于同一窗口内的任意两个图节点为正样本对;其中,所述预设长度为大于2,且不大于所述预设步长的整数;
所述训练单元,用于根据所述正样本对训练得到推荐模型。
13.一种计算机设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-11任意一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-11任意一项所述的方法。
15.一种包括指令的计算机程序产品,当其在计算机上运行时,使得所述计算机执行权利要求1-11任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210335018.1A CN114647789A (zh) | 2022-03-31 | 2022-03-31 | 一种推荐模型的确定方法和相关装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210335018.1A CN114647789A (zh) | 2022-03-31 | 2022-03-31 | 一种推荐模型的确定方法和相关装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114647789A true CN114647789A (zh) | 2022-06-21 |
Family
ID=81995700
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210335018.1A Pending CN114647789A (zh) | 2022-03-31 | 2022-03-31 | 一种推荐模型的确定方法和相关装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114647789A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540105A (zh) * | 2024-01-09 | 2024-02-09 | 浙江大学 | 一种增强图推荐模型鲁棒性的方法、装置及一种推荐方法 |
-
2022
- 2022-03-31 CN CN202210335018.1A patent/CN114647789A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117540105A (zh) * | 2024-01-09 | 2024-02-09 | 浙江大学 | 一种增强图推荐模型鲁棒性的方法、装置及一种推荐方法 |
CN117540105B (zh) * | 2024-01-09 | 2024-04-16 | 浙江大学 | 一种增强图推荐模型鲁棒性的方法、装置及一种推荐方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022016556A1 (zh) | 一种神经网络蒸馏方法以及装置 | |
WO2023065859A1 (zh) | 物品推荐方法、装置及存储介质 | |
CN112035743A (zh) | 数据推荐方法、装置、计算机设备以及存储介质 | |
CN113469340A (zh) | 一种模型处理方法、联邦学习方法及相关设备 | |
CN112528164B (zh) | 一种用户协同过滤召回方法及装置 | |
CN110738314A (zh) | 一种基于深度迁移网络的点击率预测方法及装置 | |
CN114519435A (zh) | 模型参数更新方法、模型参数更新装置和电子设备 | |
CN114647789A (zh) | 一种推荐模型的确定方法和相关装置 | |
CN113111917B (zh) | 一种基于双重自编码器的零样本图像分类方法及装置 | |
WO2022001887A1 (zh) | 用于训练物品编码模型的方法和装置 | |
CN113590976A (zh) | 一种空间自适应图卷积网络的推荐方法 | |
CN111368205B (zh) | 数据推荐方法、装置、计算机设备及存储介质 | |
CN117251586A (zh) | 多媒体资源推荐方法、装置及存储介质 | |
CN111814044A (zh) | 一种推荐方法、装置、终端设备及存储介质 | |
CN116910357A (zh) | 一种数据处理方法及相关装置 | |
KR20220018633A (ko) | 이미지 검색 방법 및 장치 | |
CN116957678A (zh) | 一种数据处理方法和相关装置 | |
CN113409096B (zh) | 目标对象识别方法、装置、计算机设备及存储介质 | |
CN115545833A (zh) | 一种基于用户社交信息的推荐方法及系统 | |
CN116090504A (zh) | 图神经网络模型训练方法及装置、分类方法、计算设备 | |
CN112418441A (zh) | 基于迁移学习的数据处理方法、装置、设备及存储介质 | |
CN116501993B (zh) | 房源数据推荐方法及装置 | |
CN112132326B (zh) | 一种基于随机游走度惩罚机制的社交网络好友预测方法 | |
CN117609788A (zh) | 端云接力的点击率预测模型训练方法、装置及存储介质 | |
CN116955636A (zh) | 一种知识图谱处理方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |