CN116955782A - 跨域推荐模型的训练方法、装置、设备、介质及产品 - Google Patents
跨域推荐模型的训练方法、装置、设备、介质及产品 Download PDFInfo
- Publication number
- CN116955782A CN116955782A CN202310084391.9A CN202310084391A CN116955782A CN 116955782 A CN116955782 A CN 116955782A CN 202310084391 A CN202310084391 A CN 202310084391A CN 116955782 A CN116955782 A CN 116955782A
- Authority
- CN
- China
- Prior art keywords
- sample
- domain
- content
- target domain
- node
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 106
- 238000000034 method Methods 0.000 title claims abstract description 99
- 239000013598 vector Substances 0.000 claims description 431
- 238000000605 extraction Methods 0.000 claims description 106
- 230000006399 behavior Effects 0.000 claims description 58
- 238000012512 characterization method Methods 0.000 claims description 36
- 230000003993 interaction Effects 0.000 claims description 22
- 238000010276 construction Methods 0.000 claims description 20
- 238000004891 communication Methods 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 4
- 230000002452 interceptive effect Effects 0.000 claims description 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 12
- 238000010586 diagram Methods 0.000 description 31
- 238000005516 engineering process Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 12
- 238000012545 processing Methods 0.000 description 8
- 238000003062 neural network model Methods 0.000 description 7
- 238000003058 natural language processing Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 238000010801 machine learning Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000011664 signaling Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 230000001815 facial effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种跨域推荐模型的训练方法、装置、设备、介质及产品,属于人工智能领域。该方法包括:构建异质网络,异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、样本源域内容节点和样本源域语义标签之间的第一标签二部图、样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;基于节点二部图中存在连接边的样本源域内容节点和样本目标域内容节点、样本源域内容节点在第一标签二部图中对应的样本源域语义标签,以及样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本;基于训练样本对跨域推荐模型进行训练。该方法可以实现更好的使用该跨域推荐模型向用户推荐目标内容。
Description
技术领域
本申请涉及人工智能领域,特别涉及一种跨域推荐模型的训练方法、装置、设备、介质及产品。
背景技术
随着互联网技术的快速发展,用户可以在网络上选择自己喜欢的内容进行浏览,服务器也可以根据用户的日常喜好为用户推荐具有相似度的内容。
相关技术中,通过使用直接为用户推荐目标内容的推荐方式,召回与用户的喜好内容的相似度较高的目标内容,向用户进行推荐。或,通过使用根据用户的喜好内容的内容特征推荐目标内容的推荐方式,召回内容特征与用户的喜好内容的内容特征相似度较高的目标内容,向用户进行推荐。
但是上述推荐方式均需要引入用户节点,在一定程度上会受到用户数量规模的影响,当用户数量规模较小时,推荐模型能够使用的数据就少,从而可能出现推荐的目标内容与用户的喜好内容相关性不足的问题。
发明内容
本申请提供了一种跨域推荐模型的训练方法、装置、设备、介质及产品,所述技术方案如下:
根据本申请的一方面,提供了一种跨域推荐模型的训练方法,所述方法包括:
构建异质网络,所述异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、所述样本源域内容节点和样本源域语义标签之间的第一标签二部图、所述样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;
基于所述节点二部图中存在连接边的所述样本源域内容节点和所述样本目标域内容节点、所述样本源域内容节点在所述第一标签二部图中对应的样本源域语义标签,以及所述样本目标域内容节点在所述第二标签二部图中对应的样本目标域语义标签,生成训练样本;
基于所述训练样本对所述跨域推荐模型进行训练。
根据本申请的另一方面,提供了一种跨域推荐方法,所述方法包括:
获取用户账号的历史行为;
基于所述用户账号的所述历史行为,确定所述用户账号存在历史互动的源域内容;
基于源域内容向量和目标域内容向量之间的相似性,确定与所述源域内容对应的目标域内容;
向所述用户账号推荐所述目标域内容;
其中,所述源域内容向量是所述源域内容的特征向量,所述目标域内容向量是所述目标域内容的特征向量,所述源域内容向量是基于所述源域内容和所述源域内容在第一标签二部图中对应的源域语义标签构建的,所述目标域内容向量是基于所述目标域内容和所述目标域内容在第二标签二部图中对应的目标域语义标签构建的,所述第一标签二部图是基于所述源域内容和所述源域语义标签构建的,所述第二标签二部图是基于所述目标域内容和所述目标域语义标签构建的。
根据本申请的另一方面,提供了一种跨域推荐模型的训练装置,所述装置包括:
构建模块,用于构建异质网络,所述异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、所述样本源域内容节点和样本源域语义标签之间的第一标签二部图、所述样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;
生成模块,用于基于所述节点二部图中存在连接边的所述样本源域内容节点和所述样本目标域内容节点、所述样本源域内容节点在所述第一标签二部图中对应的样本源域语义标签,以及所述样本目标域内容节点在所述第二标签二部图中对应的样本目标域语义标签,生成训练样本;
训练模块,用于基于所述训练样本对所述跨域推荐模型进行训练。
根据本申请的另一方面,提供了一种跨域推荐装置,所述装置包括:
获取模块,用于获取用户账号的历史行为;
确定模块,用于基于所述用户账号的所述历史行为,确定所述用户账号存在历史互动的源域内容;
所述确定模块,还用于基于源域内容向量和目标域内容向量之间的相似性,确定与所述源域内容对应的目标域内容;
推荐模块,用于向所述用户账号推荐所述目标域内容;
其中,所述源域内容向量是所述源域内容的特征向量,所述目标域内容向量是所述目标域内容的特征向量,所述源域内容向量是基于所述源域内容和所述源域内容在第一标签二部图中对应的源域语义标签构建的,所述目标域内容向量是基于所述目标域内容和所述目标域内容在第二标签二部图中对应的目标域语义标签构建的,所述第一标签二部图是基于所述源域内容和所述源域语义标签构建的,所述第二标签二部图是基于所述目标域内容和所述目标域语义标签构建的。
根据本申请的另一方面,提供了一种计算机设备,该计算机设备包括:处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行,以实现如上方面所述的跨域推荐模型的训练方法和跨域推荐方法。
根据本申请的另一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如上方面所述的跨域推荐模型的训练方法和跨域推荐方法。
根据本申请的另一方面,提供了一种计算机程序产品,该计算机程序产品包括至少一段程序,所述至少一段程序存储在计算机可读存储介质中;计算机设备的处理器从所述计算机可读存储介质中读取所述至少一段程序,所述处理器执行所述至少一段程序,使得所述计算机设备执行如上方面所述的跨域推荐模型的训练方法和跨域推荐方法。
本申请提供的技术方案带来的有益效果至少包括:
通过构建包括样本源域内容节点和样本目标域内容节点之间的节点二部图、样本源域内容节点和样本源域语义标签之间的标签二部图、样本目标域内容节点和样本目标域语义标签之间的标签二部图的异质网络,将源域内容节点和目标域内容节点进行关联;同时利用源域语义标签和目标域语义标签增强了源域内容节点和目标域内容节点的特征表示。通过基于样本源域内容节点、样本目标域内容节点、源域语义标签和目标域语义标签生成的训练样本训练跨域推荐模型,可以使跨域推荐模型充分学习到将要进行推荐的目标内容的嵌入表示,克服由于用户数据稀疏造成的影响,从而更好的使用该跨域推荐模型实现向用户推荐相关性较高的目标内容。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请的一个示例性实施例提供的计算机系统的结构图;
图2是本申请的一个示例性实施例提供的跨域推荐模型的训练方法的流程图;
图3是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图4是本申请的一个示例性实施例提供的跨域推荐模型的训练方法的流程图;
图5是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图6是本申请的一个示例性实施例提供的跨域推荐模型的训练方法的流程图;
图7是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图8是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图9是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图10是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图11是本申请的一个示例性实施例提供的跨域推荐模型的训练方法的流程图;
图12是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图13是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图14是本申请的一个示例性实施例提供的跨域推荐模型的结构图;
图15是本申请的一个示例性实施例提供的异质网络的结构图;
图16是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图17是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图18是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图19是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图20是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图21是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图22是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图23是本申请的一个示例性实施例提供的跨域推荐方法的流程图;
图24是本申请的一个示例性实施例提供的跨域推荐模型的训练装置的框图;
图25是本申请的一个示例性实施例提供的跨域推荐装置的框图;
图26是本申请的一个示例性实施例提供的计算机设备的框图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
首先,对本申请实施例中涉及的名词进行简单介绍:
跨域推荐:是指一种包括源域和目标域的推荐方法。通过使用跨域推荐方法,能够实现从源域中的内容推荐得到目标域中的内容。
语义标签:是指与内容相关的离散的文本标签,如与内容主题相关的标签、与内容中的一个或多个关键词相关的标签、与内容概念相关的标签。
推荐系统:是指一种信息过滤系统,根据用户的历史行为,比如观看视频的行为、发表评论的行为、浏览网页的行为等,推荐符合用户喜好的内容;或者,根据用户喜好内容的内容特征,比如文章的标题、视频内容的分类、音乐的作者等,推荐具有相似特征的内容。
同现网络:也被称为共现网络,是指基于至少两个节点构建的该至少两个节点在同一场景中同时出现的网络。当两个节点在同一场景中同时出现,就在两节点中连接一条边,边上的权重代表两节点共同出现的次数,边上的权重越大,则表明两个节点间联系越强。
嵌入表示:是指基于神经网络模型生成的对输入对象的分布式表示。主要作用是将原有对象的高维稀疏向量转化为低维、稠密向量,使得这些低维、稠密向量能够表达相应对象的一个或多个特征。同时,不同向量之间的距离能反应对象之间的相似性。
图1示出了本申请一个示例性实施例提供的计算机系统的结构框图。该计算机系统100包括:终端120和服务器140。
终端120安装和运行有支持源域内容和目标域内容的平台。该源域内容是指在终端120上能够进行浏览、观看、阅读或聆听的多媒体内容,比如在终端120上能够通过视频播放平台观看的视频,或在终端120上能够通过新闻平台阅读的新闻,或在终端120上能够通过音乐平台聆听的音乐等等。该目标域内容是指在终端120上能够进行浏览、观看、阅读或聆听的多媒体内容,比如在终端120上能够通过视频播放平台观看的视频,或在终端120上能够通过新闻平台阅读的新闻,或在终端120上能够通过音乐平台聆听的音乐等等。该平台上登录有用户帐号,用户帐号通过该平台对该平台展示的源域内容或目标域内容进行浏览和互动,如用户帐号可以点击源域内容或目标域内容进行观看或阅读,可以对正在观看或浏览的源域内容或目标域内容进行点赞、评论、分享、举报和不看等操作。获取上述用户账号的信息是在得到许可并符合法律的相关规定的情况下进行的。
终端120通过无线网络或有线网络与服务器140相连。
服务器140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。示例性的,服务器140包括处理器144和存储器142,存储器142中包括用于执行不同步骤的至少一个模块,本申请实施例中以包括接收模块1421、控制模块1422和发送模块1423为例进行说明,接收模块1421用于接收来自终端120的请求,如对源域内容或目标域内容进行点赞的请求;控制模块1422用于控制源域内容和目标域内容的播放和展示;发送模块1423用于向终端120发送响应,如向终端120发送对源域内容或目标域内容进行点赞是否成功的反馈。本领域技术人员可以知晓,上述存储器142中的模块的数量可以更多或更少,本申请实施例中对该数量不加以限定。
可选地,服务器140承担主要计算工作,终端120承担次要计算工作;或者,服务器140承担次要计算工作,终端120承担主要计算工作;或者,服务器140和终端120通过协同的方式承担计算工作。
可选地,上述支持源域内容和目标域内容的平台是不同操作系统平台(安卓或IOS)上相同的平台。可选的,终端120的设备类型相同或不同,该设备类型包括:智能手机、智能手表、车载终端、可穿戴设备、智能电视、平板电脑、电子书阅读器、MP3播放器、MP4播放器、膝上型便携计算机和台式计算机中的至少一种。
本领域技术人员可以知晓,上述终端120的数量可以更多或更少。比如上述终端120可以仅为一个,或者上述终端为几十个或几百个,或者更多数量。本申请实施例对终端的数量和设备类型不加以限定。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、无人驾驶、机器人、智能医疗、智能客服等。人工智能(ArtificialIntelligence,AI)技术是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。相关技术中的人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本申请实施例提供的方案涉及人工智能的机器学习(Machine Learning,ML)技术,具体通过如下实施例进行说明:
图2是本申请一个示例性实施例提供的跨域推荐模型的训练方法的示意图。该方法由计算机设备执行,该计算机设备可以是图1所示的终端120或服务器140。该方法包括:
步骤220:构建异质网络,包括样本源域内容节点和样本目标域内容节点之间的节点二部图、样本源域内容节点和样本源域语义标签之间的第一标签二部图和样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;
构建包括样本源域内容节点、样本目标域内容节点、样本源域语义标签和样本目标域语义标签的异质网络。其中,样本源域内容节点和样本目标域内容节点之间通过连接边进行连接能够构成节点二部图,样本源域内容节点和样本源域语义标签之间通过连接边能够构成标签二部图,样本目标域内容节点和样本目标域语义标签之间通过连接边能够构成标签二部图。
该样本源域内容节点是根据样本源域内容获得的。样本源域内容是指在如图1所示的终端120上能够进行浏览、观看、阅读、聆听中的至少一种操作的多媒体内容,如样本源域内容可以是视频、新闻、音乐等。该样本目标域内容节点是根据样本目标域内容获得的。样本目标域内容是指在如图1所示的终端120上能够进行浏览、观看、阅读、聆听中的至少一种操作的多媒体内容,如样本目标域内容可以是视频、新闻、音乐等。该样本源域内容和样本目标域内容是终端120上的用户账号在一个时间段内先后进行操作的内容,如用户账号在一个时间段内先观看了长视频后观看了短视频,则样本源域内容是长视频,样本目标域内容是短视频。
在一些实施例中,样本源域内容和样本目标域内容可以是同一个域中的内容,如样本源域内容和样本目标域内容都是短视频内容,或样本源域内容和样本目标域内容都是长视频内容,样本源域内容和样本目标域内容都是新闻内容,样本源域内容和样本目标域内容都是商品内容。
在一些实施例中,样本源域内容和样本目标域内容可以是不同域中的内容,如样本源域内容是短视频内容而样本目标域内容是长视频内容,或样本源域内容是长视频内容而样本目标域内容是短视频内容,或样本源域内容是视频内容而样本目标域内容是新闻内容,或样本源域内容是视频内容而样本目标域内容是商品内容。
步骤240:基于节点二部图中存在连接边的样本源域内容节点和样本目标域内容节点、样本源域内容节点在第一标签二部图中对应的样本源域语义标签,以及样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本;
基于节点二部图中存在连接边的样本源域内容节点和样本目标域内容节点、样本源域内容节点在第一标签二部图中对应的样本源域语义标签,以及样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。将样本源域内容节点以及样本源域内容节点在第一标签二部图中对应的样本源域语义标签确定为样本源域数据;将样本目标域内容节点以及样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签确定为样本目标域数据;将样本源域数据和样本目标域数据确定为训练样本。该训练样本至少包括从样本源域内容节点推荐得到样本目标域内容节点的正例样本,以及从样本目标域内容节点推荐得到样本源域内容节点的负例样本。
在一些实施例中,样本源域内容节点和样本目标域内容节点可以是一一对应的关系,一个样本源域内容节点对应一个样本目标域内容节点。
在一些实施例中,样本源域内容节点和样本目标域内容节点可以是一对多的关系,一个样本源域内容节点对应至少两个样本目标域内容节点。
在一些实施例中,样本源域内容节点和样本目标域内容节点可以是多对一的关系,至少两个样本源域内容节点对应同一个样本目标域内容节点。
步骤260:基于训练样本对跨域推荐模型进行训练。
将训练样本输入跨域推荐模型,对该跨域推荐模型进行训练。该训练样本是多组样本数据的集合,其中任意一组样本数据包括一个样本源域内容节点、一个样本目标域内容节点以及样本源域内容节点在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签。通过将样本源域内容节点、样本目标域内容节点以及样本源域内容节点在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签输入跨域推荐模型,对该跨域模型进行训练。该跨域推荐模型是用于进行从源域内容推荐得到目标域内容的跨域推荐的模型。
综上所述,本实施例提供的方法,通过构建包括样本源域内容节点和样本目标域内容节点之间的节点二部图、样本源域内容节点和样本源域语义标签之间的第一标签二部图、样本目标域内容节点和样本目标域语义标签之间的标签二部图的异质网络,将源域内容节点和目标域内容节点进行关联;同时利用源域语义标签和目标域语义标签增强了源域内容节点和目标域内容节点的特征表示。通过基于样本源域内容节点、样本目标域内容节点、源域语义标签和目标域语义标签生成的训练样本训练跨域推荐模型,可以使跨域推荐模型充分学习到将要进行推荐的目标内容的嵌入表示,克服由于用户数据稀疏造成的影响,从而更好的使用该跨域推荐模型实现向用户推荐相关性较高的目标内容。
在一些实施例中,上述跨域推荐模型包括源域语义塔、目标域语义塔和匹配层。如图3所示,跨域推荐模型300,包括源域语义塔320、目标域语义塔340和匹配层360。其中,源域语义塔320的输出端和匹配层360的输入端连接,目标域语义塔340的输出端和匹配层360的输入端连接。
图4是本申请一个示例性实施例提供的跨域推荐模型的训练方法的示意图。上述步骤260还包括如下至少一个步骤:
步骤261:将样本源域内容节点和样本源域内容节点对应的样本源域语义标签输入源域语义塔,得到样本源域内容向量;
跨域推荐模型中的源域语义塔是用于生成源域内容的嵌入表征的网络模型。将样本源域内容节点和样本源域内容节点对应的样本源域语义标签输入源域语义塔,能够得到样本源域内容对应的嵌入表征,即样本源域内容向量。该样本源域内容节点是包括样本源域内容的内容特征的节点,例如样本源域内容是一段长视频,该长视频的内容特征包括视频属性。样本源域内容节点对应的样本源域语义标签是与样本源域内容的内容特征对应的标签中的至少一个,例如与视频属性对应的标签包括标题标签、主题标签、作者标签、演员标签等等,则样本源域语义标签可以是其中至少一种。
步骤262:将样本目标域内容节点和样本目标域内容节点对应的样本目标域语义标签输入目标域语义塔,得到样本目标域内容向量;
跨域推荐模型中的目标域语义塔是用于生成目标域内容的嵌入表征的网络模型。将样本目标域内容节点和样本目标域内容节点对应的样本目标域语义标签输入目标域语义塔,能够得到样本目标域内容对应的嵌入表征,即样本目标域内容向量。该样本目标域内容节点是包括样本目标域内容的内容特征的节点,例如样本目标域内容是一段长视频,该长视频的内容特征包括视频属性。样本源域内容节点对应的样本目标域语义标签是与样本目标域内容的内容特征对应的标签中的至少一个,例如与视频属性对应的标签包括标题标签、主题标签、作者标签、演员标签等等,则样本目标域语义标签可以是其中至少一种。
步骤263:将样本源域内容向量和样本目标域内容向量输入匹配层,得到预测相似度;
跨域推荐模型中的匹配层用于计算源域语义塔输出的源域内容向量和目标域语义塔输出的目标域内容向量的相关性。将基于源域语义塔获得的样本源域内容向量和基于目标域语义塔获得的样本目标域内容向量输入匹配层,通过cosine余弦函数计算这两个向量的余弦相似度,将该余弦相似度作为样本源域内容和样本目标域内容的预测相似度。
步骤264:计算预测相似度和真实样本相似度之间的误差损失;
将训练样本中的正例样本(从源域内容到目标域内容)标注为1,负例样本(从目标域内容到源域内容)标注为0,则得到二分类训练样本。二分类训练样本的概率和为1,即对于同样的源域内容和目标域内容,一个用户只能先源域内容后目标域内容或者先目标域内容后源域内容。
使用二分类交叉熵作为损失函数计算预测相似度和真实样本相似度之间的误差损失。损失函数的公式为:
其中,Loss表示误差损失,y表示真实样本相似度,表示预测相似度。
步骤265:基于误差损失对跨域推荐模型进行训练。
基于样本源域内容节点和样本目标域内容节点的连接边上的权重,确定样本源域数据和样本目标域数据之间的真实样本相似度,该权重是基于样本源域内容节点和样本目标域内容节点在一个时间段内同时出现的次数确定的。基于二分类交叉熵损失函数确定跨域推荐模型预测相似度和真实样本相似度之间的误差损失,将该误差反馈给跨域推荐模型,对跨域推荐模型进行训练。
综上所述,本实施例提供的方法,通过将样本源域内容节点和样本源域内容节点对应的样本源域语义标签输入源域语义塔;以及,将样本目标域内容节点和样本目标域内容节点对应的样本目标域语义标签输入目标域语义塔,得到对应的内容向量。将对应的内容向量输入匹配层进行匹配,得到预测的两个内容向量的预测相似度,通过损失函数计算预测相似度和真实样本相似度之间的误差损失,对跨域推荐模型进行训练,使跨域推荐模型计算的预测相似度无限接近真实样本相似度。
在一些实施例中,上述源域语义塔包括级联的源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层。如图5所示,源域语义塔320包括级联的源域节点特征提取网络321、源域标签特征提取网络322、源域拼接层323和源域表示层324。其中,源域节点特征提取网络321的输入端和源域内容节点连接,源域节点特征提取网络321的输出端和源域拼接层323连接,源域标签特征提取网络322的输出端和源域拼接层323的输入端连接,源域拼接层323的输出端和源域表示层324的输入端连接。
图6是本申请一个示例性实施例提供的跨域推荐模型的训练方法的示意图。上述步骤261还包括如下至少一个步骤:
步骤2611:将样本源域内容节点输入源域节点特征提取网络,得到第一样本内容向量;
在一些实施例中,上述源域节点特征提取网络包括级联的源域节点输入层、源域节点嵌入层和源域节点表示层。如图7所示,源域节点特征提取网络321包括级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213。其中,源域节点输入层3211的输入端和源域内容节点连接,源域节点输入层3211的输出端和源域节点嵌入层3212的输入端连接,源域节点嵌入层3212的输出端和源域节点表示层3213的输入端连接,源域节点表示层3213的输出端和源域拼接层323的输入端连接。
通过源域节点输入层将样本源域内容节点的第一样本内容特征输入。将源域节点输入层中的第一样本内容特征输出,通过源域节点嵌入层对第一样本内容特征进行嵌入表示,得到第一样本内容的嵌入表征向量。将源域节点嵌入层中的第一样本内容的嵌入表征向量输出,通过源域节点表示层对第一样本内容的嵌入表征向量进行学习,得到第一样本内容向量。
步骤2612:将样本源域语义标签输入源域标签特征提取网络,得到第一样本语义标签向量;
在一些实施例中,上述源域标签特征提取网络包括级联的源域语义标签输入层、源域嵌入表征编码器和源域标签表示层。如图8所示,源域标签特征提取网络322包括级联的源域语义标签输入层3221、源域嵌入表征编码器3222和源域标签表示层3223。其中,源域语义标签输入层3221的输入端和源域语义标签连接,源域语义标签输入层3221的输出端和源域嵌入表征编码器3222的输入端连接,源域嵌入表征编码器3222的输出端和源域标签表示层3223的输入端连接,源域标签表示层3223的输出端和源域拼接层323的输入端连接。
通过源域语义标签输入层将样本源域语义标签的第一样本语义特征输入。将源域语义标签输入层中的第一样本语义特征输出,通过源域嵌入表征编码器对第一样本语义特征进行嵌入表示,得到第一样本语义的嵌入表征向量。将源域嵌入表征编码器中的第一样本语义的嵌入表征向量输出,通过源域标签表示层对第一样本语义的嵌入表征向量进行学习,得到第一样本语义标签向量。
步骤2613:将第一样本内容向量和第一样本语义标签向量输入源域拼接层,得到样本源域拼接向量;
如图9所示,上述源域语义塔320通过级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213,输出第一样本内容向量;通过级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213,输出第一样本语义标签向量。
将第一样本内容向量和第一样本语义标签向量输入源域拼接层323,将第一样本内容向量和第一语义标签向量进行向量合并,得到样本源域拼接向量。
步骤2614:将样本源域拼接向量输入源域表示层,得到样本源域内容向量。
如图9所示,将源域拼接层323输出的样本源域拼接向量输入源域表示层324,得到样本源域内容向量。该样本源域内容向量包括样本源域内容的完整特征向量,该完整特征向量是基于样本源域内容节点和与样本源域内容节点对应的样本源域语义标签得到的。
在一些实施例中,上述目标域语义塔包括级联的目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层。如图10所示,目标域语义塔340包括级联的目标域节点特征提取网络341、目标域标签特征提取网络342、目标域拼接层343和目标域表示层344。其中,目标域节点特征提取网络341的输入端和目标域内容节点连接,目标域节点特征提取网络341的输出端和目标域拼接层343连接,目标域标签特征提取网络342的输出端和目标域拼接层343的输入端连接,目标域拼接层343的输出端和目标域表示层344的输入端连接。
图11是本申请一个示例性实施例提供的跨域推荐模型的训练方法的示意图。上述步骤262还包括如下至少一个步骤:
步骤2621:将样本目标域内容节点输入目标域节点特征提取网络,得到第二样本内容向量;
在一些实施例中,上述目标域节点特征提取网络包括级联的目标域节点输入层、目标域节点嵌入层和目标域节点表示层。如图12所示,目标域节点特征提取网络341包括级联的目标域节点输入层3411、目标域节点嵌入层3412和目标域节点表示层3413。其中,目标域节点输入层3411的输入端和目标域内容节点连接,目标域节点输入层3411的输出端和目标域节点嵌入层3412的输入端连接,目标域节点嵌入层3412的输出端和目标域节点表示层3413的输入端连接,目标域节点表示层3413的输出端和目标域拼接层343的输入端连接。
通过目标域节点输入层将样本目标域内容节点的第二样本内容特征输入。将目标域节点输入层中的第二样本内容特征输出,通过目标域节点嵌入层对第二样本内容特征进行嵌入表示,得到第二样本内容的嵌入表征向量。将目标域节点嵌入层中的第二样本内容的嵌入表征向量输出,通过目标域节点表示层对第二样本内容的嵌入表征向量进行学习,得到第二样本内容向量。
步骤2622:将样本目标域语义标签输入目标域标签特征提取网络,得到第二样本语义标签向量;
在一些实施例中,上述目标域标签特征提取网络包括级联的目标域语义标签输入层、目标域嵌入表征编码器和目标域标签表示层。如图13所示,目标域标签特征提取网络342包括级联的目标域语义标签输入层3421、目标域嵌入表征编码器3422和目标域标签表示层3423。其中,目标域语义标签输入层3421的输入端和目标域语义标签连接,目标域语义标签输入层3421的输出端和目标域嵌入表征编码器3422的输入端连接,目标域嵌入表征编码器3422的输出端和目标域标签表示层3423的输入端连接,目标域标签表示层3423的输出端和目标域拼接层343的输入端连接。
通过目标域语义标签输入层将样本目标域语义标签的第二样本语义特征输入。将目标域语义标签输入层中的第二样本语义特征输出,通过目标域嵌入表征编码器对第二样本语义特征进行嵌入表示,得到第二样本语义的嵌入表征向量。将目标域嵌入表征编码器中的第二样本语义的嵌入表征向量输出,通过目标域标签表示层对第二样本语义的嵌入表征向量进行学习,得到第二样本语义标签向量。
步骤2623:将第二样本内容向量和第二样本语义标签向量输入目标域拼接层,得到样本目标域拼接向量;
如图14所示,上述目标域语义塔340通过级联的目标域节点输入层3411、目标域节点嵌入层3412和目标域节点表示层3413,输出第二样本内容向量;通过级联的目标域节点输入层3411、目标域节点嵌入层3412和目标域节点表示层3413,输出第二样本语义标签向量。
将第二样本内容向量和第二样本语义标签向量输入目标域拼接层343,将第二样本内容向量和第二语义标签向量进行向量合并,得到样本目标域拼接向量。
步骤2624:将样本目标域拼接向量输入目标域表示层,得到样本目标域内容向量。
如图14所示,将目标域拼接层343输出的样本目标域拼接向量输入目标域表示层344,得到样本目标域内容向量。该样本目标域内容向量包括样本目标域内容的完整特征向量,该完整特征向量是基于样本目标域内容节点和与样本目标域内容节点对应的样本目标域语义标签得到的。
综上所述,本实施例提供的方法,通过源域语义塔和目标域语义塔,实现了将第一样本内容向量和对应的第一样本语义标签向量进行拼接,得到包括样本源域内容的完整特征的样本源域内容向量;以及将第二样本内容向量和对应的第二样本语义标签向量进行拼接,得到包括样本目标域内容的完整特征的样本目标域内容向量。
图15是本申请一个示例性实施例提供的异质网络400的结构图。
异质网络400中包括样本源域内容节点、样本目标域内容节点、与样本源域内容节点关联的样本源域语义标签节点和与样本目标域内容节点关联的样本目标域语义标签节点。样本源域内容节点和样本目标域内容节点之间通过连接边构成节点二部图,样本源域内容节点和样本源域语义标签之间通过连接边构成第一标签二部图,样本目标域内容节点和样本目标域语义标签之间通过连接边构成第二标签二部图。
在一些实施例中,异质网络400还包括基于具有同现关系的样本源域内容节点构建的源域同现网络420以及基于具有同现关系的样本目标域内容节点构建的目标域同现网络440。
源域同现网络420:
基于多个样本帐号在源域的历史行为,构建源域同现网络。基于多个用户账号在源域的历史行为,确定多个用户账号存在历史互动的样本源域内容。例如通过用户账号点击观看短视频的历史行为,确定用户账号存在历史互动的样本源域内容为观看的短视频。基于样本源域内容在同一个用户账号的第二时间段内同时出现的次数,当该样本源域内容同时出现的次数大于阈值时,将样本源域内容对应的样本源域内容节点通过连接边进行连接,得到源域同现网络。该一个时间段可以是系统预设的,也可以是根据具体情况随机调整的,如可以是1分钟、5分钟、10分钟。该阈值可以是系统预设的,也可以是根据具体情况随机调整的,如可以是3次、5次、10次。假设一个时间段为5分钟,同时出现的次数的阈值为3次,用户账号在源域的历史行为是观看短视频,则基于一个用户账号在5分钟内观看短视频的行为,确定多个短视频同时出现的次数,将同时出现的次数超过3次的短视频进行连接,得到源域同现网络。
在一些实施例中,源域同现网络中的样本源域内容节点是一一对应的关系,例如样本源域内容节点2对应样本源域内容节点1。
在一些实施例中,源域同现网络中的样本源域内容节点是一对多的关系,例如样本源域内容节点4对应样本源域内容节点3和样本源域内容节点5。
目标域同现网络440:
基于多个样本帐号在目标域的历史行为,构建目标域同现网络。基于多个用户账号在目标域的历史行为,确定多个用户账号存在历史互动的样本目标域内容。例如通过用户账号点击观看短视频的历史行为,确定用户账号存在历史互动的样本目标域内容为观看的短视频。基于样本目标域内容在同一个用户账号的第三时间段内同时出现的次数,当该样本目标域内容同时出现的次数大于阈值时,将样本目标域内容对应的样本目标域内容节点通过连接边进行连接,得到目标域同现网络。该一个时间段可以是系统预设的,也可以是根据具体情况随机调整的,如可以是1分钟、5分钟、10分钟。该阈值可以是系统预设的,也可以是根据具体情况随机调整的,如可以是3次、5次、10次。假设一个时间段为5分钟,同时出现的次数的阈值为3次,用户账号在目标域的历史行为是观看短视频,则基于一个用户账号在5分钟内观看短视频的行为,确定多个短视频同时出现的次数,将同时出现的次数超过3次的短视频进行连接,得到目标域同现网络。
在一些实施例中,目标域同现网络中的样本目标域内容节点是一一对应的关系,例如样本目标域内容节点1对应样本目标域内容节点2。
在一些实施例中,目标域同现网络中的样本目标域内容节点是一对多的关系,例如样本目标域内容节点5对应样本目标域内容节点3和样本目标域内容节点6。
样本源域内容节点和样本源域语义标签之间的第一标签二部图:
基于源域中的语义标签系统,构建样本源域内容节点和样本源域语义标签之间的第一标签二部图。该语义标签系统用于对用户或内容进行语义标签建模,得到用户或内容对应的语义标签。例如,对于一个短视频,通过语义标签系统得到与短视频内容对应的主题标签、作者标签、关键词标签、人物标签等等。将具有对应关系的样本源域语义标签与样本源域内容节点通过连接边进行连接,得到样本源域内容节点和样本源域语义标签之间的第一标签二部图。
在一些实施例中,样本源域语义标签节点和样本源域内容节点是一一对应的关系,例如样本源域语义标签节点1对应样本源域内容节点1,样本源域语义标签节点3对应样本源域内容节点3。
在一些实施例中,样本源域语义标签节点和样本源域内容节点是一对多的关系,例如样本源域语义标签节点5对应样本源域内容节点4和样本源域内容节点5。
在一些实施例中,样本源域语义标签节点和样本源域内容节点是多对一的关系,例如样本源域语义标签节点2和样本源域语义标签节点4对应样本源域内容节点2,样本源域语义标签节点5和样本源域语义标签节点6对应样本源域内容节点5。
样本目标域内容节点和样本目标域语义标签之间的第二标签二部图:
基于目标域中的语义标签系统,构建样本目标域内容节点和样本目标域语义标签之间的第二标签二部图。该语义标签系统用于对用户或内容进行语义标签建模,得到用户或内容对应的语义标签。例如,对于一个短视频,通过语义标签系统得到与短视频内容对应的主题标签、作者标签、关键词标签、人物标签等等。将具有对应关系的样本目标域语义标签与样本目标域内容节点通过连接边进行连接,得到样本目标域内容节点和样本目标域语义标签之间的第二标签二部图。
在一些实施例中,样本目标域语义标签节点和样本目标域内容节点是一一对应的关系,例如样本目标域语义标签节点2对应样本目标域内容节点2。
在一些实施例中,样本目标域语义标签节点和样本目标域内容节点是一对多的关系,例如样本目标域语义标签节点1对应样本目标域内容节点1和样本目标域内容节点3,样本目标域语义标签节点5对应样本目标域内容节点5和样本目标域内容节点6。
在一些实施例中,样本目标域语义标签节点和样本目标域内容节点是多对一的关系,例如样本目标域语义标签节点3和样本目标域语义标签节点6对应样本目标域内容节点4,样本目标域语义标签节点4和样本目标域语义标签节点5对应样本目标域内容节点5。
样本源域内容节点和样本目标域内容节点之间的节点二部图:
基于多个样本帐号在源域和目标域的历史行为,构建样本源域内容节点和样本目标域内容节点之间的节点二部图。通过多个用户账号在源域的历史行为,确定多个用户账号存在历史互动的样本源域内容。例如通过用户账号点击观看短视频的历史行为,确定用户账号存在历史互动的样本源域内容为观看的短视频。基于多个用户账号在目标域的历史行为,确定多个用户账号存在历史互动的样本目标域内容。例如通过用户账号点击观看长视频的历史行为,确定用户账号存在历史互动的样本目标域内容为观看的长视频。基于样本源域内容和样本目标域内容在同一个用户账号下的第一时间段内同时出现的次数,将样本源域内容对应的样本源域内容节点和样本目标域内容对应的样本目标域内容节点通过连接边进行连接,得到样本源域内容节点和样本目标域内容节点之间的节点二部图。该一个时间段可以是系统预设的,也可以是根据具体情况随机调整的,如可以是1分钟、5分钟、10分钟。假设一个时间段为5分钟,用户账号在源域的历史行为是观看短视频,用户账号在目标域的历史行为是阅读新闻,则基于一个用户账号在5分钟内既观看短视频又阅读新闻的行为,构建短视频节点和新闻节点之间的节点二部图。
在一些实施例中,样本源域内容节点和样本目标域内容节点是一一对应的关系,例如样本源域内容节点5对应样本目标域内容节点6。
在一些实施例中,样本源域内容节点和样本目标域内容节点是一对多的关系,例如样本源域内容节点1对应样本目标域内容节点2和样本目标域内容节点4,样本源域内容节点2对应样本目标域内容节点1和样本目标域内容节点3,样本源域内容节点4对应样本目标域内容节点4和样本目标域内容节点5。
在一些实施例中,样本源域内容节点和样本目标域内容节点是多对一的关系,例如样本源域内容节点1、样本目标域内容节点3和样本目标域内容节点4对应样本目标域内容节点4。
节点二部图中包括存在连接边的第一样本目标域内容节点和第一样本目标域内容节点,如将样本源域内容节点1作为第一样本源域内容节点,将样本目标域内容节点2作为第一样本目标域内容节点,则一组训练样本为样本源域内容节点1和样本目标域内容节点2,以及样本源域内容节点1在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点2在第二标签二部图中对应的样本目标域语义标签。
在一些实施例中,在源域同现网络中存在与第一样本源域内容节点具有同现关系的第二样本源域内容节点的情况下,使用第二样本源域内容节点和第一样本目标域内容节点,第二样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第一样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。例如,在源域同现网络420中存在与样本源域内容节点1具有同现关系的样本源域内容节点2和样本源域内容节点3,则一组训练样本为样本源域内容节点2和样本目标域内容节点2,以及样本源域内容节点2在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点2在第二标签二部图中对应的样本目标域语义标签;一组训练样本为样本源域内容节点3和样本目标域内容节点2,以及样本源域内容节点3在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点2在第二标签二部图中对应的样本目标域语义标签。
在一些实施例中,在目标域同现网络中存在与第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用第二样本目标域内容节点和第一样本源域内容节点,以及第一样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第二样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。例如,在目标域同现网络440中存在与样本目标域内容节点2具有同现关系的样本目标域内容节点1和样本目标域内容节点3,则一组训练样本为样本源域内容节点1和样本目标域内容节点1,以及样本源域内容节点1在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点1在第二标签二部图中对应的样本目标域语义标签;一组训练样本为样本源域内容节点1和样本目标域内容节点3,以及样本源域内容节点1在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点3在第二标签二部图中对应的样本目标域语义标签。
在一些实施例中,在源域同现网络中存在与第一样本源域内容节点具有同现关系的第二样本源域内容节点且目标域同现网络中存在与第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用第二样本源域内容节点和第二样本目标域内容节点,以及第二样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第二样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签。例如,源域同现网络420中存在与样本源域内容节点1具有同现关系的样本源域内容节点2和样本源域内容节点3,且在目标域同现网络440中存在与样本目标域内容节点2具有同现关系的样本目标域内容节点1和样本目标域内容节点3,则一组训练样本为样本源域内容节点2和样本目标域内容节点1,以及样本源域内容节点2在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点1在第二标签二部图中对应的样本目标域语义标签;一组训练样本为样本源域内容节点2和样本目标域内容节点3,以及样本源域内容节点2在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点3在第二标签二部图中对应的样本目标域语义标签;一组训练样本为样本源域内容节点3和样本目标域内容节点1,以及样本源域内容节点3在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点1在第二标签二部图中对应的样本目标域语义标签;一组训练样本为样本源域内容节点3和样本目标域内容节点3,以及样本源域内容节点3在第一标签二部图中对应的样本源域语义标签和样本目标域内容节点3在第二标签二部图中对应的样本目标域语义标签。
综上所述,本实施例提供的方法,通过构建源域同现网络、目标域同现网络、样本源域内容节点和样本源域语义标签之间的第一标签二部图和样本目标域内容节点和样本目标域语义标签之间的第二标签二部图、样本源域内容节点和样本目标域内容节点之间的节点二部图,获得更多的训练样本数据,使跨域推荐模型能够学习到更多数据,从而能够利用该跨域推荐模型更好地进行内容推荐。
图16是本申请一个示例性实施例提供的跨域推荐方法的示意图。该方法由计算机设备执行,该计算机设备可以是图1所示的终端120或服务器140。
该方法包括:
步骤520:获取用户账号的历史行为;
服务器140通过获取与其通过无线网络或有线网络相连的终端120上的用户账号的历史行为。该历史行为包括用户账号点击、触摸、滑动、评论、长按、指纹识别、面部识别中的至少一种。用户通过用户账号实施的针对终端120的全部操作,均认为是用户账号的历史行为。
步骤540:确定用户账号存在历史互动的源域内容;
基于用户账号的历史行为,确定用户账号存在历史互动的源域内容。例如通过用户账号点击观看短视频的历史行为,确定用户账号存在历史互动的样本源域内容为观看的短视频。
步骤560:基于源域内容向量和目标域内容向量之间的相似性,确定与源域内容对应的目标域内容;
通过源域内容向量和目标域内容向量之间的相似性,确定与源域内容对应的目标域内容。该相似性是由上述训练得到的跨域推荐模型计算得到的。该源域内容向量是源域内容的特征向量,该目标域内容向量是目标域内容的特征向量,源域内容向量是基于源域内容和源域内容在第一标签二部图中对应的源域语义标签构建的,目标域内容向量是基于目标域内容和目标域内容在第二标签二部图中对应的目标域语义标签构建的。其中,第一标签二部图是基于源域内容和源域语义标签构建的,第二标签二部图是基于目标域内容和目标域语义标签构建的。
在一些实施例中,源域内容和目标域内容可以是同一个域中的内容,如源域内容和目标域内容都是短视频内容,或源域内容和目标域内容都是长视频内容。
在一些实施例中,源域内容和目标域内容可以是不同域中的内容,如源域内容是短视频内容而目标域内容是长视频内容,或源域内容是长视频内容而目标域内容是短视频内容。
步骤580:向用户账号推荐目标域内容。
服务器140在确定了与源域内容对应的目标域内容后,服务器140将该目标域内容发送给终端120,由终端120显示该目标域内容,实现基于用户账号在终端120上的历史行为对应的源域内容向用户账号推荐目标域内容。
综上所述,本实施例提供的方法,通过获取用户账号的历史行为,确定用户账号存在历史互动的源域内容。基于源域内容对应的源域内容向量和目标域内容对应的目标域内容向量之间的相似性,确定与源域内容对应的目标域内容,并将该目标域内容推荐给用户账号。该目标域内容是基于源域内容获得的,能够避免因用户数据稀疏造成无法推荐或推荐的相似性较低的问题。
图17是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤560还包括如下至少一个步骤:
步骤561:获取源域内容向量;
源域内容向量是基于第一内容向量和第一语义标签向量构建的。其中,第一内容向量是源域内容对应的内容向量,第一语义标签向量是源域内容在第一标签二部图中对应的源域语义标签对应的语义标签向量。基于用户账号的历史行为对应的源域内容,从服务器中获取与该源域内容对应的源域内容向量。
步骤562:获取多个目标域内容向量;
目标域内容向量是基于第二内容向量和第二语义标签向量构建的。其中,第二内容向量是目标域内容对应的内容向量,第二语义标签向量是目标域内容在第二标签二部图中对应的目标域语义标签对应的语义标签向量。从服务器中获取与目标域内容对应的目标域内容向量。
步骤563:计算源域内容向量和每个目标域内容向量之间的相似度;
针对用户账号的历史行为对应的源域内容的源域内容向量,计算与多个目标域内容向量的多个相似度。例如,目标域内容向量包括目标域内容向量1、目标域内容向量2和目标域内容向量3,则计算源域内容向量和目标域内容向量1的相似度1,计算源域内容向量和目标域内容向量2的相似度2,计算源域内容向量和目标域内容向量3的相似度3。
步骤564:召回相似度超过阈值或排名在前n位的目标内容向量对应的目标域内容,作为源域内容对应的目标域内容。
通过利用向量检索工具,召回与源域内容向量的相似度超过阈值或排名在前n位的目标内容向量对应的目标域内容,将该目标内容向量确定为源域内容对应的目标域内容。其中,n的取值为正整数,可以是系统预设的,也可以是根据具体情况随机调整的,如n为1,或n为2,或n为3。例如,n为2,在目标域内容向量包括目标域内容向量1、目标域内容向量2和目标域内容向量3的情况下,包括源域内容向量和目标域内容向量1的相似度1,源域内容向量和目标域内容向量2的相似度2,源域内容向量和目标域内容向量3的相似度3。若相似度1大于相似度3大于相似度2,则召回与源域内容对应的目标域内容1和目标域内容3。
综上所述,本实施例提供的方法,通过获取源域内容向量和多个目标域内容向量,并计算源域内容向量和每个目标域内容向量之间的相似度,召回相似度超过阈值或排名在前n位的目标内容向量对应的目标域内容作为源域内容对应的目标域内容。该目标域内容是基于源域内容获得的,能够避免因用户数据稀疏造成无法推荐或推荐的相似性较低的问题。
在一些实施例中,服务器140中运行有跨域推荐模型,该跨域推荐模型包括源域语义塔和目标域语义塔。如图3所示,跨域推荐模型300,包括源域语义塔320和目标域语义塔340。上述源域语义塔包括级联的源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层。如图5所示,源域语义塔320包括级联的源域节点特征提取网络321、源域标签特征提取网络322、源域拼接层323和源域表示层324。其中,源域节点特征提取网络321的输入端和源域内容节点连接,源域节点特征提取网络321的输出端和源域拼接层323连接,源域标签特征提取网络322的输出端和源域拼接层323的输入端连接,源域拼接层323的输出端和源域表示层324的输入端连接。
图18是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤561还包括如下至少一个步骤:
步骤5611:通过源域节点特征提取网络对源域内容进行特征提取,得到第一内容向量;
在一些实施例中,上述源域节点特征提取网络包括级联的源域节点输入层、源域节点嵌入层和源域节点表示层。如图7所示,源域节点特征提取网络321包括级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213。其中,源域节点输入层3211的输入端和源域内容节点连接,源域节点输入层3211的输出端和源域节点嵌入层3212的输入端连接,源域节点嵌入层3212的输出端和源域节点表示层3213的输入端连接,源域节点表示层3213的输出端和源域拼接层323的输入端连接。
通过源域节点输入层将源域内容节点的第一内容特征输入。将源域节点输入层中的第一内容特征输出,通过源域节点嵌入层对第一内容特征进行嵌入表示,得到第一内容的嵌入表征向量。将源域节点嵌入层中的第一内容的嵌入表征向量输出,通过源域节点表示层对第一内容的嵌入表征向量进行学习,得到第一内容向量。
步骤5612:通过源域标签特征提取网络对源域语义标签进行特征提取,得到第一语义标签向量;
在一些实施例中,上述源域标签特征提取网络包括级联的源域语义标签输入层、源域嵌入表征编码器和源域标签表示层。如图8所示,源域标签特征提取网络322包括级联的源域语义标签输入层3221、源域嵌入表征编码器3222和源域标签表示层3223。其中,源域语义标签输入层3221的输入端和源域语义标签连接,源域语义标签输入层3221的输出端和源域嵌入表征编码器3222的输入端连接,源域嵌入表征编码器3222的输出端和源域标签表示层3223的输入端连接,源域标签表示层3223的输出端和源域拼接层323的输入端连接。
通过源域语义标签输入层将源域语义标签的第一语义特征输入。将源域语义标签输入层中的第一语义特征输出,通过源域嵌入表征编码器对第一语义特征进行嵌入表示,得到第一语义的嵌入表征向量。将源域嵌入表征编码器中的第一语义的嵌入表征向量输出,通过源域标签表示层对第一语义的嵌入表征向量进行学习,得到第一语义标签向量。
步骤5613:通过源域拼接层对第一内容向量和第一语义标签向量进行拼接,得到源域拼接向量;
如图9所示,上述源域语义塔320通过级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213,输出第一内容向量;通过级联的源域语义标签输入层3221、源域嵌入表征编码器3222和源域标签表示层3223,输出第一语义标签向量。
将第一内容向量和第一语义标签向量输入源域拼接层323,将第一内容向量和第一语义标签向量进行向量合并,得到源域拼接向量。
步骤5614:通过源域表示层对源域拼接向量进行特征提取,得到源域内容向量。
如图9所示,将源域拼接层323输出的源域拼接向量输入源域表示层324,得到源域内容向量。该源域内容向量是包括源域内容节点和与源域内容节点对应的源域语义标签的该源域内容的完整特征向量。
在一些实施例中,上述目标域语义塔包括级联的目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层。如图10所示,目标域语义塔340包括级联的目标域节点特征提取网络341、目标域标签特征提取网络342、目标域拼接层343和目标域表示层344。其中,目标域节点特征提取网络341的输入端和目标域内容节点连接,目标域节点特征提取网络341的输出端和目标域拼接层343连接,目标域标签特征提取网络342的输出端和目标域拼接层343的输入端连接,目标域拼接层343的输出端和目标域表示层344的输入端连接。
图19是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤562还包括如下至少一个步骤:
步骤5621:通过目标域节点特征提取网络对目标域内容进行特征提取,得到第二内容向量;
在一些实施例中,上述目标域节点特征提取网络包括级联的目标域节点输入层、目标域节点嵌入层和目标域节点表示层。如图12所示,目标域节点特征提取网络341包括级联的目标域节点输入层3411、目标域节点嵌入层3412和目标域节点表示层3413。其中,目标域节点输入层3411的输入端和目标域内容节点连接,目标域节点输入层3411的输出端和目标域节点嵌入层3412的输入端连接,目标域节点嵌入层3412的输出端和目标域节点表示层3413的输入端连接,目标域节点表示层3413的输出端和目标域拼接层343的输入端连接。
通过目标域节点输入层将目标域内容节点的第二内容特征输入。将目标域节点输入层中的第二内容特征输出,通过目标域节点嵌入层对第二内容特征进行嵌入表示,得到第二内容的嵌入表征向量。将目标域节点嵌入层中的第二内容的嵌入表征向量输出,通过目标域节点表示层对第二内容的嵌入表征向量进行学习,得到第二内容向量。
步骤5622:通过目标域标签特征提取网络对目标域语义标签进行特征提取,得到第二语义标签向量;
在一些实施例中,上述目标域标签特征提取网络包括级联的目标域语义标签输入层、目标域嵌入表征编码器和目标域标签表示层。如图13所示,目标域标签特征提取网络342包括级联的目标域语义标签输入层3421、目标域嵌入表征编码器3422和目标域标签表示层3423。其中,目标域语义标签输入层3421的输入端和目标域语义标签连接,目标域语义标签输入层3421的输出端和目标域嵌入表征编码器3422的输入端连接,目标域嵌入表征编码器3422的输出端和目标域标签表示层3423的输入端连接,目标域标签表示层3423的输出端和目标域拼接层343的输入端连接。
通过目标域语义标签输入层将目标域语义标签的第二语义特征输入。将目标域语义标签输入层中的第二语义特征输出,通过目标域嵌入表征编码器对第二语义特征进行嵌入表示,得到第二语义的嵌入表征向量。将目标域嵌入表征编码器中的第二语义的嵌入表征向量输出,通过目标域标签表示层对第二语义的嵌入表征向量进行学习,得到第二语义标签向量。
步骤5623:通过目标域拼接层对第二内容向量和第二语义标签向量进行拼接,得到目标域拼接向量;
如图14所示,上述目标域语义塔340通过级联的目标域节点输入层3411、目标域节点嵌入层3412和目标域节点表示层3413,输出第二内容向量;通过级联的目标域语义标签输入层3421、目标域嵌入表征编码器3422和目标域标签表示层3423,输出第二语义标签向量。
将第二内容向量和第二语义标签向量输入目标域拼接层343,将第二内容向量和第二语义标签向量进行向量合并,得到目标域拼接向量。
步骤5624:通过目标域表示层对目标域拼接向量进行特征提取,得到目标域内容向量。
如图14所示,将目标域拼接层343输出的目标域拼接向量输入目标域表示层344,得到目标域内容向量。该目标域内容向量是包括目标域内容节点和与目标域内容节点对应的目标域语义标签的该目标域内容的完整特征向量。
综上所述,本实施例提供的方法,通过源域语义塔和目标域语义塔,实现了将第一内容向量和对应的第一语义标签向量进行拼接,得到包括源域内容的完整特征的源域内容向量;以及将第二内容向量和对应的第二语义标签向量进行拼接,得到包括目标域内容的完整特征的目标域内容向量。
在一些实施例中,上述源域节点特征提取网络包括级联的源域节点输入层、源域节点嵌入层和源域节点表示层。如图7所示,源域节点特征提取网络321包括级联的源域节点输入层3211、源域节点嵌入层3212和源域节点表示层3213。其中,源域节点输入层3211的输入端和源域内容节点连接,源域节点输入层3211的输出端和源域节点嵌入层3212的输入端连接,源域节点嵌入层3212的输出端和源域节点表示层3213的输入端连接,源域节点表示层3213的输出端和源域拼接层323的输入端连接。
图20是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤5611还包括如下至少一个步骤:
步骤56111:通过源域节点输入层将源域内容的内容特征输入;
将源域内容的内容特征作为源域节点输入层的输入,该源域内容的内容特征包括与源域内容对应的特征,或对应源域内容的内容属性。
示例性的,假设源域内容为某电影,则该源域内容的内容特征包括某电影所属的领域、某电影的主题、某电影的时长中的至少一种,如该电影属于动作片,或该电影属于文艺片。假设源域内容为某新闻,则该源域内容的内容特征包括某新闻的关联对象、某新闻所属的领域、某新闻出现的频次中的至少一种,如该新闻属于财经类,或该新闻属于生活类。
步骤56112:通过源域节点嵌入层对源域内容的内容特征进行嵌入表示,得到源域内容的嵌入表征向量;
将源域内容的内容特征经源域节点输入层输入到源域节点嵌入层,该源域节点嵌入层用于对输入对象进行嵌入表示,即基于神经网络模型生成对输入对象的分布式表示。主要作用是将原有对象的高维稀疏向量转化为低维、稠密向量,使得这些低维、稠密向量能够表达相应对象的一个或多个特征。同时,不同向量之间的距离能反应对象之间的相似性。通过对源域内容的内容特征进行嵌入表示,得到源域内容的嵌入表征向量。
步骤56113:通过源域节点表示层对源域内容的嵌入表征向量进行学习,得到第一内容向量。
将源域内容的嵌入表征向量输入源域节点表示层,该源域节点表示层用于对输入对象进行学习,一般使用多层叠加的全连接层实现。通过对源域内容的嵌入表征向量进行学习,得到第一内容向量。
图21是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤5612还包括如下至少一个步骤:
步骤56121:通过源域语义标签输入层将源域语义标签的语义特征输入;
将源域语义标签的语义特征作为源域语义标签输入层的输入,该源域语义标签的语义特征包括与源域内容对应的语义标签特征。
示例性的,假设源域内容为某电影,则源域语义标签包括某电影的名称、某电影的角色名、某电影的制作者中的至少一种。假设源域内容为某新闻,则该源域语义标签包括某新闻的标题、某新闻的通讯作者、某新闻中的关键词中的至少一种。
步骤56122:通过源域嵌入表征编码器对源域语义标签的语义特征进行嵌入表示,得到源域语义标签的嵌入表征向量;
将源域语义标签的语义特征经源域语义标签输入层输入到源域嵌入表征编码器,该源域嵌入表征编码器用于对输入对象进行嵌入表示,即基于神经网络模型生成对输入对象的分布式表示。主要作用是将原有对象的高维稀疏向量转化为低维、稠密向量,使得这些低维、稠密向量能够表达相应对象的一个或多个特征。同时,不同向量之间的距离能反应对象之间的相似性。通过对源域语义标签的语义特征进行嵌入表示,得到源域语义标签的嵌入表征向量。
步骤56123:通过源域标签表示层对源域语义标签的嵌入表征向量进行学习,得到第一语义标签向量。
将源域语义标签的嵌入表征向量输入源域标签表示层,该源域标签表示层用于对输入对象进行学习,一般使用多层叠加的全连接层实现。通过对源域语义标签的嵌入表征向量进行学习,得到第一语义标签向量。
图22是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤5621还包括如下至少一个步骤:
步骤56211:通过目标域节点输入层将目标域内容的内容特征输入;
将目标域内容的内容特征作为目标域节点输入层的输入,该目标域内容的内容特征包括与目标域内容对应的特征,或对应目标域内容的内容属性。
示例性的,假设目标域内容为某电影,则该目标域内容的内容特征包括某电影所属的领域、某电影的主题、某电影的时长中的至少一种,如该电影属于动作片,或该电影属于文艺片。假设目标域内容为某新闻,则该目标域内容的内容特征包括某新闻的关联对象、某新闻所属的领域、某新闻出现的频次中的至少一种,如该新闻属于财经类,或该新闻属于生活类。
步骤56212:通过目标域节点嵌入层对目标域内容的内容特征进行嵌入表示,得到目标域内容的嵌入表征向量;
将目标域内容的内容特征经目标域节点输入层输入到目标域节点嵌入层,该目标域节点嵌入层用于对输入对象进行嵌入表示,即基于神经网络模型生成对输入对象的分布式表示。主要作用是将原有对象的高维稀疏向量转化为低维、稠密向量,使得这些低维、稠密向量能够表达相应对象的一个或多个特征。同时,不同向量之间的距离能反应对象之间的相似性。通过对目标域内容的内容特征进行嵌入表示,得到目标域内容的嵌入表征向量。
步骤56213:通过目标域节点表示层对目标域内容的嵌入表征向量进行学习,得到第二内容向量。
将目标域内容的嵌入表征向量输入目标域节点表示层,该目标域节点表示层用于对输入对象进行学习,一般使用多层叠加的全连接层实现。通过对目标域内容的嵌入表征向量进行学习,得到第二内容向量。
图23是本申请一个示例性实施例提供的跨域推荐方法的示意图。上述步骤5622还包括如下至少一个步骤:
步骤56221:通过目标域语义标签输入层将目标域语义标签的语义特征输入;
将目标域语义标签的语义特征作为目标域语义标签输入层的输入,该目标域语义标签的语义特征包括与目标域内容对应的语义标签特征。
示例性的,假设目标域内容为某电影,则目标域语义标签包括某电影的名称、某电影的角色名、某电影的制作者中的至少一种。假设目标域内容为某新闻,则该目标域语义标签包括某新闻的标题、某新闻的通讯作者、某新闻中的关键词中的至少一种。
步骤56222:通过目标域嵌入表征编码器对目标域语义标签的语义特征进行嵌入表示,得到目标域语义标签的嵌入表征向量;
将目标域语义标签的语义特征经目标域语义标签输入层输入到目标域嵌入表征编码器,该目标域嵌入表征编码器用于对输入对象进行嵌入表示,即基于神经网络模型生成对输入对象的分布式表示。主要作用是将原有对象的高维稀疏向量转化为低维、稠密向量,使得这些低维、稠密向量能够表达相应对象的一个或多个特征。同时,不同向量之间的距离能反应对象之间的相似性。通过对目标域语义标签的语义特征进行嵌入表示,得到目标域语义标签的嵌入表征向量。
步骤56223:通过目标域标签表示层对目标域语义标签的嵌入表征向量进行学习,得到第二语义标签向量。
将目标域语义标签的嵌入表征向量输入目标域标签表示层,该目标域标签表示层用于对输入对象进行学习,一般使用多层叠加的全连接层实现。通过对目标域语义标签的嵌入表征向量进行学习,得到第二语义标签向量。
综上所述,本实施例提供的方法,通过节点输入层、节点嵌入层、节点表示层、语义标签输入层、嵌入表征编码器和、标签表示层,对输入的内容和与内容对应的语义标签进行特征提取,得到内容向量和语义标签向量,使模型充分学习到源域内容的内容特征和目标域内容的内容特征,实现更好的推荐。
本申请实施例提出了一种新的跨域推荐的图神经网络模型,除了引入图中节点的拓扑关系,还引入了节点关联的语义标签以增强节点的表征能力。同时集中训练源域与目标域中节点的嵌入表征能力,克服源域或目标域中由于数据稀疏造成的影响。本申请实施例可以广泛适用根据用户账号的历史行为进行的推荐服务,适用相同域之间的推荐,如从长视频到长视频的推荐、从新闻到新闻的推荐;还适用不同域之间的推荐,如从长视频到短视频的推荐、从短视频到长视频的推荐、从视频到商品的推荐,从视频到音乐的推荐等。
本申请的主要流程如下:
根据用户账号的历史行为构建出一个从源域内容到目标域内容的异质网络。该异质网络包括由源域内容构建的同现网络、由目标域内容构建的同现网络、源域内容节点与源域内容对应的语义标签之间的标签二部图、目标域内容节点与目标域内容对应的语义标签之间的标签二部图、源域内容节点与目标域内容节点之间的节点二部图。
源域同现网络以源域视频同现网络为例,将每个用户在源域中所观看的视频按照观看时间排序。同时预先设定一个视频同现的时间窗口,如10分钟、20分钟等均可,同时假设同一用户在同一时间窗口内观看的所有视频的内容具有一定的相似性。根据该时间窗口对所有用户的视频浏览序列构建同现网络。对同一用户、同一时间窗口内的视频,如果没有边则连接一条边,如果已经有边则不断累加边上的权重。然后,将所有用户的同现边及边的同现次数进行累加,就得到整个源域视频同现网络。最后,为了过滤掉那些相关性不高的视频间的边,再设定一个同现权重的阈值,如3次,这样就得到了源域视频的同现网络了。对于目标域同现网络的构建,采用与构建源域同现网络相同的方法即可获得,只是目标域上如果用户账号的历史行为稀疏,在同现阈值的设定上可以调整,无需与源域上的阈值一致。
在源域同现网络和目标域同现网络构建完成后,即可通过常见的嵌入表示算法得到同现网络中节点的嵌入表征。
标签二部图只需要将源域与目标域中的内容节点与其在推荐系统中已有的语义标签关联即可。通过使用常见的词向量方法即可得到语义标签的嵌入表征。相关方法在很多自然语言处理技术(Natural Language Processing,NLP)的文献中已经提及,本文在此就不再赘述。
节点二部图通过选择同时浏览源域内容和目标域内容的用户,将每个用户浏览的内容按照时间进行排序,得到一个内容序列。该内容序列中既包含源域内容,也包含目标域内容。如果内容序列中邻接的两个内容一个属于源域,另一个属于目标域,则在这两个跨域节点间连接一条边,同时累加边上的同现权重。该二部图将后续跨域推荐模型训练的正例样本使用,而跨域推荐模型的负例样本则通过随机负采样得到。
在构建出异质网络后,本申请将构建从源域到目标域的图神经网络模型,即本申请实施例所述的跨域推荐模型,用于学习源域内容与目标域内容的相关性,从而最终得到源域内容节点与目标域内容节点的嵌入表征。
该跨域推荐模型的主要结构包括源域语义塔与目标域语义塔,其中源域语义塔与目标域语义塔的结构相同,因此以源域语义塔为例进行介绍。
经过节点输入层和语义标签输入层,分别用于输入节点以及节点关联的语义标签的合集。其中,节点输入层与语义标签输入层输入的均是经过标识化后节点以及语义标签,以便相关特征可以在节点嵌入层与嵌入表征编码器中取得嵌入向量。通过节点嵌入层把节点映射为低维、稠密的嵌入表示,从而提供给后续的深度学习网络。通过嵌入表征编码器把与内容节点连接的语义标签的文本特征向量映射为低维、稠密的嵌入表示,从而提供给后续的深度学习网络。节点嵌入层和嵌入表征编码器可以是各类详解循环神经网络(Recurrent Neural Network,RNN),也可以是多层的叠加与组合。节点表示层和语义标签表示层分别用于学习前面节点嵌入层与嵌入表征编码器输入的节点与语义标签集合的嵌入表征向量,一般使用多层叠加的全连接层实现。拼接层的功能是将节点的语义表示与该节点的图嵌入表征相拼接,从而得到该节点的完整嵌入表征。
当跨域推荐模型训练完毕后,即可分别用源域语义塔和目标域语义塔抽取源域内容与目标域内容的嵌入表征。再通过向量检索工具,召回与每个内容向量邻近的目标向量,从而实现跨域推荐。
本申请实施例能够实现的有益效果至少包括:
本申请是较为轻量化的跨域推荐模型,除了引入内容节点在各自域的同现图中的嵌入表征,还引入了节点关联的语义标签以增强了对应节点的表征能力。同时使用单独的语义塔以训练数据稀疏的目标域节点的嵌入表征能力,可以极大克服目标域的数据稀疏问题造成的影响。本申请不要求源域与目标域的节点的语义标签在同一特征空间。可以广泛应用于源域与目标域是不同域的跨域推荐中。
图24示出了本申请一个示例性实施例提供的跨域推荐模型的训练装置的框图。该装置包括:
构建模块2410,用于构建异质网络,异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、样本源域内容节点和样本源域语义标签之间的第一标签二部图和样本目标域内容节点和样本目标域语义标签之间的第二标签二部图。
生成模块2420,用于基于节点二部图中存在连接边的样本源域内容节点和样本目标域内容节点、样本源域内容节点在第一标签二部图中对应的样本源域语义标签,以及样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。
训练模块2430,用于基于训练样本对跨域推荐模型进行训练。
跨域推荐模型包括源域语义塔、目标域语义塔和匹配层。
训练模块2430,还用于针对任一训练样本,将样本源域内容节点和样本源域内容节点对应的样本源域语义标签输入源域语义塔,得到样本源域内容向量。
训练模块2430,还用于将样本目标域内容节点和样本目标域内容节点对应的样本目标域语义标签输入目标域语义塔,得到样本目标域内容向量。
训练模块2430,还用于将样本源域内容向量和样本目标域内容向量输入匹配层,得到预测相似度。
训练模块2430,还用于计算预测相似度和真实样本相似度之间的误差损失。
训练模块2430,还用于基于误差损失对跨域推荐模型进行训练。
源域语义塔包括级联的源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层,目标域语义塔包括级联的目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层。
训练模块2430,还用于将样本源域内容节点输入源域节点特征提取网络,得到第一样本内容向量。
训练模块2430,还用于将样本源域语义标签输入源域标签特征提取网络,得到第一样本语义标签向量。
训练模块2430,还用于将第一样本内容向量和第一样本语义标签向量输入源域拼接层,得到样本源域拼接向量。
训练模块2430,还用于将样本源域拼接向量输入源域表示层,得到样本源域内容向量。
训练模块2430,还用于将样本目标域内容节点输入目标域节点特征提取网络,得到第二样本内容向量;将样本目标域语义标签输入目标域标签特征提取网络,得到第二样本语义标签向量。
训练模块2430,还用于将第二样本内容向量和第二样本语义标签向量输入目标域拼接层,得到样本目标域拼接向量。
训练模块2430,还用于将样本目标域拼接向量输入目标域表示层,得到样本目标域内容向量。
生成模块2420,还用于将样本源域内容节点以及在第一标签二部图中对应的样本源域语义标签确定为样本源域数据。
生成模块2420,还用于将样本目标域内容节点以及在第二标签二部图中对应的目标域语义标签确定为样本目标域数据。
生成模块2420,还用于基于连接边上的权重,确定样本源域数据和样本目标域数据之间的真实样本相似度,权重是基于样本源域内容节点和样本目标域内容节点在一个时间段内同时出现的次数确定的。
生成模块2420,还用于将样本源域数据和样本目标域数据确定为训练样本。
异质网络还包括基于具有同现关系的样本源域内容节点构建的源域同现网络,基于具有同现关系的样本目标域内容节点构建的目标域同现网络。
节点二部图中包括存在连接边的第一样本源域内容节点和第一样本目标域内容节点。
生成模块2420,还用于在源域同现网络中存在与第一样本源域内容节点具有同现关系的第二样本源域内容节点的情况下,使用第二样本源域内容节点和第一样本目标域内容节点,以及第二样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第一样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。
生成模块2420,还用于在目标域同现网络中存在与第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用第一样本源域内容节点和第二样本目标域内容节点,以及第一样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第二样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。
生成模块2420,还用于在源域同现网络中存在与第一样本源域内容节点具有同现关系的第二样本源域内容节点且目标域同现网络中存在与第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用第二样本源域内容节点和第二样本目标域内容节点,以及第二样本源域内容节点在第一标签二部图中对应的样本源域语义标签和第二样本目标域内容节点在第二标签二部图中对应的样本目标域语义标签,生成训练样本。
构建模块2410,用于基于源域中的语义标签系统,构建样本源域内容节点和样本源域语义标签之间的第一标签二部图。
构建模块2410,还用于基于目标域中的语义标签系统,构建样本目标域内容节点和样本目标域语义标签之间的第二标签二部图。
构建模块2410,还用于基于多个样本帐号在源域和目标域的历史行为,构建样本源域内容节点和样本目标域内容节点之间的节点二部图。
构建模块2410,还用于基于源域中的语义标签系统,得到样本源域语义标签。
构建模块2410,还用于将具有对应关系的样本源域语义标签与样本源域内容节点通过连接边进行连接,得到样本源域内容节点和样本源域语义标签之间的第一标签二部图。
构建模块2410,还用于基于目标域中的语义标签系统,得到样本目标域语义标签。
构建模块2410,还用于将具有对应关系的样本目标域语义标签与样本目标域内容节点通过连接边进行连接,得到样本目标域内容节点和样本目标域语义标签之间的第二标签二部图。
构建模块2410,还用于基于多个用户账号在源域的历史行为,确定多个用户账号存在历史互动的样本源域内容。
构建模块2410,还用于基于多个用户账号在目标域的历史行为,确定多个用户账号存在历史互动的样本目标域内容。
构建模块2410,还用于基于样本源域内容和样本目标域内容在同一个用户账号下的第一时间段内同时出现的次数,将样本源域内容对应的样本源域内容节点和样本目标域内容对应的样本目标域内容节点通过连接边进行连接,得到样本源域内容节点和样本目标域内容节点之间的节点二部图。
构建模块2410,还用于基于多个样本帐号在源域的历史行为,构建源域同现网络。
构建模块2410,还用于基于多个样本帐号在目标域的历史行为,构建目标域同现网络。
构建模块2410,还用于基于多个用户账号在源域的历史行为,确定多个用户账号存在历史互动的样本源域内容。
构建模块2410,还用于基于样本源域内容在同一个用户账号的第二时间段内同时出现的次数,将样本源域内容对应的样本源域内容节点通过连接边进行连接,得到源域同现网络。
构建模块2410,还用于基于多个用户账号在目标域的历史行为,确定多个用户账号存在历史互动的样本目标域内容。
构建模块2410,还用于基于样本目标域内容在同一个用户账号的第三时间段内同时出现的次数,将样本目标域内容对应的样本目标域内容节点通过连接边进行连接,得到目标域同现网络。
图25示出了本申请一个示例性实施例提供的跨域推荐装置的框图。该装置包括:
获取模块2510,用于获取用户账号的历史行为。
确定模块2520,用于基于用户账号的历史行为,确定用户账号存在历史互动的源域内容。
确定模块2520,还用于基于源域内容向量和目标域内容向量之间的相似性,确定与源域内容对应的目标域内容。
推荐模块2530,用于向用户账号推荐目标域内容。
源域内容向量是源域内容的特征向量,目标域内容向量是目标域内容的特征向量,源域内容向量是基于源域内容和源域内容在第一标签二部图中对应的源域语义标签构建的,目标域内容向量是基于目标域内容和目标域内容在第二标签二部图中对应的目标域语义标签构建的,第一标签二部图是基于源域内容和源域语义标签构建的,第二标签二部图是基于目标域内容和目标域语义标签构建的。
确定模块2520,还用于获取源域内容向量,源域内容向量是基于第一内容向量和第一语义标签向量构建的,第一内容向量是源域内容对应的内容向量,第一语义标签向量是源域内容在第一标签二部图中对应的源域语义标签对应的语义标签向量。
确定模块2520,还用于获取多个目标域内容向量,目标域内容向量是基于第二内容向量和第二语义标签向量构建的,第二内容向量是目标域内容对应的内容向量,第二语义标签向量是目标域内容在第二标签二部图中对应的目标域语义标签对应的语义标签向量。
确定模块2520,还用于计算源域内容向量和每个目标域内容向量之间的相似度。
确定模块2520,还用于召回相似度超过阈值或排名在前n位的目标内容向量对应的目标域内容,作为源域内容对应的目标域内容。其中,n的取值为正整数。
服务器运行有跨域推荐模型,跨域推荐模型包括源域语义塔和目标域语义塔;源域语义塔包括源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层,目标域语义塔包括目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层。
确定模块2520,还用于通过源域节点特征提取网络对源域内容进行特征提取,得到第一内容向量。
确定模块2520,还用于通过源域标签特征提取网络对源域语义标签进行特征提取,得到第一语义标签向量。
确定模块2520,还用于通过源域拼接层对第一内容向量和第一语义标签向量进行拼接,得到源域拼接向量。
确定模块2520,还用于通过源域表示层对源域拼接向量进行特征提取,得到源域内容向量。
确定模块2520,还用于通过目标域节点特征提取网络对目标域内容进行特征提取,得到第二内容向量;通过目标域标签特征提取网络对目标域语义标签进行特征提取,得到第二语义标签向量。
确定模块2520,还用于通过目标域拼接层对第二内容向量和第二语义标签向量进行拼接,得到目标域拼接向量。
确定模块2520,还用于通过目标域表示层对目标域拼接向量进行特征提取,得到目标域内容向量。
源域节点特征提取网络包括级联的源域节点输入层、源域节点嵌入层和源域节点表示层,源域标签特征提取网络包括级联的源域语义标签输入层、源域嵌入表征编码器和源域标签表示层。
确定模块2520,还用于通过源域节点输入层将源域内容的内容特征输入。
确定模块2520,还用于通过源域节点嵌入层对源域内容的内容特征进行嵌入表示,得到源域内容的嵌入表征向量。
确定模块2520,还用于通过源域节点表示层对源域内容的嵌入表征向量进行学习,得到第一内容向量。
确定模块2520,还用于通过源域语义标签输入层将源域语义标签的语义特征输入。
确定模块2520,还用于通过源域嵌入表征编码器对源域语义标签的语义特征进行嵌入表示,得到源域语义标签的嵌入表征向量。
确定模块2520,还用于通过源域标签表示层对源域语义标签的嵌入表征向量进行学习,得到第一语义标签向量。
目标域节点特征提取网络包括级联的目标域节点输入层、目标域节点嵌入层和目标域节点表示层,目标域标签特征提取网络包括级联的目标域语义标签输入层、目标域嵌入表征编码器和目标域标签表示层。
确定模块2520,还用于通过目标域节点输入层将目标域内容的内容特征输入。
确定模块2520,还用于通过目标域节点嵌入层对目标域内容的内容特征进行嵌入表示,得到目标域内容的嵌入表征向量。
确定模块2520,还用于通过目标域节点表示层对目标域内容的嵌入表征向量进行学习,得到第二内容向量。
确定模块2520,还用于通过目标域语义标签输入层将目标域语义标签的语义特征输入。
确定模块2520,还用于通过目标域嵌入表征编码器对目标域语义标签的语义特征进行嵌入表示,得到目标域语义标签的嵌入表征向量。
确定模块2520,还用于通过目标域标签表示层对目标域语义标签的嵌入表征向量进行学习,得到第二语义标签向量。
图26示出了本申请一个示例性实施例提供的计算机设备的结构示意图。该计算机设备可以是终端,也可以是服务器。示例性的,计算机设备2600包括中央处理单元(CentralProcessing Unit,CPU)2601、包括随机存取存储器(Random Access Memory,RAM)2602和只读存储器(Read-Only Memory,ROM)2603的系统存储器2604,以及连接系统存储器2604和中央处理单元2601的系统总线2605。所述计算机设备2600还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output系统)2606,和用于存储操作系统2613、客户端2614和其他程序模块2615的大容量存储设备2607。
在一些实施例中,所述基本输入/输出系统2606包括有用于显示信息的显示器2608和用于用户输入信息的诸如鼠标、键盘之类的输入设备2609。其中所述显示器2608和输入设备2609都通过连接到系统总线2605的输入/输出控制器2610连接到中央处理单元2601。所述基本输入/输出系统2606还可以包括输入/输出控制器2610以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地,输入/输出控制器2610还提供输出到显示屏、打印机或其他类型的输出设备。
所述大容量存储设备2607通过连接到系统总线2605的大容量存储控制器(未示出)连接到中央处理单元2601。所述大容量存储设备2607及其相关联的计算机可读介质为计算机设备2600提供非易失性存储。也就是说,所述大容量存储设备2607可以包括诸如硬盘或者只读光盘(Compact Disc Read-Only Memory,CD-ROM)驱动器之类的计算机可读介质(未示出)。
所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、闪存或其他固态存储其技术,CD-ROM、数字通用光盘(Digital Versatile Disc,DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然,本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器2604和大容量存储设备2607可以统称为存储器。
根据本申请的各种实施例,所述计算机设备2600还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备2600可以通过连接在所述系统总线2605上的网络接口单元2616连接到网络2617,或者说,也可以使用网络接口单元2616来连接到其他类型的网络或远程计算机系统(未示出)。
本申请一示例性实施例还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有至少一段程序,至少一段程序由处理器加载并执行以实现上述各个方法实施例提供的跨域推荐模型的训练方法和跨域推荐方法。
本申请一示例性实施例还提供了一种计算机程序产品,计算机程序产品包括至少一段程序,至少一段程序存储在可读存储介质中;通信设备的处理器从可读存储介质中读取信令,处理器执行信令,使得通信设备执行以实现上述各个方法实施例提供的跨域推荐模型的训练方法和跨域推荐方法。
应当理解的是,在本文中提及的“多个”是指两个或两个以上。本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同切换、改进等,均应包含在本申请的保护范围之内。
Claims (20)
1.一种跨域推荐模型的训练方法,其特征在于,所述方法包括:
构建异质网络,所述异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、所述样本源域内容节点和样本源域语义标签之间的第一标签二部图、所述样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;
基于所述节点二部图中存在连接边的所述样本源域内容节点和所述样本目标域内容节点、所述样本源域内容节点在所述第一标签二部图中对应的样本源域语义标签,以及所述样本目标域内容节点在所述第二标签二部图中对应的样本目标域语义标签,生成训练样本;
基于所述训练样本对所述跨域推荐模型进行训练。
2.根据权利要求1所述的方法,其特征在于,所述跨域推荐模型包括源域语义塔、目标域语义塔和匹配层;
所述基于所述训练样本对所述跨域推荐模型进行训练,包括:
针对任一所述训练样本,将所述样本源域内容节点和所述样本源域内容节点对应的所述样本源域语义标签输入所述源域语义塔,得到样本源域内容向量;以及,将所述样本目标域内容节点和所述样本目标域内容节点对应的所述样本目标域语义标签输入所述目标域语义塔,得到样本目标域内容向量;
将所述样本源域内容向量和所述样本目标域内容向量输入所述匹配层,得到预测相似度;
计算所述预测相似度和真实样本相似度之间的误差损失;
基于所述误差损失对所述跨域推荐模型进行训练。
3.根据权利要求2所述的方法,其特征在于,所述源域语义塔包括级联的源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层,所述目标域语义塔包括级联的目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层;
所述将所述样本源域内容节点和所述样本源域内容节点对应的源域语义标签输入所述源域语义塔,得到样本源域内容向量,包括:
将所述样本源域内容节点输入所述源域节点特征提取网络,得到第一样本内容向量;将所述样本源域语义标签输入所述源域标签特征提取网络,得到第一样本语义标签向量;
将所述第一样本内容向量和所述第一样本语义标签向量输入所述源域拼接层,得到样本源域拼接向量;
将所述样本源域拼接向量输入所述源域表示层,得到所述样本源域内容向量;
所述将所述样本目标域内容节点和所述样本目标域内容节点对应的目标域语义标签输入所述目标域语义塔,得到样本目标域内容向量,包括:
将所述样本目标域内容节点输入所述目标域节点特征提取网络,得到第二样本内容向量;将所述样本目标域语义标签输入所述目标域标签特征提取网络,得到第二样本语义标签向量;
将所述第二样本内容向量和所述第二样本语义标签向量输入所述目标域拼接层,得到样本目标域拼接向量;
将所述样本目标域拼接向量输入所述目标域表示层,得到所述样本目标域内容向量。
4.根据权利要求1至3任一所述的方法,其特征在于,所述基于所述节点二部图中存在连接边的所述样本源域内容节点和所述样本目标域内容节点,所述样本源域内容节点在所述第一标签二部图中对应的样本源域语义标签,以及所述样本目标域内容节点在所述第二标签二部图中对应的样本目标域语义标签,生成训练样本,包括:
将所述样本源域内容节点以及在所述第一标签二部图中对应的所述样本源域语义标签确定为样本源域数据;将所述样本目标域内容节点以及在所述第二标签二部图中对应的所述样本目标域语义标签确定为样本目标域数据;
基于所述连接边上的权重,确定所述样本源域数据和所述样本目标域数据之间的真实样本相似度,所述权重是基于所述样本源域内容节点和所述样本目标域内容节点在一个时间段内同时出现的次数确定的;
将所述样本源域数据、所述样本目标域数据和所述真实样本相似度确定为所述训练样本。
5.根据权利要求1至3任一所述的方法,其特征在于,所述异质网络还包括:基于具有同现关系的所述样本源域内容节点构建的源域同现网络,基于具有同现关系的所述样本目标域内容节点构建的目标域同现网络;
所述节点二部图中包括存在连接边的第一样本源域内容节点和第一样本目标域内容节点,所述方法还包括:
在所述源域同现网络中存在与所述第一样本源域内容节点具有同现关系的第二样本源域内容节点的情况下,使用所述第二样本源域内容节点和所述第一样本目标域内容节点,以及所述第二样本源域内容节点在所述第一标签二部图中对应的所述样本源域语义标签和所述第一样本目标域内容节点在所述第二标签二部图中对应的所述样本目标域语义标签,生成所述训练样本;
在所述目标域同现网络中存在与所述第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用所述第一样本源域内容节点和所述第二样本目标域内容节点,以及所述第一样本源域内容节点在所述第一标签二部图中对应的所述样本源域语义标签和所述第二样本目标域内容节点在所述第二标签二部图中对应的所述样本目标域语义标签,生成所述训练样本;
在所述源域同现网络中存在与所述第一样本源域内容节点具有同现关系的第二样本源域内容节点且所述目标域同现网络中存在与所述第一样本目标域内容节点具有同现关系的第二样本目标域内容节点的情况下,使用所述第二样本源域内容节点和所述第二样本目标域内容节点,以及所述第二样本源域内容节点在所述第一标签二部图中对应的所述样本源域语义标签和所述第二样本目标域内容节点在所述第二标签二部图中对应的所述样本目标域语义标签,生成所述训练样本。
6.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:
基于源域中的语义标签系统,构建所述样本源域内容节点和所述样本源域语义标签之间的所述第一标签二部图;
基于目标域中的语义标签系统,构建所述样本目标域内容节点和所述样本目标域语义标签之间的所述第二标签二部图;
基于多个样本帐号在所述源域和所述目标域的历史行为,构建所述样本源域内容节点和所述样本目标域内容节点之间的节点二部图。
7.根据权利要求6所述的方法,其特征在于,所述基于源域中的语义标签系统,构建所述样本源域内容节点和所述样本源域语义标签之间的所述第一标签二部图,包括:
基于所述源域中的所述语义标签系统,得到所述样本源域语义标签;
将具有对应关系的所述样本源域语义标签与所述样本源域内容节点通过连接边进行连接,得到所述样本源域内容节点和样本源域语义标签之间的所述第一标签二部图。
8.根据权利要求6所述的方法,其特征在于,所述基于目标域中的语义标签系统,构建所述样本目标域内容节点和所述样本目标域语义标签之间的所述第二标签二部图,包括:
基于所述目标域中的所述语义标签系统,得到所述样本目标域语义标签;
将具有对应关系的所述样本目标域语义标签与所述样本目标域内容节点通过连接边进行连接,得到所述样本目标域内容节点和样本目标域语义标签之间的所述第二标签二部图。
9.根据权利要求6所述的方法,其特征在于,所述基于多个样本帐号在所述源域和所述目标域的历史行为,构建所述样本源域内容节点和样本目标域内容节点之间的节点二部图,包括:
基于所述多个用户账号在所述源域的所述历史行为,确定所述多个用户账号存在历史互动的样本源域内容;
基于所述多个用户账号在所述目标域的所述历史行为,确定所述多个用户账号存在历史互动的样本目标域内容;
基于所述样本源域内容和所述样本目标域内容在同一个所述用户账号下的第一时间段内同时出现的次数,将所述样本源域内容对应的所述样本源域内容节点和所述样本目标域内容对应的所述样本目标域内容节点通过连接边进行连接,得到所述样本源域内容节点和样本目标域内容节点之间的节点二部图。
10.根据权利要求6所述的方法,其特征在于,所述方法还包括:
基于多个样本帐号在源域的历史行为,构建源域同现网络;
基于多个样本帐号在目标域的历史行为,构建目标域同现网络。
11.一种跨域推荐方法,其特征在于,所述方法包括:
获取用户账号的历史行为;
基于所述用户账号的所述历史行为,确定所述用户账号存在历史互动的源域内容;
基于源域内容向量和目标域内容向量之间的相似性,确定与所述源域内容对应的目标域内容;
向所述用户账号推荐所述目标域内容;
其中,所述源域内容向量是所述源域内容的特征向量,所述目标域内容向量是所述目标域内容的特征向量,所述源域内容向量是基于所述源域内容和所述源域内容在第一标签二部图中对应的源域语义标签构建的,所述目标域内容向量是基于所述目标域内容和所述目标域内容在第二标签二部图中对应的目标域语义标签构建的,所述第一标签二部图是基于所述源域内容和所述源域语义标签构建的,所述第二标签二部图是基于所述目标域内容和所述目标域语义标签构建的。
12.根据权利要求11所述的方法,其特征在于,所述基于源域内容向量和目标域内容向量之间的相似性,确定与所述源域内容对应的目标域内容,包括:
获取所述源域内容向量,所述源域内容向量是基于第一内容向量和第一语义标签向量构建的,所述第一内容向量是所述源域内容对应的内容向量,所述第一语义标签向量是所述源域内容在所述第一标签二部图中对应的所述源域语义标签对应的语义标签向量;
获取多个所述目标域内容向量,所述目标域内容向量是基于第二内容向量和第二语义标签向量构建的,所述第二内容向量是所述目标域内容对应的内容向量,所述第二语义标签向量是所述目标域内容在所述第二标签二部图中对应的所述目标域语义标签对应的语义标签向量;
计算所述源域内容向量和每个所述目标域内容向量之间的相似度;
召回所述相似度超过阈值或排名在前n位的目标内容向量对应的目标域内容,作为所述源域内容对应的所述目标域内容;
其中,n的取值为正整数。
13.根据权利要求12所述的方法,其特征在于,所述服务器运行有跨域推荐模型,所述跨域推荐模型包括源域语义塔和目标域语义塔;所述源域语义塔包括源域节点特征提取网络、源域标签特征提取网络、源域拼接层和源域表示层,所述目标域语义塔包括目标域节点特征提取网络、目标域标签特征提取网络、目标域拼接层和目标域表示层;
所述获取所述源域内容向量,包括:
通过所述源域节点特征提取网络对所述源域内容进行特征提取,得到所述第一内容向量;通过所述源域标签特征提取网络对所述源域语义标签进行特征提取,得到所述第一语义标签向量;
通过所述源域拼接层对所述第一内容向量和所述第一语义标签向量进行拼接,得到源域拼接向量;
通过所述源域表示层对所述源域拼接向量进行特征提取,得到所述源域内容向量;
所述获取所述目标域内容向量,包括:
通过所述目标域节点特征提取网络对所述目标域内容进行特征提取,得到所述第二内容向量;通过所述目标域标签特征提取网络对所述目标域语义标签进行特征提取,得到所述第二语义标签向量;
通过所述目标域拼接层对所述第二内容向量和所述第二语义标签向量进行拼接,得到目标域拼接向量;
通过所述目标域表示层对所述目标域拼接向量进行特征提取,得到所述目标域内容向量。
14.根据权利要求13所述的方法,其特征在于,所述源域节点特征提取网络包括级联的源域节点输入层、源域节点嵌入层和源域节点表示层,所述源域标签特征提取网络包括级联的源域语义标签输入层、源域嵌入表征编码器和源域标签表示层;
所述通过所述源域节点特征提取网络对所述源域内容进行特征提取,得到所述第一内容向量,包括:
通过所述源域节点输入层将所述源域内容的内容特征输入;
通过所述源域节点嵌入层对所述源域内容的内容特征进行嵌入表示,得到所述源域内容的嵌入表征向量;
通过所述源域节点表示层对所述源域内容的嵌入表征向量进行学习,得到所述第一内容向量;
所述通过所述源域标签特征提取网络对所述源域语义标签进行特征提取,得到所述第一语义标签向量,包括:
通过所述源域语义标签输入层将所述源域语义标签的语义特征输入;
通过所述源域嵌入表征编码器对所述源域语义标签的语义特征进行嵌入表示,得到所述源域语义标签的嵌入表征向量;
通过所述源域标签表示层对所述源域语义标签的嵌入表征向量进行学习,得到所述第一语义标签向量。
15.根据权利要求13所述的方法,其特征在于,所述目标域节点特征提取网络包括级联的目标域节点输入层、目标域节点嵌入层和目标域节点表示层,所述目标域标签特征提取网络包括级联的目标域语义标签输入层、目标域嵌入表征编码器和目标域标签表示层;
所述通过所述目标域节点特征提取网络对所述目标域内容进行特征提取,得到所述第二内容向量,包括:
通过所述目标域节点输入层将所述目标域内容的内容特征输入;
通过所述目标域节点嵌入层对所述目标域内容的内容特征进行嵌入表示,得到所述目标域内容的嵌入表征向量;
通过所述目标域节点表示层对所述目标域内容的嵌入表征向量进行学习,得到所述第二内容向量;
所述通过所述目标域标签特征提取网络对所述目标域语义标签进行特征提取,得到所述第二语义标签向量,包括:
通过所述目标域语义标签输入层将所述目标域语义标签的语义特征输入;
通过所述目标域嵌入表征编码器对所述目标域语义标签的语义特征进行嵌入表示,得到所述目标域语义标签的嵌入表征向量;
通过所述目标域标签表示层对所述目标域语义标签的嵌入表征向量进行学习,得到所述第二语义标签向量。
16.一种跨域推荐模型的训练装置,其特征在于,所述装置包括:
构建模块,用于构建异质网络,所述异质网络包括样本源域内容节点和样本目标域内容节点之间的节点二部图、所述样本源域内容节点和样本源域语义标签之间的第一标签二部图、所述样本目标域内容节点和样本目标域语义标签之间的第二标签二部图;
生成模块,用于基于所述节点二部图中存在连接边的所述样本源域内容节点和所述样本目标域内容节点、所述样本源域内容节点在所述第一标签二部图中对应的样本源域语义标签,以及所述样本目标域内容节点在所述第二标签二部图中对应的样本目标域语义标签,生成训练样本;
训练模块,用于基于所述训练样本对所述跨域推荐模型进行训练。
17.一种跨域推荐装置,其特征在于,所述装置包括:
获取模块,用于获取用户账号的历史行为;
确定模块,用于基于所述用户账号的所述历史行为,确定所述用户账号存在历史互动的源域内容;
所述确定模块,还用于基于源域内容向量和目标域内容向量之间的相似性,确定与所述源域内容对应的目标域内容;
推荐模块,用于向所述用户账号推荐所述目标域内容;
其中,所述源域内容向量是所述源域内容的特征向量,所述目标域内容向量是所述目标域内容的特征向量,所述源域内容向量是基于所述源域内容和所述源域内容在第一标签二部图中对应的源域语义标签构建的,所述目标域内容向量是基于所述目标域内容和所述目标域内容在第二标签二部图中对应的目标域语义标签构建的,所述第一标签二部图是基于所述源域内容和所述源域语义标签构建的,所述第二标签二部图是基于所述目标域内容和所述目标域语义标签构建的。
18.一种计算机设备,其特征在于,所述计算机设备包括:处理器和存储器,所述存储器中存储有至少一段程序,所述至少一段程序由所述处理器加载并执行,以实现如权利要求1至10任一项所述的跨域推荐模型的训练方法和权利要求11至15任一项所述的跨域推荐方法。
19.一种计算机可读存储介质,其特征在于,所述可读存储介质中存储有至少一段程序,所述至少一段程序由处理器加载并执行以实现如权利要求1至10任一项所述的跨域推荐模型的训练方法和权利要求11至15任一项所述的跨域推荐方法。
20.一种计算机程序产品,其特征在于,所述计算机程序产品包括至少一段程序,所述至少一段程序存储在计算机可读存储介质中;通信设备的处理器从所述计算机可读存储介质中读取所述至少一段程序,所述处理器执行所述至少一段程序,使得所述通信设备执行如权利要求1至10任一项所述的跨域推荐模型的训练方法和权利要求11至15任一项所述的跨域推荐方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084391.9A CN116955782A (zh) | 2023-01-13 | 2023-01-13 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
PCT/CN2023/128554 WO2024148918A1 (zh) | 2023-01-13 | 2023-10-31 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310084391.9A CN116955782A (zh) | 2023-01-13 | 2023-01-13 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116955782A true CN116955782A (zh) | 2023-10-27 |
Family
ID=88453612
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310084391.9A Pending CN116955782A (zh) | 2023-01-13 | 2023-01-13 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN116955782A (zh) |
WO (1) | WO2024148918A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024148918A1 (zh) * | 2023-01-13 | 2024-07-18 | 腾讯科技(深圳)有限公司 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417298B (zh) * | 2020-12-07 | 2021-06-29 | 中山大学 | 一种基于少量重叠用户的跨域推荐方法及系统 |
US20220198339A1 (en) * | 2020-12-23 | 2022-06-23 | Beijing Didi Infinity Technology And Development Co., Ltd. | Systems and methods for training machine learning model based on cross-domain data |
CN114281976A (zh) * | 2021-08-27 | 2022-04-05 | 腾讯科技(深圳)有限公司 | 一种模型训练方法、装置、电子设备及存储介质 |
CN115098692B (zh) * | 2022-05-30 | 2024-09-20 | 清华大学 | 跨域推荐方法、装置、电子设备及存储介质 |
CN116955782A (zh) * | 2023-01-13 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
-
2023
- 2023-01-13 CN CN202310084391.9A patent/CN116955782A/zh active Pending
- 2023-10-31 WO PCT/CN2023/128554 patent/WO2024148918A1/zh unknown
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024148918A1 (zh) * | 2023-01-13 | 2024-07-18 | 腾讯科技(深圳)有限公司 | 跨域推荐模型的训练方法、装置、设备、介质及产品 |
Also Published As
Publication number | Publication date |
---|---|
WO2024148918A1 (zh) | 2024-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111444428B (zh) | 基于人工智能的信息推荐方法、装置、电子设备及存储介质 | |
US11893071B2 (en) | Content recommendation method and apparatus, electronic device, and storage medium | |
CN112131350B (zh) | 文本标签确定方法、装置、终端及可读存储介质 | |
CN111444357B (zh) | 内容信息确定方法、装置、计算机设备及存储介质 | |
CN111680219A (zh) | 内容推荐方法、装置、设备及可读存储介质 | |
CN111258995B (zh) | 数据处理方法、装置、存储介质及设备 | |
CN113010702B (zh) | 多媒体信息的互动处理方法、装置、电子设备及存储介质 | |
US11126682B1 (en) | Hyperlink based multimedia processing | |
CN111625715B (zh) | 信息提取方法、装置、电子设备及存储介质 | |
CN116702737A (zh) | 文案生成方法、装置、设备、存储介质及产品 | |
CN112989212B (zh) | 媒体内容推荐方法、装置和设备及计算机存储介质 | |
CN112231563A (zh) | 一种内容推荐方法、装置及存储介质 | |
CN110852047A (zh) | 一种文本配乐方法、装置、以及计算机存储介质 | |
WO2024148918A1 (zh) | 跨域推荐模型的训练方法、装置、设备、介质及产品 | |
CN117011745A (zh) | 一种数据处理方法、装置、计算机设备以及可读存储介质 | |
CN115618024A (zh) | 多媒体推荐方法、装置及电子设备 | |
Lubos et al. | An overview of video recommender systems: state-of-the-art and research issues | |
CN116628345B (zh) | 一种内容推荐方法、装置、电子设备和存储介质 | |
CN114817692A (zh) | 确定推荐对象的方法、装置和设备及计算机存储介质 | |
KR102503854B1 (ko) | 영상 처리 방법 및 장치 | |
CN114707633B (zh) | 特征提取方法、装置、电子设备和存储介质 | |
CN116628232A (zh) | 标签确定方法、装置、设备、存储介质及产品 | |
Harrando et al. | Improving media content recommendation with automatic annotations | |
CN115329183A (zh) | 数据处理方法、装置、存储介质及设备 | |
CN112035740A (zh) | 项目使用时长预测方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40098981 Country of ref document: HK |