CN117836765A

CN117836765A - 基于多模态超图的点击预测

Info

Publication number: CN117836765A
Application number: CN202180101777.5A
Authority: CN
Inventors: 王丁贤; 徐贯东; 陈红旭; 何力
Original assignee: eBay Inc
Current assignee: eBay Inc
Priority date: 2021-08-26
Filing date: 2021-08-26
Publication date: 2024-04-05
Also published as: WO2023024017A1

Abstract

在线平台依赖的重要信号之一是点击率预测。这允许平台(例如，视频平台)基于用户与项目进行交互的可能性向用户提供项目(例如，视频)。提供了一种超图模型来利用时间用户‑项目交互来指导具有多模态特征的表示学习，并且进一步预测项目的用户点击率。超图模型建立在超图神经网络的超边概念之上。以这种方式，项目模态(例如，视觉、听觉和文本方面)可以用于增强点击率预测，并且因此增强在线平台将提供相关内容的可能性。该技术利用超图，该超图包括基于兴趣的超图以及唯一地提供用户和项目之间的关系的项目超图。所描述的超图模型明显优于各种最先进的方法。

Description

基于多模态超图的点击预测

背景技术

许多在线服务(包括视频流式传输服务)向用户提供内容。这些服务寻求提供与用户相关的内容。例如，在线流式传输服务可能提供连续流，其中，将视频一个接一个地提供给用户。在与这种情况类似的情况下，服务提供商将持续尝试提供相关内容，使得用户能够最大限度地利用该服务。

近年来，在线视频服务平台已经发生了变化，以满足不同类型的观看者的需求。过去，大型流式传输服务提供内容的长视频流。例如，视频流式传输服务将向用户提供电影库。当用户观看电影时，用户的参与度基于电影的内容，并且用户通常在电影的整个持续时间内的一个或两个会话期间保持参与度。

如今，视频流式传输格局已经发生了变化。现在，服务更有可能托管大得多的较短视频库，其中许多视频仅十五秒至三十秒长并且由其他用户上传。通过点赞、评论、分享或其他某种形式的交互，这些服务通常向用户提供一种与视频交互的方式。当今的流式传输服务通过这些交互来尝试学习用户，使得该服务可以持续提供用户感兴趣的相关内容。

然而，从小型长视频内容库到庞大且无定形的短视频内容库(其也可以被称为微视频)的转变已经给视频服务提供商在学习用户、以及识别来自不断变化和不断增长的视频库的内容并将其提供给用户方面带来了问题。

发明内容

在高层次上，本文描述的方面涉及基于使用超图和超图神经网络确定内容的点击预测来识别并提供项目(例如，视频内容)的方法。

一种方法涉及获得用户交互的序列，其中，用户已经与在线平台提供的项目(例如，视频)进行了交互。该序列提供了用户已经与之交互的项目的时间顺序。将一个时隙或一系列时隙的用户交互序列提供给输出顺序用户表示的注意力层。

根据用户交互的序列，生成一系列超图。这些超图包括基于兴趣的用户超图，其包括基于对视频平台的内容的共同用户内容兴趣的用户相关性。这些超图还包括项目超图，该项目超图包括用户与视频平台中该用户已经与之交互的项目的多种项目模态之间的项目相关性。

将项目超图和基于兴趣的用户超图输入到超图神经网络中以输出组感知用户。将组感知用户的表示(组感知用户的嵌入式表示)与顺序用户表示进行融合以提供第一嵌入式融合。同时，将目标项目表示(例如，可以被提供给用户的候选项目的嵌入式表示)和来自超图神经网络的输出的项目-项目超图嵌入进行组合以提供组合嵌入。

将第一嵌入式融合和组合嵌入输入到多层感知器(MLP)中，该MLP被配置为输出点击率概率。点击率概率可以用于选择目标项目并将其提供给用户。

本发明内容意在以简化形式介绍在本公开的具体实施方式部分中还描述的构思的选择。本发明内容不意在标识所请求保护的主题的关键特征或基本特征，也不意在帮助确定所请求保护的主题的范围。本技术的附加目的、优点和新颖特征将部分地在下面的描述中进行阐述，并且在检查本公开或通过本技术的实践学习时，对于本领域技术人员将部分地变得显而易见。

附图说明

下面参考附图详细描述了本技术的实施例，在附图中：

图1是根据本文描述的实施例的可以采用本公开的方面的视频平台的示例操作环境；

图2是根据本文描述的实施例的可以由图1的组件(包括视频平台)采用的示例项目提供引擎；

图3是根据本文描述的方面的可以由图2的项目提供引擎采用的示例超图点击率预测模型；

图4是示出了根据本文描述的方面的使用图2的项目提供引擎来确定点击率概率的示例方法的框图；

图5是示出了从图2的项目提供引擎接收目标项目的示例方法的框图；以及

图6是根据本文描述的实施例的适合于实现所描述的技术的示例计算设备。

具体实施方式

如所指出的，从长视频的小型视频库到相对较短的视频的大型库的转变已经带来了特殊挑战。具体而言，随着视频平台上的视频的平均长度减少，填充相同长度时间所需的视频的数量增加。这更加强调如何选择视频。例如，在2021年初，流行的微视频平台TikTok具有超过20亿次的视频下载。更重要的是，TikTok每天的视频观看次数超过10亿次。

考虑到可用视频的数量以及不断从大型库中识别用户的相关视频的需要，需要新技术。这是因为，一个人不可能从如此大型库中主动选择用户认为重要的视频，更不用说识别了。因此，需要新技术来识别用户、学习用户，然后使用这些知识来识别视频并将其提供给用户。

识别与用户相关的视频并不是一个简单或直截了当的问题。库的规模和内容正在迅速变化。此外，某些数据集缺乏成功识别相关内容所需的大量用户信息。此外，当已知关于用户的一些信息时，该信息可能不够具体，以至于无法从大型库中缩小可能的候选视频领域。作为示例，如果已知用户喜欢体育视频，则潜在候选体育视频的数量可能仍然为数千万或数亿。确定从数百万个相关视频中选择哪些视频仍然是一个挑战。当尝试识别其他相关内容时，会出现另一选择问题。可以向用户呈现连续的体育视频流，但这样做可能无法识别任何其他兴趣领域以及与这些兴趣相关的视频。由于在托管二十亿加视频的平台中存在大量类似的视频，因此在没有一些附加学习的情况下，用户可能仅被呈现一种类型的视频。

因此，为了能够有效地利用这些类型的视频平台，需要用于学习用户并基于该学习来识别视频的方法。否则，这些类型的平台可以托管的视频数量将受到限制。本公开提供了更有效地学习用户的方法，并且以比常规系统(例如，使用其他人工智能方法或其他数据库调用方法(例如，标记和索引)的系统)更有效的方式识别并提供视频。

例如，诸如此类的常规方法未考虑基于模态的学习，例如视频的不同方面(例如，视频的听觉、视觉和文本特征)。常规方法都比由本公开提供的使用超图神经网络进行视频识别和调用的方法遭受稀疏性问题的程度高得多。例如，当通常基于用户将参与视频的可能性来识别并调用视频时，用户和视频之间的交互通常是稀疏的。这是因为，用户可能观看视频但不与之交互，或者仅可在有限程度上与之交互，例如指示用户“喜欢”该视频。常规方法一直犹豫是否利用各种模态来预测用户与视频的交互或参与度，因为这样做只会加剧稀疏性问题。作为示例，当尝试考虑包括视频的听觉、视觉或文本方面的三种模态时，数据集的稀疏性增加了三倍。

为了缓解该问题，本公开提供了包括超图生成以及使用超图神经网络来学习用户与特定目标视频交互的可能性的方法。如将在本公开提供的示例中描述的，与先前方法相比，模型的性能已经被证明有效地缓解稀疏性问题并且更好地预测用户是否将与目标交互。实际上，这允许系统能够从更大的库中检索并提供视频。使用超图可以利用更少的数据来更准确地预测用户与下一个视频的交互，从而使系统更容易维护并使用更大的库，并且更容易托管具有相对较短视频剪辑的视频平台。

将更详细地描述一种实现这些益处以及其他益的方法是使用超图。超图包括广义图，该广义图包括将任何数量的节点或顶点连接的边。可以生成不同类型的超图来显示用户和项目之间关于由超边限定的超图区域的各种关系。如本文所使用的，术语“项目”旨在指代包括多于一种模态的信息，其包括视频，视频可以包括一种或多种文本、视觉和听觉模态。因此，可以使用超图和超图神经网络来分析用户如何与项目进行交互，以预测用户与另一项目进行交互的可能性，并且可以使用该预测来选择项目(例如，视频)并将其提供给用户。

为了简要说明将进一步描述的一个方面，可以识别用户与项目的交互。例如，使用视频平台的用户可能观看某个项目，并且可以通过“点赞”该项目、评论该项目、分享该项目等方式与之交互。向用户呈现一系列项目，并且来自该系列的用户与之交互的项目序列可以被识别为用户的交互序列。可以截断用户交互序列，使得它仅包括该序列的位于时隙内的部分。这些时隙可以被调整以包括相对较新的交互，从而指示更多当前用户交互和趋势，或被调整以捕获季节性变化，例如前一年的类似时间。

根据用户交互，可以生成项目超图或基于兴趣的用户超图。基于兴趣的用户超图可以利用区域的组感知超边来生成，这些区域包括由每个超边内的一个单模态(unimodal)特征连接的一组用户。使用基于兴趣的超图，可以基于每个用户已经与之交互的项目集来生成项目超图，使得项目节点链接到已经与项目节点表示的项目进行交互的用户。在项目超图内，每个项目节点可以映射到多个用户，而每个用户也与各种项目具有多个交互。因此，可以对项目信息进行聚类以构建项目超边，使得每种模态存在若干个层，每个层从基于兴趣的用户超边延伸。一般而言，具有组感知超边的项目超图捕获组成员的偏好，而项目超图提供项目级高阶表示。

可以将项目超图和基于兴趣的用户超图提供给超图神经网络，例如超图卷积网络。超图神经网络算子学习局部且高阶结构关系，并且将它们作为组感知输出。可以通过融合层将组感知用户的嵌入式表示与顺序用户表示进行融合，该顺序用户表示是顺序用户交互的嵌入式表示。

通过融合层、融合的顺序用户表示和组感知用户表示所得到的输出以及目标项目的嵌入式表示和来自超图神经网络的输出的项目-项目超图嵌入一起被提供作为多层感知器(MLP)的输入。MLP的输出提供用户将与目标项目进行交互的概率(即，点击率预测)。可以基于用户将点击该项目的点击率预测来从其他项目中选择目标项目以提供给用户。

将认识到，前面描述的方法仅是可以从下面的描述中实践的示例，并且提供所述方法以更容易地理解该技术并认识到它的益处。现在参考附图描述附加示例。

首先参考图1，除了未示出的其他组件或引擎之外，操作环境100包括客户端设备102、服务器104、视频平台106和数据存储108，它们中的每一个被示出为使用网络110进行通信。

一般而言，客户端设备102可以是任何类型的计算设备，例如参考图6描述的计算设备600。作为示例，客户端设备102可以采用移动设备(例如，智能电话、平板计算机、物联网(IoT)设备、智能手表等)的形式。一般而言，客户端设备102可以经由输入组件接收输入，并且将所接收到的输入传送给图1的其他组件。此外，客户端设备102可以从图1的其他组件接收信息，并且经由输出组件将该信息提供给用户。参考图6描述了可以由客户端设备102使用的一些示例输入/输出组件。客户端设备102还可以表示一个或多个客户端设备。在实施方式中，客户端设备102接收与用户与视频平台106提供的视频的交互相关联的输入，并且它向视频平台106提供这些用户交互，这将被更详细地讨论。在一些实施方式中，客户端设备102可以被称为客户端侧设备，并且可以对客户端侧执行操作。

服务器104可以是任何计算设备，并且与像图1的其他组件一样，表示一个或多个服务器。示例计算设备600是关于图6提供的计算设备，并且通常适合作为服务器104。服务器104通常被配置为执行视频平台106的方面。在一些情况下，服务器106可以被称为后端服务器，并且在服务器侧执行操作。

视频平台106还被示出为操作环境100的一部分。一般而言，视频平台106是向客户端设备102提供对视频的访问的视频服务提供商。视频平台106可以包括基于web的视频流式传输平台，其可以允许用户上传并观看视频。以这种方式，一个用户可以流式传输另一用户上传的视频。除了其他视频类型之外，视频平台106还包括通常托管相对较短长度的视频的微视频平台。例如，微视频的长度可以是十五秒至三十秒。视频平台106可以提供一系列流式传输的视频。这可以包括针对用户顺序播放的两个或更多个视频的连续流。视频平台106的方面可以由网络100中的任何计算设备以任何组合来执行，包括由客户端设备102在客户端侧执行或者由服务器104在服务器侧执行。

操作环境100包括数据存储108。数据存储108通常存储包括数据、计算机指令(例如，软件程序指令、例程或服务)、或在所描述技术的实施例中使用的模型的信息。尽管被描述为单个数据库组件，但数据存储108可以体现为一个或多个数据存储或者可以在云中。在各个方面中，数据存储108将存储从客户端设备102或服务器104接收到的数据，并且可以向客户端设备102或服务器104提供所存储的信息。数据存储108可以被配置为存储功能方面(包括计算机可执行指令)，其执行将进一步描述的视频平台106的功能。

如所指出的，图1的组件经由网络110进行通信。网络110可以包括一个或多个网络(例如，公共网络或虚拟专用网络“VPN”)，如网络110所示。网络110可以包括但不限于一个或多个局域网(LAN)、广域网(WAN)或任何其他通信网络或方法。

在已经识别操作环境100的各种组件之后，注意并再次强调，任何布置中的任何附加或更少的组件都可以用于实现在本公开的范围内的期望功能。尽管图1的一些组件被描绘为单个组件，但这些描绘在本质上和数量上意在作为示例并且不应被解释为对本公开的所有实施方式的限制。可以使用其他布置和元素(例如，机器、接口、功能、命令和功能分组)来补充或代替所示出的布置和元素，并且可以完全省略一些元素。

现在转向图2，示出了示例项目提供引擎200。项目提供引擎200可以由图1的视频平台106用来识别项目并将其提供给客户端设备102。如所指出的，“项目”包括可以推送到客户端设备102的内容，并且包括可以提供给客户端设备102并在客户端设备102处显示的视频。因此，项目提供引擎200提供了一个示例，视频平台106可以通过该示例利用超图神经网络来确定目标项目的点击率预测，从而在客户端设备102处提供目标项目。目标项目可以被识别为与用户相关，并且作为连续视频流的一部分提供给用户。

关于图2描述的许多元素(例如，关于项目提供引擎200描述的元素)是可以被实现为离散或分布式组件或与其他组件结合的功能实体，并且可以以任何合适的组合和位置来实现。本文描述的各种功能由一个或多个实体来执行并且可以由硬件、固件或软件来执行。例如，各种功能可以通过处理器执行存储器中存储的计算机可执行指令来执行。此外，关于图2描述的功能可以由客户端设备102或服务器104以任何组合来执行。

为了确定可以用于识别并提供项目的点击率预测，项目提供引擎200采用时间用户注意力识别器202、基于兴趣的用户超图生成器204、项目超图生成器206和预测引擎208。

如所指出的并且如将进一步描述的，项目提供引擎200可以使用超图来学习用户偏好以预测点击率概率。如将在整个本公开中使用的并且在整个讨论中引用的，U表示用户集，并且I表示在线视频平台中的p个项目的集合。项目模态和用户交互之间的交互可以被表示为超图其中，u∈U和i∈I分别表示用户集和项目集。超边ε(u，i₁，i₂，i₃，…，i_n)指示所观察到的用户u与多个项目(i₁，i₂，i₃，…，i_n)之间的交互，其中，超边通过W分配有权重，W可包括边权重的对角矩阵。还存在与每个项目相关联的多模态信息，例如视觉、听觉和文本特征。因此，M-{v，a，x}被表示为多模态元组，其中，v、a和x分别表示视觉、听觉、和文本模态。

用户组y与用户集C_y∈U相关联，该用户集可以用于表示N维组感知嵌入。对于每个用户u，用户的时间行为被表示为响应于当前时间的并且顺序观看用户行为被表示为根据时隙的/>和/>分别用于表示顺序行为中的项目集。

继续参考图2，时间用户注意力识别器202被配置为针对视频平台的用户识别与项目相关联的用户交互序列。如所指出的，用户可以利用视频平台以在客户端设备(例如，图1的客户端设备102)处接收并观看项目。用户可以通过执行多种不同交互(例如，点赞、评论、共享、编辑、点击、下载、关注等)中的任何一种来与项目(例如，视频)进行交互。随着时间的推移，用户对多于一个项目执行这些交互，从而提供用户已经与之交互的项目的交互序列。例如，随着时间的推移，用户可能观看许多项目并且仅与这些项目中的一些项目进行交互。用户交互序列可以包括用户已经与之交互的项目，并且排除用户尚未与之交互的项目。用户交互序列可以提供用户已经与之交互的项目的时间序列。即，可以基于每个项目的指示用户何时与该项目进行交互的时间戳，在时间上对用户交互序列中的项目进行排序。该模式示出了用户随时间的兴趣。

时间用户注意力识别器202可以被配置为识别时隙内的用户交互。时隙可以表示特定时间段，并且可以被定义为任何长度的时间。还可以基于时隙内发生的用户交互的数量来定义时隙。作为示例，每个时隙可以包括用户已经与之交互的特定数量的项目。例如，每个时隙可以包括十个项目的序列。将认识到，由于增加用户交互序列中的项目的数量会增加机器的处理需求，因此该数量可以被设置为任何数量，并且可以基于正在确定点击率的计算设备的计算能力来调整。换句话说，可以基于时间戳来截断用户交互序列，使得用户交互被包括在所定义的时隙内。顺序时隙可以捕获用户交互序列。即，第一时隙可以捕获第一用户交互序列，并且时间上在第一时隙之后的第二时隙可以捕获第二用户交互序列等。

用户交互可以根据以下方式来表示：令序列指示所观察到的在时隙t_n(例如，时隙308)期间发生的用户u和多个项目(i₁，i₂，i₃，...)之间的交互。然后，E_I＝[e₁，e₂，...]被表示为项目的静态潜在嵌入的集合，其表示用户在该时隙期间交互的项目集。当前序列中的每个项目与多模态特征相关联，这些多模态特征利用/>并且它包含有关视觉、听觉和文本方面(被分别表示为/>和/>)的三重信息。

现在还参考图3，该图示出了可以由项目提供引擎200使用的示例超图点击率预测模型300。时间用户注意力识别器202可以识别用户交互，并且可以访问模型300的嵌入层302和注意力层304。

如图3所示，使用嵌入层302，长期用户交互可以由用户在某个时隙t_n中已经交互的所有项目来表示。在用户嵌入映射阶段，为了描绘用户行为特征，使用用户的元数据和简档来定义每个用户u_j的嵌入矩阵E_U。此外，维护项目嵌入矩阵和多模态属性嵌入矩阵/>这两个矩阵将项目或多模态属性的高维单击(one-hot)表示投影为低维密集表示。给定l长度的时间粒度序列，应用时间感知时隙窗口来形成输入项目嵌入矩阵也从多模态属性嵌入矩阵M_A形成每个项目的嵌入矩阵/>其中，k是项目模态的数量。可以通过对三个嵌入矩阵/>进行求和来获得顺序序列表示/>

注意力层304采用顺序用户行为编码器来输出嵌入式顺序用户表示。在图3中，该嵌入式顺序用户表示的示例由顺序用户表示316示出。注意力层304可以是包括应用于时间序列预测的变换器的自注意力层。自注意力是用于捕获用户-项目交互序列306中的时间模式的基本模型。自注意力模块通常使用两个子层，即多头自注意力层和逐点前馈网络。多头自注意力机制可以用于有效地从不同表示子空间中选择性地提取信息。多头自注意力被定义为：

MultiHead(Q，K，V)＝Concat(head₁，...，head_h)W^O (1)

其中，投影是参数矩阵注意力函数通过缩放点积运算来实现：

其中，由于多头注意力模块主要建立在线性投影之上，(Q＝K＝V)＝E是输入嵌入矩阵的线性变换，并且是用于避免内积过大的比例因子。除了注意力子层之外，还应用了全连接的前馈网络，该前馈网络包含两个线性变换，其间应用了ReLU(修正线性单元)激活。

FFN(x)＝ReLU(0，xW₁+b₁)W₂+b₂ (4)

中，W₁、b₁，W₂，b₂是可训练的参数。

在每个时隙，用户和项目之间的相关性可以比成对关系更复杂，这难以通过图形结构来建模。另一方面，数据表示往往是多模态的，例如视觉、文本和社交联系。为了实现这一点，每个用户与具有各种模态属性的多个项目连接，而每个项目与多个用户相关。这自然符合用于数据建模的超图结构的假设。超边可以使用其无度超边对高阶数据相关性进行编码。被构建为在不同时隙内呈现用户-项目交互。然后，可以提取超边来构建项目超图和基于用户兴趣的超图/>以聚合来自所有邻域的高阶信息。将超边组进行级联以生成超图相邻矩阵H。将超图相邻矩阵H和节点特征输入到卷积神经网络(CNN)中，以获得节点输出表示。超边卷积层f(X，W，Θ)可以被构建如下：

其中，定义X、D_v、D_e，并且Θ是l层处的超图的信号，σ表示非线性激活函数。GNN(图形神经网络)模型基于超图上的谱卷积。

现在，可以合并用户顺序嵌入和组感知高阶信息两者，以便更富有表现力地表示该序列中的每个用户。融合层可以在t_n处生成用户u的表示。适用于本模型中使用的一个融合过程将输入表示转换为异构张量。这里使用用户顺序嵌入和组感知超图嵌入/>每个向量E利用等于1的常数值的附加特征进行增强，该附加特征被表示为E＝(E，1)^T。通过参数矩阵W将增强矩阵E投影到多维潜在向量空间，其被表示为W^TE_m。因此，用户和组级别之间的每个可能的多个特征交互通过外积/>来计算，被表示为：

里，表示外积，/>是来自用户和组级别的输入表示。它是一个双重异构用户方面张量/>其对所有可能的相互关系(即，用户项目顺序结果嵌入/>和组感知聚合特征/>)进行建模。

当针对项目确定用户的点击预测时，考虑顺序用户嵌入和项目嵌入两者。计算候选项目i的用户级概率分数y以清楚地示出函数f如何工作。对用户点击概率预测概率的最终估计被计算如下：

其中，e_u和e_i分别表示用户级嵌入和项目级嵌入。f是具有参数Θ的学习函数，并且被实现为具有三个层的多层深度网络，其宽度被分别表示为{D₁，D₂，...，D_N}。第一层和第二层使用ReLU作为激活函数，而最后一层使用sigmoid函数作为Sigmoid对于损失函数，可以利用交叉熵损失。它可以用公式表示为：

L(e_u，e_i)＝y logσ(f(e_u，e_i))+(1-y)log(1-σ(f(e_u，e_i))) (8)

其中，y∈{0，1}是指示用户是否点击微视频的事实，并且f表示多层深度网络。

基于兴趣的用户超图生成器204通常基于用户交互序列来生成基于兴趣的用户超图。可以针对用户组的用户生成基于兴趣的用户超图，例如基于兴趣的用户超图310所示的用户超图。基于兴趣的超图可以包括基于对视频平台的内容的共同用户内容兴趣的用户相关性。

从组级别方面来看，大多数项目与多于一个用户相关。这是因为用户组中的各种不同的用户可能已经与同一项目进行了交互。可以从用户交互历史中提取项目信息。使用所提取的项目信息(其可以包括项目、其模态、以及已经与项目进行交互的用户)，可以生成组感知超边。如图3所示，基于兴趣的超图中存在三个不同的区域。可以针对多个时隙生成基于兴趣的超图。在特定用户情况下，根据一系列顺序时隙中的每个时隙来生成基于兴趣的超图。

在基于兴趣的超图内，每个区域表示超边和由每个超边中的一个单模态特征连接的一组用户。这被称为基于兴趣的用户超边，并且任务是学习用户兴趣矩阵，从而导致构建这些超边。生成每个基于兴趣的用户超图以表示在当前时间与同一项目进行交互的一组用户，其中，用户总体上具有不同的倾向。由此，可以学习组感知信息以增强个体的表示。这里，存在推断每个用户的偏好以使预测更加准确的机会。

在生成基于兴趣的用户超图时，令表示与时隙t_n处的第i项目相关联的超图。基于具有多模态信息的整个用户-项目交互来构建。/>表示/>中的单个项目和相关项目的节点，/>被表示为超边集。因此，创建了指向与多个模态项目列表具有交互的用户的链接。每个/>与关联矩阵/>相关联，并且它还与矩阵/>(其可以是表示超边/>的权重的对角矩阵)相关联。

使用对用户兴趣矩阵的自监督学习。这里，L表示用户计数，并且d表示根据项目的多模态的数量。然后训练每种模态的权重{θ_a，θ_b，θ_c}。{α，β，γ}可以被定义为表示来自项目特征的每种模态的兴趣程度。阈值δ可以应用于度量哪种模态对用户-项目交互贡献最大。最大化用户u和项目多模态属性/>之间的互信息。

对于每个用户和项目，元数据和属性提供关于它们的细粒度信息。通过对用户多模态相关性进行建模来融合用户和多模态级别信息。以这种方式，将有用的多模态信息注入到用户组表示中。给定项目i和多模态属性嵌入矩阵用户、项目及其关联的属性被视为三个不同的视图并且被表示为/>和/>每个/>与嵌入矩阵相关联。可以通过对比学习框架来设计损失函数，该对比学习框架最大化三个视图之间的互信息。根据公式8，用户兴趣预测(UIP)损失可通过下式被最小化：

其中，对增强用户之间的关联的负面属性进行采样，项目和真实多模态属性“\”定义集合减法运算。函数f(·，·，·)可以利用简单的双线性网络来实现：

其中，是要学习的参数矩阵，并且σ(·)是sigmoid函数。定义单个用户的损失函数L_UIP，其可以扩展到用户集上。可以将每个用户的f(·)的结果构建为用户-兴趣矩阵F，并且将其与阈值δ进行比较，以输出L维向量/>

项目超图生成器206生成项目超图。可以针对在线视频平台的用户组的用户生成项目超图。在生成项目超图时，每个项目超图可以包括用户与用户已经与之交互的项目的多种项目模态之间的项目相关性。可以分层生成项目超图，使得每个层表示不同的模态。在一个特定方面，每个超边与一个用户相关联，并且每个用户与该用户已经与之交互的项目相关联。

为了给出示例，每种模态中存在超边，例如在视觉、听觉和文本模态的情况下存在三个超边。继续该示例，令/>表示每个用户组成员的一系列项目同构超图。/>基于每个/>来构建，并且描述了在时隙t_n中生成的用户与之交互的项目集。/>表示项目的节点，并且/>表示超边集，其正在创建指向与用户具有交互的项目的链接。

可以将顺序用户-项目交互转换为同构项目级超图集。从节点集I构建同构超图集如下：

其中并且ε_I，j表示/>中的超边。在该示例中，/>中的所有同构超图共享相同的节点集I。对于节点i∈I，/>的ε_I，j中引入的超边，其连接到/>即I中的在时间段T_n中通过/>直接连接到u的顶点。在用户-项目顺序交互网络中，用户u点击三个项目v，其对应于在同构超图/>中将这三个项目连接的超边。特殊的同构超图被定义为/>注意，所构建的超图中的超边集的基数可以被表示为：对于j≤k，|ε_I，j|≤|U|且|ε_I，group|≤k|U|。同构超图中的超边的总数通常与输入序列中的节点数量和边类型成比例：O(k(|I|+|V|))。这允许该转换容易扩展到大型输入。

预测引擎208通常使用项目超图和基于兴趣的超图来预测点击率。预测引擎208接收已经被馈送到超图神经网络的项目超图和基于兴趣的用户超图的输出。在由图3提供的图示中，将基于兴趣的用户超图310和项目超图312馈送到超图神经网络314中，该超图神经网络314的输出是组感知表示。以这种方式，预测引擎208可以生成组感知用户表示，其可以是组感知用户的嵌入式表示。

如所指出的，注意力层的输出是顺序用户表示。在由图3提供的示例中，注意力层304的输出是顺序用户表示316。预测引擎208可以经由融合层320将顺序用户表示和组感知用户表示进行融合，以输出第一嵌入式融合322。该融合表示用户组中的用户。

此外，预测引擎208可以接收目标项目嵌入，其是目标项目的嵌入式表示。预测引擎208还可以接收从超图神经网络314学习的同构项目-项目超图嵌入集。可以将目标项目嵌入和同构项目-项目超图嵌入集进行组合以形成组合嵌入，如图3所示的组合嵌入324。

预测引擎208向被配置为学习最终预测的多层感知器提供第一嵌入式融合和组合嵌入。

作为示例，给定目标用户意图序列S及其组感知超图和项目超图/>(这两者取决于时间顺序T)，点击率预测可以用公式表示为推荐项目i的函数/>其中，y表示用户在被呈现有目标项目时点击的概率。

预测引擎208可以确定多个项目的点击概率。可以选择多个项目中具有最大点击概率的项目，并且将其呈现给客户端设备处的用户。

参考图4和图5，提供了框图来示出用于确定点击率预测并基于该点击率预测来提供目标项目的方法。可以使用项目提供引擎200来执行该方法。在实施例中，一种或多种计算机存储介质具有存储其上的计算机可执行指令，该计算机可执行指令当由一个或多个处理器执行时，使一个或多个处理器执行方法400和500。

参考图4和图2，图4提供了用于确定目标项目的点击率概率的方法400。在框402处，识别用户交互序列。这可以使用时间用户注意力识别器202来完成。用户交互序列可以与在线平台内的用户的项目相关联。在特定实施例中，该项目是视频，并且该在线平台是在线视频平台。

在框404处，生成用户组的用户的项目超图。用户组可以包括框402的用户。项目超图可以包括用户和多种项目模态之间的项目相关性。项目模态可以是视觉、听觉和文本以及其他可能的模态。这些项目可以是用户已经与之交互的项目。可以使用项目超图生成器206来生成项目超图。

在某个方面，在框404处，可以生成基于兴趣的用户超图。可以使用基于兴趣的用户超图生成器204来生成基于兴趣的用户超图。可以针对用户组生成基于兴趣的用户超图。它们可以包括对视频平台的内容的共同用户内容兴趣的相关性。共同用户内容兴趣可以包括多个用户已经与之交互的项目或项目模态。

在框406处，提供在框404处生成的项目超图作为超图神经网络的输入。超图神经网络输出组感知用户。该输出可以包括组感知用户表示，例如组感知用户的嵌入式表示。可以使用预测引擎208来提供项目超图或基于兴趣的用户超图作为超图神经网络的输入。

在框406处，确定目标项目的点击概率。这可以基于用户交互序列(例如，顺序用户表示)和组感知用户(例如，组感知用户表示)针对用户来确定。可以使用预测引擎208来确定目标项目的点击率概率。可以基于该点击率将目标项目呈现给客户端设备处的用户。

在各方面，点击率概率可以根据多层感知器的输出来确定。多层感知器的输入可以包括第一嵌入式融合和组合嵌入。

为了获得用于确定点击概率的第一嵌入式融合，从用户交互序列生成嵌入式顺序用户表示，这可以在通过注意力层传递用户交互序列之后进行。还生成嵌入式组感知用户表示，并且该嵌入式组感知用户表示可以是来自超图神经网络的输出的组感知用户的嵌入式表示。经由融合层将嵌入式用户交互序列(例如，嵌入式用户表示和嵌入式组感知表示)进行融合，以提供第一嵌入式融合。

为了获得用于确定点击概率的组合嵌入，可以从目标项目生成目标项目嵌入，例如目标项目的嵌入式表示。从超图神经网络的输出生成项目-项目超图嵌入。将目标项目嵌入式表示和项目-项目超图嵌入进行组合以提供作为多层感知器的输入的组合嵌入。

现在转向图5和图2，图5示出了用于提供目标项目的示例方法500。在框502处，接收用户交互序列。可以从系统的输入设备(例如，客户端设备)接收用户交互序列。交互序列与用户与在线平台(包括视频平台)的交互相关联，并且可以与用户已经与之交互的项目相关联，其中，这些项目已经由视频平台提供并由系统接收。

在框504处，系统向视频平台提供用户交互序列。这使视频平台生成包括该用户的用户组的项目超图。由视频平台生成的项目超图可以包括用户与其在视频平台中已经与之交互的项目的项目模态之间的项目相关性。视频平台可以使用项目超图生成器206来生成项目超图。

当系统提供用户交互序列时，这也可以使视频平台生成用户组的用户的基于兴趣的用户超图。基于兴趣的用户超图可以包括基于对视频平台的内容的共同用户内容兴趣的用户相关性。在一些情况下，视频平台生成一系列基于兴趣的用户超图。可以基于在一系列时隙(包括顺序时隙)内排序的用户交互来生成该系列的基于兴趣的用户超图。视频平台可以使用项目超图生成器206来生成基于兴趣的用户超图。

在框506处，在客户端设备处从视频平台接收目标项目。视频平台可以使用预测引擎208来识别目标项目。视频平台可以基于由视频平台确定的点击率概率来识别目标项目。可以基于用户交互序列和组感知用户来确定点击率概率。响应于项目超图被提供作为输入，可以从超图神经网络输出组感知用户。

在各方面，目标项目的点击率概率由视频平台基于用户交互序列的嵌入式顺序用户表示和从超图神经网络输出的组感知用户的嵌入式组感知用户表示的第一嵌入式融合来确定。嵌入式顺序用户表示可以是注意力层的输出，而组感知用户表示可以是超图神经网络的输出。

还可以基于第一嵌入式融合和组合嵌入来确定点击率。组合嵌入可以是目标项目嵌入和从超图神经网络输出的项目-项目超图嵌入的组合。点击率概率可以由视频平台通过将第一嵌入式融合和组合嵌入输入到被配置为输出概率的多层感知器中来确定。这可以使用预测引擎208来完成。

示例

现有的点击率预测模型大多利用单模态数据集。相反，所描述的技术使用多种模态进行点击率预测。如所提到的，视频数据集包含丰富的多媒体信息，并且包括多种模态，例如视觉、听觉和文本模态。该示例使用以下三个公开可用的数据集来说明所描述的技术与其他常规技术之间的比较：Kuaishou、MV1.7M和MovieLens 10M，这些数据集总结在表1中。

表1

数据集	#项目	#用户	#交互	稀疏性	v.	a.	t.
								Kuaishou	3,239,534	10,000	13,661,383	99.98％	2048	-	128
MV1.7M	1,704,880	10,986	12,737,619	-	128	128	128
								Movielens	10,681	71,567	10,000,054	99.63％	2048	128	100

Kuaishou：该数据集由Kuaishou发布。用户和微视频之间存在多种交互。每个行为还与一个时间戳相关联，该时间戳记录该事件何时发生。已经将该时间戳处理为修改绝对时间，但相对于该时间戳保留连续时间顺序。

微视频1.7M：在该数据集中，交互类型包括“点击”和“取消点击”。每个微视频由其缩略图的128维视觉嵌入向量来表示。每个用户的历史交互以时间顺序进行排序。

MovieLens：从Movie-Lens 10M数据获得MovieLens数据集。已经假设：如果用户给电影四或五的评分，则用户与该电影进行了交互。使用经预训练的ResNet模型从自微视频中提取的关键帧获得视觉特征。对于听觉模态，利用FFmpeg6分离音轨，并且采用VGGish来学习听觉深度学习特征。对于文本模态，使用Sentence2Vector从微视频的描述中导出文本特征。

将能够从本公开构建的超图模型与来自顺序点击率预测和推荐两者的强大基线进行比较。比较方法是：(1)基于RNN(循环神经网络)的GRU4Rec。(2)THACIL是一种对用户的历史行为进行建模的个性化微视频推荐方法，其利用类别级和项目级注意力机制分别对多样化且细粒度的兴趣进行建模。它采用前向多头自注意力来捕获用户行为内的长期相关性。(3)DSTN学习每种类型的辅助数据与目标广告之间的交互，以强调更重要的隐藏信息，并且将异构数据融合在统一的框架中。(4)MIMN是一种新颖的基于记忆的多通道用户兴趣记忆网络，用于从长顺序行为数据中捕获用户兴趣。(5)ALPINE是一种个性化微视频推荐方法，其学习多样化且动态的兴趣、多级兴趣和真实负样本。它利用基于时间图的LSTM网络对来自点击序列的用户的动态且多样化的兴趣进行建模，并且从真实负样本捕获不感兴趣的信息。它引入了用于通过合并多种类型的交互来增强用户兴趣建模的用户矩阵。(6)AutoFIS自动选择重要的二阶特征交互和三阶特征交互。所提出的方法通常适用于许多分解模型，并且所选择的重要交互可以传输到其他深度学习模型中进行CTR预测。(7)UBR4CTR具有检索模块，并且它生成用于从整个用户行为档案中进行搜索的查询，以检索最有用的行为数据进行预测。然后，基于注意力的深度网络使用所检索的数据来做出最终预测。

使用两个广泛使用的指标来评估点击率预测性能。第一指标是RO C曲线下面积(AUC)，其反映点击样本和非点击样本之间的成对排名性能。另一指标是对数损失(例如，逻辑损失或交叉熵损失)。对数损失用于度量测试数据的整体可能性，并且已经被广泛用于分类任务。

表2：不同模型在Kuaishou、微视频1.7M和MovieLens数据集上的整体性能以百分位数来提供。

表2

表2示出了所有模型的AUC分数和对数损失值。当不同模态与超图模型一起使用时，当在MV1.7M和MovieLens(10M)中使用包含视觉、听觉和文本特征的相同模态集时，所有模型都显示出改进的性能。还注意：与最佳执行基线相比，已经显著改进超图模型的性能。三个数据集上的AUC分别被提高3.18％、7.43％和3.85％，并且对数损失分别被提高1.49％、4.51％和1.03％。此外，超图模型的改进表明：单模态特征未嵌入足够的时间信息，基线无法有效利用这些信息。如果基线方法尝试捕获的模式未将多模态特征包含在用户-项目交互序列中，则基线方法无法表现良好。

已经描述了本技术的实施例的概述，下面描述可以实现本技术的实施例的示例操作环境，以便为各个方面提供一般上下文。具体地，首先参考图6，用于实现本技术的实施例的示例操作环境被示出并且通常被指定为计算设备600。计算设备600仅是合适计算环境的一个示例，而并不意在暗示对技术的使用范围或功能的任何限制。也不应将计算设备600解释为具有与所示组件中的任何一个或组合相关的任何依赖性或要求。

可以在计算机代码或机器可用指令的一般上下文中描述本公开的技术，该机器可用指令包括由计算机或其他机器(例如，个人数据助理或其他手持设备)执行的计算机可执行指令(例如，程序模块)。通常，包括例程、程序、对象、组件、数据结构等的程序模块是指执行特定任务或实现特定抽象数据类型的代码。本技术可以在包括手持设备、消费电子产品、通用计算机、更专业的计算设备等的多种系统配置中实践。本技术也可以在分布式计算环境中实践，其中，由通过通信网络链接的远程处理设备执行任务。

参考图6，计算设备600包括将以下设备直接或间接耦接的总线610：存储器612、一个或多个处理器614、一个或多个呈现组件616、输入/输出端口618、输入/输出组件620和说明性电源622。总线610表示一条或多条总线(例如，地址总线、数据总线或其组合)。尽管为了清楚起见，图6的各个框都用线条表示，但实际上，描绘各种组件并不是那么清楚，并且隐喻地，线条将更准确地是灰色和模糊的。例如，可以将呈现组件(例如，显示设备)视为I/O组件。作为另一示例，处理器也可以具有存储器。这是本领域的本质，并且再次重申，图6的图仅示出了可以与本技术的一个或多个实施例结合使用的示例计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持设备”等这样的类别之间没有区别，因为所有这些类别都在图6的范围内并参考“计算设备”来考虑。

计算设备600通常包括各种计算机可读介质。计算机可读介质可以是可以由计算设备600访问的任何可用介质，并且包括易失性和非易失性介质、以及可移动和不可移动介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。

计算机存储介质包括以任何方法或技术实现的易失性和非易失性以及可移除和不可移除介质，用于存储信息，如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或可以用于存储期望信息并且可以由计算设备600存取的任何其他介质。计算机存储介质本身不包括信号。

通信介质通常以调制数据信号(诸如载波或其他传输机制)体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“调制数据信号”是指以对信号中的信息进行编码的方式设置或改变的信号，该信号具有一个或多个特征。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外线的无线介质、以及其他无线介质。以上任何项的组合也应当被包括在计算机可读介质的范围内。

存储器612包括易失性存储器或非易失性存储器形式的计算机存储介质。存储器可以是可移除的、不可移除的或其组合。示例硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等。计算设备600包括从诸如存储器612或I/O组件620的各种实体读取数据的一个或多个处理器。呈现组件616向用户或其他设备呈现数据指示。呈现组件的示例包括显示设备、扬声器、打印组件、振动组件等。

I/O端口618允许计算设备600在逻辑上与包括I/O组件620的其他设备耦接，其他设备中的一些可以内置。说明性组件包括麦克风、操纵杆、游戏手柄、卫星天线、扫描仪、打印机、无线设备等。

上述实施例可以与一个或多个具体描述的替代方案进行组合。具体地，要求保护的实施例可以在备选方案中包含对多于一个其他实施例的参考。要求保护的实施例可以指定所要求保护的主题的另外限制。

本文具体描述了本技术的主题以满足法定要求。然而，描述本身并非意在限制本公开的范围。相反，发明人已经设想，要求保护或公开的主题也可以以其他方式体现，以结合其他现有技术或未来技术包括不同的步骤或与本文档中描述的步骤类似的步骤的组合。此外，尽管在本文中可以使用术语“步骤”或“框”来表示所采用的方法的不同元素，但该术语不应被解释为暗示本文公开的各个步骤间或之间的任何特定顺序，除非并且除了明确描述了各个步骤的顺序。

出于本公开的目的，词语“包括”或“具有”与词语“包含”具有相同的广泛含义，并且词语“访问”包括“接收”、“引用”或“检索”。此外，词语“通信”与词语“接收”或“发送”具有相同的广义含义，该词语“接收”或“发送”由基于软件或硬件的总线、接收器或发送器使用通信介质促进。

此外，除非另有说明，否则诸如“一”、“一个”的词语包括复数以及单数。因此，例如，在存在一个或多个特征的情况下，满足“一个特征”的约束。此外，术语“或”包括合取词、析取词和两者(因此a或b包括a或b、以及a和b)。

出于以上详细讨论的目的，本技术的实施例参考分布式计算环境进行描述；然而，本文描述的分布式计算环境仅是一个示例。组件可以被配置用于执行实施例中的新颖方面，其中术语“被配置用于”或“被配置为”可以指“被编程为”执行特定任务或使用代码实现特定抽象数据类型。此外，虽然本技术的实施例通常可以参考分布式数据对象管理系统和所描述的示意图，但应当理解，所描述的技术可以扩展到其他实施上下文。

从前述内容可以看出，本技术非常适合实现上述所有目标和目的，包括该结构明显或固有的其他优点。应当理解，某些特征和子组合是有用的并且可以在不参考其他特征和子组合的情况下采用。这是由权利要求所设想的，并且在权利要求的范围内。由于可以在不脱离本范围的情况下做出所描述技术的许多可能的实施例，因此应当理解，本文描述的或附图所示的所有内容都应被解释为说明性的而不是限制性的。

可以从前述公开实施的技术的一些示例方面包括以下内容：

方面1：一种由一个或多个计算机处理器或者一种或多种计算机存储介质执行的方法，该一种或多种计算机存储介质存储计算机可读指令，该指令当由处理器执行时，使处理器执行用于视频平台内的点击预测的操作，该方法或操作包括：针对视频平台内的用户识别与项目相关联的用户交互序列；针对包括该用户的用户组的用户生成项目超图，该项目超图包括：用户与其在视频平台中已经与之交互的项目的多种项目模态之间的项目相关性；提供项目超图作为超图神经网络的输入，以输出组感知用户；以及基于用户交互序列和组感知用户来确定用户的目标项目的点击率概率。

方面2：根据方面1，其中，确定目标项目的点击率概率还包括：从用户交互序列生成嵌入式顺序用户表示；从超图神经网络输出的组感知用户来生成嵌入式组感知用户表示；以及将嵌入式用户交互序列表示和嵌入式组感知用户表示进行融合以生成第一嵌入式融合。

方面3：根据方面2，其中，确定目标项目的点击率概率还包括：生成目标项目的目标项目嵌入式表示；从超图神经网络的输出生成项目-项目超图嵌入；以及将目标项目嵌入式表示和项目-项目超图嵌入进行组合以生成组合嵌入，其中，第一嵌入式融合和所述组合嵌入被提供给多层感知器(MLP)，该MLP被配置为输出目标项目的点击率概率。

方面4：根据方面1至3中的任一方面，还包括：针对用户组的用户生成基于兴趣的用户超图，基于兴趣的用户超图包括基于对视频平台的内容的共同用户内容兴趣的用户相关性，其中，基于兴趣的用户超图被包括在超图神经网络的输入中。

方面5：根据方面1至4中的任一方面，还包括：识别时隙，该时隙中的每个时隙包括用户交互序列总数中包含该用户交互序列的一部分；以及生成包括用户组的基于兴趣的用户超图的一系列基于兴趣的用户超图，该系列基于兴趣的用户超图基于时隙来生成，其中，该系列基于兴趣的用户超图被包括在超图神经网络的输入内。

方面6：根据方面1至5中的任一方面，还包括基于点击率概率来提供目标项目以供视频平台显示。

方面7：根据方面1至6中的任一方面，其中，多种项目模态包括与项目相关联的文本、视觉和听觉信息。

方面8：一种用于视频平台内的点击预测的系统，该系统包括：至少一个处理器；以及一种或多种计算机存储介质，存储计算机可读指令，该计算机可读指令当由处理器执行时，使处理器执行的方法包括：从视频平台的用户接收与项目相关联的用户交互序列；向视频平台提供用户交互序列，其中，提供用户交互序列使视频平台生成包括该用户的用户组的项目超图，项目超图包括用户与视频平台中该用户已经与之交互的项目的项目模态之间的项目相关性；从所述视频平台接收目标项目，其中，所述目标项目由视频平台基于该用户的点击率概率来识别，所述点击率概率根据所述用户交互序列和组感知用户来确定，所述组感知用户由超图神经网络响应于被提供作为输入的项目超图而输出；以及经由系统的输出组件提供从视频平台接收到的目标项目。

方面9：根据方面8，其中，目标项目的点击率概率由视频平台基于用户交互序列的嵌入式顺序用户表示和从超图神经网络输出的组感知用户的嵌入式组感知用户表示的第一嵌入式融合来确定。

方面10：根据方面9，其中，目标项目的点击率概率还由视频平台基于目标项目的目标项目嵌入式表示和从超图神经网络输出的项目-项目超图嵌入的组合嵌入来确定。

方面11：根据方面10，其中，目标项目的点击率概率由视频平台使用多层感知器(MLP)来确定，该MLP被配置为根据第一嵌入式融合和组合嵌入的输入来输出点击率概率。

方面12：根据方面8至11中的任一方面，其中，向视频平台提供用户交互序列使视频平台针对用户组的该用户生成基于兴趣的用户超图，基于兴趣的用户超图包括基于对视频平台的内容的共同用户内容兴趣的用户相关性，其中，基于兴趣的用户超图被包括在超图神经网络的输入中。

方面13：根据方面8至12中的任一方面，其中，用户交互序列被包括在包括用户交互序列总数的一部分的时隙中，并且其中，包括基于兴趣的用户超图的一系列基于兴趣的用户超图由视频平台从时隙生成，该系列基于兴趣的用户超图被包括在超图神经网络的输入中。

Claims

1.一种或多种计算机存储介质，存储计算机可读指令，所述计算机可读指令当由处理器执行时，使所述处理器执行用于视频平台内的点击预测的操作，所述操作包括：针对视频平台内的用户识别与项目相关联的用户交互序列；针对包括所述用户的用户组的用户生成项目超图，所述项目超图包括：用户与其在所述视频平台中已经与之交互的项目的多种项目模态之间的项目相关性；提供所述项目超图作为超图神经网络的输入，以输出组感知用户；以及基于所述用户交互序列和所述组感知用户来确定所述用户对目标项目的点击率概率。

2.根据权利要求1所述的介质，其中，确定对所述目标项目的点击率概率还包括：从所述用户交互序列生成嵌入式顺序的用户表示；从所述超图神经网络输出的组感知用户生成嵌入式组感知用户表示；以及将嵌入式用户交互序列表示和所述嵌入式组感知用户表示进行融合以生成第一嵌入式融合。

3.根据权利要求2所述的介质，其中，确定对所述目标项目的点击率概率还包括：生成所述目标项目的目标项目嵌入式表示；从所述超图神经网络的输出生成项目-项目超图嵌入；以及将所述目标项目嵌入式表示和所述项目-项目超图嵌入进行组合以生成组合嵌入，其中，所述第一嵌入式融合和所述组合嵌入被提供给多层感知器MLP，所述多层感知器MLP被配置为输出对所述目标项目的点击率概率。

4.根据权利要求1所述的介质，还包括：针对所述用户组的用户生成基于兴趣的用户超图，所述基于兴趣的用户超图包括基于对所述视频平台的内容的共同用户内容兴趣的用户相关性，其中，所述基于兴趣的用户超图被包括在所述超图神经网络的输入中。

5.根据权利要求1所述的介质，还包括：识别时隙，所述时隙中的每个时隙包括用户交互序列总数中包含所述用户交互序列的一部分；以及生成包括针对所述用户组的基于兴趣的用户超图的一系列基于兴趣的用户超图，所述一系列基于兴趣的用户超图基于所述时隙来生成，其中，所述一系列基于兴趣的用户超图被包括在所述超图神经网络的输入内。

6.根据权利要求1所述的介质，还包括：基于所述点击率概率来提供目标项目以供所述视频平台显示。

7.根据权利要求1所述的介质，其中，所述多种项目模态包括与项目相关联的文本、视觉和听觉信息。

8.一种由一个或多个处理器执行的用于生成视频平台内的点击预测模型的计算机化方法，所述操作包括：针对视频平台内的用户识别与项目相关联的用户交互序列；针对包括所述用户的用户组的用户生成项目超图，所述项目超图包括：用户与其在所述视频平台中已经与之交互的项目的多种项目模态之间的项目相关性；提供所述项目超图作为超图神经网络的输入，以输出组感知用户；以及基于所述用户交互序列和所述组感知用户来确定所述用户对目标项目的点击率概率。

9.根据权利要求8所述的方法，其中，确定对所述目标项目的点击率概率还包括：从所述用户交互序列生成嵌入式顺序的用户表示；从所述超图神经网络输出的组感知用户生成嵌入式组感知用户表示；以及将嵌入式用户交互序列表示和所述嵌入式组感知用户表示进行融合以生成第一嵌入式融合。

10.根据权利要求9所述的方法，其中，确定对所述目标项目的点击率概率还包括：生成所述目标项目的目标项目嵌入式表示；从所述超图神经网络的输出生成项目-项目超图嵌入；以及将所述目标项目嵌入式表示和所述项目-项目超图嵌入进行组合以生成组合嵌入，其中，所述第一嵌入式融合和所述组合嵌入被提供给多层感知器MLP，所述多层感知器MLP被配置为输出对所述目标项目的点击率概率。

11.根据权利要求8所述的方法，还包括：针对所述用户组的用户生成基于兴趣的用户超图，所述基于兴趣的用户超图包括基于对所述视频平台的内容的共同用户内容兴趣的用户相关性，其中，所述基于兴趣的用户超图被包括在所述超图神经网络的输入中。

12.根据权利要求8所述的方法，还包括：识别时隙，所述时隙中的每个时隙包括用户交互序列总数中包含所述用户交互序列的一部分；以及生成包括针对所述用户组的基于兴趣的用户超图的一系列基于兴趣的用户超图，所述一系列基于兴趣的用户超图基于所述时隙来生成，其中，所述一系列基于兴趣的用户超图被包括在所述超图神经网络的输入内。

13.根据权利要求8所述的方法，还包括：基于所述点击率概率来提供目标项目以供所述视频平台显示。

14.根据权利要求8所述的方法，其中，所述多种项目模态包括与项目相关联的文本、视觉和听觉信息。

15.一种用于视频平台内的点击预测的系统，所述系统包括：至少一个处理器；以及一个或多个计算机存储介质，存储计算机可读指令，所述计算机可读指令当由处理器执行时，使所述处理器执行方法，所述方法包括：从视频平台的用户接收与项目相关联的用户交互序列；向所述视频平台提供所述用户交互序列，其中，提供所述用户交互序列使所述视频平台生成针对包括所述用户的用户组的项目超图，所述项目超图包括用户与其在所述视频平台中已经与之交互的项目的项目模态之间的项目相关性；从所述视频平台接收目标项目，其中，所述目标项目由所述视频平台基于所述用户的点击率概率来识别，所述点击率概率根据所述用户交互序列和组感知用户来确定，所述组感知用户是超图神经网络响应于被作为输入提供的项目超图而输出的；以及经由所述系统的输出组件提供从所述视频平台接收到的目标项目。

16.根据权利要求15所述的系统，其中，对所述目标项目的点击率概率由所述视频平台基于所述用户交互序列的嵌入式顺序的用户表示和来自所述超图神经网络输出的所述组感知用户的嵌入式组感知用户表示的第一嵌入式融合来确定。

17.根据权利要求16所述的系统，其中，对所述目标项目的点击率概率还由所述视频平台基于所述目标项目的目标项目嵌入式表示和从所述超图神经网络输出的项目-项目超图嵌入的组合嵌入来确定。

18.根据权利要求17所述的系统，其中，对所述目标项目的点击率概率由所述视频平台使用多层感知器MLP来确定，所述多层感知器MLP被配置为根据输入的所述第一嵌入式融合和所述组合嵌入来输出所述点击率概率。

19.根据权利要求15所述的系统，其中，向所述视频平台提供所述用户交互序列使所述视频平台针对所述用户组的用户生成基于兴趣的用户超图，所述基于兴趣的用户超图包括基于对所述视频平台的内容的共同用户内容兴趣的用户相关性，其中，所述基于兴趣的用户超图被包括在所述超图神经网络的输入中。

20.根据权利要求15所述的系统，其中，所述用户交互序列被包括在包括用户交互序列总数的一部分的时隙中，并且其中，包括所述基于兴趣的用户超图的一系列基于兴趣的用户超图由所述视频平台基于时隙生成，所述一系列基于兴趣的用户超图被包括在所述超图神经网络的输入内。