CN112035740A

CN112035740A - 项目使用时长预测方法、装置、设备及存储介质

Info

Publication number: CN112035740A
Application number: CN202010838812.9A
Authority: CN
Inventors: 胡星; 李建扣
Original assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Current assignee: Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date: 2020-08-19
Filing date: 2020-08-19
Publication date: 2020-12-04
Anticipated expiration: 2040-08-19
Also published as: CN112035740B

Abstract

本发明实施例公开了项目使用时长预测方法、装置、设备及存储介质。其中，该方法基于神经网络模型实现，包括：根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，项目标签用于表征项目的类别，根据各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，其中，项目属性信息中以项目标签信息标识项目身份，对用户侧向量和项目侧向量进行拼接，得到待预测信息，经过预设神经网络层对所述待预测信息进行处理，得到待预测目标对应的预测使用时长。本发明实施例提供的技术方案，可以提高使用时长的预测效果。

Description

项目使用时长预测方法、装置、设备及存储介质

技术领域

本发明实施例涉及计算机技术领域，尤其涉及项目使用时长预测方法、装置、设备及存储介质。

背景技术

现代社会，随着信息技术的快速发展，移动互联网的普及，信息过载已越来越成为人们生活中的挑战。推荐系统的出现，通过学习用户的历史行为，预测用户对其他内容的喜好程度，一方面方便了用户快速获取自己喜好的内容，同时满足了平台选择合适的用户展现自己的物品或资源等(可统称为项目)，极大地缓解了用户与平台中间沟通的难题，促进了平台与用户的交互性。

当前主流的推荐系统可分为多个阶段，如召回、粗排、精排和重排等。在各个阶段中，均涉及筛选或排序问题，用户针对项目的使用时长是筛选或排序过程中的重要依据，也即，使用时长是推荐系统中的一个重要指标，可以反映出用户对项目的偏好程度和产品体验，同时一般与用户的留存、优质项目数量以及项目展现次数等指标正相关，因此，准确地对使用时长进行预测非常重要。

目前，针对使用时长的预测方案中，通常仅将项目属性信息和用户交互信息简单的加在一起，作为预测下一项目的使用时长的依据，预测结果不够准确，且项目属性信息中一般采用项目标识(Identity document，ID)等来标识项目身份，导致向量数据稀疏、线上存储和检索带来严重计算开销，因此，现有的时长预测方案需要改进。

发明内容

本发明实施例提供了项目使用时长预测方法、装置、设备及存储介质，可以优化现有的项目使用时长预测方案。

第一方面，本发明实施例提供了一种项目使用时长预测方法，基于神经网络模型实现，该方法包括：

根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，所述用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，所述历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，所述项目标签用于表征项目的类别；

根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，其中，所述项目属性信息中以项目标签信息标识项目身份；

对所述用户侧向量和所述项目侧向量进行拼接，得到待预测信息；

经过预设神经网络层对所述待预测信息进行处理，得到所述待预测目标对应的预测使用时长。

第二方面，本发明实施例提供了一种项目使用时长预测装置，基于神经网络模型实现，所述装置包括：

用户侧向量构建模块，用于根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，所述用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，所述历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，所述项目标签用于表征项目的类别；

项目侧向量构建模块，用于根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，其中，所述项目属性信息中以项目标签信息标识项目身份；

向量拼接模块，用于对所述用户侧向量和所述项目侧向量进行拼接，得到待预测信息；

使用时长预测模块，用于经过预设神经网络层对所述待预测信息进行处理，得到所述待预测目标对应的预测使用时长。

第三方面，本发明实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如本发明实施例提供的项目使用时长预测方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例提供的项目使用时长预测方法。

本发明实施例中提供的项目使用时长预测方案，利用神经网络模型根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，项目标签用于表征项目的类别，根据各历史项目对应的使用时长和项目属性信息以及待预测项目对应的项目属性信息构建项目侧向量，其中，项目属性信息中以项目标签信息标识项目身份，对用户侧向量和项目侧向量进行拼接，得到待预测信息，经过预设神经网络层对待预测信息进行处理，得到待预测目标对应的预测使用时长。通过采用上述技术方案，将用户兴趣画像引入到用户侧的向量建模中，增强了用户侧向量的表示能力，用于生成用户兴趣画像的历史行为数据所属的历史项目与构建项目侧向量依据的历史项目相同，保证用户兴趣画像信息是动态变化的，能够更加准确地表示用户近期的兴趣变化动态，且用户兴趣画像信息对应的项目标签与项目属性信息中的项目标签信息一致，对于项目使用时长的预测增加了可解释性，且项目侧向量的构建基于项目标签进行，多个不同项目标识的项目可能对应同一个项目标签，相比于现有技术中基于项目编号构建的方案来说，解决了向量数据稀疏、线上存储和检索带来严重计算开销等问题，将用户侧向量和项目侧向量拼接后形成待预测信息，可以表征用户侧信息对项目侧信息的增强，提高待预测信息的表达能力，经过预设神经网络层处理后，能够准确预测使用时长。

附图说明

图1为本发明实施例提供的一种项目使用时长预测方法的流程示意图；

图2为本发明实施例提供的又一种项目使用时长预测方法的流程示意图；

图3为本发明实施例提供的另一种项目使用时长预测方法的流程示意图；

图4为本发明实施例提供的一种神经网络模型示意图；

图5为本发明实施例提供的一种多头注意力编码方式示意图；

图6为本发明实施例提供的一种项目使用时长预测装置的结构框图；

图7为本发明实施例提供的一种计算机设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。此外，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

图1为本发明实施例提供的一种项目使用时长预测方法的流程示意图，该方法基于神经网络模型实现，可以由项目使用时长预测装置执行，其中该装置可由软件和/或硬件实现，一般可集成在计算机设备中。如图1所示，该方法包括：

步骤101、根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，所述用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，所述历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，所述项目标签用于表征项目的类别。

示例性的，本发明实施例中的项目可以包括在互联网(可体现为各种平台)上发布的物品(如在线商城中的商品或二手交易网站上的物品等等)或资源(如短视频平台中的短视频、推荐引擎中的新闻、音乐播放平台中的音乐以及在线答题应用程序中的题目等等)，具体类型不做限定。对于不同类型的项目，其对应的使用时长可以有不同的表述方式。以商品为例，使用时长可以是用户浏览商品页面的浏览时长；以视频为例，使用时长可以是用户观看视频的观看时长；以音乐为例，使用时长可以是用户收听音乐的收听时长；以题目为例，使用时长可以是用户作答题目的作答时长等等。

一般的，用户可通过平台对应的客户端浏览平台推荐的项目，平台对应的后端服务器等可以根据用户的特点有针对性的进行项目推荐。推荐的时机可根据平台的实际情况进行设计，如用户打开平台时、用户刷新页面时、或用户切换页面时等等，又如还可以是定时推荐(如20秒推荐一次)等。本发明实施例提供的项目使用时长预测方案可应用于推荐系统中的任意阶段，如召回阶段、粗排阶段、精排阶段或重排阶段等，将预测出来的使用时长作为筛选或排序等操作中的重要依据。由于召回阶段处理项目数据多，要求计算速度快，应用于召回阶段时技术效果更加明显。

示例性的，预设历史时段可以是当前时刻起向前追溯预设时长的历史时段，预设时长可根据实际需求设置，一般可设置得长一些，例如可以是三个月，保证历史数据的多样性，从而提高模型预测准确度。需要说明的是，若用户刚开始使用平台不久，可能无法达到预设时长，则此时的预设时长可以是用户开始使用平台的时间到当前时刻的时间间隔长度。

示例性的，用户在预设历史时段内可以根据自己的意愿自由选择平台提供的项目进行使用，预设历史时间段内被用户使用过的项目被称为历史项目。平台提供的项目均配置有对应的项目标签，项目标签用于表征项目的类别。项目标签的来源可以是平台自动添加的，可称为tag，例如，当项目发布者发布一个项目时，平台可以利用模型等手段自动识别该项目的类别，并为其添加与该类别对应的标签，具体的，以短视频为例，拍客上传一段包含宠物猫的短视频，平台可自动识别出其中包含宠物猫，可以为其添加“动物”或“猫”等标签；项目标签的来源也可以是项目发布者自行添加的，可称为hashtag(哈希标签)，例如，项目发布者在发布一个项目时，可以根据自己的理解为自己发布的项目分类，将其自己认为的类别作为项目标签一同发布，具体的，仍以短视频为例，拍客上传一段包含宠物猫的短视频，拍客认为该短视频为宠物类，可以为其添加“宠物”或“宠物猫”等标签。可以理解的是，上述两种标签可以同时存在，对于一个项目来说，tag和hashtag可以相同，也可以不同。

示例性的，用户在使用各历史项目的过程中，客户端可以记录用户的使用痕迹。例如，将用户使用过的项目进行记录，形成使用历史数据，也即使用历史数据中可以包括历史使用项目(可以用项目编号或项目ID表示)，还可以包括历史使用项目对应的项目标签；又如，将用户使用历史项目过程中的交互行为进行记录，形成交互行为数据，交互行为例如可包括点赞、评论、关注、收藏以及分享等。

示例性的，历史行为数据中可以包含使用历史数据和交互行为数据。而使用历史数据和交互行为数据可以反映出用户对不同项目的感兴趣程度，可以根据历史行为数据确定用户针对不同项目标签的感兴趣程度信息，进而得到用户兴趣画像信息，感兴趣程度信息的具体确定方式不做限定。例如，可以先根据使用历史数据确定各历史项目对应的项目标签，也即历史行为数据中具体涉及哪些项目标签，然后将各历史项目映射到项目标签上，针对每个项目标签，遍历当前项目标签下的历史项目对应的交互行为数据，采用预设算法计算当前项目标签对应的感兴趣程度信息。在得到各项目标签对应的感兴趣程度信息之后，可以对感兴趣程度信息进行汇总，进而得到用户兴趣画像信息，汇总方式不做限定。

示例性的，用户属性信息可包括用户身份信息，例如用户的账号、用户ID、或昵称等，还可包括用户其他属性信息，如年龄、性别、用户等级、归属国家、所在城市、所处地区和职业等。

示例性的，用户侧向量可以理解为用于表征用户侧特征的向量，可以根据用户兴趣画像信息和用户属性信息共同构建用户侧向量，构建方式不做限定。例如，神经网络模型中可以包含第一嵌入(embedding)层，将用户兴趣画像信息和用户属性信息组合成索引，经过第一embedding层编码成第一预设维度的向量，作为用户侧向量。当然，还可以有其他构建方式，具体可以由神经网络模型中的内部网络结构决定。在神经网络模型的训练阶段，用于构建用户侧向量的网络层可以得到训练，从而更加合理地根据用户兴趣画像信息和用户属性信息构建用户侧向量。

步骤102、根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，其中，所述项目属性信息中以项目标签信息标识项目身份。

示例性的，项目侧向量可以理解为用于表征项目侧特征的向量，可以根据各历史项目对应的使用时长和项目属性信息、以及待预测项目对应的项目属性信息，共同构建项目侧向量，构建方式不做限定。

现有技术中，采用项目ID等来标识项目身份，对于一个项目来说，其项目ID是唯一的，也即不同项目的项目ID也不同，而历史项目的数量通常是很庞大的，比如召回阶段的数目通常是千万级别的，因此会导致向量数据稀疏，模型参数维度和线上项目侧向量存储大小均与项目数量正相关，导致检索和存储风险增大，会带来严重的计算开销。而本申请中，在构建项目侧向量时，可以采用项目对应的项目标签来标识项目身份，能够有效解决上述问题，也即降低向量稀疏程度、降低模型参数维度、减少线上项目侧向量存储大小、以及降低检索和存储带来的计算开销。

步骤103、对所述用户侧向量和所述项目侧向量进行拼接，得到待预测信息。

将用户侧向量和项目侧向量进行拼接后，可以得到待预测信息，待预测信息可以表征用户侧信息对项目侧信息的增强，提高待预测信息的表达能力。

示例性的，可以利用神经网络模型中的拼接(concat)层对用户侧向量和项目侧向量进行拼接，拼接后，还可进行一次或多次特征提取等操作来得到最终的待预测信息。

步骤104、经过预设神经网络层对所述待预测信息进行处理，得到所述待预测目标对应的预测使用时长。

示例性的，预设神经网络层的具体类型和层数可以根据实际需求进行设置，例如可以是两层的多层感知器(Multi-Layer Perceptron，MLP)，具体可以是两层全连接层。待预测信息输入至预设神经网络层后，根据预设神经网络层的输出结果可以得出待预测目标对应的预测使用时长。

本发明实施例中提供的项目使用时长预测方法，利用神经网络模型根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，项目标签用于表征项目的类别，根据各历史项目对应的使用时长和项目属性信息以及待预测项目对应的项目属性信息构建项目侧向量，其中，项目属性信息中以项目标签信息标识项目身份，对用户侧向量和项目侧向量进行拼接，得到待预测信息，经过预设神经网络层对待预测信息进行处理，得到待预测目标对应的预测使用时长。通过采用上述技术方案，将用户兴趣画像引入到用户侧的向量建模中，增强了用户侧向量的表示能力，用于生成用户兴趣画像的历史行为数据所属的历史项目与构建项目侧向量依据的历史项目相同，保证用户兴趣画像信息是动态变化的，能够更加准确地表示用户近期的兴趣变化动态，且用户兴趣画像信息对应的项目标签与项目属性信息中的项目标签信息一致，对于项目使用时长的预测增加了可解释性，且项目侧向量的构建基于项目标签进行，多个不同项目标识的项目可能对应同一个项目标签，相比于现有技术中基于项目编号构建的方案来说，解决了向量数据稀疏、线上存储和检索带来严重计算开销等问题，将用户侧向量和项目侧向量拼接后形成待预测信息，可以表征用户侧信息对项目侧信息的增强，提高待预测信息的表达能力，经过预设神经网络层处理后，能够准确预测使用时长。

在一些实施例中，在根据用户兴趣画像和用户属性信息构建用户侧向量之前，还可包括：根据所述使用历史数据确定所述各历史项目对应的项目标签；针对每个项目标签，基于贝叶斯方法根据所述交互行为数据计算用户针对当前项目标签的贝叶斯分数，将所述贝叶斯分数作为所述感兴趣程度信息；将各项目标签对应的感兴趣程度信息相加，得到用户兴趣画像信息。这样设置的好处在于，可以合理地计算用户针对各项目标签的感兴趣程度信息，得到更加精准的用户兴趣画像信息。需要说明的是，上述步骤可以由独立于神经网络模型之外的计算机程序或代码完成，在得到用户兴趣画像信息后，将用户兴趣画像信息作为神经网络模型的输入信息。

在一些实施例中，根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，包括：对于所述各历史项目中的每个历史项目，基于当前历史项目对应的使用时长和所述预设历史时段对应的使用时长统计信息确定用户对于所述当前历史项目的时长维度评分，并根据所述时长维度评分和所述当前历史项目对应的项目属性信息确定所述当前历史项目对应的项目信息；根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量。这样设置的好处在于，使用时长是用户与项目进行交互的重要交互信息，针对每个历史项目来说，不单单考虑该历史项目对应的使用时长，还考虑了该使用时长与所有历史项目对应的使用时长的统计信息之间的关系，更加合理地确定当前历史项目在使用时长这一维度的评分。其中，使用时长统计信息例如可包括平均使用时长、最大使用时长、最小使用时长、使用时长中间数以及使用时长均方差等等。需要说明的是，时长维度评分的计算步骤可以由独立于神经网络模型之外的计算机程序或代码完成，在得到时长维度评分后，将时长维度评分作为神经网络模型的输入信息。

在一些实施例中，所述使用时长统计信息包括平均使用时长。所述基于当前历史项目对应的使用时长和所述预设历史时段对应的使用时长统计信息确定用户对于所述当前历史项目的时长维度评分，包括：基于当前历史项目对应的使用时长和所述预设历史时段对应的平均使用时长的差值确定用户对于所述当前历史项目的时长维度评分；所述根据所述时长维度评分和所述当前历史项目对应的项目属性信息确定所述当前历史项目对应的项目信息，包括：根据所述时长维度评分和所述当前历史项目对应的项目属性信息的乘积确定所述当前历史项目对应的项目信息。这样设置的好处在于，若当前历史项目的使用时长小于平均使用时长，则差值为负数，可以表明用户对当前历史项目的好感偏低，若当前历史项目的使用时长大于平均使用时长，则差值为正数，可以表明用户对当前历史项目的好感偏高，若当前历史项目的使用时长小于平均使用时长，则差值为0，可以表明用户对当前历史项目的好感属于中间水平，因此，根据差值确定时长维度评分后，再与当前历史项目对应的项目属性信息相乘，可以对项目属性信息中的数值进行降低或升高调节，得到的项目信息能够有效的表示用户对历史项目的偏好程度。

在一些实施例中，所述使用时长统计信息还包括使用时长均方差；所述基于当前历史项目对应的使用时长和所述预设历史时段对应的平均使用时长的差值确定用户对于所述当前历史项目的时长维度评分，包括：采用预设标准化算法基于当前历史项目对应的使用时长和所述预设历史时段对应的平均使用时长和使用时长均方差确定用户对于所述当前历史项目的时长维度评分，其中，所述时长维度评分的取值范围为-1到1之间。这样设置的好处在于，将时长维度评分进行标准化，使其取值范围处于-1到1之间，可以降低计算项目信息时的计算量。其中，预设标准化算法例如可以是Z_score变换算法。

在一些实施例中，所述项目属性信息中还包含使用位置信息、项目来源信息和项目封面信息中的至少一种。这样设置的好处在于，可以增强向量表示的信息。其中，项目来源信息可以与项目标签信息拼接，项目封面信息也可以与项目标签信息拼接，而使用位置信息可以与项目标签信息相加、或者与项目标签信息、项目来源信息和项目封面信息中任意两者或三者的拼接结果相加，得到最终的项目属性信息。

示例性的，项目来源信息可以包括项目发布者相关信息，如项目发布者的名称、性别、年龄、归属国家、所在城市、所处地区、职业以及专注领域等。

示例性的，项目封面例如可包括项目展示时的缩略图。以短视频为例，项目封面具体可以是短视频的封面图片，封面图片一般为短视频中有代表性的视频截图。项目封面信息例如可包括从封面图片中提取的图像特征信息，具体提取方式不做限定。

示例性的，历史项目对应的使用位置信息可以根据当前历史项目在各历史项目使用顺序序列中的所在位置得出。用户对历史项目的使用前后顺序能够有效的表示用户的兴趣变化过程，因此，可将使用位置信息加入到项目属性信息中，丰富项目侧向量的表示信息。对于待预测项目来说，其所在位置为最后一个历史项目之后。

在一些实施例中，在所述根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量之前，还包括：对于所述各历史项目和待预测项目中的每个项目，采用正余弦位置编码方式计算当前项目对应的使用位置信息，根据所述当前项目对应的项目标签信息和使用位置信息的和确定对应的项目属性信息。这样设置的好处在于，创新性地将应用于文本中字符位置计算的编码方式应用到本发明实施例中计算项目位置的应用场景中，能够简单有效地将使用位置信息编码为与待做和向量(如项目标签信息)维度相同的向量，便于两者做和，相比于线性插值等方式来说，不存在样本外点的问题，比如在固定线性插值时，如果遇到比训练集中序列长度长的情况，就要额外增加新的位置权重，但是对于正余弦函数而言，无论序列长度怎么变化，它的取值范围始终是-1到1之间，因此，可有效避免样本外点。需要说明的是，使用位置信息的计算步骤可以由独立于神经网络模型之外的计算机程序或代码完成，在得到使用位置信息后，将使用位置信息作为神经网络模型的输入信息。

在一些实施例中，所述根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量，包括：采用多头注意力模型根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量。这样设置的好处在于，多头注意力(Multi-head Attention)能够有效地捕捉到待预测项目与各历史项目的相关性，也即能够捕捉到待预测项目与用户历史兴趣的相关性，进而得到更加准确合理的项目侧向量。

在一些实施例中，采用多头注意力模型根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量，包括：基于多头注意力模型对应的注意力函数分别计算各历史项目对应的加权项目信息，其中，所述加权项目信息中包含历史项目与待预测项目的相关性信息；根据各历史项目对应的加权项目信息的和构建项目侧向量。这样设置的好处在于，将历史项目与待预测项目的关联信息作为权重，得到历史项目对应的加权项目信息，可以有效地将用户的历史兴趣和待预测项目融合在一起，提高模型的预测效果。

需要说明的是，本发明实施例中在神经网络模型的应用阶段角度进行描述，神经网络模型的训练阶段中神经网络模型所进行的操作类似，可采用大量用户对应的训练样本数据对神经网络模型进行训练，以对神经网络模型中的网络结果或权重参数等进行优化，得到最终的用于进行使用时长预测的神经网络模型，具体细节不再赘述。

图2为本发明实施例提供的又一种项目使用时长预测方法的流程示意图，如图2所示，该方法可包括：

步骤201、根据使用历史数据确定各历史项目对应的项目标签。

其中，使用历史数据包含于历史行为数据中，历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，项目标签用于表征项目的类别，具体可包括tag和/或hashtag。

步骤202、针对每个项目标签，基于贝叶斯方法根据交互行为数据计算用户针对当前项目标签的贝叶斯分数，将贝叶斯分数作为感兴趣程度信息。

步骤203、将各项目标签对应的感兴趣程度信息相加，得到用户兴趣画像信息。

示例性的，用户兴趣画像信息可以采用如下表达式表示：

其中，A_t表示用户的历史行为数据中涉及到的项目标签；S_i表示第i个项目标签的贝叶斯分数，也即感兴趣程度信息。每个项目标签可以采用独热编码(one-Hot)向量形式表示。

步骤204、对于各历史项目和待预测项目中的每个项目，采用正余弦位置编码方式计算当前项目对应的使用位置信息。

示例性的，可利用如下公式采用正余弦位置编码方式计算当前项目对应的使用位置信息：

其中，pos表示的按使用时间的先后进行排序后项目所处的位置；i表示模型向量第i维度；d_model为模型的向量维度。

例如，若项目标签信息和项目来源信息拼接后对应的向量长度为256，也即是256维度的向量，则由于使用位置信息需要与项目标签信息和项目来源信息拼接后的向量相加，因此，d_model的取值为256。

步骤205、对于各历史项目中的每个历史项目，采用预设标准化算法基于当前历史项目对应的使用时长、预设历史时段对应的平均使用时长和使用时长均方差确定用户对于当前历史项目的时长维度评分。

示例性的，预设标准化算法例如可以是Z_score变换算法，具体变换形式如下：

其中，T_ij表示用户j对项目i的使用时长；

表示使用时长经过Z_score变换后的形式，也即时长维度评分；μ表示用户j的平均使用时长；σ表示用户j的使用时长均方差；(T_ij-μ)表示使用时长偏离平均使用时长的程度。

步骤206、将用户兴趣画像信息，用户属性信息，各历史项目对应的时长维度评分、使用位置信息、项目来源信息和项目标签信息，及待预测项目对应的使用位置信息、项目来源信息和项目标签信息，输入至神经网络模型。

步骤207、通过神经网络模型根据用户兴趣画像信息和用户属性信息构建用户侧向量。

步骤208、通过神经网络模型根据各历史项目对应的项目标签信息、项目来源信息以及使用位置信息确定对应的项目属性信息，根据待预测项目对应的项目标签信息、项目来源信息以及使用位置信息确定对应的项目属性信息。

其中，可将使用位置信息与项目标签信息和项目来源信息两者的拼接向量的和作为项目属性信息。

步骤209、通过神经网络模型根据各历史项目对应的时长维度评分和项目属性信息的乘积确定历史项目对应的项目信息。

步骤210、通过神经网络模型采用多头注意力模型根据各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量。

示例性的，本步骤可具体包括：

(1)基于下述公式分别计算各历史项目对应的加权项目信息：

其中，Attention表示注意力，Attention(Q,K,V)表示加权项目信息，softmax表示归一化指数函数，Q表示待预测项目对应的项目属性信息，K和V表示历史项目对应的项目信息，

表示缩放因子，QK^T表示历史项目与待预测项目的相关性信息。

示例性的，可针对每个历史项目分别采用上述公式计算对应的加权项目信息，

可视为当前历史项目对应的权重信息，因此，将Attention(Q,K,V)称为加权项目信息。

(2)根据各历史项目对应的加权项目信息的和构建项目侧向量。

步骤211、通过神经网络模型对用户侧向量和项目侧向量进行拼接，得到待预测信息。

步骤212、经过预设神经网络层对待预测信息进行处理，得到待预测目标对应的预测使用时长。

本发明实施例提供的项目使用时长预测方法，将用户兴趣画像引入到用户侧的向量建模中，增强了用户侧向量的表示能力，用于生成用户兴趣画像的历史行为数据所属的历史项目与构建项目侧向量依据的历史项目相同，保证用户兴趣画像信息是动态变化的，能够更加准确地表示用户近期的兴趣变化动态，且用户兴趣画像信息对应的项目标签与项目属性信息中的项目标签信息一致，对于项目使用时长的预测增加了可解释性，且项目侧向量的构建基于项目标签进行，多个不同项目标识的项目可能对应同一个项目标签，相比于现有技术中基于项目编号构建的方案来说，解决了向量数据稀疏、线上存储和检索带来严重计算开销等问题，在构建项目侧向量时，采用正余弦位置编码方式计算使用位置信息，根据项目标签信息、项目来源信息以及使用位置信息共同确定项目属性信息，丰富向量表示能力，并采用预设标准化算法计算时长维度评分，将时长维度评分与项目属性信息的乘积确定为项目信息，基于乘的方式能够有效地在视频向量上体现用户的偏好程度，另外还基于Multi-head Attention方式进行项目侧向量的构建，能够有效地将用户的历史兴趣和当前的项目融合在一起，从而提高模型的预测效果。

图3为本发明实施例提供的另一种项目使用时长预测方法的流程示意图，图4为本发明实施例提供的一种神经网络模型示意图，以项目为视频、使用时长为观看时长为例进行说明。

如图3所示，该方法可包括：

步骤301、根据观看历史数据确定各历史视频对应的视频标签。

其中，观看历史数据包含于历史行为数据中，历史行为数据包括用户在预设历史时段内观看各历史视频过程中产生的观看历史数据和交互行为数据，视频标签用于表征视频的类别，具体可包括tag和/或hashtag。其中，tag可以是平台自动为视频添加的标签，hashtag可以是视频拍客自行添加的标签。

步骤302、针对每个视频标签，基于贝叶斯方法根据交互行为数据计算用户针对当前视频标签的贝叶斯分数，将贝叶斯分数作为感兴趣程度信息。

步骤303、将各视频标签对应的感兴趣程度信息相加，得到用户兴趣画像信息。

示例性的，用户兴趣画像信息可以采用如下表达式表示：

其中，A_t表示用户的历史行为数据中涉及到的视频标签；S_i表示第i个视频标签的贝叶斯分数，也即感兴趣程度信息。每个视频标签可以采用one-Hot向量形式表示。

步骤304、对于各历史视频和待预测视频中的每个视频，采用正余弦位置编码方式计算当前视频对应的观看位置信息。

示例性的，可利用如下公式采用正余弦位置编码方式计算当前视频对应的观看位置信息：

其中，pos表示的按观看时间的先后进行排序后视频所处的位置；i表示模型向量第i维度；d_model为模型的向量维度。例如，若视频标签信息和视频生产者信息拼接后对应的向量长度为256，也即是256维度的向量，则d_model的取值为256。观看位置信息对应的位置向量可记为P，如图4中的p₁，p₂…p_T。

步骤305、对于各历史视频中的每个历史视频，采用预设标准化算法基于当前历史视频对应的观看时长、预设历史时段对应的平均观看时长和观看时长均方差确定用户对于当前历史视频的时长维度评分。

其中，T_ij表示用户j对视频i的观看时长；

表示观看时长经过Z_score变换后的形式，也即时长维度评分；μ表示用户j的平均观看时长；σ表示用户j的观看时长均方差。(T_ij-μ)表示观看时长偏离平均观看时长的程度。

步骤306、将用户兴趣画像信息，用户属性信息，各历史视频对应的时长维度评分、使用位置信息、视频生产者信息和视频标签信息，以及待预测视频对应的使用位置信息、视频生产者信息和视频标签信息，输入至神经网络模型。

示例性的，视频生产者信息如图4中的n₁，n₂…n_T，视频标签信息如图4中的c₁，c₂…c_T。其中，e₁，e₂…e_T可用于表示原始的视频信息，根据原始的视频信息提取出视频生产者信息和视频标签信息。

步骤307、通过神经网络模型根据用户兴趣画像信息和用户属性信息构建用户侧向量。

示例性的，将用户兴趣画像部分和基础属性部分(用户属性信息)对应的向量concat在一起，作为最终的用户侧向量A，如图5中的k₁，k₂…k_T。

步骤308、通过神经网络模型根据各历史视频对应的视频标签信息、视频生产者信息以及使用位置信息确定对应的视频属性信息，根据待预测视频对应的视频标签信息、视频生产者信息以及使用位置信息确定对应的视频属性信息。

其中，可将使用位置信息与视频标签信息和视频生产者信息两者的拼接向量的和作为项目属性信息。如图4所示，将视频标签信息和视频生产者信息拼接后得到向量B，随后向量B与使用位置信息对应的向量P相加，得到项目属性信息。具体的，视频标签信息和视频生产者信息可以经过第二embedding层，再经过全连接函数，得到维度为256的向量B。

步骤309、通过神经网络模型根据各历史视频对应的时长维度评分和视频属性信息的乘积确定历史视频对应的视频信息。

示例性的，向量B和向量P相加可以表示为

也即表示视频属性信息。时长维度评分和视频属性信息的乘积可表示为

也即表示视频信息。当

为负时，表示用户对视频好感偏低，乘上视频i的embedding向量B_i，降低B_i每一维度的数值；当

为正时，表示用户对视频好感偏高，乘上视频i的embedding向量B_i，增强了B_i每一维度的数值。故此向量能够有效的表示用户对视频的偏好程度。

步骤310、通过神经网络模型采用多头注意力模型根据各历史视频分别对应的视频信息以及待预测视频对应的视频属性信息，构建视频侧向量。

示例性的，本步骤可具体包括：

(1)基于下述公式分别计算各历史视频对应的加权项目信息：

其中，Attention表示注意力，Attention(Q,K,V)表示加权视频信息，softmax表示归一化指数函数，Q表示待预测视频对应的视频属性信息，K和V表示历史视频对应的视频信息，

表示缩放因子，QK^T表示历史视频与待预测视频的相关性信息。

示例性的，图5为本发明实施例提供的一种多头注意力编码方式示意图。可针对每个历史视频(x_i)经过交互嵌入层(Interaction Embedding)、值映射层(ValueProjection)和键映射层(Key Projection)分别得到v_i和k_i。针对待预测视频(e_i+1)经过问题嵌入层(Quesiton Embedding)和询问映射层(Query Projection)得到q_i。针对每个历史视频(x_i)分别采用上述公式计算对应的加权视频信息，QK^T可以表示当前历史视频与待预测视频(e_i+1)的相关性，

可视为当前历史视频对应的权重信息，因此，将Attention(Q,K,V)称为加权视频信息。

(2)根据各历史视频对应的加权视频信息的和构建项目侧向量。

示例性的，如图4所示，Multi-head Attention的输出即为项目侧向量。

步骤311、通过神经网络模型对用户侧向量和视频侧向量进行拼接，得到待预测信息。

示例性的，如图4所示，在构建项目侧向量和将用户侧向量与视频侧向量进行拼接时还可以经过两个(2x)或更多的网络结构从粗到细递进式地提取待预测信息，得到最终的待预测信息s。

步骤312、经过预设神经网络层对待预测信息进行处理，得到待预测视频对应的预测观看时长。

示例性的，预设神经网络层具体可以是两个全连接层，最终得到待预测视频对应的预测观看时长。

本发明实施例提供的视频观看时长预测方法，将用户兴趣画像引入到用户侧的向量建模中，增强了用户侧向量的表示能力，用于生成用户兴趣画像的历史行为数据所属的历史视频与构建视频侧向量依据的历史视频相同，保证用户兴趣画像信息是动态变化的，能够更加准确地表示用户近期的兴趣变化动态，且用户兴趣画像信息对应的视频标签与视频属性信息中的视频标签信息一致，对于视频使用时长的预测增加了可解释性，且视频侧向量的构建基于视频标签进行，多个不同视频标识的视频可能对应同一个视频标签，相比于现有技术中基于视频ID构建的方案来说，解决了向量数据稀疏、线上存储和检索带来严重计算开销等问题，在构建视频侧向量时，采用正余弦位置编码方式计算使用位置信息，根据视频标签信息、视频生产者信息以及使用位置信息共同确定视频属性信息，丰富向量表示能力，并采用Z_score变化算法计算时长维度评分，将时长维度评分与视频属性信息的乘积确定为视频信息，基于乘的方式能够有效地在视频向量上体现用户的偏好程度，另外还基于Multi-head Attention方式进行视频侧向量的构建，能够有效地将用户的历史兴趣和当前的视频融合在一起，从而提高模型的预测效果，对于短视频召回阶段，短视频数量非常庞大，采用本发明实施例的方案，能够大幅节省线上存储空间，较少检索计算开销，提高观看时长的预测速度和准确度，进而提升召回效率以及召回准确度。

图6为本发明实施例提供的一种项目使用时长预测装置的结构框图，该装置可由软件和/或硬件实现，一般可集成在计算机设备中，可通过执行项目使用时长预测方法来进行使用时长的预测。如图6所示，该装置包括：

用户侧向量构建模块601，用于根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，所述用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，所述历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，所述项目标签用于表征项目的类别；

项目侧向量构建模块602，用于根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，其中，所述项目属性信息中以项目标签信息标识项目身份；

向量拼接模块603，用于对所述用户侧向量和所述项目侧向量进行拼接，得到待预测信息；

使用时长预测模块604，用于经过预设神经网络层对所述待预测信息进行处理，得到所述待预测目标对应的预测使用时长。

本发明实施例中提供的项目使用时长预测装置，利用神经网络模型根据用户兴趣画像信息和用户属性信息构建用户侧向量，其中，用户兴趣画像信息包含根据用户的历史行为数据确定的用户针对不同项目标签的感兴趣程度信息，历史行为数据包括用户在预设历史时段内使用各历史项目过程中产生的使用历史数据和交互行为数据，项目标签用于表征项目的类别，根据各历史项目对应的使用时长和项目属性信息以及待预测项目对应的项目属性信息构建项目侧向量，其中，项目属性信息中以项目标签信息标识项目身份，对用户侧向量和项目侧向量进行拼接，得到待预测信息，经过预设神经网络层对待预测信息进行处理，得到待预测目标对应的预测使用时长。通过采用上述技术方案，将用户兴趣画像引入到用户侧的向量建模中，增强了用户侧向量的表示能力，用于生成用户兴趣画像的历史行为数据所属的历史项目与构建项目侧向量依据的历史项目相同，保证用户兴趣画像信息是动态变化的，能够更加准确地表示用户近期的兴趣变化动态，且用户兴趣画像信息对应的项目标签与项目属性信息中的项目标签信息一致，对于项目使用时长的预测增加了可解释性，且项目侧向量的构建基于项目标签进行，多个不同项目标识的项目可能对应同一个项目标签，相比于现有技术中基于项目编号构建的方案来说，解决了向量数据稀疏、线上存储和检索带来严重计算开销等问题，将用户侧向量和项目侧向量拼接后形成待预测信息，可以表征用户侧信息对项目侧信息的增强，提高待预测信息的表达能力，经过预设神经网络层处理后，能够准确预测使用时长。

本发明实施例提供了一种计算机设备，该计算机设备中可集成本发明实施例提供的项目使用时长预测装置。图7为本发明实施例提供的一种计算机设备的结构框图。计算机设备700包括存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序，所述处理器702执行所述计算机程序时实现本发明实施例提供的项目使用时长预测方法。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行本发明实施例提供的项目使用时长预测方法。

上述实施例中提供的项目使用时长预测装置、设备以及存储介质可执行本发明任意实施例所提供的项目使用时长预测方法，具备执行该方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节，可参见本发明任意实施例所提供的项目使用时长预测方法。

注意，上述仅为本发明的较佳实施例。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由权利要求范围决定。

Claims

1.一种项目使用时长预测方法，其特征在于，基于神经网络模型实现，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在根据用户兴趣画像和用户属性信息构建用户侧向量之前，还包括：

根据所述使用历史数据确定所述各历史项目对应的项目标签；

针对每个项目标签，基于贝叶斯方法根据所述交互行为数据计算用户针对当前项目标签的贝叶斯分数，将所述贝叶斯分数作为所述感兴趣程度信息；

将各项目标签对应的感兴趣程度信息相加，得到用户兴趣画像信息。

3.根据权利要求1所述的方法，其特征在于，所述根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量，包括：

对于所述各历史项目中的每个历史项目，基于当前历史项目对应的使用时长和所述预设历史时段对应的使用时长统计信息确定用户对于所述当前历史项目的时长维度评分，并根据所述时长维度评分和所述当前历史项目对应的项目属性信息确定所述当前历史项目对应的项目信息；

根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量。

4.根据权利要求3所述的方法，其特征在于，所述使用时长统计信息包括平均使用时长；

所述基于当前历史项目对应的使用时长和所述预设历史时段对应的使用时长统计信息确定用户对于所述当前历史项目的时长维度评分，包括：

基于当前历史项目对应的使用时长和所述预设历史时段对应的平均使用时长的差值确定用户对于所述当前历史项目的时长维度评分；

所述根据所述时长维度评分和所述当前历史项目对应的项目属性信息确定所述当前历史项目对应的项目信息，包括：

根据所述时长维度评分和所述当前历史项目对应的项目属性信息的乘积确定所述当前历史项目对应的项目信息。

5.根据权利要求4所述的方法，其特征在于，所述使用时长统计信息还包括使用时长均方差；

采用预设标准化算法基于当前历史项目对应的使用时长、所述预设历史时段对应的平均使用时长和使用时长均方差确定用户对于所述当前历史项目的时长维度评分，其中，所述时长维度评分的取值范围为-1到1之间。

6.根据权利要求3所述的方法，其特征在于，所述项目属性信息中还包含使用位置信息、项目来源信息和项目封面信息中的至少一种。

7.根据权利要求6所述的方法，其特征在于，在所述根据所述各历史项目对应的使用时长和项目属性信息，以及待预测项目对应的项目属性信息，构建项目侧向量之前，还包括：

对于所述各历史项目和待预测项目中的每个项目，采用正余弦位置编码方式计算当前项目对应的使用位置信息，根据所述当前项目对应的项目标签信息和使用位置信息的和确定对应的项目属性信息。

8.根据权利要求3所述的方法，其特征在于，所述根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量，包括：

采用多头注意力模型根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量。

9.根据权利要求8所述的方法，其特征在于，采用多头注意力模型根据所述各历史项目分别对应的项目信息以及待预测项目对应的项目属性信息，构建项目侧向量，包括：

基于多头注意力模型对应的注意力函数分别计算各历史项目对应的加权项目信息，其中，所述加权项目信息中包含历史项目与待预测项目的相关性信息；

根据各历史项目对应的加权项目信息的和构建项目侧向量。

10.根据权利要求9所述的方法，其特征在于，所述基于多头注意力模型对应的注意力函数分别计算各历史项目对应的加权项目信息，包括：

基于下述公式分别计算各历史项目对应的加权项目信息：

11.根据权利要求1-10任一所述的方法，其特征在于，所述项目包括视频，所述使用时长包括观看时长。

12.一种项目使用时长预测装置，其特征在于，基于神经网络模型实现，所述装置包括：

13.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1-11任一项所述的方法。

14.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11中任一所述的方法。