CN117112901A

CN117112901A - 推荐模型训练方法、歌单推荐方法、装置、介质及设备

Info

Publication number: CN117112901A
Application number: CN202311091667.2A
Authority: CN
Inventors: 吕旸; 肖强; 李勇
Original assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Current assignee: Hangzhou Netease Cloud Music Technology Co Ltd
Priority date: 2023-08-28
Filing date: 2023-08-28
Publication date: 2023-11-24

Abstract

本公开涉及计算机技术领域，公开了一种模型训练方法、歌单推荐方法、装置、存储介质及电子设备。该模型训练方法可以对样本用户采集第一歌单评分特征以及构建样本歌单；再将第一歌单评分特征包括的第一歌单评分特征、第一用户属性特征输入推荐模型，使其分别独立地确定样本歌单与第一用户行为特征、第一用户属性特征的匹配分，再融合匹配分得到样本歌单的目标匹配分，并基于目标匹配分对推荐模型进行参数更新。该方法中目标匹配分能够分别完整保留并融合不同类型特征所表征的信息，保证推荐模型充分学习，提高预测准确性；且能够结合用户侧、非用户侧特征进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，以及模型性能的稳定性。

Description

推荐模型训练方法、歌单推荐方法、装置、介质及设备

技术领域

本公开的实施方式涉及计算机技术领域，更具体地，本公开的实施方式涉及推荐模型训练方法、歌单推荐方法、装置、存储介质及电子设备。

背景技术

本部分旨在为权利要求中陈述的本公开的实施方式提供背景或上下文，此处的描述不因为包括在本部分中就承认是现有技术。

歌单是歌曲的集合，可以根据歌曲的歌词、歌手、编曲风格、发行时间等因素对歌曲进行划分获得。在音乐平台中，可以由用户基于歌曲偏好、播放场景等自身需求创建歌单，也可以通过算法对不同因素的歌曲进行归类、聚合等，进而获得对应的歌单。在此基础上，可以基于用户对歌曲、歌单的历史点击、播放、收藏等行为，对用户进行个性化歌单推荐。

但是，在目前向用户针对性推荐歌单时，推荐结果的准确性、转化率等还有待进一步提高。

发明内容

在本上下文中，本公开的实施方式期望提供一种推荐模型训练方法、歌单推荐方法、装置、存储介质及电子设备。

根据本公开实施方式的第一方面，提供一种推荐模型训练方法，该方法可以包括：对样本用户采集第一歌单评分特征，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；构建样本用户对应的样本歌单；将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型确定第一用户行为特征、第一用户属性特征分别与每一样本歌单的匹配分，并对各样本歌单的匹配分分别进行融合，获得推荐模型输出的样本歌单对应的第一目标匹配分；基于第一目标匹配分对推荐模型进行参数更新，直至推荐模型符合收敛条件。

可选地，第一用户行为特征包括用户长期行为特征、用户短期行为特征，对样本用户采集第一歌单评分特征，包括：根据样本用户在第一时间段内交互的第一对象，获得用户长期行为特征；根据样本用户在第二时间段内交互的第一对象，获得用户短期行为特征，第一时间段长于第二时间段，第一对象包括样本用户交互的歌曲、歌单中的至少一种。

可选地，对样本用户采集第一歌单评分特征，还包括：根据样本用户在第三时间段内与第一对象的交互总次数，获得样本用户对应的第一用户属性特征。

可选地，样本歌单包括正样本与负样本，构建样本用户对应的样本歌单包括：确定样本用户在第四时间段内与第二对象的交互次数，第二对象包括样本用户交互的歌单；在交互次数大于或等于分类阈值的情况下，确定第二对象为正样本；在交互次数小于分类阈值的情况下，确定第二对象为负样本。

可选地，推荐模型包括动态权要网络、行为特征匹配网络、属性特征匹配网络，将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型确定第一用户行为特征、第一用户属性特征分别与每一样本歌单的匹配分，并对各样本歌单的匹配分进行融合，获得推荐模型输出的样本歌单对应的第一目标匹配分，包括：将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型的动态权重网络确定第一用户行为特征、第一用户属性特征分别对应的融合权重，行为特征匹配网络确定第一用户行为特征与每一样本歌单分别对应的匹配分，属性特征匹配网络确定第一用户属性特征与每一样本歌单分别对应的匹配分，再基于融合权重对各样本歌单对应的匹配分进行加权融合，获得推荐模型输出的样本歌单对应的第一目标匹配分。

可选地，第一用户行为特征包括用户长期行为特征、用户短期行为特征，行为特征匹配网络包括长期行为特征匹配网络、短期行为特征匹配网络，行为特征匹配网络确定第一用户行为特征对样本歌单的匹配分，包括：长期行为特征匹配网络通过Transformer结构对用户长期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户长期行为特征分别与各样本歌单对应的匹配分；短期行为特征匹配网络通过Self-Attention结构对用户短期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户短期行为特征分别与各样本歌单对应的匹配分。

根据本公开实施方式的第二方面，提供一种歌单推荐方法，该方法可以包括：对目标用户采集第二歌单评分特征，并获得目标用户对应的至少一个候选歌单，第二歌单评分特征包括第二用户行为特征、第二用户属性特征；将第二歌单评分特征、候选歌单输入推荐模型，以通过推荐模型确定第二用户行为特征、第二用户属性特征分别对每一候选歌单的匹配分，并对各候选歌单的匹配分分别进行融合，获得推荐模型输出的候选歌单对应的第二目标匹配分，推荐模型通过前述第一方面所述的方法训练获得；根据第二目标匹配分对目标用户进行候选歌单的推荐。

可选地，获得目标用户对应的至少一个候选歌单，包括：

基于第三对象通过协同过滤从第四对象中获取至少一个候选歌单，第三对象包括目标用户交互的歌曲、歌单中的至少一种，第四对象包括目标用户未交互的歌单。

根据本公开实施方式的第四方面，提供一种推荐模型训练装置，该装置可以包括：第一特征采集模块，用于对样本用户采集第一歌单评分特征，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；样本歌单构建模块，用于构建样本用户对应的样本歌单；推荐模型训练模块，用于将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型确定第一用户行为特征、第一用户属性特征分别与每一样本歌单的匹配分，并对各样本歌单的匹配分分别进行融合，获得推荐模型输出的样本歌单对应的第一目标匹配分；推荐模型训练模块，还用于基于第一目标匹配分对推荐模型进行参数更新，直至推荐模型符合收敛条件。

可选地，第一特征采集模块，包括：长期特征采集子模块，用于根据样本用户在第一时间段内交互的第一对象，获得用户长期行为特征；短期特征采集子模块，用于根据样本用户在第二时间段内交互的第一对象，获得用户短期行为特征，第一时间段长于第二时间段，第一对象包括样本用户交互的歌曲、歌单中的至少一种。

可选地，第一特征采集模块，还包括：属性特征采集子模块，用于根据样本用户在第三时间段内与第一对象的交互总次数，获得样本用户对应的第一用户属性特征。

可选地，样本歌单包括正样本与负样本，样本歌单构建模块，包括：样本信息确定子模块，用于确定样本用户在第四时间段内与第二对象的交互次数，第二对象包括样本用户交互的歌单；样本标记子模块，用于在交互次数大于或等于分类阈值的情况下，确定第二对象为正样本；样本标记子模块，还用于在交互次数小于分类阈值的情况下，确定第二对象为负样本。

可选地，推荐模型包括动态权要网络、行为特征匹配网络、属性特征匹配网络，推荐模型训练模块，具体用于将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型的动态权重网络确定第一用户行为特征、第一用户属性特征分别对应的融合权重，行为特征匹配网络确定第一用户行为特征与每一样本歌单分别对应的匹配分，属性特征匹配网络确定第一用户属性特征与每一样本歌单分别对应的匹配分，再基于融合权重对各样本歌单对应的匹配分进行加权融合，获得推荐模型输出的样本歌单对应的第一目标匹配分。

可选地，第一用户行为特征包括用户长期行为特征、用户短期行为特征，推荐模型训练模块，具体用于长期行为特征匹配网络通过Transformer结构对用户长期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户长期行为特征分别与各样本歌单对应的匹配分；以及，短期行为特征匹配网络通过Self-Attention结构对用户短期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户短期行为特征分别与各样本歌单对应的匹配分。

根据本公开实施方式的第五方面，提供一种歌单推荐装置，该装置可以包括：第二特征采集模块，用于对目标用户采集第二歌单评分特征，并获得目标用户对应的至少一个候选歌单，第二歌单评分特征包括第二用户行为特征、第二用户属性特征；推荐模型预测模块，用于将第二歌单评分特征、候选歌单输入推荐模型，以通过推荐模型确定第二用户行为特征、第二用户属性特征分别对每一候选歌单的匹配分，并对各候选歌单的匹配分分别进行融合，获得推荐模型输出的候选歌单对应的第二目标匹配分，推荐模型通过前述第三方面所述的装置训练获得；候选歌单推荐模块，用于根据第二目标匹配分对目标用户进行候选歌单的推荐。

可选地，第二特征采集模块，具体用于基于第三对象通过协同过滤从第四对象中获取至少一个候选歌单，第三对象包括目标用户交互的歌曲、歌单中的至少一种，第四对象包括目标用户未交互的歌单。

根据本公开实施方式的第六方面，提供一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述如第一方面的推荐模型训练方法，或第二方面的歌单推荐方法。

根据本公开实施方式的第七方面，提供一种电子设备，包括：处理器；以及存储器，用于存储处理器的可执行指令；其中，处理器配置为经由执行可执行指令来执行上述如第一方面的推荐模型训练方法，或第二方面的歌单推荐方法。

根据本公开实施方式的推荐模型训练方法，可以对样本用户采集第一歌单评分特征，以及构建样本用户对应的样本歌单，其中，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；再将第一歌单评分特征、第一用户属性特征输入推荐模型，推荐模型可以分别独立地确定每一样本歌单与第一用户行为特征的匹配分，以及每一样本歌单与第一用户属性特征的匹配分，再融合各样本歌单所对应的匹配分，得到样本歌单的目标匹配分，进而根据目标匹配分对推荐模型进行参数更新。该方法中在推荐模型训练中提取了偏向表征样本用户动态变化信息的行为特征，以及偏向表征样本用户静态固有信息的属性特征，并且在分别独立地确定不同特征与样本歌单的匹配分后进一步融合，使得目标匹配分能够分别完整保留并融合不同类型特征所表征的信息，保证推荐模型充分学习，提高预测准确性；同时，在模型训练过程中既学习了用户侧的歌单评分特征，也学习了非用户侧的样本歌单，从而能够结合用户侧、非用户侧的特征进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

附图说明

通过参考附图阅读下文的详细描述，本公开示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本公开的若干实施方式，其中：

图1示出了根据本公开实施方式的推荐模型训练方法的流程之一；

图2示出了根据本公开实施方式的推荐模型训练方法的流程之二；

图3示出了根据本公开实施方式的推荐模型的多塔结构示意图；

图4示出了根据本公开实施方式的歌单推荐方法的流程；

图5示出了根据本公开实施方式的推荐模型训练装置的结构示意图图；

图6示出了根据本公开实施方式的歌单推荐装置的结构示意图图；

图7示出了根据本公开实施方式的存储介质的示意图；

图8示出了根据本公开实施方式的电子设备的示意图。

具体实施方式

下面将参考若干示例性实施方式来描述本公开的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开，而并非以任何方式限制本公开的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本公开的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本公开的实施方式，提供一种推荐模型训练方法、歌单推荐方法、装置、存储介质及电子设备。

在本文中，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本公开的若干代表性实施方式，详细阐述本公开的原理和精神。

发明概述

现有的歌单推荐方法中，通常可以基于被推荐用户历史的行为特征进行推荐，如采集用户历史播放、收藏的歌曲、歌单信息，并根据该信息匹配特征相近的歌单向该用户推荐。但是，通过用户的历史行为特征难以全面表征用户的歌单推荐需求，使得歌单推荐的准确性有待进一步提高。

而在本公开的实施方式中，推荐模型训练采用的歌单评分特征包括了偏向表征用户动态变化信息的用户行为特征，以及偏向表征用户固有属性信息的用户属性特征，并且对不同类型的特征分别确定与样本歌单的匹配分，以完整保留各自匹配信息，再对匹配分融合获得目标匹配分，能够保证推荐模型充分学习，提高预测准确率。目标匹配分中结合了用户侧的歌单评分特征，以及非用户侧的样本歌单，能够在结合用户侧、非用户侧特征的基础上进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

在此基础上，本公开的实施方式中还提供了歌单推荐方法，该方法中待推荐的目标用户可以采集歌单评分特征，包括其用户行为特征、用户属性特征，以及获得目标用户的候选歌单；再将目标用户的歌单评分特征、候选歌单输入上述推荐模型中，通过推荐模型对候选歌单获得用户行为特征的匹配分，以及用户属性特征的匹配分，以及融合后的目标匹配分，并基于目标匹配分在候选歌单中确定向目标用户推荐的歌单。采用前述推荐模型进行候选歌单的匹配，能够更充分地提取歌单推荐的需求信息，从而提高预测准确率，而且能够在结合用户侧、非用户侧特征的基础上进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

示例性应用场景

需要注意的是，下述应用场景仅是为了便于理解本发明的精神和原理而示出，本公开的实施方式在此方面不受任何限制。相反，本公开的实施方式可以应用于适用的任何场景。

本公开实施方式的推荐模型训练方法、歌单推荐方法可以应用于多种涉及歌单推荐的应用场景。

在一种应用场景中，可以涉及音乐平台。通常，在这种应用场景下，用户可以进行搜索、播放、评论、收藏、分享不同的歌曲、歌单、专辑、MV(Music Video，音乐短片)、音乐电台等行为。在音乐平台中，可以记录用户用于注册、登录的个人信息，以及用户的行为信息。而在此应用场景下，可以进行本公开实施方式的推荐模型训练方法，根据音乐平台所记录的信息提取用户行为特征、用户属性特征，并构建样本歌单，以进行推荐模型的训练。进一步的，还可以采用前述训练获得的歌单推荐模型在音乐平台进行歌单推荐，采集待推荐用户的用户行为特征、用户属性特征，以及获取该待推荐用户的候选歌单，并将其输入推荐模型中，获取其输出的目标匹配分，再基于目标匹配分进行歌单推荐。

类似地，应用场景还可以包括与音乐平台关联的视频平台、资讯平台等其他平台。音乐平台或其他平台可以接收用户的特定操作触发歌单推荐，也可以基于所显示界面的内容自动触发歌单推荐，如显示界面中展示歌曲播放页面、MV播放页面，歌手信息页面、歌曲信息页面等。在其他平台向用户推荐歌单时，可以根据用户的操作跳转到对应歌单信息页面，或调出其他平台所关联的音乐平台。

需要说明的是，本公开的实施方式中获取的数据，包括歌单评分特征、样本歌单、候选歌单等数据，均在明确告知用户或相关数据所属方对数据的采集内容、数据用途、处理方式等信息后，在用户或相关数据所属方同意、授权的情况下访问、采集、存储并应用于后续分析处理，且可以向用户或相关数据所属方发送访问、更正、删除该数据的途径，以及撤销同意、授权的方法。

示例性方法

下面结合上述应用场景，参考图1来描述根据本公开的示例性实施方式的歌单推荐方法。

如图1示出的本公开示例性实施方式的推荐模型训练方法的流程之一，可以包括如下步骤101至步骤104：

步骤101、对样本用户采集第一歌单评分特征，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征。

本公开的实施方式中，样本用户指与歌曲、歌单等数据对象产生过交互行为，且所产生的数据用于推荐模型训练的用户。推荐模型通过在样本用户的数据基础上，模拟向样本用户推荐歌单进行训练。其中，歌单评分特征包括可以表征用户对歌单兴趣程度的特征，如用户历史的播放序列、收藏序列、搜索关键词、偏好风格等等，该兴趣程度可以采用模型输出的分数进行表示。

进一步的，歌单评分特征可以包括用户行为特征、用户属性特征。其中，用户行为特征是基于用户行为数据提取的特征，如用户播放、收藏、评论、分享歌曲或歌单的行为，用户行为在时间维度上具有动态信息，可以表征用户对歌单的兴趣程度在时间维度上的变化信息；用户属性特征是基于用户的个人信息所提取的特征，如用户的ID、昵称、年龄、性别、职业、所在地等。针对样本用户可以提取器第一歌单评分特征，包括样本用户的第一用户行为特征与第一用户属性特征，具体可以基于模型训练、应用的条件和需求进行选择。

步骤102、构建样本用户对应的样本歌单。

本公开的实施方式中，样本歌单指经过标注的歌单，该标注用于区分样本歌单中的正样本与负样本。其中，正样本包括可以向样本用户推荐的歌单，负样本包括不可以向样本用户推荐的歌单，根据模型训练、应用的条件和需求，标注正、负样本的规则可以不同，如可以是样本用户交互过的歌单标注为正样本，样本用户未交互过的歌单标注为负样本；或者，可以是样本用户交互次数较多的歌单标注为正样本，样本用户交互次数较少的歌单标注为负样本；或者，可以是样本用户交互行为的种类较多的歌单标注为正样本，样本用户交互行为的种类较少的歌单标注为负样本，如样本用户播放、收藏且评论的歌单标注为正样本，仅收藏的歌单标注为负样本，还可以进一步为不同的交互行为设置相应权重以区分不同歌单的标签。

步骤103、将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型确定第一用户行为特征、第一用户属性特征分别与每一样本歌单的匹配分，并对各样本歌单的匹配分分别进行融合，获得推荐模型输出的样本歌单对应的第一目标匹配分。

本公开的实施方式中，推荐模型训练可以是通过模拟在样本用户的第一歌单评分特征以及样本歌单的基础上，向样本用户进行歌单推荐的过程实现。在训练过程中，可以将第一歌单评分特征、样本歌单输入推荐模型，推荐模型可是多塔结构，可以对第一用户行为特征、第一用户属性特征分别独立地确定与样本歌单的匹配分，并进一步对样本歌单各分支的匹配分进行融合，获得各样本歌单所对应的第一目标匹配分。

步骤104、基于第一目标匹配分对推荐模型进行参数更新，直至推荐模型符合收敛条件。

本公开的实施方式中，第一目标匹配分为推荐模型在第一歌单评分特征的基础上所预测的，样本用户对样本歌单的兴趣分数。因此，可以基于第一目标匹配分对推荐模型进行参数更新，以使推荐模型输出的第一目标匹配分向样本歌单所对应的标签靠近，从而符合样本用户的行为特征。其中，收敛条件可以根据模型训练、应用需求进行设置，如收敛条件可以是基于第一目标匹配分确定向样本用户推荐的歌单相比样本歌单误差小于或等于一阈值，或者收敛条件也可以是相邻两次参数更新的变化量小于或等于一阈值，或者收敛条件也可以是参数更新的次数大于或等于一阈值，本公开对此不作具体限制。

如图2示出的本公开示例性实施方式的推荐模型训练方法的流程之二，可以包括如下步骤201至步骤208：

在本公开一可选的实施方式中，第一用户行为特征包括用户长期行为特征、用户短期行为特征。

本公开的实施方式中，用户行为特征可以在时间维度上进行区分，包括了用户长期行为特征，以及用户短期行为特征。其中，用户长期行为特征表征用户在较长时间段中行为的动态变化信息，用户短期行为特征表征用户在较短时间段中行为的动态变化信息。从用户长期行为特征中可以获得用户对歌曲、歌单较为稳定，对环境变化较为迟钝的动态行为信息；而从用户短期行为特征中可以获得用户对歌曲、歌单对环境变化较为敏感的动态行为信息。通过不同类型的用户行为特征可以更全面、充分地表征用户，因此，第一用户行为特征中可以包括用户长期行为特征以及用户短期

行为特征。

步骤201、根据样本用户在第一时间段内交互的第一对象，获得用户长期行为特征。

步骤202、根据样本用户在第二时间段内交互的第一对象，获得用户短期行为特征，第一时间段长于第二时间段，第一对象包括样本用户交互的歌曲、歌单中的至少一种。

本公开实施例中，第一对象可以是样本用户所交互过的歌曲、歌单，交互行为可以包括播放、收藏、分享、评论、下载等，行为特征可以是根据交互行为发生的时间顺序记录交互对象的特征序列。在第一时间段的长度大于第二时间段的情况下，根据样本用户在第一时间段内交互的第一对象可以获得用户长期行为特征，并且根据样本用户在第二时间段内交互的第一对象可以获得用户短期行为特征。第一时间段、第二时间段的起始、终止不作具体限制。

在本公开一可选的实施方式中，还可以包括步骤203如下所示：

步骤203、根据样本用户在第三时间段内与第一对象的交互总次数，获得样本用户对应的第一用户属性特征。

本公开的实施方式中，用户属性特征还可以包括用户在一定时间段内与歌曲、歌单等对象的交互总次数，如在15天内播放过的所有歌曲累计播放次数、30天内收藏过的所有歌单累计收藏次数。该交互总次数可以表征用户在一段时间内对音乐播放的总体需求，通常来说该总体需求与具体所交互的歌曲、歌单关联较小，可以表征用户不随歌单、歌曲信息白化的固有属性。

如，本公开实施例中，基于样本用户的个人信息、行为数据等，提取对应第一评分特征如下表1所示：

表1

上述特征仅用于示例，在实际训练过程中，本领域技术人员可以根据模型训练、应用需求选择不同的用户特征。

本公开的实施方式中，针对以数值记录的用户特征，可以对其进行离差标准化(Min-Max Normalization)处理，使其取值范围在[0，1]之间，降低数值计算复杂程度，可以提升模型收敛速度，并提升训练效果。具体的，通过如下公式(1)实现：

其中，x为用户特征的数值，max为x的最大值，min为x的最小值。

步骤204、确定样本用户在第四时间段内与第二对象的交互次数，第二对象包括样本用户交互的歌单。

步骤205、在交互次数大于或等于分类阈值的情况下，确定第二对象为正样本。

步骤206、在交互次数小于分类阈值的情况下，确定第二对象为负样本。

本公开的实施方式中，第二对象可以包括样本用户交互的歌单，此时可以将样本用户在第四时间段内的第二对象作为候选的样本，并根据样本用户与第二对象的交互次数对候选的样本进行标注，其中正样本可以标注为1，负样本可以标注为0，以便模型学习和理解。

本公开的实施方式中，可以认为用户对歌单中歌曲播放的次数越多，表示该用户对歌单的兴趣程度越高，因此可以在交互次数大于或等于分类阈值的情况下，确定该第二对象标注为正样本，可以向样本用户推荐；在交互次数小于分类阈值的情况下，确定该第二对象标注为负样本，不可以向样本用户推荐。分类阈值的大小可以根据具体的模型训练、应用需求任意设置，如分类阈值可以是1、2、3、4、···。以分类阈值为播放3次为例，构建样本歌单的过程如下公式(2)所示：

在本公开可选的一实施方式中，推荐模型包括动态权要网络、行为特征匹配网络、属性特征匹配网络。

如图3示出的本公开示例性实施方式的推荐模型的多塔结构示意图，该推荐模型包括动态权要网络301、行为特征匹配网络302、属性特征匹配网络303、输入层304、融合门305。进一步的，行为特征匹配网络可以包括长期行为特征匹配网络3021、短期行为特征匹配网络3022。在训练过程中，当从输入层304将用户长期行为特征、用户短期行为特征、第一用户属性特征以及样本歌单输入推荐模型后，长期特征匹配网络3021、短期行为特征匹配网络3022、属性特征匹配网络303分别确定对应特征与样本歌单的匹配分，并由动态权要网络301确定融合权重，通过融合门305进行融合，获得推荐模型输出的第一目标匹配分。可以看出，推荐模型的结构为深度多塔长短期兴趣网络(Deep Multi-Tower Long ShortInterest Network，DMTLSIN)。

步骤207、将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型的动态权重网络确定第一用户行为特征、第一用户属性特征分别对应的融合权重，行为特征匹配网络确定第一用户行为特征与每一样本歌单分别对应的匹配分，属性特征匹配网络确定第一用户属性特征与每一样本歌单分别对应的匹配分，再基于融合权重对各样本歌单对应的匹配分进行加权融合，获得推荐模型输出的样本歌单对应的第一目标匹配分。

本公开的实施方式中，可以将第一歌单评分特征、样本歌单按序输入，通过输入层的嵌入层(embedding layer)将ID特征转换为对应的n维向量表达，数值特征不作处理，以1维向量的形式输入。此时，输入的特征包括第一用户属性特征、用户长期行为特征以及用户短期行为特征，在多塔结构中三种可以分别进入对应的网络中进行进一步提炼、匹配，以备融合。

动态权重网络中，第一用户属性特征、用户长期行为特征以及用户短期行为特征均作为输入，并获取输出的三个融合权重，如下公式(3)所示：

w＝[w_x，w_y，w_z] (3)

其中，w_x、w_y、w_z分别为第一用户属性特征、用户长期行为特征以及用户短期行为特征对应的融合权重。在具体应用中，动态权重网络可以采用MLP(Multilayer Perceptron，多层感知机)，也可以采用其他网络结构，本公开对此不作具体限制。

属性特征匹配网络中，第一用户属性特征可以作为输入，经过特征拼接(concat)层获得样本用户固有兴趣的高维向量表达，该表达可以经过进一步与样本歌单的融合获得基于第一用户属性特征对样本歌单的匹配分logit_x。在属性特征匹配网络中，可以采用MLP进行信息融合，并且采用Dice激活函数，Dice激活函数属于自适应性非线性不饱和类激活函数，具有更丰富的梯度信息。其中，Dice激活函数如下公式(4)所示：

上述公式(4)中，BN代表Batch Normalization(批标准化)。本领域技术人员还可以采用其他激活函数，如tanh、sigmod等。

行为特征匹配网络中，第一用户行为特征可以作为输入。具体的，可以将用户长期行为特征输入长期行为特征匹配网络，将用户短期行为特征输入短期行为特征匹配网络。此时，长期行为特征匹配网络可以对用户长期行为特征与样本歌单进行融合，获得用户长期行为特征对应的匹配分logit_y；短期行为特征匹配网络可以对用户短期行为特征与样本歌单进行融合，获得用户短期行为特征对应的匹配分logit_z。行为特征匹配网络中，也可以采用MLP进行信息融合，并且采用Dice激活函数。

进一步的，本公开的实施方式中，在获得第一用户属性特征、用户长期行为特征以及用户短期行为特征分别对应的融合权重，以及与样本歌单对应的匹配分后，可以基于融合权重对各匹配分进行加权融合，如下公式(5)所示：

logit＝w_x·logitx+w_y·logity+w_z·logit_z (5)

此时，可以采用sigmod激活函数以使推荐模型输出0到1之间的概率值，如下公式(6)所示：

其中，为推荐模型输出的第一目标匹配分。

在本公开可选的一实施方式中，步骤207可以包括如下步骤S11至步骤S12：

步骤S11、长期行为特征匹配网络通过Transformer结构对用户长期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户长期行为特征分别与各样本歌单对应的匹配分。

步骤S12、短期行为特征匹配网络通过Self-Attention结构对用户短期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户短期行为特征分别与各样本歌单对应的匹配分。

本公开的实施方式中，长期行为特征匹配网络、短期行为匹配网络所处理的特征类型不同，从而可以选择不同的网络结构，更针对性地提取有效信息。由于用户长期行为特征的时间区间更广，所包含的信息更丰富，简单的网络结构易造成有效信息的丢失和遗漏；而用户短期行为特征所包含的信息相对而言较为有限，在复杂的网络结构中易造成过拟合，因此，长期行为特征匹配网络可以通过Transformer结构对用户长期行为特征进行信息提取，获得样本用户长期兴趣的高维向量表达，再进一步通过MLP与样本歌单融合，获得对应的匹配分；而短期行为特征匹配网络可以通过Self-Attention结构对用户短期行为特征进行信息提取，以获得样本用户短期兴趣的高维向量表达，再进一步通过MLP与样本歌单融合，获得对应的匹配分。

步骤208、基于第一目标匹配分对推荐模型进行参数更新，直至推荐模型符合收敛条件。

本公开的实施方式中，步骤208可对应参照前述步骤104的相关描述，为避免重复，在此不再赘述。

本公开的实施方式中，可以采用BP(Back Propagation，反向传播)算法对推荐模型进行参数更新，在参数更新中定义的损失函数如下公式(7)所示：

在BP算法中采用梯度下降进行参数更新，具体如下公式(8)所示：

其中，表示损失函数L对参数矩阵w偏导，η表示学习率。

本公开的实施方式中，经过反复多次的梯度下降更新参数w，直至参数w下推荐模型输出的第一目标匹配分损失值小于预设损失值，即可停止训练，获得推荐模型。

本公开的实施方式中，还提供了基于前述图1至3所述推荐模型的歌单推荐方法，如图4示出的本公开示例性实施方式的歌单推荐方法的流程，可以包括如下步骤401至步骤403：

步骤401、对目标用户采集第二歌单评分特征，并获得目标用户对应的至少一个候选歌单，第二歌单评分特征包括第二用户行为特征、第二用户属性特征。

本公开的实施方式中，对目标用户采集第二歌单评分特征，第二歌单评分特征不包括第二用户行为特征、第二用户属性特征等，可以对应参照前述步骤101，或步骤201至步骤203中，对样本用户采集第一歌单评分特征的相关描述，为避免重复，在此不在赘述。

本公开的实施方式中，候选歌单是目标用户未交互的，待向用户推荐的歌单，候选歌单可以在目标用户未交互的歌单中随机选择，也可以根据目标用户的特征在未交互过的歌单中召回一定数量的候选歌单。

本公开一可选的实施方式中，获得目标用户对应的至少一个候选歌单可以包括如下步骤S21：

步骤S21、基于第三对象通过协同过滤从第四对象中获取至少一个候选歌单，第三对象包括目标用户交互的歌曲、歌单中的至少一种，第四对象包括目标用户未交互的歌单。

本公开的实施方式中，可以采用协同过滤的方式，以目标用户交互过的歌曲、歌单为第三对象，目标用户未交互过的歌单为第四对象，则可以以第三对象为基础上，从第四对象中召回候选歌单。此时，第三对象为协同过滤的triger源。本公开的实施方式提供的triger源示例如下表2所示：

triger源	类型	描述
			短期偏好歌曲	歌曲	用户最近3天播放/红心过的歌曲序列
短期偏好歌单	歌单	用户最近3天播放/收藏过的歌单序列
			长期偏好歌曲	歌曲	用户最近30天播放/红心过的歌曲序列
长期偏好歌单	歌单	用户最近30天播放/收藏过的歌单序列

基于如表2所示的triger源，可以对目标用户未交互的歌单进行协同过滤，所采用的协同过滤算法可以根据模型训练、应用的需求进行选择，如可以是ItemCF、Swing算法。

本公开以Swing算法为例，如图5示出的本公开示例性实施方式的协同过滤算法的原理示意图，在Swing算法中当两个对象被两个用户同时消费的情况下，确定两个对象间存在一定的相关性，相比于ItemCF算法中当两个对象被同一个用户消费时相关性的判定标准更严格、准确，提高了结果中对象间存在相关性的可能。

具体的，Swing算法的计算公式如下(9)所示：

其中，作为惩罚系数，I_u代表用户u消费过的歌单集合；I_v代表用户v消费过的歌单集合。i，j分别代表歌单i和歌单j；U_i代表消费过歌单i的用户集合；U_j代表消费过歌单j的用户集合，这里消费指播放、收藏等交互行为。α为平滑因子。

则通过上述Swing算法可以得到任意两歌单之间的相关性量化分数。

本公开的实施方式中，可以不同triger源分别使用Swing算法进行协同过滤召回，以短期偏好歌单的triger源为例，目标用户未交互的歌单为候选召回歌单为例，Swing算法的流程如下所示：

1)初始化候选召回歌单S＝Set()

2)For i in T_i：

i.基于Swing算法计算与i最相似的top N个歌单，s_i；

ii.N默认最大20；

iii.S＝S+s_i。

以短期偏好歌曲、歌单作为triger源，可以召回与用户短期兴趣相关的候选歌单；以长期偏好歌曲、歌单作为triger源，可以召回与与用户长期兴趣相关的候选歌单。

步骤402、将第二歌单评分特征、候选歌单输入推荐模型，以通过推荐模型确定第二用户行为特征、第二用户属性特征分别对每一候选歌单的匹配分，并对各候选歌单的匹配分分别进行融合，获得推荐模型输出的候选歌单对应的第二目标匹配分，推荐模型通过前述图1至图3中任一方法训练获得。

本公开的实施方式中，在召回候选歌单的基础上，可以将目标用户的第二歌单评分特征，以及候选歌单输入前述图1至图3任意获得的推荐模型中，通过推荐模型确定第二用户行为特征、第二用户属性特征分别对每一候选歌单的匹配分，并对各候选歌单的匹配分分别进行融合，获得推荐模型输出的候选歌单对应的第二目标匹配分。具体的，可对应参照前述步骤102，或步骤207的相关描述，为避免重复，在此不再赘述。

步骤403、根据第二目标匹配分对目标用户进行候选歌单的推荐。

本公开的实施方式中，可以认为第二目标匹配分值越高，目标用户对该候选歌单的兴趣程度越高，因此可以将第二目标匹配分相对较高的候选歌单向目标用户推荐。如可以基于第二目标匹配分对候选歌单进行由大到小排序，并取top N的候选歌单组成推荐列表向目标用户推荐。其中，N的取值可以根据用户需求、推荐条件进行确定，如可以是1、5、10、20、30等，本公开对此不作具体限制。

根据本公开实施方式的歌单推荐方法，待推荐的目标用户可以采集歌单评分特征，包括其用户行为特征、用户属性特征，以及获得目标用户的候选歌单；再将目标用户的歌单评分特征、候选歌单输入上述推荐模型中，通过推荐模型对候选歌单获得用户行为特征的匹配分，以及用户属性特征的匹配分，以及融合后的目标匹配分，并基于目标匹配分在候选歌单中确定向目标用户推荐的歌单。采用前述推荐模型进行候选歌单的匹配，能够更充分地提取歌单推荐的需求信息，从而提高预测准确率，而且能够在结合用户侧、非用户侧特征的基础上进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

示例性装置

在介绍了本公开示例性实施方式的歌单推荐方法之后，接下来，参考图5对本公开示例性实施方式的推荐模型训练装置进行说明，以及参考图6对本公开示例性实施方式的歌单推荐装置进行说明。

需要说明的是，本公开实施方式的推荐模型训练装置、歌单推荐装置的各个功能模块的其他具体细节在上述推荐模型训练方法、歌单推荐方法的实施方式中已经详细说明，在此不再赘述。

图5示出了本公开示例性实施方式的推荐模型训练装置500的结构示意图，包括：第一特征采集模块501，用于对样本用户采集第一歌单评分特征，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；样本歌单构建模块502，用于构建样本用户对应的样本歌单；推荐模型训练模块503，用于将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型确定第一用户行为特征、第一用户属性特征分别与每一样本歌单的匹配分，并对各样本歌单的匹配分分别进行融合，获得推荐模型输出的样本歌单对应的第一目标匹配分；推荐模型训练模块503，还用于基于第一目标匹配分对推荐模型进行参数更新，直至推荐模型符合收敛条件。

在本公开可选的一实施方式中，第一特征采集模块501，包括：长期特征采集子模块，用于根据样本用户在第一时间段内交互的第一对象，获得用户长期行为特征；短期特征采集子模块，用于根据样本用户在第二时间段内交互的第一对象，获得用户短期行为特征，第一时间段长于第二时间段，第一对象包括样本用户交互的歌曲、歌单中的至少一种。

在本公开可选的一实施方式中，第一特征采集模块501，还包括：属性特征采集子模块，用于根据样本用户在第三时间段内与第一对象的交互总次数，获得样本用户对应的第一用户属性特征。

在本公开可选的一实施方式中，样本歌单包括正样本与负样本，样本歌单构建模块502，包括：样本信息确定子模块，用于确定样本用户在第四时间段内与第二对象的交互次数，第二对象包括样本用户交互的歌单；样本标记子模块，用于在交互次数大于或等于分类阈值的情况下，确定第二对象为正样本；样本标记子模块，还用于在交互次数小于分类阈值的情况下，确定第二对象为负样本。

在本公开可选的一实施方式中，推荐模型包括动态权要网络、行为特征匹配网络、属性特征匹配网络。推荐模型训练模块503，具体用于将第一歌单评分特征、样本歌单输入推荐模型，以通过推荐模型的动态权重网络确定第一用户行为特征、第一用户属性特征分别对应的融合权重，行为特征匹配网络确定第一用户行为特征与每一样本歌单分别对应的匹配分，属性特征匹配网络确定第一用户属性特征与每一样本歌单分别对应的匹配分，再基于融合权重对各样本歌单对应的匹配分进行加权融合，获得推荐模型输出的样本歌单对应的第一目标匹配分。

在本公开可选的一实施方式中，第一用户行为特征包括用户长期行为特征、用户短期行为特征，推荐模型训练模块503，具体用于长期行为特征匹配网络通过Transformer结构对用户长期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户长期行为特征分别与各样本歌单对应的匹配分；以及，短期行为特征匹配网络通过Self-Attention结构对用户短期行为特征进行信息提取，再通过多层感知器分别融合每一样本歌单，获得用户短期行为特征分别与各样本歌单对应的匹配分。

根据本公开实施方式的推荐模型训练装置，可以对样本用户采集第一歌单评分特征，以及构建样本用户对应的样本歌单，其中，第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；再将第一歌单评分特征、第一用户属性特征输入推荐模型，推荐模型可以分别独立地确定每一样本歌单与第一用户行为特征的匹配分，以及每一样本歌单与第一用户属性特征的匹配分，再融合各样本歌单所对应的匹配分，得到样本歌单的目标匹配分，进而根据目标匹配分对推荐模型进行参数更新。该方法中在推荐模型训练中提取了偏向表征样本用户动态变化信息的行为特征，以及偏向表征样本用户静态固有信息的属性特征，并且在分别独立地确定不同特征与样本歌单的匹配分后进一步融合，使得目标匹配分能够分别完整保留并融合不同类型特征所表征的信息，保证推荐模型充分学习，提高预测准确性；同时，在模型训练过程中既学习了用户侧的歌单评分特征，也学习了非用户侧的样本歌单，从而能够结合用户侧、非用户侧的特征进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

图6示出了本公开示例性实施方式的歌单推荐装置600的结构示意图，包括：第二特征采集模块601，用于对目标用户采集第二歌单评分特征，并获得目标用户对应的至少一个候选歌单，第二歌单评分特征包括第二用户行为特征、第二用户属性特征；推荐模型预测模块602，用于将第二歌单评分特征、候选歌单输入推荐模型，以通过推荐模型确定第二用户行为特征、第二用户属性特征分别对每一候选歌单的匹配分，并对各候选歌单的匹配分分别进行融合，获得推荐模型输出的候选歌单对应的第二目标匹配分，推荐模型通过前述第三方面所述的装置训练获得；候选歌单推荐模块603，用于根据第二目标匹配分对目标用户进行候选歌单的推荐。

在本公开可选的一实施方式中，第二特征采集模块601，具体用于基于第三对象通过协同过滤从第四对象中获取至少一个候选歌单，第三对象包括目标用户交互的歌曲、歌单中的至少一种，第四对象包括目标用户未交互的歌单。

根据本公开实施方式的歌单推荐装置，待推荐的目标用户可以采集歌单评分特征，包括其用户行为特征、用户属性特征，以及获得目标用户的候选歌单；再将目标用户的歌单评分特征、候选歌单输入上述推荐模型中，通过推荐模型对候选歌单获得用户行为特征的匹配分，以及用户属性特征的匹配分，以及融合后的目标匹配分，并基于目标匹配分在候选歌单中确定向目标用户推荐的歌单。采用前述推荐模型进行候选歌单的匹配，能够更充分地提取歌单推荐的需求信息，从而提高预测准确率，而且能够在结合用户侧、非用户侧特征的基础上进行歌单推荐，提高了推荐模型对不同歌单推荐场景适应性、准确性，也保证了模型性能的稳定性。

应当注意，尽管在上文详细描述中提及了歌单推荐装置的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

示例性存储介质

下面对本公开示例性实施方式的存储介质进行说明。

本示例性实施方式中，参考图7所示，描述了根据本公开的示例性实施方式的用于实现上述方法的程序产品700，如可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

该程序产品700可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RE等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，程序设计语言包括面向对象的程序设计语言-诸如Java、C++等，还包括常规的过程式程序设计语言-诸如"C"语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(FAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

示例性电子设备

参考图8对本公开示例性实施方式的电子设备进行说明。

图8显示的电子设备800仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图8所示，电子设备800以通用计算设备的形式表现。电子设备800的组件可以包括但不限于：至少一个处理单元810、至少一个存储单元820、连接不同系统组件(包括存储单元820和处理单元810)的总线830、显示单元840。

其中，存储单元存储有程序代码，程序代码可以被处理单元810执行，使得处理单元810执行本说明书上述"示例性方法"部分中描述的根据本公开各种示例性实施方式的步骤。例如，处理单元810可以执行如图1所示的方法步骤等。

存储单元820可以包括易失性存储单元，例如随机存取存储单元(RAM)821和/或高速缓存存储单元822，还可以进一步包括只读存储单元(ROM)823。

存储单元820还可以包括具有一组(至少一个)程序模块825的程序/实用工具824，这样的程序模块825包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种

组合中可能包括网络环境的实现。

总线830可以包括数据总线、地址总线和控制总线。

电子设备800也可以与一个或多个外部设备900(例如键盘、指向设备、蓝牙设备等)通信，这种通信可以通过输入/输出(I/O)接口850进行。电子设备800还包括显示单元840，其连接到输入/输出(I/O)接口850，用于进行显示。并且，电子设备800还可以通过网络适配器860与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器860通过总线830与电子设备800的其它模块通信。应当明白，尽管图中未示出，可以结合电子设备800使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

应当注意，尽管在上文详细描述中提及了装置的若干模块或子模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本公开方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本公开的精神和原理，但是应该理解，本公开并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种推荐模型训练方法，其特征在于，包括：

对样本用户采集第一歌单评分特征，所述第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；

构建所述样本用户对应的样本歌单；

将所述第一歌单评分特征、所述样本歌单输入推荐模型，以通过所述推荐模型确定所述第一用户行为特征、第一用户属性特征分别与每一所述样本歌单的匹配分，并对各所述样本歌单的所述匹配分分别进行融合，获得所述推荐模型输出的所述样本歌单对应的第一目标匹配分；

基于第一目标匹配分对所述推荐模型进行参数更新，直至所述推荐模型符合收敛条件。

2.根据权利要求1所述的方法，其特征在于，所述第一用户行为特征包括用户长期行为特征、用户短期行为特征，所述对样本用户采集第一歌单评分特征，包括：

根据所述样本用户在第一时间段内交互的第一对象，获得所述用户长期行为特征；

根据所述样本用户在第二时间段内交互的所述第一对象，获得所述用户短期行为特征，所述第一时间段长于所述第二时间段，所述第一对象包括所述样本用户交互的歌曲、歌单中的至少一种。

3.根据权利要求2所述的方法，其特征在于，所述对样本用户采集第一歌单评分特征，还包括：

根据所述样本用户在第三时间段内与所述第一对象的交互总次数，获得所述样本用户对应的所述第一用户属性特征。

4.根据权利要求1所述的方法，其特征在于，所述样本歌单包括正样本与负样本，所述构建所述样本用户对应的样本歌单包括：

确定所述样本用户在第四时间段内与第二对象的交互次数，所述第二对象包括所述样本用户交互的歌单；

在所述交互次数大于或等于分类阈值的情况下，确定所述第二对象为正样本；

在所述交互次数小于所述分类阈值的情况下，确定所述第二对象为负样本。

5.一种歌单推荐方法，其特征在于，所述方法包括：

对目标用户采集第二歌单评分特征，并获得所述目标用户对应的至少一个候选歌单，所述第二歌单评分特征包括第二用户行为特征、第二用户属性特征；

将所述第二歌单评分特征、所述候选歌单输入推荐模型，以通过所述推荐模型确定所述第二用户行为特征、所述第二用户属性特征分别对每一所述候选歌单的匹配分，并对各所述候选歌单的所述匹配分分别进行融合，获得所述推荐模型输出的所述候选歌单对应的第二目标匹配分，所述推荐模型通过前述权利要求1至4中任一项方法训练获得；

根据所述第二目标匹配分对所述目标用户进行所述候选歌单的推荐。

6.根据权利要求5所述的方法，其特征在于，所述获得所述目标用户对应的至少一个候选歌单，包括：

基于第三对象通过协同过滤从第四对象中获取至少一个候选歌单，所述第三对象包括所述目标用户交互的歌曲、歌单中的至少一种，所述第四对象包括所述目标用户未交互的歌单。

7.一种推荐模型训练装置，其特征在于，包括：

第一特征采集模块，用于对样本用户采集第一歌单评分特征，所述第一歌单评分特征包括样本用户的第一用户行为特征、第一用户属性特征；

样本歌单构建模块，用于构建所述样本用户对应的样本歌单；

推荐模型训练模块，用于将所述第一歌单评分特征、所述样本歌单输入推荐模型，以通过所述推荐模型确定所述第一用户行为特征、第一用户属性特征分别与每一所述样本歌单的匹配分，并对各所述样本歌单的所述匹配分分别进行融合，获得所述推荐模型输出的所述样本歌单对应的第一目标匹配分；

所述推荐模型训练模块，还用于基于第一目标匹配分对所述推荐模型进行参数更新，直至所述推荐模型符合收敛条件。

8.一种歌单推荐装置，其特征在于，包括：

第二特征采集模块，用于对目标用户采集第二歌单评分特征，并获得所述目标用户对应的至少一个候选歌单，所述第二歌单评分特征包括第二用户行为特征、第二用户属性特征；

推荐模型预测模块，用于将所述第二歌单评分特征、所述候选歌单输入推荐模型，以通过所述推荐模型确定所述第二用户行为特征、所述第二用户属性特征分别对每一所述候选歌单的匹配分，并对各所述候选歌单的所述匹配分分别进行融合，获得所述推荐模型输出的所述候选歌单对应的第二目标匹配分，所述推荐模型通过前述权利要求7所述装置训练获得；

候选歌单推荐模块，用于根据所述第二目标匹配分对所述目标用户进行所述候选歌单的推荐。

9.一种存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现根据权利要求1至4任一项所述的推荐模型训练方法，或权利要求5至6任一项所述的歌单推荐方法。

10.一种电子设备，其特征在于，包括：

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1至4任一项所述的推荐模型训练方法，或权利要求5至6任一项所述的歌单推荐方法。