CN115017413A

CN115017413A - 推荐方法、装置、计算设备及计算机存储介质

Info

Publication number: CN115017413A
Application number: CN202210681052.4A
Authority: CN
Inventors: 张聪; 邹易展; 张文婷; 刘霄; 陈辉
Original assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Current assignee: Migu Cultural Technology Co Ltd; China Mobile Communications Group Co Ltd
Priority date: 2022-06-16
Filing date: 2022-06-16
Publication date: 2022-09-06

Abstract

本发明公开了一种推荐方法、装置、计算设备及计算机存储介质。方法包括：获取待推荐用户的用户数据；将用户数据输入至预先训练好的推荐模型中，推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，第一样本数据包含第一推荐对象的对象特征，样本用户对第一推荐对象有反馈行为；第二样本数据包含第二推荐对象的对象特征，样本用户对第二推荐对象无反馈行为，推荐模型包括对第一样本数据进行处理的第一目标函数，和对第二样本数据进行处理的第二目标函数；获取推荐模型的输出结果，并基于输出结果获得目标推荐对象。采用本方案，能够避免推荐模型在训练时出现样本偏置，并提升推荐模型的预测精度以及提升推荐对象的获取精度。

Description

推荐方法、装置、计算设备及计算机存储介质

技术领域

本发明涉及信息推荐技术领域，具体涉及一种推荐方法、装置、计算设备及计算机存储介质。

背景技术

随着科技及社会的不断发展，各类互联网产品的出现极大丰富了人们的工作与生活。许多互联网产品为了提升用户体验以及提高用户留存率，通常会为用户进行相应的推荐，例如为用户推荐视频、资讯、和/或电子书籍等等。

目前，一些互联网产品会依据推荐模型来为用户进行推荐。然而，发明人在实施过程中发现，现有技术中存在如下缺陷：现有技术在对推荐模型训练时，往往是基于用户进行了正反馈的推荐对象的信息生成正样本，以及基于用户进行了负反馈的推荐对象的信息生成负样本。然而，由于用户进行了正反馈及负反馈的推荐对象仅仅为全局的推荐对象集合中较少的一部分，采用该种训练方式会造成训练样本的偏置，降低推荐模型的预测精度，由此造成推荐精度低的技术弊端。

发明内容

鉴于上述问题，提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的推荐方法、装置、计算设备及计算机存储介质。

根据本发明第一方面，提供了一种推荐方法，包括：

获取待推荐用户的用户数据；其中，所述用户数据中包含所述待推荐用户在预设历史时间窗口内针对历史推荐对象的反馈行为数据；

将所述用户数据输入至预先训练好的推荐模型中；其中，所述推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，所述第一样本数据包含第一推荐对象的对象特征，并且所述样本用户对所述第一推荐对象有反馈行为；所述第二样本数据包含第二推荐对象的对象特征，并且所述样本用户对所述第二推荐对象无反馈行为；以及所述推荐模型包括对所述第一样本数据进行处理的第一目标函数，和对所述第二样本数据进行处理的第二目标函数；

获取所述推荐模型的输出结果，并基于所述输出结果获得与所述待推荐用户匹配的目标推荐对象。

根据本发明的第二方面，提供了一种推荐装置，包括：

第一获取模块，用于获取待推荐用户的用户数据；其中，所述用户数据中包含所述待推荐用户在预设历史时间窗口内针对历史推荐对象的反馈行为数据；

输入模块，用于将所述用户数据输入至预先训练好的推荐模型中；其中，所述推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，所述第一样本数据包含第一推荐对象的对象特征，并且所述样本用户对所述第一推荐对象有反馈行为；所述第二样本数据包含第二推荐对象的对象特征，并且所述样本用户对所述第二推荐对象无反馈行为；以及所述推荐模型包括对所述第一样本数据进行处理的第一目标函数，和对所述第二样本数据进行处理的第二目标函数；

第二获取模块，用于获取所述推荐模型的输出结果，并基于所述输出结果获得与所述待推荐用户匹配的目标推荐对象。

根据本发明的第三方面，提供了一种计算设备，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行上述推荐方法对应的操作。

根据本发明的第四方面，提供了一种计算机存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行上述推荐方法对应的操作。

本发明中，获取待推荐用户的用户数据；将用户数据输入至预先训练好的推荐模型中，推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，第一样本数据包含第一推荐对象的对象特征，样本用户对第一推荐对象有反馈行为；第二样本数据包含第二推荐对象的对象特征，样本用户对第二推荐对象无反馈行为，推荐模型包括对第一样本数据进行处理的第一目标函数，和对第二样本数据进行处理的第二目标函数；获取推荐模型的输出结果，并基于输出结果获得目标推荐对象。采用本方案，能够避免出现样本偏置，并提升推荐模型的预测精度以及提升推荐对象的获取精度。

上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的一种推荐方法的流程示意图；

图2示出了本发明实施例提供的一种推荐模型的训练方法的流程示意图；

图3示出了本发明实施例提供的一种相似用户确定方法的流程示意图；

图4示出了本发明实施例提供的一种兴趣点相似度的获取方法的流程示意图；

图5示出了本发明实施例提供的一种兴趣度变化趋势示意图；

图6示出了本发明实施例提供的一种推荐模型的数据流转示意图；

图7示出了本发明实施例提供的一种推荐装置的结构示意图；

图8示出了本发明实施例提供的一种计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例，然而应当理解，可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

图1示出了本发明实施例提供的一种推荐方法的流程示意图。如图1所示，该方法包括如下步骤：

步骤S110，获取待推荐用户的用户数据；其中，该用户数据中包含待推荐用户在预设历史时间窗口内针对历史推荐对象的反馈行为数据。

待推荐用户是后续待进行信息推荐的用户。本发明实施例能够利用预先生成的推荐模型来实时地确定各个待推荐用户匹配的推荐对象。其中，推荐对象具体是指向用户推荐的信息，该推荐对象可以为视频、资讯、音乐、和/或电子书籍等等。

在具体实施过程中，针对于任一待推荐用户，获取该待推荐用户的用户数据。该用户数据中包含有待推荐用户在预设历史时间窗口内针对历史推荐对象的反馈行为数据。其中，预设历史时间窗口是某个历史时段，可选的，为了能够提升推荐精度，该预设历史时间窗口为最近的历史时段，如最近一天，最近一周等等。待推荐用户的历史推荐对象是指当前已经向待推荐用户推荐过的推荐对象。反馈行为数据具体为针对推荐对象的反馈行为的相关信息，该反馈行为可以为正反馈行为或负反馈行为。此外，用户数据还可以包括用户身份信息等用户属性数据。

通过本步骤能够实时地获取到待推荐用户最新的行为数据，从而便于后续基于待推荐用户最新的行为数据来确定当前与待推荐用户匹配的推荐对象。

步骤S120，将用户数据输入至预先训练好的推荐模型中；其中，推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，第一样本数据包含第一推荐对象的对象特征，并且样本用户对第一推荐对象有反馈行为；第二样本数据包含第二推荐对象的对象特征，并且样本用户对第二推荐对象无反馈行为；以及推荐模型包括对第一样本数据进行处理的第一目标函数，和对第二样本数据进行处理的第二目标函数。

本发明实施例利用预先训练好的推荐模型对用户数据进行实时学习及处理。与现有技术中仅利用样本用户有过反馈行为的推荐对象进行训练不同，本发明实施例在训练推荐模型时，既采用了样本用户有过反馈行为的第一推荐对象，又采用了样本用户无反馈行为的第二推荐对象，由此避免样本偏置以及提升推荐模型的预测精度。

在具体的训练过程中，是针对于任一样本用户，确定该样本用户的第一推荐对象以及第二推荐对象。其中，该样本用户对其第一推荐对象有过反馈行为，该反馈行为可以为正反馈行为或反馈行为；并且该样本用户对其第二推荐对象无反馈行为。继而基于样本用户的第一推荐对象的对象特征生成第一样本数据，基于样本用户的第二推荐对象的对象特征生成第二样本数据。该第一样本数据以及第二样本数据共同构成了推荐模型的训练样本。

在获得训练样本后，利用该训练样本进行模型训练。在训练过程中，具体是利用推荐模型的第一目标函数对第一样本数据进行处理，利用第二目标函数对第二样本数据进行处理，由此提升推荐模型的处理精度。

步骤S130，获取推荐模型的输出结果，并基于输出结果获得与待推荐用户匹配的目标推荐对象。

在一种可选的实施方式中，该推荐模型通过对用户数据的深度学习能够直接输出与待推荐用户匹配的至少一个推荐对象，则该推荐对象即为待推荐用户匹配的目标推荐对象。

在又一种可选的实施方式中，在获得训练好的推荐模型之后，为了提升利用推荐模型进行用户推荐的推荐效率，可以从推荐模型中抽取出各个推荐对象的对象向量，并将推荐对象的对象向量存储至预设检索系统中。由此，本发明实施例在利用推荐模型对用户数据处理后，能够获得与用户数据匹配的用户向量，该用户向量反映了用户最新的推荐对象偏好信息，由此利用推荐模型输出的用户向量与检索系统中的各个对象向量进行相似度匹配，以获得相似度高的至少一个推荐对象，获得的推荐对象便是待推荐用户匹配的目标推荐对象。

由此可见，本发明实施例能够通过训练好的推荐模型来为待推荐用户推荐匹配度高的推荐对象，实现推荐对象的快速且准确地召回；而且本发明实施例中的推荐模型采用了样本用户有过反馈行为的推荐对象以及没有反馈行为的推荐对象的信息进行训练，避免出现样本偏置以及提升推荐模型的预测精度，继而提升推荐对象的获取精度；而且本发明实施例针对样本用户有过反馈行为的推荐对象以及没有反馈行为的推荐对象生成的样本数据采用了不同的目标函数进行处理，由此进一步提升推荐模型的预测精度，以及提升推荐对象的确定精度。

图2示出了本发明实施例提供的一种推荐模型的训练方法的流程示意图。其中，本发明实施例所提供的训练方法可以应用于图1所示的推荐方法实施例中。

如图2所示，该方法包括如下步骤：

步骤S210，从全局推荐对象集合中识别任一样本用户的第一推荐对象以及第二推荐对象。

互联网产品在进行用户推荐时，通常构建有全局推荐对象集合。该全局推荐对象集合中包含有大量的能够推荐给用户的推荐对象。该推荐对象可以为视频、资讯、音乐、和/或电子书籍等等。以互联网产品为视频平台为例，全局推荐对象集合中包含有所有能够推荐给用户的视频，该视频即为推荐对象。

用户在使用互联网产品中会与推荐对象产生相应的交互数据，例如，用户在使用视频平台时，会点击、观看、收藏、转发、设置为喜欢、设置为不喜欢、屏蔽等操作，从而产生用户与推荐对象的交互数据。在现有技术中往往仅利用用户有过交互行为的推荐对象的相关数据进行推荐模型的训练，然而用户有过交互行为的推荐对象仅仅是曝光的推荐对象集合中较少的部分，而曝光的推荐对象集合又仅仅是全局推荐对象集合中的较少的部分，由此，现有技术在进行推荐模型的训练时，会导致严重的样本偏置，继而使得训练获得的推荐模型的预测精度低。

本发明实施例与现有技术不同的是，本发明实施例是利用全局推荐对象集合中大量的推荐对象的相关信息来进行推荐模型的训练，由此使得在对推荐模型训练时以及后续利用推荐模型进行推荐时所对应的推荐对象集合相同，避免样本偏置以及提升推荐模型的预测精度。

在具体的实施过程中，针对于任一样本用户，从全局推荐对象集合中确定出该样本用户的第一推荐对象以及第二推荐对象。其中，该样本用户具体是指互联网平台中的已有用户，互联网平台中通常包含有该用户的相关用户特征数据等等。作为一种可选的实施方式，本发明实施例可以通过互联网平台中是否存储有样本用户与推荐对象的交互数据来识别各个样本用户的第一推荐对象以及第二推荐对象。

该第一推荐对象是指样本用户对该推荐对象有过反馈行为的推荐对象，即互联网平台中存在该样本用户与该第一推荐对象的交互数据。其中，相应的反馈包括但不限于以下反馈：点击、观看/阅读/播放、收藏、转发、设置为喜欢、设置为不喜欢、屏蔽、和/或删除等。即该相应的反馈包括正反馈和/或负反馈。

该第二推荐对象是指样本用户对该推荐对象无反馈行为的推荐对象，即互联网平台中不存在该样本用户与该第二推荐对象的交互数据。例如，推荐对象C1并未在样本用户U1的终端中曝光，从而互联网平台并不存在样本用户U1与推荐对象C1的交互数据，则推荐对象C1为样本用户U1的第二推荐对象；或者，推荐对象C2在样本用户U1的终端中进行了曝光，但样本用户U1未对推荐对象C2进行任何交互操作，则推荐对象C2为样本用户U1的第二推荐对象。

在此应当理解的是，由于每个样本用户的历史交互数据不同，则各个样本用户的第一推荐对象以及第二推荐对象也存在差异。

步骤S220，根据样本用户的用户特征和对应的第一推荐对象的对象特征生成第一样本数据；以及根据样本用户的用户特征和对应的第二推荐对象的对象特征生成第二样本数据。

本发明实施例在生成样本数据时，可以预先提取各个样本用户的用户特征，该用户特征具体是能够表征用户特性的相关数据，如用户身份信息、行为信息等等。并且，还提取全局推荐对象集合中各个推荐对象的对象特征，该对象特征具体是能够表征推荐对象特性的相关数据，如对象类别、对象时长等等。

在步骤S210识别出各个样本用户的第一推荐对象以及第二推荐对象之后，针对于每个样本用户，基于该样本用户的用户特征和该样本用户对应的第一推荐对象的对象特征生成第一样本数据，即第一样本数据具有对应的样本用户以及推荐对象，并且该推荐对象是该样本用户的第一推荐对象。以及，针对于每个样本用户，基于该样本用户的用户特征和该样本用户对应的第二推荐对象的对象特征生成第二样本数据，即第二样本数据具有对应的样本用户以及推荐对象，并且该推荐对象是该样本用户的第二推荐对象。

步骤S230，将第一样本数据以及第二样本数据输入至预先构建的推荐模型中，以供对推荐模型进行模型训练；其中，推荐模型的优化目标函数由第一目标函数以及第二目标函数构成。

预先基于机器学习算法构建推荐模型，本发明实施例对推荐模型的具体结构等不作限定，例如，推荐模型可以基于卷积神经网络构建(如DNN多分类模型)等等。

推荐模型在训练过程中，具体是将第一样本数据以及第二样本数据输入至预先构建的推荐模型中，并通过推荐模型的优化目标函数来计算预测结果与真实标签之间的误差，继而通过误差反向传播算法对推荐模型的参数进行更新，由此达到对推荐模型训练的目的。

与现有技术中对所有样本数据均采用同一目标函数进行处理的方式不同，本发明实施例具体是利用第一目标函数对第一样本数据进行处理，利用第二目标函数对第二样本数据进行处理，基于第一目标函数和第二目标函数生成该推荐模型整体的优化目标函数。

由此可见，本发明实施例利用全局推荐对象集合中的推荐对象来进行推荐模型的训练，由此避免出现样本偏置以及提升推荐模型的预测精度；而且本发明实施例根据样本用户的用户特征和对应的第一推荐对象的对象特征生成第一样本数据，以及根据样本用户的用户特征和对应的第二推荐对象的对象特征生成第二样本数据，并利用第一目标函数对第一样本数据进行处理，以及利用第二目标函数对第二样本数据进行处理，从而针对不同的样本数据采用不同的目标函数来进行优化处理，进一步提升推荐模型的预测精度。

作为本实施例一种可选的实施方式，本方法还包括：为第一样本数据分配正反馈标签或负反馈标签。具体地，在生成第一样本数据之后，根据该样本数据对应样本用户与对应第一推荐对象的交互数据，确定该样本用户对该第一推荐对象的反馈行为类型，该反馈行为类型包括正反馈以及负反馈，继而根据该样本用户对该第一推荐对象的反馈类型为第一样本数据分配正反馈标签或负反馈标签。其中，若样本用户对第一推荐对象有正反馈行为，则为第一样本数据分配正反馈标签；和/或，若样本用户对第一推荐对象有负反馈行为，则为第一样本数据分配负反馈标签。例如，若第一样本数据D1对应样本用户U1以及第一推荐对象U3，若样本用户U1与第一推荐对象U3的交互数据中包含收藏行为数据，则确定样本用户U1对第一推荐对象U3有正反馈行为，则为第一样本数据D1分配正反馈标签；若第一样本数据D2对应样本用户U1以及第一推荐对象U4，若样本用户U1与第一推荐对象U4的交互数据中包含屏蔽行为数据，则确定样本用户U1对第一推荐对象U4有负反馈行为，则为第一样本数据D2分配负反馈标签。

以及，本方法还包括：为第二样本数据分配相似用户偏好标签；其中相似用户偏好标签中包含有样本用户的相似用户的反馈行为信息；反馈行为信息包括相似用户对推荐对象的正反馈行为信息或负反馈行为信息。具体地，第二样本数据对应的样本用户对对应的第二推荐对象无反馈行为，由此并不为该第二样本数据分配正反馈标签或负反馈标签，而是确定出第二样本数据对应样本用户的相似用户，继而根据该相似用户对该第二样本数据对应推荐对象的反馈行为来生成该第二样本数据的相似用户偏好标签。

作为本实施例一种可选的实施方式，在为第二样本数据分配相似用户偏好标签之前，本方法还包括图3所示步骤S310-步骤S330。

步骤S310，确定任一样本用户的兴趣点以及候选相似用户。

针对于任一样本用户，根据该样本用户的历史数据识别出该样本用户的兴趣点(即POI)，该兴趣点可以是某个推荐对象(例如，该兴趣点可以是某热门视频)，也可以是推荐对象的某个整体属性(例如，该兴趣点可以是某视频类型)等等。每个样本用户对应于一个或多个兴趣点。

以及，针对于任一样本用户确定该样本用户的候选相似用户。在一种可选的方式中，为简化候选相似用户的确定操作，每个样本用户的候选相似用户相同，均可以为样本用户集合中除当前样本用户之外的其他样本用户。在另一种可选的方式中，为例简化后续操作，可以将与该样本用户具有同一兴趣点的用户作为该样本用户的候选相似用户。

步骤S320，获取候选相似用户与样本用户针对同一兴趣点的兴趣点相似度。

针对于同一兴趣点，计算各个候选相似用户与该样本用户的兴趣点相似度。该兴趣点相似度表明了候选相似用户与该样本用户在该兴趣点的行为相似程度。例如，可以基于候选相似用户与该样本用户针对该兴趣点的兴趣度差值确定相应的兴趣点相似度，又或者基于候选相似用户与该样本用户针对该兴趣点的兴趣度变化趋势确定相应的兴趣点相似度等等。

可选的，为了提升兴趣点相似度的获取精度，本发明实施例具体可采用图4所示步骤S321-步骤S323来基于兴趣度变化趋势确定相应的兴趣点相似度：

步骤S321，获取样本用户针对兴趣点的兴趣度变化趋势，以及获取候选相似用户针对兴趣点的兴趣度变化趋势。

其中，用户针对兴趣点的兴趣度变化趋势通过如下方式获得：分别获取预设时间窗口内每个时间单位内用户针对兴趣点的兴趣度，按照时间单位的时序关系对每个时间单位的兴趣度进行排列，由此生成用户针对兴趣点的兴趣度变化趋势。例如可以基于最近10天内每条用户的快照数据，来确定出最近10天内每天用户针对兴趣点的兴趣度，继而按照时间先后顺序对确定出的兴趣度进行排列得到兴趣度变化趋势。其中，兴趣度的具体获取方式可采用现有的兴趣度评价算法获得，本发明实施例对此不作限定。

具体地，兴趣度变化趋势可以以序列方式呈现。如表1所示，表1示出了用户user1、user2以及user2在最近10天内每天针对兴趣点Tagk的兴趣度。

表1、兴趣度序列

另外，兴趣度变化趋势还可以以图5所示的折线图展示。图5中，每条折线对应于一个用户，并且每个绘制点的横坐标为对应的单位时间，纵坐标为兴趣度。

步骤S322，计算候选相似用户与样本用户针对同一兴趣点的兴趣点变化趋势相似度。

本发明实施例对兴趣点变化趋势相似度的具体算法不作限定。例如，可以通过欧式距离算法或DTW(动态时间归整)算法进行计算。

优选的，由于会存在不同用户对应的兴趣点变化趋势的序列长度不同，而且时间单位不同的情况，若采用欧式距离算法直接计算兴趣点变化趋势的序列的欧式距离会存在较大误差。基于此，本发明实施例优选采用DTW算法来计算任意两个用户对应的兴趣点变化趋势之间的相似度，由此提升本方法的适用范围以及提升兴趣点变化趋势相似度确定精度。

具体地，DTW算法具体是计算两个序列各个点之间的距离矩阵，并寻找一条从矩阵左上角到右下角的路径，使得路径上的元素和最小。例如，可以通过如下公式1来计算用户useri、userj针对兴趣点Tagk的兴趣点变化趋势相似度的负相关参数

其中，

越小，表示用户useri、userj针对兴趣点Tagk的兴趣点变化趋势相似度越高：

公式1中，

表示T单位时间，用户useri、userj针对兴趣点Tagk的兴趣度的欧式距离。

通过上述公式1的递归，能够获得useri、userj针对兴趣点Tagk的兴趣度变化趋势序列的最短路径，继而获得useri、userj针对兴趣点Tagk的兴趣点变化趋势相似度。

步骤S323，将候选相似用户与样本用户针对同一兴趣点的兴趣点变化趋势相似度作为候选相似用户与样本用户针对该兴趣点的兴趣点相似度。

步骤S322计算获得的候选相似用户与样本用户针对同一兴趣点的兴趣点变化趋势相似度，能够表征用户间针对同一兴趣点的趋势相似程度，继而该兴趣点变化趋势相似度可以表征用户对同一兴趣点的行为相似程度，由此将候选相似用户与样本用户针对同一兴趣点的兴趣点变化趋势相似度作为候选相似用户与样本用户针对该兴趣点的兴趣点相似度。

步骤S330，将与样本用户针对同一兴趣点的兴趣点相似度大于预设阈值的候选相似用户，确定为该样本用户的相似用户。

具体地，若某候选相似用户与样本用户针对同一兴趣点的兴趣点相似度大于预设阈值，则将该候选相似用户确定为该样本用户的相似用户。

即样本用户的相似用户集合可通过如下公式2表示：

公式2中，Neig

表示样本用户的相似用户集合，

表示样本用户与相似用户的兴趣点相似度的负相关参数，该负相关参数越小，则兴趣点相似度越大，threshold为预设阈值的负相关参数，threshold越小，预设阈值越大。

此外，为了提升推荐模型的训练速度，可以预先确定出各个样本用户的相似用户。

作为本实施例一种可选的实施方式，第一目标函数可以为二分类的最大似然函数。可选的，第一目标函数具体可以如公式3所示。

公式3中，L₁是第一目标函数，p(y|x；θ)为条件概率，其具体如公式4所示，θ为分类模型参数，σ是Sigmoid函数，L(y)是标签指示函数，正反馈标签对应的L(y)＝1，负反馈标签对应的L(y)＝0。

作为本实施例一种可选的实施方式，第二目标函数融合有样本用户与对应的相似用户的兴趣点相似度，以及，第二目标函数融合有相似用户对推荐对象的正反馈行为信息或负反馈行为信息。即本发明实施例中的第二目标函数可以在第一目标函数的基础上，进一步利用样本用户与对应的相似用户的兴趣点相似度，以及相似用户对推荐对象的正反馈行为信息或负反馈行为信息对第一目标函数进行修正以得到第二目标函数。

可选的，第二目标函数可以基于最大似然估计函数构建，其具体可以如公式5所示：

公式5中，L₂是第二目标函数，p(y|x；θ)为条件概率，θ为分类模型参数，σ是Sigmoid函数，Neighbor(u)为样本用户u的相似用户集合，L(yⁱ)是相似用户i的标签指示函数，若相似用户i对推荐对象为正反馈信息，则L(yⁱ)＝1，若相似用户i对推荐对象为负反馈信息，则L(yⁱ)＝0，r_i为样本用户u与相似用户i的兴趣点相似度，其具体如公式6所示。

公式6中，

为公式1中的负相关参数。

作为本实施例一种可选的实施方式，可以将第一目标函数与第二目标函数的和作为该推荐模型的优化目标函数，具体如公式7所示。此外，还可以将第一目标函数与第二目标函数的加权和作为该推荐模型的优化目标函数等等。

L＝L₁+L₂(公式7)

公式7中，L为推荐模型的优化目标函数，L₁为第一目标函数，L₂为第二目标函数。

作为本实施例一种可选的实施方式，图6示出了本发明实施例提供的一种推荐模型的数据流转示意图。如图6所示，推荐模型采用DNN多分类模型，在训练过程中，输入的数据包括：用户特征(User Feature)、对象特征(Item Feature)、上下文特征(ContextFeature)、以及包括相似用户偏好标签(User All Neighbor’s Labels)的标签。其中，上下文特征具体包括上下文等能够辅助推荐模型决策的信息，例如上下文特征可以包括用户所使用的终端的设备型号、行为发生时间等信息。用户特征、对象特征以及上下文特征进入推荐模型的共享层(Share Embedding Layer)，继而经过池化层(Poling Layer)、三个relu层。最终在训练时将relu层的结果与标签在SoftMax融合计算，并得出分类概率(ClassProbabilities),继而通过负反馈来进行模型参数的调整完成模型训练。

作为本实施例一种可选的实施方式，仍如图6所示，在推荐模型训练完成之后，为了提升利用推荐模型进行用户推荐的推荐效率，可以从推荐模型中抽取出各个推荐对象的对象向量(video vector v)，例如获取Item集合的Embedding，并存储进ANN检索系统(Index)，例如可以存储至FAISS中，由此便于后续的查询等处理。

图7示出了本发明实施例提供的一种推荐装置的结构示意图。如图7所示，推荐装置包括如下模块：

第一获取模块710，用于获取待推荐用户的用户数据；其中，所述用户数据中包含所述待推荐用户在预设历史时间窗口内针对历史推荐对象的反馈行为数据；

输入模块720，用于将所述用户数据输入至预先训练好的推荐模型中；其中，所述推荐模型由样本用户的第一样本数据以及第二样本数据训练获得，所述第一样本数据包含第一推荐对象的对象特征，并且所述样本用户对所述第一推荐对象有反馈行为；所述第二样本数据包含第二推荐对象的对象特征，并且所述样本用户对所述第二推荐对象无反馈行为；以及所述推荐模型包括对所述第一样本数据进行处理的第一目标函数，和对所述第二样本数据进行处理的第二目标函数；

第二获取模块730，用于获取所述推荐模型的输出结果，并基于所述输出结果获得与所述待推荐用户匹配的目标推荐对象。

在一种可选的实施方式中，推荐装置还包括：训练模块，用于从全局推荐对象集合中识别任一样本用户的第一推荐对象以及第二推荐对象；

根据所述样本用户的用户特征和对应的第一推荐对象的对象特征生成第一样本数据；以及根据所述样本用户的用户特征和对应的第二推荐对象的对象特征生成第二样本数据；

将所述第一样本数据以及所述第二样本数据输入至预先构建的推荐模型中，以对所述推荐模型进行模型训练；

其中，所述推荐模型的优化目标函数由第一目标函数以及第二目标函数构成。

在一种可选的实施方式中，训练模块进一步用于：若所述样本用户对所述第一推荐对象有正反馈行为，则为所述第一样本数据分配正反馈标签；

和/或，若所述样本用户对所述第一推荐对象有负反馈行为，则为所述第一样本数据分配负反馈标签。

在一种可选的实施方式中，训练模块进一步用于：为所述第二样本数据分配相似用户偏好标签；

其中，所述相似用户偏好标签中包含有所述样本用户的相似用户的反馈行为信息；所述反馈行为信息包括所述相似用户对推荐对象的正反馈行为信息或负反馈行为信息。

在一种可选的实施方式中，所述装置还包括：相似用户确定模块，用于确定任一样本用户的兴趣点以及候选相似用户；

获取所述候选相似用户与所述样本用户针对同一兴趣点的兴趣点相似度；

将与所述样本用户针对同一兴趣点的兴趣点相似度大于预设阈值的候选相似用户，确定为所述样本用户的相似用户。

在一种可选的实施方式中，相似用户确定模块进一步用于：获取所述样本用户针对所述兴趣点的兴趣度变化趋势，以及获取所述候选相似用户针对所述兴趣点的兴趣度变化趋势；

计算所述候选相似用户与所述样本用户针对同一兴趣点的兴趣点变化趋势相似度；

将所述候选相似用户与所述样本用户针对同一兴趣点的兴趣点变化趋势相似度作为，所述候选相似用户与所述样本用户针对所述兴趣点的兴趣点相似度。

在一种可选的实施方式中，所述第二目标函数融合有所述样本用户与对应的所述相似用户的兴趣点相似度，以及，所述第二目标函数融合有所述相似用户对推荐对象的正反馈行为信息或负反馈行为信息。

本装置各模块的具体功能及实施过程可参照相应方法实施例中的步骤，在此不作赘述。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的推荐方法。

图8示出了本发明实施例提供的一种计算设备的结构示意图。本发明具体实施例并不对计算设备的具体实现做限定。

如图8所示，该计算设备可以包括：处理器(processor)802、通信接口(Communications Interface)804、存储器(memory)806、以及通信总线808。

其中：处理器802、通信接口804、以及存储器806通过通信总线808完成相互间的通信。通信接口804，用于与其它设备比如客户端或其它服务器等的网元通信。处理器802，用于执行程序810，具体可以执行上述方法实施例中的相关步骤。

具体地，程序810可以包括程序代码，该程序代码包括计算机操作指令。

处理器802可能是中央处理器CPU，或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器806，用于存放程序810。存储器806可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。程序810具体可以用于使得处理器802执行上述方法实施例中的步骤。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明的内容，并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤，除有特殊说明外，不应理解为对执行顺序的限定。

Claims

1.一种推荐方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述推荐模型通过如方式训练获得：

从全局推荐对象集合中识别任一样本用户的第一推荐对象以及第二推荐对象；

3.根据权利要求2所述的方法，其特征在于，在所述生成第一样本数据之后，所述方法还包括：

若所述样本用户对所述第一推荐对象有正反馈行为，则为所述第一样本数据分配正反馈标签；

4.根据权利要求2或3所述的方法，其特征在于，在所述生成第二样本数据之后，所述方法还包括：

为所述第二样本数据分配相似用户偏好标签；

5.根据权利要求4所述的方法，其特征在于，在所述为所述第二样本数据分配相似用户偏好标签之前，所述方法还包括：

确定任一样本用户的兴趣点以及候选相似用户；

6.根据权利要求5所述的方法，其特征在于，所述获取所述候选相似用户与所述样本用户针对同一兴趣点的兴趣点相似度进一步包括：

获取所述样本用户针对所述兴趣点的兴趣度变化趋势，以及获取所述候选相似用户针对所述兴趣点的兴趣度变化趋势；

7.根据权利要求5或6所述的方法，其特征在于，所述第二目标函数融合有所述样本用户与对应的所述相似用户的兴趣点相似度，以及，所述第二目标函数融合有所述相似用户对推荐对象的正反馈行为信息或负反馈行为信息。

8.一种推荐装置，其特征在于，包括：

9.一种计算设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的推荐方法对应的操作。

10.一种计算机存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如权利要求1-7中任一项所述的推荐方法对应的操作。