CN109885774B

CN109885774B - 个性化内容的推荐方法、装置及设备

Info

Publication number: CN109885774B
Application number: CN201910150220.5A
Authority: CN
Inventors: 田勇; 黄俊逸; 王琳; 王天驹; 叶璨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2022-02-08
Anticipated expiration: 2039-02-28
Also published as: CN109885774A

Abstract

本申请是关于一种个性化内容的推荐方法、装置及设备。其中，一种个性化内容的推荐方法，应用于服务器，在接收到客户端关于请求目标内容的内容请求后，获取与目标内容对应的多个候选内容；按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时处于在线使用状态的算法；预设的调用规则用于保证在第一预设时间段内选择当前强化学习模型作为所述目标模型的第一概率，小于选择备用模型的第二概率；利用目标模型从多个候选内容中确定目标内容，向客户端推荐目标内容。通过本方案能够提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度。

Description

个性化内容的推荐方法、装置及设备

技术领域

本申请涉及机器学习技术领域，尤其涉及一种个性化内容的推荐方法、装置及设备。

背景技术

为了提高用户体验，各类应用，例如音乐应用，购物应用，新闻应用以及视频应用等，会针对不同的用户，推荐符合该用户喜好的个性化内容。相关技术中，各类应用的服务器在接收到客户端发送的用于获取目标内容的内容请求后，获取该目标内容对应的多个候选内容，进而采用强化学习模型，从多个候选内容中确定目标内容，该目标内容为待向用户推荐的内容，从而向客户端推荐所确定的目标内容。

上述强化学习模型可以预先利用样本数据训练得到，其中，样本数据包括样本内容请求、样本内容请求对应的样本候选内容、样本目标内容以及用户对样本目标内容的样本反馈信息。而训练至上线使用通常需要经过一定的时间，此时，用户的个性化需求可能会出现变化，导致上线使用后强化学习模型确定的个性化内容，可能并不符合用户需求。因此，在具体应用中，会对强化学习模型进行在线训练，以尽可能减少强化学习模型的训练与上线使用之间的时间差异，进而减少强化学习模型确定的个性化内容与用户实际需求之间的差异，从而提高向用户推荐的内容的准确度。

但是，在线训练时，强化学习模型被训练至能够准确地确定出目标内容，仍然需要经过一定时间，这样，导致在开始训练后的一定时间段内，向用户推荐的目标内容的准确度较低。因此，如何提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度，是亟待解决的问题。

发明内容

为克服相关技术中存在的问题，本申请提供一种个性化内容的推荐方法、装置及设备。

根据本申请实施例的第一方面，提供一种个性化内容的推荐方法，应用于服务器，所述方法包括：

在接收到客户端关于请求目标内容的内容请求后，获取与所述目标内容对应的多个候选内容；

按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，所述备用模型为用于基于所述多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；所述当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；所述预设的调用规则为：用于保证在第一预设时间段内，确定所述当前强化学习模型作为所述目标模型的第一概率，小于确定所述备用模型的第二概率的规则；

利用所述目标模型，从所述多个候选内容中确定所述目标内容；

向所述客户端推荐所述目标内容。

可选的，所述按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型的步骤，包括：

基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的当前第一概率；其中，所述预设的线性增长公式为使当前第一概率线性增长到1的公式；在第一次确定目标模型时，待利用的当前第一概率为0；

判断所述当前第一概率是否符合预定条件，所述预定条件至少包括：小于1，或者，小于1且不等于0；

当判断结果为符合预定条件时，利用预设的随机数生成算法，生成一个随机数；判断所述随机数是否大于所述当前第一概率；如果所述随机数大于所述当前第一概率，确定所述备用模型作为目标模型，否则，确定所述当前强化学习模型作为目标模型。

可选的，在所述判断所述当前第一概率是否符合预定条件的步骤之后，所述方法还包括：

当判断结果为不符合预定条件时，如果所述当前第一概率等于1，则确定所述当前强化学习模型作为目标模型。

可选的，如果所述预定条件为小于1且不等于0时，当判断结果为不符合预定条件时，所述方法还包括：

如果所述当前第一概率等于0，则确定所述备用模型作为目标模型。

可选的，所述方法还包括：

当接收到表明所述当前强化学习模型不可使用的通知时，判断是否存在当前第一概率；

如果存在当前第一概率，将所述当前第一概率设置为0；如果不存在当前第一概率，将上一次确定目标模型时所利用的第一概率设置为0；

在所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，确定当前目标模型时待利用的第一概率之前，所述方法还包括：

判断上一次确定目标模型是否为非首次确定目标模型，以及上一次确定目标模型时所利用的第一概率是否为0；

当至少存在一个判断结果为否时，执行所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的第一概率的步骤。

可选的，所述方法还包括：

当上一次确定目标模型为非首次确定目标模型、且上一次确定目标模型时所利用的第一概率为0时，确定所述备用模型作为目标模型。

可选的，在所述向所述客户端推荐所述目标内容之后，所述方法还包括：

接收所述客户端返回的用于表明用户是否喜欢所述目标内容的反馈信息；

利用所述内容请求、所述多个候选内容、所述目标内容以及所述反馈信息，构建样本数据；

所述方法还包括：

在训练进程未进行训练、且满足预设进程触发条件时，调用所述训练进程，以使所述训练进程利用已存在的样本数据对所述当前强化学习模型进行训练；其中，在进行第一次训练时，所述当前强化学习模型为预设的初始强化学习模型。

可选的，所述训练进程采用如下步骤对所述当前强化学习模型进行训练：

在每利用一个样本数据进行训练前，检测当前的参考值是否小于预定数值；其中，所述参考值为：基于所述训练进程利用相同的样本数据进行训练的允许次数所设定的值；

如果当前的参考值不小于预定数值，执行所述利用一个样本数据进行训练，并对当前的参考值减去1，得到变更后的参考值，否则，结束本次的训练；并在进行训练的过程中，执行如下步骤：

当检测到存在新的样本数据时，统计构建的时间点属于第二预设时间段的样本数据的样本数量；基于所述样本数量和当前的参考值，利用预设的参考值公式，计算变更后的参考值。

可选的，所述预设的参考值公式为：

N_t＝rN_t-1+km；

其中，所述N_t为所述变更后的参考信息，所述N_t-1为所述当前的参考值，当进行第一次训练时，所述N_t-1为0，所述r为预设的用于限制已利用的样本数据的重复利用次数的第一系数，所述k为预设的用于限制构建的时间点属于第二预设时间段的样本数据的重复利用次数的第二系数，所述m为所述样本数量。

可选的，所述当前强化学习模型的训练为对所述当前强化学习模型的模型副本进行训练；

在所述调用训练进程的步骤之后，所述方法还包括：

当所述模型副本被训练至出现变更时，获取变更后的模型副本；

将所述当前强化学习模型更新为所获取的变更后的模型副本。

根据本申请实施例的第二方面，提供一种个性化内容的推荐装置，应用于服务器，所述装置包括：

候选内容获取模块，被配置为在接收到客户端关于请求目标内容的内容请求后，执行获取与所述目标内容对应的多个候选内容；

目标模型确定模块，被配置为执行按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，所述备用模型为用于基于所述多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；所述当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；所述预设的调用规则为：用于保证在第一预设时间段内，确定所述当前强化学习模型作为所述目标模型的第一概率，小于确定所述备用模型的第二概率的规则；

目标内容确定模块，被配置为执行利用所述目标模型，从所述多个候选内容中确定所述目标内容；

推荐模块，被配置为执行向所述客户端推荐所述目标内容。

可选的，所述目标模型确定模块，被配置为执行：

可选的，所述目标模型确定模块，被配置为在所述判断所述当前第一概率是否符合预定条件的步骤之后，当判断结果为不符合预定条件时，如果所述当前第一概率等于1，执行确定所述当前强化学习模型作为目标模型。

可选的，如果所述预定条件为小于1且不等于0时，所述目标模型确定模块，被配置为当判断结果为不符合预定条件时，如果所述当前第一概率等于0，执行确定所述备用模型作为目标模型。

可选的，所述装置还包括：概率设置模块，被配置为当接收到表明所述当前强化学习模型不可使用的通知时，执行判断是否存在当前第一概率；在存在当前第一概率，将所述当前第一概率设置为0时；在不存在当前第一概率时，将上一次确定目标模型时所利用的第一概率设置为0；

所述目标模型确定模块，被配置为在所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，确定当前目标模型时待利用的第一概率之前，执行判断上一次确定目标模型是否为非首次确定目标模型，以及上一次确定目标模型时所利用的第一概率是否为0；当至少存在一个判断结果为否时，执行所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的第一概率的步骤。

可选的，所述目标模型确定模块，被配置为在上一次确定目标模型为非首次确定目标模型、且上一次确定目标模型时所利用的第一概率为0时，执行确定所述备用模型作为目标模型。

可选的，所述推荐模块，被配置为在所述向所述客户端推荐所述目标内容之后，执行接收所述客户端返回的用于表明用户是否喜欢所述目标内容的反馈信息；利用所述内容请求、所述多个候选内容、所述目标内容以及所述反馈信息，构建样本数据；

所述装置还包括：训练模块，被配置为在训练进程未进行训练、且满足预设进程触发条件时，执行调用所述训练进程，以使所述训练进程利用已存在的样本数据对所述当前强化学习模型进行训练；其中，在进行第一次训练时，所述当前强化学习模型为预设的初始强化学习模型。

可选的，所述预设的参考值公式为：

Nt＝rNt-1+km；

其中，所述Nt为所述变更后的参考信息，所述Nt-1为所述当前的参考值，当进行第一次训练时，所述Nt-1为0，所述r为预设的用于限制已利用的样本数据的重复利用次数的第一系数，所述k为预设的用于限制构建的时间点属于第二预设时间段的样本数据的重复利用次数的第二系数，所述m为所述样本数量。

所述训练模块，被配置为在所述调用训练进程的步骤之后，当所述模型副本被训练至出现变更时，执行获取变更后的模型副本；将所述当前强化学习模型更新为所获取的变更后的模型副本。

根据本申请实施例的第三方面，提供一种电子设备，该电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行存储器上所存放的可执行指令时，实现上述第一方面所述的任一个性化内容的确定方法的步骤。

根据本申请实施例的第四方面，提供一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行上述第一方面所述的任一个性化内容的推荐方法的步骤。

根据本申请实施例的第五方面，提供一种计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述第一方面所述的任一个性化内容的推荐方法的步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：由于备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法，因此，与上线后进行在线训练的当前强化学习模型相比，备用模型所确定的目标内容与用户实际需求之间的差异相对而言更小；并且，预设的调用规则为在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型作为目标模型的第二概率。因此，按照预设的调用规则，能够在第一预设时间段内，尽可能多地将所确定的目标内容与用户实际需求之间的差异相对而言更小的备用模型作为目标模型，从而减少将上线后进行在线训练的、在一定时间段内所确定的目标内容不准确的当前强化学习模型作为目标模型时，造成的目标内容不准确的情况。可见，通过本方案能够提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是根据一示例性实施例示出的一种个性化内容的推荐方法的流程图。

图2是根据另一示例性实施例示出的一种个性化内容的推荐方法的流程图。

图3是根据一示例性实施例示出的一种个性化内容的推荐装置的框图。

图4是根据一示例性实施例示出的一种电子设备的框图。

图5是根据另一示例性实施例示出的一种电子设备的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在具体应用中，本申请实施例提供的个性化内容的推荐方法的执行主体可以为服务器，该服务器为存在个性化内容推荐需求的任一系统中的服务器。示例性的，该服务器可以是直播系统中用于推荐个性化内容的服务器，也可以是即时通信系统中用于推荐个性化内容的服务器，还可以是购物系统中用于推荐个性化内容的服务器。

相应的，该服务器向系统的客户端推荐所确定的个性化内容是多样的。示例性的，该服务器可以向直播系统的客户端推荐个性化的视频和用户，也可以向即时通信系统的客户端推荐个性化的资讯、应用以及用户，还可以向购物系统的客户端推荐个性化的商品。

图1是根据一示例性实施例示出的一种个性化内容的确定方法的流程图，如图1所示，一种个性化内容的推荐方法，应用于服务器，该方法可以包括以下步骤：

步骤S101，在接收到客户端关于请求目标内容的内容请求后，获取与目标内容对应的多个候选内容。

其中，内容请求用于告知服务器确定与内容请求对应的目标内容，因此，内容请求携带的内容需要表明能够用于确定目标内容的信息，相应的，内容请求携带的内容可以是多样的。示例性的，内容请求携带的内容可以是至少一种能够用于确定目标内容的信息本身，例如，用户属性信息、处理信息以及内容属性信息这三种信息中的至少一种；其中，用户属性信息可以为用户的性别、年龄以及所在位置等等，处理信息可以为用户对历史推荐的目标内容的播放、浏览、点赞以及收藏等等，内容属性信息可以为所请求的目标内容的名称和类型等等。或者，示例性的，内容请求携带的内容可以是将至少一种能够用于确定目标内容的信息进行处理后的报文，例如，从用户属性信息、处理信息以及内容属性信息这三种信息中的至少一种中，提取相应信息中符合预设条件的字符，如提取用户属性信息中的字符“女”，字符“18”等等，将提取的字符构建为字符串，如字符串“女18北京播放收藏”等等，生成包含字符串的报文。

候选内容的获取方式可以是多样的。示例性的，候选内容可以是基于内容请求，利用预设的推荐算法，从海量内容中获取与目标内容对应的多个候选内容。其中，预设的推荐算法具体可以是内容关联算法、协同过滤算法以及逻辑回归预测算法等等。任何能够确定与目标内容对应的多个候选内容的推荐算法均可用于本申请，本实施例对此不作限制。

另外，目标内容的数量可以由内容请求指定，也可以由服务器指定。示例性的，目标内容的数量可以是1个，也可以是多个。无论目标内容的数量由谁指定，当目标内容的数量为多个时，由于当前强化学习模型为寻求全局最优解的模型，且当前强化学习是否被用于确定目标内容需要由后续步骤S102确定，因此，为了确定多个目标内容，后续需要针对每个目标内容，执行一遍步骤S102和步骤S103。例如，待确定的目标内容包括的数量为2个，与目标内容对应的多个候选内容的数量为5个，则针对待确定的第一个目标内容，执行步骤S102和S103，从5个候选内容中确定1个目标内容，针对待确定的第二个目标内容，执行步骤S102和S103，从除已被确定为第一个目标内容以外的4个候选内容中确定第二个目标内容。

步骤S102，按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；预设的调用规则为：用于保证在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型的第二概率的规则。

其中，用于基于多个候选内容确定个性化内容的备用模型可以是多种的。示例性的，备用模型可以是第一强化学习模型，第一强化学习模型与当前强化学习模型相比，模型的结构和模型的参数中至少有一个不相同。或者，示例性的，备用模型可以是预设的监督式学习模型，例如，卷积神经网络模型，支持向量机以及决策树学习算法等等。对于备用模型处于在线使用状态，举例而言，可以是用于视频系统的当前强化学习模型于2018年1月2日10:00上线，则备用模型在2018年1月2日10:00之前已用于该视频系统的个性化内容的确定，并且在2018年1月2日10:00仍然被该视频系统用于确定个性化内容。此外，对于备用模型基于多个候选内容确定个性化内容，为了便于理解和合理布局，在后续步骤S103中进行具体描述。

为了提高在当前强化学习模型开始进行在线训练后的一定时间段内，服务器确定的目标内容的准确度，可以预先设置用于从备用模型和当前强化学习模型中确定目标模型的调用规则，该调用规则为保证在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型的第二概率的规则。示例性的，预设的调用规则具体可以是：在第一预设时间段内，确定备用模型作为目标模型；如果在第一预设时间段之后，确定当前强化学习模型作为目标模型，并在后续目标内容的确定中始终将强化学习模型作为目标模型。可以理解的是，在本示例性描述中，第一预设时间段内确定当前强化学习模型作为目标模型的第一概率0，小于确定备用模型作为目标模型的第二概率1。其中，第一预设时间段为当前强化学习模型的上线时间点，至上线时间点之后预设时长的时间点之间的时间段，预设时长可以是根据历史经验确定的将强化学习模型训练至能够准确地确定出目标内容的时长。例如，根据历史经验，强化学习模型训练至能够准确地确定出目标内容的时长通常为30分钟，则预设时长为30分钟，当前强化学习模型的上线时间点为12:00，则第一预设时间段为12:00至12:30。在12:00至12:30的时间段内，确定备用模型作为目标模型，在12:30之后始终将强化学习模型作为目标模型。需要说明的是，如果在第一预设时间段之后，确定当前强化学习模型作为目标模型，则在后续目标内容的确定中，与上述始终将强化学习模型作为目标模型不同的是，也可以按照预设的调用规则，从当前强化学习模型和备用模型中，确定目标模型；此时，预设的调用规则可以是与本示例性描述中不同的规则。其中，与本示例性描述中不同的预设的调用规则，可以是后续对预设的调用规则的示例性描述中的规则。

或者，示例性的，预设的调用规则具体可以是：利用能够使第一概率线性增长到预设值的预设的线性增长公式，计算第一概率，按照第一概率和第二概率，从当前强化学习模型和备用模型中确定目标模型，其中第二概率为确定备用模型作为目标模型的概率。可以理解的是，由于目标模型是从当前强化学习模型和备用模型中确定的，将其中一个模型确定为目标模型时，另一个模型不会被确定为目标模型，因此，第一概率与第二概率的和为1。其中，可以通过对预设的线性增长公式中第一概率的线性增长速度进行设置，使第一概率在第一预设时间段内小于第二概率。为了便于理解和合理布局，后续采用可选实施例的方式对本示例性描述中的预设的调用规则进行具体说明。

需要说明的是，任何能够用于保证在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型的第二概率的规则，均可作为本申请中预设的调用规则，本实施例对此不作限制。

此外，为了便于理解和合理布局，对于当前强化学习模型的训练，在后续图2可选实施例中进行具体描述。

步骤S103，利用目标模型，从多个候选内容中确定目标内容。

其中，由于预设的调用规则为用于保证在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型的第二概率的规则，因此，在当前强化学习模型上线后进行在线训练的一定时间段内，利用当前强化学习模型确定的目标内容少于利用备用模型确定的目标内容，从而减少了利用确定结构不准确的当前强化学习模型确定的不准确的目标内容，提高目标内容确定的准确度。例如，当前强化学习模型在12:00上线后，可能需要经过40分钟才能训练至准确地确定出目标内容，一定时间段为12:00至12:40，在该时间段内，当前强化学习模型的确定结果不准确；12:00至12:40要确定80个目标内容；第一预设时间段为12:00至12:40。由于第一概率小于第二概率，因此，在12:00至12:40内，确定备用模型作为目标模型的次数大于确定当前强化学习模型作为目标模型的次数，相应的，备用模型确定的目标内容的数量大于当前强化学习模型确定的目标内容的数量，则在12:00至12:40时间段内，所确定的准确的目标内容的数量大于所确定的不准确的目标内容的数量，如准确的目标内容的数量为70个，不准确的目标内容的数量为10个。而传统的目标内容确定方法中，当前强化学习模型在12:00上线后，完全利用当前强化学习模型确定目标内容，则在一定时间段12:00至12:40内，确定的全部目标内容均为确定结果不准确的当前强化学习模型确定的，所确定的不准确的目标内容的数量为80个。可见，传统方式确定的不准确的目标内容的数量80，大于按照本申请实施例的方式确定的不准确的目标内容的数量10，由此，在一定时间段12:00至12:40内，减少了不准确的目标内容的数量，本申请实施例的方式能够提高目标内容确定的准确度。

需要说明的是，除了将第一预设时间段设置为等于当前强化学习模型的确定结果不准确的一定时间段，还可以将第一预设时间段设置为大于当前强化学习模型的确定结果不准确的一定时间段，以尽可能多的减少不准确的目标内容的数量。例如，第一预设时间段为12:00至13:00等等，此时，与第一预设时间段等于一定时间段相比，由于第一预设时间段大于由历史经验确定的一定时间段，当出现当前强化学习模型训练至准确的时间超出历史经验的情况时，能够尽可能减少在当前强化学习模型的确定结果尚未准确时，利用当前强化学习模型完全替代从备用模型和当前强化学习模型中选择一个的目标模型确定方式的情况发生，因此，相对而言，能够尽可能多的减少不准确的目标内容的数量。

此外，当目标模型为备用模型、且备用模型为上述步骤S102的示例性描述中，预设的监督式学习模型时，利用目标模型，从多个候选内容中确定目标内容的具体方式可以为多种。示例性的，如果备用模型的输出为表征所确定的目标内容与用户喜好的符合程度时，利用目标模型，从多个候选内容中确定目标内容，具体可以包括：将多个候选内容输入备用模型，得到备用模型输出的对应于候选内容的符合程度，按照符合程度从高到低的顺序，从多个候选内容中选择预设数量个作为目标内容；其中，预设数量可以包括在内容请求中，也可以预先存储在服务器中，符合程度可以是评分，评分值越高，越符合用户喜好。或者，示例性的，如果备用模型的输出为表征每个候选内容的类型信息时，利用目标模型，从多个候选内容中确定目标内容，具体可以包括：将多个候选内容分别输入备用模型，得到备用模型输出的对应于候选内容的类型信息，针对每个候选内容，将预设的类型信息与权值的对应关系中，和该候选内容的类型信息对应的权值确定为该候选内容的权值，按照候选内容的权值从高到低的顺序，从多个候选内容中选择预设数量个作为目标内容；其中，类型信息为能够反映对候选内容与用户喜好的符合程度的影响程度的信息，具体可以为候选内容的是否为热门内容、候选内容是否被内容请求对应的用户浏览过、候选内容为用户历史喜好内容的相似内容、候选内容是否被用户收藏、以及候选内容为用户的相似用户的历史喜好内容中，与用户历史喜好不同的内容等等。

需要说明的是，当目标模型为当前强化学习模型时，由于当前强化学习模型为寻求全局最优解的模型，因此，利用当前强化学习模型时，需要输入能够反映全局情况的数据，如多个候选内容和内容请求等等；并且，如果是确定多个目标内容，需要针对每个待确定的目标内容寻求全局最优解，此时，需要输入对应于该待确定的目标内容的反映全局情况的数据。示例性的，利用目标模型，从多个候选内容中确定目标内容，具体可以包括：针对每个待确定的目标内容，将未被确定为目标内容的多个候选内容和内容请求输入当前强化学习模型，得到当前强化学习模型输出的未被确定为目标内容的多个候选内容，与用户喜好的符合程度，按照符合程度从高到低的顺序，从多个候选内容中选择符合程度最高的一个作为目标内容。例如，预设数量为2个，候选内容为5个，针对第一个待确定的目标内容，将5个候选内容和内容请求输入当前强化学习模型，得到当前强化学习模型输出的5个候选内容各自对应的符合程度，按照符合程度从高到低的顺序，从5个候选内容中选择符合程度最高的候选内容A作为目标内容；针对第二个待确定的目标内容，将除候选内容A以外的余下4个候选内容和内容请求输入当前强化学习模型，得到当前强化学习模型输出的这4个候选内容各自对应的符合程度，按照符合程度从高到低的顺序，从这4个候选内容中选择符合程度最高的候选内容B作为目标内容。由此，确定了预设数量2个目标内容。

步骤S104，向客户端推荐目标内容。

其中，目标内容的推荐方式可以是多种的。示例性的，可以是服务器向客户端发送所确定的目标内容，也可以是服务器向客户端发送所确定的目标内容的获取地址，以使得客户端按照获取地址获取所确定的目标内容。任何推荐目标内容的方式均可用于本发明，本实施例对此不作限制。

本申请的实施例提供的技术方案可以包括以下有益效果：由于备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法，因此，与上线后进行在线训练的当前强化学习模型相比，备用模型所确定的目标内容与用户实际需求之间的差异相对而言更小；并且，预设的调用规则为在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型作为目标模型的第二概率。因此，按照预设的调用规则，能够在第一预设时间段内，尽可能多地将所确定的目标内容与用户实际需求之间的差异相对而言更小的备用模型作为目标模型，从而减少将上线后进行在线训练的、在一定时间段内所确定的目标内容不准确的当前强化学习模型作为目标模型时，造成的目标内容不准确的情况。可见，通过本方案能够提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度

可选的，上述本申请图1实施例中的步骤S102，具体可以包括如下步骤A1至A3：

步骤A1，基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的当前第一概率；其中，预设的线性增长公式为使当前第一概率线性增长到1的公式；在第一次确定目标模型时，待利用的当前第一概率为0。

其中，预设的线性增长公式可以为：P_i＝P_i-1+C，且P_i≤1。其中，P_i为本次确定目标模型时待利用的当前第一概率，P_i-1为上一次确定目标模型时所利用的第一概率，C为大于0的预设增量。需要说明的是，可以通过对预设的线性增长公式中第一概率的线性增长速度进行设置，使第一概率在第一预设时间段内小于第二概率；具体的，可以通过设置不同的C调整第一概率的线性增长速度，进而使第一概率在第一预设时间段内小于第二概率；并且，C的值越大，第一概率的线性增长速度越快。

另外，与在当前强化学习模型的确定结果尚未准确的一定时间段内，完全利用备用模型确定目标内容的预设的调用规则相比，步骤A1通过使当前第一概率线性增长到1的预设的线性增长公式，使目标模型从备用模型平滑过渡到当前强化学习模型；并且，过渡的过程中，可以通过由当前强化学习模型确定目标内容，获得在线应用当前强化学习模型时，当前强化学习模型自身产生的相关数据，如目标内容以及用户对目标内容的反馈信息等等，进而利用所产生的相关数据对当前强化学习模型进行在线训练，与完全利用备用模型确定目标内容时，利用备用模型产生的相关数据对当前强化学习模型进行在线训练相比，有利于得到准确反映当前强化学习模型的训练效果的数据，从而利于提高当前强化学习模型确定目标内容的准确度。

举例而言，C为0.02。第一次确定目标模型时，待利用的当前第一概率P_i为0，第二次确定目标模型时，待利用的当前第一概率P_i＝0+0.02＝0.02，以此类推，随着时间的推移，当本次确定目标模型时待利用的当前第一概率P_i＝P_i-1+0.02＝1时，当前第一概率不再增长。

步骤A2，判断当前第一概率是否符合预定条件，预定条件至少包括：小于1，或者，小于1且不等于0。

步骤A3，当判断结果为符合预定条件时，利用预设的随机数生成算法，生成一个随机数；判断随机数是否大于所述当前第一概率；如果随机数大于当前第一概率，确定备用模型作为目标模型，否则，确定当前强化学习模型作为目标模型。

当判断结果为符合预定条件时，当前第一概率小于1，或者，小于1且不等于0。由于当前第一概率是利用强化学习模型确定目标内容的概率，因此，为了使在具体应用中确定目标模型的概率与当前第一概率相对应，可以利用预设的随机数生成算法，生成一个随机数，随机数属于区间[0,1]，以便通过随机数的生成，模拟当前第一概率和当前第二概率，其中，当前第二概率为本次确定目标模型时将备用模型确定为目标模型的概率。

需要说明的是，由于要保证在当前第一概率从0增长至1的第一预设时间段内，当前第一概率小于相应的当前第二概率，且当前第一概率是从0开始线性增长的；这意味着区间[0,1]中属于当前第一概率的部分少于属于当前第二概率的部分，且随机数属于区间[0,1]，导致通过随机数的生成模拟当前第一概率和当前第二概率时，随机数具有如下特点：随机数的大小与当前第一概率和当前第二概率相对应，且随机数落在区间[0,1]中属于当前第一概率的部分的次数，少于落在区间[0,1]中属于当前第二概率的部分的次数；因此，如果随机数大于当前第一概率，可以确定备用模型作为目标模型，否则，确定当前强化学习模型作为目标模型，并且，生成的随机数不大于当前第一概率的次数要少于大于当前第二概率的次数。

示例性的，预定条件包括：小于1时，如果待利用的当前第一概率P_i小于1如0.4，利用预设的随机数生成算法，生成一个随机数0.5大于当前第一概率0.4，确定备用模型作为目标模型；如果生成一个随机数0.4不大于当前第一概率0.4，确定当前强化学习模型作为目标模型。

可选的，在本申请上述可选实施例的步骤A2之后，本申请实施例提供的个性化内容的确定方法，还可以包括：

当判断结果为不符合预定条件时，如果当前第一概率等于1，则确定当前强化学习模型作为目标模型。

可以理解的是，不论预定条件为小于1，还是小于1且不等于0，当判断结果为不符合预定条件时，均存在当前第一概率等于1的情况。此时，确定当前强化学习模型作为目标学习模型的概率为1，即完全利用当前强化学习模型确定目标内容；并且，由于当前第一概率不大于1，因此，后续不再按照预设的调用规则，从当前强化学习模型和备用模型中确定目标模型，从而实现当前强化学习模型的全面上线。

可选的，如果预定条件为小于1且不等于0时，当判断结果为不符合预定条件时，本申请实施例提供的个性化内容的确定方法，还可以包括：

如果当前第一概率等于0，则确定备用模型作为目标模型。

在具体应用中，存在第一次确定目标内容的时刻可能是当前强化学习模型上线的时刻，或者，当前强化学习模型上线之后、开始进行训练之前的时刻的情况；或者，当前强化学习模型无法使用、将当前第一概率设置为0以使用备用模型替代当前强化学习模型的情况。对此，为了减少当前强化学习模型未进行训练就被用于确定目标内容的情况，或者，应对强化学习模型无法使用的情况，可以将预设条件设置为小于1且不等于0，从而在判断结果为不符合预定条件时，如果当前第一概率等于0，确定备用模型作为目标模型。

在一种可选的实施方式中，为了应对当前强化学习模型无法使用的情况，当采用本申请图1可选实施例中的步骤A1至A3确定目标模型时，本申请实施例提供的个性化内容的确定方法，还可以包括如下步骤B1至B4：

步骤B1，当接收到表明当前强化学习模型不可使用的通知时，判断是否存在当前第一概率；

步骤B2，如果存在当前第一概率，将当前第一概率设置为0；如果不存在当前第一概率，将上一次确定目标模型时所利用的第一概率设置为0；

在具体应用中，可能存在当前强化学习模型训练失败、用于训练当前强化学习模型的进程无法运行以及当前强化学习模型丢失等等因素导致的当前强化学习模型不可使用的紧急情况，为了保证目标内容确定成功，可以对这些紧急情况进行检测，在检测到紧急情况时，向服务器发送表明当前强化学习模型不可使用的通知，进而将当前第一概率设置为0，以使得在当前强化学习模型恢复使用前，将备用模型确定为目标模型。

并且，由于紧急情况发生的时机不可控，因此，在设置当前第一概率前，需要在步骤B1中判断是否存在当前第一概率。如果存在当前第一概率，可以在步骤B2中，将当前第一概率设置为0。可以理解的是，如果存在第一概率，表明此时已执行上述可选实施例中的步骤A1，且当前第一概率未成为上一次确定目标模型时所利用的第一概率，意味着当前第一概率未被用于确定目标模型，表明此时未执行上述可选实施例中的步骤A2至步骤A3。

此外，对于不存在当前第一概率的情况，当前强化学习模型的不可用情况的发生时机具体可以包括：当前第一概率已被用于确定目标模型，导致当前第一概率成为上一次确定目标模型时所利用的第一概率；以及步骤A1还未执行，未计算出当前第一概率。可以理解的是，由于当前第一概率不存在，因此，可以上一次确定目标模型时所利用的第一概率设置为0。

相应的，在上述步骤A1：基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，确定当前目标模型时待利用的第一概率之前，本申请实施例提供的个性化内容的确定方法，还可以包括：

步骤B3，判断上一次确定目标模型是否为非首次确定目标模型，以及上一次确定目标模型时所利用的第一概率是否为0；

步骤B4，当至少存在一个判断结果为否时，执行步骤A1：基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的第一概率的步骤。

其中，至少存在一个判断结果为否，具体可以包括如下两个判断结果中的至少一个：第一个判断结果：上一次确定目标模型为首次确定目标模型，以及第二个判断结果：上一次确定目标模型时所利用的第一概率不为0。

由于通过步骤B2将当前第一概率设置为0时，已执行上述可选实施例中的步骤A1，且未执行上述可选实施例中的步骤A2至A3，因此，对于存在当前第一概率的情况，将当前第一概率设置为0之后，会执行上述可选实施例中的步骤A2至A3。并且，由于当前第一概率为0，因此，执行步骤A2至A3后，会将备用模型确定为目标模型，由此，实现在当前强化学习模型不可用的情况下的第一次目标内容的确定：由备用模型替代不可用的当前强化学习模型以保证能够确定目标内容的效果。

此外，上述将备用模型确定为目标模型，完成了当前强化学习模型不可用情况下的第一次目标内容的确定之后，针对后续的目标内容确定，当前强化学习模型可能还处于不可使用的状态。相应的，上述至少存在一个判断结果为否，表明上一次确定目标模型不是在当前强化学习模型不可用的情况下的第一次目标内容的确定，当前强化学习模型是可用的，因此，可以执行步骤A1。

需要说明的是，为了实现由备用模型直接替代不可用的当前强化学习模型，直至不可用的当前强化学习模型恢复使用的目的，并节省对实现该目的而言属于冗余步骤的步骤A1至A3，对于上述将当前第一概率设置为0的情况，还可以在判断结果为上一次确定目标模型为非首次确定目标模型，且上一次确定目标模型时所利用的第一概率为0时，确定备用模型作为目标模型。

其中，由于确定目标模型时所利用的第一概率在两种情况下为0，一种情况是首次确定目标模型时，第一概率为初始值0；另一种情况是在当前强化学习模型不可用的情况下的第一次目标内容的确定时，所利用的第一概率设置为0；因此，如果步骤B3的判断结果为上一次确定目标模型为非首次确定目标模型，且上一次确定目标模型时所利用的第一概率，则表明上一次确定目标模型是在当前强化学习模型不可用的情况下的第一次目标内容的确定，当前强化学习模型不可用，此时，可以确定备用模型作为目标模型，以实现由备用模型直接替代不可用的当前强化学习模型，直至不可用的当前强化学习模型恢复使用的目的，并节省对实现该目的而言属于冗余步骤的步骤A1至A3。

示例性的，当接收到表明当前强化学习模型不可使用的通知时，存在当前第一概率P_i＝0.5，将当前第一概率P_i设置为0，进而利用当前第一概率P_i＝0确定目标模型为备用模型A，以利用备用模型A替代不可用的强化学习模型完成目标内容的确定；本次的目标内容的确定为在当前强化学习模型不可用的情况下的第一次目标内容的确定。在后续每次确定目标模型时，判断上一次确定目标模型是否为非首次确定目标模型，以及上一次确定目标模型时所利用的第一概率是否为0；当至少存在上一次确定目标模型为首次确定目标模型，以及上一次确定目标模型时所利用的第一概率不为0中的一个时，可以执行步骤A1。

而在另一种可选的实施方式中，本申请实施例提供的个性化内容的确定方法，还可以包括如下步骤B5：

步骤B5，当上一次确定目标模型为非首次确定目标模型、且上一次确定目标模型时所利用的第一概率为0时，确定备用模型作为目标模型。

当上一次确定目标模型为非首次确定目标模型，且上一次确定目标模型时所利用的第一概率为0，表明上一次确定目标模型是在当前强化学习模型不可用的情况下的第一次目标内容的确定，如上述将当前第一概率P_i设置为0，进而利用当前第一概率P_i＝0确定目标模型为备用模型A，利用备用模型A替代不可用的强化学习模型所完成的目标内容的确定，此时，当前强化学习模型不可用，可以确定备用模型作为目标模型。

可选的，在上述任一应对当前强化学习模型不可用的可选实施例中的确定备用模型作为目标模型的步骤之后，本申请实施例提供的个性化内容的确定方法，还可以包括：

在接收到用于表明当前强化学习模型恢复使用的通知后，执行步骤A1。

可以理解的是，在当前强化学习模型恢复使用后，可能存在因不可用的时间达到一定的时长，所导致的用户个性化需求发生变更，造成恢复使用的当前强化学习模型的确定结果与用户的个性化需求存在差异，恢复使用的当前强化学习模型的确定结果不准确的问题。因此，在接收到用于表明当前强化学习模型恢复使用的通知后，需要执行步骤A1，以通过对应于第一概率的备用模型，和恢复使用的当前强化模型的使用，尽可能减少由恢复使用的当前强化学习模型确定的不准确的目标内容。

图2是根据另一示例性实施例示出的一种个性化内容的推荐方法的流程图，如图2所示，一种个性化内容的确定方法，应用于服务器，该方法可以包括以下步骤：

步骤S201，在接收到客户端关于请求目标内容的内容请求后，获取与目标内容对应的多个候选内容；

步骤S202，按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；

步骤S203，利用目标模型，从多个候选内容中确定目标内容。

步骤S204，向客户端推荐目标内容。

步骤S201至步骤S204为与本申请图1实施例中的步骤步骤S101至步骤S104相同的步骤，在此不再赘述，详见本申请图1实施例的描述。

步骤S205，接收客户端返回用的于表明用户是否喜欢目标内容的反馈信息。

其中，反馈信息可以是多种的。示例性的，反馈信息可以包括如下信息中的至少一种：用户对客户端已接收的目标内容是否喜欢的标注信息、是否下载以及购买等行为信息以及表明用户对客户端已接收的目标内容的满意程度的评分等等反馈信息。任何能够表明用户是否喜欢目标内容的反馈信息均可用于本申请，本实施例对此不作限制。

步骤S206，利用内容请求、多个候选内容、目标内容以及反馈信息，构建样本数据。

其中，样本数据的构建方式可以是多种的。示例性的，样本数据的构建方式可以是将内容请求、与内容请求对应的目标内容、与目标内容对应的多个候选内容以及与目标内容对应的反馈信息拼接为一个样本数据；例如，内容请求Q1用于请求目标内容A11和目标内容A12，则将内容请求Q1、目标内容A11和目标内容A12、3个候选内容【候选内容A11，候选内容A12，候选内容A13】、目标内容A11对应的反馈信息J11以及目标内容A12对应的反馈信息J12拼接为一个样本数据X1，X1＝“内容请求Q1目标内容A11目标内容A12【候选内容A11，候选内容A12，候选内容A13】反馈信息J11，反馈信息J12”。或者，示例性的，样本数据的构建方式可以是将内容请求、与内容请求对应的目标内容、与目标内容对应的多个候选内容以及与目标内容对应的反馈信息合并为一个数据集，将该数据集作为一个样本数据；例如，将内容请求Q1、目标内容A11和目标内容A12、3个候选内容【候选内容A11，候选内容A12，候选内容A13】、目标内容A11对应的反馈信息J11以及目标内容A12对应的反馈信息J12合并为数据集N1，N1＝{内容请求Q1，目标内容A11，目标内容A12，【候选内容A11，候选内容A12，候选内容A13】，反馈信息J11，反馈信息J12}。

在具体应用中，构建样本数据时，客户端返回目标内容对应的反馈信息需要一定的时间，导致得到了内容请求、与目标内容对应的多个候选内容以及与内容请求对应的目标内容，至开始构建样本数据存在等待反馈信息返回的时延。对此，可以在得到内容请求、与目标内容对应的多个候选内容以及与内容请求对应的目标内容时，将已得到的数据处理为只需添加反馈信息的形式，从而减少构建样本数据时已得到的数据的处理时延，使除了反馈信息以外的用于构建样本数据的数据尽可能达到实时获取，从而保证新的样本数据能够被实时构建，减少新的样本数据构建不及时造成的对当前强化学习模型进行训练时，对已使用过的样本数据重复使用次数过多导致的过拟合，提高当前强化学习模型训练的准确度。

此外，可以对得到的样本数据进行保存，与对得到的样本数据不进行保存、且样本数据被利用后就被丢弃相比，可以对同一个样本数据进行多次利用，提高样本数据的利用率。

需要说明的是，由于当前强化学习模型为寻求全局最优解的模型，因此，利用当前强化学习模型时，需要输入能够反映全局情况的数据，并且，如果是确定多个目标内容，需要针对每个待确定的目标内容寻求全局最优解，此时，需要输入对应于该待确定的目标内容的反映全局情况的数据。因此，样本数据中需要包括内容请求、与目标内容对应的多个候选内容、目标内容以及与目标内容对应的反馈信息。其中，反馈信息在进行训练时作为当前强化学习模型的预测结果的对比值，以基于对比结果调整模型的参数；多个候选内容以及目标内容用于在进行训练时作为当前强化学习模型确定预测结果时，需要考虑的全局信息，以基于全局信息，使当前强化学习模型的预测结果是全局最优解。

步骤S207，在训练进程未进行训练、且满足预设进程触发条件时，调用训练进程，以使训练进程利用已存在的样本数据对当前强化学习模型进行训练；其中，在进行第一次训练时，当前强化学习模型为预设的初始强化学习模型。

其中，预设进程触发条件可以是多种的。示例性的，预设进程触发条件可以是当前的时间点距离上一次调用训练进程的时间点，达到预设训练周期；例如，预设训练周期为3个小时，则在训练进程未进行训练、且当前的时间点距离上一次调用训练进程的时间点达到3个小时。或者，示例性的，预设进程触发条件可以是检测到存在样本数据；例如，在当前强化模型上线后，可能需要经过一定时长才能构建样本数据，因此，预设进程触发条件可以是当检测到存在样本数据。或者，预设进程触发条件可以是检测到存在未利用的样本数据，其中，未利用的样本数据可以包括新的样本数据，或者已有样本数据中未被利用的样本数据。任何能够触发训练利用已存在的样本数据对当前强化学习模型进行训练的条件，均可作为本申请中的预设进程触发条件，本实施例对此不作限制。

此外，预设的初始强化学习模型可以为任一与备用模型不同、且能够用于确定个性化内容的强化学习模型。

需要强调的是，在本申请图2实施例中，存储及运行训练进程的物理设备可以是多种的。示例性的，存储及运行训练进程的物理设备可以是本申请实施例中用于确定目标内容的服务器，也可以是独立于用于确定目标内容的服务器、且与该服务器建立连接的其他电子设备，例如，用于进行当前强化学习模型的训练的集群、以及计算机等等。

在具体应用中，用于确定目标内容的服务器的数量可以为多个，例如用于确定目标内容的分布式服务器，以对多个内容请求进行分布式处理，提高目标内容的确定效率。类似的，训练进程的数量也可以是多个，具体可以是一个存储及运行训练进程的物理设备中存在多个训练进程，也可以是多个存储及运行训练进程的物理设备中，每个物理设备中存在至少一个训练进程。其中，当存多个储及运行训练进程的物理设备为独立于用于确定目标内容的服务器、且与该服务器建立连接的其他电子设备时，该电子设备具体可以为用于存储及运行训练进程的的分布式计算机。

相应的，在进行当前强化学习模型的训练时，如果训练进程的数量为多个，训练进程对样本数据的利用可以是多样的。示例性的，可以是每个训练进程利用各自对应的样本数据进行训练；例如，训练进程1利用处于位置1的客户端对应的样本数据进行训练，训练进程2利用处于位置2的客户端对应的样本数据进行训练，从而训练多个当前强化学习模型，由多个当前强化模型缓解目标内容的确定压力。或者，示例性的，也可以是每个训练进程利用同样的样本数据进行训练；例如，训练进程1和训练进程2可以利用任一样本数据进行训练；在训练过程中，不同的训练进程具有不同的性能，相应的，不同的训练进程利用样本数据的速率可能不同，对此，由多个训练进程利用任一样本数据进行训练时，如果存在未被利用的样本数据，可以由空闲训练进程及时利用，提高样本数据利用的及时性，减少样本数据利用不及时造成的用户实际需求与当前强化学习模型的训练效果之间的时间差异，提高当前强化学习模型训练的准确度。

可选的，上述本申请图2实施例中对当前强化学习模型的训练可以为：对当前强化学习模型的模型副本进行训练；

相应的，在上述本申请图2实施例中的步骤S207调用训练进程之后，本申请实施例提供的个性化内容的确定方法，还可以包括如下步骤：

当模型副本被训练至出现变更时，获取变更后的模型副本；

将当前强化学习模型更新为所获取的变更后的模型副本。

其中，当前强化学习模型的模型副本可以存储在用于确定目标内容的服务器中，也可以存储在独立于用于确定目标内容的服务器、且与该服务器建立连接的电子设备中。可以理解的是，如果当前强化学习模型的模型副本存储在用于存储以及运行训练进程的电子设备中，可以提高训练的便捷性。当前强化学习模型的模型副本存储在用于存储以及运行训练进程的电子设备中时，存储模型副本的电子设备也可以是多样化的，具体与上述本申请图2实施例中对存储以及运行训练进程的电子设备的描述相同，对于相同内容在此不再赘述，详见上述本申请图2实施例的描述。

示例性的，当前强化学习模型为模型F1，模型副本为F11。当模型副本F11被训练至出现变更时，获取变更后的模型副本F12；将当前强化学习模型更新为所获取的变更后的模型副本F12。

可选的，上述本申请图2实施例中的训练进程，具体可以采用如下步骤对当前强化学习模型进行训练：

步骤C1，在每利用一个样本数据进行训练前，检测当前的参考值是否小于预定数值；其中，参考值为：基于训练进程利用相同的样本数据进行训练的允许次数所设定的值；

步骤C2，如果当前的参考值不小于预定数值，执行利用一个样本数据进行训练，并对当前的参考值减去1，得到变更后的参考值，否则，结束本次的训练；并在进行训练的过程中，执行如下步骤C3：

步骤C3，当检测到存在新的样本数据时，统计构建的时间点属于第二预设时间段的样本数据的样本数量；基于样本数量和当前的参考值，利用预设的参考值公式，计算变更后的参考值。

在具体应用中，调用训练进程以后，训练进程将持续利用已存在的样本数据进行训练，本可选实施例在训练期间，利用按照步骤C2中对当前的参考值减去1，以及步骤C3中的预设的参考值公式的计算对参考值进行变更，从而基于变更着的参考值，控制训练的结束或者持续。此外，当控制训练结束后，可以利用本申请图2实施例中步骤S206中的触发条件，触发调用训练进程，使得训练进程进行训练。由此，通过控制训练的结束或者持续，控制同一个样本数据被重复利用的次数，从而减少同一个样本数据被重复利用的次数过多时造成的过拟合，提高当前强化学习模型的准确度和训练成功的概率。

其中，第二预设时间段具体可以为检测到存在新的样本数据的时间点与目标时间点之间的时间段，目标时间点为在检测到存在新的样本数据的时间点之前一定时长的时间点。相应的，统计构建的时间点属于第二预设时间段的样本数据的样本数量，也就是统计最近一段时间构建的训练样本的样本数量。举例而言，检测到存在新的样本数据的时间点为18:30，一定时长为10分钟，则目标时间点为18:20，第二预设时间段为18:20至18:30。

需要说明的是，上述步骤C3与步骤C1至步骤C2是并行执行的步骤，在进行训练的过程中的任一时刻，均可检测是否存在新的样本数据，进而在检测到存在新的样本数据时，统计构建的时间点属于第二预设时间段的样本数据的样本数量；基于样本数量和当前的参考值，利用预设的参考值公式，计算变更后的参考值。

为了便于理解，后续采用可选的实施方式以及示例性描述的方式，具体说明上述可选实施例中训练进程对当前强化学习模型进行训练的过程。

在一种可选的实施方式中，预设的参考值公式为：N_t＝rN_t-1+km；

其中，N_t为变更后的参考信息，N_t-1为当前的参考值，当进行第一次训练时，N_t-1为0，r为预设的用于限制已利用的样本数据的重复利用次数的第一系数，k为预设的用于限制构建的时间点属于第二预设时间段的样本数据的重复利用次数的第二系数，m为样本数量。

示例性的，可以设置r＝0.9，k＝20，预定数值为1。训练进程进行第一次训练的时间，也是第一次检测到新的样本数据的时间，因此，可以将进行第一次训练的时间作为本次确定第二预设时间段时，待利用的检测到新的样本数据的时间，如进行第一次训练的时间为18:30，一定时长为10分钟。则训练进程在进行训练的过程中：确定第二预设时间段为18:20至18:30；统计构建时间点属于18:20至18:30的样本数据的样本数量，如为3个；计算当前的参考值N_t＝rN_t-1+km＝0.9×0+20×3＝60，此时处于第一训练；训练进程在利用3个样本数据中的一个进行训练前，检测当前的参考值N_t＝60，不小于预定数值1，因此，执行利用一个样本数据进行训练，并对当前的参考值减去1，得到变更后的参考值，也就是执行利用3个样本数据中的第一个样本数据进行训练，并对60-1，得到变更后的参考值59，此时，当前的参考值为变更后的参考值，即N_t＝59。训练进程利用样本数据进行训练时持续的过程，因此，当前的参考值N_t＝59时，训练进程判断当前的参考值N_t＝59，不小于预定数值1，则利用3个样本数据中的第二个样本数据进行训练，并对59-1，得到变更后的参考值58，此时，当前的参考值为变更后的参考值，即N_t＝58。以此类推，按照上述过程后续会利用3个样本数据中的第三个样本数据进行训练，对3个样本数据中的第一个样本数据进行第二次利用，直到当前的参考值变更为小于1时，结束本次的训练。

并且，在上述训练过程中，当检测到存在新的样本数据时，统计构建的时间点属于第二预设时间段的样本数据的样本数量；基于样本数量和当前的参考值，利用预设的参考值公式，计算变更后的参考值。例如，在上述训练过程中，如果N_t＝59时，检测到存在新的样本数据，且此时为18:50，则确定第二预设时间段为18:40至18:50，统计构建的时间点属于18:40至18:50的样本数据的样本数量，如为4个；计算当前的参考值N_t＝rN_t-1+km＝0.9×59+20×4＝133.1，则在利用4个样本数据中的一个进行训练前，判断当前的参考值N_t＝133.1，大于1，因此，执行利用4个样本数据中的一个进行训练，并将当前的参考值N_t变更为133.1-1＝132.1。以此类推，如果在一定时间段内没有检测到存在新的样本数据，则每利用一个样本数据，就会对当前的参考值减1，直到当前的参考值变更为小于1时，结束本次的训练。

当在某一段时间内接收到的内容请求相对而言较少，则在该段时间内新的样本数据被检测到的次数也将变少。对此，采用上述可选实施例进行强化学习模型的训练时，如果新的样本数据被检测到的次数相对而言较少，则当前的参考值将很有可能变为小于预定数值，此时，训练进程会结束训练。在传统的训练进程持续训练的方式中即使一定时间内没有检测到新的样本数据，训练进程依然会利用已利用过的样本数据持续村联，使得同一个样本数据被重复利用的次数越来越大，而上述可选实施例通过结束训练限制了同一个样本数据被重复利用的次数，因此，与训练进程持续训练的方式相比，可以保证新的样本数据少的时候，训练进程趋向停止训练，使得同一个样本数据被重复利用的次数不会过大，从而减少过拟合的发生，提高当前强化学习模型的训练成功的概率和训练结果的准确度。

相应于上述方法实施例，本申请还提供一种个性化内容的推荐装置。

图3是根据一示例性实施例示出的一种个性化内容的推荐装置框图。应用于服务器，该装置可以包括：候选内容获取模块301、目标模型确定模块302、目标内容确定模块303和目标内容推荐模块304：

候选内容获取模块301，被配置为在接收到客户端关于请求目标内容的内容请求后，执行获取与所述目标内容对应的多个候选内容；

目标模型确定模块302，被配置为执行按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，所述备用模型为用于基于所述多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；所述当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；所述预设的调用规则为：用于保证在第一预设时间段内，确定所述当前强化学习模型作为所述目标模型的第一概率，小于确定所述备用模型的第二概率的规则；

目标内容确定模块303，被配置为执行利用所述目标模型，从所述多个候选内容中确定所述目标内容；

目标内容推荐模块304，被配置为执行向所述客户端推荐所述目标内容。

本申请的实施例提供的技术方案可以包括以下有益效果：由于备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法，因此，与上线后进行在线训练的当前强化学习模型相比，备用模型所确定的目标内容与用户实际需求之间的差异相对而言更小；并且，预设的调用规则为在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型作为目标模型的第二概率。因此，按照预设的调用规则，能够在第一预设时间段内，尽可能多地将所确定的目标内容与用户实际需求之间的差异相对而言更小的备用模型作为目标模型，从而减少将上线后进行在线训练的、在一定时间段内所确定的目标内容不准确的当前强化学习模型作为目标模型时，造成的目标内容不准确的情况，实现提高目标内容确定的准确度的效果。可见，通过本方案能够提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

可选的，所述目标模型确定模块302，被配置为执行：

可选的，所述目标模型确定模块302，被配置为在所述判断所述当前第一概率是否符合预定条件的步骤之后，当判断结果为不符合预定条件时，如果所述当前第一概率等于1，执行确定所述当前强化学习模型作为目标模型。

可选的，如果所述预定条件为小于1且不等于0时，所述目标模型确定模块302，被配置为当判断结果为不符合预定条件时，如果所述当前第一概率等于0，执行确定所述备用模型作为目标模型。

可选的，所述装置还包括：概率设置模块，被配置为当接收到表明所述当前强化学习模型不可使用的通知时，执行判断是否存在当前第一概率；在存在当前第一概率时，执行将所述当前第一概率设置为0；在不存在当前第一概率，执行将上一次确定目标模型时所利用的第一概率设置为0；

所述目标模型确定模块302，被配置为在所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，确定当前目标模型时待利用的第一概率之前，执行判断上一次确定目标模型是否为非首次确定目标模型，以及上一次确定目标模型时所利用的第一概率是否为0；当至少存在一个判断结果为否时，执行所述基于上一次确定目标模型时所利用的第一概率，利用预设的线性增长公式，计算本次确定目标模型时待利用的第一概率的步骤。

可选的，所述目标模型确定模块302，被配置为在上一次确定目标模型为非首次确定目标模型、且上一次确定目标模型时所利用的第一概率为0时，执行确定所述备用模型作为目标模型。

可选的，所述目标内容推荐模块，被配置为在所述向所述客户端推荐所述目标内容之后，执行接收所述客户端返回的用于表明用户是否喜欢所述目标内容的反馈信息；利用所述内容请求、所述多个候选内容、所述目标内容以及所述反馈信息，构建样本数据；

可选的，所述预设的参考值公式为：

Nt＝rNt-1+km；

相应于上述方法实施例，本申请还提供一种电子设备。

图4是根据一示例性实施例示出的一种电子设备。参照图4，该电子设备可以包括：

处理器401；

用于存储处理器可执行指令的存储器402；

其中，处理器401被配置为：执行存储器402上所存放的可执行指令时，实现本申请实施例所提供的任一种个性化内容的推荐方法的步骤。

可以理解的是，该电子设备为任一存在个性化内容推荐需求的系统中的电子设备，负责个性化内容推荐。在具体应用中，该电子设备可以为计算机、互联网电视、平板设备以及服务器等等。

本申请的实施例提供的技术方案可以包括以下有益效果：由于备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法，因此，与上线后进行在线训练的当前强化学习模型相比，备用模型所确定的目标内容与用户实际需求之间的差异相对而言更小；并且，预设的调用规则为在第一预设时间段内，，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型作为目标模型的第二概率。因此，按照预设的调用规则，能够在第一预设时间段内，尽可能多地将所确定的目标内容与用户实际需求之间的差异相对而言更小的备用模型作为目标模型，从而减少将上线后进行在线训练的、在一定时间段内所确定的目标内容不准确的当前强化学习模型作为目标模型时，造成的目标内容不准确的情况，实现提高目标内容确定的准确度的效果。可见，通过本方案能够提高强化学习模型上线一定时间段内，向用户推荐的目标内容的准确度

图5是根据另一示例性实施例示出的电子设备500的框图。参照图5，电子设备500包括处理组件5001，其进一步包括一个或多个处理器，以及由存储器5003所代表的存储器资源，用于存储可由处理组件5001的执行的指令，例如应用程序。存储器5003中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件5001被配置为执行指令，以执行上述本申请实施例所提供的任一种个性化内容的推荐方法的步骤。

电子设备500还可以包括一个电源组件5002被配置为执行装置500的电源管理，一个有线或无线网络接口5004被配置为将装置500连接到网络，和一个输入输出(I/O)接口5005。装置500可以操作基于存储在存储器5003的操作系统，例如Windows ServerTM，MacOS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

另外，本申请还提供了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行下述个性化内容的推荐方法的步骤：

在接收到客户端关于请求目标内容的内容请求后，获取与目标内容对应的多个候选内容；

按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，备用模型为用于基于多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；预设的调用规则为：用于保证在第一预设时间段内，确定当前强化学习模型作为目标模型的第一概率，小于确定备用模型作为目标模型的第二概率；

利用目标模型，从多个候选内容中确定目标内容；

向客户端推荐目标内容。

需要说明的是，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本申请实施例中任一所述的个性化内容的推荐方法的步骤。

在示例性实施例中，一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器402，上述指令可由处理器401执行以完成上述方法；或者，包括指令的存储器5003，上述指令可由电子设备500的处理组件器5001执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本申请提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当其在电子设备上运行时，使得电子设备执行上述实施例中任一所述的个性化内容的推荐方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、DSL(Digital Subscriber Line，数字用户线)或无线(例如：红外线、无线电、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如：DVD(Digital Versatile Disc，数字通用光盘))、或者半导体介质(例如：SSD(Solid StateDisk，固态硬盘))等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本申请的真正范围和精神由下面的权利要求指出。

在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims

1.一种个性化内容的推荐方法，其特征在于，应用于服务器，所述方法包括：

按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，所述备用模型为用于基于所述多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；所述当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；所述预设的调用规则为：用于保证在第一预设时间段内，确定所述当前强化学习模型作为所述目标模型的第一概率，小于确定所述备用模型作为所述目标模型的第二概率的规则；

向所述客户端推荐所述目标内容；

所述按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型的步骤，包括：

2.根据权利要求1所述的方法，其特征在于，在所述判断所述当前第一概率是否符合预定条件的步骤之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，如果所述预定条件为小于1且不等于0时，当判断结果为不符合预定条件时，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，

所述方法还包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，在所述向所述客户端推荐所述目标内容之后，所述方法还包括：

所述方法还包括：在训练进程未进行训练、且满足预设进程触发条件时，调用所述训练进程，以使所述训练进程利用已存在的样本数据对所述当前强化学习模型进行训练；其中，在进行第一次训练时，所述当前强化学习模型为预设的初始强化学习模型。

7.根据权利要求6所述的方法，其特征在于，所述训练进程采用如下步骤对所述当前强化学习模型进行训练：

8.根据权利要求7所述的方法，其特征在于，所述预设的参考值公式为：

N_t＝rN_t-1+km；

9.根据权利要求6所述的方法，其特征在于，所述当前强化学习模型的训练为对所述当前强化学习模型的模型副本进行训练；

在所述调用训练进程的步骤之后，所述方法还包括：

10.一种个性化内容的推荐装置，其特征在于，应用于服务器，所述装置包括：

目标模型确定模块，被配置为执行按照预设的调用规则，从备用模型和当前强化学习模型中确定目标模型；其中，所述备用模型为用于基于所述多个候选内容确定个性化内容，且在当前强化学习模型上线时，处于在线使用状态的算法；所述当前强化学习模型为利用在线收集的样本数据进行在线训练得到的模型；所述预设的调用规则为：用于保证在第一预设时间段内，确定所述当前强化学习模型作为所述目标模型的第一概率，小于确定所述备用模型作为所述目标模型的第二概率的规则；

目标内容推荐模块，被配置为执行向所述客户端推荐所述目标内容；

所述目标模型确定模块，被配置为执行：

11.根据权利要求10所述的装置，其特征在于，所述目标模型确定模块，被配置为在所述判断所述当前第一概率是否符合预定条件的步骤之后，当判断结果为不符合预定条件时，如果所述当前第一概率等于1，执行确定所述当前强化学习模型作为目标模型。

12.根据权利要求11所述的装置，其特征在于，如果所述预定条件为小于1且不等于0时，所述目标模型确定模块，被配置为当判断结果为不符合预定条件时，如果所述当前第一概率等于0，执行确定所述备用模型作为目标模型。

13.根据权利要求12所述的装置，其特征在于，所述装置还包括：概率设置模块，被配置为当接收到表明所述当前强化学习模型不可使用的通知时，执行判断是否存在当前第一概率；在存在当前第一概率，将所述当前第一概率设置为0时；在不存在当前第一概率时，将上一次确定目标模型时所利用的第一概率设置为0；

14.根据权利要求13所述的装置，其特征在于，所述目标模型确定模块，被配置为在上一次确定目标模型为非首次确定目标模型、且上一次确定目标模型时所利用的第一概率为0时，执行确定所述备用模型作为目标模型。

15.根据权利要求10-14任一项所述的装置，其特征在于，所述目标内容推荐模块，被配置为在所述向所述客户端推荐所述目标内容之后，执行接收所述客户端返回的用于表明用户是否喜欢所述目标内容的反馈信息；利用所述内容请求、所述多个候选内容、所述目标内容以及所述反馈信息，构建样本数据；

16.根据权利要求15所述的装置，其特征在于，所述训练进程采用如下步骤对所述当前强化学习模型进行训练：

17.根据权利要求16所述的装置，其特征在于，所述预设的参考值公式为：

Nt＝rNt-1+km；

18.根据权利要求15所述的装置，其特征在于，所述当前强化学习模型的训练为对所述当前强化学习模型的模型副本进行训练；

19.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行存储器上所存放的可执行指令时，实现权利要求1至9任一所述的个性化内容的推荐方法的步骤。

20.一种非临时性计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行权利要求1-9任一项所述的个性化内容的推荐方法的步骤。