CN111552835B

CN111552835B - 文件推荐方法、装置及服务器

Info

Publication number: CN111552835B
Application number: CN202010381603.6A
Authority: CN
Inventors: 闫阳辉; 胥凯; 黄俊逸; 王琳; 叶璨
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2024-01-09
Anticipated expiration: 2040-05-08
Also published as: CN111552835A

Abstract

本公开关于一种文件推荐方法、装置及服务器，属于计算机技术领域。该方法包括：响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征；基于账户特征和整体文件特征生成第一目标向量，第一目标向量用于判断第一账户对待推荐文件执行的交互行为；根据第一目标向量、第一账户的兴趣特征和状态转移特征，依次从多个待推荐文件中确定出当前文件，在每次确定出当前文件后，基于当前文件更新当前的状态转移特征；按照当前文件的确定顺序，确定出第一文件序列，第一文件序列用于反馈文件推荐请求。基于第一目标向量，针对不同账户的交互行为的偏好进行个性化的文件推荐，提高了文件推荐的准确性。

Description

文件推荐方法、装置及服务器

技术领域

本公开涉及计算机技术领域，特别涉及一种文件推荐方法、装置及服务器。

背景技术

近年来，强化学习取得了突飞猛进的发展，在各个领域相继取得了重大突破，强化学习也开始应用在推荐系统中。例如，强化学习可以应用在短视频的排序和推荐上。

相关技术中，短视频应用的服务器基于强化学习训练得到短视频选取模型；用户在通过终端上的短视频应用浏览短视频时，服务器可以根据用户的兴趣特征，基于短视频选取模型，从待推荐的候选视频集中按照顺序选取短视频，得到推荐序列；将该推荐序列发送给终端；终端在短视频应用的推荐界面中，将推荐序列中的短视频按照顺序展示给用户。

相关技术中，服务器仅依据用户的兴趣特征，获取与用户的兴趣特征相匹配的短视频，得到推荐序列，用户的兴趣特征通常是根据用户历史浏览的短视频得到的，该兴趣特征对用户的兴趣和偏好的表达较为片面，根据该兴趣特征得到的推荐序列的个性化较弱，推荐的准确性较低。

发明内容

本公开实施例提供了一种文件推荐方法、装置及服务器，能够提高文件推荐的准确性。所述技术方案如下：

根据本公开实施例的一方面，提供了一种文件推荐方法，所述方法包括：

响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，所述账户特征用于表示所述第一账户的属性；

基于所述账户特征和所述整体文件特征，生成第一目标向量，其中，所述第一目标向量用于判断所述第一账户在接收到待推荐文件之后对所述待推荐文件执行的交互行为；

根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，依次从所述多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征；

按照所述当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列，其中，所述第一文件序列用于反馈所述文件推荐请求。

在一种可能的实现方式中，所述根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，依次从所述多个待推荐文件中确定出当前文件，包括：

根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，所述状态转移特征是基于所述当前位置的上一位置的当前文件进行更新得到的；

根据所述第一文件序列中当前位置的当前文件，更新所述状态转移特征；

根据所述第一目标向量、所述第一账户的兴趣特征以及更新后的状态转移特征，从所述多个待推荐文件中确定出所述当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

在另一种可能的实现方式中，所述根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，包括：

获取当前的待确定文件集合，所述待确定文件集合包括所述多个待推荐文件中未被确定的待推荐文件；

根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到所述待确定文件集合对应的概率分布；

根据所述待确定文件集合对应的概率分布，从所述待确定文件集合中确定出所述第一文件序列中当前位置的当前文件。

在另一种可能的实现方式中，所述根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到所述待确定文件集合对应的概率分布，包括：

将所述第一目标向量、所述第一账户的兴趣特征以及所述状态转移特征输入到第一文件确定模型中，得到当前的排序权重向量；

根据所述排序权重向量和所述待确定文件集合中每个待推荐文件的文件特征，确定所述每个待推荐文件对应的排序权重参数；

对所述排序权重参数进行归一化处理，得到所述待确定文件集合对应的概率分布。

在另一种可能的实现方式中，所述根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到所述待确定文件集合对应的概率分布之前，所述方法还包括：

获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值，所述第二文件序列是基于第二文件确定模型确定的；

根据每个序列位置上的当前文件、每次基于确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，训练所述第二文件确定模型，得到所述第一文件确定模型。

在另一种可能的实现方式中，所述获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值之前，所述方法还包括：

获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量，所述第二目标向量用于表示所述第二账户对已推荐文件执行交互行为的偏好；

根据所述第二目标向量、所述第二账户的兴趣特征以及状态转移特征，依次从所述多个已推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征，每次确定出的当前文件对应于第二文件序列中的一个序列位置；

根据所述第二目标向量和所述第二账户对确定出的当前文件执行的交互行为，确定所述当前文件对应的文件反馈数值。

在另一种可能的实现方式中，所述根据所述第二目标向量和所述第二账户对确定出的当前文件执行的交互行为，确定所述当前文件对应的文件反馈数值，包括：

根据所述第二目标向量，确定所述第二目标向量对应的每种交互行为的权重；

根据所述第二账户对确定出的当前文件执行的交互行为，以及所述每种交互行为的权重，确定所述当前文件对应的文件反馈数值。

在另一种可能的实现方式中，所述基于所述账户特征和所述整体文件特征，生成第一目标向量，包括：

将所述账户特征和所述整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，所述目标预测模型用于预测所述第一账户在接收到待推荐文件之后对所述待推荐文件执行的所述至少一种交互行为；

对所述每种交互行为的标签进行拼接，得到第一目标向量。

在另一种可能的实现方式中，所述将所述账户特征和所述整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签之前，所述方法还包括：

获取多个训练样本，所述训练样本包括多个已推荐文件、所述多个已推荐文件中每个已推荐文件对应的交互行为以及执行所述交互行为的账户的账户特征；

根据所述多个训练样本，通过深度神经网络，训练得到所述目标预测模型。

根据本公开实施例的另一方面，提供了一种文件推荐装置，所述装置包括：

获取模块，被配置为执行响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，所述账户特征用于表示所述第一账户的属性；

生成模块，被配置为执行基于所述账户特征和所述整体文件特征，生成第一目标向量，其中，所述第一目标向量用于判断所述第一账户在接收到待推荐文件之后对所述待推荐文件执行的交互行为；

确定模块，被配置为执行根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，依次从所述多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征；按照所述当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列，其中，所述第一文件序列用于反馈所述文件推荐请求。

在一种可能的实现方式中，所述确定模块，还被配置为执行根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，所述状态转移特征是基于所述当前位置的上一位置的当前文件进行更新得到的；根据所述第一文件序列中当前位置的当前文件，更新所述状态转移特征；根据所述第一目标向量、所述第一账户的兴趣特征以及更新后的状态转移特征，从所述多个待推荐文件中确定出所述当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

在另一种可能的实现方式中，所述确定模块，还被配置为执行获取当前的待确定文件集合，所述待确定文件集合包括所述多个待推荐文件中未被确定的待推荐文件；根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到所述待确定文件集合对应的概率分布；根据所述待确定文件集合对应的概率分布，从所述待确定文件集合中确定出所述第一文件序列中当前位置的当前文件。

在另一种可能的实现方式中，所述确定模块，还被配置为执行将所述第一目标向量、所述第一账户的兴趣特征以及所述状态转移特征输入到第一文件确定模型中，得到当前的排序权重向量；根据所述排序权重向量和所述待确定文件集合中每个待推荐文件的文件特征，确定所述每个待推荐文件对应的排序权重参数；对所述排序权重参数进行归一化处理，得到所述待确定文件集合对应的概率分布。

在另一种可能的实现方式中，所述装置还包括：

所述获取模块，还被配置为执行获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值，所述第二文件序列是基于第二文件确定模型确定的；

第一训练模块，被配置为执行根据每个序列位置上的当前文件、每次基于确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，训练所述第二文件确定模型，得到所述第一文件确定模型。

在另一种可能的实现方式中，所述获取模块，还被配置为执行获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量，所述第二目标向量用于表示所述第二账户对已推荐文件执行交互行为的偏好；

所述确定模块，还被配置为执行根据所述第二目标向量、所述第二账户的兴趣特征以及状态转移特征，依次从所述多个已推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征，每次确定出的当前文件对应于第二文件序列中的一个序列位置；根据所述第二目标向量和所述第二账户对确定出的当前文件执行的交互行为，确定所述当前文件对应的文件反馈数值。

在另一种可能的实现方式中，所述确定模块，还被配置为执行根据所述第二目标向量，确定所述第二目标向量对应的每种交互行为的权重；根据所述第二账户对确定出的当前文件执行的交互行为，以及所述每种交互行为的权重，确定所述当前文件对应的文件反馈数值。

在另一种可能的实现方式中，所述生成模块，还被配置为执行将所述账户特征和所述整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，所述目标预测模型用于预测所述第一账户在接收到待推荐文件之后对所述待推荐文件执行的所述至少一种交互行为；对所述每种交互行为的标签进行拼接，得到第一目标向量。

在另一种可能的实现方式中，所述装置还包括：

所述获取模块，还被配置为执行获取多个训练样本，所述训练样本包括多个已推荐文件、所述多个已推荐文件中每个已推荐文件对应的交互行为以及执行所述交互行为的账户的账户特征；

第二训练模块，被配置为执行根据所述多个训练样本，通过深度神经网络，训练得到所述目标预测模型。

根据本公开实施例的另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现上述任一可能实现方式所述的文件推荐方法。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现上述任一可能实现方式所述的文件推荐方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述任一可能实现方式中所述的文件推荐方法。

在本公开实施例中，响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，账户特征用于表示第一账户的属性；基于账户特征和整体文件特征，生成第一目标向量，其中，第一目标向量用于判断第一账户在接收到待推荐文件之后对待推荐文件执行的交互行为；根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征；按照当前文件的确定顺序，确定出多个待推荐文件对应第一文件序列，其中，第一文件序列用于反馈文件推荐请求。上述技术方案中，第一目标向量用于判断第一账户对待推荐文件执行的交互行为，能够表示第一账户对待推荐文件执行交互行为的偏好，基于该第一目标向量，从多个待推荐文件中确定第一文件序列，将第一账户的交互行为的偏好融合到第一文件序列的确定中，针对不同账户的交互行为的偏好进行个性化的推荐，提高了文件推荐的准确性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种文件推荐方法的流程图；

图3是根据一示例性实施例示出的一种文件推荐方法的流程图；

图4是根据一示例性实施例示出的一种文件推荐方法的示意图；

图5是根据一示例性实施例示出的一种文件推荐装置的框图；

图6是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

图1是根据一示例性实施例示出的一种实施环境的示意图。参见图1，该实施环境中包括第一终端101和服务器102；第一终端101和服务器102之间通过无线或者有线网络连接。并且，第一终端101上可以安装有服务器102提供服务的客户端，使用第一终端101的第一用户可以通过该客户端实现例如数据传输、消息交互等功能。

第一终端101可以为手机、平板电脑、电脑、可穿戴设备或者其他电子设备。客户端可以为第一终端101上安装的任一客户端。服务器102为该客户端的后台服务器，服务器102为该客户端提供文件推荐服务。

第一终端101可以通过向服务器102发送文件推荐请求，获取服务器102的文件推荐服务；服务器102响应于接收到文件推荐请求，获取预先筛选出的多个待推荐文件，按照本公开实施例提供的文件推荐方法，从多个待推荐文件中确定出用于反馈该文件推荐请求的第一文件序列；服务器102向第一终端101发送该第一文件序列；第一终端101接收该第一文件序列，按照第一文件序列中的文件的确定顺序，在客户端的推荐界面中对第一文件序列进行显示。

本公开实施例提供的文件推荐方法可以应用在对多种类型的文件的推荐中。例如，客户端可以为视频应用、购物应用或者内容提供应用等。其中，视频分享应用可以为短视频应用、视频分享应用、在线视频应用或者直播应用等。若客户端为短视频应用，则待推荐文件可以为待推荐的短视频。再如，客户端为购物应用，待推荐文件可以为待推荐的商品的信息。内容提供应用可以为新闻应用或者内容分享应用。例如，客户端为新闻应用，待推荐文件可以为待推荐的新闻内容。

服务器102可以根据第一账户的账户特征和多个待推荐文件的整体文件特征，通过目标预测模型，确定用于判断第一账户对待推荐文件的交互行为的第一目标向量；根据第一目标向量、第一账户的兴趣特征以及状态转移特征，通过文件确定模型，从多个待推荐文件中确定第一文件序列。

目标预测模型需要通过深度神经网络训练得到，文件确定模型需要通过强化学习的算法进行训练。因此，该实施环境中还可以包括第二终端103，第二终端103为服务器102获取训练样本的终端，服务器102基于训练样本训练模型时，会获取多个第二终端103的历史数据作为训练样本，服务器102获取训练样本的多个第二终端103中也可以包括第一终端101。

第二终端103可以为手机、平板电脑、电脑、可穿戴设备或者其他电子设备。第二终端103和服务器102之间通过无线或者有线网络连接。并且，第二终端103上也可以安装有服务器102提供服务的客户端，使用第二终端103的第二用户可以通过该客户端实现例如数据传输、消息交互等功能。

服务器102将向第二账户推荐的文件序列发送给第二终端103，第二用户通过第二终端103上的客户端浏览服务器102发送的文件序列，并且，对该文件序列执行交互行为；第二终端103可以获取第二账户对文件序列的交互行为，将第二账户对文件序列的交互行为发送给服务器102，为服务器102训练模型提供训练样本。

需要说明的是，本公开各实施例涉及的用户的相关信息均是经用户授权而采集，并进行后续处理的。

图2是根据一示例性实施例示出的一种文件推荐方法的流程图。参见图2，该文件推荐方法包括以下步骤：

步骤S201：响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征。

其中，账户特征用于表示第一账户的属性。

步骤S202：基于账户特征和整体文件特征，生成第一目标向量。

其中，第一目标向量用于判断第一账户在接收到待推荐文件之后对待推荐文件执行的交互行为。

步骤S203：根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征。

步骤S204：按照当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列。

其中，第一文件序列用于反馈文件推荐请求。

在一种可能的实现方式中，根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件，包括：

根据第一目标向量、第一账户的兴趣特征以及状态转移特征，从多个待推荐文件中确定出第一文件序列中当前位置的当前文件，状态转移特征是基于当前位置的上一位置的当前文件进行更新得到的；

根据第一文件序列中当前位置的当前文件，更新状态转移特征；

根据第一目标向量、第一账户的兴趣特征以及更新后的状态转移特征，从多个待推荐文件中确定出当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

在另一种可能的实现方式中，根据第一目标向量、第一账户的兴趣特征以及状态转移特征，从多个待推荐文件中确定出第一文件序列中当前位置的当前文件，包括：

获取当前的待确定文件集合，待确定文件集合包括多个待推荐文件中未被确定的待推荐文件；

根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布；

根据待确定文件集合对应的概率分布，从待确定文件集合中确定出第一文件序列中当前位置的当前文件。

在另一种可能的实现方式中，根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布，包括：

将第一目标向量、第一账户的兴趣特征以及状态转移特征输入到第一文件确定模型中，得到当前的排序权重向量；

根据排序权重向量和待确定文件集合中每个待推荐文件的文件特征，确定每个待推荐文件对应的排序权重参数；

对排序权重参数进行归一化处理，得到待确定文件集合对应的概率分布。

在另一种可能的实现方式中，根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布之前，该方法还包括：

获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值，第二文件序列是基于第二文件确定模型确定的；

根据每个序列位置上的当前文件、每次基于确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，训练第二文件确定模型，得到第一文件确定模型。

在另一种可能的实现方式中，获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值之前，该方法还包括：

获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量，第二目标向量用于表示第二账户对已推荐文件执行交互行为的偏好；

根据第二目标向量、第二账户的兴趣特征以及状态转移特征，依次从多个已推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征，每次确定出的当前文件对应于第二文件序列中的一个序列位置；

根据第二目标向量和第二账户对确定出的当前文件执行的交互行为，确定当前文件对应的文件反馈数值。

在另一种可能的实现方式中，根据第二目标向量和第二账户对确定出的当前文件执行的交互行为，确定当前文件对应的文件反馈数值，包括：

根据第二目标向量，确定第二目标向量对应的每种交互行为的权重；

根据第二账户对确定出的当前文件执行的交互行为，以及每种交互行为的权重，确定当前文件对应的文件反馈数值。

在另一种可能的实现方式中，基于账户特征和整体文件特征，生成第一目标向量，包括：

将账户特征和整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，目标预测模型用于预测第一账户在接收到待推荐文件之后对待推荐文件执行的至少一种交互行为；

对每种交互行为的标签进行拼接，得到第一目标向量。

在另一种可能的实现方式中，将账户特征和整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签之前，该方法还包括：

获取多个训练样本，训练样本包括多个已推荐文件、多个已推荐文件中每个已推荐文件对应的交互行为以及执行交互行为的账户的账户特征；

根据多个训练样本，通过深度神经网络，训练得到目标预测模型。

图3是根据一示例性实施例示出的一种文件推荐方法的流程图。参见图3，该文件推荐方法包括以下步骤：

步骤S301：第一终端向服务器发送文件推荐请求。

文件推荐请求用于请求获取向第一账户推荐的第一文件序列。在一种可能的实现方式中，第一终端响应于显示推荐界面的指令，向服务器发送文件推荐请求。

在另一种可能的实现方式中，第一终端已显示推荐界面；第一终端响应于刷新指令，向服务器发送文件推荐请求。例如，第一终端显示短视频应用的推荐界面，该推荐界面中显示有当前推荐的短视频；第一终端响应于刷新指令，向短视频应用的服务器发送文件推荐请求。该刷新指令可以是第一账户在推荐界面执行下滑操作触发的，该刷新指令也可以是第一账户在推荐界面中点击刷新按钮触发的，在本公开实施例中，刷新指令用于指示对当前推荐界面中显示的推荐对象进行刷新，对刷新指令的触发方式不做限定。

在另一种可能的实现方式中，第一终端已显示推荐界面，第一终端可以根据第一账户对上一次推荐的文件序列的浏览情况，向服务器发送文件推荐请求。相应的，第一终端向服务器发送文件推荐请求的步骤可以为：第一终端显示推荐界面，该推荐界面中显示有第三文件序列中的文件，该第三文件序列为服务器上一次向第一终端发送的文件序列；第一终端确定当前被浏览的文件在第三文件序列中所排列的位置；第一终端响应于该位置对应的排序编号大于第一阈值，向服务器发送文件推荐请求。

例如，第一终端显示短视频的推荐界面，该推荐界面中显示有上一次推荐的短视频，若当前被浏览的短视频所属的文件序列中包括10个短视频，当前被浏览的短视频为该文件序列中第8个位置的短视频，该位置对应的排序编号为8，若第一阈值为7，则第一终端向服务器发送文件推荐请求。

第一阈值可以是根据文件序列所包括的文件的预设数量确定的。例如，文件序列中所包括的文件的预设数量为10，第一阈值可以设置为7、8或9。

第一阈值还可以是结合服务器的响应时长确定的，服务器确定第一阈值的步骤可以为：第一终端获取服务器的响应时长，服务器的响应时长为从第一终端发送文件推荐请求开始到第一终端接收到第一文件序列之间的时长；根据该响应时长和第一账户浏览一个文件的平均时长，确定一个响应时长内第一账户可浏览的文件的数量；将第三文件序列中所包括的文件的预设数量与一个响应时长内第一账户可浏览的文件的数量做差，得到第一阈值。

在本公开实施例中，第一终端可以根据第一账户对上一次推荐的文件序列的浏览情况，在第一账户对上一次推荐的文件序列中的文件全部浏览完之前，向服务器发送文件推荐请求，以提前获取到新的文件序列，在第一账户浏览完上一次推荐的文件序列时，能够及时将新的文件序列展示给第一账户，提高了文件推荐的效率和及时性，减少了用户的等待时间，能够提升用户的体验度。

在另一种可能的实现方式中，第一终端已显示推荐界面，第一终端可以周期性的向服务器发送文件推荐请求。相应的，第一终端向服务器发送文件推荐请求的步骤可以为：从第一终端显示推荐界面开始，第一终端每隔第一时间段，向服务器发送文件推荐请求。第一时间段可以是根据第一账户浏览文件序列的平均时长确定的。

第一终端还可以在每隔第一时间段，向服务器发送文件推荐请求之前，先确定第一终端当前是否已获取有文件序列且该文件序列未进行显示；若第一终端当前已获取有文件序列且该文件序列未进行显示，则第一终端本次不向服务器发送文件推荐请求。

例如，第一时间段为60秒，第一终端每隔60秒向服务器发送一次文件推荐请求。若第一终端从17时48分开始显示推荐界面，且17时52分第一终端已获取有未显示的文件序列，则第一终端17时52分不向服务器发送文件推荐请求。

在本公开实施例中，第一终端可以周期性的向服务器发送文件推荐请求，以获取文件序列，若第一终端当前已获取有文件序列且该文件序列未进行显示，则第一终端本次可以暂时不向服务器发送文件推荐请求。在第一终端已获取有未进行显示的文件序列时，不重复向服务器请求获取新的文件序列，能够减少第一终端和服务器之间的通信资源的消耗，并且减少服务器重复确定文件序列的资源消耗，提高通信资源以及服务器资源的利用率。

需要说明的一点是，若第一终端接收到获取新的文件序列的指令，并且，第一终端上一次推荐的文件序列中的文件已在推荐界面中全部显示，并且，第一终端未获取到新的文件序列，则第一终端向服务器发送文件推荐请求。

需要说明的另一点是，第一终端也可以仅响应于显示推荐界面的指令，向服务器发送文件推荐请求；服务器可以从接收到第一终端发送的文件推荐请求开始周期性的向第一终端发送文件序列。

步骤S302：服务器响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征。

账户特征用于表示第一账户的属性，账户特征可以包括预设时间段内第一账户执行的每种交互行为的第一数量、预设时间段内第一账户的历史交互偏好、第一账户的登录状态和账户画像中的一个或多个。

第一账户为本次文件推荐所面向的目标账户，且第一账户为第一终端对应的账户。文件推荐请求可以携带有第一账户的账户标识，服务器中存储有账户标识和账户特征的对应关系。相应的，本步骤可以为：服务器响应于接收到文件推荐请求，根据该文件推荐请求携带的账户标识，从已存储的账户标识和账户特征的对应关系中，获取账户标识对应的账户特征；将该账户标识对应的账户特征确定为第一账户的账户特征。

需要说明的一点是，服务器从已存储的账户标识和账户特征的对应关系中，获取账户标识对应的账户特征之前，服务器预先获取了第一账户的账户特征，并且，存储了第一账户的账户标识与账户特征的对应关系。在一种可能的实现方式中，账户特征可以包括预设时间段内第一账户执行的每种交互行为的第一数量，也即账户特征能够表示账户执行不同交互行为的次数。相应的，服务器获取请求推荐文件的第一账户的账户特征的步骤可以为：服务器获取预设时间段内第一账户的每种交互行为的第一数量，已推荐文件为预设时间段内在推荐界面中展示给第一账户的文件；将每种交互行为的第一数量添加到账户特征中。

交互行为是第一账户对已推荐文件所执行的交互行为，例如，客户端可以为短视频应用，第一账户可以通过第一终端上的短视频应用，浏览短视频，对浏览的短视频产生一种或多种交互行为。例如，交互行为可以为点击观看的行为、点赞行为、评论行为、收藏行为、关注行为、下载行为、分享行为、推广行为、用于指示拍同款的行为或者用于指示拍同框的行为等；交互行为还可以为对某个短视频的浏览时长；交互行为还可以为用于指示不感兴趣的行为、用于指示减少类似推荐的行为或者用于指示取消关注的行为等。

再如，客户端也可以为购物应用，第一账户可以通过第一终端上的购物应用，浏览商品，对浏览的商品产生一种或多种交互行为。例如，交互行为可以为用于指示浏览商品详情的行为、收藏行为、加购行为、购买行为或者用于指示查找相似商品的行为等；交互行为还可以为用于指示不感兴趣的行为或者用于指示减少类似推荐的行为等。

再如，客户端也可以为新闻应用，第一账户可以通过第一终端上的新闻应用，浏览新闻内容，对浏览的新闻内容产生一种或多种交互行为。例如，交互行为可以为浏览新闻内容详情的行为、点赞行为、评论行为或者分享行为等；交互行为还可以为对某个新闻内容的浏览时长；交互行为还可以为用于指示不感兴趣的行为或者用于指示减少类似推荐的行为等。

服务器获取的每种交互行为的第一数量中的每种交互行为可以是当前业务场景所需要统计的交互行为。例如，服务器为短视频应用的后台服务器，上述每种交互行为可以包括点击观看的行为、点赞行为、关注行为和评论行为，账户特征包括第一账户预设时间段内点击观看的行为的次数、点赞行为的次数、关注行为的次数和评论行为的次数。

预设时间段为基于当前时间选取的历史的时间段。预设时间段可以为基于当前时间选取的指定时长的时间段。例如，指定时长为7天，当前时间为2020年3月19日，预设时间段可以为2020年3月12日至2020年3月19日。指定时长可以为根据业务场景设定的任一时长，例如，指定时长可以为1天、7天或者15天等。

服务器还可以从上一次获取第一数量的第一时间开始，统计累计展示给第一账户的已推荐文件的第三数量，将第三数量达到第二阈值的时间确定为第二时间，将第一时间和第二时间之间的时间段确定为预设时间段。第二阈值可以为根据业务场景设定的任一数值，例如，第二阈值可以为100、500或者1000等。

在本公开实施例中，服务器根据累计展示给第一账户的已推荐文件的第三数量，确定预设时间段，获取的每种交互行为的第一数量是基于数量达到第二阈值的已推荐文件统计的，数量达到第二阈值的已推荐文件为账户特征的获取提供了丰富的数据支撑，根据该账户特征，能够提高确定第一目标向量的准确性，进而根据第一目标向量，能够提高确定第一文件序列的准确性，提升文件推荐的效果。

在另一种可能的实现方式中，账户特征还可以包括预设时间段内第一账户的历史交互偏好，历史交互偏好用于表示第一账户执行不同交互行为的次数在向第一账户展示的已推荐文件中所占的比例。相应的，服务器获取请求推荐文件的第一账户的账户特征的步骤可以为：服务器获取预设时间段内第一账户的每种交互行为的第一数量，以及获取预设时间段内已向第一账户推荐的已推荐文件的第二数量；分别根据每种交互行为的第一数量与第二数量的比值，确定第一账户的历史交互偏好；将该历史交互偏好添加到账户特征中。

例如，预设时间段内在推荐界面中展示给第一账户的已推荐文件的第二数量为100，预设时间段内第一账户执行点击观看的行为的次数为30、点赞行为的次数为16、关注行为的次数为0以及评论行为的次数为5，则第一账户的历史交互偏好包括第一账户的点击率0.3、第一账户的点赞率为0.16、第一账户的关注率为0以及第一账户的评论率为0.05。

在本公开实施例中，第一账户的账户特征包括预设时间段内第一账户的历史交互偏好，该历史交互偏好基于预设时间段内第一账户执行的每种交互行为的第一数量和预设时间段内已推荐给第一账户的已推荐文件的第二数量得到，能够更加真实的反映第一账户的账户特征，根据该账户特征，能够提高确定第一目标向量的准确性，进而根据第一目标向量，能够提高确定第一文件序列的准确性，提升文件推荐的效果。

需要说明的一点是，账户特征包括第一数量或历史交互偏好中的一个或多个，除此之外，账户特征还可以包括第一账户的登录状态或者第一账户的账户画像中的一个或多个。服务器还可以获取第一账户的登录状态，将第一账户的登录状态添加到账户特征中。相应的，服务器获取请求推荐文件的第一账户的账户特征的步骤还可以包括：服务器获取第一账户的登录状态，该登录状态用于指示第一账户已登录或者第一账户未登录；将第一账户的登录状态添加到账户特征中。

服务器还可以获取第一账户的账户画像，将该账户画像添加到账户特征中。相应的，服务器获取请求推荐文件的第一账户的账户特征的步骤还可以包括：服务器获取第一账户的账户画像，该账户画像用于表示第一账户的基本属性；将该账户画像添加到账户特征中。第一账户的基本属性包括第一账户的年龄、性别、职业或者所在的地理位置中的一个或多个。

在本公开实施例中，服务器还可以将第一账户的登录状态或者账户画像添加到账户特征中，通过将登录状态或账户画像添加到账户特征中，能够使账户特征所表示的第一账户的属性更加丰富，根据该账户特征，能够提高确定第一目标向量的准确性，进而根据第一目标向量，能够提高确定第一文件序列的准确性，文件推荐的效果。

步骤S303：服务器获取多个待推荐文件的整体文件特征。

多个待推荐文件可以是服务器预先确定出的第一账户可能感兴趣的有限数量的文件。例如，服务器为短视频应用的服务器，该服务器可以从海量短视频中预先确定出100个短视频，将该100个短视频作为多个待推荐文件。

整体文件特征用于表示多个待推荐文件的整体特征，服务器可以通过SetTransformer(一种集合类型数据的模型)技术，对多个待推荐文件中每个待推荐文件的文件特征和待推荐文件之间的关系进行提取，得到用于表示多个待推荐文件的整体特征的整体文件特征。

需要说明的一点是，步骤S302和步骤303没有严格的时间先后顺序，可以先执行步骤S302，再执行步骤S303；也可以先执行步骤S303，再执行步骤S302；还可以同时执行步骤S302和步骤S303。在本公开实施例中，对步骤S302和步骤S303执行的先后顺序不做限定。

步骤S304：服务器基于账户特征和整体文件特征，生成第一目标向量。

第一目标向量用于判断第一账户在接收到待推荐文件之后对待推荐文件执行的交互行为。例如，服务器可以为短视频应用的服务器，第一目标向量用于判断第一账户对待推荐文件的交互行为，第一目标向量可以为“1100”，该第一目标向量可以表示第一账户的点击观看的行为的标签为1、点赞行为的标签为1、关注行为的标签为0以及评论行为的标签为0；该第一目标向量表示第一账户在接收到待推荐文件之后对待推荐文件会执行点击观看的行为和点赞行为，不会执行关注行为和评论行为。

服务器可以通过目标预测模型确定第一目标向量，相应的，服务器根据账户特征和整体文件特征，生成第一目标向量的步骤可以为：服务器将账户特征和整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，目标预测模型用于预测第一账户在接收到待推荐文件之后对待推荐文件执行的至少一种交互行为；对每种交互行为的标签进行拼接，得到第一目标向量。

至少一种交互行为与待推荐文件的类型相对应，例如，服务器为短视频应用的服务器，待推荐文件的类型为短视频，短视频对应的至少一种交互行为可以包括点击观看的行为、点赞行为、关注行为和评论行为。

每种交互行为的标签用于预测第一账户是否会对待推荐文件产生该种交互行为。例如，一种交互行为是点击观看的行为，该交互行为的标签为1，该标签用于预测第一账户在接收到待推荐文件之后对待推荐文件会执行点击观看的行为；另一种交互行为是评论行为，该交互行为的标签为0，该标签用于预测第一账户在接收到待推荐文件之后对待推荐文件不会执行评论行为。

图4是根据一示例性实施例示出的一种文件推荐方法的示意图，参见图4，服务器可以为短视频应用的服务器，整体文件特征可以为视频集合特征，服务器对第一账户的账户特征和视频集合特征进行拼接，将拼接后的账户特征和视频集合特征输入到目标预测模型中，得到第一目标向量，该第一目标向量可以由4个标签拼接而成，拼接成第一目标向量的4个标签分别用于判断第一账户对在接收到待推荐文件之后对待推荐文件是否会执行点击观看的行为、点赞行为、关注行为和评论行为。

需要说明的一点是，服务器将账户特征和整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签之前，还采用深度神经网络(Deep NeuralNetworks，DNN)进行目标预测模型的训练。相应的，服务器通过训练得到目标预测模型的步骤可以为：获取多个训练样本，该训练样本包括多个已推荐文件、多个已推荐文件中每个已推荐文件对应的交互行为以及执行该交互行为的账户的账户特征；根据多个训练样本，通过深度神经网络，训练得到目标预测模型。

服务器根据多个训练样本，训练得到目标预测模型，多个训练样本分别对应多个不同的账户，多个不同的第二账户中可以包括本次请求推荐文件的第一账户，也可以不包括本次请求推荐文件的第一账户。

需要说明的一点是，服务器可以同时具有文件推荐的功能和确定多个待推荐文件的功能，确定多个待推荐文件的过程可以是通过该服务器实现的；第一终端可以将文件推荐请求发送至该服务器，由该服务器确定多个待推荐文件，并且通过文件推荐方法，从多个待推荐文件中确定出第一文件序列。服务器也可以具有文件推荐的功能，不具有确定多个待推荐文件的功能，则确定多个待推荐文件的过程可以是通过具有确定多个待推荐文件的功能的其他服务器实现的；第一终端可以向具有确定多个待推荐文件的功能的其他服务器发送文件推荐请求；具有确定多个待推荐文件的功能的其他服务器确定多个待推荐文件，将多个待推荐文件传输至具有文件推荐的功能的服务器；具有文件推荐的功能的服务器通过文件推荐方法，从多个待推荐文件中确定出第一文件序列。在本公开实施例中，是以服务器同时具有文件推荐的功能和确定多个待推荐文件的功能为例进行说明的。

步骤S305：服务器获取第一账户的兴趣特征。

第一账户的兴趣特征用于表示第一账户对请求推荐的文件的兴趣，例如，对于短视频应用，兴趣特征用于表示第一账户对短视频的兴趣；对于购物应用，兴趣特征用于表示第一账户对商品的兴趣；对于新闻应用，兴趣特征用于表示第一账户对新闻内容的兴趣。

兴趣特征可以包括历史兴趣特征和账户画像，历史兴趣特征用于表示第一账户历史的兴趣表现。历史兴趣特征可以是对第一账户的历史行为进行聚合得到的。例如，对于短视频应用，历史行为可以是第一账户对某个短视频进行了点击观看，对某个短视频进行了点赞，对某个短视频的作者进行了关注或者对某个短视频进行了评论等。

账户画像用于表示第一账户的基本属性，第一账户的基本属性可以包括第一账户的年龄、性别、职业或者第一账户所在的地理位置中的一个或多个。

步骤S306：服务器根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征。

第一文件序列包括按照顺序排列的预设数量的文件，每个文件之间存在先后顺序。服务器通过预设数量个步骤，依次从多个待推荐文件中确定出当前文件，每个步骤确定出一个当前文件，每次确定出一个当前文件，基于确定出的当前文件更新当前的状态转移特征，并且，更新后的状态转移特征在下一次确定出另一个当前文件之后，再次被更新，直至确定出预设数量的当前文件。相应的，本步骤可以为：服务器根据第一目标向量、第一账户的兴趣特征以及状态转移特征，从多个待推荐文件中确定出第一文件序列中当前位置的当前文件，该状态转移特征是基于当前位置的上一位置的当前文件进行更新得到的；根据第一文件序列中当前位置的当前文件，更新状态转移特征；根据第一目标向量、第一账户的兴趣特征以及更新后的状态转移特征，从多个待推荐文件中确定出当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

确定当前位置的当前文件时的状态转移特征用于表示当前位置的上一位置的当前文件被确定出而产生的状态转移特征。服务器可以将上一位置的当前文件的文件特征作为输入，通过递归神经网络(Recursive Neural Network，RNN)的作用，更新状态转移特征，得到上一位置的当前文件被确定出而产生的状态转移特征。

服务器可以根据待推荐文件的概率分布，确定出当前文件。相应的，服务器根据第一目标向量、第一账户的兴趣特征以及状态转移特征，从多个待推荐文件中确定出第一文件序列中当前位置的当前文件可以通过以下步骤(1)至步骤(3)实现：

(1)服务器获取当前的待确定文件集合。

待确定文件集合包括多个待推荐文件中未被确定的待推荐文件，也即，待确定文件集合是确定当前位置的当前文件的有效的待推荐文件的集合，确定第一文件序列中每个位置的当前文件时的待确定文件集合是不同的。例如，服务器已确定出了A文件，则在确定出A文件之后，确定当前文件时的待确定文件集合中不再包括A文件。

(2)服务器根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布。

服务器可以基于第一文件确定模型，得到待确定文件集合对应的概率分布。相应的，本步骤可以为：服务器将第一目标向量、第一账户的兴趣特征以及状态转移特征输入到第一文件确定模型中，得到当前的排序权重向量；根据排序权重向量和待确定文件集合中每个待推荐文件的文件特征，确定每个待推荐文件对应的排序权重参数；对排序权重参数进行归一化处理，得到待确定文件集合的概率分布。

第一文件确定模型的输出可以是排序权重向量，该排序权重向量用于表示以第一目标向量、第一账户的兴趣特征以及状态转移特征为基础的排序参考特征。该排序权重向量的维度与用于表示待推荐文件的文件特征的向量的维度相等。

服务器可以对排序权重向量和待确定文件集合中包括的每个待推荐文件的文件特征做内积，得到每个待推荐文件的排序权重参数，排序权重参数用于表示待推荐文件与排序权重向量的匹配程度。服务器可以通过softmax(归一化指数)函数，对每个待推荐文件的排序权重参数进行归一化处理，得到待确定文件集合的概率分布。

(3)服务器根据待确定文件集合的概率分布，从待确定文件集合中确定出第一文件序列中当前位置的当前文件。

服务器可以根据待确定文件集合的概率分布，从待确定文件集合中选取概率最大的待推荐文件，将该概率最大的待推荐文件确定为第一文件序列中当前位置的当前文件。

需要说明的一点是，服务器也可以基于探索率确定出当前位置的当前文件，例如，探索率为∈，服务器以1-∈的概率将概率最大的待推荐文件确定为当前位置的当前文件，以∈的概率随机将待确定文件集合中的任一待推荐文件确定为当前位置的当前文件。

继续参见图4，对于短视频应用，服务器通过目标预测模型得到第一账户的第一目标向量后，将该第一目标向量、兴趣特征和状态转移特征作为第一文件确定模型的输入，基于当前的状态转移特征和第一文件确定模型的策略(policy)得到排序权重向量，将排序权重向量与待确定文件集合中的短视频的视频特征做内积，得到待确定文件集合的概率分布，进而根据该概率分布进行短视频的确定，并且产生当前的期望值(value)。

需要说明的一点是，服务器根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布之前，还对第二文件确定模型进行训练，得到第一文件确定模型。相应的，服务器得到第一文件确定模型的步骤可以为：服务器获取第二文件序列中每个序列位置上的当前文件，以及获取每次基于确定出的当前文件更新得到的状态转移特征，以及获取每次确定出的当前文件对应的文件反馈数值，第二文件序列是基于第二文件确定模型确定的；根据每个序列位置上的当前文件、每次基于确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，训练第二文件确定模型，得到第一文件确定模型。

服务器通过第二文件确定模型确定出第二文件序列，基于第二文件序列的确定过程，通过强化学习算法，训练第二文件确定模型，得到第一文件确定模型。服务器根据第二文件序列确定过程中每个序列位置上确定出的当前文件，每次确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，通过强化学习算法，训练第二文件确定模型，得到第一文件确定模型。

例如，服务器确定出的第二文件序列中第一个序列位置上的当前文件为A0，基于A0更新得到的状态转移特征为S1，以及得到的文件反馈数值为R1；确定出第二个序列位置上的当前文件为A1，基于A1更新得到的状态转移特征为S2，以及，得到的文件反馈数值为R2，以此类推，服务器根据预设数量的当前文件、状态转移特征以及文件反馈数值，训练第二文件确定模型，得到第一文件确定模型。

服务器可以通过A3C(AsynchronousAdvantageActor-Critic，异步的优势行动者评论家算法)算法或者或者Actor-Critic(行动者评论家算法)算法，对第二文件确定模型进行on-policy(同策略学习)的训练，得到第一文件确定模型，使得通过第一文件确定模型确定当前文件得到的文件反馈数值的价值最高。

在本公开实施例中，服务器可以基于on-policy的A3C算法训练文件确定模型，使得文件确定模型的更新学习更加稳定，收敛加快。

需要说明的另一点是，服务器获取第二文件序列中每个序列位置上的当前文件，以及获取每次基于确定出的当前文件更新得到的状态转移特征，以及获取每次确定出的当前文件对应的文件反馈数值之前，还通过第二文件确定模型确定出第二文件序列，以根据第二文件序列的确定过程训练第二文件确定模型。相应的，服务器通过第二文件确定模型确定第二文件序列可以通过以下步骤(一)至(三)实现：

(一)服务器获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量。

第二目标向量可以为随机采样的任一目标向量。第二目标向量也可以为第二账户对应的目标向量，该第二账户对应的目标向量可以是基于第二账户的账户特征和第二账户对应的多个待推荐文件的整体文件特征生成的。在本公开实施例中，以第二目标向量为随机采样的任一目标向量为例进行说明。例如，目标向量为三维向量，则第二目标向量可以采样为000、001、010、011、100、101、110或111。服务器可以基于8种第二目标向量，形成8种可用于训练第二文件确定模型的样本，8种样本中的每一种可用于对第二文件确定模型进行一次训练。

在本公开实施例中，通过对第二目标向量进行随机采样，能够丰富用于训练第二文件确定模型的样本量，能够提升样本的利用效率，解决样本量不足的问题，显著的提升训练效率，以及提升对第二文件确定模型的训练效果。

已向第二账户推荐的多个已推荐文件可以为已向第二账户推荐的文件序列。已向第二账户推荐的多个已推荐文件也可以是通过其他推荐方法向第二账户推荐的多个文件。

(二)服务器根据第二目标向量、第二账户的兴趣特征以及状态转移特征，依次从多个已推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征，每次确定出的当前文件对应于第二文件序列中的一个序列位置。

本步骤与服务器根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件的步骤相似，在此不再赘述。

(三)服务器根据第二目标向量和第二账户对确定出的当前文件执行的交互行为，确定当前文件对应的文件反馈数值。

每个已推荐文件对应有第二账户对该已推荐文件所执行的交互行为，在本公开实施例的训练过程中，假设对多个已推荐文件重新排序后，每个已推荐文件对应的交互行为不会发生变化。

第二目标向量对应有至少一种交互行为，并且第二目标向量对应的每种交互行为的权重不同，每种交互行为的权重与第二目标向量相对应，服务器可以根据每种交互行为的权重，确定当前文件对应的文件反馈数值。相应的，本步骤可以为：服务器根据第二目标向量，确定第二目标向量对应的每种交互行为的权重；根据第二账户对确定出的当前文件执行的交互行为，以及每种交互行为的权重，确定当前文件对应的文件反馈数值。

第二目标向量对应的每种交互行为的权重不同，例如，对于短视频应用，第二目标向量所代表的交互行为包括点击观看的行为、点赞行为、关注行为和评论行为；若第二目标向量为1100，则表示第二账户的交互行为的偏好为点击观看的行为和点赞行为，则上述四种交互行为每种交互行为的权重可以不同，其中点击观看的行为的权重和点赞行为的权重分别大于关注行为的权重和评论行为的权重。

服务器根据第二账户对确定出的当前文件执行的交互行为，以及每种交互行为的权重，确定当前文件对应的文件反馈数值可以通过以下公式一和公式二实现：

公式一：reward＝DCG@K-DCG@(K-1)

公式二：

其中，reward表示当前文件对应的文件反馈数值；reward表示确定当前文件所引起的DCG@K指标的提升；K表示当前文件在第二文件序列中的第K个序列位置；k表示当前文件，k可以用该当前文件所在的序列位置对应的排序编号表示；C_k表示第二目标向量对应的至少一种交互行为的集合；c表示C_k中的任一交互行为；W_c表示交互行为c的权重；r(k,c)表示当前文件k是否对应有交互行为c，若当前文件k未对应交互行为c，则r(k,c)为0，若当前文件k对应有交互行为c，则r(k,c)为1；表示对当前文件k对应有的交互行为的权重进行累加求和；/>表示分别对第一个序列位置至第K个序列位置的/>进行累加求和。

例如，K为3，第二目标向量对应的至少一种交互行为包括点击观看的行为、点赞行为、关注行为和评论行为，且第二目标向量为1100，点击观看的行为的权重可以为0.55、点赞行为的权重可以为0.35、关注行为的权重可以为0.04、评论行为的权重可以为0.06；当前文件对应的交互行为有点击观看的行为和点赞行为，则

需要说明的一点是，服务器可以在每次确定出当前文件之后，就根据第二目标向量和第二账户对确定出的当前文件执行的交互行为，确定当前文件对应的文件反馈数值。服务器也可以在从多个已推荐文件中确定出第二文件序列之后，再根据第二目标向量和第二账户对第二文件序列每个序列位置上的当前文件执行的交互行为，确定出每个序列位置上的当前文件对应的文件反馈数值。

在本公开实施例中，第二目标向量对应的每种交互行为的权重不同，并且每种交互行为的权重是基于第二目标向量设置的，根据每种交互行为的权重得到每个序列位置上的当前文件对应的文件反馈数值，进而根据该文件反馈数值，针对不同账户执行交互行为的偏好对文件确定模型进行个性化的训练，得到的第一文件确定模型能够基于第一账户的交互行为的偏好确定出第一文件序列，实现针对不同账户的交互行为的偏好进行个性化的推荐，提高了文件推荐的准确性。

需要说明的一点是，目标预测模型的训练过程和文件确定模型的训练过程可以是独立的两个过程，在训练的过程中目标预测模型和文件确定模型是两个独立解耦的模块，目标预测模型的训练与文件确定模型的训练可以分别单独进行，并且互不影响，在需要对其中任意一个模型进行调整和训练时，不需要另一模型的配合，能够提高单个模型的训练的效率，提升训练资源的利用率。

步骤S307：服务器按照当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列，其中，第一文件序列用于反馈文件推荐请求。

服务器依次从多个待推荐文件中确定出当前文件，经过预设数量个步骤，每个步骤确定出一个当前文件，直至确定出预设数量的当前文件。服务器可以按照每个当前文件的确定顺序，确定出第一文件序列，该第一文件序列包括预设数量的按照顺序排列的当前文件。

例如，服务器依次从多个待推荐文件中确定出第一个待推荐文件A文件、第二个待推荐文件B文件和第三个待推荐文件C文件，将A文件、B文件和C文件按照确定顺序组成第一文件序列，第一文件序列中的第一个位置为A文件，第二个位置为B文件，第三个位置为C文件。

步骤S308：服务器向第一终端发送第一文件序列。

服务器向第一终端发送第一文件序列，该第一文件序列包括按照顺序排列的预设数量的待推荐文件。第一文件序列用于按照顺序显示预设数量的待推荐文件于第一终端的推荐界面中。

步骤S309：第一终端接收服务器发送的第一文件序列，在推荐界面中对第一文件序列进行显示。

在一种可能的实现方式中，第一终端的推荐界面中显示待推荐文件的形式可以为推荐界面中显示一个待推荐文件，则第一终端在推荐界面中对第一文件序列进行显示的步骤可以为：第一终端响应于用于指示在推荐界面中显示新的待推荐文件的指令，按照顺序从第一文件序列中获取一个待推荐文件；将该待推荐文件显示在推荐界面中。

例如，推荐界面可以为短视频应用的推荐界面，该推荐界面中显示有第一文件序列中的第一个短视频，第一终端响应于用于指示在推荐界面中显示新的待推荐文件的指令，从第一文件序列中获取第二个短视频；将第二个短视频显示在推荐界面中。用于指示在推荐界面中显示新的待推荐文件的指令可以是基于推荐界面触发滑动操作所产生的指令，例如，基于推荐界面触发下滑操作产生用于指示在推荐界面中显示新的待推荐文件的指令。

在另一种可能的实现方式中，第一终端的推荐界面中显示待推荐文件的形式可以为推荐界面中显示多个待推荐文件，则第一终端在推荐界面中对第一文件序列进行显示的步骤可以为：第一终端响应于用于指示在推荐界面中显示新的待推荐文件的指令，从第一文件序列中按照顺序获取第四数量的未被获取的待推荐文件，第四数量为推荐界面中可以显示的待推荐文件的数量；分别在每个待推荐文件对应的显示区域中显示该待推荐文件，待推荐文件对应的区域与该待推荐文件在第一文件序列中所排列的位置对应的排序编号相对应。

推荐界面中的每个显示区域可以对应有顺序编号，每个显示区域用于显示一个待推荐文件，显示区域对应的顺序编号与第一文件序列中的位置的排序编号相对应。

例如，推荐界面为短视频应用的推荐界面，该推荐界面中包括5个用于显示短视频的显示区域，显示区域对应的顺序编号分别为0、1、2、3和4，顺序编号小的显示区域被优先显示；第一文件序列包括10个短视频，短视频所在的序列位置对应的排序编号分别为0至9，第一文件序列中排序编号为0至4的位置上的短视频已被获取；则第一终端响应于用于指示在推荐界面中显示新的待推荐文件的指令，从第一文件序列中获取排序编号为5至9的位置上的短视频；将排序编号为5的位置上的短视频显示在顺序编号为0的显示区域中；将排序编号为6的位置上的短视频显示在顺序编号为1的显示区域中；将排序编号为7的位置上的短视频显示在顺序编号为2的显示区域中，以此类推。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图5是根据一示例性实施例示出的一种文件推荐装置的框图。参见图5，该装置包括：

获取模块501，被配置为执行响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，账户特征用于表示第一账户的属性；

生成模块502，被配置为执行基于账户特征和整体文件特征，生成第一目标向量，其中，第一目标向量用于判断第一账户在接收到待推荐文件之后对待推荐文件执行的交互行为；

确定模块503，被配置为执行根据第一目标向量、第一账户的兴趣特征以及状态转移特征，依次从多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征；按照当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列，其中，第一文件序列用于反馈文件推荐请求。

在一种可能的实现方式中，确定模块503，还被配置为执行根据第一目标向量、第一账户的兴趣特征以及状态转移特征，从多个待推荐文件中确定出第一文件序列中当前位置的当前文件，状态转移特征是基于当前位置的上一位置的当前文件进行更新得到的；根据第一文件序列中当前位置的当前文件，更新状态转移特征；根据第一目标向量、第一账户的兴趣特征以及更新后的状态转移特征，从多个待推荐文件中确定出当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

在另一种可能的实现方式中，确定模块503，还被配置为执行获取当前的待确定文件集合，待确定文件集合包括多个待推荐文件中未被确定的待推荐文件；根据第一目标向量、第一账户的兴趣特征、状态转移特征和待确定文件集合中每个待推荐文件的文件特征，基于第一文件确定模型，得到待确定文件集合对应的概率分布；根据待确定文件集合对应的概率分布，从待确定文件集合中确定出第一文件序列中当前位置的当前文件。

在另一种可能的实现方式中，确定模块503，还被配置为执行将第一目标向量、第一账户的兴趣特征以及状态转移特征输入到第一文件确定模型中，得到当前的排序权重向量；根据排序权重向量和待确定文件集合中每个待推荐文件的文件特征，确定每个待推荐文件对应的排序权重参数；对排序权重参数进行归一化处理，得到待确定文件集合对应的概率分布。

在另一种可能的实现方式中，该装置还包括：

获取模块501，还被配置为执行获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值，第二文件序列是基于第二文件确定模型确定的；

第一训练模块，被配置为执行根据每个序列位置上的当前文件、每次基于确定出的当前文件更新得到的状态转移特征以及每次确定出的当前文件对应的文件反馈数值，训练第二文件确定模型，得到第一文件确定模型。

在另一种可能的实现方式中，获取模块501，还被配置为执行获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量，第二目标向量用于表示第二账户对已推荐文件执行交互行为的偏好；

确定模块503，还被配置为执行根据第二目标向量、第二账户的兴趣特征以及状态转移特征，依次从多个已推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于当前文件更新当前的状态转移特征，每次确定出的当前文件对应于第二文件序列中的一个序列位置；根据第二目标向量和第二账户对确定出的当前文件执行的交互行为，确定当前文件对应的文件反馈数值。

在另一种可能的实现方式中，确定模块503，还被配置为执行根据第二目标向量，确定第二目标向量对应的每种交互行为的权重；根据第二账户对确定出的当前文件执行的交互行为，以及每种交互行为的权重，确定当前文件对应的文件反馈数值。

在另一种可能的实现方式中，生成模块502，还被配置为执行将账户特征和整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，目标预测模型用于预测第一账户在接收到待推荐文件之后对待推荐文件执行的至少一种交互行为；对每种交互行为的标签进行拼接，得到第一目标向量。

在另一种可能的实现方式中，该装置还包括：

获取模块501，还被配置为执行获取多个训练样本，训练样本包括多个已推荐文件、多个已推荐文件中每个已推荐文件对应的交互行为以及执行交互行为的账户的账户特征；

第二训练模块，被配置为执行根据多个训练样本，通过深度神经网络，训练得到目标预测模型。

需要说明的是：上述实施例提供的文件推荐装置在进行文件推荐时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将服务器的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文件推荐装置与文件推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图6是根据一示例性实施例示出的一种服务器的框图，该服务器600可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)601和一个或一个以上的存储器602，其中，存储器602中存储有至少一条指令，至少一条指令由处理器601加载并执行以实现上述各个方法实施例提供的文件推荐方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，上述至少一条指令可由服务器中的处理器执行以完成上述实施例中的文件推荐方法。例如，计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-OnlyMemory，只读光盘)、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，当计算机程序产品中的指令由服务器的处理器执行时，使得服务器能够执行上述各个方法实施例提供的文件推荐方法。

需要说明的是，该方案中，涉及的用户信息、以及用户的操作行为信息等，均是经用户授权而采集并进行后续处理或分析的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种文件推荐方法，其特征在于，所述方法包括：

响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，所述账户特征用于表示所述第一账户的属性，所述账户特征包括预设时间段内所述第一账户执行的每种交互行为的第一数量或所述预设时间段内所述第一账户的历史交互偏好，所述历史交互偏好用于表示所述第一账户执行不同交互行为的次数在向所述第一账户展示的已推荐文件中所占的比例；

根据所述第一目标向量、第一账户的兴趣特征以及状态转移特征，基于第一文件确定模型，依次从所述多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征，所述第一文件确定模型是基于不同账户执行交互行为的偏好进行个性化训练得到的，用于针对不同账户的交互行为的偏好进行个性化的推荐；

2.根据权利要求1所述的方法，其特征在于，所述根据所述第一目标向量、第一账户的兴趣特征以及状态转移特征，基于第一文件确定模型，依次从所述多个待推荐文件中确定出当前文件，包括：

根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，基于所述第一文件确定模型，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，所述状态转移特征是基于所述当前位置的上一位置的当前文件进行更新得到的；

根据所述第一目标向量、所述第一账户的兴趣特征以及更新后的状态转移特征，基于所述第一文件确定模型，从所述多个待推荐文件中确定出所述当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，基于所述第一文件确定模型，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，包括：

根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于所述第一文件确定模型，得到所述待确定文件集合对应的概率分布；

4.根据权利要求3所述的方法，其特征在于，所述根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于所述第一文件确定模型，得到所述待确定文件集合对应的概率分布，包括：

将所述第一目标向量、所述第一账户的兴趣特征以及所述状态转移特征输入到所述第一文件确定模型中，得到当前的排序权重向量；

5.根据权利要求3所述的方法，其特征在于，所述根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于所述第一文件确定模型，得到所述待确定文件集合对应的概率分布之前，所述方法还包括：

6.根据权利要求5所述的方法，其特征在于，所述获取第二文件序列中每个序列位置上的当前文件，以及，获取每次基于确定出的当前文件更新得到的状态转移特征，以及，获取每次确定出的当前文件对应的文件反馈数值之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二目标向量和所述第二账户对确定出的当前文件执行的交互行为，确定所述当前文件对应的文件反馈数值，包括：

8.根据权利要求1所述的方法，其特征在于，所述基于所述账户特征和所述整体文件特征，生成第一目标向量，包括：

对所述每种交互行为的标签进行拼接，得到第一目标向量。

9.根据权利要求8所述的方法，其特征在于，所述将所述账户特征和所述整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签之前，所述方法还包括：

10.一种文件推荐装置，其特征在于，所述装置包括：

获取模块，被配置为执行响应于接收到文件推荐请求，获取请求推荐文件的第一账户的账户特征和多个待推荐文件的整体文件特征，其中，所述账户特征用于表示所述第一账户的属性，所述账户特征包括预设时间段内所述第一账户执行的每种交互行为的第一数量或所述预设时间段内所述第一账户的历史交互偏好，所述历史交互偏好用于表示所述第一账户执行不同交互行为的次数在向所述第一账户展示的已推荐文件中所占的比例；

确定模块，被配置为执行根据所述第一目标向量、第一账户的兴趣特征以及状态转移特征，基于第一文件确定模型，依次从所述多个待推荐文件中确定出当前文件，其中，在每次确定出当前文件之后，基于所述当前文件更新当前的状态转移特征，所述第一文件确定模型是基于不同账户执行交互行为的偏好进行个性化训练得到的，用于针对不同账户的交互行为的偏好进行个性化的推荐；按照所述当前文件的确定顺序，确定出多个待推荐文件对应的第一文件序列，其中，所述第一文件序列用于反馈所述文件推荐请求。

11.根据权利要求10所述的装置，其特征在于，所述确定模块，还被配置为执行根据所述第一目标向量、所述第一账户的兴趣特征以及状态转移特征，基于所述第一文件确定模型，从所述多个待推荐文件中确定出所述第一文件序列中当前位置的当前文件，所述状态转移特征是基于所述当前位置的上一位置的当前文件进行更新得到的；根据所述第一文件序列中当前位置的当前文件，更新所述状态转移特征；根据所述第一目标向量、所述第一账户的兴趣特征以及更新后的状态转移特征，基于所述第一文件确定模型，从所述多个待推荐文件中确定出所述当前位置的下一位置的当前文件，直至确定出预设数量的当前文件。

12.根据权利要求11所述的装置，其特征在于，所述确定模块，还被配置为执行获取当前的待确定文件集合，所述待确定文件集合包括所述多个待推荐文件中未被确定的待推荐文件；根据所述第一目标向量、所述第一账户的兴趣特征、所述状态转移特征和所述待确定文件集合中每个待推荐文件的文件特征，基于所述第一文件确定模型，得到所述待确定文件集合对应的概率分布；根据所述待确定文件集合对应的概率分布，从所述待确定文件集合中确定出所述第一文件序列中当前位置的当前文件。

13.根据权利要求12所述的装置，其特征在于，所述确定模块，还被配置为执行将所述第一目标向量、所述第一账户的兴趣特征以及所述状态转移特征输入到所述第一文件确定模型中，得到当前的排序权重向量；根据所述排序权重向量和所述待确定文件集合中每个待推荐文件的文件特征，确定所述每个待推荐文件对应的排序权重参数；对所述排序权重参数进行归一化处理，得到所述待确定文件集合对应的概率分布。

14.根据权利要求12所述的装置，其特征在于，所述装置还包括：

15.根据权利要求14所述的装置，其特征在于，所述获取模块，还被配置为执行获取已向第二账户推荐的多个已推荐文件，以及，获取用于训练的第二目标向量，所述第二目标向量用于表示所述第二账户对已推荐文件执行交互行为的偏好；

16.根据权利要求15所述的装置，其特征在于，所述确定模块，还被配置为执行根据所述第二目标向量，确定所述第二目标向量对应的每种交互行为的权重；根据所述第二账户对确定出的当前文件执行的交互行为，以及所述每种交互行为的权重，确定所述当前文件对应的文件反馈数值。

17.根据权利要求10所述的装置，其特征在于，所述生成模块，还被配置为执行将所述账户特征和所述整体文件特征输入到目标预测模型中，得到至少一种交互行为中每种交互行为的标签，所述目标预测模型用于预测所述第一账户在接收到待推荐文件之后对所述待推荐文件执行的所述至少一种交互行为；对所述每种交互行为的标签进行拼接，得到第一目标向量。

18.根据权利要求17所述的装置，其特征在于，所述装置还包括：

19.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如权利要求1-9任一项所述的文件推荐方法。

20.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现如权利要求1-9任一项所述的文件推荐方法。