CN113573106A

CN113573106A - 用于多媒体信息的模型更新方法、装置及服务器

Info

Publication number: CN113573106A
Application number: CN202010352051.6A
Authority: CN
Inventors: 黄俊逸; 叶璨; 王琳; 闫阳辉; 胥凯
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-04-28
Filing date: 2020-04-28
Publication date: 2021-10-29
Anticipated expiration: 2040-04-28
Also published as: CN113573106B

Abstract

本公开关于一种用于多媒体信息的模型更新方法、装置及服务器，属于互联网技术领域。方法包括：获取第一账户的至少两个历史行为特征，不同历史行为特征用于表示第一账户在不同历史时间段内的操作行为；对于每个历史行为特征，获取与历史行为特征对应的历史反馈特征，历史反馈特征用于表示第一账户在接收到被推荐的第一多媒体文件时的反馈行为，第一多媒体文件为基于历史行为特征，通过第一多媒体推荐模型为第一账户推荐的；根据每个历史行为特征和每个历史行为特征对应的历史反馈特征，生成特征序列；根据特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。本公开可以使得推荐出的多媒体文件更加准确。

Description

用于多媒体信息的模型更新方法、装置及服务器

技术领域

本公开涉及互联网技术领域，特别涉及一种用于多媒体信息的模型更新方法、装置及服务器。

背景技术

在当今互联网世界中，信息的种类和数量都越来越多。为了提高用户的体验，信息的分发正在从用户搜索向给用户主动推荐过渡。也即互联网应用对应的服务器可以主动为用户推荐信息；例如，短视频应用对应的服务器可以向用户推荐短视频等。

相关技术中，服务器在为用户推荐短视频之前，服务器根据样本数据，训练得到短视频推荐模型，该样本数据包括样本短视频和该样本短视频的标签，该标签用于表示样本用户是否该样本短视频感兴趣。服务器在为用户推荐短视频时，通过该短视频推荐模型，为用户推荐短视频。

由于样本短视频的标签表示样本用户是否对该样本短视频感兴趣，也即用户在当前请求服务器为其推荐短视频时，服务器为其推荐该样本短视频，用户是否满意。因此，该短视频推荐模型只考虑了单次请求的满意度，导致短视频推荐的准确性低。

发明内容

本公开实施例提供了一种用于多媒体信息的模型更新方法、装置及服务器，能够提高多媒体文件推荐的准确性。所述技术方案如下：

根据本公开实施例的一方面，提供了一种用于多媒体信息的模型更新方法，所述方法包括：

获取第一账户的至少两个历史行为特征，不同历史行为特征用于表示所述第一账户在不同历史时间段内的操作行为；

对于每个历史行为特征，获取与所述历史行为特征对应的历史反馈特征，所述历史反馈特征用于表示所述第一账户在接收到被推荐的第一多媒体文件时的反馈行为，所述第一多媒体文件为基于所述历史行为特征，通过第一多媒体推荐模型为所述第一账户推荐的；

根据所述每个历史行为特征和所述每个历史行为特征对应的历史反馈特征，生成特征序列；

根据所述特征序列，更新所述第一多媒体推荐模型，得到第二多媒体推荐模型。

在一种可能的实现方式中，所述根据所述每个历史行为特征和所述每个历史行为特征对应的历史反馈特征，生成特征序列，包括：

对于每对历史行为特征和历史反馈特征，根据所述历史行为特征和所述历史行为特征对应的历史反馈特征，生成推荐特征；

将至少两个推荐特征组成所述特征序列。

在另一种可能的实现方式中，所述根据所述历史行为特征和所述历史行为特征对应的历史反馈特征，生成推荐特征，包括：

响应于所述历史反馈特征用于表示所述第一账户退出目标应用，丢弃所述历史反馈特征，将所述历史行为特征作为所述推荐特征；

响应于所述历史反馈特征用于表示所述第一账户未退出所述目标应用，将所述历史行为特征和所述历史反馈特征进行拼接，得到所述推荐特征。

在另一种可能的实现方式中，所述将所述历史行为特征和所述历史反馈特征进行拼接，得到所述推荐特征，包括：

确定所述第一多媒体推荐模型所需的第一特征属性；

根据所述第一特征属性，从所述历史行为特征中确定特征属性为所述第一特征属性的目标行为特征；

将所述目标行为特征和所述历史反馈特征进行拼接，得到所述推荐特征。

在另一种可能的实现方式中，所述确定所述第一多媒体推荐模型所需的第一特征属性之前，所述方法还包括：

确定所述第一多媒体推荐模型的预计使用时长；

响应于所述预计使用时长低于第一预设时长，执行所述确定所述第一多媒体推荐模型所需的第一特征属性的步骤。

在另一种可能的实现方式中，所述获取第一账户的至少两个历史行为特征之前，所述方法还包括：

接收第一终端的推荐请求，获取所述第一账户的历史行为特征；根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件；

缓存所述历史行为特征。

在另一种可能的实现方式中，所述根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件，包括：

从第一线程池中确定第一线程，通过所述第一线程，根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件；

所述缓存所述历史行为特征，包括：

从所述第一线程池中确定除所述第一线程以外的第二线程，通过所述第二线程，缓存所述历史行为特征；或者，

从第二线程池中确定第二线程，通过所述第二线程，缓存所述历史行为特征，所述第一线程池和所述第二线程池不同。

在另一种可能的实现方式中，所述缓存所述历史行为特征，包括：

根据所述历史行为特征的特征类型，确定与所述特征类型对应的缓存方式；

根据所述缓存方式，确定与所述缓存方式匹配的存储空间；

将所述历史行为特征缓存在所述存储空间。

在另一种可能的实现方式中，所述获取所述第一账户的历史行为特征，包括：

获取特征配置信息，所述特征配置信息中包括待提取的第二特征属性；

获取用于体现所述第二特征属性的历史行为数据；

根据所述历史行为数据，提取所述历史行为特征。

在另一种可能的实现方式中，所述方法还包括：

响应于接收到第二终端的推荐请求，通过所述第二多媒体推荐模型为第二账户推荐多媒体文件。

根据本公开实施例的另一方面，提供了一种用于多媒体信息的模型更新装置，所述装置包括：

获取模块，被配置为获取第一账户的至少两个历史行为特征，不同历史行为特征用于表示所述第一账户在不同历史时间段内的操作行为；

所述获取模块，还被配置为对于每个历史行为特征，获取与所述历史行为特征对应的历史反馈特征，所述历史反馈特征用于表示所述第一账户在接收到被推荐的第一多媒体文件时的反馈行为，所述第一多媒体文件为基于所述历史行为特征，通过第一多媒体推荐模型为所述第一账户推荐的；

生成模块，被配置为根据所述每个历史行为特征和所述每个历史行为特征对应的历史反馈特征，生成特征序列；

更新模块，被配置为根据所述特征序列，更新所述第一多媒体推荐模型，得到第二多媒体推荐模型。

在一种可能的实现方式中，所述生成模块，还被配置为对于每对历史行为特征和历史反馈特征，根据所述历史行为特征和所述历史行为特征对应的历史反馈特征，生成推荐特征；将至少两个推荐特征组成所述特征序列。

在另一种可能的实现方式中，所述生成模块，还被配置为响应于所述历史反馈特征用于表示所述第一账户退出目标应用，丢弃所述历史反馈特征，将所述历史行为特征作为所述推荐特征；响应于所述历史反馈特征用于表示所述第一账户未退出所述目标应用，将所述历史行为特征和所述历史反馈特征进行拼接，得到所述推荐特征。

在另一种可能的实现方式中，所述生成模块，还被配置为确定所述第一多媒体推荐模型所需的第一特征属性；根据所述第一特征属性，从所述历史行为特征中确定特征属性为所述第一特征属性的目标行为特征；将所述目标行为特征和所述历史反馈特征进行拼接，得到所述推荐特征。

在另一种可能的实现方式中，所述生成模块，还被配置为确定所述第一多媒体推荐模型的预计使用时长；响应于所述预计使用时长低于第一预设时长，确定所述第一多媒体推荐模型所需的第一特征属性。

在另一种可能的实现方式中，所述装置还包括：

接收模块，被配置为接收第一终端的推荐请求；

所述获取模块，还被配置为获取所述第一账户的历史行为特征；

第一推荐模块，还被配置为根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件；

缓存模块，还被配置为缓存所述历史行为特征。

在另一种可能的实现方式中，所述获取模块，还被配置为从第一线程池中确定第一线程，通过所述第一线程，根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件；

所述缓存模块，还被配置为从所述第一线程池中确定除所述第一线程以外的第二线程，通过所述第二线程，缓存所述历史行为特征；或者，

所述缓存模块，还被配置为从第二线程池中确定第二线程，通过所述第二线程，缓存所述历史行为特征，所述第一线程池和所述第二线程池不同。

在另一种可能的实现方式中，所述缓存模块，还被配置为根据所述历史行为特征的特征类型，确定与所述特征类型对应的缓存方式；根据所述缓存方式，确定与所述缓存方式匹配的存储空间；将所述历史行为特征缓存在所述存储空间。

在另一种可能的实现方式中，所述获取模块，还被配置为获取特征配置信息，所述特征配置信息中包括待提取的第二特征属性；获取用于体现所述第二特征属性的历史行为数据；根据所述历史行为数据，提取所述历史行为特征。

在另一种可能的实现方式中，所述装置还包括：

第二推荐模块，被配置为响应于接收到第二终端的推荐请求，通过所述第二多媒体推荐模型为第二账户推荐多媒体文件。

根据本公开实施例的另一方面，提供了一种服务器，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现上述任一可能实现方式所述的用于多媒体信息的模型更新方法。

根据本公开实施例的另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令，所述至少一条指令由处理器加载并执行，以实现上述任一可能实现方式所述的用于多媒体信息的模型更新方法。

根据本公开实施例的另一方面，提供了一种计算机程序产品，当所述计算机程序产品中的指令由账户或服务器的处理器执行时，使得账户或服务器能够执行上述任一可能实现方式中所述的用于多媒体信息的模型更新方法。

在本公开实施例中，服务器根据第一账户的多次推荐请求对应的历史行为特征和历史反馈特征，生成特征序列，根据该特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。由于特征序列结合了多次推荐请求对应的历史行为特征和历史反馈特征，因此，该第二多媒体推荐模型融合了一个长时间的累加收益，从而该第二多媒体推荐模型推荐出的多媒体文件更加准确。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据一示例性实施例示出的一种实施环境的示意图；

图2是根据一示例性实施例示出的一种服务器的结构示意图；

图3是根据一示例性实施例示出的一种用于多媒体信息的模型更新方法的流程图；

图4是根据一示例性实施例示出的一种用于多媒体信息的模型更新方法的示意图；

图5是根据一示例性实施例示出的一种服务器更新第二多媒体推荐模型的示意图；

图6是根据一示例性实施例示出的一种多媒体文件推荐方法的示意图；

图7是根据一示例性实施例示出的一种用于多媒体信息的更新装置的框图；

图8是根据一示例性实施例示出的一种服务器的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

图1是根据一示例性实施例示出的一种实施环境的示意图。参见图1，该实施环境中包括第一终端101、第二终端102和服务器103。其中，第一终端101和第二终端102分别与服务器103之间通过无线或者有线网络连接。并且，第一终端101和第二终端102上均安装有服务器103提供服务的目标应用，使用第一终端101的第一用户可以通过该目标应用实现例如数据传输、消息交互等功能，使用第二终端102的第二用户可以通过该目标应用实现例如数据传输、消息交互等功能。第一用户在服务器103中注册的账户称为第一账户，第二用户在服务器中注册的账户称为第二账户。

服务器103中预先存储第一多媒体推荐模型，服务器103通过第一多媒体推荐模型为第一账户推荐多媒体文件。并且，服务器103为第一账户推荐第一多媒体文件时，会根据第一账户的历史行为特征进行推荐；第一账户接收到被推荐的第一多媒体文件时，会对第一多媒体文件进行反馈；例如，查看、转发、点赞等。服务器103会获取至少两个历史行为特征，根据每个历史行为特征和每个历史行为特征对应的历史反馈特征，生成特征序列，根据该特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。

需要说明的一点是，服务器103可以定期更新第二多媒体推荐模型，服务器103也可以在每次接收到历史反馈特征时，更新一次第二多媒体推荐模型，服务器103也可以在第一账户退出目标应用时，更新一次第二多媒体推荐模型。在本公开实施例中，以服务器103每次接收到历史反馈特征时，更新一次第二多媒体推荐模型为例进行说明；相应的，该过程可以为：

第一终端101向服务器103发送推荐请求。服务器103根据该推荐请求，获取第一账户的历史行为特征，根据该历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件。

并且，服务器103在为第一账户推荐第一多媒体文件时，同步缓存该历史行为特征；并且，在接收到第一账户对第一多媒体文件的反馈行为时，获取该历史行为特征对应的历史反馈特征，根据该历史行为特征和其对应的历史反馈特征，以及已缓存的第一账户之前的推荐请求对应的历史行为特征特征和其对应的历史反馈特征，生成特征序列，根据该特征序列，对第一多媒体推荐模型进行更新，得到第二多媒体推荐模型。

服务器103得到第二多媒体推荐模型后，可以为第二账户推荐多媒体信息。由于第二多媒体推荐模型是服务器103根据特征序列，更新第一多媒体推荐模型得到的，也即第二多媒体推荐模型在更新第一多媒体推荐模型时，融合了一个长时间的累加收益。因此，通过第二多媒体推荐模型为第二账户推荐多媒体文件，提高了准确性。

第二终端102可以为手机、平板电脑、PC(personal computer，个人计算机)、可穿戴设备或者其他终端设备。第一终端101也可以为手机、平板电脑、PC、可穿戴设备或者其他终端设备。目标应用可以为第二终端102上安装的任一应用；例如，目标应用为短视频应用、视频应用、音频应用、购物应用、新闻应用等。在本公开实施例中，对目标应用不作具体限定。

本公开实施例提供的多媒体文件推荐可以应用在以下实际应用场景中：

(1)可以应用在视频推荐的场景中；相应的，目标应用可以为视频应用；例如，短视频应用或者视频播放应用。第二多媒体推荐模型为视频推荐模型。第二终端102在使用视频应用时，第二终端102向服务器103发送推荐请求。服务器103根据推荐请求以及视频推荐模型，为终端推荐视频文件。

其中，视频文件可以为新闻信息对应的视频文件或者商品信息对应的视频文件等。

(2)可以应用在音频推荐的场景中；相应的，目标应用可以为音频应用，例如，音乐播放器；第二多媒体推荐模型为音频推荐模型。第二终端102在使用音频应用时，第二终端102向服务器103发送推荐请求。服务器103根据推荐请求以及音频推荐模型，为第二终端102推荐音频文件。

图2是根据一示例性实施例示出的一种服务器103的结构示意图。参见图2，服务器103包括在线推荐装置和实时更新装置。在线推荐装置用于接收推荐请求，根据推荐请求，通过第一多媒体推荐模型，为第一账户推荐多媒体文件。实时更新装置用于实时更新第一多媒体推荐模型，得到第二多媒体推荐模型。

其中，在线推荐装置包括推荐系统服务端、特征提取模块和在线推理模块；实时更新装置包括分布式缓存模块、样本拼接模块和模型训练模块。

推荐系统服务端用于接收推荐请求，将推荐请求发送至特征提取模块。特征提取模块，用于根据推荐请求，获取第一账户的历史行为特征，将历史行为特征发送至在线推理模块。在线推理模块，用于根据历史行为特征，通过第一多媒体文件推荐模块，确定待推荐的多媒体文件，将该多媒体文件发送至特征提取模块。特征提取模块，还用于将多媒体文件发送至推荐系统服务端。推荐系统服务端，还用于将多媒体文件发送至第一账户。

在第一账户接收到多媒体文件时，会展示多媒体文件给用户。用户看到多媒体文件之后，会对多媒体文件做出一些反馈行为。第一账户将该历史行为特征对应的历史反馈特征发送至推荐系统服务端。推荐系统服务端，还用于将该历史反馈特征发送至样本拼接模块。

分布式缓存模块，还用于将缓存的历史行为特征发送至样本拼接模块。样本拼接模块，还用于根据历史行为特征和历史反馈特征，生成推荐特征，根据至少两个推荐特征，生成特征序列，将特征序列发送至模型训练模块。模型训练模块，用于接收特征序列，根据特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型，将第二多媒体推荐模型同步到在线推理模块中。

在线推理模块，还用于将第一多媒体推荐模型更新为第二多媒体推荐模型。

图3是根据一示例性实施例示出的一种用于多媒体信息的模型更新方法的流程图，参见图3，该用于多媒体信息的模型更新方法包括以下步骤：

步骤S301：获取第一账户的至少两个历史行为特征，不同历史行为特征用于表示第一账户在不同历史时间段内的操作行为。

步骤S302：对于每个历史行为特征，获取与历史行为特征对应的历史反馈特征，历史反馈特征用于表示第一账户在接收到被推荐的第一多媒体文件时的反馈行为，第一多媒体文件为基于历史行为特征，通过第一多媒体推荐模型为第一账户推荐的。

步骤S303：根据每个历史行为特征和每个历史行为特征对应的历史反馈特征，生成特征序列。

步骤S304：根据特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。

在一种可能的实现方式中，根据每个历史行为特征和每个历史行为特征对应的历史反馈特征，生成特征序列，包括：

对于每对历史行为特征和历史反馈特征，根据历史行为特征和历史行为特征对应的历史反馈特征，生成推荐特征；

将至少两个推荐特征组成特征序列。

在另一种可能的实现方式中，根据历史行为特征和历史行为特征对应的历史反馈特征，生成推荐特征，包括：

响应于历史反馈特征用于表示第一账户退出目标应用，丢弃历史反馈特征，将历史行为特征作为推荐特征；

响应于历史反馈特征用于表示第一账户未退出目标应用，将历史行为特征和历史反馈特征进行拼接，得到推荐特征。

在另一种可能的实现方式中，将历史行为特征和历史反馈特征进行拼接，得到推荐特征，包括：

确定第一多媒体推荐模型所需的第一特征属性；

根据第一特征属性，从历史行为特征中确定特征属性为第一特征属性的目标行为特征；

将目标行为特征和历史反馈特征进行拼接，得到推荐特征。

在另一种可能的实现方式中，确定第一多媒体推荐模型所需的第一特征属性之前，方法还包括：

确定第一多媒体推荐模型的预计使用时长；

响应于预计使用时长低于第一预设时长，执行确定第一多媒体推荐模型所需的第一特征属性的步骤。

在另一种可能的实现方式中，获取第一账户的至少两个历史行为特征之前，方法还包括：

接收第一终端的推荐请求，获取第一账户的历史行为特征；根据历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件；

缓存历史行为特征。

在另一种可能的实现方式中，根据历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件，包括：

从第一线程池中确定第一线程，通过第一线程，根据历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件；

缓存历史行为特征，包括：

从第一线程池中确定除第一线程以外的第二线程，通过第二线程，缓存历史行为特征；或者，

从第二线程池中确定第二线程，通过第二线程，缓存历史行为特征，第一线程池和第二线程池不同。

在另一种可能的实现方式中，缓存历史行为特征，包括：

根据历史行为特征的特征类型，确定与特征类型对应的缓存方式；

根据缓存方式，确定与缓存方式匹配的存储空间；

将历史行为特征缓存在存储空间。

在另一种可能的实现方式中，获取第一账户的历史行为特征，包括：

获取特征配置信息，特征配置信息中包括待提取的第二特征属性；

获取用于体现第二特征属性的历史行为数据；

根据历史行为数据，提取历史行为特征。

在另一种可能的实现方式中，方法还包括：

响应于接收到第二终端的推荐请求，通过第二多媒体推荐模型为第二账户推荐多媒体文件。

图4是根据一示例性实施例示出的一种用于多媒体信息的模型更新方法的流程图，参见图4，该用于多媒体信息的模型更新方法包括以下步骤：

步骤S401：第一终端向服务器发送推荐请求。

推荐请求携带第一终端的终端标识，且推荐请求用于请求服务器为第一账户推荐多媒体文件。在一种可能的实现方式中，第一终端响应于接收到显示推荐界面的指令，向服务器发送推荐请求。

在另一种可能的实现方式中，第一终端已显示推荐界面；第一终端响应于接收到刷新指令，向服务器发送推荐请求。例如，第一终端显示短视频应用的推荐界面，该推荐界面中显示有上一次推荐的短视频。第一终端响应于接收到刷新指令，向服务器发送推荐请求。该刷新指令可以是第一用户在推荐界面中执行下滑操作触发的，也可以是第一用户在推荐界面中点击刷新按钮触发的，在本公开实施例中，对刷新指令的触发方式不作具体限定。

步骤S402：服务器接收第一终端的推荐请求，获取第一账户的历史行为特征。

第一种实现方式，服务器需要提取的推荐特征是可以配置的，也即基于配置的特征进行提取。相应的，服务器获取第一账户的历史行为特征的步骤可以为：

服务器获取特征配置信息，该特征配置信息中至少包括待提取的第二特征属性；获取用于体现第二特征属性的历史行为数据；根据该历史行为数据，提取历史行为特征。

第二特征属性可以为点赞、评论、转发、保存中的一个或者多个。并且第二特征属性至少包括特征名称；特征名称是特征提取模块或者样本拼接模块确定的名称；并且，在线预测模块和模型训练模块根据该特征名称来确定历史行为特征。例如，第一特征属性为点赞；则历史行为数据可以为用户点赞的行为数据；则历史行为特征可以为点赞特征。

第二特征属性还可以包括数据类型。数据类型由两部分构成，一是区分该特征是数组还是单个数值；二是需要指定数值类型。指定数值类型可以是长整型、浮点型或字符串型中的任一个。并且，该数据类型可以和上游数据类型(历史行为数据的数据类型)相同或者不同。响应于，该数据类型与上游数据类型不同，服务器会将历史行为数据转换为该数据类型，然后再从该历史行为数据中提取历史行为特征。

在本公开实施例中，服务器根据特征配置信息，提取对应的历史行为特征，这样能够大大减少在线推荐的耗时，提高在线推荐的效率。

特征配置信息中还可以包括上游数据路径，也即历史行为数据的存储路径：特征提取模块和样本拼接模块会根据该历史行为数据的存储路径，利用反射技术获取该存储路径对应的历史行为数据，然后对该历史行为数据进行后续各项处理。

特征配置信息中还可以包括特征的特殊处理方式；相应的，服务器提取历史行为特征之后，可以基于该特殊处理方式，对历史行为特征进行处理。该特殊处理方式可以为归一化处理。例如，特征配置信息中包括std，该std就代表对该历史行为特征做归一化处理。

在本公开实施例中，通过在特征配置信息中添加特殊处理方式，这样能够额外实现一个方法来对该历史行为特征进行某种特殊处理，能够极大地增强服务器的可扩展性。

例如，以特征配置信息包括特征名称、数据类型、特殊处理方式和上游数据路径。相应的，特征配置信息可以为："score"->(ArrayType(FloatType,true),"{std}rank_results.score")。其中，score为特征名称，ArrayType为数据类型，FloatType为数组类型，true用于表示是指定数值类型，std表示特征处理方式，例如归一化处理，results.score为上游数据路径。则特征配置信息为："特征名称"->(数组/单个数值(数据类型,true),"{特殊处理方式}上游数据路径")。

在本公开实施例中，是通过强化学习来训练和更新第一多媒体推荐模型；而强化学习的模型训练和更新非常困难，从整个马尔科夫决策过程的各项要素定义到模型使用的特征，特征的配置和处理方式都会不断调整。因此，服务器基于配置的特征提取，能够大大降低增删特征以及调整特征处理方式的复杂度和难度，实现高可配置性。

需要说明的一点是，服务器还支持对提取特征的扩展；相应的，响应于对提取的特征进行扩展时，服务器获取待扩展的第四特征属性，将第四特征属性添加到特征配置信息中，这样后续服务器在提取特征时，会基于第一特征属性和第四特征属性进行特征提取。

在本公开实施例中，服务器支持对提取特征的扩展，从而实现特征的高可扩展性，进一步降低增删特征以及调整特征处理方式的复杂度和难度，实现高扩展性。

需要说明的另一点是，服务器在对第一终端进行在线推荐的时候，基于该特征配置信息进行特征提取。同时，服务器在离线更新第一多媒体推荐模型的时候，也需要基于该特征配置信息进行特征提取。因此，服务器能够实现在线推荐和离线更新共用一份配置，来保证通用性。

第二种实现方式，服务器可以进行全量特征提取；相应的，服务器根据推荐请求，获取第一账户的历史行为特征的步骤可以为：服务器获取第一账户的历史操作记录，根据该历史操作记录，确定该历史操作记录中的多个历史行为特征。

在本公开实施例中，服务器可以进行全量特征提取，在进行多媒体文件推荐时，可以根据模型需要，用到哪些特征，从历史行为特征中确定自己需要的特征进行推荐，这样能够最快速的对第一多媒体推荐模型进行更新和上限，在第一多媒体推荐模型所需特征发生变化时，直接从历史行为特征中确定变化后需要的那些特征，这样在第一多媒体推荐模型所需特征发生变化时，能够确保已缓存的历史行为特征是有效的。

需要说明的一点是，服务器可以通过以上第一种实现方式或者第二种实现方式，提取历史行为特征；服务器也可以根据第一多媒体文件模型的类型，确定第一种实现方式或者第二种实现方式，该过程可以为：服务器确定该第一多媒体推荐模型的预计使用时长；响应于该预计使用时长低于第一预设时长，则服务器可以通过第二种实现方式，提取历史行为特征。响应于该预计使用时长不低于第一预设时长，则服务器可以通过第一种实现方式，提取历史行为特征。

该预计使用时长低于第一预设时长，则服务器确定该第一多媒体推荐模型是短期迭代模型，也即对第一多媒体推荐模型进行更新是小流量的迭代实验，短期迭代模型所需特征变化非常频繁，进行全量特征提取和传输，到第一多媒体推荐模型端再判断哪些是自己需要的特征进行解析，这样能够最快速的对第一多媒体推荐模型进行迭代和上线，在变动第一多媒体推荐模型的特征之后不需要严格的进行校验。而该预计使用时长不低于第一预设时长，则服务器确定该第一多媒体推荐模型是长期生效模型，可能几个月都在线上全量生效，对于这种类型的第一多媒体推荐模型，在线推荐的耗时要求很严格，会采用分散为多个tensor(张量)的协议进行服务，特征抽取模块在线服务时，根据特征配置信息，只抽取对应的特征，大大减少在线推荐的耗时。

第三种实现方式，不同的目标应用对应不同的推荐特征。相应的，服务器根据推荐请求，获取第一账户的历史行为特征的步骤可以为：

服务器根据目标应用，获取目标应用对应的第三特征属性；根据推荐请求，获取用于体现所述第三特征属性的历史行为数据，根据该历史行为数据，提取历史行为特征。

例如，目标应用为短视频应用；则第三特征属性可以为点赞；则用于体现第三特征属性的历史行为数据为用户点赞的行为数据，历史行为特征为点赞特征。再如，目标应用为音频应用；则第三特征属性可以为播放；则用于体现第三特征属性的历史行为数据为播放记录，历史行为特征为播放特征。

在本公开实施例中，不同的目标应用对应不同的推荐特征，这样提取的历史行为特征更准确，进而提高了后续多媒体文件推荐的准确性。

步骤S403：服务器根据历史行为特征，通过第一多媒体推荐模型，确定待推荐的第一多媒体文件。

第一多媒体文件的数量可以为一个或者多个；在本公开实施例中，对此不作具体限定。并且，第一多媒体文件可以为视频文件或者音频文件；例如，服务器将历史行为特征输入视频推荐模型中，得到待推荐的视频文件。再如，服务器将历史行为特征输入音频推荐模型中，得到待推荐的音频文件。

需要说明的一点是，服务器执行步骤S403可以通过一个线程实现；相应的，步骤S403可以为：服务器从第一线程池中确定第一线程，通过第一线程，根据历史行为特征，通过第一多媒体推荐模型，确定第一多媒体文件。

步骤S404：服务器向第一终端推荐第一多媒体文件。

步骤S405：第一终端接收第一多媒体文件，展示第一多媒体文件。

第一终端接收到多媒体文件时，可以直接将多媒体文件展示在多媒体文件推荐界面中，从而第一用户可以在多媒体文件推荐界面中查看该多媒体文件，并对多媒体文件进行反馈行为；例如，第一用户对该多媒体文件感兴趣，则第一用户可能会评论、转发、点赞或者长时间查看等。第一用户对该多媒体文件不感兴趣，用户可能直接关闭该多媒体文件。当然，第一终端接收到该多媒体文件，第二用户还有可能会退出目标应用。

步骤S406：服务器缓存该历史行为特征。

服务器在缓存方式上，根据历史行为特征的特点不同，支持多种缓存方式；相应的，本步骤可以为：服务器根据历史行为特征的特征类型，确定与该特征类型对应的缓存方式，根据该缓存方式，确定与该缓存方式匹配的存储空间，将历史行为特征缓存在该存储空间。

不同的预计缓存时长对应不同的缓存方式；相应的，服务器根据历史行为特征的特征类型，确定与该特征类型对应的缓存方式的步骤可以为：服务器根据该特征类型，确定该特征类型对应的预计缓存时长；响应于该预计缓存时长大于预设时长，确定第一缓存方式；响应于该预计缓存时长不大于预设时长，确定第二缓存方式。

第一缓存方式可以为基于SSD(Solid State Disk，固态硬盘)的缓存方式。由于SSD的吞吐量达，因此，基于SSD的缓存方式进行缓存，能够支持大吞吐量的数据缓存。第二缓存方式可以为基于内存的redis(远程)缓存方式。由于内存的存取速度快；因此，基于内存的redis的缓存方式进行缓存，能够提高缓存速度和效率。

预设时长可以根据需要进行设置并更改，在本公开实施例中，对预设时长不作具体限定；例如，预设时长可以为1小时、12小时或者24小时等。

在本步骤中，服务器在为第一终端推荐多媒体文件时，异步缓存该历史行为特征。在一种可能的实现方式中，在线推荐和缓存推荐特征共用一个线程池中的线程；相应的，服务器缓存该历史行为特征的步骤可以为：服务器从第一线程池中确定除第一线程以外的第二线程，通过第二线程，缓存该历史行为特征。

在本公开实施例中，在线推荐和缓存推荐特征同用一个线程池中的线程，这样比较节省线程，从而节省服务资源。

在另一种可能的实现方式中，在线推荐和缓存推荐特征不共用一个线程池。也即服务器也可以为在线推荐设置一个线程池(第一线程池)，为缓存推荐特征另外设置一个线程池(第二线程池)。相应的，服务器缓存该历史行为特征的步骤可以为：服务器从第二线程池中确定第二线程，通过第二线程，缓存该历史行为特征。

在本公开实施例中，在线推荐和缓存推荐特征不共用一个线程池。也即，服务器从独立的第二线程池中为特征缓存分配一个线程来执行异步缓存的操作，这样既能够不增加响应推荐请求的时间，又能够通过特征提取模块执行缓存操作，不需要依赖其他的流式数据去离线缓存。

在本公开实施例中，强化学习算法的优势是能够优化整个马尔可夫决策过程中的累加收益，而不仅仅考虑当前决策的单步收益，这里的累加收益是指针对同一用户，累加其长时间的多个请求进行优化。强化学习在这一点上通常是用一个涉及当前请求和下一次请求的递推公式来实现，因此在推荐系统中需要能够获取到当前请求的下一次请求的特征，本框架中会通过异步缓存来存储之前多次请求的特征和反馈，样本拼接模块和在线预测模块根据需求在每次样本拼接时能够取得之前的样本特征，进行拼接。

步骤S407：第一终端接收到第二用户对第一多媒体文件的反馈行为时，向服务器发送该历史行为特征对应的历史反馈特征。

该历史反馈特征用于表示第一账户在接收到被推荐的第一多媒体文件的反馈行为。并且，该反馈行为可以为查看、转发、点赞、评论和关闭操作中的一个或者多个。第一用户还可能直接退出目标应用；相应的，该反馈行为还可以为退出目标应用的退出操作，则历史反馈特征可以为终止符标记。

步骤S408：服务器接收该历史行为特征对应的历史反馈特征，根据至少两个历史行为特征和每个历史反馈特征对应的历史反馈特征，生成特征序列。

本步骤可以通过以下步骤(1)至(2)实现，包括：

(1)服务器根据历史行为特征和历史反馈特征，生成推荐特征。

对于每对历史行为特征和历史反馈特征，在一种可能的实现方式中，服务器可以直接将历史行为特征和历史反馈特征进行拼接，得到推荐特征，从而操作简单，效率较高。

在另一种可能的实现方式中，由于第一终端展示多媒体文件之后，用户可能退出目标应用，则历史反馈特征是终止符标记；第一用户如果对多媒体文件进行了后续操作，则历史反馈特征不是终止符标记。在本步骤中，服务器可以基于该历史反馈特征是否是终止符标记，通过不同的方式，生成推荐特征。

相应的，服务器根据历史行为特征和历史反馈特征，生成推荐特征的步骤可以为：响应于历史反馈特征用于表示第一终端退出目标应用，服务器丢弃历史反馈特征，将历史行为特征作为推荐特征。响应于历史反馈特征用于表示第一终端未退出目标应用，服务器将历史行为特征和历史反馈特征进行拼接，得到推荐特征。

其中，历史反馈特征为终止符标记，则服务器确定历史反馈特征用于表示第一终端退出目标应用；历史反馈特征不是终止符标记，则服务器确定历史反馈特征用于表示第一终端未提出目标应用。

在一种可能的实现方式中，服务器在提取历史行为特征时，根据配置，只提取对应的特征；则在本步骤中，服务器可以直接将该历史行为特征与历史反馈特征进行拼接，得到推荐特征。

在本公开实施例中，服务器直接将历史行为特征和历史反馈特征进行拼接，得到第一特征值，操作简单，效率高。

在另一种可能的实现方式中，服务器在提取历史行为特征时，根据配置，进行了全量特征提取；则在将历史行为特征和历史反馈特征进行拼接时，需要从历史行为特征中确定需要的那些特征进行拼接。相应的，服务器将该历史行为特征与历史反馈特征进行拼接，得到推荐特征的步骤可以为：

服务器确定第一多媒体推荐模型所需的第一特征属性；根据第一特征属性，从历史行为特征中确定特征属性为第一特征属性的目标推荐特征，将目标推荐特征和历史反馈特征进行拼接，得到推荐特征。

(2)服务器将至少两个推荐特征组成推荐特征。

例如，参见图5，在图5中以第一终端向服务器发送三次推荐请求以后，服务器更新第一多媒体推荐模型为例进行说明。则第一终端依次向服务器发送请求1、请求2和请求3，在线推理模块提取该请求1对应的历史行为特征，请求2对应的历史行为特征和请求3对应的历史行为特征。

分布式缓存模块依次缓存请求1对应的历史行为特征(缓存1)，请求2对应的历史行为特征(缓存2)和请求3对应的历史行为特征(缓存3)。

样本拼接模块，依次将请求1对应的历史行为特征和历史反馈特征拼接为推荐特征1，将推荐特征1作为样本1，将请求2对应的历史行为特征和历史反馈特征拼接为推荐特征2，将推荐特征2作为样本2，将请求3对应的历史行为特征和历史反馈特征拼接为推荐特征3，将推荐特征3作为样本3。

模型训练模块根据样本1、样本2和样本3对第一多媒体推荐模型进行更新，得到第一多媒体推荐模型。

其中，第一终端向服务器发送请求1后，服务器基于请求1为第一终端推荐一个多媒体文件，第一终端将对该多媒体文件的历史反馈特征发送给服务器。此时第一终端向服务器发送请求2，服务器基于请求2为第一终端推荐一个多媒体文件，第一终端将对该多媒体文件的历史反馈特征发送给服务器。此时第一终端向服务器发送请求3；并且，第一终端向服务器发送推荐请求(请求3)后，第一终端退出目标应用；则请求3对应的历史反馈特征可以为终止符标记。服务器可以直接将历史行为特征组成推荐特征，将推荐特征作为样本3。

步骤S409：服务器根据该特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。

服务器将特征序列输入第一多媒体推荐模型中，通过强化学习算法，更新第一多媒体推荐模型，得到第二多媒体推荐模型。

服务器将多个推荐请求看做是一个episode(序列)，因此，更新得到的第二多媒体推荐模型，能够优化整个episode的累积收益，从而能够个性化优化用户的长期满意度，而非仅仅考虑单次请求的满意度。

需要说明的一点是，服务器可以每更新一次第一多媒体推荐模型，就将第一多媒体推荐模型同步到线上进行多媒体文件推荐；服务器也可以定期将这段时间更新得到的最终的第二多媒体推荐模型同步到线上进行多媒体文件推荐。例如，服务器可以将第一多媒体推荐模型在线上进行多媒体文件推荐，然后线下更新第一多媒体推荐模型。并且，这得半年时间内，服务器确定出特征序列之后，就更新一次第二新推荐模型，等到达同步时间时，将这半年更新得到的最终的第二多媒体推荐模型同步到线上进行多媒体文件推荐。

在本公开实施例中，服务器根据第一终端的多次推荐请求对应的历史行为特征和历史反馈特征，生成特征序列，根据该特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。由于特征序列结合了多次推荐请求对应的历史行为特征和历史反馈特征，因此，该第二多媒体推荐模型融合了一个长时间的累加收益，从而该第二多媒体推荐模型推荐出的多媒体文件更加准确。

图6是根据一示例性实施例示出的一种多媒体文件推荐方法的流程图，参见图6，在本公开实施例中，以使用第二多媒体推荐模型为例进行说明。该多媒体文件推荐方法包括以下步骤：

步骤S601：第二终端向服务器发送推荐请求。

步骤S602：服务器接收推荐请求，根据推荐请求，获取第二账户的历史行为特征。

步骤S603：服务器根据第二账户的历史行为特征，通过第二多媒体推荐模型，确定待推荐的多媒体文件。

步骤S604：服务器向第二终端推荐该多媒体文件。

步骤S605：第二终端接收该多媒体文件，展示该多媒体文件。

需要说明的一点是，步骤S601-S605与步骤S401-S402相似，在此不再赘述。

需要说明的另一点是，服务器获取到该历史行为特征时，也可以缓存该历史行为特征，后续接收到该历史行为特征对应的历史反馈特征时，根据历史缓存的至少两个历史行为特征及其对应的至少两个历史反馈特征，更新第二多媒体推荐模型。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

图7是根据一示例性实施例示出的一种用于多媒体信息的模型更新装置的框图。参见图7，该装置包括：

获取模块701，被配置为获取第一账户的至少两个历史行为特征，不同历史行为特征用于表示第一账户在不同历史时间段内的操作行为；

获取模块701，还被配置为对于每个历史行为特征，获取与历史行为特征对应的历史反馈特征，历史反馈特征用于表示第一账户在接收到被推荐的第一多媒体文件时的反馈行为，第一多媒体文件为基于历史行为特征，通过第一多媒体推荐模型为第一账户推荐的；

生成模块702，被配置为根据每个历史行为特征和每个历史行为特征对应的历史反馈特征，生成特征序列；

更新模块703，被配置为根根据特征序列，更新第一多媒体推荐模型，得到第二多媒体推荐模型。

在一种可能的实现方式中，生成模块702，还被配置为对于每对历史行为特征和历史反馈特征，根据历史行为特征和历史行为特征对应的历史反馈特征，生成推荐特征；将至少两个推荐特征组成特征序列。

在另一种可能的实现方式中，生成模块702，还被配置为响应于历史反馈特征用于表示第一账户退出目标应用，丢弃历史反馈特征，将历史行为特征作为推荐特征；响应于历史反馈特征用于表示第一账户未退出目标应用，将历史行为特征和历史反馈特征进行拼接，得到推荐特征。

在另一种可能的实现方式中，生成模块702，还被配置为确定第一多媒体推荐模型所需的第一特征属性；根据第一特征属性，从历史行为特征中确定特征属性为第一特征属性的目标行为特征；将目标行为特征和历史反馈特征进行拼接，得到推荐特征。

在另一种可能的实现方式中，生成模块702，还被配置为确定第一多媒体推荐模型的预计使用时长；响应于预计使用时长低于第一预设时长，确定第一多媒体推荐模型所需的第一特征属性。

在另一种可能的实现方式中，装置还包括：

接收模块，被配置为接收第一终端的推荐请求；

获取模块701，还被配置为获取第一账户的历史行为特征；

第一推荐模块，还被配置为根据历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件；

缓存模块，还被配置为缓存历史行为特征。

在另一种可能的实现方式中，获取模块701，还被配置为从第一线程池中确定第一线程，通过第一线程，根据历史行为特征，通过第一多媒体推荐模型，为第一账户推荐第一多媒体文件；

缓存模块，还被配置为从第一线程池中确定除第一线程以外的第二线程，通过第二线程，缓存历史行为特征；或者，

缓存模块，还被配置为从第二线程池中确定第二线程，通过第二线程，缓存历史行为特征，第一线程池和第二线程池不同。

在另一种可能的实现方式中，缓存模块，还被配置为根据历史行为特征的特征类型，确定与特征类型对应的缓存方式；根据缓存方式，确定与缓存方式匹配的存储空间；将历史行为特征缓存在存储空间。

在另一种可能的实现方式中，获取模块701，还被配置为获取特征配置信息，特征配置信息中包括待提取的第二特征属性；获取用于体现第二特征属性的历史行为数据；根据历史行为数据，提取历史行为特征。

在另一种可能的实现方式中，所述装置还包括：

第二推荐模块，被配置为响应于接收到第二终端的推荐请求，通过第二多媒体推荐模型为第二账户推荐多媒体文件。

需要说明的是：上述实施例提供的用于多媒体信息的模型更新装置在用于多媒体信息的模型更新时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将终端的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用于多媒体信息的模型更新装置与用于多媒体信息的模型更新方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8是根据一示例性实施例示出的一种服务器的框图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central ProcessingUnits，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的用于多媒体信息的模型更新方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令，上述至少一条指令可由服务器中的处理器执行以完成上述实施例中的用于多媒体信息的模型更新方法。例如，所述计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

本公开还提供了一种计算机程序产品，当计算机程序产品中的指令由终端或服务器的处理器执行时，使得终端或服务器能够执行上述各个方法实施例提供的用于多媒体信息的模型更新方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种用于多媒体信息的模型更新方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述每个历史行为特征和所述每个历史行为特征对应的历史反馈特征，生成特征序列，包括：

将至少两个推荐特征组成所述特征序列。

3.根据权利要求2所述的方法，其特征在于，所述根据所述历史行为特征和所述历史行为特征对应的历史反馈特征，生成推荐特征，包括：

4.根据权利要求3所述的方法，其特征在于，所述将所述历史行为特征和所述历史反馈特征进行拼接，得到所述推荐特征，包括：

确定所述第一多媒体推荐模型所需的第一特征属性；

5.根据权利要求1所述的方法，其特征在于，所述获取第一账户的至少两个历史行为特征之前，所述方法还包括：

缓存所述历史行为特征。

6.根据权利要求5所述的方法，其特征在于，所述根据所述历史行为特征，通过所述第一多媒体推荐模型，为所述第一账户推荐第一多媒体文件，包括：

所述缓存所述历史行为特征，包括：

7.根据权利要求5所述的方法，特征在于，所述缓存所述历史行为特征，包括：

根据所述缓存方式，确定与所述缓存方式匹配的存储空间；

将所述历史行为特征缓存在所述存储空间。

8.根据权利要求1所述的方法，其特征在于，所述获取所述第一账户的历史行为特征，包括：

获取用于体现所述第二特征属性的历史行为数据；

根据所述历史行为数据，提取所述历史行为特征。

9.一种用于多媒体信息的模型更新装置，其特征在于，所述装置包括：

10.一种服务器，其特征在于，所述服务器包括处理器和存储器，所述存储器中存储有至少一条指令，所述至少一条指令由所述处理器加载并执行，以实现如权利要求1-8任一项所述的用于多媒体信息的模型更新方法。