CN109740068B

CN109740068B - 媒体数据推荐方法、装置及存储介质

Info

Publication number: CN109740068B
Application number: CN201910087254.4A
Authority: CN
Inventors: 李天浩; 崔瑞
Original assignee: Tencent Technology Beijing Co Ltd
Current assignee: Tencent Technology Beijing Co Ltd
Priority date: 2019-01-29
Filing date: 2019-01-29
Publication date: 2021-04-06
Anticipated expiration: 2039-01-29
Also published as: CN109740068A

Abstract

本发明公开了一种媒体数据推荐方法、装置及存储介质，属于互联网技术领域。方法包括：获取目标用户的用户特征；根据待推荐的多个媒体数据，获取与兴趣标签特征匹配的多个备选媒体数据；对于多个备选媒体数据中的每个备选媒体数据，将用户特征与备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取关联特征的关联度；根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。通过筛选出与兴趣标签特征匹配的多个备选媒体数据，可以减少计算量，提高推荐效率，根据关联特征和第一推荐模型确定关联度，能够有效地针对目标用户进行个性化推荐，提高了关联度的准确率，从而提高了推荐效果。

Description

媒体数据推荐方法、装置及存储介质

技术领域

本发明涉及互联网技术领域，特别涉及一种媒体数据推荐方法、装置及存储介质。

背景技术

随着互联网技术的快速发展和广泛普及，在互联网中可以传播多种多样的媒体数据，为用户提供了多样丰富的信息。若是直接将传播的媒体数据展示给用户，会导致数据量过多，用户很难从中查找到自己感兴趣的媒体数据，因此可以根据用户对不同媒体数据的喜好程度，为用户推荐其感兴趣的媒体数据。

相关技术中，预先设置媒体数据的多个类别和每个类别的权重，且多个类别之间具有层级关系，表示上一层的类别包括下一层的多个子类别。当要为目标用户推荐媒体数据时，构建目标用户的用户画像，该用户画像中包括多个类别对应的特征值，该特征值用于表示目标用户对属于对应类别的媒体数据的喜好程度。对于每个媒体数据，根据用户画像确定该媒体数据所属的多个类别对应的特征值，按照多个类别的权重对多个类别对应的特征值进行加权求和，得到该媒体数据的关联度，该关联度用于表示目标用户对该媒体数据的喜好程度。采用上述方式可以获取待推荐的多个媒体数据的关联度，根据多个媒体数据的关联度，确定为目标用户推荐的目标媒体数据。

上述方案需要获取多个媒体数据中每个媒体数据的关联度，计算量较大。且每个类别的权重预先设置，设置方式不够灵活，无法有效地针对每个用户进行个性化地推荐，导致获取到的关联度不够准确，推荐效果不佳。

发明内容

本发明实例提供了一种媒体数据推荐方法、装置及存储介质，解决了相关技术存在的问题。所述技术方案如下：

一方面，提供了一种媒体数据推荐方法，所述方法包括：

获取目标用户的用户特征，所述用户特征包括兴趣标签特征；

根据待推荐的多个媒体数据，获取与所述兴趣标签特征匹配的多个备选媒体数据；

对于所述多个备选媒体数据中的每个备选媒体数据，将所述用户特征与所述备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取所述关联特征的关联度，所述关联度用于表示所述目标用户对所述备选媒体数据的喜好程度；

根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据。

另一方面，提供了一种媒体数据推荐装置，所述装置包括：

特征获取模块，用于获取目标用户的用户特征，所述用户特征包括兴趣标签特征；

数据获取模块，用于根据待推荐的多个媒体数据，获取与所述兴趣标签特征匹配的多个备选媒体数据；

关联度获取模块，用于对于所述多个备选媒体数据中的每个备选媒体数据，将所述用户特征与所述备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取所述关联特征的关联度，所述关联度用于表示所述目标用户对所述备选媒体数据的喜好程度；

确定模块，用于根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据。

另一方面，提供了一种媒体数据推荐装置，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如所述媒体数据推荐方法中所执行的操作。

另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如所述媒体数据推荐方法中所执行的操作。

本发明实施例提供的媒体数据推荐方法、装置及存储介质，根据待推荐的多个媒体数据获取与兴趣标签特征匹配的多个备选媒体数据，对于多个备选媒体数据中的每个备选媒体数据，获取该备选媒体数据的数据特征，将用户特征和数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取该关联特征的关联度，并根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。通过筛选出与兴趣标签特征匹配的多个备选媒体数据，无需获取待推荐的每个媒体数据对应的关联度，可以减少计算量，提高推荐效率。并且，将用户特征和数据特征进行组合得到关联特征，根据关联特征和第一推荐模型确定目标用户与备选媒体数据之间的关联度，以关联度来表示目标用户对备选媒体数据的喜好程度，能够有效地针对目标用户进行个性化推荐，提高了关联度的准确率，从而提高了推荐效果。

本发明实施例创新性地提供了一种基于推荐模型的个性化媒体数据推荐方法，通过引入推荐模型，更好地挖掘出了用户与媒体数据之间的兴趣特征的相关性，能够及时有效地为用户推荐其感兴趣的媒体数据。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种实施环境的结构示意图；

图2是本发明实施例提供的一种视频推荐界面的示意图；

图3是本发明实施例提供的一种媒体数据推荐方法的流程图；

图4是本发明实施例提供的一种推荐模型训练方法的流程图；

图5是本发明实施例提供的一种推荐设备的结构示意图；

图6是本发明实施例提供的一种媒体数据推荐装置的结构示意图；

图7是本发明实施例提供的一种终端的结构示意图；

图8是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

本发明实施例提供的媒体数据推荐方法应用于推荐设备，该推荐设备用于根据待推荐的多个媒体数据，确定为目标用户推荐的目标媒体数据。

其中，该推荐设备可以包括服务器、终端或者其他具有处理功能的设备。该终端可以为手机、平板电脑以及计算机等多种类型的终端，该服务器可以为一台服务器，或者由若干台服务器组成的服务器集群，或者是一个云计算服务中心。

图1是本发明实施例提供的一种实施环境的结构示意图。参见图1，该实施环境包括服务器101和终端102，服务器101与终端102通过通信网络连接。

在一种可能实现方式中，推荐设备为服务器101，服务器101收集互联网中的多个媒体数据，将终端102用户作为目标用户，根据多个媒体数据确定为目标用户推荐的目标媒体数据。后续服务器101可以向终端102发送目标媒体数据，由终端102展示目标媒体数据，供目标用户查看。

在另一种可能实现方式中，推荐设备为终端102，终端102接收服务器101收集的多个媒体数据，根据多个媒体数据确定为本端的目标用户推荐的目标媒体数据。后续可以展示目标媒体数据，供目标用户查看。

本发明实施例提供的媒体数据推荐方法可以应用于多种场景中。例如，在网络购物场景中，当目标用户通过终端打开网络购物应用的首页时，采用本发明实施例提供的媒体数据推荐方法，确定为目标用户推荐的物品，将确定的物品展示在首页中，供目标用户查看。

或者，在视频播放场景中，当目标用户通过终端观看视频时，采用本发明实施例提供的媒体数据推荐方法，确定为目标用户推荐的视频，添加至播放列表中。后续当目标用户观看完当前视频后，可以继续观看播放列表中的下一个视频。例如，图2是本发明实施例提供的一种视频推荐界面的示意图。参见图2，当目标用户点击视频选项时，显示视频推荐界面，为目标用户推荐视频1、视频2和视频3。

或者，在歌曲播放场景中，采用本发明实施例提供的媒体数据推荐方法，确定为目标用户推荐的歌曲，创建推荐歌曲列表，当目标用户通过终端打开歌曲播放应用的首页时，可以收听推荐歌曲列表中的歌曲。

本发明实施例还可以应用于其他场景中，本发明实施例在此不再赘述。

图3是本发明实施例提供的一种媒体数据推荐方法的流程图。参见图3，该方法包括：

301、推荐设备获取目标用户的用户特征。

本发明实施例中，每个用户具有唯一的用户标识，可以基于用户标识登录推荐设备，推荐设备可以根据登录的用户标识识别对应的用户。其中，用户标识可以为用户账号、用户昵称、手机号码等。

每个用户具有用户特征，该用户特征用于描述对应的用户，可以根据用户的历史数据确定。历史数据可以包括用户的历史操作数据、属性数据等。相应地，用户特征可以包括至少一级兴趣类别特征、兴趣标签特征和属性特征。

历史操作数据用于描述用户曾进行过的操作，可以包括用户曾进行过操作的媒体数据、操作时间、操作时长及媒体数据的时长、媒体数据所属的类别等。根据历史操作数据可以确定至少一级兴趣类别特征和兴趣标签特征。

一、兴趣类别特征：

每个类别特征用于描述对应的类别，用户特征包括兴趣类别特征，表示该兴趣类别特征对应的类别为用户的兴趣类别，即用户对属于该类别的媒体数据感兴趣。

可选地，按照媒体数据内容的不同，可以将媒体数据划分为多个类别，且划分类别时采用的粒度不同，划分出的类别粒度也不同。因此，将按照同一粒度划分得到的至少一个类别看作一层，将每个类别内再次按照另一更小的粒度划分得到的至少一个类别看作下一层，可以得到多层类别，即多个类别之间存在层级关系，上一层中的一个类别包括下一层中的多个子类别。

例如，将媒体数据划分为体育、娱乐、游戏等多个类别，而对于体育类别，还可以继续划分为篮球、足球、排球等多个子类别，对于娱乐类别，还可以继续划分为歌曲、舞蹈等多个子类别。

推荐设备根据用户的历史数据中每个媒体数据所属的类别进行统计，可以得到用户的至少一个兴趣类别，从而获取到该至少一个兴趣类别对应的兴趣类别特征。其中，该至少一个兴趣类别可以仅包括一个兴趣类别，或者包括多层兴趣类别，下一层的兴趣类别属于上一层的兴趣类别。

例如，用户播放数据最多的视频类别为篮球，则确定用户的兴趣类别为篮球和体育。

推荐设备根据用户的历史数据中每个媒体数据所属的类别进行统计，可以得到用户的兴趣标签，

二、兴趣标签特征：

兴趣标签特征用于描述对应的兴趣标签，用户特征包括兴趣标签特征，表示用户对该兴趣标签描述的对象感兴趣。

其中，兴趣标签描述的对象可以为某一个人、某一类物品或者某一个地理位置等。且每个兴趣标签可以属于用户的最后一层的兴趣类别，例如，用户的兴趣类别为篮球和体育，兴趣标签为篮球明星A。

另外需要说明的是，历史操作数据可以包括长期操作数据和短期操作数据，长期操作数据包括当前时刻之前的第一预设时长内的历史操作数据，而短期操作数据包括当前时刻之前的第二预设时长内的历史操作数据，第一预设时长大于第二预设时长，如第一预设时长为一个月，第二预设时长为一天。

根据长期操作数据可以获取用户的至少一级兴趣类别特征和兴趣标签特征，根据短期操作数据也可以获取用户的至少一级兴趣类别特征和兴趣标签特征，从而得到与不同的时间段对应的特征。

三、属性特征：

属性数据用于描述用户的属性，可以包括用户的性别、年龄、归属地等。根据属性数据可以确定属性特征，包括性别特征、年龄特征、归属地特征等。

本发明实施例仅是以目标用户为例对推荐媒体数据的过程进行说明，目标用户为登录推荐设备的任一用户，当要为目标用户推荐媒体数据时，推荐设备可以获取目标用户的用户特征，该用户特征中包括兴趣标签特征，还可以包括目标用户的至少一级兴趣类别特征和属性特征。

302、推荐设备根据待推荐的多个媒体数据，获取与兴趣标签特征匹配的多个备选媒体数据。

推荐设备获取待推荐的多个媒体数据，将该多个媒体数据存储于数据库中，后续可以根据该多个媒体数据为任一用户进行推荐。

从数据格式上来说，该多个媒体数据可以包括图片格式、音频格式、视频格式或者其他格式。从数据内容上来说，该多个媒体数据可以包括体育类的媒体数据、新闻类的媒体数据、娱乐类的媒体数据等。从数据来源上来说，该多个媒体数据可以包括网络用户上传的媒体数据、广告主提供的媒体数据、视频生产商提供的媒体数据等。

为了减少计算量，快速确定目标用户感兴趣的媒体数据，推荐设备获取到目标用户的用户特征后，根据待推荐的多个媒体数据和目标用户的兴趣标签特征，获取与兴趣标签特征匹配的多个备选媒体数据。

其中，每个媒体数据包含数据标签，该数据标签用于表示媒体数据所属的类别。推荐设备可以根据目标用户的兴趣标签特征确定对应的兴趣标签，对于多个媒体数据中的每个媒体数据，当该媒体数据的数据标签与兴趣标签相同时，表示该媒体数据与兴趣标签匹配，将该媒体数据确定为备选媒体数据。而当该媒体数据的数据标签与兴趣标签不同时，表示该媒体数据与兴趣标签不匹配，将该媒体数据过滤。采用上述方式对每个媒体数据进行判断，可以筛选出与兴趣标签特征匹配的多个备选媒体数据。

或者，本发明实施例仅是以获取到多个备选媒体数据之后再获取每个备选媒体数据的数据特征为例进行说明，而在另一实施例中，推荐设备可以预先获取每个媒体数据的数据特征，获取数据特征的方式与下述步骤203类似，在此不再赘述。则对于多个媒体数据中的每个媒体数据，已获取到该媒体数据的数据特征的情况下，该媒体数据的数据特征中包括该媒体数据的数据标签对应的数据标签特征。当该媒体数据的数据标签特征与兴趣标签特征相同时，表示该媒体数据与兴趣标签特征匹配，将该媒体数据确定为备选媒体数据。而当该媒体数据的数据标签特征与兴趣标签特征不同时，表示该媒体数据与兴趣标签特征不匹配，将该媒体数据过滤。采用上述方式对每个媒体数据进行判断，可以筛选出与兴趣标签特征匹配的多个备选媒体数据。

其中，推荐设备获取媒体数据的数据特征时，可以建立数据特征与媒体数据的倒排索引，后续可以根据该倒排索引进行查询，获取任一数据特征与目标用户的兴趣标签特征匹配的媒体数据。

或者，还可以采用其他方式从多个媒体数据中获取与兴趣标签特征匹配的多个备选媒体数据。

可选地，获取备选媒体数据时，可以按照兴趣标签和兴趣类别进行获取。推荐设备可以获取至少一级兴趣类别特征对应的至少一个兴趣类别，及兴趣标签特征对应的兴趣标签，从多个媒体数据中，获取所属的类别与至少一个兴趣类别相同的备选媒体数据，获取添加的数据标签与兴趣标签相同的备选媒体数据。如分别获取属于每个兴趣类别、数量为预设数量的多个备选媒体数据，还获取添加的数据标签与兴趣标签相同、数量为预设数量的多个备选媒体数据。

例如，可以根据目标用户的兴趣标签、兴趣标签所属的二级兴趣类别、二级兴趣类别所属的一级兴趣类别，分别获取200个备选媒体数据，从而得到600个备选媒体数据。

通过上述方式可以从多个媒体数据中选取目标用户可能感兴趣的多个备选媒体数据，降低了媒体数据的数量，在后续处理过程中可以减小计算量，更快地为目标用户推荐其感兴趣的媒体数据。

可选地，获取备选媒体数据时，可以按照预设格式进行获取。即根据多个媒体数据，获取与兴趣标签特征匹配且满足预设格式的多个备选媒体数据。其中，该预设格式可以为图片格式、音频格式、视频格式等，可以预先根据推荐设备的功能需求确定，或者还可以根据当前目标用户展示的媒体数据的格式确定。

例如，当目标用户正在浏览图片时，推荐设备获取与兴趣标签特征匹配的多个备选图片。或者，当目标用户正在观看视频时，推荐设备获取与兴趣标签特征匹配的多个备选视频。

可选地，为了获得足够数量的备选媒体数据，避免由于备选媒体数据数量过少而影响推荐效果，在获取备选媒体数据时，可以按照预设数量进行获取，获取与兴趣标签特征匹配的预设数量的备选媒体数据，该预设数量为大于1的正整数。

可选地，在获取备选媒体数据时，将多个媒体数据按照发布时间进行排列，优先获取发布时间较近的备选媒体数据，从而为目标用户及时推荐最新发布的媒体数据。或者，每个媒体数据设置有分数，以分数来表示媒体数据的热门程度。在获取备选媒体数据时，将多个媒体数据按照分数进行排列，优先获取分数较高的备选媒体数据。

其中，获取的备选媒体数据中可能存在重复的多个备选媒体数据，只保留重复备选媒体数据中的任一个备选媒体数据，将剩余的备选媒体数据滤除。

303、对于多个备选媒体数据中的每个备选媒体数据，推荐设备获取备选媒体数据的数据特征。

其中，任一媒体数据的数据特征用于描述媒体数据，可以根据媒体数据点的历史数据确定。

历史数据可以包括媒体数据的历史操作数据和属性数据等。历史操作数据用于描述曾对媒体数据进行过的操作，可以包括操作用户、操作时间、操作时长、播放完成度等，属性数据用于描述媒体数据的属性可以包括媒体数据所属的类别、媒体数据的时长、媒体数据的发布时间、媒体数据中包含的对象等。

例如，一个备选媒体数据所属的一级类别为娱乐，二级类别为歌曲，数据标签为歌手B，该备选媒体数据的时长为40秒，最后一次的播放日期为2014年6月，平均播放完成度为0.7。

相应地，媒体数据的数据特征可以包括至少一个类别特征、时长特征、数据标签特征、播放日期特征、播放时间特征、点击率特征和播放完成度特征。其中，至少一个类别特征用于描述媒体数据所属的至少一个类别，时长特征用于描述媒体数据的时长，数据标签特征用于描述媒体数据添加的、与媒体数据中包括的对象对应的数据标签，播放日期特征用于描述媒体数据的最后一次播放日期，播放时间特征用于描述媒体数据的最后一次播放时间，点击率特征用于描述媒体数据的历史点击率，播放完成度特征用于描述媒体数据的平均播放完成度。

对于多个备选媒体数据中的每个备选媒体数据，推荐设备获取该备选媒体数据的数据特征，以便后续根据数据特征确定是否要推荐该备选媒体数据。

304、推荐设备将用户特征与数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取关联特征的关联度。

获取备选媒体数据的数据特征后，将用户特征和数据特征进行组合，可以得到组合后的关联特征，从而将目标用户的用户特征和媒体数据的数据特征进行关联。

由于用户特征包括多个维度上的特征值，数据特征包括多个维度上的特征值，因此可以将用户特征中包括的维度称为第一预设维度，将数据特征中包括的维度称为第二预设维度。也即是，用户特征包括多个第一预设维度上的特征值，数据特征包括多个第二预设维度上的特征值，则推荐设备获取目标用户在多个第一预设维度上的特征值，获取备选媒体数据在多个第二预设维度上的特征值，根据多个第一预设维度上的特征值、多个第二预设维度上的特征值以及每个维度的维度标识进行组合，得到关联特征。

其中，维度标识用于表示对应的预设维度，不同的预设维度对应的维度标识不同。该维度标识可以为预设维度的名称或者预设维度的序号等。

可选地，对于多个第一预设维度和多个第二预设维度中的每个预设维度，获取预设维度的维度标识、预设维度上的特征值、特征标识，将维度标识、特征标识和在预设维度上的特征值进行组合，得到预设维度上的关联特征值，将多个第一预设维度和多个第二预设维度上的关联特征值进行组合，得到关联特征。

特征标识由维度标识和预设维度上的特征值确定，根据维度标识和预设维度上的特征值可以确定唯一对应的特征标识。可选地，通过获取维度标识与预设数值的乘积，得到第一数值，并获取第一数值与预设维度上的特征值的和，得到特征标识。

例如，采用以下公式获取特征标识：

Feature ID＝field ID*100000+value，其中，Feature ID为特征标识，field ID为维度标识，预设数值为100000，value为预设维度上的特征值。

其中，该预设维度上的特征值可以为原始的特征值，或者可以为由原始的特征值进行哈希计算后得到的哈希值，或者还可以为该哈希值中某些比特位上的数值。第一数值为设置的任一数值，可以根据特征标识所属的数值范围的大小确定。

可选地，哈希算法可以采用murmurhash3(一种非加密型哈希函数)或者其他算法。由原始的特征值进行murmurhash3哈希计算后得到哈希值，提取哈希值的后5位作为预设维度上的特征值。

其中，将维度标识、特征标识和在预设维度上的特征值进行组合时，可以按照预设数据格式进行组合，得到满足该预设数据格式的关联特征值。可选地，按照FFM格式将预设维度的维度标识、特征标识和特征值依次排列后进行组合，得到的关联特征值的格式为：<维度标识><特征标识><特征值>。

例如，多个第一预设维度包括一级类别、二级类别、兴趣标签、性别，多个第二预设维度包括数据标签、一级类别、二级类别、播放日期、播放时间、历史点击率、平均展示完成度、时长，该多个预设维度的编号依次为0-11，组合得到的关联特征为<维度标识0><特征标识0><特征值0>；<维度标识1><特征标识1><特征值1>；……；<维度标识11><特征标识11><特征值11>。

本发明实施例中，推荐设备可以获取第一推荐模型，该第一推荐模型用于确定任一用户的用户特征与任一媒体数据的数据特征组合得到的关联特征对应的关联度，根据关联度可以确定用户对媒体数据是否感兴趣。

则获取到关联特征后，推荐设备基于第一推荐模型获取关联特征的关联度，该关联度用于表示目标用户对备选媒体数据的喜好程度，该关联度越高，表示目标用户对备选媒体数据越感兴趣，该关联度越低，表示目标用户对备选媒体数据越不感兴趣。

可选地，关联度可以为点击率，该第一推荐模型可以为点击率预测模型，基于该第一推荐模型可以预测点击率，从而根据预测的点击率判断目标用户是否对备选媒体数据感兴趣。

可选地，该第一推荐模型可以由推荐设备训练后存储，或者，该第一推荐模型可以由训练设备训练后发送给推荐设备，由推荐设备存储。

305、推荐设备根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。

本发明实施例通过关联度来表示目标用户对备选媒体数据的喜好程度，根据每个备选媒体数据对应的关联度，可以确定为目标用户推荐的目标媒体数据。

其中，确定目标媒体数据的方法可以包括以下步骤3041-3043中的至少一项：

3051、根据多个备选媒体数据，获取关联度大于预设关联度的备选媒体数据，确定为目标媒体数据。

如果备选媒体数据的关联度大于预设关联度，表示目标用户对备选媒体数据较为感兴趣，则可以将备选媒体数据确定为目标媒体数据，从而将该媒体数据推荐给目标用户。

如果备选媒体数据的关联度不大于预设关联度，表示目标用户对备选媒体数据不感兴趣，则可以将备选媒体数据忽略，避免将该媒体数据推荐给目标用户。

例如，预设关联度为0.7，当备选媒体数据的关联度为0.8时，则将该备选媒体数据确定为目标媒体数据。

3052、根据多个备选媒体数据，获取预设数量的备选媒体数据，该预设数量的备选媒体数据的关联度均大于其他备选媒体数据的关联度，将该预设数量的备选媒体数据确定为目标媒体数据。

可选地，按照关联度从大到小的顺序对多个备选媒体数据进行排序，按照排列顺序进行选取，得到预设数量的备选媒体数据，确定为目标媒体数据，而不再选取其他备选媒体数据，或者，还可以按照其他方式对多个备选媒体数据进行排序，只需保证获取的备选媒体数据的关联度大于剩余的备选媒体数据的关联度。

3053、根据多个备选媒体数据，获取关联度大于预设关联度的预设数量的备选媒体数据，将获取的备选媒体数据确定为目标媒体数据。

本发明实施例中，除上述步骤3051-3053之外，还可以采用其他方式确定目标媒体数据，在此不再一一赘述。

306、推荐设备为目标用户推荐目标媒体数据。

确定目标媒体数据后，将确定的目标媒体数据推荐给目标用户，实现了个性化推荐。

可选地，确定目标媒体数据后，推荐设备立即为目标用户推荐目标媒体数据。或者，确定目标媒体数据后，推荐设备将确定的目标媒体数据，或者目标媒体数据的数据标识添加至目标用户的推荐列表中。后续当接收到对目标用户的推荐指令时，根据推荐列表为目标用户推荐目标媒体数据。

其中，该推荐指令可以由推荐设备根据预设周期自动触发，或者还可以根据目标用户的指定操作触发，该指定操作可以为目标用户开启某一应用的操作、目标用户播放视频的操作、目标用户点击某一应用的主界面的操作等。

可选地，该推荐设备为终端时，当终端接收到对目标用户的推荐指令时，将确定的目标媒体数据展示给目标用户，供目标用户观看。

该推荐设备为服务器时，当终端接收到对目标用户的推荐指令时，转发给服务器，当服务器接收到对目标用户的推荐指令时，将确定的目标媒体数据发送给终端，由终端展示目标媒体数据，供目标用户观看。

本发明实施例提供的方法，根据待推荐的多个媒体数据获取与兴趣标签特征匹配的多个备选媒体数据，对于多个备选媒体数据中的每个备选媒体数据，获取该备选媒体数据的数据特征，将用户特征和数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取该关联特征的关联度，并根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。通过筛选出与兴趣标签特征匹配的多个备选媒体数据，无需获取待推荐的每个媒体数据对应的关联度，可以减少计算量，提高推荐效率。并且，将用户特征和数据特征进行组合得到关联特征，根据关联特征和第一推荐模型确定目标用户与备选媒体数据之间的关联度，以关联度来表示目标用户对备选媒体数据的喜好程度，能够有效地针对目标用户进行个性化推荐，提高了关联度的准确率，从而提高了推荐效果。

图4是本发明实施例提供的一种推荐模型训练方法的流程图。参加图4，该方法应用于训练设备，该训练设备可以为上述推荐设备或者还可以为其他设备，该方法包括：

401、训练设备获取多个备选样本数据，每个备选样本数据包括一个样本用户和一个样本媒体数据。

可选地，训练设备获取多个样本用户，对于每个样本用户，获取该样本用户的历史操作数据，将历史操作数据中出现过的至少一个媒体数据作为样本媒体数据，将该样本用户与该样本媒体数据组合，构成备选样本数据。后续可以根据该样本用户与该样本媒体数据之间的关联度进行模型训练。

历史操作数据中出现过的媒体数据可以包括曾曝光给样本用户但样本用户未展示的媒体数据，还可以包括曾提供给样本用户且样本用户展示过的媒体数据。其中，媒体数据曝光给用户是指，将媒体数据的链接或入口等信息展示给用户，用户点击该链接或该入口即可进入媒体数据的展示页面，展示该媒体数据。

需要说明的是，用户可以依据用户标识进行识别，媒体数据可以依据数据标识进行识别。其中，该数据标识用于确定唯一的媒体数据，可以为媒体数据的数据编号、存储地址或者其他标识。

根据样本媒体数据的数据标识，查询包含该数据标识的至少一个历史操作数据，将数据标识与至少一个历史操作数据中的用户标识进行融合，可以获取到至少一条备选样本数据。

可选地，训练设备获取多个样本媒体数据，对于每个样本媒体数据，获取该样本媒体数据的历史操作数据，将历史操作数据中出现过的至少一个用户作为样本用户，将该样本媒体数据与该样本用户组合，构成备选样本数据。后续可以根据该样本用户与该样本媒体数据之间的关联度进行模型训练。

历史操作数据中出现过的用户可以包括曾曝光过样本媒体数据但未展示该样本媒体数据的用户，还可以包括曾展示过该样本媒体数据的用户。

需要说明的是，用户可以依据用户标识进行识别，媒体数据可以依据数据标识进行识别。根据样本用户的用户标识，查询包含该用户标识的至少一个历史操作数据，将用户标识与至少一个历史操作数据中的数据标识进行融合，可以获取到至少一条备选样本数据。

402、对于多个备选样本数据中的每个备选样本数据，训练设备获取备选样本数据中样本媒体数据的数据特征，当数据特征中指定预设维度上的特征值为零时，将备选样本数据过滤。

每个样本媒体数据可以包括多个预设维度上的信息，每个样本媒体数据的数据特征也会包括多个预设维度上的特征值，在后续的模型训练过程中，可能需要根据数据特征中某些预设维度上的特征值，学习样本媒体数据与样本用户之间的关联关系，若这些预设维度上的特征值缺失，会导致训练出的推荐模型无法满足要求。

因此，可以根据需求设置指定预设维度，该指定预设维度为必要的预设维度，该指定预设维度上的特征值不能缺失。

则训练设备获取到备选样本数据后，获取备选样本数据中样本媒体数据的数据特征，判断数据特征在指定预设维度上的特征值是否为零，当确定该数据特征中指定预设维度上的特征值为零时，表示该样本媒体数据在指定预设维度上不存在特征值，无法满足训练要求，因此将该备选样本媒体数据过滤。而当确定该数据特征中指定预设维度上的特征值不为零时，表示该指定预设维度上的特征值未缺失，因此保留该备选样本媒体数据。

例如，当需要训练用于推荐体育类视频的推荐模型时，指定预设维度为体育，当某一备选样本数据中，样本媒体数据的数据特征在该指定预设维度上的特征值为0时，表示该样本媒体数据不属于体育类，则将该备选样本媒体数据过滤。

可选地，训练设备每次获取到媒体数据时，获取媒体数据的数据特征，建立媒体数据与数据特征的正排索引，后续可以根据该正排索引进行查询，获取任一媒体数据的数据特征。

本发明实施例通过执行步骤401-402，将指定预设维度上的特征值为零的备选样本媒体数据过滤，得到多个样本数据，减少了不必要的计算量，也保证了每个备选样本媒体数据中指定预设维度上的特征值无缺失。后续可以通过执行下述步骤403-405，根据该多个样本数据进行模型训练。从而在训练推荐模型时保证推荐模型可以学习到指定预设维度上的特征相关性。

需要说明的是，步骤401-402为可选方案，在另一实施例中还可以不执行步骤401-402，当训练设备获取到多个样本数据时，直接通过执行下述步骤403-405，根据该多个样本数据进行模型训练。或者，还可以采用其他方式将备选样本媒体数据进行过滤，以减小计算量，在此不再一一赘述。

403、对于多个样本数据中的每个样本数据，训练设备将样本数据中样本用户的用户特征与样本数据中样本媒体数据的数据特征进行组合，得到组合后的关联特征。

该步骤402的过程与上一实施例中的步骤403的过程相类似，在此不再赘述。

404、训练设备根据关联特征对第一推荐模型进行训练。

当根据样本用户的用户特征和样本数据中样本媒体数据的数据特征进行组合后，根据组合后的关联特征对第一推荐模型进行训练，从而可以使第一推荐模型学习到用户的用户特征与媒体数据的数据特征之间的关联关系，能够根据任一用户的用户特征与任一媒体数据的数据特征，获取对应的关联度，以关联度来表示用户对媒体数据的喜好程度。

可选地，对于每个样本数据，获取样本数据对应的关联特征，还获取样本数据的标识，该标识用于表示该样本数据中的样本用户是否对该样本数据中的样本媒体数据感兴趣，将该标识作为关联特征的标识。该标识可以为第一标识或第二标识，第一标识表示样本用户对样本媒体数据感兴趣，即样本数据为正样本数据，第二标识表示样本用户对样本媒体数据不感兴趣，即样本数据为负样本数据。根据样本数据对应的关联特征和标识，对第一推荐模型进行训练，得到训练后的第一推荐模型。

关于获取样本数据标识的方式，可选地，考虑到样本用户对样本媒体数据的展示时长的多少可以反映出样本用户对样本媒体数据是否感兴趣，因此可以设置展示时长应当满足的预设条件。则获取样本用户对样本媒体数据的操作数据，该操作数据至少包括样本用户对样本媒体数据的展示时长，该展示时长即为样本用户观看该样本媒体数据的时长。当展示时长满足预设条件时，可以确定该关联特征的标识为第一标识，根据该关联特征和第一标识，对第一推荐模型进行训练，当该展示时长不满足预设条件时，可以确定该关联特征的标识为第二标识，根据该关联特征和第二标识，对第一推荐模型进行训练。

在一种可能实现方式中，该预设条件可以包括第三预设时长，表示该预设条件为展示时长大于第三预设时长的条件，则当展示时长大于第三预设时长时，确定关联特征的标识为第一标识，而当展示时长不大于第三预设时长时，确定关联特征的标识为第二标识。

可选地，该第三预设时长可以为预先设置的固定时长，或者该第三预设时长可以根据样本媒体数据的时长进行设置。例如，可以预先划分多个时长范围，确定每个时长范围对应的第三预设时长，当样本媒体数据的时长属于某一时长范围时，确定对应的第三预设时长，根据第三预设时长判断样本媒体数据的展示时长是否满足预设条件。

例如，设置的多个时长范围包括0秒-30秒、31秒-60秒、61秒-120秒等，0秒-30秒对应的第三预设时长为7秒，31秒-60秒对应的第三预设时长为15秒，61秒-120秒对应的第三预设时长为25秒。当样本媒体数据的时长为20秒，属于0秒-30秒的范围，则第三预设时长设置为7秒。

在另一种可能实现方式中，该预设条件可以包括样本媒体数据的预设展示完成度，表示该预设条件为展示完成度大于预设展示完成度的条件，则获取样本媒体数据的时长，该时长是指样本媒体数据所能播放的最大时长，还获取样本用户对样本媒体数据的展示时长，获取样本用户对该样本媒体数据的展示时长与样本媒体数据的时长之间的比值，得到展示完成度。

当该展示完成度大于预设展示完成度时，则确定关联特征的标识为第一标识，而当展示完成度不大于预设展示完成度时，则确定关联特征的标识为第二标识。

例如，预设展示完成度为0.5，当样本媒体数据的时长为80秒，样本用户对该样本媒体数据的展示时长为60秒时，展示完成度为0.75，大于预设展示完成度0.5，则确定关联特征的标识为第一标识，也即是该样本数据为正样本数据。

本发明实施例中，先构建初始化的第一推荐模型，之后根据获取到的每个样本数据，均可采用上述方法对第一推荐模型进行训练，随着训练的不断进行，可以使第一推荐模型学习到用户的用户特征与媒体数据的数据特征之间的关联关系，具备获取任一用户的用户特征与任一媒体数据的数据特征对应的关联度的能力，逐渐地提升第一推荐模型的准确率。当第一推荐模型的准确率满足要求时，即可应用该第一推荐模型。

本发明实施例中，可以采用多种训练算法训练第一推荐模型，该训练算法可以为分解机算法、场感知分解机算法或者其他算法，相应地，训练得到的第一推荐模型可以为分解机模型、场感知分解机模型或者其他模型。

其中，当采用场感知分解机算法进行训练时，该第一推荐模型为：

w为模型参数，x为关联特征，φ(w，x)为关联特征对应的关联度；

i为预设维度的维度标识，n为关联特征的维度数量，n为正整数，i大于0且不大于n；

x_i为关联特征在预设维度i上的关联特征值，w₀为初始化的模型参数，w_i为预设维度i上的模型参数；

V为隐向量，f₁为特征值j₁所属的预设维度的维度标识，f₂为特征值j₂所属的预设维度的维度标识，

f₂为特征值j₂对预设维度f₁的隐向量，

f₁为特征值j₁对预设维度f₂的隐向量。

分别为在预设维度j₁、j₂上的关联特征值。

<.，.>为向量点积，隐向量的长度为k，k小于n。

采用逻辑回归损失函数作为场感知分解机模型的损失函数，该损失函数为：

y_i为第i个样本数据的标识，λ为惩罚项系数，m为样本数据的数量。

可选地，训练第一推荐模型所采用的样本数据较多，可以采用多线程并行运算的方法，将多个样本数据按照线程的数量划分为多组样本数据，每个线程对一组样本数据进行运算，该多个线程同时工作，从而可以缩短训练第一推荐模型的时间，加快了训练速度。在训练第一推荐模型时还可以采用单指令多数据流扩展指令集对第一推荐模型进行训练，可以有效提升训练第一推荐模型的训练速度。

多线程并行运算方法可以为Open MP(Open Multi-Processing，共享存储并行编程)多核并行计算技术，或者其他运算技术。

可选地，训练第一推荐模型完成后，将第一推荐模型的模型文件转换为二进制模型文件，将第一推荐模型的模型文件进行压缩，从而节省储存的空间，采用二进制模型文件也方便读取模型文件，可以加快读取速度。

可选地，在应用第一推荐模型进行数据推荐的过程中，还可以继续对第一推荐模型进行更新，得到第二推荐模型，当推荐设备获取到更新后的第二推荐模型时，可以应用第二推荐模型进行数据推荐。

其中，可以每隔第四预设时长，获取更新后的推荐模型，该第四预设时长可以设置为1小时、2小时、24小时等。

本发明实施例中，为保证获取到更新后的推荐模型，当推荐设备获取到第二推荐模型时，获取当前已存储的第一推荐模型的文件标识和第二推荐模型的文件标识，将第一推荐模型的文件标识和第二推荐模型的文件标识进行对比。其中，文件标识用于指示推荐模型的模型文件，与模型文件一一对应，可以采用模型文件的MD5(Message DigestAlgorithm MD5，消息摘要算法第五版)编码表示，或者采用其他编码表示。

当第一推荐模型的文件标识与第二推荐模型的文件标识不同时，表示第二推荐模型为更新后的推荐模型，则以第二推荐模型替换第一推荐模型。而当第一推荐模型的文件标识与第二推荐模型的文件标识相同时，表示第二推荐模型与第一推荐模型相同，不必以第二推荐模型替换第一推荐模型。

可选地，当第二推荐模型的文件标识和第一推荐模型的文件标识不同时，且第二推荐模型满足预设模型条件时，以第二推荐模型替换第一推荐模型。

其中，预设模型条件为正常模型所满足的条件，该预设模型条件可以包括模型文件的数据量应当满足的条件或者其他条件。当某一推荐模型满足该预设模型条件时，表示该推荐模型为可以正常使用的模型，而当某一推荐模型不满足该预设模型条件时，表示该推荐模型存在问题，不是可以正常使用的模型。

例如，预设模型条件为正常推荐模型的模型文件的数据量所属的范围，只有当第二推荐模型的数据量属于该范围时，才可确定该第二推荐模型为正常模型，否则该第二推荐模型不能正常使用。

采用上述检验方式对第二推荐模型进行检验，可以保证获取到更新后的正常推荐模型，保证了后续数据推荐过程的正常进行。

可选地，以第二推荐模型替换第一推荐模型包括：

当第一推荐模型存储在某一存储空间时，删除该第一推荐模型，将该第二推荐模型存储于该存储空间内。

或者，当第一推荐模型存储在某一存储空间时，将该第二推荐模型存储于另一存储空间，且将推荐模型的存储地址由第一推荐模型的存储地址更改为第二推荐模型的存储地址，后续可以根据第二推荐模型的存储地址，加载该第二推荐模型，应用该第二推荐模型进行数据推荐。

本发明实施例中，当推荐设备获取第二推荐模型时，采用多个线程中的指定线程采用上述检验方式对该第二推荐模型进行检验，当该第二推荐模型检验合格时，以第二推荐模型替换第一推荐模型，多个线程中的其他线程即可加载该第二推荐模型，并开始应用该第二推荐模型进行数据推荐。

其中，该第一推荐模型可以由训练设备训练完成后存储于本地，后续训练设备可以作为推荐设备，应用该第一推荐模型进行数据推荐。或者，该第一推荐模型可以由训练设备训练完成后发送给推荐设备，由推荐设备存储于本地，后续推荐设备可以应用该第一推荐模型进行数据推荐。

本发明实施例提供的方法，获取多个备选样本数据，每个样本数据中包括一个样本用户和一个样本媒体数据，通过根据样本媒体数据的数据特征，可以将指定维度上特征值为零的数据过滤，对于剩余的备选样本数据，将备选样本数据中样本用户的用户特征和数据特征进行组合，得到关联特征。根据关联特征对第一推荐模型进行训练，使第一推荐模型学习到用户的用户特征与媒体数据的数据特征之间的关联关系，基于该第一推荐模型，可以确定目标用户与备选媒体数据之间的关联度，以关联度来表示目标用户对备选媒体数据的喜好程度，能够有效地针对目标用户进行个性化推荐，提高了关联度的准确率，从而提高了推荐效果。

图5是本发明实施例提供的一种推荐设备的结构示意图。参见图5，该推荐设备包括离线训练系统和在线推荐系统。

一、离线训练系统，用于训练推荐模型，将训练完成的推荐模型推送至在线推荐系统。

离线训练系统包括训练库生成模块、采样模块、特征生成模块、模型训练模块以及文件推送模块。

其中，训练库生成模块用于获取样本数据，且获取过程中还会将数据特征中指定预设维度上特征值为零的样本数据过滤，从而保证每个样本数据在指定预设维度上的特征值无缺失。

采样模块用于基于训练库生成模块中得到的样本数据进行正负样本采样，确定每个样本数据为正样本数据还是负样本数据，从而确定每个样本数据的标识。

还可以进行样本数据的筛选，使正样本数据与负样本数据保持一定的比例，或者将展示时长不满足条件的样本数据或者样本媒体数据的时长不满足条件的样本数据过滤。

特征生成模块用于根据样本用户的用户特征和样本媒体数据的数据特征进行组合，得到组合后的关联特征。

模型训练模块用于根据关联特征以及对应的标识进行模型训练，得到推荐模型。

文件推送模块用于将训练得到的推荐模型推送至在线推荐系统，并生成推荐模型的文件标识，推送至在线推荐系统，以便在线推荐系统根据文件标识对推荐模型进行检验。

其中，文件推送模块可以设置定时任务，从而按照固定的频率或周期，将训练的推荐模型推送至在线推荐系统。

并且，采用离线训练系统，能够保证在线推荐系统正常运行的情况下，进行离线训练，实现推荐模型的更新。

需要说明的是，上述离线训练系统可以由Spark(一种安全的编程语言)计算集群和Docker(一种开源的应用容器引擎)计算平台级联构成。

二、在线推荐系统，用于基于推荐模型，将目标媒体数据推荐给目标用户。

在线推荐系统包括模型校验模块、加载模块、预召回模块、特征生成模块以及在线预测模块。

模型校验模块用于将离线训练系统推送的推荐模型的文件标识和当前已存储的推荐模型的文件标识进行对比，若两个文件标识不同，且离线训练系统推送的推荐模型满足预设模型条件，则以此推荐模型替换当前已存储的推荐模型，实现推荐模型的更新。

加载模块用于采用多线程技术，其中的指定线程专门用于进行模型检验，其他的线程用于加载推荐模型，应用该推荐模型进行数据推荐。

则每次接收到离线训练系统推送的推荐模型时，唤醒该指定线程，该指定线程加载该推荐模型并进行检验，当检验合格时，其它线程可以加载并应用该推荐模型。

预召回模块用于根据用户特征中的兴趣标签特征以及待推荐的多个媒体数据，获取预设数量的多个备选媒体数据，实现媒体数据的筛选过滤，减小了计算量。

特征生成模块用于生成关联特征，生成方式与离线训练系统中的特征生成模块类似。

在线预测模块用于基于推荐模型，预测每个备选媒体数据的关联度，并根据关联度确定目标媒体数据，确定为目标用户推荐的目标媒体数据，确定推荐方案，以便将目标媒体数据推荐给目标用户。

图6是本发明实施例提供的一种媒体数据推荐装置的结构示意图。参见图6，该装置包括：

特征获取模块601，用于获取目标用户的用户特征，用户特征包括兴趣标签特征；

数据获取模块602，用于根据待推荐的多个媒体数据，获取与兴趣标签特征匹配的多个备选媒体数据；

关联度获取模块603，用于对于多个备选媒体数据中的每个备选媒体数据，将用户特征与备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取关联特征的关联度，关联度用于表示目标用户对备选媒体数据的喜好程度；

确定模块604，用于根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。

在另一个实施例中，用户特征包括多个第一预设维度上的特征值，数据特征包括多个第二预设维度上的特征值，关联度获取模块603，包括：

组合单元，用于根据多个第一预设维度上的特征值、多个第二预设维度上的特征值以及每个维度的维度标识进行组合，得到关联特征。

在另一个实施例中，组合单元，还用于：

对于多个第一预设维度和多个第二预设维度中的每个预设维度，获取预设维度的维度标识、预设维度上的特征值、特征标识，特征标识由维度标识和预设维度上的特征值确定；

将维度标识、特征标识和在预设维度上的特征值进行组合，得到预设维度上的关联特征值；

将多个第一预设维度和多个第二预设维度上的关联特征值进行组合，得到关联特征。

在另一个实施例中，组合单元，还用于获取维度标识与预设数值的乘积，得到第一数值；获取第一数值与预设维度上的特征值的和，得到特征标识。

在另一个实施例中，数据获取模块602，包括:

第一获取单元，用于获取至少一级兴趣类别特征对应的至少一个兴趣类别，及兴趣标签特征对应的兴趣标签；

第二获取单元，用于从多个媒体数据中，获取所属的类别与至少一个兴趣类别相同的备选媒体数据，获取添加的数据标签与兴趣标签相同的备选媒体数据。

在另一个实施例中，确定模块604，还用于执行以下至少一项：

根据多个备选媒体数据，获取关联度大于预设关联度的备选媒体数据，确定为目标媒体数据；

根据多个备选媒体数据，获取预设数量的备选媒体数据，以使预设数量的备选媒体数据的关联度大于其他备选媒体数据的关联度，将预设数量的备选媒体数据确定为目标媒体数据。

在另一个实施例中，装置还包括：

样本获取模块，用于获取多个样本数据，每个样本数据包括一个样本用户和一个样本媒体数据；

训练模块，用于对于多个样本数据中的每个样本数据，将样本数据中样本用户的用户特征与样本数据中样本媒体数据的数据特征进行组合，得到组合后的关联特征，根据关联特征对第一推荐模型进行训练。

在另一个实施例中，训练模块，包括：

记录获取单元，用于获取样本用户对样本媒体数据的操作数据，操作数据至少包括样本用户对样本媒体数据的展示时长；

训练单元，用于当展示时长满足预设条件时，确定关联特征的标识为第一标识，根据关联特征和第一标识，对第一推荐模型进行训练；

训练单元，还用于当展示时长不满足预设条件时，确定关联特征的标识为第二标识，根据关联特征和第二标识，对第一推荐模型进行训练。

在另一个实施例中，样本获取模块，包括：

样本获取单元，用于获取多个备选样本数据，每个备选样本数据包括一个样本用户和一个样本媒体数据；

特征获取单元，用于对于多个备选样本数据中的每个备选样本数据，获取备选样本数据中样本媒体数据的数据特征；

过滤单元，用于当数据特征中指定预设维度上的特征值为零时，将备选样本数据过滤。

在另一个实施例中，装置还包括：

标识获取模块，用于当获取到第二推荐模型时，获取第一推荐模型的文件标识和第二推荐模型的文件标识；

替换模块，用于当第二推荐模型的文件标识和第一推荐模型的文件标识不同时，以第二推荐模型替换第一推荐模型。

在另一个实施例中，替换模块，还用于当第二推荐模型的文件标识和第一推荐模型的文件标识不同，且第二推荐模型满足预设模型条件时，以第二推荐模型替换第一推荐模型；预设模型条件为正常模型所满足的条件。

本发明实施例提供的媒体数据推荐装置，根据待推荐的多个媒体数据获取与兴趣标签特征匹配的多个备选媒体数据，对于多个备选媒体数据中的每个备选媒体数据，获取该备选媒体数据的数据特征，将用户特征和数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取该关联特征的关联度，并根据多个备选媒体数据对应的关联度，确定为目标用户推荐的目标媒体数据。通过筛选出与兴趣标签特征匹配的多个备选媒体数据，无需获取待推荐的每个媒体数据对应的关联度，可以减少计算量，提高推荐效率。并且，将用户特征和数据特征进行组合得到关联特征，根据关联特征和第一推荐模型确定目标用户与备选媒体数据之间的关联度，以关联度来表示目标用户对备选媒体数据的喜好程度，能够有效地针对目标用户进行个性化推荐，提高了关联度的准确率，从而提高了推荐效果。

上述所有可选技术方案，可以采用任意结合形成本公开的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的媒体数据推荐装置在推荐媒体数据时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将推荐设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的媒体数据推荐装置的实施例与媒体数据推荐方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图7是本发明实施例提供的一种终端的结构示意图。该终端700可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group AudioLayer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts GroupAudio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑、台式电脑、头戴式设备，或其他任意智能终端。终端700还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端700包括有：处理器701和存储器702。

处理器701可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器701可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器701也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器701可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器701还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器702可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器702还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器702中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器701所具有以实现本申请中方法实施例提供的媒体数据推荐方法。

在一些实施例中，终端700还可选包括有：外围设备接口703和至少一个外围设备。处理器701、存储器702和外围设备接口703之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口703相连。具体地，外围设备包括：射频电路704、触摸显示屏705、摄像头706、音频电路707、定位组件708和电源709中的至少一种。

外围设备接口703可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器701和存储器702。在一些实施例中，处理器701、存储器702和外围设备接口703被集成在同一芯片或电路板上；在一些其他实施例中，处理器701、存储器702和外围设备接口703中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路704用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路704通过电磁信号与通信网络以及其他通信设备进行通信。射频电路704将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路704包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路704可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及8G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路704还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏705用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏705是触摸显示屏时，显示屏705还具有采集在显示屏705的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器701进行处理。此时，显示屏705还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏705可以为一个，设置终端700的前面板；在另一些实施例中，显示屏705可以为至少两个，分别设置在终端700的不同表面或呈折叠设计；在再一些实施例中，显示屏705可以是柔性显示屏，设置在终端700的弯曲表面上或折叠面上。甚至，显示屏705还可以设置成非矩形的不规则图形，也即异形屏。显示屏705可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件706用于采集图像或视频。可选地，摄像头组件706包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件706还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路707可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器701进行处理，或者输入至射频电路704以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端700的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器701或射频电路704的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路707还可以包括耳机插孔。

定位组件708用于定位终端700的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件708可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源709用于为终端700中的各个组件进行供电。电源709可以是交流电、直流电、一次性电池或可充电电池。当电源709包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端700还包括有一个或多个传感器710。该一个或多个传感器710包括但不限于：加速度传感器711、陀螺仪传感器712、压力传感器713、指纹传感器714、光学传感器715以及接近传感器716。

加速度传感器711可以检测以终端700建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器711可以用于检测重力加速度在三个坐标轴上的分量。处理器701可以根据加速度传感器711采集的重力加速度信号，控制触摸显示屏705以横向视图或纵向视图进行用户界面的显示。加速度传感器711还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器712可以检测终端700的机体方向及转动角度，陀螺仪传感器712可以与加速度传感器711协同采集用户对终端700的3D动作。处理器701根据陀螺仪传感器712采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器713可以设置在终端700的侧边框和/或触摸显示屏705的下层。当压力传感器713设置在终端700的侧边框时，可以检测用户对终端700的握持信号，由处理器701根据压力传感器713采集的握持信号进行左右手识别或快捷操作。当压力传感器713设置在触摸显示屏705的下层时，由处理器701根据用户对触摸显示屏705的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器714用于采集用户的指纹，由处理器701根据指纹传感器714采集到的指纹识别用户的身份，或者，由指纹传感器714根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器701授权该用户具有相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器714可以被设置终端700的正面、背面或侧面。当终端700上设置有物理按键或厂商Logo时，指纹传感器714可以与物理按键或厂商标志集成在一起。

光学传感器715用于采集环境光强度。在一个实施例中，处理器701可以根据光学传感器715采集的环境光强度，控制触摸显示屏705的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏705的显示亮度；当环境光强度较低时，调低触摸显示屏705的显示亮度。在另一个实施例中，处理器701还可以根据光学传感器715采集的环境光强度，动态调整摄像头组件706的拍摄参数。

接近传感器716，也称距离传感器，通常设置在终端700的前面板。接近传感器716用于采集用户与终端700的正面之间的距离。在一个实施例中，当接近传感器716检测到用户与终端700的正面之间的距离逐渐变小时，由处理器701控制触摸显示屏705从亮屏状态切换为息屏状态；当接近传感器716检测到用户与终端700的正面之间的距离逐渐变大时，由处理器701控制触摸显示屏705从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图7中示出的结构并不构成对终端700的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图8是本发明实施例提供的一种服务器的结构示意图，该服务器800可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(central processingunits，CPU)801和一个或一个以上的存储器802，其中，所述存储器802中存储有至少一条指令，所述至少一条指令由所述处理器801加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器还可以包括其他用于实现设备功能的部件，在此不做赘述。

服务器800可以用于执行上述媒体数据推荐方法中推荐设备所执行的步骤。

本发明实施例还提供了一种媒体数据推荐装置，该装置包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，指令、程序、代码集或指令集由处理器加载并具有以实现上述实施例的媒体数据推荐方法中所具有的操作。

本发明实施例还提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，该指令、该程序、该代码集或该指令集由处理器加载并具有以实现上述实施例的媒体数据推荐方法中所具有的操作。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种媒体数据推荐方法，其特征在于，应用于推荐设备，所述推荐设备包括离线训练系统和在线推荐系统；所述方法包括：

所述在线推荐系统获取目标用户的用户特征，所述用户特征包括兴趣标签特征；根据待推荐的多个媒体数据，获取与所述兴趣标签特征匹配的多个备选媒体数据；

所述在线推荐系统对于所述多个备选媒体数据中的每个备选媒体数据，将所述用户特征与所述备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取所述关联特征的关联度，所述关联度用于表示所述目标用户对所述备选媒体数据的喜好程度；

所述在线推荐系统根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据；

所述离线训练系统在所述在线推荐系统正常运行的情况下，对所述第一推荐模型进行离线训练，将训练得到的第二推荐模型推送至所述在线推荐系统，并生成所述第二推荐模型的文件标识，推送至所述在线推荐系统；

所述在线推荐系统当获取到所述第二推荐模型时，获取所述第一推荐模型的文件标识和所述第二推荐模型的文件标识；当所述第二推荐模型的文件标识和所述第一推荐模型的文件标识不同时，以所述第二推荐模型替换所述第一推荐模型。

2.根据权利要求1所述的方法，其特征在于，所述用户特征包括多个第一预设维度上的特征值，所述数据特征包括多个第二预设维度上的特征值，所述将所述用户特征与所述备选媒体数据的数据特征进行组合，得到组合后的关联特征，包括：

根据所述多个第一预设维度上的特征值、所述多个第二预设维度上的特征值以及每个维度的维度标识进行组合，得到所述关联特征。

3.根据权利要求2所述的方法，其特征在于，所述根据所述多个第一预设维度上的特征值、所述多个第二预设维度上的特征值以及每个维度的维度标识进行组合，得到所述关联特征，包括：

对于所述多个第一预设维度和所述多个第二预设维度中的每个预设维度，获取所述预设维度的维度标识、所述预设维度上的特征值、特征标识，所述特征标识由所述维度标识和所述预设维度上的特征值确定；

将所述维度标识、所述特征标识和在所述预设维度上的特征值进行组合，得到所述预设维度上的关联特征值；

将所述多个第一预设维度和所述多个第二预设维度上的关联特征值进行组合，得到所述关联特征。

4.根据权利要求3所述的方法，其特征在于，获取所述特征标识，包括：

获取所述维度标识与预设数值的乘积，得到第一数值；

获取所述第一数值与所述预设维度上的特征值的和，得到所述特征标识。

5.根据权利要求1所述的方法，其特征在于，所述用户特征还包括所述兴趣标签特征所属的至少一级兴趣类别特征，所述根据待推荐的多个媒体数据，获取与所述兴趣标签特征匹配的多个备选媒体数据，包括：

获取所述至少一级兴趣类别特征对应的至少一个兴趣类别，及所述兴趣标签特征对应的兴趣标签；

从所述多个媒体数据中，获取所属的类别与所述至少一个兴趣类别相同的备选媒体数据，获取添加的数据标签与所述兴趣标签相同的备选媒体数据。

6.根据权利要求1所述的方法，其特征在于，所述在线推荐系统根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据，包括以下至少一项：

根据所述多个备选媒体数据，获取所述关联度大于预设关联度的备选媒体数据，确定为所述目标媒体数据；

根据所述多个备选媒体数据，获取预设数量的备选媒体数据，以使所述预设数量的备选媒体数据的关联度大于其他备选媒体数据的关联度，将所述预设数量的备选媒体数据确定为所述目标媒体数据。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取多个样本数据，每个样本数据包括一个样本用户和一个样本媒体数据；

对于所述多个样本数据中的每个样本数据，将所述样本数据中样本用户的用户特征与所述样本数据中样本媒体数据的数据特征进行组合，得到组合后的关联特征，根据所述关联特征对所述第一推荐模型进行训练。

8.根据权利要求7所述的方法，其特征在于，所述根据所述关联特征对所述第一推荐模型进行训练，包括：

获取所述样本用户对所述样本媒体数据的操作数据，所述操作数据至少包括所述样本用户对所述样本媒体数据的展示时长；

当所述展示时长满足预设条件时，确定所述关联特征的标识为第一标识，根据所述关联特征和所述第一标识，对所述第一推荐模型进行训练；

当所述展示时长不满足预设条件时，确定所述关联特征的标识为第二标识，根据所述关联特征和所述第二标识，对所述第一推荐模型进行训练。

9.根据权利要求7所述的方法，其特征在于，所述获取多个样本数据，包括：

获取多个备选样本数据，每个备选样本数据包括一个样本用户和一个样本媒体数据；

对于所述多个备选样本数据中的每个备选样本数据，获取所述备选样本数据中样本媒体数据的数据特征；当所述数据特征中指定预设维度上的特征值为零时，将所述备选样本数据过滤。

10.根据权利要求1所述的方法，其特征在于，所述当所述第二推荐模型的文件标识和所述第一推荐模型的文件标识不同时，以所述第二推荐模型替换所述第一推荐模型，包括：

当所述第二推荐模型的文件标识和所述第一推荐模型的文件标识不同，且所述第二推荐模型满足预设模型条件时，以所述第二推荐模型替换所述第一推荐模型；所述预设模型条件为正常模型所满足的条件。

11.一种媒体数据推荐装置，其特征在于，所述装置包括：离线训练系统和在线推荐系统；所述在线推荐系统包括：

确定模块，用于根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据；

所述离线训练系统，用于在所述在线推荐系统正常运行的情况下，对所述第一推荐模型进行离线训练，将训练得到的第二推荐模型推送至所述在线推荐系统，并生成所述第二推荐模型的文件标识，推送至所述在线推荐系统；

所述在线推荐系统还包括:

用于执行以下步骤的模块：当获取到所述第二推荐模型时，获取所述第一推荐模型的文件标识和所述第二推荐模型的文件标识；当所述第二推荐模型的文件标识和所述第一推荐模型的文件标识不同时，以所述第二推荐模型替换所述第一推荐模型。

12.根据权利要求11所述的装置，其特征在于，所述用户特征还包括所述兴趣标签特征所属的至少一级兴趣类别特征，所述数据获取模块，包括:

第一获取单元，用于获取所述至少一级兴趣类别特征对应的至少一个兴趣类别，及所述兴趣标签特征对应的兴趣标签；

第二获取单元，用于从所述多个媒体数据中，获取所属的类别与所述至少一个兴趣类别相同的备选媒体数据，获取添加的数据标签与所述兴趣标签相同的备选媒体数据。

13.一种媒体数据推荐装置，其特征在于，所述装置包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由所述处理器加载并执行以实现如权利要求1至10任一权利要求所述的媒体数据推荐方法中所执行的操作。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述指令、所述程序、所述代码集或所述指令集由处理器加载并执行以实现如权利要求1至10任一权利要求所述的媒体数据推荐方法中所执行的操作。

15.一种推荐设备，其特征在于，所述推荐设备包括离线训练系统和在线推荐系统；

所述在线推荐系统，用于获取目标用户的用户特征，所述用户特征包括兴趣标签特征；根据待推荐的多个媒体数据，获取与所述兴趣标签特征匹配的多个备选媒体数据；对于所述多个备选媒体数据中的每个备选媒体数据，将所述用户特征与所述备选媒体数据的数据特征进行组合，得到组合后的关联特征，基于第一推荐模型获取所述关联特征的关联度，所述关联度用于表示所述目标用户对所述备选媒体数据的喜好程度；根据所述多个备选媒体数据对应的关联度，确定为所述目标用户推荐的目标媒体数据；

所述在线推荐系统，还用于当获取到所述第二推荐模型时，获取所述第一推荐模型的文件标识和所述第二推荐模型的文件标识；当所述第二推荐模型的文件标识和所述第一推荐模型的文件标识不同时，以所述第二推荐模型替换所述第一推荐模型。