CN108595493B

CN108595493B - 媒体内容的推送方法和装置、存储介质、电子装置

Info

Publication number: CN108595493B
Application number: CN201810214476.3A
Authority: CN
Inventors: 赵伟; 王本友; 刘黎春
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-03-15
Filing date: 2018-03-15
Publication date: 2022-02-08
Anticipated expiration: 2038-03-15
Also published as: CN108595493A

Abstract

本发明公开了一种媒体内容的推送方法和装置、存储介质、电子装置。其中，该方法包括：接收到推送请求，推送请求用于请求向目标对象推送媒体内容；响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻不同于第一时刻；向目标对象推送第一媒体内容。本发明解决了相关技术中为用户推荐的媒体内容的准确度较低的技术问题。

Description

媒体内容的推送方法和装置、存储介质、电子装置

技术领域

本发明涉及互联网领域，具体而言，涉及一种媒体内容的推送方法和装置、存储介质、电子装置。

背景技术

随着互联网技术的飞速发展，网络上的服务数量也随之急剧增长，然而，这种增长远远超过个人或系统所能接受、处理和有效利用的范畴。在这种环境下，为了解决服务数量增长所带来的“信息过载”问题，能够针对不同用户需求的服务推荐系统应运而生，服务推荐理论及其相关技术己成为学术界和工业界的一个热门研究课题。

为了提高用户的使用体验，增加媒体内容的数据点击量，相关技术会利用推荐系统向用户推荐与其相关的流媒体消息，相关技术通常采用基于内容的媒体内容推荐方法。但该技术方案中仅仅利用了用户的基本固定属性(例如用户名称、年龄、性别等)以及用户历史操作行为(例如观看过的视频、观看视频的时间等)，也仅仅用到了流媒体消息的内容描述信息等固定属性。上述基于内容的流媒体消息推荐方法将会导致向用户推送的流媒体消息的丰富度较低、推荐面较窄、推荐无惊喜、而且容易陷入热门推荐，由于属性固定无变化，所推荐的内容准确度得不到保障，从而降低用户体验。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种媒体内容的推送方法和装置、存储介质、电子装置，以至少解决相关技术中为用户推荐的媒体内容的准确度较低的技术问题。

根据本发明实施例的一个方面，提供了一种媒体内容的推送方法，包括：接收到推送请求，推送请求用于请求向目标对象推送媒体内容；响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻不同于第一时刻；向目标对象推送第一媒体内容。

根据本发明实施例的另一方面，还提供了一种媒体内容的推送装置，包括：接收单元，用于接收到推送请求，推送请求用于请求向目标对象推送媒体内容；选取单元，用于响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻早于第一时刻；推送单元，用于向目标对象推送第一媒体内容。

根据本发明实施例的另一方面，还提供了一种存储介质，该存储介质包括存储的程序，程序运行时执行上述的方法。

根据本发明实施例的另一方面，还提供了一种电子装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器通过计算机程序执行上述的方法。

在本发明实施例中，在接收到推送请求时，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，由于目标模型可以根据目标对象的用户偏好(或者属性)发生变化而调整所学习到的关联关系、或者可以利用媒体内容变化后的属性来计算与目标对象的匹配度，从而在用户偏好和/或内容在当前时刻的属性发生变化时，按照变化后的用户喜好或媒体内容的属性来进行内容推荐，可以解决相关技术中为用户推荐的媒体内容的准确度较低的技术问题，进而达到提高为用户推荐的媒体内容的准确度的技术效果。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的媒体内容的推送方法的硬件环境的示意图；

图2是根据本发明实施例的一种可选的媒体内容的推送方法的流程图；

图3是根据本发明实施例的一种可选的模型的结构示意图；

图4是根据本发明实施例的一种可选的模型的结构示意图；

图5是根据本发明实施例的一种可选的模型的结构示意图；

图6是根据本发明实施例的一种可选的模型的结构示意图；

图7是根据本发明实施例的一种可选的模型的结构示意图；

图8是根据本发明实施例的一种可选的数据集的示意图；

图9是根据本发明实施例的一种可选的测试结果的示意图；

图10是根据本发明实施例的一种可选的测试结果的示意图；

图11是根据本发明实施例的一种可选的测试结果的示意图；

图12是根据本发明实施例的一种可选的媒体内容的推送装置的示意图；以及

图13是根据本发明实施例的一种终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本发明实施例进行描述的过程中出现的部分名词或者术语适用于如下解释：

矩阵分解MF：全称为Matrix Factorization，矩阵分解是将矩阵拆解为数个矩阵的乘积，可分为三角分解、满秩分解、QR分解、Jordan分解和SVD(奇异值)分解等。

循环神经网络RNN：全称为Recurrent Neural Networks，是一种节点定向连接成环的神经网络，这种网络的内部状态可以展示动态时序行为，不同于前馈神经网络的是，RNN可以利用它内部的记忆来处理任意时序的输入序列。

随着互联网技术飞速发展，在线数据越来越庞大，如何帮助用户从海量数据中找到所需信息是急需解决的问题。个性化推荐系统能够有效的解决信息过载问题(即信息数据量过大)，推荐系统可根据用户的历史偏好和约束为用户提供排序的个性化物品(item)的推荐列表，更精准的推荐系统可以提升和改善用户体验。所推荐的个性化物品包括但不局限于电影、书籍、餐厅、新闻条目等等。推荐方法可为：基于内容的推荐、基于协同过滤的推荐以及混合推荐技术。本申请采用协同过滤的推荐方法在电影数据集上做测试，所提出的方法亦可以很方便地迁移到其他物品推荐中。

基于内容的推荐算法的关键点在标签(tag)，推荐算法将产品分解为一系列标签，并根据用户对产品的行为将用户也描述为一系列标签。举个简单的小例子，已知道用户u1喜欢的电影是A、B、C，用户u2喜欢的电影是A、C、E、F，用户u3喜欢的电影是B、D，需要解决的问题是决定对u1是不是应该推荐F这部电影，基于内容的推荐算法是：分析F的特征和u1所喜欢的A、B、C的特征，例如A是战争片，B是战争片，C是剧情片，如果F是战争片，那么F很大程度上可以推荐给u1，这是基于内容的推荐算法，可对item进行特征建立和建模。

协同过滤的推荐方法可以忽略item的建模，因为这种办法的决策是依赖用户和item之间的关系，如用户和电影之间的关系，不再需要知道A、B、C、F中哪些是战争片，哪些是剧情片，只需要知道用户u1和u2按照item向量表示，若他们的相似度比较高，那么就可以把u2所喜欢的F这部影片推荐给u1。

上述基于内容或协同过滤的流媒体消息推荐方法将会导致向用户推送的流媒体消息的丰富度较低、推荐面较窄、推荐无惊喜、而且容易陷入热门推荐，由于属性固定无变化，所推荐的内容准确度得不到保障，从而降低用户体验。

为了克服上述问题，根据本发明实施例的一方面，提供了一种媒体内容的推送方法的方法实施例。

可选地，在本实施例中，上述媒体内容的推送方法可以应用于如图1所示的由服务器102和终端104所构成的硬件环境中。如图1所示，服务器102通过网络与终端104进行连接，可用于为终端或终端上安装的客户端提供服务(如游戏服务、应用服务、通讯服务、内容服务等)，在服务器上或独立于服务器设置数据库106，上述网络包括但不限于：广域网、城域网或局域网，终端104并不限定于PC、手机、平板电脑等。

图2是根据本发明实施例的一种可选的媒体内容的推送方法的流程图，如图2所示，该方法可以包括以下步骤：

步骤S202，服务器接收到推送请求，终端或者平台通过推送请求来请求向目标对象推送媒体内容。

上述目标对象为用户，可以为具体的某个用户或泛指的用户，泛指的用户可以为一类用户，如预先将所有用户分为若干类，推送媒体内容时以类为单位进行推送，目标对象即被推送媒体内容的这一类用户，泛指的用户还可以为某个平台上的所有用户，如以一个电视台、一个软件应用为单位进行媒体内容推送时，目标对象即泛指观看该电视台或使用该软件应用的用户。

上述的媒体内容包括但不局限于视频、音频、图片、文本、短片、报纸、电子书籍等媒体内容中的一种或多种。

步骤S204，服务器响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻不同于第一时刻，媒体内容的属性包括静态属性和动态属性两类，静态属性是指其不受外部环境影响的属性，如视频类型(爱情片、枪战片、悬疑片等)、视频长度、视频中演员、视频中导演等，动态属性是指其受外部环境影响的属性，如是否获奖、点播量、传播口碑等。

上述的关联关系可用以下至少之一来描述(当然也可采用其余形式来描述)：其一是根据目标对象的历史浏览行为建立用户特征模型(如用一条用户向量表示)；其二是根据媒体内容的属性建立媒体内容向量模型(如用一条内容向量表示)；其三计算用户向量与用户向量的相似度或匹配度(如欧氏距离)，使用向量的相似度表示用户和媒体内容之间的推荐程度，并按照推荐程度由高到低的顺序向用户推荐媒体内容。

申请人认识到，在前述技术方案中，基于协同过滤的推荐系统是认为用户偏好和内容属性都是静态的，但这些属性实质是随着用时间的推移而缓慢变化的，换言之，在当前时刻利用推荐系统为用户进行内容推荐时，推荐系统所利用的用户偏好和内容属性是用户在前一时刻的用户偏好、所利用的内容属性是内容在前一时刻的属性，也即利用该系统进行媒体内容推荐时，若候选媒体内容相同，那么任意时刻所选取的待推送的媒体内容相同，如果用户偏好和/或内容在当前时刻的属性发生变化时，即用户喜好或媒体内容的影响力已经发生变化，从而导致推荐系统不能准确为用户推荐受其欢迎的电影。例如，一个电影的受欢迎程度可能由外部事件(如获得奥斯卡奖)所改变；由此可见，为了解决上述推荐不准确的问题，除了需要对时间演化进行建模外，还需使用未来的评分方式(如协同过滤方法)来评估当前的喜好。

而在步骤S204中，在第一时刻进行内容推荐时，目标模型是按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，而在第二时刻进行内容推荐时，目标模型是按照在第二时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第二媒体内容，换言之，对于目标模型而言至少可以按照如下之一进行内容推荐：在用户偏好发生变化时，就会学习到与用户偏好变化对应的关联关系，从而利用发生变化后的用户偏好来进行内容推荐；在内容的属性发生变化，目标模型是利用媒体内容变化后的属性来计算与目标对象的匹配度，而不是利用媒体内容变化前的属性来计算与目标对象的匹配度，进而根据匹配度高低择其高者来推荐。

第一媒体内容不同于第二媒体内容可以体现在如下几个方面：其一，第一媒体内容和第二媒体内容为不同的候选媒体内容；其二，第一媒体内容所包括的候选媒体内容和第二媒体内容所包括的候选媒体内容不完全相同；其三，第一媒体内容所包括的候选媒体内容和第二媒体内容所包括的候选媒体内容完全相同，但是第一媒体内容所包括的候选媒体内容的排序与第二媒体内容所包括的候选媒体内容的排序不同，此处的排序是指按照匹配度从高到低或者从低到高进行的排序。

步骤S206，服务器向目标对象推送第一媒体内容，具体而言，所推荐的第一媒体内容可以为候选媒体内容中匹配度最高的一个或者多个。

在上述实施例中，以本发明实施例的媒体内容的推送方法由服务器102来执行为例进行说明，然而，本发明实施例的媒体内容的推送方法也可以由终端104来执行，还可以是由服务器102和终端104共同执行。其中，终端104执行本发明实施例的媒体内容的推送方法也可以是由安装在其上的客户端来执行。

通过上述步骤S202至步骤S206，在接收到推送请求时，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，由于目标模型可以根据目标对象的用户偏好(或者属性)发生变化而调整所学习到的关联关系、或者可以利用媒体内容变化后的属性来计算与目标对象的匹配度，从而在用户偏好和/或内容在当前时刻的属性发生变化时，按照变化后的用户喜好或媒体内容的属性来进行内容推荐，可以解决了相关技术中为用户推荐的媒体内容的准确度较低的技术问题，进而达到提高为用户推荐的媒体内容的准确度的技术效果。

在步骤S202提供的技术方案中，服务器接收到推送请求，此处的推送请求可以是请求进行媒体信息推送的平台(或承载该平台的终端)所发送的，如用户在自己的终端上浏览媒体内容时触发，也可是其他终端发送的，如内容提供者所在的终端需要推广该媒体内容时触发，还可是服务器自己触发的，如在配置信息所配置的可播放媒体信息的时间段触发、接收到终端的访问请求(所访问的对象为可承载媒体信息的对象)时触发、定时触发等。

在步骤S204提供的技术方案中，目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容。本申请提供的技术方案可捕获用户和电影之间的长期(全局)和短期(局部)关联，捏合了矩阵分解和循环神经网络在推荐系统上的互补性，并结合生成对抗网络提升推荐系统的性能。探索了多种MF和RNN融合的方式，并通过生成对抗网络优化推荐列表。此外，可把封面图片加入到推荐系统，解决新上线视频的冷启动问题。

在步骤S204的技术方案中，在下述三种方案的情况下，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容。

方案一：候选媒体内容的属性发生变化

可选地，目标模型从候选媒体内容中选取出待推送的第一媒体内容包括：获取目标模型选取的第一媒体内容，第一媒体内容为目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出在第一时刻的属性与目标对象匹配的媒体内容，候选媒体内容中的候选媒体内容在第一时刻的属性与在第二时刻的属性不同，换言之，用于表示内容的内容向量会因属性变化而发生变化，从而影响候选媒体内容与目标对象之间的匹配度，而选取第一媒体内容是从候选媒体内容中按照匹配度主要从高到低进行选取，在候选媒体内容的匹配度发生变化时，选取第一媒体内容也会发生变化，如选取的候选媒体内容完全不同，选取的候选媒体内容不完全相同，选取的候选媒体内容的匹配度排序不同。

上述的候选媒体内容在不同时刻的属性不同，可以是增加或者减少属性，还可以是属性值发生变化，例如，一个电影的受欢迎程度可能由外部事件(如获得奥斯卡奖)所改变，在该外部事件发生时，那么其“受欢迎程度”这一属性的属性值应该发生较大变化，且随着时间的继续，其属性值会持续发生变化，如呈现抛物线式的变化。

方案二：目标模型学习到的关联关系发生变化

可选地，在目标模型从候选媒体内容中选取出待推送的第一媒体内容之前，目标模型可获取第一关联关系，第一关联关系为目标模型利用第一浏览记录在第一时刻进行增强学习来对第二关联关系进行优化得到的，第一关联关系用于目标模型从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第二关联关系用于目标模型从候选媒体内容中选取出属性与目标对象匹配的第二媒体内容，第一浏览记录为目标对象在第二时刻之后(在第一时刻之前)的浏览记录。

可选地，目标模型可以分为生成器和判别器，目标模型在获取第一关联关系时，可以通过如下方式实现(如图3所示)：

步骤1，生成器按照第二关联关系从多个目标媒体内容中选取出第三媒体内容，多个目标媒体内容为第一浏览记录中所记录的目标对象的浏览界面中所表示的媒体内容；

步骤2，判别器在判断出选取出的第三媒体内容与第四媒体内容不同的情况下，将结果反馈给生成器，以便生成器调整第二关联关系中参数的数值，并继续按照调整参数的数值后的第二关联关系从多个目标媒体内容中选取出第三媒体内容，第四媒体内容为第一浏览记录中所记录多个目标媒体内容中被目标对象(即用户)所实际播放的媒体内容，当然，此处的第四媒体内容还可以为判别器自认为的被目标对象所播放的媒体内容，例如，一个网页中有若干电影，判别器查看用户实际观看的与模型推荐的是否一致，若不一致则对模型(关联关系)进行优化；

步骤3，判别器在判断出选取出的第三媒体内容与第四媒体内容相同的情况下，将选取出的第四媒体内容时所使用的第二关联关系作为第一关联关系，此时生成器不再调整第二关联关系中参数的数值。

上述步骤2的调整过程为不断循环的过程，直至判别器判断出选取出的第三媒体内容与第四媒体内容相同，并跳转到步骤3来执行。

下面结合图3所示的内容进行详述：

在生成对抗网络中，判别器尝试区别视频内容的真假，它是来自训练集中的高分视频还是生成器生成出来的伪高分视频，生成器尝试去生成真高分视频来欺骗判别器，再如，生成器去选定待推荐的视频内容，判别器尝试区别视频内容是否为用户所喜爱的或用户曾经看过的，在此过程中通过GAN有效结合了用户长期偏好的短期会话的模型等。

上述生成器位于图3的左边，类似于条件GAN，生成器GAN输入用户偏好数据

和时刻t，给用户i(即目标对象)生成推荐列表，其目的在于使得生成的item尽可能使正确，让判别器区分不出真假，所以是最小化1-D(x)，x是生成器G生成的，生成过程是离散的，故引入强化学习，由于视频采样的过程是离散的，不能采用标准的GAN公式来优化，可采用policy gradient(基于策略梯度的优化算法)来优化生成器G，使得G能生成高收益的推荐列表来欺骗判别器D。

上述判别器位于图3的右边，可采用Siamese网络(一种验证网络)构建判别器D，并且以pair-wise(一种基于成对同步的双向同步算法)的方法融合长短时模型。具体来说，判别器D有两个对称的point-wise网络(可实现基于点的排序学习)，二者共享参数并且采用pair-wise的损失函数来更新，可随机从视频集合中采样出低分视频，最后采用hinge函数(一种目标函数或损失函数)来优化判别器D，在D(m-，m+)中，m-是高分视频，m+是随机从视频集合中采样出的低分视频，最后采用hinge损失函数来优化判别器D。

上述过程相当于对时间演化进行了建模，例如，关联关系描述有计算用户向量与内容向量的匹配度时，内容向量中各个属性所占的权重，但是随着时间的变化，用户的侧重点会发生变化，例如，在时间段L1内该用户喜欢看武侠电影，此时的关联关系用第二关联关系来描述，其中，电影的武侠属性的权重会较大，在时间段L2内用户喜好发生变化，喜欢看悬疑电影，那么电影的悬疑属性的权重就需要增大，此时可以调整第二关联关系所表示的权重，如降低武侠属性的权重、增大悬疑属性的权重，从而得到第一关联关系。

方案三：候选媒体内容的属性发生变化且目标模型学习到的关联关系发生变化

方案三与方案二类似，二者区别仅在于，方案三中所使用的内容属性为媒体内容发生变化后的属性。

上述的目标模型相当于一种LSIC模型(Leveraging Long and Short-termInformation in Context-aware movie recommendation)，具体框架如图3所示，LSIC模型采用了生成对抗网络GAN(Generative Adversarial Networks)框架将基于MF模型(即第一模型)和RNN模型(即第二模型)的模型融合，同时捕获用户长期偏好和短期会话信息，从而最大限度地提高推荐系统的最终性能，达到state-of-the-art体现最高水平的效果。在获取第一媒体内容时，可以通过如下方案实现：

步骤1，获取MF模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取RNN模型输出的目标对象在第一时刻的局部隐藏因子和多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子；

步骤2，根据目标对象的全局潜在因子、多个候选媒体内容中第j个候选媒体内容的全局潜在因子、目标对象在第一时刻的局部隐藏因子以及多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子确定候选媒体内容与目标对象的匹配度；

步骤3，从多个候选媒体内容中选取匹配度大于目标阈值的候选媒体内容为第一媒体内容。

下面以4种融合MF模型和RNN模型的方案进行说明，如图4至图7所示：

方案一LSIC-V1：Hard机制，采用简单的求和方法混合MF模型和RNN模型预测的分数(匹配度)，如图4所示。

利用该方案，在获取MF模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取RNN模型输出的目标对象在第一时刻的局部隐藏因子和多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子时，RNN模型(包括对象RNN和内容RNN)与MF模型(包括对象MF和内容MF)的输出不相关，也即分别获取MF模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取RNN模型根据目标对象在第一时刻的属性确定的目标对象在第一时刻的局部隐藏因子和RNN模型根据多个候选媒体内容中第j个候选媒体内容在第一时刻的属性确定的第j个候选媒体内容在第一时刻的局部隐藏因子。对于MF模型而言，只要时间确定，那么其输出就确定，换言之，时间可以作为触发全局潜在因子的开关，如确定某个时刻不让一个因子起作用，或者某个时刻让另一个因子起作用，又或者调整某个因子(某个属性的权重)的数值。

可选地，根据目标对象的全局潜在因子、多个候选媒体内容中第j个候选媒体内容的全局潜在因子、目标对象在第一时刻的局部隐藏因子以及多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子确定候选媒体内容与目标对象的匹配度包括：将1与第一参数之和的倒数作为候选媒体内容与目标对象的匹配度，其中，常数e的第一参数次方为第二参数，第二参数为对第一乘积、第二乘积、目标对象的偏差以及多个候选媒体内容中第j个候选媒体内容的偏差之和取反得到的，第一乘积为目标对象的全局潜在因子与多个候选媒体内容中第j个候选媒体内容的全局潜在因子之间的乘积，第二乘积为目标对象在第一时刻的局部隐藏因子与多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子之间的乘积。

可选地，可根据目标对象的全局潜在因子

多个候选媒体内容中第j个候选媒体内容的全局潜在因子

目标对象在第一时刻的局部隐藏因子

以及多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子

确定候选媒体内容与目标对象的匹配度r_ij,t：

exp(-s₁)即表示第一参数，-s₁即表示第二参数，

其中，

表示第一乘积，

表示第二乘积，b_i目标对象的偏差，b_j表示多个候选媒体内容中第j个候选媒体内容的偏差，目标对象为对象集合中的第i个对象。

上述的

为MF模型通过矩阵分解得到的用于描述目标对象中用户i的用户向量中的元素，上述的

为MF模型通过矩阵分解得到的用于描述多个候选媒体内容中第j个候选媒体内容的内容向量中的元素。

方案二LSIC-V2：通过预训练MF得到用户和视频的全局潜在因子latent factors，再初始化用户长短期记忆网络LSTM(Long Short-Term Memory，一种RNN模型)和视频LSTM的隐状态，如图5所示。

在方案二中，在获取MF模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取RNN模型输出的目标对象在第一时刻的局部隐藏因子和多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子时，MF模型根据目标对象在第一时刻的属性确定目标对象的全局潜在因子、并根据多个候选媒体内容中第j个候选媒体内容在第一时刻的属性确定第j个候选媒体内容的全局潜在因子，RNN模型根据MF模型的输出(目标对象的全局潜在因子)确定目标对象在第一时刻的局部隐藏因子、并根据MF模型的输出(多个候选媒体内容中第j个候选媒体内容的全局潜在因子)确定第j个候选媒体内容在第一时刻的局部隐藏因子。

如图5所示，RNN模型可以包括两个多层的结构(分别对应于MF模型中用于求取目标对象的全局潜在因子的部分和MF模型中用于求取候选媒体内容的全局潜在因子的部分)，一层可以对应一个时刻，这多层可以是串行连接或者有反馈结果的连接等，而MF模型的输出可以作为RNN模型第一层的输入。

在方案二中，RNN模型输出的结果即为最终的结果，而不再需要在结果中融合MF模型的输出，一种可选的匹配度的计算方式为：

可选的，

或

方案三LSIC-V3：对LSIC-V2进展扩展，采样MF得到的全局潜在因子latentfactors作为两个LSTM的静态上下文向量static context vectors加到每个时刻t的输入中，如图6所示。

在方案三中，在获取MF模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取RNN模型输出的目标对象在第一时刻的局部隐藏因子和多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子时，MF模型确定目标对象的全局潜在因子、并确定第j个候选媒体内容的全局潜在因子，RNN模型根据MF模型的输出(目标对象的全局潜在因子)确定目标对象在第一时刻的局部隐藏因子、并根据MF模型的输出(多个候选媒体内容中第j个候选媒体内容的全局潜在因子)确定第j个候选媒体内容在第一时刻的局部隐藏因子，需要说明的是，与方案二不同的是，MF模型的输出需作为RNN模型每一层的输入。

方案四LSIC-V4：采用attention机制(是一种松散地基于人类的视觉注意的机制)动态调整MF和RNN的融合方式，如图7所示。

可根据目标对象的全局潜在因子

多个候选媒体内容中第j个候选媒体内容的全局潜在因子

目标对象在第一时刻的局部隐藏因子

确定候选媒体内容与目标对象的匹配度r_ij,t：

U表示对象集合中对象的数量，M表示候选媒体内容的数量，

表示表示用户i在时刻t的关注权重，

表示第j个媒体内容在时间t的关注权重。

是根据目标对象在第一时刻之前的第三时刻(t-1)的局部隐藏因子

确定的，

是根据多个候选媒体内容中第j个候选媒体内容在第三时刻(t-1)的局部隐藏因子

确定的。

表示用户i在时间t的隐藏状态，

表示用户i在时间t-1的隐藏状态，

表示媒体内容j在时间t的隐藏状态，

表示媒体内容j在时间t-1的隐藏状态，

表示与用户MF模型连接的LSTM在时间t时输入的用户向量，

表示与媒体内容MF模型连接的LSTM在时间t时输入的内容向量，LSTM()表示相应模型的输出。

需要说明的是，对于上述技术方案，初始时，对于输入RNN的媒体内容的属性，可以为视频或者音频内容的封面，具体可以通过卷积网络将封面卷积为向量，从而将向量输入RNN。

在步骤S206提供的技术方案中，服务器向目标对象推送第一媒体内容。

在本申请的实施例中，提出了一种新颖的基于生成对抗网络的推荐系统，系统可捕获用户和媒体内容(如电影)之间的长期(全局)和短期(局部)关联，并且探索了四种融合的方式，采用强化学习动态调整历史长期偏好和短期会话的模型，此外，系统加入视频封面图片特征，解决新上线视频的冷启动问题，加入了封面图片特征进一步提升系统性能，并采用生成对抗网络优化推荐列表，最后在两个数据集上做到state-of-art性能效果最优的性能。

以媒体内容为电影为例对本申请所适用的场景进行说明：

步骤S12，用户在终端浏览观影相关的网页时，终端向服务器推荐请求。

步骤S14，服务器利用最新的该用户的浏览信息对RNN和MF进行优化，优化后将电影的封面作为RNN的输入，得到各个电影的评分(匹配度)；

步骤S16，将评分靠前的一个或多个电影推送到终端向用户推荐。

为了验证模型的有效性，本申请的技术方案在两个广泛使用的数据集进行测试Movielens100K和Netflix(包括Netflix-3M和Netflix-Full)，为了评估模型的鲁棒性，分别进行了长达数个月Netflix和全集Netflix的测试，数据集细节如图8所示。

对比算法，在测试中，和一些基线baseline和优秀值state-of-art进行对比，对比的算法包括BPR、PRFM、LambdaFM、RRN、IRGAN，所对比的指标包括Precision@3、Precision@5、Precision@10、NDCG@3、NDCG@5、NDCG@10、MRR、MAP。

图9示出了针对测试集Movielens的结果，如最底下一栏第一个提高百分比7.05％表示四个融合方案LSIC-V1至LSIC-V4中的最优值(LSIC-V4)相对于BPR、PRFM、LambdaFM、RRN、IRGAN中的最优值(LambdaFM的0.3108)在Precision@3这一指标下提高的了7.05％，其余栏的含义与此类似。

图10示出了针对测试集Netflix-Full的测试结果，图11示出了针对测试集Netflix-3M的测试结果，图10和图11中参数的含义与上述图9类似。

此外，还进行了个案研究case study的分析，从Netflix数据集中随机选择两个用户并为其生成推荐列表，LSIC模型可以更有效的进行推荐。例如，用户“8003”的电影“9Souls”从排名5(LambdaFM)增加到排名1(LSIC-V4)。

需要说明的是，本申请的技术方案还可移植到音乐、电视剧、网页等媒体内容的推荐中，利用本申请的技术方案，推荐系统可以通过上述方法捕获用户和电影等媒体内容之间的长期(全局)和短期(局部)关联，提升推荐系统的性能；也可以生成用户和视频的偏好特征，无缝接入到现有推荐系统中。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体内容的推送方法的媒体内容的推送装置。图12是根据本发明实施例的一种可选的媒体内容的推送装置的示意图，如图12所示，该装置可以包括：接收单元1201、选取单元1203以及推送单元1205。

接收单元1201，用于接收到推送请求，其中，推送请求用于请求向目标对象推送媒体内容。

选取单元1203，用于响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，其中，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻早于第一时刻。

推送单元1205，用于向目标对象推送第一媒体内容。

需要说明的是，该实施例中的接收单元1201可以用于执行本申请实施例中的步骤S202，该实施例中的选取单元1203可以用于执行本申请实施例中的步骤S204，该实施例中的推送单元1205可以用于执行本申请实施例中的步骤S206。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现。

通过上述模块，在接收到推送请求时，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，由于目标模型可以根据目标对象的用户偏好(或者属性)发生变化而调整所学习到的关联关系、或者可以利用媒体内容变化后的属性来计算与目标对象的匹配度，从而在用户偏好和/或内容在当前时刻的属性发生变化时，按照变化后的用户喜好或媒体内容的属性来进行内容推荐，可以解决相关技术中为用户推荐的媒体内容的准确度较低的技术问题，进而达到提高为用户推荐的媒体内容的准确度的技术效果。

上述选取单元还用于：获取第一媒体内容，其中，第一媒体内容为目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出在第一时刻的属性与目标对象匹配的媒体内容，候选媒体内容中的候选媒体内容在第一时刻的属性与在第二时刻的属性不同。

可选地，本申请的装置还可包括：获取单元，用于在通过目标模型从候选媒体内容中选取出待推送的第一媒体内容之前，获取第一关联关系，其中，第一关联关系为目标模型利用第一浏览记录在第一时刻进行增强学习来对第二关联关系进行优化得到的，第一关联关系用于目标模型从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第二关联关系用于目标模型从候选媒体内容中选取出属性与目标对象匹配的第二媒体内容，第一浏览记录为目标对象在第二时刻之后的浏览记录。

可选地，获取单元可包括：选取模块，用于按照第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，多个目标媒体内容为第一浏览记录中所记录的目标对象的浏览界面中所表示的媒体内容；调整模块，用于在确定选取出的第三媒体内容与第四媒体内容不同的情况下，调整第二关联关系中参数的数值，并继续按照调整参数的数值后的第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，第四媒体内容为第一浏览记录中所记录多个目标媒体内容中被目标对象所实际播放的媒体内容；确定模块，用于在确定选取出的第三媒体内容与第四媒体内容相同的情况下，将选取出的第四媒体内容时所使用的第二关联关系作为第一关联关系。

上述的目标模型包括第一模型和第二模型，其中，选取单元可包括：因子获取模块，用于获取第一模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取第二模型输出的目标对象在第一时刻的局部隐藏因子和多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子；匹配度确定模块，用于根据目标对象的全局潜在因子、多个候选媒体内容中第j个候选媒体内容的全局潜在因子、目标对象在第一时刻的局部隐藏因子以及多个候选媒体内容中第j个候选媒体内容在第一时刻的局部隐藏因子确定候选媒体内容与目标对象的匹配度；内容选取模块，用于从多个候选媒体内容中选取匹配度大于目标阈值的候选媒体内容为第一媒体内容。

上述的第一模型为矩阵分解模型且第二模型为循环神经网络模型。

上述的匹配度确定模块还可用于根据目标对象的全局潜在因子

多个候选媒体内容中第j个候选媒体内容的全局潜在因子

目标对象在第一时刻的局部隐藏因子

确定候选媒体内容与目标对象的匹配度r_ij,t，

其中，b_i目标对象的偏差，b_j表示多个候选媒体内容中第j个候选媒体内容的偏差，目标对象为对象集合中的第i个对象。

上述的因子获取模块还可用于获取第一模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取第二模型根据目标对象在第一时刻的属性确定的目标对象在第一时刻的局部隐藏因子和根据多个候选媒体内容中第j个候选媒体内容在第一时刻的属性确定的第j个候选媒体内容在第一时刻的局部隐藏因子；或，获取第一模型输出的目标对象的全局潜在因子和多个候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取第二模型根据目标对象的全局潜在因子确定的目标对象在第一时刻的局部隐藏因子和根据多个候选媒体内容中第j个候选媒体内容的全局潜在因子确定的第j个候选媒体内容在第一时刻的局部隐藏因子。

多个候选媒体内容中第j个候选媒体内容的全局潜在因子

目标对象在第一时刻的局部隐藏因子

以及多个候选媒体内容中第j个候选媒体内容在第一时刻t的局部隐藏因子

确定候选媒体内容与目标对象的匹配度r_ij,t，

其中，

确定的，

确定的，

表示表示目标对象在第一时刻t的关注权重，

表示第j个媒体内容在第一时刻t的关注权重。

此处需要说明的是，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例所公开的内容。需要说明的是，上述模块作为装置的一部分可以运行在如图1所示的硬件环境中，可以通过软件实现，也可以通过硬件实现，其中，硬件环境包括网络环境。

根据本发明实施例的另一个方面，还提供了一种用于实施上述媒体内容的推送方法的服务器或终端。

图13是根据本发明实施例的一种终端的结构框图，如图13所示，该终端可以包括：一个或多个(图13中仅示出一个)处理器1301、存储器1303、以及传输装置1305(如上述实施例中的发送装置)，如图13所示，该终端还可以包括输入输出设备1307。

其中，存储器1303可用于存储软件程序以及模块，如本发明实施例中的媒体内容的推送方法和装置对应的程序指令/模块，处理器1301通过运行存储在存储器1303内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的媒体内容的推送方法。存储器1303可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1303可进一步包括相对于处理器1301远程设置的存储器，这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

上述的传输装置1305用于经由一个网络接收或者发送数据，还可以用于处理器与存储器之间的数据传输。上述的网络具体实例可包括有线网络及无线网络。在一个实例中，传输装置1305包括一个网络适配器(Network Interface Controller，NIC)，其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中，传输装置1305为射频(Radio Frequency，RF)模块，其用于通过无线方式与互联网进行通讯。

其中，具体地，存储器1303用于存储应用程序。

处理器1301可以通过传输装置1305调用存储器1303存储的应用程序，以执行下述步骤：

接收到推送请求，其中，推送请求用于请求向目标对象推送媒体内容；

响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，其中，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻不同于第一时刻；

向目标对象推送第一媒体内容。

处理器1301还用于执行下述步骤：

按照第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，多个目标媒体内容为第一浏览记录中所记录的目标对象的浏览界面中所表示的媒体内容；

在确定选取出的第三媒体内容与第四媒体内容不同的情况下，调整第二关联关系中参数的数值，并继续按照调整参数的数值后的第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，第四媒体内容为第一浏览记录中所记录多个目标媒体内容中被目标对象所实际播放的媒体内容；

在确定选取出的第三媒体内容与第四媒体内容相同的情况下，将选取出的第四媒体内容时所使用的第二关联关系作为第一关联关系。

采用本发明实施例，在接收到推送请求时，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，目标模型按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，由于目标模型可以根据目标对象的用户偏好(或者属性)发生变化而调整所学习到的关联关系、或者可以利用媒体内容变化后的属性来计算与目标对象的匹配度，从而在用户偏好和/或内容在当前时刻的属性发生变化时，按照变化后的用户喜好或媒体内容的属性来进行内容推荐，可以解决相关技术中为用户推荐的媒体内容的准确度较低的技术问题，进而达到提高为用户推荐的媒体内容的准确度的技术效果。

可选地，本实施例中的具体示例可以参考上述实施例中所描述的示例，本实施例在此不再赘述。

本领域普通技术人员可以理解，图13所示的结构仅为示意，终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile InternetDevices，MID)、PAD等终端设备。图13其并不对上述电子装置的结构造成限定。例如，终端还可包括比图13中所示更多或者更少的组件(如网络接口、显示装置等)，或者具有与图13所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器(Read-Only Memory，ROM)、随机存取器(RandomAccess Memory，RAM)、磁盘或光盘等。

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以用于执行媒体内容的推送方法的程序代码。

可选地，在本实施例中，上述存储介质可以位于上述实施例所示的网络中的多个网络设备中的至少一个网络设备上。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：

S12，接收到推送请求，其中，推送请求用于请求向目标对象推送媒体内容；

S14，响应于推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，其中，目标模型用于按照在第一时刻学习到的关联关系从候选媒体内容中选取出属性与目标对象匹配的第一媒体内容，第一媒体内容不同于目标模型按照在第二时刻学习到的关联关系从候选媒体内容中选取出的属性与目标对象匹配的第二媒体内容，第二时刻不同于第一时刻；

S16，向目标对象推送第一媒体内容。

可选地，存储介质还被设置为存储用于执行以下步骤的程序代码：

S22，按照第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，多个目标媒体内容为第一浏览记录中所记录的目标对象的浏览界面中所表示的媒体内容；

S24，在确定选取出的第三媒体内容与第四媒体内容不同的情况下，调整第二关联关系中参数的数值，并继续按照调整参数的数值后的第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，第四媒体内容为第一浏览记录中所记录多个目标媒体内容中被目标对象所实际播放的媒体内容；

S26，在确定选取出的第三媒体内容与第四媒体内容相同的情况下，将选取出的第四媒体内容时所使用的第二关联关系作为第一关联关系。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在上述计算机可读取的存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在存储介质中，包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的客户端，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种媒体内容的推送方法，其特征在于，包括：

接收到推送请求，其中，所述推送请求用于请求向目标对象推送媒体内容；

响应于所述推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，其中，所述目标模型用于按照在第一时刻学习到的关联关系从所述候选媒体内容中选取出属性与所述目标对象匹配的所述第一媒体内容，所述第一媒体内容不同于所述目标模型按照在第二时刻学习到的关联关系从所述候选媒体内容中选取出的属性与所述目标对象匹配的第二媒体内容，所述第二时刻不同于所述第一时刻；

向所述目标对象推送所述第一媒体内容；

在通过目标模型从候选媒体内容中选取出待推送的第一媒体内容之前，所述方法还包括：

获取第一关联关系，其中，所述第一关联关系为所述目标模型利用第一浏览记录在所述第一时刻进行增强学习来对第二关联关系进行优化得到的，所述第一关联关系用于所述目标模型从所述候选媒体内容中选取出属性与所述目标对象匹配的所述第一媒体内容，所述第二关联关系用于所述目标模型从所述候选媒体内容中选取出属性与所述目标对象匹配的第二媒体内容，所述第一浏览记录为所述目标对象在所述第二时刻之后的浏览记录；

所述获取所述第一关联关系包括：

按照所述第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，所述多个目标媒体内容为所述第一浏览记录中所记录的所述目标对象的浏览界面中所表示的媒体内容；

在确定选取出的第三媒体内容与第四媒体内容不同的情况下，调整所述第二关联关系中参数的数值，并继续按照调整参数的数值后的所述第二关联关系从所述多个目标媒体内容中选取出第三媒体内容，其中，所述第四媒体内容为所述第一浏览记录中所记录所述多个目标媒体内容中被所述目标对象所实际播放的媒体内容；

在确定选取出的第三媒体内容与所述第四媒体内容相同的情况下，将选取出的所述第四媒体内容时所使用的第二关联关系作为所述第一关联关系。

2.根据权利要求1所述的方法，其特征在于，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容包括：

获取所述第一媒体内容，其中，所述第一媒体内容为所述目标模型按照在所述第一时刻学习到的关联关系从所述候选媒体内容中选取出的在所述第一时刻的属性与所述目标对象匹配的媒体内容，所述候选媒体内容在所述第一时刻的属性与在所述第二时刻的属性不同。

3.根据权利要求2所述的方法，其特征在于，所述目标模型包括第一模型和第二模型，所述候选媒体内容为多个，其中，获取所述第一媒体内容包括：

获取所述第一模型输出的所述目标对象的全局潜在因子和多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取所述第二模型输出的所述目标对象在所述第一时刻的局部隐藏因子和多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的局部隐藏因子；

根据所述目标对象的全局潜在因子、多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子、所述目标对象在所述第一时刻的局部隐藏因子以及多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的局部隐藏因子确定所述候选媒体内容与所述目标对象的匹配度；

从多个所述候选媒体内容中选取匹配度大于目标阈值的候选媒体内容为所述第一媒体内容。

4.根据权利要求3所述的方法，其特征在于，根据所述目标对象的全局潜在因子、多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子、所述目标对象在所述第一时刻的局部隐藏因子以及多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的局部隐藏因子确定所述候选媒体内容与所述目标对象的匹配度包括：

将1与第一参数之和的倒数作为所述候选媒体内容与所述目标对象的匹配度，其中，常数e的所述第一参数次方为第二参数，所述第二参数为对第一乘积、第二乘积、所述目标对象的偏差以及多个所述候选媒体内容中第j个候选媒体内容的偏差之和取反得到的，所述第一乘积为所述目标对象的全局潜在因子与多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子之间的乘积，所述第二乘积为所述目标对象在所述第一时刻的局部隐藏因子与多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的局部隐藏因子之间的乘积。

5.根据权利要求3所述的方法，其特征在于，获取所述第一模型输出的所述目标对象的全局潜在因子和多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取所述第二模型输出的所述目标对象在所述第一时刻的局部隐藏因子和多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的局部隐藏因子包括：

获取所述第一模型输出的所述目标对象的全局潜在因子和多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取所述第二模型根据所述目标对象在所述第一时刻的属性确定的所述目标对象在所述第一时刻的局部隐藏因子和根据多个所述候选媒体内容中第j个候选媒体内容在所述第一时刻的属性确定的第j个候选媒体内容在所述第一时刻的局部隐藏因子；或，

获取所述第一模型输出的所述目标对象的全局潜在因子和多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子，并获取所述第二模型根据所述目标对象的全局潜在因子确定的所述目标对象在所述第一时刻的局部隐藏因子和根据多个所述候选媒体内容中第j个候选媒体内容的全局潜在因子确定的第j个候选媒体内容在所述第一时刻的局部隐藏因子。

6.根据权利要求3所述的方法，其特征在于，所述第一模型为矩阵分解模型，所述第二模型为循环神经网络模型。

7.一种媒体内容的推送装置，其特征在于，包括：

接收单元，用于接收到推送请求，其中，所述推送请求用于请求向目标对象推送媒体内容；

选取单元，用于响应于所述推送请求，通过目标模型从候选媒体内容中选取出待推送的第一媒体内容，其中，所述目标模型用于按照在第一时刻学习到的关联关系从所述候选媒体内容中选取出属性与所述目标对象匹配的所述第一媒体内容，所述第一媒体内容不同于所述目标模型按照在第二时刻学习到的关联关系从所述候选媒体内容中选取出的属性与所述目标对象匹配的第二媒体内容，所述第二时刻早于所述第一时刻；

推送单元，用于向所述目标对象推送所述第一媒体内容；

所述装置还包括：

获取单元，用于在通过目标模型从候选媒体内容中选取出待推送的第一媒体内容之前，获取第一关联关系，其中，所述第一关联关系为所述目标模型利用第一浏览记录在所述第一时刻进行增强学习来对第二关联关系进行优化得到的，所述第一关联关系用于所述目标模型从所述候选媒体内容中选取出属性与所述目标对象匹配的所述第一媒体内容，所述第二关联关系用于所述目标模型从所述候选媒体内容中选取出属性与所述目标对象匹配的第二媒体内容，所述第一浏览记录为所述目标对象在所述第二时刻之后的浏览记录；

所述获取单元包括：

选取模块，用于按照所述第二关联关系从多个目标媒体内容中选取出第三媒体内容，其中，所述多个目标媒体内容为所述第一浏览记录中所记录的所述目标对象的浏览界面中所表示的媒体内容；

调整模块，用于在确定选取出的第三媒体内容与第四媒体内容不同的情况下，调整所述第二关联关系中参数的数值，并继续按照调整参数的数值后的所述第二关联关系从所述多个目标媒体内容中选取出第三媒体内容，其中，所述第四媒体内容为所述第一浏览记录中所记录所述多个目标媒体内容中被所述目标对象所实际播放的媒体内容；

确定模块，用于在确定选取出的第三媒体内容与所述第四媒体内容相同的情况下，将选取出的所述第四媒体内容时所使用的第二关联关系作为所述第一关联关系。

8.根据权利要求7所述的装置，其特征在于，所述选取单元还用于：

获取所述第一媒体内容，其中，所述第一媒体内容为所述目标模型按照在所述第一时刻学习到的关联关系从所述候选媒体内容中选取出在所述第一时刻的属性与所述目标对象匹配的媒体内容，所述候选媒体内容在所述第一时刻的属性与在所述第二时刻的属性不同。

9.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，所述程序运行时执行上述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器通过所述计算机程序执行上述权利要求1至6任一项中所述的方法。