CN105868318A

CN105868318A - 一种多媒体数据类型预测方法及装置

Info

Publication number: CN105868318A
Application number: CN201610179865.8A
Authority: CN
Inventors: 万艾学; 李海涛
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2016-03-25
Filing date: 2016-03-25
Publication date: 2016-08-17

Abstract

本发明的实施例提供一种多媒体数据类型预测方法及装置，涉及计算机技术领域，解决了现有技术中的终端无法准确的为用户预测下一时刻想要观看的视频类别的问题。该方法包括：获取用户的行为时序链；根据行为时序链确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集，第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率；根据目标用户当前观看的目标多媒体数据类型、转换频率集以及行为时序信息，为目标用户预测出下一时刻观看的多媒体数据类型。

Description

一种多媒体数据类型预测方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种多媒体数据类型预测方法及装置。

背景技术

现今，在这个互联网高速发展的时代，人们通过互联网技术将海量的多媒体资源展示在各种终端设备(如，如智能电视、智能手机、平板电脑等终端设备)上，给终端用户提供了便利，方便用户通过终端设备点播各种多媒体文件。但是，用户在海量的多媒体资源中找到自己想要观看的多媒体资源是很困难的一件事。

在现有技术中，终端设备通过视频关联推荐业务来为用户推荐视频，从而有效的推进用户对于视听业务的点播。但是这种视频关联推荐业务在为用户推荐视频时，即为用户预测下一状态用户想要播放的视频类别时，通常是对用户历史观看的视频类别进行统计，统计出用户对每类视频类型的喜好程度，然后从中找出喜好程度最高的视频类型推荐给用户。但是，由于现有技术中并未考虑到用户行为趋势，即用户在不同时期喜好的视频类别并不相同，从而导致终端为用户推荐视频时，无法准确的为用户预测下一时刻想要观看的视频类别。

发明内容

本发明的实施例提供一种多媒体数据类型预测方法及装置，解决了现有技术中的终端无法准确的为用户预测下一时刻想要观看的视频类别的问题。

为达到上述目的，本发明的实施例采用如下技术方案：

第一方面，提供一种多媒体数据类型预测方法，包括：

获取用户的行为时序链；

根据所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集以及所述用户观看的多媒体数据类型间的第二转换频率集，所述第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，所述第二转换频率集中的转换频率为用户观看的多媒体数据类型之间的转换频率；

根据目标用户当前观看的目标多媒体数据类型、所述第一转换频率集以及所述第二转换频率集，为所述目标用户预测出下一时刻观看的多媒体数据类型。

第二方面，提供一种多媒体数据类型预测装置，包括：

获取模块，用于获取用户的行为时序链；

确定模块，用于根据所述获取模块获取的所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集以及所述用户观看的多媒体数据类型间的第二转换频率集，所述第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，所述第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率；

预测模块，用于根据目标用户当前观看的目标多媒体数据类型、所述确定模块确定出的所述第一转换频率集以及所述第二转换频率集，为所述目标用户预测出下一时刻观看的多媒体数据类型。

本发明的实施例提供的多媒体数据类型预测方法及装置，根据包含有用户观看每类多媒体数据类型的次数以及对应的观看时间的用户的行为时序链，确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集，该第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率，然后，根据目标用户当前观看的目标多媒体数据类型、第一转换频率集以及第二转换频率集，为目标用户预测出下一时刻观看的多媒体数据类型。这样本方案基于能够表现出用户的行为趋势的用户的行为时序链，提取出能够体现用户对每类多媒体数据类型的兴趣趋势的用户对单个多媒体数据类型的转换频率，以及提取出能够表现用户兴趣转移趋势的多媒体数据类型间的转换频率，因此，基于上述的用户对单个多媒体数据类型的转换频率以及多媒体数据类型间的转换频率，便能够精确的为用户预测下一刻想要观看的多媒体数据类型。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种多媒体数据类型预测方法的流程示意图；

图2为本发明实施例提供的一种多媒体数据类型预测装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供的预测方法的执行主体可以为多媒体数据类型预测装置，或者用于执行上述预测方法的终端设备。具体的，该移动终端可以为智能电视、智能手机、平板电脑、笔记本电脑、超级移动个人计算机(英文：Ultra-mobile Personal Computer，简称：UMPC)、上网本、个人数字助理(英文：Personal Digital Assistant，简称：PDA)等终端设备。其中，多媒体数据类型预测装置可以为上述终端设备中的中央处理器(英文：Central Processing Unit，简称CPU)或者可以为上述终端设备的中的控制单元或者功能模块。

本实施例中的多媒体数据为视频、音频、图片、文本文档等多媒体文件数据。为了方便说明下文中均以“多媒体数据是视频”来进行阐述。需要说明的是，本领域技术人员应当清楚，下文中所提及的“视频”可以替换为语音、图片、文档等其他任一种多媒体数据。

本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

本实施例中提及的“第一”、“第二”等叙述词，除非根据上下文其确实表达顺序之意，应当理解为仅仅是起区分之用。

本发明的实施例提供一种预测方法，如图1所示，该方法包括如下步骤：

101、多媒体数据类型预测装置获取用户的行为时序链。

本实施例中的用户的行为时序链基于用户行为数据获取的，该用户行为数据包括：用户的标识、用户观看的多媒体数据的标识、每个多媒体数据所属的多媒体数据类型、用户观看每类多媒体数据类型的次数以及用户观看每种多媒体数据类型对应的多媒体数据时的观看时间。其中，多媒体数据类型可以是视频的类型(例如，动作、情感、历史等)，或视频的标签，例如，视频的主演(例如，成龙、刘德华、赵薇等)、视频的导演等。其中，上述的用户的标识可以为该用户的登陆账号或者其他可唯一表示该用户的标识，本实施例中采用U1、U2、U3……Un形式表示不同用户的标识；多媒体数据类型的标识可以为该多媒体数据类型的名称或其他可唯一表示该多媒体数据类型的标识，本实施例中采用B1、B2、B3、……、Bm表示不同多媒体数据类型的标识。

需要说明的是，本实施例中的每个多媒体数据可以属于一个多媒体数据类型也可以同时属于多个多媒体数据类型，例如，某一视频即属于小清新类型又属于大陆类型。本实施例中的多媒体数据类型的种类可以由技术人员预先进行设定，并确定出每个多媒体数据所属的多媒体数据类型。

示例性的，多媒体数据类型预测装置会获取预定时间范围内所有用户对多媒体数据的观看数据，然后，按照下述两个步骤对每个用户的观看数据进行预处理：1)统计出每个用户观看的多媒体数据类型的数据，例如，按照预定格式(多媒体数据类型x_i：开始时间t_i)来统计户观看每个多媒体数据的观看数据；2)对统计出的用户的行为时序链进行去重、错误信息删除后(相同时间发生行为、错误时间发生行为)，统计各用户观看每种多媒体数据类型对应的多媒体数据的次数，统计结果为(x₁,w₁),(x₂,w₂),......,(x_all,w_all)，其中，x为多媒体数据类型，w为对应的观看次数。

优选的，在步骤101中，可以设置一个更新周期，更新周期的长短可以根据多媒体数据数据库更新情况进行设定，例如，可以设为一个月，一周或一天，本发明对此不进行限制，在每个更新周期内获取所述每个更新周期内的用户的行为时序链并进行更新。本实施例下述各步骤均以当前周期为例进行说明。

示例性的，步骤101具体包括如下步骤：

101a、多媒体数据类型预测装置获取用户行为数据。

101b、多媒体数据类型预测装置根据用户观看每类多媒体数据类型的次数，确定出用户观看每类多媒体数据类型的观看概率。

101c、多媒体数据类型预测装置对用户观看每类多媒体数据类型的观看概率中小于预定阈值的观看概率取倒数，并按照用户观看每类多媒体数据类型的观看时间的先后顺序对所有观看概率进行排序，得到用户的行为时序链。

示例性的，为了避免包含重要信息的小概率影片类型(即发生概率小于预定阈值，例如，0.1)信息丢失，对于概率较低的多媒体数据类型进行权重补偿。同时为格式化用户历史数据获取相同类型数据，仅关注观看行为开始时间避免数据丢失问题。这样极大的降低了数据复杂性，同时保存了最多影片类型数据。具体实现步骤为：

1)获取行为时序链(x₁,w₁),(x₂,w₂),......,(x_n,w_n)。

2)对多媒体数据类别的发生概率进行均一化操作，得到用户观看每类多媒体数据类型的观看概率e_i，即按照公式：计算出用户观看每类多媒体数据类型的观看概率e_i。

3)对于均一化之后小于0.1的多媒体数据类别的观看概率e_i取倒数：

4)根据开始时间t_i先后关系，统计用户的行为时序链Per_i＝(k_i1,k_i1,......,k_in)，其中k_ij:(value＝e_i/e_i')，其中，k_ij用于表示用户i对多媒体数据类型j的观看概率，j∈1,2,......,n，n为多媒体数据类型的个数。

通过对数据源中视频类别信息均一化，对小概率类别进行倒数补偿，避免了小概率类别信息丢失，保存了用户个性化信息，同时剔除错误信息，减弱微相关信息，提高信息准确度，降低运算时间，为以后样本转化提供良好的基础。

102、多媒体数据类型预测装置根据行为时序链确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集。

其中，上述的第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，示例性的，该第一转换频率集中的转换频率以N_i来说明，该N_i为用户观看多媒体数据时转换为多媒体数据类型i的转换频率，上述的第二转换频率集中的转换频率为用户观看的多媒体数据类型之间的转换频率，示例性的，该第二转换频率集中的转换频率以S_ij来说明。该S_ij为用户观看的多媒体数据类型i与多媒体数据类型j之间的转换频率。其中，上述的i,j∈1,2，……，n，n为多媒体数据类型的个数。

示例性的，多媒体数据类型预测装置对用户的行为时序链进行统计后，得到用户观看的多媒体数据类型间的第二转换频率集的过程具体如下所述：该装置通过用户的行为时序链得到多媒体数据类型间的转换频数集其中，x_ij用于表示多媒体数据类型i与多媒体数据类型j间的传递步数(例如，用户观看多媒体数据类型i之后观看多媒体数据类型j之间间隔的多媒体数据个数)，将该转换频数集转换为包含有多媒体数据类型间的转换频率的第二转换频率集。

进一步的，本发明在对用户的行为时序链进行统计，确定出用户对每类多媒体数据类型的第一转换频率集时，可以采用双向混合加权模式来统计多媒体数据类型间的转换频率，分别统计用户观看这个多媒体数据类型之前和观看这个多媒体数据类型之后与该多媒体数据类型的转换频率，这样即统计了多媒体数据类型间的直接传递频率，又统计多媒体数据类型间的间接相通频率。

具体的，当该用户的行为时序链仅包括正向时序链(即该用户的行为时序链的排序是按照用户正常的观看时间先后进行排序的)时，若以第一多媒体数据类型为例，则该步骤102中多媒体数据类型预测装置对用户的行为时序链进行统计，确定出用户对第一多媒体数据类型的转换频率的过程具体包括如下步骤：

A1、多媒体数据类型预测装置对用户的正向时序链进行统计，得到第一多媒体数据类型集合。

示例性的，该第一多媒体数据类型集合中包含正向时序链中所有与第一多媒体数据类型相通的第二多媒体数据类型。具体的，该第一多媒体数据类型集合包含正向时序链中所有与第一多媒体数据类型直接相通(即两多媒体数据类型的观看时序相邻)的第二多媒体数据类型以及正向时序链中所有与第一多媒体数据类型间接相通(即两多媒体数据类型的观看时序不相邻，存在时序间隔)的第二多媒体数据类型。

A2、多媒体数据类型预测装置根据第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及第二多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对第一多媒体数据类型的转换频率。

而当该用户的行为时序链包括正向时序链和逆向时序链(即该用户的行为时序链的排序是按照用户正常观看时间的反向顺序进行排序的)，如图2所示的方法流程图可知，若以第一多媒体数据类型为例，则该步骤102中多媒体数据类型预测装置对用户的行为时序链进行统计，确定出用户对第一多媒体数据类型的转换频率的过程具体包括如下步骤：

B1、多媒体数据类型预测装置对用户的正向时序链进行统计，得到第一多媒体数据类型集合，该第一多媒体数据类型集合中包含所述正向时序链中所有与第一多媒体数据类型相通的第二多媒体数据类型，根据第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及第二多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对第一多媒体数据类型的第一转换频率；

并对用户的逆向时序链进行统计，得到第二多媒体数据类型集合，该第二多媒体数据类型集合中包含逆向时序链中所有与第一多媒体数据类型相通的第三多媒体数据类型，根据第二多媒体数据类型集合中的每个第三多媒体数据类型的观看概率以及第三多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对第一多媒体数据类型的第二转换频率。

B2、多媒体数据类型预测装置根据第一转换频率以及第二转换频率，得到用户对第一多媒体数据类型的转换频率。

示例性的，该第二多媒体数据类型集合中包含逆向时序链中所有与第一多媒体数据类型相通的第三多媒体数据类型。具体的，该第一多媒体数据类型集合包含逆向时序链中所有与第一多媒体数据类型直接相通(即两多媒体数据类型的观看时序相邻)的第三多媒体数据类型以及逆向时序链中所有与第一多媒体数据类型间接相通(即两多媒体数据类型的观看时序不相邻，存在时序间隔)的第三多媒体数据类型。

示例性的，该装置依次获取每个用户对应的正向时序链Per_i，Per_i＝(k_i1,k_i1,......,k_in)，以k_ii为例，统计k_ii发生之前所有与k_ii直接相通的多媒体数据类型，由于这些多媒体数据类型与k_ii间的传递频数为1，则这里直接将这些多媒体数据类型的观看概率进行累加求和，得到与k_ii直接相通的转换频率N_ij，如下述公式一所示：

(n_ij＝e_ij，需要满足条件k_ij→k_ii)(公式一)

然后，统计在k_ii发生之前，所有与k_ii间接相通的多媒体数据类型，根据这些多媒体数据类型的观看概率以及转换频数，得到与k_ii间接相通的转换频率M_ij，如下述公式二所示：

(n_j→i＝e_ij，需要满足条件k_ij→k_ii)(公式二)

其中，上述公式中的m_ia为间接相通权值，s＝传递频数(也可以成为传递步数)。

示例性的，该装置依次获取每个用户对应的逆向时序链Per_i'，Per_i'＝(k_i1,k_i1,......,k_in)，以k_ii为例，统计k_ii发生之后，所有与k_ii直接相通的多媒体数据类型，由于这些多媒体数据类型与k_ii间的传递频数为1，则这里直接将所有逆向与k_ii直接相通的多媒体数据类型的观看概率进行累加求和，得到与k_ii直接相通的转换频率N_ij'，如下述公式一所示：

(n_ia＝e_ia，需要满足条件k_ij→k_ii)(公式三)

然后，统计在k_ii发生之后所有逆向与k_ii间接相通的多媒体数据类型，根据这些多媒体数据类型的观看概率以及传递频数，得到与k_ii直接相通的转换频率M_ij'，如下述公式二所示：

(n_j→i＝e_ij，需要满足条件k_ij→k_ii)(公式四)

其中，上述公式中的m_ij为间接相通权值，s＝传递步数。

基于上述内容，当该用户的行为时序链包括正向时序链和逆向时序链时，该装置需要将上述得到的N_ij,M_ij,N_ij',M_ij'进行累加，从而得到k_ii的转换频率N_i，即N_i＝N_ij+M_ij+N_ij'+M_ij'。

由于本实施例中的用户可以为多个用户，因此，本发明实施例中针对所有用户对多媒体数据类型i的转换频率，可以是对所有用户对应的时序链进行统计来获取。具体的获取过程和功能描述可以参照上述的针对一个用户获取该用户对多媒体数据类型i的转换频率的获取过程，这里不再赘述。

103、多媒体数据类型预测装置根据目标用户当前观看的目标多媒体数据类型、第一转换频率集以及第二转换频率集，为目标用户预测出下一时刻观看的多媒体数据类型。

本发明的实施例提供的多媒体数据类型预测方法，根据包含有用户观看每类多媒体数据类型的次数以及对应的观看时间的用户的行为时序链，确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集，该第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率，然后，根据目标用户当前观看的目标多媒体数据类型、第一转换频率集以及第二转换频率集，为目标用户预测出下一时刻观看的多媒体数据类型。这样本方案基于能够表现出用户的行为趋势的用户的行为时序链，提取出能够体现用户对每类多媒体数据类型的兴趣趋势的用户对单个多媒体数据类型的转换频率，以及提取出能够表现用户兴趣转移趋势的多媒体数据类型间的转换频率，因此，基于上述的用户对单个多媒体数据类型的转换频率以及多媒体数据类型间的转换频率，便能够精确的为用户预测下一刻想要观看的多媒体数据类型。

示例性的，该装置在为用户预测下一时刻观看的多媒体数据类型时，可以通过构建隐马尔科夫链来进行预测，具体的，步骤103具体包括如下步骤：

103a、多媒体数据类型预测装置构建隐马尔科夫链，并根据第一转换频率集以及第二转换频率集对隐马尔科夫链进行训练。

本实施例中提及的隐马尔可夫(Markov)过程是指在事件的发展过程中,若每次状态的转移都仅与前一时刻的状态有关,而与过去的状态无关,或者说状态转移过程是无后效性的,则这种状态转移过程就称为马尔可夫过程。隐马尔可夫预测法就是一种预测事件发生概率的方法,它是基于马尔可夫链,根据事件的目前状况预测其将来各个时刻(或时期)变动状况的一种预测方法。隐马尔可夫模型的状态则不是确定可测的,而是有一定的观测概率分布,因此,根据观测量无法确定具体是哪个状态。一个隐马尔可夫模型可由五元组(S,v,A,B,π)完整描述。

其中，上述的隐马尔科夫链的输入参数(S,v,A,B,π)，所述S为状态集(即所研究的多媒体数据类型集合，可以称为输入序列)，所述v输出序列与所述S隐含关联关系的多媒体数据类型集合，所述A状态集是通过第二转换频率集构成的，所述B是输出序列概率分布与该第一转换频率集相关，所述π为初始状态概率分布与该第一转换频率集相关。

103b、多媒体数据类型预测装置将目标用户当前观看的目标多媒体数据类型代入训练后的隐马尔科夫链中，为目标用户预测出下一时刻观看的多媒体数据类型。

在本实施例中，该装置在为目标用户预测出下一时刻观看的多媒体数据类型时，通常是通过训练后的隐马尔科夫模型，也就是在隐马尔科夫模型参数已知的情况下，为目标用户计算下一时刻观看的多媒体数据类型的发生概率，即计算出每个多媒体数据类型在下一个时刻被播放出来的发生概率。按照发生概率的高低将这些发生概率进行排序，并根据实际需要确定出前预设个数个发生概率对应的多媒体数据类型，然后将这些大概率多媒体数据类型推荐给用户，或者将这些大概率多媒体数据类型下的热门多媒体数据推荐给用户。

这样输入多媒体数据类型的转换频率，通过HMM模型采用局部概率计算下一个多媒体数据类型的发生可能性，通过对比每个多媒体数据类型可能性，确定最大可能发生的多媒体数据类型，实现兴趣预测。这种方法弱化了计算复杂度，逐级运算可以直观展示、逐步检查。

本发明的实施例提供一种多媒体数据类型预测装置，如图2所示，该装置2包括：获取模块21、确定模块22以及预测模块23，其中：

获取模块21，用于获取用户的行为时序链。

确定模块22，用于根据获取模块21获取的行为时序链确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集，该第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，该第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率。

预测模块23，用于根据目标用户当前观看的目标多媒体数据类型、确定模块22确定出的第一转换频率集以及所述第二转换频率集，为目标用户预测出下一时刻观看的多媒体数据类型；

可选的，上述的用户的行为时序链包括正向时序链，确定模块22在根据行为时序链确定出用户对每类多媒体数据类型的第一转换频率集时具体用于：

对用户的正向时序链进行统计，得到第一多媒体数据类型集合；该第一多媒体数据类型集合中包含正向时序链中与第一多媒体数据类型相通的第二多媒体数据类型；

根据第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及第二多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对所述第一多媒体数据类型的转换频率。

可选的，该行为时序链包括正向时序链和逆向时序链，确定模块22在根据行为时序链确定出用户对每类多媒体数据类型的第一转换频率集时具体用于：

对用户的正向时序链进行统计，得到第一多媒体数据类型集合，该第一多媒体数据类型集合中包含所述正向时序链中与第一多媒体数据类型相通的第二多媒体数据类型，根据第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及第二多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对第一多媒体数据类型的第一转换频率；

并对用户的逆向时序链进行统计，得到第二多媒体数据类型集合，该第二多媒体数据类型集合中包含逆向时序链中与第一多媒体数据类型相通的第三多媒体数据类型，根据第二多媒体数据类型集合中的每个第三多媒体数据类型的观看概率以及第三多媒体数据类型与第一多媒体数据类型间的传递频数，得到用户对第一多媒体数据类型的第二转换频率；

根据第一转换频率以及第二转换频率，得到用户对第一多媒体数据类型的转换频率。

示例性的，上述的第一多媒体数据类型集合包含正向时序链中所有与第一多媒体数据类型直接相通的第二多媒体数据类型以及正向时序链中所有与第一多媒体数据类型间接相通的第二多媒体数据类型。

可选的，预测模块23具体用于：

构建隐马尔科夫链，并根据第一转换频率集以及第二转换频率集对所述隐马尔科夫链进行训练；

将目标用户当前观看的目标多媒体数据类型代入训练后的隐马尔科夫链中，为目标用户预测出下一时刻观看的多媒体数据类型。

可选的，获取模块21具体用于：

获取用户行为数据，该行为时序链包括用户观看每类多媒体数据类型的次数以及对应的观看时间；

根据用户观看每类多媒体数据类型的次数，确定出用户观看每类多媒体数据类型的观看概率；

对用户观看每类多媒体数据类型的观看概率中小于预定阈值的观看概率取倒数，并按照用户观看所述每类多媒体数据类型的观看时间的先后顺序对所有观看概率进行排序，得到该用户的行为时序链。

本发明的实施例提供的多媒体数据类型预测装置，根据包含有用户观看每类多媒体数据类型的次数以及对应的观看时间的用户的行为时序链，确定出用户对每类多媒体数据类型的第一转换频率集以及用户观看的多媒体数据类型间的第二转换频率集，该第一转换频率集中的转换频率为用户观看多媒体数据时转换为每类多媒体数据类型的转换频率，第二转换频率集中的转换频率为用户观看的多媒体数据类型间的转换频率，然后，根据目标用户当前观看的目标多媒体数据类型、第一转换频率集以及第二转换频率集，为目标用户预测出下一时刻观看的多媒体数据类型。这样本方案基于能够表现出用户的行为趋势的用户的行为时序链，提取出能够体现用户对每类多媒体数据类型的兴趣趋势的用户对单个多媒体数据类型的转换频率，以及提取出能够表现用户兴趣转移趋势的多媒体数据类型间的转换频率，因此，基于上述的用户对单个多媒体数据类型的转换频率以及多媒体数据类型间的转换频率，便能够精确的为用户预测下一刻想要观看的多媒体数据类型。

在本申请所提供的几个实施例中，应该理解到，所揭露的终端和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种多媒体数据类型预测方法，其特征在于，包括：

获取用户的行为时序链；

2.根据权利要求1所述的方法，其特征在于，所述用户的行为时序链包括正向时序链，所述根据所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集具体包括：

对所述用户的正向时序链进行统计，得到第一多媒体数据类型集合，所述第一多媒体数据类型集合中包含所述正向时序链中与第一多媒体数据类型相通的第二多媒体数据类型；

根据所述第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及所述第二多媒体数据类型与所述第一多媒体数据类型间的传递频数，得到所述用户对所述第一多媒体数据类型的转换频率。

3.根据权利要求1所述的方法，其特征在于，所述行为时序链包括正向时序链和逆向时序链，所述根据所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集具体包括：

对所述用户的正向时序链进行统计，得到第一多媒体数据类型集合，所述第一多媒体数据类型集合中包含所述正向时序链中与第一多媒体数据类型相通的第二多媒体数据类型，根据所述第一多媒体数据类型集合中的每个第二多媒体数据类型的观看概率以及所述第二多媒体数据类型与所述第一多媒体数据类型间的传递频数，得到所述用户对所述第一多媒体数据类型的第一转换频率；

并对所述用户的逆向时序链进行统计，得到第二多媒体数据类型集合，所述第二多媒体数据类型集合中包含所述逆向时序链中与第一多媒体数据类型相通的第三多媒体数据类型，根据所述第二多媒体数据类型集合中的每个第三多媒体数据类型的观看概率以及所述第三多媒体数据类型与所述第一多媒体数据类型间的传递频数，得到所述用户对所述第一多媒体数据类型的第二转换频率；

对所述第一转换频率以及所述第二转换频率进行信息融合，得到所述用户对所述第一多媒体数据类型的转换频率。

4.根据权利要求2所述的方法，其特征在于，所述第一多媒体数据类型集合包含所述正向时序链中与第一多媒体数据类型直接相通的第二多媒体数据类型以及所述正向时序链中与第一多媒体数据类型间接相通的第二多媒体数据类型。

5.根据权利要求1所述的方法，其特征在于，所述根据目标用户当前观看的目标多媒体数据类型、所述第一转换频率集以及所述第二转换频率集，为所述目标用户预测出下一时刻观看的多媒体数据类型具体包括：

构建隐马尔科夫链，并根据所述第一转换频率集以及所述第二转换频率集对所述隐马尔科夫链进行训练；

将所述目标用户当前观看的目标多媒体数据类型代入训练后的隐马尔科夫链中，为所述目标用户预测出下一时刻观看的多媒体数据类型。

6.根据权利要求1-4任一项所述的方法，其特征在于，所述获取用户的行为时序链具体包括：

获取用户行为数据，所述行为时序链包括用户观看每类多媒体数据类型的次数以及对应的观看时间；

根据所述用户观看每类多媒体数据类型的次数，确定出所述用户观看所述每类多媒体数据类型的观看概率；

对所述用户观看所述每类多媒体数据类型的观看概率中小于预定阈值的观看概率取倒数，并按照所述用户观看所述每类多媒体数据类型的观看时间的先后顺序对所有观看概率进行排序，得到所述用户的行为时序链。

7.一种多媒体数据类型预测装置，其特征在于，包括：

获取模块，用于获取用户的行为时序链；

8.根据权利要求7所述的装置，其特征在于，所述用户的行为时序链包括正向时序链，所述确定模块在根据所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集时具体用于：

9.根据权利要求7所述的装置，其特征在于，所述行为时序链包括正向时序链和逆向时序链，所述确定模块在根据所述行为时序链确定出所述用户对每类多媒体数据类型的第一转换频率集时具体用于：

10.根据权利要求8所述的装置，其特征在于，所述第一多媒体数据类型集合包含所述正向时序链中与第一多媒体数据类型直接相通的第二多媒体数据类型以及所述正向时序链中与第一多媒体数据类型间接相通的第二多媒体数据类型。

11.根据权利要求7所述的装置，其特征在于，所述预测模块具体用于：

12.根据权利要求7-11任一项所述的装置，其特征在于，所述获取模块具体用于：