CN104809165A

CN104809165A - 一种多媒体文件相关度的确定方法及设备

Info

Publication number: CN104809165A
Application number: CN201510154127.3A
Authority: CN
Inventors: 王洁; 李海涛; 宋宪明; 胡娟娟
Original assignee: Hisense Group Co Ltd
Current assignee: Hisense Group Co Ltd
Priority date: 2015-04-02
Filing date: 2015-04-02
Publication date: 2015-07-29
Anticipated expiration: 2035-04-02
Also published as: CN104809165B

Abstract

本发明实施例提供了一种多媒体文件相关度的确定方法及设备，包括：确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；其中，第二多媒体文件为一个或者多个；访问相关度用于表征第一多媒体文件和第二多媒体文件被关联访问的情况；融合参数用于表征访问相关度和内容相关度分别占的比重；根据确定的融合参数值、第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值，确定第一多媒体文件与第二多媒体文件的相关度度量值。提高了效率。本发明涉及计算机数据挖掘及机器学习技术领域。

Description

一种多媒体文件相关度的确定方法及设备

技术领域

本发明涉及计算机数据挖掘及机器学习技术领域，尤其涉及一种多媒体文件相关度的确定方法及设备。

背景技术

随着计算机网络的发展，网络为人类提供越来越多的信息。网络多媒体文件就是其中一种重要的信息提供方式，多媒体文件可以包括：文本文件、音频文件、视频文件、或者多种媒体相结合构成的多媒体文件等。用户可以通过网络多媒体文件进行学习、娱乐，获取自身需要的信息。但是网络上的多媒体文件内容五花八门，用户要获取到自身感兴趣的多媒体文件需要花大量的时间进行检索，为了提高检索效率，智能推荐系统应运而生。

为了缩短用户在进行多媒体文件检索时花费的时间，提高检索效率，智能推荐系统会根据用户访问过的多媒体文件为用户推荐用户可能感兴趣的多媒体文件，但是，传统的相关推荐的计算方法是基于多媒体文件内容的相关度为用户确定用户可能感兴趣的多媒体文件，也就是说，依据多媒体文件内容相关度对多媒体文件进行排序，并优先为用户推荐多媒体文件内容相关度高的多媒体文件，这种依据多媒体文件内容相关度对多媒体文件进行排序的方案存在很多弊端，首先，这种依据多媒体文件内容相关度得到的相关度高的多媒体文件内容单一，很难满足大众口味；其二，依据内容相关度的排序方案(内容越相关的，排序位置越靠前)是应用开发者主观判断，完全没有考虑用户的真正需求。

可见，采用现有技术提供的智能推荐系统采用的多媒体文件相关度确定方法并不能客观地体现出用户的兴趣，那么，依据这样的相关度进行排序并为用户推荐的多媒体文件并不能真正基于用户的需求进行推荐，用户依然需要花费大量的时间进行检索，检索效率低。

发明内容

本发明实施例提供了一种多媒体文件相关度的确定方法及设备，用以解决现有技术中用户检索多媒体文件时检索效率低的问题。

基于上述问题，本发明实施例提供了一种多媒体文件相关度的确定方法，包括：

确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；其中，所述第二多媒体文件为一个或者多个；所述访问相关度用于表征所述第一多媒体文件和所述第二多媒体文件被关联访问的情况；所述融合参数用于表征访问相关度和内容相关度分别占的比重；

根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值、内容相关度度量值，确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值。

本发明实施例提供了一种多媒体文件相关度的确定设备，包括：

第一确定模块，用于确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；其中，所述第二多媒体文件为一个或者多个；所述访问相关度用于表征所述第一多媒体文件和所述第二多媒体文件被关联访问的情况；所述融合参数用于表征访问相关度和内容相关度分别占的比重；

第二确定模块，用于根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值、内容相关度度量值，确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值。

本发明实施例的有益效果包括：

本发明实施例提供的一种多媒体文件相关度的确定方法及设备，包括：确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；其中，第二多媒体文件为一个或者多个；访问相关度用于表征第一多媒体文件和第二多媒体文件被关联访问的情况；融合参数用于表征访问相关度和内容相关度分别占的比重；根据确定的融合参数值、第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值，确定第一多媒体文件与第二多媒体文件的相关度度量值。本发明实施例提供的一种多媒体文件相关度的确定方法，在确定第一多媒体文件和第二多媒体文件之间的相关度度量值时，不仅需要依据第一多媒体文件和该任一第二多媒体文件之间的内容相关度，还需要依据第一多媒体文件和该任一第二多媒体文件之间的关联访问情况，即访问相关度，并基于内容相关度度量值、访问相关度度量值、以及表征访问相关度和内容相关度分别占的比重的融合参数的值，确定第一多媒体文件和该任一第二多媒体文件之间的相关度度量值，与现有技术中的推荐系统采用的多媒体文件相关度确定方法相比，在确定多媒体文件相关度时不仅考虑了多媒体文件内容相关度，还考虑了访问相关度，这样得到的多媒体文件相关度考虑了用户行为特征，即用户的访问行为，而不是应用开发者的主观判断，本发明实施例提供的一种多媒体文件相关度的确定方法能够准确客观地确定出多媒体文件的相关度，那么，在依据准确客观的多媒体文件相关度为多媒体文件排序时，能够真正将用户需要的多媒体文件排在前面，用户可以直接进行访问，而不需要花费大量的时间进行检索，提高了效率。

附图说明

图1为本发明实施例提供的一种多媒体文件相关度的确定方法的流程图；

图2为本发明实施例1提供的一种多媒体文件相关度的确定方法的流程图；

图3为本发明实施例提供的生成训练样本的过程示意图；

图4为本发明实施例2提供的一种多媒体文件排序方法的流程图；

图5为本发明实施例提供的一种多媒体文件相关度的确定设备的结构示意图。

具体实施方式

本发明实施例提供了一种多媒体文件相关度的确定方法及设备，以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。并且在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明实施例提供一种多媒体文件相关度的确定方法，如图1所示，包括：

S101、确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；

其中，第二多媒体文件为一个或者多个；访问相关度用于表征第一多媒体文件和第二多媒体文件被关联访问的情况；融合参数用于表征访问相关度和内容相关度分别占的比重。

进一步地，本步骤中，关联访问可以为被同一用户访问，第一多媒体文件和第二多媒体文件被关联访问的情况可以通过既访问过第一多媒体文件，又访问过第二多媒体文件的不同用户的用户数来衡量。详细的讲，关联访问是指：在历史访问记录中，若同时存在第一多媒体文件和第二多媒体文件，则为第一多媒体文件和第二多媒体文件的关联访问度量值加1。上述历史记录可以是一个用户的历史访问记录，也可以是多个用户的历史访问记录。内容相关度是指第一多媒体文件和第二多媒体文件的内容标签的重合程度。

进一步地，本步骤中，第二多媒体文件为一个或者多个，如果为多个，则本步骤执行为：确定第一多媒体文件分别与多个第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值。

S102、根据确定的融合参数值、第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值，确定第一多媒体文件与第二多媒体文件的相关度度量值。

进一步地，本发明实施例中，多媒体文件可以指任一类型的多媒体文件，例如：可以为文本文件、音频文件、视频文件、或者由多种媒体相结合构成的多媒体文件等。

下面结合附图，用具体实施例对本发明提供的方法及相关设备进行详细描述。

实施例1：

本发明实施例1中，提供一种多媒体文件相关度的确定方法，如图2所示，具体包括如下步骤：

S201、采用式(1)建立多媒体文件相关度确定模型：

Y_i＝h_θ(X_i)＝X_iθ 式(1)

在式(1)中，

Y_{i} = [\begin{matrix} y_{i 1} \\ . . . \\ y_{ij} \\ . . . \\ y_{in} \end{matrix}],

y_ij表征第一多媒体文件i与任一第二多媒体文件j的相关度，表征第一多媒体文件i与任一第二多媒体文件j的内容相关度，表征第一多媒体文件i与任一第二多媒体文件j的访问相关度，

θ = [\begin{matrix} α \\ β \end{matrix}],

α表征内容相关度度量参数，β表征访问相关度度量参数，θ表征多元特征的相关度度量融合参数，j∈[1,n]，n表征第二多媒体文件的个数。

进一步地，本步骤中，将式(1)展开，可以得到式(2)：

{[y_{i 1} . . . y_{ij} . . . y_{in}]}^{T} = {[α x_{i 1}^{1} + β x_{i 1}^{2}, . . ., α x_{ij}^{1} + β x_{ij}^{2}, . . ., α x_{in}^{1} + β x_{in}^{2}]}^{T}

式(2)

也就是说，多媒体文件相关度确定模型可以采用如下方式确定：第一多媒体文件与任一第二多媒体文件的相关度可以为第一多媒体文件与该任一第二多媒体文件的内容相关度与对应内容相关度度量参数的乘积，与第一多媒体文件与该任一第二多媒体文件的访问相关度与对应访问相关度度量参数的乘积之间的和。

由式(2)可见，第一多媒体文件i与任一第二多媒体文件j的相关度可以由第一多媒体文件i与任一第二多媒体文件j的内容相关度和访问相关度进行确定，并且通过内容相关度度量参数α，访问相关度度量参数β，分别表征确定相关度时内容相关度和访问相关度分别占有的比重。

步骤S202～步骤S203为确定第一多媒体文件与第二多媒体文件的访问相关度度量值的步骤：

S202、针对每个用户的已访问多媒体文件集合，判断该已访问多媒体文件集合是否包含第一多媒体文件和第二多媒体文件，若是，则将第一多媒体文件和第二多媒体文件的关联访问次数累计一个计数单位。

S203、将第一多媒体文件和第二多媒体文件的关联访问次数，确定为第一多媒体文件与第二多媒体文件的访问相关度度量值。

较佳地，步骤S203可以具体实施为：将第一多媒体文件和第二多媒体文件的关联访问次数进行归一化处理；将归一化处理之后得到的归一化关联访问次数，确定为第一多媒体文件与第二多媒体文件的访问相关度度量值。

进一步地，第一多媒体文件i与任一第二多媒体文件j的访问相关度可以用于表征第一多媒体文件i与任一第二多媒体文件j被关联访问的情况，为了便于对本发明实施例中提出的访问相关度的理解，可以参考“购物篮”的概念。所谓的购物篮分析(Market Basket Analysis)可以为：通过购物篮所显示的信息来研究顾客的购买行为，购物篮分析主要的目的在于找出什么样的东西应该放在一起向顾客推荐，使顾客有兴趣购买。根据现有技术中购物篮的定义，可以将购物篮分析的思想应用到相关多媒体文件的分析中，提出一种基于“购物篮”特征的相关多媒体文件计算方法，具体实施时，可以统计每个用户的已访问多媒体文件集合，将每个用户的已访问多媒体文件集合看作一个购物篮，通过分析该购物篮中的数据(即该已访问多媒体文件集合中的多媒体文件)统计出用户的访问行为，依据访问行为确定多媒体文件的访问相关度。

进一步地，第一多媒体文件i与第二多媒体文件j的内容相关度可以根据第一多媒体文件i与第二多媒体文件j的描述信息确定。也就是说，可以统计对多媒体文件进行描述的标签，并且确定第一多媒体文件i与第二多媒体文件j的描述信息中分别包括的匹配的标签数，将匹配的标签数确定为第一多媒体文件i与该任一第二多媒体文件j的内容相关度度量值，较佳地，可以将匹配的标签数进行归一化处理，得到归一化的标签数，将该归一化的标签数确定为第一多媒体文件i与第二多媒体文件j的内容相关度度量值；

可见，确定第一多媒体文件i与第二多媒体文件j的相关度度量值时，还需要确定出多元特征的相关度度量融合参数θ，即内容相关度度量参数α，和访问相关度度量参数β。

进一步地，第二多媒体文件j的个数n可以由实际需要进行确定，例如：可以设置为原多媒体文件的相关多媒体文件列表中包含的多媒体文件个数。

进一步地，步骤S202～步骤S203与步骤S201的执行没有严格的先后顺序。

进一步地，步骤S204～步骤S209为确定融合参数值的步骤，其中，步骤S204为步骤：基于通过相关多媒体文件访问接口进行访问的多媒体文件，为多媒体文件相关度确定模型建立训练样本的具体实施方式，步骤S205～步骤S209为步骤：基于所述训练样本确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值的具体实施方式。且步骤S202～步骤S203与步骤S204～步骤S209的执行没有严格的先后顺序。

S204、从通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件中，确定预设数量的原多媒体文件作为训练样本。

进一步地，可以通过多种接口进行多媒体文件访问，也就是说，在多媒体文件访问界面中通常包括原多媒体文件和与该原多媒体文件相关的相关多媒体文件，那么当多媒体文件作为原多媒体文件被访问时，确定该多媒体文件通过原多媒体文件接口进行访问，当多媒体文件作为某原多媒体文件的相关多媒体文件被访问时，确定该多媒体文件通过该某原多媒体文件的相关多媒体文件访问接口进行访问。

本步骤中，由于原多媒体文件对应的相关多媒体文件被通过相关多媒体文件访问接口进行了访问，可见该原多媒体文件与相关多媒体文件具有较高的相关度度量值，可以认为该原多媒体文件与相关多媒体文件符合建立的多媒体文件相关度确定模型，将原多媒体文件作为多媒体文件相关度确定模型的训练样本。也就是说，可以从所有用户的多媒体文件访问记录中确定通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件，将预设数量的原多媒体文件作为训练样本。例如：原多媒体文件为多媒体文件a，多媒体文件a的相关多媒体文件包括多媒体文件b、多媒体文件c、多媒体文件d等，多媒体文件b是在多媒体文件a为原多媒体文件的界面，作为多媒体文件a的相关多媒体文件进行访问，则可以将多媒体文件a确定为训练样本。

具体实施时，可以根据最近预设时间段内访问的多媒体文件及该多媒体文件列表中确定训练样本，并且以预设周期对所获取的训练样本进行更新，周期性确定融合参数的值。

S205、针对作为训练样本的每个原多媒体文件，确定该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的访问相关度度量值和内容相关度度量值。

进一步地，本步骤中，可以采用步骤S202～步骤S203中提供的访问相关度度量值的确定方法和内容相关度度量值的确定方法确定各原多媒体文件与各原多媒体文件分别对应的相关多媒体文件的访问相关度度量值和内容相关度度量值，针对每个原多媒体文件i确定出式(1)中的X_i，那么，原多媒体文件i与任一相关多媒体文件j的内容相关度Y_i为：

Y_{i} = {[α x_{i 1}^{1} + β x_{i 1}^{2}, . . ., α x_{ij}^{1} + β x_{ij}^{2}, . . ., α x_{in}^{1} + β x_{in}^{2}]}^{T} .

进一步地，具体实施时，任一多媒体文件的相关多媒体文件通常可以通过相关多媒体文件列表的形式进行呈现，相关多媒体文件列表的长度是一定的，而每个用户的已访问多媒体文件集合的大小通常均小于相关多媒体文件列表的长度，因此，此处n可以表征相关多媒体文件列表的长度。

S206、确定该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件访问接口访问的次数。

S207、将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件访问接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值。

进一步地，本步骤中，将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值Y′_i。

进一步地，图3为步骤S204～步骤S207中生成训练样本的过程示意图，如图3所示，从相关点击数据库(可以用于保存通过相关多媒体文件访问接口访问的多媒体文件)中，分别统计预设数量的作为训练样本的原多媒体文件301(以原多媒体文件301的个数作为训练样本个数)，以及每个原多媒体文件的相关多媒体文件通过相关多媒体文件访问接口被访问的次数302，根据统计出的原多媒体文件，统计该原多媒体文件与其对应的相关多媒体文件的内容相关度度量值303和访问相关度度量值304，并由303和304确定出：

由302确定出Y′_i:[y′_i1,...,y′_ij,...y′_in]^T，即训练样本集(X_i,Y′_i),i∈[1,m]，m为训练样本个数。

S208、根据作为训练样本的各原多媒体文件与各自对应的相关多媒体文件的访问相关度度量值、内容相关度度量值、相关度度量值、以及多媒体文件相关度确定模型，构造损失函数。

本步骤中，构造损失函数也可以为构造误差函数，该损失函数需要具有如下特征：该损失函数的函数值越小，相关度度量值Y_i与相关度度量值Y′_i越接近，其中，相关度度量值Y_i由多媒体文件相关度确定模型根据内容相关度度量值、访问相关度度量值确定；相关度度量值Y′_i为由原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件访问接口访问的次数作为的相关度度量值。

进一步地，本步骤中，可以构造损失函数如式(3)所示：

J (Y_{i}, Y_{i}^{'}) = 1 - \cos (Y_{i}, Y_{i}^{'}) = 1 - \frac{Y_{i}^{T} \cdot Y_{i}^{'}}{| | Y_{i} | | \cdot | | Y_{i}^{'} | |} = 1 - \frac{Σ_{j = 1}^{n} (α x_{ij}^{1} + β x_{ij}^{2}) \cdot e_{y_{ij}^{'}}}{\sqrt{Σ_{j = 1}^{n} {(α x_{ij}^{1} + β x_{ij}^{2})}^{2}}}

式(3)

在式(3)中，

Y_{i} = {[α x_{i 1}^{1} + β x_{i 1}^{2}, . . ., α x_{ij}^{1} + β x_{ij}^{2}, . . ., α x_{in}^{1} + β x_{in}^{2}]}^{T},

Y′_i＝[y′_i1,...,y′_ij,...,y′_in]^T，表征对向量Y′_i单位化后第j个元素的值，表征原多媒体文件i与任一相关多媒体文件j的内容相关度，表征原多媒体文件i与任一相关多媒体文件j的访问相关度，

θ = [\begin{matrix} α \\ β \end{matrix}],

α表征内容相关度度量参数，β表征访问相关度度量参数，θ表征多元特征的相关度度量融合参数，j∈[1,n]，n表征相关多媒体文件的个数，y′_ij表征原多媒体文件i的任一相关多媒体文件j通过原多媒体文件i的相关多媒体文件接口访问的次数。

由式(3)可见，相关度度量值Y_i与相关度度量值Y′_i越接近，cos(Y_i,Y′_i)越接近1，则J(Y_i,Y′_i)越小(接近0)。

S209、基于随机梯度下降算法，确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

进一步地，可以通过随机梯度下降算法对损失函数进行迭代处理，使得损失函数沿梯度的反向通过多次对多元特征的相关度度量融合参数θ的取值进行迭代，最终收敛得到损失函数的函数值最小，此时的θ可以确定为多媒体文件相关度确定模型中的多元特征的相关度度量融合参数，那么，针对需要确定相关度度量值的多媒体文件，可以根据本发明实施例提供的方式确定其访问相关度度量值和内容相关度度量值，再通过多媒体文件相关度确定模型确定出相关度度量值。

进一步地，可以采用式(4)对多元特征的相关度度量融合参数θ的取值进行迭代：

θ_{k} = θ_{k} - λ \cdot \frac{&PartialD; J (Y_{i}, Y_{i}^{'})}{&PartialD; θ_{k}} (k = 1,2, . . .)

式(4)

在式(4)中，λ表征迭代步长，其具体取值根据实际需要确定；表征本次迭代过程中计算的损失函数的梯度；k表征迭代次数。

具体实施时，可以将迭代次数作为外侧循环，原多媒体文件的个数作为内层循环，首先随机确定的θ_k初始值，在每次内层循环中，将每个原多媒体文件确定出的J(Y_i,Y′_i)带入式(4)中确定新的θ_k的值，再经过外侧循环最终得到θ_k。

本发明实施例中，将常用的“购物篮”概念应用到多媒体文件相关度确定中，建立一种“购物篮”相关多媒体文件计算方法，再对多元特征(“购物篮”特征和“内容”特征)进行融合，建立多媒体文件相关度确定模型，采用上述机器学习算法最终拟合出未知参数θ之后，确定出多媒体文件库中任意多媒体文件基于多元特征融合后的相关度度量值，按照度量值排序后，就可以确定出更加合理的相关多媒体文件排序列表，随着用户行为的增多，可以进一步通过机器学习周期更新参数值，从而使得多媒体文件列表排序周期性发生微小变化，给用户增加新鲜感的同时，使得列表的排序更加符合用户预期的心理位置(靠前的位置正是用户所想观看的多媒体文件)。最终，使智能推荐系统更加“聪明”。

S210、根据确定的融合参数值、第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值，确定第一多媒体文件与第二多媒体文件的相关度度量值。

进一步地，本步骤中，将确定出的融合参数的值、第一多媒体文件分别与至少一个第二多媒体文件中每个第二多媒体文件的访问相关度度量值和内容相关度度量值、带入多媒体文件相关度确定模型，可以得到第一多媒体文件分别与至少一个第二多媒体文件中每个第二多媒体文件的相关度度量值。

进一步地，在确定第一多媒体文件分别与至少一个第二多媒体文件中每个第二多媒体文件的相关度之后，还可以根据第一多媒体文件分别与至少一个第二多媒体文件中每个第二多媒体文件的相关度对至少一个第二多媒体文件进行排序，即还可以进一步包括如下步骤：

将至少一个第二多媒体文件中的每个第二多媒体文件确定为第一多媒体文件的相关多媒体文件；并

按照相关度越大排序越靠前的规则，根据至少一个第二多媒体文件分别与第一多媒体文件的相关度，对至少一个第二多媒体文件进行排序。

实施例2：

本发明实施例2中，基于本发明实施例1提供的一种多媒体文件相关度的确定方法，提供了一种在具体应用场景下一种多媒体文件排序方法，该具体应用场景是为用户已访问多媒体文件集合中的每个多媒体文件确定相关多媒体文件，并根据相关度度量值为相关多媒体文件排序。

本发明实施例2提供的一种多媒体文件排序方法，如图4所示，包括如下步骤：

S401、针对每个用户的已访问多媒体文件集合中的每个多媒体文件，基于该多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的访问相关度、内容相关度、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数，建立多媒体文件相关度确定模型；

其中，访问相关度用于表征第一多媒体文件与至少一个第二多媒体文件中每个第二多媒体文件被关联访问的情况；融合参数用于表征在确定第一多媒体文件与至少一个第二多媒体文件中每个第二多媒体文件的相关度时，访问相关度和内容相关度分别占的比重。

进一步地，可以预先统计每个用户的已访问多媒体文件集合，每个用户的已访问多媒体文件集合中包括该用户访问过的多媒体文件。将每个用户的已访问多媒体文件集合中的多媒体文件两两作为相关多媒体文件，那么，在确定已访问多媒体文件集合中任一多媒体文件的相关多媒体文件时，均可将该已访问多媒体文件集合中的所有多媒体文件作为该任一多媒体文件的相关多媒体文件。因此，本步骤中，需要基于该任一多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的访问相关度、内容相关度、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数，建立多媒体文件相关度确定模型。

进一步地，本实施例在建立如式(1)所示的多媒体文件相关度确定模型时，y_ij表征某用户的已访问多媒体文件集合中多媒体文件i与该用户的已访问多媒体文件集合中任一多媒体文件j的相关度，表征多媒体文件i与该任一多媒体文件j的内容相关度，表征多媒体文件i与该任一多媒体文件j的访问相关度，

θ = [\begin{matrix} α \\ β \end{matrix}],

α表征内容相关度度量参数，β表征访问相关度度量参数，θ表征多元特征的相关度度量融合参数，j∈[1,n]，n表征相关多媒体文件列表的长度。

进一步地，具体实施时，任一多媒体文件的相关多媒体文件通常可以通过相关多媒体文件列表的形式进行呈现，相关多媒体文件列表的长度是一定的，而每个用户的已访问多媒体文件集合的大小通常均小于相关多媒体文件列表的长度，因此，此处n表征相关多媒体文件列表的长度，当的值不存在时，可以取0。

进一步地，步骤S402～步骤S406为建立训练样本，并根据训练样本和多媒体文件相关度确定模型确定融合参数的步骤，相关说明可参加实施例1中的对应步骤，这里不再赘述。

S402、从通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件中，确定预设数量的原多媒体文件作为训练样本。

S403、针对作为训练样本的每个原多媒体文件，确定该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的访问相关度度量值和内容相关度度量值。

S404、确定该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件访问接口访问的次数，并将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件访问接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值。

S405、根据作为训练样本的各原多媒体文件与各自对应的相关多媒体文件的访问相关度度量值、内容相关度度量值、相关度度量值、以及多媒体文件相关度确定模型，构造损失函数。

S406、基于随机梯度下降算法，确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

S407、针对每个用户的已访问多媒体文件集合中的每个多媒体文件，根据多媒体文件相关度确定模型、确定的融合参数的值、以及该多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的访问相关度度量值和内容相关度度量值，确定该多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的相关度度量值。

进一步地，本步骤中，针对每个用户的已访问多媒体文件集合中的每个多媒体文件，将确定的融合参数的值、该多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的访问相关度度量值和内容相关度度量值，带入多媒体文件相关度确定模型中，确定出该多媒体文件分别与该多媒体文件所在已访问多媒体文件集合中每个多媒体文件的相关度度量值。

S408、将该多媒体文件所在已访问多媒体文件集合中每个多媒体文件作为该多媒体文件的相关多媒体文件，按照相关度越大排序越靠前的规则，根据该多媒体文件所在已访问多媒体文件集合中每个多媒体文件分别与该多媒体文件的相关度，对该多媒体文件所在已访问多媒体文件集合中多媒体文件进行排序。

本实施例中，基于购物篮特征和内容特征生成相关多媒体文件列表，使得相关多媒体文件列表排序越靠前的多媒体文件越为用户需要的多媒体文件，避免了用户花费大量的时间进行搜索，节省了用户时间，提高了效率。

基于同一发明构思，本发明实施例还提供了一种多媒体文件相关度的确定设备，由于这些设备所解决问题的原理与前述一种多媒体文件相关度的确定方法相似，因此该设备的实施可以参见前述方法的实施，重复之处不再赘述。

本发明实施例提供的一种多媒体文件相关度的确定设备，如图5所示，包括如下模块：

第一确定模块501，用于确定第一多媒体文件与第二多媒体文件的访问相关度度量值、内容相关度度量值、以及访问相关度和内容相关度对应的多元特征的相关度度量融合参数值；其中，所述第二多媒体文件为一个或者多个；所述访问相关度用于表征所述第一多媒体文件和所述第二多媒体文件被关联访问的情况；所述融合参数用于表征访问相关度和内容相关度分别占的比重；

第二确定模块502，用于根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值、内容相关度度量值，确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值。

进一步地，所述第一确定模块501，具体用于采用如下方式确定所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值：针对每个用户的已访问多媒体文件集合，判断该已访问多媒体文件集合是否包含所述第一多媒体文件和所述第二多媒体文件，若是，则将所述第一多媒体文件和所述第二多媒体文件的关联访问次数累计一个计数单位；将所述第一多媒体文件和所述第二多媒体文件的关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

进一步地，所述第一确定模块501，具体用于将所述第一多媒体文件和所述第二多媒体文件的关联访问次数进行归一化处理；将归一化处理之后得到的归一化关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

进一步地，所述设备还包括：模型建立模块503；

所述模型建立模块503，用于在所述第二确定模块502确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之前，采用下式建立多媒体文件相关度确定模型：

Y_i＝h_θ(X_i)＝X_iθ；

其中，

Y_{i} = [\begin{matrix} y_{i 1} \\ . . . \\ y_{ij} \\ . . . \\ y_{in} \end{matrix}],

θ = [\begin{matrix} α \\ β \end{matrix}],

进一步地，所述第一确定模块501，用于基于通过相关多媒体文件访问接口进行访问的多媒体文件，为所述多媒体文件相关度确定模型建立训练样本；并基于所述训练样本确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

进一步地，所述第一确定模块501，具体用于从通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件中，确定预设数量的原多媒体文件作为训练样本；针对作为训练样本的每个原多媒体文件，确定该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的访问相关度度量值和内容相关度度量值；确定该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数；并将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值；根据作为训练样本的各原多媒体文件与各自对应的相关多媒体文件的访问相关度度量值、内容相关度度量值、相关度度量值、以及多媒体文件相关度确定模型，构造损失函数；并基于随机梯度下降算法，确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

进一步地，所述设备还包括：排序模块504；

所述排序模块504，用于在确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之后，将至少一个第二多媒体文件中的每个第二多媒体文件确定为所述第一多媒体文件的相关多媒体文件；并按照相关度越大排序越靠前的规则，根据所述至少一个第二多媒体文件分别与所述第一多媒体文件的相关度，对所述至少一个第二多媒体文件进行排序。

上述各单元的功能可对应于图1至图2、图4所示流程中的相应处理步骤，在此不再赘述。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明实施例可以通过硬件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，本发明实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

本领域技术人员可以理解附图只是一个优选实施例的示意图，附图中的模块或流程并不一定是实施本发明所必须的。

本领域技术人员可以理解实施例中的装置中的模块可以按照实施例描述进行分布于实施例的装置中，也可以进行相应变化位于不同于本实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种多媒体文件相关度的确定方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，采用如下方式确定所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值：

针对每个用户的已访问多媒体文件集合，判断该已访问多媒体文件集合是否包含所述第一多媒体文件和所述第二多媒体文件，若是，则将所述第一多媒体文件和所述第二多媒体文件的关联访问次数累计一个计数单位；

将所述第一多媒体文件和所述第二多媒体文件的关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

3.如权利要求2所述的方法，其特征在于，将所述第一多媒体文件和所述第二多媒体文件的关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值，具体包括：

将所述第一多媒体文件和所述第二多媒体文件的关联访问次数进行归一化处理；

将归一化处理之后得到的归一化关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

4.如权利要求1所述的方法，其特征在于，在根据确定的所述融合参数值、所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值、内容相关度度量值，确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之前，还包括：

采用下式建立多媒体文件相关度确定模型：

Y_i＝h_θ(X_i)＝X_iθ；

其中，

Y_{i} = [\begin{matrix} y_{i 1} \\ . . . \\ y_{ij} \\ . . . \\ y_{in} \end{matrix}],

y_ij表征第一多媒体文件i与任一第二多媒体文件j的相关度，

X_{i} = [\begin{matrix} x_{i 1}^{1} & x_{i 1}^{2} \\ . . . & . . . \\ x_{ij}^{1} & x_{ij}^{2} \\ . . . & . . . \\ x_{in}^{1} & x_{in}^{2} \end{matrix}],

表征第一多媒体文件i与任一第二多媒体文件j的内容相关度，表征第一多媒体文件i与任一第二多媒体文件j的访问相关度，

θ = [\begin{matrix} α \\ β \end{matrix}],

5.如权利要求4所述的方法，其特征在于，采用如下方式确定所述融合参数值：

基于通过相关多媒体文件访问接口进行访问的多媒体文件，为所述多媒体文件相关度确定模型建立训练样本；并

基于所述训练样本确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

6.如权利要求5所述的方法，其特征在于，基于通过相关多媒体文件访问接口进行访问的多媒体文件，为所述多媒体文件相关度确定模型建立训练样本，具体包括：

从通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件中，确定预设数量的原多媒体文件作为训练样本；

基于所述训练样本确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值，具体包括：

针对作为训练样本的每个原多媒体文件，确定该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的访问相关度度量值和内容相关度度量值；

确定该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数；并

将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值；

根据作为训练样本的各原多媒体文件与各自对应的相关多媒体文件的访问相关度度量值、内容相关度度量值、相关度度量值、以及多媒体文件相关度确定模型，构造损失函数；

基于随机梯度下降算法，确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

7.如权利要求1-6任一项所述的方法，其特征在于，在确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之后，还包括：

将至少一个第二多媒体文件中的每个第二多媒体文件确定为所述第一多媒体文件的相关多媒体文件；并

按照相关度越大排序越靠前的规则，根据所述至少一个第二多媒体文件分别与所述第一多媒体文件的相关度，对所述至少一个第二多媒体文件进行排序。

8.一种多媒体文件相关度的确定设备，其特征在于，包括：

9.如权利要求8所述的设备，其特征在于，所述第一确定模块，具体用于采用如下方式确定所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值：针对每个用户的已访问多媒体文件集合，判断该已访问多媒体文件集合是否包含所述第一多媒体文件和所述第二多媒体文件，若是，则将所述第一多媒体文件和所述第二多媒体文件的关联访问次数累计一个计数单位；将所述第一多媒体文件和所述第二多媒体文件的关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

10.如权利要求9所述的设备，其特征在于，所述第一确定模块，具体用于将所述第一多媒体文件和所述第二多媒体文件的关联访问次数进行归一化处理；将归一化处理之后得到的归一化关联访问次数，确定为所述第一多媒体文件与所述第二多媒体文件的访问相关度度量值。

11.如权利要求8所述的设备，其特征在于，还包括：模型建立模块；

所述模型建立模块，用于在所述第二确定模块确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之前，采用下式建立多媒体文件相关度确定模型：

Y_i＝h_θ(X_i)＝X_iθ；

其中，

Y_{i} = [\begin{matrix} y_{i 1} \\ . . . \\ y_{ij} \\ . . . \\ y_{in} \end{matrix}],

y_ij表征第一多媒体文件i与任一第二多媒体文件j的相关度，

X_{i} = [\begin{matrix} x_{i 1}^{1} & x_{i 1}^{2} \\ . . . & . . . \\ x_{ij}^{1} & x_{ij}^{2} \\ . . . & . . . \\ x_{in}^{1} & x_{in}^{2} \end{matrix}],

θ = [\begin{matrix} α \\ β \end{matrix}],

12.如权利要求11所述的设备，其特征在于，所述第一确定模块，具体用于基于通过相关多媒体文件访问接口进行访问的多媒体文件，为所述多媒体文件相关度确定模型建立训练样本；并基于所述训练样本确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

13.如权利要求12所述的设备，其特征在于，所述第一确定模块，具体用于从通过相关多媒体文件访问接口进行访问的相关多媒体文件对应的原多媒体文件中，确定预设数量的原多媒体文件作为训练样本；针对作为训练样本的每个原多媒体文件，确定该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的访问相关度度量值和内容相关度度量值；确定该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数；并将该原多媒体文件对应的相关多媒体文件通过该原多媒体文件的相关多媒体文件接口访问的次数确定为该原多媒体文件分别与该原多媒体文件对应的相关多媒体文件的相关度度量值；根据作为训练样本的各原多媒体文件与各自对应的相关多媒体文件的访问相关度度量值、内容相关度度量值、相关度度量值、以及多媒体文件相关度确定模型，构造损失函数；并基于随机梯度下降算法，确定所述多媒体文件相关度确定模型中访问相关度和内容相关度对应的多元特征的相关度度量融合参数的值。

14.如权利要求8-13任一项所述的设备，其特征在于，还包括：排序模块；

所述排序模块，用于在确定所述第一多媒体文件与所述第二多媒体文件的相关度度量值之后，将至少一个第二多媒体文件中的每个第二多媒体文件确定为所述第一多媒体文件的相关多媒体文件；并按照相关度越大排序越靠前的规则，根据所述至少一个第二多媒体文件分别与所述第一多媒体文件的相关度，对所述至少一个第二多媒体文件进行排序。