CN106663210A

CN106663210A - 基于感受的多媒体处理

Info

Publication number: CN106663210A
Application number: CN201580035750.5A
Authority: CN
Inventors: C·鲍尔; 芦烈; 胡明清; 王珺; P·克拉姆; R·威尔逊; R·拉达克里希南
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2014-06-30
Filing date: 2015-06-24
Publication date: 2017-05-10
Anticipated expiration: 2035-06-24
Also published as: US20170133039A1; US10339959B2; CN106663210B; HK1220528A1; WO2016003735A1; US10748555B2; CN105335595A; US20190325894A1

Abstract

本文公开的示例实施例涉及基于感受的多媒体处理。公开了一种用于处理多媒体数据的方法，所述方法包括：基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取；以及至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。还公开了相应的系统和计算机程序产品。

Description

基于感受的多媒体处理

相关申请的交叉引用

本申请要求于2014年6月30日提交的中国专利申请第201410320668.4号和于2014年7月30日提交的美国临时专利申请第62/030,940号的优先权，其全部内容通过引用并入本文。

技术领域

本文公开的示例实施例总体上涉及多媒体处理，更具体地，涉及基于用户感受的多媒体数据处理。

背景技术

已经开发了用于各种目的的大量多媒体数据(音频和/或视频)数据处理算法。通常，多媒体处理算法可具有若干参数，其需要被调节以便实现最佳性能。目前，对于给定算法的参数值的选择通常由少数算法开发者来确定。然而，已经注意到，给定算法的参数值偏好可能是特定于内容的。也即，固定的参数值可能适用于特定的内容，而非所有可能的多媒体内容。由此，不同的多媒体数据可以需要通过不同的方式加以处理。例如，对话增强方法通常被应用于电影内容。如果它被用于不存在对话的音乐，可能会错误地提升某些子频带，并且引入重音色和感受不一致。类似地，如果将噪声抑制方法应用于音乐信号，将听到很强的瑕疵。

鉴于以上事实，已经开发了一些方案来根据所处理的多媒体内容，动态地调节多媒体处理算法的配置。例如，在音频领域，已经提出了一种方法，用于基于所处理的音频信号的内容类别(例如，语音，音乐，电影)来动态地控制音频处理算法，并且选择最为适当的参数值。

然而，在某些情况下，通过将多媒体内容分类为预定义的类别来控制多媒体处理可能无法优化用户体验。将会理解，诸如语音、音乐、电影的这些类别未必一定将底层算法中的变化与优选的用户体验联系在一起。例如，某些语音内容和音乐内容可能对用户感受具有相似或者相同的影响，因此应当利用相似的参数被处理。在这种情况下，利用不同的参数来处理它们反而将给用户体验带来不利影响。

由此，本领域中需要一种技术方案，能够以人类感受的最优体验来处理多媒体内容。

发明内容

为了解决上述以及其他潜在的问题，本文公开的示例实施例提出一种用于基于感受的多媒体处理的方法和系统。

一个实施例提供一种用于处理多媒体数据的方法。所述方法包括：基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取以及至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。

另一示例实施例提供一种用于处理多媒体数据的系统。所述系统包括：感受确定单元，被配置为基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取以及多媒体处理单元，被配置为至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。

通过下文描述将会理解，根据本文公开的示例实施例，人类用户的感受体验/偏好与内容的底层特征(诸如，动态范围、互相关和带宽)之间的相关性被建模和利用。通过使用与统计聚类技术结合的心理学测试，生成了感受驱动的类(cluster)。以此方式，诸如语音、音乐和电影之类的通常的语义类别被替换为底层处理算法与用户体验之间更加直接的联系。示例实施例还支持特定于内容/用户方式的动态信号处理，这对于先前标识的内容类别之外的新内容而言将是鲁棒的。本发明的实施例所带来的其他益处将通过下文描述而清楚。

附图说明

通过参考附图阅读下文的详细描述，示例实施例的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例而非限制性的方式示出了若干实施例，其中：

图1是根据本文公开的示例实施例的用于处理多媒体数据的方法的流程图；

图2是根据示例实施例的用于确定对多媒体的目标片段的用户感受的方法的流程图；

图3是根据示例实施例的基于感受类来确定用户感受的示意图；

图4是根据另一示例实施例的基于感受类来确定用户感受的示意图；

图5是根据示例实施例的用于确定对多媒体数据的目标片段的用户感受的方法的流程图；

图6是根据示例实施例的基于数据类来确定用户感受的示意图；

图7是根据另一示例实施例的基于数据类来确定用户感受的示意图；

图8是根据示例实施例的用于处理多媒体数据的系统的框图；以及

图9是适于实现示例实施例的示例计算机系统的框图。

在各个附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考附图中示出的若干示例实施例来描述本文公开的示例实施例的原理。应当理解，描述这些实施例只是为了使本领域技术人员能够更好地理解进而实现本文公开的示例实施例，而并非以任何方式限制范围。

在此使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。除非特别声明，术语“或”表示“和/或”。术语“基于”是“至少部分地基于”。语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”。其他术语的相关定义将在下文描述中给出。

图1示出了根据本文公开的示例实施例的用于处理多媒体数据的方法100的流程图。多媒体数据可以以任何适当的形式表示，包括但限于音频、视频和/或任何其他媒体内容。

如图所示，方法100开始于步骤S101，在此基于多个类而动态地确定对多媒体数据的一个片段的用户感受。特别地，根据本文公开的示例实施例，所述多个类是与关于训练多媒体数据的预定义用户感受相关联地获取的。

在某些实施例中，在步骤S101处使用的预定义类包括多个感受类(perceptualcluster)。在此使用的术语“感受类”是指对于一个或多个特定的多媒体处理算法而言，人类可能具有相似或者相同感受或偏好的多媒体内容或者数据的群组。也即，感受类是这样生成的：根据关于训练多媒体数据的预定义用户感受，直接对训练多媒体数据进行聚类。在一个特定实施例中，一个感受类中的数据可以使用具有相同处理配置的一组相同的多媒体处理算法来处理。

用户感受可以通过多种方式获得。例如，在某些实施例中，可以请人类用户体验多媒体数据的训练集，例如，收听音频和/或观看视频。继而，向用户提出特定的问题，以获得与训练多媒体数据有关的主观偏好或者反应。例如，用户可以指明他们在体验训练集中的每段内容之后的表情、情绪和/或感受的任何其他方面。还可以收集关于如何配置特定的多媒体信号处理算法的人类偏好的信息，这反映了多媒体内容被如何呈现和体验。继而，根据用户提供的回答给训练多媒体数据加标签。基于感受标签，可以对训练多媒体数据进行聚类以形成感受类。

附加地或者备选地，在某些其他实施例中，可以通过应用预定义的客观度量来检测用户感受，其形式是感受属性和/或多媒体数据的质量。可以应用在国际标准中已经提出的各种客观的音频质量测量。示例包括但不限于PEAQ(音频质量的感受评估)、客观的语音质量评价、多声道音频压缩编码系统中的感受音频质量的客观测量，等等。这种客观度量可以隐式地反映总体用户感受，并且可以通过自动的基于计算机的方式而获得。由此，可以基于一个或多个客观度量对训练集中的多媒体数据进行聚类。

除了感受类之外或者作为替代，在步骤S101处使用的预定义类可以包括多个数据类(data cluster)。在此使用的术语“数据类”是指具有相似或者相同底层信号特征的一组多媒体数据。信号特征的示例包括但不限于：动态范围、互相关、带宽，等等。一般地，在这样的实施例中，首先利用特定的特征来表示多媒体数据，该特征从多媒体数据的频域或者时域表示被导出(通常是逐帧的)。继而，向特征表示应用数据聚类算法，以便对训练多媒体数据进行聚类。例如，可以使用无督导聚类算法。在聚类时，在特征空间中靠近的多媒体信号将被分组为一个数据类。特别地，根据本文公开的示例实施例，除了底层信号特征之外，在生成数据类的同时或者在生成之后，还将把关于多媒体数据的用户感受纳入考虑。这方面的示例实施例将在下文描述。

在步骤S101，对于输入多媒体数据的任何目标片段，关于该片段的用户感受基于预定义的感受类和/或数据类而被动态确定。特别地，可以选择该片段所属的或者相关的一个或多个感受类和/或数据类。继而，与所选的类相关联的预定义用户感受可以被用来得出对该片段的感受。示例实施例将随后讨论。

如图1所示，方法100继而进行到步骤S102，在此至少部分地基于所确定的关于片段的用户感受，来处理多媒体数据的所述片段。一般地，每类用户感受与对应的处理算法配置之间的关联关系被事先确定和存储。特别地，在某些实施例中，预定义的用户感受本身可以通过对应的处理配置来表示，其形式例如是用于处理参数的一组的推荐值。

这样，在步骤S102处，可以使用在步骤S101处确定的目标片段的用户感受，来获取多媒体处理的对应配置。例如，在某些实施例中，可以基于确定的用户感受来为该片段选择适当的处理算法。备选地或附加地，可以使用确定的片段用户感受来配置处理算法，例如通过选择一个或多个参数的适当值或者通过选择执行模式。

现在将描述某些具体示例，以说明在步骤S101处如何确定对多媒体的一个片段的用户感受。图2示出了用于确定对输入多媒体数据的一个目标片段的用户感受的方法200的流程图。将会理解，方法200是步骤S101的一种具体实现。

在结合图2讨论的实施例中，在步骤S101处使用的多个预定义类包括感受类P₁,…,P_N，如上所述，它们通过基于用户感受对训练数据进行聚类而生成。在这样的实施例中，对于输入多媒体数据的特定片段x，在步骤S201处计算概率p₁,…p_N，其指示片段x属于每个感受类的可能性。

概率p₁,…p_N可以通过各种计算。在某些实施例中，可以关于感受类来计算概率，如图3所示。在这样的实施例中，任何感受类中的数据可以被表示为特征空间中的高斯混合模型(GMM)。相应地，例如，可以将概率p₁,…p_N中的每一个如下计算为后验概率：

其中x表示目标片段的特征表示，P_i表示第i个感受类，p(x|P_i)表示x属于类P_i的可能性，p(P_i)表示先验概率，并且p(P_i|x)表示最终的后验概率。

在一个实施例中，可能性p(x|P_i)可以直接在特征空间中被计算。然而，将会理解，在某些情况下，特征空间可能并未很好地代表感受的相似性。换言之，在特征空间中相似的信号可能并不意味着相似的感受上偏好的参数值。因此，在备选实施例中，将构造和使用“感受空间”。在此使用的术语“感受空间”是指这样的空间，该空间中的任何两个信号的距离表示这两个信号的感受相似性。通过将片段的信号变换到感受空间中并且在感受空间中计算概率，能够获得对概率p_i的更好的估计以及随后更为适当的参数。

为了将特征空间变换为感受空间，在一个实施例中，通过最小化如下目标函数来确定变换矩阵A：

其中y_i＝A^Tx_i表示变换后的空间中的向量，并且W＝[w_ij]表示定义信号x_i和x_j的感受相似性的矩阵。系数w_ij可以根据感受类而获得。例如，在一个实施例中，如果x_i和x_j被分配到相同的感受类中，则w_ij被设置为1，否则被设置为0。备选地，基于与x_i和x_j对应的优选参数值的相似性，可以将系数w_ij设置为0到1之间的值。

以此方式，确保如果两个信号x_i和x_j在感受上是相似的(也即，具有较大的w_ij)，则其对应的投影y_i和y_j在感受空间中也是靠近的。由于系数w_ij是基于用户感受而得出的，因此片段的原始特征表示可被变换到感受空间中，其中相邻的信号具有感受上相似的属性并且因此导致相似的处理设置。

在一个实施例中，使得目标函数(2)最小化的解通过保局投影(LocalityPreserving Projection，LPP)来求解，更具体地说，是通过求解如下广义特征值问题而求解的：

XLX^Ta＝λXDX^Ta (3)

其中矩阵L和D(对角矩阵)根据W＝[w_ij]得到并且可以被定义为D_ii＝∑_jw_ji and L＝D-W，X表示通过拾取原始特征空间中的特征x_i的矩阵，获得的a是形成变换矩阵A的列向量并且表示投影方向。除了如上所述的线性变换之外，也可以使用核LPP来获得非线性的空间变换。

取代直接将原始特征空间投影到感受空间中，在备选实施例中，可以使用大边际近邻分析(Large Margin Nearest Neighbor，LMNN)来保持感受的相似性。LMNN特别地针对k个最近邻居而学习马氏(Mahanalobis)距离，其目标是k个最近的邻居总是属于相同的类，而来自不同类的样本由大边际隔开。在此实施例中，可以使用下面公式中所示的优化距离度量来计算公式(1)中所定义的概率，例如通过将高斯分布中的欧氏距离替换为优化距离。

d(x_i,x_j)＝(x_i-x_j)^TM(x_i-x_j) (4)

将会理解，学习到的矩阵M是对称的，并且可以被分解为A^TA，这等效于利用映射变换A将原始特征空间映射为新的空间。

特别地，对于具有低计算复杂性要求的那些应用，可以将预定义的感受类存储在具有特定哈希函数的哈希表中。一般地，哈希函数可被用于关于一个查询而在数据库中定位相似的数据。也即，哈希函数被设计为将相似的数据映射到区别至多为m的哈希值，其中m是一个较小的整数(例如，1或者2)，使得相似的数据可以被放置在相同的数据桶(bucket)中或者相近的数据桶中。哈希的一个典型应用是指纹算法，它被用来在大集合中搜索相似的音频信号。可以利用经过哈希处理的类数据来简化p(P_i|x)的计算。例如，在一个实施例中，考虑位于相同的桶中作为被处理的多媒体数据或者相近桶中的感受类。也即，计算与这些感受类相关的概率。对于其他感受类，概率可以直接设置为0。备选地，可以在查询所在的桶中搜索最近的类。

给定概率p₁,…,p_N，在步骤S202，根据计算出的概率p₁,…,p_N确定关于片段的用户感受。例如，在某些实施例中，可以将与具有最大概率的感受类相关联的预定义用户感受，确定为对正在处理的片段的感受。备选地，可以选择具有最大概率的多个感受类，并且将其关联的预定义用户感受合并，以得出关于目标片段的感受。

如上所述，在某些实施例中，用户感受可以被表示为对应的处理配置v_i。例如，v_i可以是用于处理参数的一组值。由此，每个感受类还与对应的配置v_i相对应，如图3所示。在这样的实施例中，可以应用一个控制函数g(p₁,…p_N；v₁,…v_N)，以便确定用于目标片段x的优化配置v*。例如，在一个实施例中，可以选择对应于最大概率的配置。也即，控制函数被定义如下：

g(p₁,...p_N；v₁,...,v_N)＝v_i* (5)

其中i*＝argmax_i(p_i)。备选地，可以通过v_i的加权平均来为所处理的片段确定配置。在此实施例中，控制函数定义如下：

任何其他适当的控制函数同样是可行的。

将会理解，一般而言，在生成感受类P₁,…,P_N时，需要紧致而多样的多媒体数据训练集。需要“紧致”是为了降低添加感受标签的过度人工操作，而需要“多样”是为了确保数据覆盖，并且降低在控制过程中出现没有遇到过的数据的风险。例如，如果训练数据集无法覆盖多样的内容，则正在处理的新的信号可能无法找到与之匹配的适当的感受类。然而，有时很难人工选择紧致而多样的训练集。

为了在训练数据的紧致性与多样性之间取得较好的权衡，在某些实施例中，与感受类相互结合地使用多个数据类，这些数据类基于多媒体数据的一个或多个底层信号特征而生成。特别地，假设具有M个数据类C₁,…,C_M和N个感受类P₁,…,P_N。在训练阶段，可以由两个独立的聚类过程生成数据类和感受类，这两个独立的聚类过程在各自的训练多媒体数据集上执行。在一个实施例中，用于生成数据类的训练数据集的大小可以大于用于生成感受类的训练数据集的大小。这将是有益的，因为数据类的生成可以在没有人类用户干预的情况下完成，并且较大的训练数据集将有助于实现更好的数据覆盖。因此，在某些情况下，数据类的数目可大于感受类的数目，即，M>N。

在这样的实施例中，在步骤S201处，概率p₁,…,p_N基于数据类和感受类二者来计算。如图4所示，对于多媒体数目的目标片段x，计算一组概率h₁,…,h_M，其指示所处理的片段x属于数据类C_i(i＝1,…,M)的可能性。例如，这些概率可以基于如公式(1)中所示的GMM后验概率而计算。继而，至少部分地基于概率h₁,…,h_M来计算片段x属于感受类P₁,…,P_N的概率p₁,…,p_N。

为此，在一个实施例中，使用多个数据类定义的空间作为“锚空间”。将会理解，在由数据类定义的空间中，概率h₁,…,h_M可被认为是片段x的表示。也即，向量(h₁,…,h_M)表示片段x在该空间中的坐标。同时，多个感受类P₁,…,P_N被映射到锚空间中。通过使用在每个感受类中的多媒体信号的特征表示，映射是直接的，并且可以再次使用相同的GMM后验概率。对于每个感受类，可以获得一组映射值q₁,…,q_M。这样，感受类P_i可以被表示为锚空间中的向量(q₁,…,q_M)。继而，可以基于向量(h₁,…,h_M)与(q₁,…,q_M)之间的相似性，来计算片段x属于感受类P_i的概率p_i。

可以使用各种方式来得出(h₁,…,h_M)与(q₁,…,q_M)之间的相似性。例如，在一个实施例中，可以使用基于高斯的相似性，其定义如下：

备选地，可以使用S函数，其定义如下：

在上面的公式(7)和(8)中，例如，变量σ²可以人工调节，并且获得的概率p_i可以进一步被归一化。此外，在指数部分中应用的欧式距离(∑_j(h_j-q_j)²)可以被替换为任何其他的距离度量。例如，可以使用如下对称KL散度：

作为另一备选，可以使用如下狄氏(Dirichlet)距离：

替代使用由数据类定义的空间作为锚空间，在备选实施例中，可以计算数据类C₁,…,C_M与感受类P₁,…,P_N之间的类相似性(cluster similarity)。例如，一个数据类与一个感受类之间的相似性可以根据这两个类中的数据(或者对应的特征)而得出，例如通过使用由公式(7)定义的高斯函数或者由公式(8)定义的S函数，其中h_j和q_j被替换为相应的数据特征。再一次，为了得到较好的距离度量，在一个实施例中，上文描述的LLP和LMNN可被应用，以便将原始特征空间变换到感受空间中，或者学习原始空间中的较好度量。

继而，可以根据一个概率模型，基于概率h₁,…,h_M和类相似性来计算概率p₁,…,p_N。例如，在一个实施例中，概率p_i可以基于贝叶斯模型而如下计算：

其中p(C_i|x)表示片段x属于数据类C_j的概率(即，h_j)，并且p(P_i|C_j)表示数据类C_j与感受类P_i相关的概率。p(P_i|C_j)基于P_i与C_j之间的相似性而计算，例如通过如下方式：

其中s(P_i,C_j)表示感受类P_i与数据类C_j之间的相似性。

通过w_ij＝p(P_i|C_j)的矩阵W以及两个向量h＝(h₁,…h_M)^T和p＝(p₁,…,p_N)^T，概率p₁,…,p_N的计算可以通过简单的矩阵乘法完成：

p＝Wh (13)

可以看到，在结合图2描述的实施例中，对于给定片段的感受至少部分地基于预定义的感受类而被确定。备选地，在其他实施例中，可以基于数据类来确定感受，这些数据类在训练阶段被注入了用户感受。图5示出了这样的一个方法500的流程图。将会理解，方法500是方法100中的步骤S101的另一类实现。

在结合方法500描述的实施例中，在步骤S101处使用的多个预定义类包括多个数据类，这些数据类至少部分地基于信号特征而被获得。例如，在训练阶段，可以建立包含多个多样性多媒体数据的大训练集，以便确保多样性/覆盖。继而，例如可以通过无督导聚类来生成数据类。

在步骤S501，基于片段的特征，片段x属于多个数据类C₁,…,C_M的概率h₁,…,h_M。概率例如可以基于公式(1)中所定义的GMM后验概率来计算。可选地，同样可以应用上文描述的LLP和LMNN，以便将原始特征空间变换到感受空间，或者在原始空间中学习较好的度量。可选地，在某些实施例中，可以使用哈希表来加速搜索过程。

相对于数据类的概率h₁,…,h_M能够指导基于感受的多媒体处理，这是因为在参考图5讨论的实施例中，数据类C₁,…,C_M在训练阶段被注入了预定义的用户感受(其形式例如是相应的处理配置)。关于用户感受的信息可以通过各种方式被注入数据类。下面将分别参考图6和图7描述两个示例实施例。

参考图6，在某些实施例中，向通过数据聚类过程而获得的每个数据类显式地指派预定义的用户感受。在一个实施例中，在数据类被生成之后，可以从每个数据类中选择一个或多个代表性信号，以便由人类用户添加感受标签。针对所选择的代表性信号而获得的标签和/或偏好处理配置v_i被指派回整个数据类。由此，如图6所示，数据类C₁,…,C_M分别与基于感受的处理配置v₁,…,v_M相关联。附加地或者备选地，可以将具有相同标签的数据类进一步合并，以生成更大的类。即，在图6所示的实施例中，用户感受信息在数据类生成之后被注入。

备选地，在其他实施例中，预定义的用户感受在可以在数据聚类过程中被合并到数据类中。在这样的实施例中，数据类的生成不仅基于信号特征，还基于从用户感受的先验知识得出的一个或多个感受约束(perceptual constraints)。特别地，在一个实施例中，感受约束可以从多个感受类得出，这些感受类是基于感受标签等预定义用户感受而生成的。也即，感受聚类可被用于促进感受约束的生成。

如图7所示，在一个实施例中，可以向相对较小的多媒体数据训练集(图7中的“数据集1据)应用感受聚类，以获得形式上为感受类的感受知识。继而，可以向独立的、较大的训练集(图7中的“数据集2据)应用半督导聚类以生成数据类，其中可用的感受类被作为约束。以此方式，数据类的生成将预定义的用户感受纳入考虑。由此，每个得到的数据类与一个或多个感受类相关。例如，如果信号x_i和x_j由于被分配到相同的感受类P_j中而被分配到了相同的数据类C_i中，则数据类C_i与感受类P_j相关。相应地，可以将与P_j相关联的用户感受知识(例如，感受标签)传递给C_i。

将会理解，在感受约束之下的数据类生成可以被视为一个半督导聚类过程。可以使用各种方式。在一个实施例中，使用相似性调整方法。采用使用特定相似性测量的已有聚类算法，其中相似性测量将被调整以便将可用的感受约束纳入考虑。例如，如果两个信号x_i和x_j属于相同的感受类，则感受约束可以规定：这两个信号应当被聚类到相同的数据类中。作为示例，如上所述的LPP和LMNN可以被视作两种调整方法。

在另一实施例中，可以采用基于搜索的方法。在此实施例中，修改聚类算法本身，使得添加过标签的感受数据可被用于偏移针对适当聚类的搜索。这可以通过各种方式实现，例如通过在代价函数中包括针对与指定约束的兼容性的缺乏的惩罚。作为示例，在一个实施例中，可以使用基于局部和全局一致性的半督导聚类方法。定义n乘c的标签矩阵Y，其中如果x_i被添加标签为y_i＝j则Y_ij＝1，否则Y_ij＝0。而且，定义估计矩阵F＝[F_ij]，其中为x_i添加标签y_i＝argmax_jF_ij，其中n表示数据的数目，并且c表示类的数据。聚类例如可以通过如下步骤来完成：

1.形成关联矩阵W，其如下定义：如果i≠j，则W_ij＝exp(-|x_i-x_j|²/2σ²)，并且W_ii＝0；

2.构造矩阵S＝D^-1/2WD^-1/2，其中D是对角矩阵，其元素(i,i)等于W的第i行的和；

3.迭代F(t+1)＝αSF(t)+(1-α)Y直到收敛，其中α是(0,1)中的参数；

4.令F*表示序列{F(t)}的极限。为每个点x_i添加标签

y_i＝

在收敛之后，F^*＝(1-α)(I-αS)^-1Y是直接的矩阵操作，没有任何迭代。可选地，在某些实施例中，由LLP获得的变换矩阵或者由LMNN学习的新度量可以在上面的第一个步骤中被直观地应用。

仍然参考图5，方法500继而进行到步骤S502，在此根据计算的概率h₁,…,h_M来确定关于片段的用户感受。将会理解，给定概率h₁,…,h_M以及与数据类相关联的感受知识，例如可以按照上文参考方法200的步骤S202所描述的类似方式，来确定关于目标片段的用户感受。

图8示出了根据本文公开的示例实施例的用于处理多媒体数据的系统800的框图。如图所示，系统800包括感受确定单元801，被配置为基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取。系统800还包括多媒体处理单元802，被配置为至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。

在某些示例实施例中，所述多个类至少包括多个感受类，所述多个感受类至少部分地基于所述预定义用户感受而被生成。所述系统800还可以包括：第一概率计算单元，被配置为计算所述片段属于所述多个感受类的第一组概率。所述感受确定单元801被配置为基于所述第一组概率确定关于所述片段的所述用户感受。

在某些示例实施例中，系统800还包括信号变换单元，被配置为将所述片段的信号变换到感受空间，在所述感受空间中，两个信号之间的距离表示所述信号的感受相似度。在这样的实施例中，所述第一概率计算单元被配置为在所述感受空间中，基于所述片段的变换后的信号来计算所述第一组概率。

在某些示例实施例中，所述多个类还包括多个数据类，所述多个数据类基于信号特征而生成。所述系统800还包括第二概率计算单元，被配置为基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的第二组概率。在这样的实施例中，所述第一概率计算单元被配置为至少部分地基于所述第二组概率来计算所述第一组概率。

在某些示例实施例中，系统800还包括映射单元，被配置为将所述多个感受类映射至由所述多个数据类定义的空间以获得一组映射值，所述一组映射值是所述多个感受类在所述空间中的表示。在这样的实施例中，所述第一概率计算单元被配置为基于所述第二组概率和所述一组映射值之间的相似性来计算所述第一组概率。

在某些示例实施例中，系统800还包括类相似性确定单元，被配置为确定所述多个数据类与所述多个感受类之间的一组类相似性。在这样的实施例中，所述第一概率计算单元被配置为根据一个概率模型，基于所述第二组概率和所述一组类相似性，来计算所述第一组概率。

在某些示例实施例中，所述多个感受类从多媒体数据的第一训练集生成，并且所述多个数据类从多媒体数据的第二训练集生成，所述第二训练集的大小大于所述第一训练集的大小。

备选地，所述多个类包括多个数据类，所述多个数据类与所述预定义用户感受相关联地、至少部分地基于信号特征而获得。所述系统800还包括第三概率计算单元，被配置为至少部分地基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的一组概率。在这样的实施例中，所述感受确定单元801被配置为基于所述一组概率来确定关于所述片段的所述用户感受。

在某些示例实施例中，所述预定义用户感受在所述多个数据类的生成时与所述多个数据类相关联。备选地，在某些实施例中，所述多个数据类基于所述信号特征与感受约束而生成，所述感受约束从所述预定义用户感受得出。

在某些示例实施例中，系统800还包括配置获取单元，被配置为基于所确定的关于所述片段的所述用户感受而获取处理配置。在这样的实施例中，所述多媒体处理单元被配置为使用获取的所述处理配置来处理所述多媒体数据的所述片段。

应当理解，为清晰起见，在图8中没有示出系统800的某些可选部件。然而，应当理解，上文描述的所有特征适用于系统800。而且，系统800中的各部件可以是硬件模块，也可以是软件单元模块。例如，在某些实施例中，系统800可以部分或者全部利用软件和/或固件来实现，例如被实现为包含在计算机可读介质上的计算机程序产品。备选地或附加地，系统800可以部分或者全部基于硬件来实现，例如被实现为集成电路(IC)、专用集成电路(ASIC)、片上系统(SOC)、现场可编程门阵列(FPGA)等。本文公开的示例实施例的范围在此方面不受限制。

图9示出了适于用来实现本文公开的示例实施例的计算机系统900的示意性框图。如图所示，计算机系统900包括中央处理单元(CPU)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储单元908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有设备900操作所需的各种程序和数据。CPU901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)单元905也连接至总线904。

以下部件连接至I/O接口905：包括键盘、鼠标等的输入部分906；包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907；包括硬盘等的存储部分908；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可移动介质911，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动910上，以便于从其上读出的计算机程序根据需要被安装入存储部分908。

特别地，根据本文公开的示例实施例，上文描述的各个过程可以被实现为计算机软件程序。例如，本文公开的示例实施例包括一种计算机程序产品，其包括有形地包含在机器可读介质上的计算机程序，所述计算机程序包含用于执行各方法的程序代码。在这样的实施例中，该计算机程序可以通过通信单元909从网络上被下载和安装，和/或从可拆卸存储单元911被安装。

一般而言，本文公开的各种示例实施例可以在硬件或专用电路、软件、逻辑，或其任何组合中实施。某些方面可以在硬件中实施，而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本文公开的示例实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时，将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备，或其某些组合中实施。

而且，流程图中的各框可以被看作是方法步骤，和/或计算机程序代码的操作生成的操作，和/或理解为执行相关功能的多个耦合的逻辑电路元件。例如，本文公开的示例实施例包括计算机程序产品，该计算机程序产品包括有形地实现在机器可读介质上的计算机程序，该计算机程序包含被配置为实现上文描述方法的程序代码。

在本公开的上下文中，机器可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备，或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备，或其任意合适的组合。

用于实现本文公开的示例实施例的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的数据处理装置的处理器，使得程序代码在被计算机或其他可编程的数据处理装置执行的时候，引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。

另外，尽管操作以特定顺序被描绘，但这并不应该理解为要求此类操作以示出的特定顺序或以相继顺序完成，或者执行所有图示的操作以获取期望结果。在某些情况下，多任务或并行处理会是有益的。同样地，尽管上述讨论包含了某些特定的实施细节，但这并不应解释为限制任何本文公开的示例实施例或权利要求的范围，而应解释为对可以针对本文公开的特定示例实施例的描述。本说明书中在分开的实施例的上下文中描述的某些特征也可以整合实施在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以分离地在多个实施例或在任意合适的子组合中实施。

针对前述本文公开的示例实施例的各种修改、改变将在连同附图查看前述描述时对相关技术领域的技术人员变得明显。任何及所有修改将仍落入非限制的和本文公开的示例实施例范围。此外，前述说明书和附图存在启发的益处，涉及本文公开的这些示例实施例的技术领域的技术人员将会想到此处阐明的本文公开的其他示例实施例。

本文公开的示例实施例可以通过在此描述的任意形式来实现。例如，下面的枚举示例实施例(EEE)描述了本文公开的示例实施例的某些方面的某些结构、特征和功能。

EEE 1.一种用于控制多媒体处理算法的方法，包括多媒体信号的感受类，其中参数的向量被指派给每个类。

EEE 2.根据EEE 1所述的方法，其中感受类通过心理测试或者使用客观感受度量被找到，并且其中关于感受标签和/或度量靠近的多媒体信号被认为属于相同的感受类。

EEE 3.根据EEE 1和2所述的方法，其中参数向量和感受度量二者可以包含或者导出自描述以下至少一个的值：关于如何配置特定的多媒体信号处理算法的人类偏好的信息；在体验多媒体信号时的人类的主观信息，诸如表情或情绪；使用特定度量以导出多媒体信号的感受属性的自动或计算机化测试。

EEE 4.根据EEE 1-3所述的方法，其中被处理的多媒体信号利用一个算法被指派到一个或多个感受类，该算法计算信号属于特定感受类的概率，并且其中优化参数向量被估计，以动态地控制和配置多媒体处理算法。

EEE 5.根据EEE 4所述的方法，其中概率在变换的空间中被计算，例如通过保局映射(LLP)和/或利用基于感受类的感受度量，例如通过大边际近邻分析(LMNN)。

EEE 6.根据EEE 4-5所述的方法，其中对最佳参数值的搜索和概率计算可以通过哈希搜索来简化。

EEE 7.一种用于控制多媒体处理算法的方法，包括多媒体信号的数据类，其中参数的向量被指派给每个类。

EEE 8.根据EEE 7所述的方法，其中数据类通过无督导学习算法找到，该算法分析多媒体信号的特征表示。

EEE 9.根据EEE 7和8所述的方法，其中参数向量和感受度量二者可以包含或者导出自描述以下至少一个的值：关于如何配置特定的多媒体信号处理算法的人类偏好的信息；在体验多媒体信号时的人类的主观信息，诸如表情或情绪；使用特定度量以导出多媒体信号的感受属性的自动或计算机化测试。

EEE 10.根据EEE 9所述的方法，其中被处理的多媒体信号利用一个算法被指派到一个或多个数据类，该算法计算信号属于特定数据类的概率，并且其中优化参数向量被估计，以动态地控制和配置多媒体处理算法。

EEE 11.根据EEE 10所述的方法，其中概率在变换的空间中被计算，例如通过保局映射(LLP)和/或利用基于感受类的感受度量，例如通过大边际近邻分析(LMNN)。

EEE 12.根据EEE 10-11所述的方法，其中对最佳参数值的搜索和概率计算可以通过哈希搜索来简化。

EEE 13.一种用于控制多媒体处理算法的方法，包括数据类和感受类二者，以及一个映射函数，该映射函数将多么提信号的数据类映射至多媒体信号的感受类。

EEE 14.根据EEE 13所述的方法，其中数据类通过无督导学习算法找到，该算法分析多媒体信号的特征表示。

EEE 15.根据EEE 13所述的方法，其中感受类通过心理测试或者使用客观感受度量被找到，并且其中关于感受标签和/或度量靠近的多媒体信号被认为属于相同的感受类。

EEE 16.根据EEE 15所述的方法，其中感受度量测量以下某些或者全部之间的距离：关于如何配置特定的多媒体信号处理算法的人类偏好的信息，其影响多媒体内容被如何呈现和体验；在体验多媒体信号时的人类的主观信息，其进一步包括由人类提供的社交标签，诸如其表情，以及来自包括用于针对给定的感受类标识典型音频片段的协作滤波技术的聚集的学习，或反之；使用特定度量以导出多媒体信号的感受属性的自动或计算机化测试。

EEE 17.根据EEE 13-16所述的方法，其中特定参数被指派到感受类，并且特定参数可以包含或导出自EEE 16所列的值。

EEE 18.根据EEE 17所述的方法，其中特定参数值可以被用来动态地控制多媒体处理算法。

EEE 19.根据EEE 18所述的方法，其中多媒体信号使用算法被指派给一个或多个数据类，该算法计算信号属于特定数据类的概率，并且通过EEE 13中定义的映射函数被映射至一个或多个感受类，并且其中优化参数向量被估计以控制多媒体处理算法。

EEE 20.根据EEE 13和19所述的方法，其中映射函数在由数据类平移的空间中被计算。

EEE 21.根据EEE 13和19所述的方法，其中映射函数基于概率模型和多个数据类与多个感受类之间的一组类相似性而被计算。

EEE 22.根据EEE 20-21所述的方法，其中映射函数可以通过哈希搜索来简化。

EEE 23.一种用于控制多媒体处理算法的方法，包括感受类和一组多媒体信号的标签，并且包括学习算法，用以基于信号特征和感受约束来生成数据类，感受约束从已知的感受类/标签导出。

EEE 24.根据EEE 23所述的方法，其中关于感受度量靠近的多媒体信号被认为属于相同的感受类。

EEE 25.根据EEE 24所述的方法，其中感受度量测量以下某些或者全部之间的距离：关于如何配置特定的多媒体信号处理算法的人类偏好的信息，其影响多媒体内容被如何呈现和体验；在体验多媒体信号时的人类的主观信息，其进一步包括由人类提供的社交标签，诸如其表情，以及来自包括用于针对给定的感受类标识典型音频片段的协作滤波技术的聚集的学习，或反之；使用特定度量以导出多媒体信号的感受属性的自动或计算机化测试。

EEE 26.根据EEE 23-25所述的方法，其中可被用来控制和配置音频处理算法的特定参数被指派到感受类，并且特定参数可以包含或导出自EEE 25所列的值。

EEE 27.根据EEE 23-26所述的方法，其中学习算法是半督导聚类。

EEE 28.根据EEE 23-25所述的方法，其中多媒体信号使用算法被指派给一个或多个数据类，该算法计算信号属于特定感受类的概率，并且其中优化参数向量被估计以动态地控制和配置多媒体处理算法。

EEE 29.根据EEE 28所述的方法，其中概率在变换的空间中被计算，例如通过保局映射(LLP)和/或利用基于感受类的感受度量，例如通过大边际近邻分析(LMNN)。

EEE 30.根据EEE 28-29所述的方法，其中对最佳参数值的搜索或者概率计算可以通过哈希搜索来简化。

将会理解，本文公开的示例实施例不限于公开的特定实施例，并且修改和其他实施例都应包含于所附的权利要求范围内。尽管此处使用了特定的术语，但是它们仅在通用和描述的意义上使用，而并不用于限制目的。

Claims

1.一种用于处理多媒体数据的方法，所述方法包括：

基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取；以及

至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。

2.根据权利要求1所述的方法，其中所述多个类至少包括多个感受类，所述多个感受类至少部分地基于所述预定义用户感受而被生成，并且其中自动地确定关于所述片段的所述用户感受包括：

计算所述片段属于所述多个感受类的第一组概率；以及

基于所述第一组概率确定关于所述片段的所述用户感受。

3.根据权利要求2所述的方法，其中计算所述第一组概率包括：

将所述片段的信号变换到感受空间，在所述感受空间中信号之间的距离表示信号的感受相似度；

在所述感受空间中，基于所述片段的变换后的信号来计算所述第一组概率。

4.根据权利要求2所述的方法，其中所述多个类还包括多个数据类，所述多个数据类基于信号特征而生成，并且其中计算所述第一组概率包括：

基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的第二组概率；以及

至少部分地基于所述第二组概率来计算所述第一组概率。

5.根据权利要求4所述的方法，其中至少部分地基于所述第二组概率来计算所述第一组概率包括：

将所述多个感受类映射至由所述多个数据类定义的空间以获得一组映射值，所述一组映射值是所述多个感受类在所述空间中的表示；以及

基于所述第二组概率和所述一组映射值之间的相似性来计算所述第一组概率。

6.根据权利要求4所述的方法，其中至少部分地基于所述第二组概率来计算所述第一组概率包括：

确定所述多个数据类与所述多个感受类之间的一组类相似性；以及

根据一个概率模型，基于所述第二组概率和所述一组类相似性来计算所述第一组概率。

7.根据权利要求4到6任一项所述的方法，其中所述多个感受类从多媒体数据的第一训练集生成，并且其中所述多个数据类从多媒体数据的第二训练集生成，所述第二训练集的大小大于所述第一训练集的大小。

8.根据权利要求1所述的方法，其中所述多个类包括多个数据类，所述多个数据类与所述预定义用户感受相关联地、至少部分地基于信号特征而获得，并且其中自动地确定关于所述片段的所述用户感受包括：

至少部分地基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的一组概率；以及

基于所述一组概率来确定关于所述片段的所述用户感受。

9.根据权利要求8所述的方法，其中所述预定义用户感受在所述多个数据类的生成时与所述多个数据类相关联。

10.根据权利要求8所述的方法，其中所述多个数据类基于所述信号特征与感受约束而生成，所述感受约束从所述预定义用户感受得出。

11.根据权利要求1所述的方法，其中处理所述多媒体数据的所述片段包括：

基于所确定的关于所述片段的所述用户感受而获取处理配置；以及

使用获取的所述处理配置来处理所述多媒体数据的所述片段。

12.一种用于处理多媒体数据的系统，所述系统包括：

感受确定单元，被配置为基于多个类而自动地确定关于所述多媒体数据的片段的用户感受，所述多个类与预定义用户感受相关联地被获取；以及

多媒体处理单元，被配置为至少部分地基于所确定的关于所述片段的所述用户感受，处理所述多媒体数据的所述片段。

13.根据权利要求12所述的系统，其中所述多个类至少包括多个感受类，所述多个感受类至少部分地基于所述预定义用户感受而被生成，并且所述系统还包括：

第一概率计算单元，被配置为计算所述片段属于所述多个感受类的第一组概率，

其中所述感受确定单元被配置为基于所述第一组概率确定关于所述片段的所述用户感受。

14.根据权利要求13所述的系统，还包括：

信号变换单元，被配置为将所述片段的信号变换到感受空间，在所述感受空间中信号之间的距离表示信号的感受相似度，

其中所述第一概率计算单元被配置为在所述感受空间中，基于所述片段的变换后的信号来计算所述第一组概率。

15.根据权利要求13所述的系统，其中所述多个类还包括多个数据类，所述多个数据类基于信号特征而生成，所述系统还包括：

第二概率计算单元，被配置为基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的第二组概率，

其中所述第一概率计算单元被配置为至少部分地基于所述第二组概率来计算所述第一组概率。

16.根据权利要求15所述的系统，还包括：

映射单元，被配置为将所述多个感受类映射至由所述多个数据类定义的空间以获得一组映射值，所述一组映射值是所述多个感受类在所述空间中的表示，

其中所述第一概率计算单元被配置为基于所述第二组概率和所述一组映射值之间的相似性来计算所述第一组概率。

17.根据权利要求15所述的系统，还包括：

类相似性确定单元，被配置为确定所述多个数据类与所述多个感受类之间的一组类相似性，

其中所述第一概率计算单元被配置为根据一个概率模型，基于所述第二组概率和所述一组类相似性，来计算所述第一组概率。

18.根据权利要求15到17任一项所述的系统，其中所述多个感受类从多媒体数据的第一训练集生成，并且其中所述多个数据类从多媒体数据的第二训练集生成，所述第二训练集的大小大于所述第一训练集的大小。

19.根据权利要求12所述的系统，其中所述多个类包括多个数据类，所述多个数据类与所述预定义用户感受相关联地、至少部分地基于信号特征而获得，所述系统还包括：

第三概率计算单元，被配置为至少部分地基于所述片段的所述信号特征，计算所述片段属于所述多个数据类的一组概率，

其中所述感受确定单元被配置为基于所述一组概率来确定关于所述片段的所述用户感受。

20.根据权利要求19所述的系统，其中所述预定义用户感受在所述多个数据类的生成时与所述多个数据类相关联。

21.根据权利要求19所述的系统，其中所述多个数据类基于所述信号特征与感受约束而生成，所述感受约束从所述预定义用户感受得出。

22.根据权利要求12所述的系统，还包括：

配置获取单元，被配置为基于所确定的关于所述片段的所述用户感受而获取处理配置，

其中所述多媒体处理单元被配置为使用获取的所述处理配置来处理所述多媒体数据的所述片段。

23.一种用于处理多媒体数据的计算机程序产品，所述计算机程序产品被有形地存储在非瞬态计算机可读介质上，并且包括机器可执行指令，所述指令在被执行时使得所述机器执行根据权利要求1到11任一项所述的方法的步骤。