CN106462807A

CN106462807A - 根据大规模非结构化数据学习多媒体语义

Info

Publication number: CN106462807A
Application number: CN201580021255.9A
Authority: CN
Inventors: 华先胜; 李劲; 牛久祥孝
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2014-04-30
Filing date: 2015-04-24
Publication date: 2017-02-22
Anticipated expiration: 2035-04-24
Also published as: CN106462807B; US9875301B2; US20150317389A1; EP3138051A1; WO2015167942A1

Abstract

本文中描述了用于根据非结构化数据来学习话题模型并应用所学习的话题模型来识别针对新数据项的语义的系统和方法。在至少一个实施例中，与标签的集合相关联的多媒体数据项的语料库可以被处理以生成与标签的集合相关联的经提炼的多媒体数据项的语料库。这样的处理可以包括基于所提取的多媒体特征的相似度来将多媒体数据项布置在簇中并生成簇内特征和簇间特征。簇内特征和簇间特征可以用于将多媒体数据项从语料库移除以生成经提炼的语料库。经提炼的语料库可以被用于训练用于识别标签的话题模型。得到的模型可以被存储并在随后被用于识别由用户输入的多媒体数据项的语义。

Description

根据大规模非结构化数据学习多媒体语义

背景技术

大多数计算机操作涉及两种类型的数据：结构化数据和非结构化数据。结构化数据具有高度的组织，从而使关系数据库中的内含物平整并且可容易地由简单搜索引擎算法搜索。例如，电子表格包括结构化数据，因为数据驻存在电子表格文件内的固定字段，从而提供对固定字段中的信息的快速且容易的访问。另一方面，非结构化数据包括具有内部结构的文本和多媒体内容，但是缺乏整洁地适合于关系数据库中的能力。非结构化数据的示例包括电子邮件、文字处理文档、视频、照片、音频文件、演示文稿、网页、微博、x射线、等等。

当前数据挖掘技术需要大量资源投入来分析和提取来自非结构化数据的有意义的数据元素。例如，用于从非结构化多媒体数据中挖掘语义的当前数据挖掘技术依赖于可用的带标签的训练数据。带标签的训练数据包括提供与非结构化多媒体数据相关的信息的用户生成的标签、类别、和/或元数据。一些语义挖掘方法基于与非结构化多媒体数据相关联的标签、类别、和/或元数据来识别语义。其他语义挖掘方法使用与非结构化多媒体数据相关联的注解来收集来自非结构化多媒体数据的意义或者通过使用簇信息和/或非结构化多媒体数据的上下文来识别语义。最近，来自搜索引擎的点击日志已经被用于提供生成用于识别与非结构化多媒体数据相关联的语义的训练数据的有效的方式。

发明内容

本公开描述用于根据在互联网上可用的非结构化数据来学习话题模型并应用所学习的模型来标识针对新数据项的语义的系统和方法。在至少一个实施例中，可以接收多媒体数据项的语料库，其中每个数据项与标签的集合中的标签相关联。多媒体数据项的语料库可以被处理以生成与标签的集合相关联的经提炼的多媒体数据项的语料库。这样的处理可以包括基于所提取的多媒体特征的相似度来将多媒体数据项布置在簇中并生成相关特征。在至少一个实施例中，簇内特征和簇间特征可以被使用。簇内特征可以表示在簇中的多媒体数据项的配对之间的成对距离的分布特性。簇间特征可以表示在与标签相关联的多媒体数据项的簇和与其他标签相关联的多媒体数据项的其他簇之间的距离的分布特性。簇内特征和簇间特征可以在将多媒体数据项从语料库移除中被使用以生成经提炼的语料库。经提炼的语料库可以被用于训练用于识别标签的模型。

在至少一个实施例中，系统和方法可以被配置为识别多媒体数据项的语义。用户可以将多媒体数据项输入到本文描述的系统中并且指定与多媒体数据项相关联的话题。系统可以应用一个或多个模型来确定与所输入的多媒体数据项相关联的标签并且可以将结果输出给用户。输出给用户的结果可以包括通过应用模型来识别多媒体数据项的语义而确定的标签。

提供本发明内容从而以简化的形式介绍下面在具体实施方式中进一步描述的一系列构思。本发明内容不旨在确定要求保护的主题的关键特征或必要特征，也不旨在用于限制要求保护的主题的范围。

附图说明

参考附图阐述具体实施方式，其中附图标记的最左边的数字识别附图标记首次出现在其中的附图。在相同的或不同的附图中对相同的附图标记的使用指示相似的或相同的项或特征。

图1是示出用于根据非结构化数据来学习话题模型并应用所学习的话题模型来标识针对新数据项的语义的示例系统的示意图。

图2是示出用于根据非结构化数据来学习话题模型并应用所学习的话题模型来标识针对新数据项的语义的示例系统的额外的组件的示意图。

图3图示了用于根据多媒体数据项来学习话题模型的过程。

图4图示了用于提炼多媒体数据项的集合体的过程。

图5图示了用于提炼多媒体数据项的集合体的过程。

图6图示了示出用于应用所学习的话题模型来标识针对新数据项的语义的示例系统的示意图。

图7图示了用于标识针对新数据项的语义的过程。

图8图示了用于访问标注信息的过程。

具体实施方式

标识与多媒体数据项(例如，照片、视频、语音、音乐、等等)相关联的意义(例如，什么、谁、在哪里、等等)可以对包括照片和/或视频识别、标注、搜索、等等的若干应用有用。然而，当前数据挖掘技术需要大量资源投入来分析和提取来自非结构化数据的有意义的数据元素。例如，用于从非结构化多媒体数据中挖掘语义的当前数据挖掘技术依赖于可用的带标签的训练数据，例如提供与非结构化多媒体数据相关的信息的用户生成的标签、类别和/或元数据。其他语义挖掘方法使用与非结构化多媒体数据相关联的注解以收集来自非结构化多媒体数据的意义。当前数据挖掘技术缺乏可伸缩性和可扩展性。在本公开中，公开了用于根据在互联网上可用的非结构化数据来学习话题模型的系统和方法。额外地，本文中公开了用于应用所学习的话题模型来标识针对新数据项的语义的系统和方法。

本文中描述的系统和方法可以对识别与多媒体数据项相关联的意义有用。这样的语义识别可以被用于若干应用，包括照片和/或视频识别、标注、搜索、等等。例如，博物馆、动物园和/或其他名胜可以应用本文描述的语义识别技术用于通过名胜的自助游或与名胜相关的标注。在这样的实施例中，用户可以获取展示品(例如，达芬奇的蒙娜丽莎)的对象的照片或视频，并且本文中描述的系统和方法可以为该用户识别该绘画。语义识别也可以被用于其他应用。

在至少一些实施例中，可以接收与标签的集合相关联的多媒体数据项的语料库。多媒体数据项的语料库中的每个多媒体数据项可以与标签的集合中的至少一个标签相关联。多媒体数据项的语料库可以被处理以生成与标签的集合相关联的经提炼的多媒体数据项的语料库。这样的处理可以包括基于所提取的多媒体特征来将多媒体数据项布置在簇中并生成相关特征。在至少一个实施例中，相关特征包括簇内特征和簇间特征。簇内特征可以表示在簇中的多媒体数据项的配对之间的成对距离的分布特性。簇间特征可以表示在与标签相关联的多媒体数据项的个体簇和与其他标签相关联的其他簇之间的距离的分布特性。簇内特征和簇间特征可以用于将多媒体数据项从语料库移除以生成经提炼的语料库。经提炼的语料库可以被用于话题模型。

在至少一个实施例中，用户可以将多媒体数据项输入到本文中描述的所学习的系统中。用户还可以指定与多媒体数据项相关联的话题。系统可以应用与话题相关联的一个或多个模型以确定与所输入的多媒体数据项相关联的标签。额外地，系统可以将结果输出给用户。结果可以包括通过应用一个或多个标签来标识多媒体数据项的语义而确定的标签。

非结构化数据可以包括非结构化多媒体数据。在一些实施例中，非结构化多媒体数据可以包括基于文本的文档，例如电子邮件、文字处理文档、等等。在额外的实施例中，非结构化多媒体数据可以包括静态图像(例如，照片)、视频、动画、等等。在其他实施例中，非结构化多媒体数据还可以包括音频或语音文件。非结构化多媒体数据可以包括演示文稿、网页、微博、等等中的文本、视觉和/或音频数据的组合。

非结构化多媒体数据可以在互联网上可用。例如，针对与标签相关联的任何查询，非结构化多媒体数据可以在搜索引擎、社交网络服务、博客服务、数据源和/或其他网站或web服务中从在互联网上可用的数据中提取。搜索引擎的示例包括Yahoo！等等。社交网络服务的示例包括等等。博客服务的示例包括WindowsLive等等。数据源的示例包括(由斯坦福大学维护的)ImageNet、(由哈佛大学维护的)开放视频标注项目、等等。

在一些实施例中，非结构化多媒体数据可以由公众访问(例如，存储在搜索引擎中的数据、公共图片、公共图片、等等)。然而，在其他实施例中，非结构化多媒体数据可以是私人的(例如，私人图片、私人视频、等等)并且不可以由公众查看。在这样的实施例中(即，当非结构化多媒体数据是私人的时)，本文描述的系统和方法在没有首先从非结构化多媒体数据的作者获取许可的情况下不可以前进以访问非结构化多媒体数据。

在其中非结构化多媒体数据是私人的或者包括识别或能够被用于识别、联系或定位与这种数据有关的某个人的个人可识别信息(PII)的实施例中，用户可以被提供有本文中的系统和方法正在收集PII的通知。额外地，在发起PII数据收集之前，用户可以具有PII数据收集的选择加入或选择退出的机会。例如，用户可以通过采取指示他或她同意PII数据收集的确认动作来选择加入PII数据收集。备选地，用户可以被呈现有PII数据收集的选择退出的选项。选择退出选项可能需要PII数据收集的选择退出的确认动作，并且在缺少选择退出的确认用户动作的情况下，可以隐含地允许PII数据收集。

本文中描述的话题可以是与本文中描述的标签分层地相关的一般概念。在至少一个实施例中，标签的集合包括话题。例如，话题可以是一般概念或种类，例如“西雅图名胜”、“动物”、“夏威夷的海洋生物”、等等。

标签可以表示话题的子话题、子概念或子种类。即，标签对应于一个特定实体(例如，动物、植物、名胜、等等)。标签还可以被称为实体。标签可以比话题更具体。可以与话题“西雅图名胜”相关联的标签的示例包括“太空针塔”、“西雅图摩天轮”、“邬兰公园动物园”、“体验音乐项目博物馆”、等等。可以与话题“动物”相关联的标签的示例可以包括“长颈鹿”、“狮子”、“猴子”、“老虎”、等等。

查询是可以被用于从搜索引擎、社交网络、等等收集多媒体数据项的语料库的文本术语或词语。通常，标签对应于特定查询，但是在一些实施例中，标签可以对应于多于一次查询。例如，在这样的实施例中，标签“虎鲸”可以对应于诸如“虎鲸”、“杀人鲸”和/或“黑鲸”的查询。

本文中描述的实施例提供用于根据非结构化数据来学习语义并应用所学习的模型来标识针对新数据项的语义的系统和方法。在各种实例中，经由根据模块或API的编程被配置为执行如本文中所描述的技术的处理单元可以包括中央处理单元(CPU)、图形处理单元(GPU)、现场可编程门阵列(FPGA)、另一类别的数字信号处理器(DSP)或可以在一些实例中由CPU驱动的其他硬件逻辑组件中的一个或多个。例如但不限于，能够被使用的说明性类型的硬件逻辑组件包括专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。

说明性环境

下面描述的环境构成仅仅一个示例并且不旨在限制下面描述的系统到任何一个特定操作环境的应用。可以在不脱离要求保护的主题的精神和范围的情况下使用其他环境。本文中描述的各种类型的处理可以被实施在任何数量的环境中，包括但不限于独立的计算系统、网络环境(例如，局域网或广域网)、对等网络环境、分布式计算(例如，云计算)环境、等等。

图1图示了包括可以被实施在用于根据非结构化数据来学习话题模型并应用所学习的话题模型以标识针对新数据项的语义的各种环境中的各种设备和组件的示例操作环境100。更具体地，示例操作环境100可以包括服务提供商102、一个或多个网络104、一个或多个用户106、以及与一个或多个用户106相关联的一个或多个用户设备108。备选地或另外，本文描述的功能能够至少部分地由一个或多个硬件逻辑组件(例如加速度计)来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。例如，加速度计可以表示混合设备，例如来自包括被嵌入于FPGA结构中的CPU进程的ZYLEX或ALTERA的一个。

如所示出的，服务提供商102可以包括一个或多个服务器110，其可以包括一个或多个处理单元112和计算机可读介质114。在各种实施例中，服务提供商102可以根据非结构化数据来学习语义。服务提供商102可以接收与标签的集合相关联的多媒体数据项的语料库并且可以从多个数据项中提取多媒体特征。服务提供商102可以提炼多媒体数据项的语料库并且可以基于经提炼的多媒体数据项的语料库来训练模型。服务提供商102可以利用所学习的话题模型来标识针对由用户106输入的新数据项的语义。

在一些实施例中，(多个)网络104可以是本领域中已知的任何类型的网络，例如互联网。此外，用户106可以以任何方式，例如通过全局的或局部的有线连接或无线连接(例如，局域网(LAN)、内联网、等等)通信地耦合到(多个)网络104。(多个)网络104可以促进在(多个)服务器110和与用户106相关联的用户设备108之间的通信。

在一些实施例中，用户106可以操作对应的用户设备108以执行与用户设备108相关联的各种功能，用户设备108可以包括一个或多个处理单元、计算机可读存储介质和显示器。另外，用户106可以利用用户设备108经由一个或多个网络104与其他用户106进行通信。

(多个)用户设备108可以表示各种各样的设备类型并且不限于任何特定类型的设备。(多个)用户设备108的示例可以包括但不限于固定计算机、移动计算机、嵌入式计算机、或其组合。示例性固定计算机可以包括台式计算机、工作站、个人计算机、瘦客户端、终端、游戏控制台、个人视频记录仪(PVR)、机顶盒、等等。示例移动计算机可以包括笔记本计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车用计算机、个人数据助理(PDA)、便携式游戏设备、媒体播放器、相机、等等。示例嵌入式计算机可以包括网络使能电视、用于包括在计算设备中的集成组件、电器、微控制器、数字信号处理器或任何其他种类的处理设备、等等。

服务提供商102可以是可以根据非结构化数据来学习话题模型并应用所学习的话题模型以标识针对新数据项的语义的任何实体、(多个)服务器、平台、等等。此外，并且如所示出的，服务提供商102可以包括一个或多个服务器110，其可以包括一个或多个处理单元112和计算机可读介质114(例如存储器)。一个或多个服务器110可以包括设备。

实施例支持其中可以被包括在一个或多个服务器110中的(多个)设备可以包括在簇或其他聚类的配置中操作以共享资源、平衡负载、提高性能、提供故障转移支持或冗余或用于其他目的的一个或多个计算设备的情形。被包括在一个或多个服务器110中的(多个)设备可以表示但不限于台式计算机、服务器计算机、web服务器计算机、个人计算机、移动计算机、笔记本计算机、平板计算机、可穿戴计算机、植入式计算设备、电信设备、汽车用计算机、网络使能电视、瘦客户端、终端、个人数字助理(PDA)、游戏控制台、游戏设备、工作站、媒体播放器、个人视频记录仪(PVR)、机顶盒、相机、用于包括在计算设备、电器或任何其他种类的计算设备中的集成组件。

可以被包括在一个或多个服务器110中的(多个)设备可以包括具有例如经由总线可操作连接到计算机可读介质114的一个或多个处理单元112的任何类型的计算设备，总线在一些实例中可以包括系统总线、数据总线、地址总线、PCI总线、微型PCI总线和任何各种本地总线、外围总线和/或独立总线中的一个或多个。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、学习模块118和输出模块120以及由(多个)处理单元112可加载和可执行的其他模块、程序或应用。备选地或另外，本文描述的功能能够至少部分地由一个或多个硬件逻辑组件(例如加速度计)来执行。例如但不限于，可以被使用的说明性类型的硬件逻辑组件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。例如，加速度计可以表示混合设备，例如来自包括被嵌入于FPGA结构中的CPU进程的或的一个。

可以被包括在一个或多个服务器110中的(多个)设备还可以包括被耦合到总线以允许(多个)设备与诸如用户输入外围设备(例如，键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备、等等)和/或输出外围设备(例如，显示器、打印机、音频扬声器、触控输出、等等)的其他设备进行通信的一个或多个输入/输出(I/O)接口。可以被包括在一个或多个服务器110中的设备还可以包括被耦合到总线以使得能够在计算设备与诸如(多个)用户设备108的其他网络设备之间进行通信的一个或多个网络接口。(多个)这样的网络接口可以包括用于通过网络发送和接收通信的一个或多个网络接口控制器(NIC)或其他类型的收发器设备。为简单起见，从图示的系统中省略一些组件。

(多个)处理单元112可以表示例如CPU类型处理单元、GPU类型处理单元、现场可编程门阵列(FPGA)、其他类别的数字信号处理器(DSP)或可以在一些实例中由CPU驱动的其他硬件逻辑组件。例如但不限于，能够被使用的说明性类型的硬件逻辑组件包括专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)、等等。在各种实施例中，(多个)处理单元112可以执行一个或多个模块和/或进程来使(多个)服务器110执行如以上所阐述的并且在下面的公开中进一步详细解释的各种功能。额外地，(多个)处理单元112中的每个可以具备它自己的本地存储器，其还可以存储程序模块、程序数据和/或一个或多个操作系统。

在至少一个配置中，(多个)服务器110的计算机可读介质114可以包括促进在服务提供商102与用户106之间的交互的组件。例如，计算机可读介质114可以包括输入模块116、标签模块118和输出模块120。模块(116、118和120)可以经由至少一个处理单元112被实施为计算机可读指令、各种数据结构、等等以将设备配置为执行指令并执行实施的操作。用于执行这些操作的功能可以被包括在多个设备或单个设备中。

取决于(多个)服务器110的确切配置和类型，计算机存储介质114可以包括计算机存储介质和/或通信介质。计算机存储介质可以包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的任何方法或技术来实施的易失性存储器、非易失性存储器和/或其他永久性计算机存储介质和/或辅助计算机存储介质、可移除计算机存储介质和不可移除计算机存储介质。计算机存储器是计算机存储介质的示例。因此，计算机存储介质包括被包括在作为设备的部分或在设备的外部的设备和/或硬件组件中的有形的和/或物理的形式的介质，包括但不限于可以被用于存储和维护用于由计算设备访问的信息的随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、相位变化存储器(PRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、光盘只读存储器(CD-ROM)、数字多用盘(DVD)、光卡或其他光学存储介质、微型硬盘驱动器、存储器卡、磁带盒、磁带、磁盘存储、磁性卡或其他磁性存储设备或介质、固态存储器设备、存储阵列、网络附接的存储、存储区域网络、主控的计算机存储或任何其他存储存储器、存储设备和/或存储介质。

对比之下，通信介质可以将计算机可读指令、数据结构、程序模块、或其他数据实现在诸如载波或其他传输机制的经调制的数据信号中。术语“经调制的数据信号”意指以使得在信号中编码信息的方式设置或改变其特性中的一个或多个的信号。这样的信号或载波、等等可以在诸如有线网络或直接有线连接的有线介质和/或诸如声学、RF、红外和其他无线介质的无线介质上传播。如本文中所限定的，计算机存储介质不包括通信介质。即，计算机存储介质不包括本身仅仅包括经调制的数据信号、载波或传播信号的通信介质。

学习多媒体语义

图2是示出用于根据非结构化数据来学习话题模型并应用所学习的话题模型来标识针对新数据项的语义的示例系统200的额外的组件的示意图。如图1和图2所示，系统200可以包括输入模块116、标签模块118和输出模块120。

输入模块116可以被配置为从一个或多个用户106接收一个或多个输入。用户106可以经由用户设备108中的一个将一个或多个多媒体数据项输入到输入模块116中。例如，在至少一个实施例中，用户106可以选择被存储在他的或她的用户设备108上的多媒体数据项以用于输入到输入模块116中。在另一实施例中，用户106可以经由他的或她的用户设备108获取照片或视频并将多媒体数据项输入到输入模块116中。

除了接收多媒体数据项作为输入之外，输入模块116可以从一个或多个用户106接收指示与多媒体数据项相关联的话题的输入。例如，在至少一个实施例中，用户106可以使用他的或她的用户设备108获取华盛顿州西雅图的太空针塔的照片。用户106可以将照片输入到输入模块116中。额外地，用户106可以输入“西雅图名胜”作为与多媒体数据项相关联的话题。作为额外的示例，用户106可以选择粉红尾巴引金鱼的照片。因此，粉红尾巴引金鱼的照片可以被输入到输入模块116中。额外地，用户106可以输入“夏威夷的海洋生物”作为与多媒体数据项相关联的话题。

标签模块118可以被配置为根据非结构化数据来学习话题模型并应用所学习的话题模型来标识针对输入到输入模块116中的新数据项的语义。标签模块118可以包括用于根据非结构化数据来学习语义的额外的组件或模块。在至少一个实施例中，标签模块118可以包括接收组件202、提取组件204、聚类组件206、提炼组件208、学习组件210和分类器组件212。

接收组件202可以被配置为接收与标签的集合相关联的多媒体数据项的语料库，该标签的集合与话题相关联。在至少一个实施例中，接收组件202可以接收一个或多个标签，每个标签表示与多媒体数据项相关联的语义意义。接收组件202可以生成与一个或多个标签的特定标签对应的一个或多个查询。一个或多个查询可以是文本查询、多媒体数据项查询、等等。例如，一个或多个查询可以包括被用于识别标签的词语(例如，“虎鲸”)和相关的词语和/或词汇(例如，“杀人鲸”、“黑鲸”、等等)。在至少一个实施例中，用户可以包括一个或多个查询的任选的修改器。例如，如果用户想要使用美洲豹作为查询，则用户可以将查询“美洲豹”修改为包括“动物”。在这样的实施例中，得到的多媒体数据项的语料库可以包括美洲豹动物但是可以排除捷豹汽车。如以上所描述的，接收组件202可以将一个或多个查询发送到一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务。

与一个或多个查询相关的多媒体数据项可以从一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务被返回到接收组件202。在至少一些实施例中，已经由用户106在相同的或相关的查询之后查看的多媒体数据项(例如，来自搜索引擎的点击日志的多媒体数据项)还可以被返回到接收组件202。在一些实施例中，与多媒体数据项相关联的元数据还可以被返回。例如，如果查询是如以上所描述的“虎鲸”，则与“虎鲸”相关联的多媒体数据项可以被返回到接收组件202。所返回的多媒体数据项可以包括与话题相关联的多媒体数据项的语料库。如以上所描述的，与标签的集合中的个体标签相关联的额外的查询可以被发送到一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务，并且对应的多媒体数据项可以被返回并被添加到与话题相关联的多媒体数据项的语料库。在一些实施例中，语料库可以是有噪声的，并且可以包括与一个或多个查询不相关的、具有低质量的、等等的多媒体数据项。

在至少一些实施例中，接收组件202可以在接收到与话题相关联的标签的集合之前接收识别话题的话题查询。话题查询可以如以上所描述的被发送到一个或多个搜索引擎、共享站点和/或网站。响应于发送话题查询，接收组件202可以接收与话题相关联的标签的集合。之后，如以上所描述的，接收组件202可以使用与话题相关联的标签的集合作为用于收集与标签的集合相关联的多媒体数据项的语料库的查询。

例如，用户106可能对学习针对华盛顿州西雅图的名胜的话题模型感兴趣。用户106可以如以上所描述的将“西雅图名胜”的话题查询发送到一个或多个搜索引擎、共享站点、数据库和/或网站。响应于发送话题查询，可以返回包括“太空针塔”、“邬兰公园动物园”、“西雅图摩天轮”、“西雅图水族馆”、“体验音乐项目”、“塞弗科体育场”、等等的一个或多个标签。之后，接收组件202可以使用所返回的标签的集合中的个体标签(例如，“西雅图摩天轮”)来收集与“西雅图摩天轮”相关联的多媒体数据项以用于学习与“西雅图摩天轮”相关联的话题模型。额外地，接收组件202可以使用所返回的标签的集合中的个体标签中的每个来生成与话题“西雅图名胜”相关联的多媒体数据项的语料库。

如以上所描述的，多媒体数据项的语料库可以是有噪声的，并且可以包括与标签和/或话题不相关的、具有低质量的、等等的多媒体数据项。因此，多媒体数据项的语料库可能需要被提炼以移除与标签和/或话题不相关的、具有低质量的、等等的多媒体数据项。提取组件204、聚类组件206和提炼组件208可以被配置为处理语料库以生成与标签和/或话题更相关的并且具有比经预处理的语料库中的多媒体数据项更高的质量的经提炼的多媒体数据项的语料库。

在至少一个实施例中，提取组件204可以被配置用于从多媒体数据项中提取多媒体特征。多媒体特征可以包括视觉特征、文本特征、运动特征、频谱特征、等等。多媒体特征允许用于测量上下文空间中的两个多媒体数据项之间的相似度的一般邻域操作。视觉特征的范围可以从简单的视觉特征，例如边缘和/或角落，到更复杂的视觉特征，例如对象。文本特征包括与多媒体数据项相关联的标签、类别和/或元数据。对于视频，运动特征可以被进一步生成以描述视频中的对象的移动。对于音频、语音和/或音乐，可以生成频谱特征。

多媒体特征提取可以描述识别多媒体数据项的感兴趣部分或形状和提取那些特征以用于额外的处理的过程。识别多媒体数据项的感兴趣部分或形状的过程可以被称为特征提取并且这样的特征提取可以经由诸如SIFT(尺度不变特征变换)或深度神经网络(DN)特征提取器、等等的常见多媒体特征提取技术进行。在至少一个实施例中，多媒体特征提取可以描述将多媒体数据(图像、视频、音频/语音/音乐)的片段转变成高维度特征向量。例如，提供的所有信息可以被组织为单个向量，其通常被称为特征向量。在至少一个实施例中，多媒体数据项的语料库中的每个多媒体数据项可以具有基于多媒体特征的适当的集合的对应的特征向量。之后，基于个体特征向量，多媒体数据项可以被聚类成组并且标准分类方法可以被用于在学习组件210中学习以识别标签。

聚类组件206可以被配置用于基于在所提取的特征向量的特征之间的相似度来将多媒体数据项布置在簇中。聚类组件206可以使用包括K均值聚类的向量量化的不同的方法来布置多媒体数据项的簇。在至少一个实施例中，多媒体数据项的簇被处理以导出针对每个簇的相关特征的集合以将具有高质量多媒体数据项的相关簇与不相关的和/或具有低质量的多媒体数据项的簇区分开。相关特征的集合包括簇内特征和簇间特征。

簇内特征表示基于与标签相关联的多媒体数据项的簇内的多媒体数据项的配对的距离分布特性的簇的相关特征。簇特性的示例包括在簇中的多媒体数据项之间的一致性、簇中的多媒体数据项的质量、等等。簇内特征可以通过计算针对簇中的多媒体数据项配对的成对距离来确定。例如，如果特定簇具有n个多媒体数据项，则可适用于簇的距离的总数量是n*(n+l)/2个距离。

在簇内的多媒体数据的特征向量之间的成对距离被计算之后，可以计算簇内距离统计数字的集合。簇内距离统计数字可以包括：最小多媒体距离(例如，d_min)、最大多媒体距离(例如，d_max)和/或平均多媒体距离(例如，d_ave)。多媒体距离的标准差(例如，d_std)还可以被用作簇的统计特征。另外，标准化的多媒体距离分布还可以被用作统计数字中的一个。为了计算标准化的多媒体距离分布，所有距离可以由d_i表示，其中0≤i<n*(n+l)/2，并且距离可以被标准化为d_i’＝(d_i-d_min{d_i})/(d_max{d_i}-d_min{d_i})。标准化的距离计算将得到在0与1之间的数。之后，标准化的距离计算(例如，[0,1])可以被划分到K个分区(例如，10个分区，其是[0,0.1),[0.1,0.2),...[0.9,1])中，并且每个分区中的标准化的距离的数可以被计数以形成标准化的距离的直方图。每个分区中的数可以除以n*(n+l)/2使得数的总和等于1。标准化的直方图可以表示标准化的多媒体距离分布。所选择的簇内距离统计数字(例如，平均距离、标准差、标准化的直方图、等等)可以被转换成簇内特征向量。

簇间特征表示基于在与标签的集合中的特定标签相关联的簇和与标签的集合中的其他标签相关联的其他簇之间的距离的簇的相关特征。簇间特征可以指示当和与标签的集合中的其他标签相关联的簇进行比较时与特定标签相关联的簇的通用性或特异性的水平。换言之，簇间特征指示在确定由特定标签表示的多媒体数据项对于识别可能多么容易混淆或困难中使用的值。例如，如果话题具有包括标签A和标签B的标签的集合，并且如果与标签A相关联的簇Al和与标签B相关联的簇Bl是相似的，则标签A和标签B在A1和B1两者都被用作用于分别对A和B进行建模的训练数据的情况下可以对于识别而言是困难的和/或容易混淆的。因此，簇间特征可以被用于消除来自多媒体数据项的语料库的通用的或共同的簇。

为了计算簇间特征，可以计算在两个簇之间的距离。簇中心可以被用于表示对应的簇。例如，如果C₀表示与标签(L₀)相关联的特定簇并且其他标签由L₁、L₂、...、L_M-1表示，则在C₀与L₁、L₂、...、L_M-1的所有簇之间的距离可以被计算以确定簇间特征。

在至少一个实施例中，如果距离的总数量由M个距离表示，则若干统计数字可以被用于计算簇间特征的特征向量。例如，距离可以通过确定最小多媒体距离(例如，inter_d_min)、最大多媒体距离(例如，inter_d_max)、和/或平均多媒体距离(例如，inter_d_ave)来计算。多媒体距离的标准差(例如，inter_d_std)还可以被使用。额外地或备选地，标准化的多媒体距离分布还可以被计算。为了计算标准化的多媒体距离分布，距离可以由d_i表示，其中0≤i<M，并且距离可以被标准化为d_i’＝(d_i-d_min{d_i})/(d_max{d_i}-d_min{d_i})。标准化的距离计算将得到在0与1之间的数。之后，标准化的距离计算(例如，[0,1])可以被划分到K个分区(例如，10个分区，其是[0,0.1),[0.1,0.2),...[0.9,1])中，并且每个分区中的标准化的距离的数可以被计数以形成距离的直方图。每个分区中的数可以除以M以使数的总和等于1。标准化的直方图可以表示在簇之间的标准化的多媒体距离分布。所选择的簇间距离统计数字(例如，平均距离、标准差、标准化的直方图、等等)可以被转换成簇间特征向量。

在一些实施例中，经加权的簇间特征可以被用于将簇的大小映射到权重，使得簇的大小可以在计算簇间特征时被利用。函数(f(x))可以被用于将簇的大小映射到权重。如果簇的大小被表示为C₁和C₂以及S₁和S₂，则经加权的距离可以被计算为d^w _ij＝f(S_i)*f(S_j)*d(C_i,C_j)。例如，如果f(x)等于1，则可以不使用经加权的距离。函数(f(x))的另一示例可以包括平方根。

提炼组件208可以被配置用于部分地基于簇内特征和簇间特征来将多媒体数据项从语料库中移除。在一些实施例中，提炼组件208也可以部分地基于在文本特征之间的相似度来将多媒体数据项从语料库中移除。例如，与多媒体数据项相关联的标签或元数据可以被用于生成与两个多媒体数据项相关联的相似度或距离值，该多媒体数据项与标签或元数据相关联。相似度值可以通过对叠加的标签的百分比进行计数或通过使用语言模型通过标签对多媒体数据项进行建模并且之后计算相似度值来计算。

在将多媒体数据项从语料库中移除之后，剩余的多媒体数据项可以与标签的集合中的个体标签更相关和/或具有比经预处理的语料库的多媒体数据项更高的质量。得到的语料库可以是被用于训练话题模型以识别标签的经提炼的语料库。提炼组件208可以基于如由簇内特征和簇间特征确定的相关性分数来移除多媒体数据项。在至少一个实施例中，针对经提炼的语料库的相关性分数可以取决于经提炼的语料库的意图的使用而不同。例如，在其中经提炼的语料库中的多媒体数据项可以被用于训练如本文中所描述的话题模型的实施例中，指示该数据相关且具有高质量的相关性分数可以是优选的。然而，在其中经提炼的语料库中的多媒体数据项可以被用于其他处理的实施例中，指示该数据较不相关和/或具有低质量的相关性分数可以是优选的。

在至少一个实施例中，在训练话题模型之前，提取组件204可以从经提炼的语料库中的多媒体数据项中提取多媒体特征。可以从多媒体数据项中提取的多媒体特征的示例包括词袋特征、费舍尔向量特征、等等。

在提取多媒体特征、将多媒体数据项聚类以及提炼语料库之后，学习组件210可以对经提炼的语料库应用一个或多个学习算法以用于学习基于所提取的多媒体特征来识别与经提炼的多媒体数据项的语料库相关联的一个或多个标签。例如，诸如快速排序、SVM、推进(boosting)、等等的学习算法可以被应用以学习用于识别标签的集合中的特定标签的模型。学习算法可以被存储为分类器组件212中的模型并且可以被用于识别新多媒体数据项中的语义。根据与标签的集合相关联的多媒体数据项来学习的模型的集合可以被称为话题模型，并且话题模型可以被存储在分类器组件212中。

在至少一些实施例中，可以使用多标签学习技术(例如多类别SVM)同时学习所有标签。在其他实施例中，以上描述的学习可以当接收到新标签时被应用到新标签并且新模型可以被添加到分类器组件212。

输出模块120可以被配置为输出包括识别多媒体数据项的标签的结果。在至少一些实施例中，输出模块120可以输出除了识别多媒体数据项的标签之外的标注信息。

示例过程

图3-5描述用于根据非结构化数据来学习话题模型的示例过程。示例过程在图1和图2的环境的上下文下进行描述但是不限于那些环境。过程被图示为逻辑流程图，其中的每个操作表示在图示的或另外的操作的序列中的可以被实施在硬件、软件或其组合中的操作。在软件的上下文下，操作表示被存储在一个或多个计算机可读介质114上的计算机可执行指令，其当由一个或多个处理器112执行时将计算设备配置为执行所记载的操作。总体上，计算机可执行指令包括将计算设备配置为执行特定任务或实施特定抽象数据类型的例程、程序、对象、组件、数据结构、等等。

计算机可读介质114可以包括适合于存储如以上所描述的电子指令的硬盘驱动器、软盘、光学盘、CD-ROM、DVD、只读存储器(ROM)、随机存取存储器(RAM)、EPROM、EEPROM、闪存、磁性卡或光学卡、固态存储器设备或其他类型的存储介质。最终，各操作被描述的顺序不旨在被理解为限制，并且任何数量的所描述的操作可以以任何顺序和/或与实施该过程并行地来组合。

图3图示了用于根据非结构化数据来学习话题模型的过程300。

框302图示了接收多媒体数据项的语料库。如以上所描述的，接收组件202可以将与标签的集合中的个体标签相关联的一个或多个查询发送到一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务。与一个或多个查询相关的和与个体标签相关联的多媒体数据项可以从一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务被返回到接收组件202。如以上所描述的，这可以针对标签的集合中的个体标签中的每个进行重复并且多媒体数据项的语料库可以包括从与标签的集合中的个体标签中的每个相关联的查询返回的多媒体数据项。

框304图示了提取多媒体特征。如以上所描述的，多媒体数据项的语料库可以是有噪声的并且可以包括与标签的集合不相关的、具有低质量的、等等的多媒体数据项。因此，提取组件204可以被配置用于从多媒体数据项中提取多媒体特征以在处理语料库中使用。多媒体特征可以包括视觉特征和文本特征。

框306图示了处理语料库。如以上所描述的，聚类组件206可以被配置用于基于在所提取的多媒体特征的视觉特征与文本特征之间的相似度来将多媒体数据项布置在簇中。在至少一个实施例中，多媒体数据项的簇被处理以导出针对每个簇的相关特征的集合以将具有高质量多媒体数据项的相关簇与不相关的和/或具有低质量的多媒体数据项的簇区分开。相关特征的集合可以包括簇内特征和簇间特征。

框308图示了训练模型。如以上所描述的，在提取多媒体特征、将多媒体数据项聚类以及提炼语料库之后，学习组件210可以对经提炼的语料库应用学习算法以用于学习基于所提取的多媒体特征来识别个体标签。

图4图示了用于提炼多媒体数据项的集合体的过程400。

框402图示了计算第一相关特征。如以上所描述的，至少两个相关特征或特征的集合可以被用于处理和提炼多媒体数据项的语料库。簇内特征可以表示相关特征或特征的集合中的一个。簇内特征表示在与标签相关联的多媒体数据项的簇内的多媒体数据项的配对的距离分布特性。簇特性的示例包括在簇中的多媒体数据项之间的一致性、簇中的多媒体数据项的质量、等等。簇内特征可以如以上所描述的通过计算针对簇中的多媒体数据项配对的多媒体距离来确定。

框404图示了计算第二相关特征。簇间特征可以表示相关特征或特征的集合中的另一个。簇间特征表示在与标签相关联的簇和与其他标签相关联的其他簇之间的距离分布特性。簇间特征可以指示当和与相同话题相关联的其他标签进行比较时标签的通用性或特异性的水平。为了计算簇间特征，在与不同标签相关联的两个簇之间的距离可以如以上所描述的来计算。

簇内特征和簇间特征可以被用于提炼语料库以产生经提炼的语料库。经提炼的语料库可以被用于经由如以上所描述的学习算法来训练模型。

图5图示了用于提炼多媒体数据项的集合体的过程500。

框502图示了提取多媒体特征。如以上所描述的，与一个或多个查询相关的和与标签的集合中的个体标签相关联的多媒体数据项可以从一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务被返回到接收组件202。多媒体数据项的集合体可以包括语料库。多媒体数据项的语料库可以是有噪声的，并且可以包括与标签的集合不相关的、具有低质量的、等等的多媒体数据项。因此，提取组件204可以被配置用于从多媒体数据项中提取多媒体特征以在处理语料库中使用。

框504图示了将多媒体数据项布置在簇中。如以上所描述的，聚类组件206可以被配置用于基于在所提取的多媒体特征的视觉特征与文本特征之间的相似度来将多媒体数据项布置在簇中。在至少一个实施例中，多媒体数据项的簇被处理以导出针对每个簇的特征的集合以将具有高质量多媒体数据项的相关簇与不相关的和/或具有低质量的多媒体数据项的簇区分开。

框506图示了计算第一相关特征。如以上所描述的，至少两个相关特征或特征的集合可以被用于处理和提炼多媒体数据项的语料库。簇内特征可以表示相关特征或特征的集合中的一个。簇内特征可以如以上所描述的通过计算针对簇中的多媒体数据项配对的多媒体距离来确定。

框508图示了计算第二相关特征。簇间特征可以表示相关特征或特征的集合中的另一个。簇间特征表示在与标签相关联的簇和与其他标签相关联的其他簇之间的距离分布特性。为了计算簇间特征，在与不同标签相关联的两个簇之间的距离可以如以上所描述的来计算。

框510图示了将一个或多个多媒体数据项从语料库中移除。如以上所描述的，提炼组件208可以被配置用于部分地基于簇内特征和簇间特征来将多媒体数据项从语料库中移除。因此，剩余的多媒体数据项可以与标签的集合更相关和/或具有比经预处理的语料库的多媒体数据项更高的质量。得到的语料库可以是被用于训练模型以识别标签的集合中的个体标签的经提炼的语料库。

如以上所描述的，学习过程可以当接收到新标签时被应用到新标签并且可以得到的新模型可以被添加到分类器组件212。额外地，得到的模型可以被添加到现有的数据挖掘系统中。

应用所学习的模型

图6图示了示出用于应用所学习的语义挖掘模型来标识针对新数据项的语义的示例系统的示意图。如图6所示，系统600可以包括输入模块116、标签模块118和输出模块120。

输入模块116可以被配置为从一个或多个用户106接收输入。如以上所描述的，用户106可以经由用户设备108中的一个将一个或多个多媒体数据项作为多媒体数据输入602输入到输入模块116中。多媒体数据输入602可以包括一个或多个感兴趣区域。例如，多媒体数据输入602可以包括多个动物(例如，狮子和老虎)或多个名胜(例如，太空针塔和体验音乐项目博物馆)。

除了接收多媒体数据输入602，输入模块116可以从一个或多个用户106接收指示与多媒体数据项相关联的话题的话题输入604。例如，如果多媒体数据输入602包括用户106已知为动物的对象，则用户106可以选择“动物”作为话题输入604。备选地，如果多媒体数据输入602是用户106已知为西雅图的名胜，则用户106可以选择“西雅图名胜”作为话题输入604。

输入模块116还可以被配置为将多媒体数据输出606发送到标签模块118。如以上所描述的，标签模块118可以包括分类器组件212。标签模块118可以被配置为应用与对应的话题模型相关联的、被存储在分类器组件212中的一个或多个模型以确定与多媒体数据输入602相关联的一个或多个标签608。标签模块118可以将一个或多个标签608提供给输出模块120以被并入到结果610中。

标注模块612可以被配置为从系统600外部的源收集与多媒体数据输出606有关的信息。在至少一个实施例中，标注模块612可以利用包括与多媒体数据输入602相关联的一个或多个标签608的标注查询来查询一个或多个搜索引擎、共享站点和/或网站。标注模块612可以接收与标注查询相关联的标注信息614并且可以将标注信息614呈现给输出模块120。输出模块120可以将标注信息614并入到结果610中。

输出模块120可以包括排序组件616和结果组件618。排序组件616可以被配置为基于由分类器组件212生成的和输出的置信度分数来对分类标签608进行排序。结果组件618可以被配置为接收和组织一个或多个标签608和标注信息614以用于作为结果610呈现给用户106。在其中多媒体数据输入602包括两个或更多个感兴趣区域的实施例中，结果610可以识别每个感兴趣区域。例如，如果多媒体数据输入602包括狮子和老虎，则结果610还可以识别狮子和老虎。在这样的实施例中，结果610还可以包括与狮子和老虎有关的标注信息614。

示例过程

图7-8描述了用于应用所学习的话题模型来标识针对新数据项的语义的示例过程。示例过程在图1、图2和图6的环境的上下文下进行描述但是不限于那些环境。过程被图示为逻辑流程图，其中的每个操作表示在图示的或另外的操作的序列中的可以被实施在硬件、软件或其组合中的操作。在软件的上下文下，操作表示存储在一个或多个计算机可读介质114上的计算机可执行指令，其当由一个或多个处理器112执行时将计算设备配置为执行所记载的操作。一般地，计算机可执行指令包括将计算设备配置为执行特定功能或实施特定抽象数据类型的例程、程序、对象、组件、数据结构、等等。

图7图示了用于标识针对新数据项的语义的过程700。

框702图示了接收输入。如以上所描述的，用户106可以经由用户设备108中的一个将一个或多个多媒体数据项作为多媒体数据输入602输入到输入模块116中。多媒体数据输入602可以包括一个或多个感兴趣区域。除了接收多媒体数据输入602，输入模块116可以从一个或多个用户106接收指示与多媒体数据输入相关联的话题的话题输入604。

框704图示了应用话题模型。如以上所描述的，标签模块118可以被配置为应用与对应的话题模型相关联的并且被存储在分类器组件212中的一个或多个模型以确定与多媒体数据输入相关联的一个或多个标签608。标签模块118可以将一个或多个标签608提供给输出模块120以被并入到结果610中。

框706图示了输出结果610。如以上所描述的，结果组件618可以被配置为接收和组织一个或多个标签608以用于作为结果610呈现给用户106。结果610可以包括在标签模块118中识别的一个或多个标签608，并且在一些实施例中，包括标注信息614。

图8图示了用于访问要被并入到结果610中的标注信息614的过程800。如以上所描述的，标注模块612可以被配置为从系统600外部的源收集与多媒体数据输出606有关的信息。

框802图示了查询一个或多个搜索引擎。如以上所描述的，标注模块612可以利用包括与多媒体数据输入602相关联的一个或多个标签608的标注查询来查询一个或多个搜索引擎、共享站点和/或网站。

框804图示了接收与一个或多个标签608相关联的标注信息614。

框806图示了将标注信息614呈现给输出模块。输出模块120可以将标注信息614并入到结果610中。

结论

尽管已经以对结构特征和/或方法动作特定的语言描述了本主题，但是应理解在随附权利要求中限定的主题不必限于所描述的特定特征或动作。相反，特定特征和动作被描述为实施权利要求的说明性形式。

除非另行明确陈述，除了其他以外，诸如“能够(can)”、“能(could)”、“可能(might)”、“可以(may)”等等的条件性语言在本上下文内被理解为表示某些实施例包括而其他实施例不必包括某些特征、元件和/或步骤。因此，这样的条件性语言大体不旨在暗示一个或多个实施例以任何方式需要某些特征、元件和/或步骤或者一个或多个实施例必需包括用于在具有或没有用户输入或提示的情况下决策的逻辑，无论某些特征、元件和/或步骤是否被包括或者要在任何特定实施例中被执行。除非另行明确陈述，诸如词语“X、Y或Z中的至少一个”的连接性语言要被理解为表示项目、术语、等等可以是X、Y或Z、或其组合。

Claims

1.一种用于降低在对多媒体数据项进行数据挖掘中的资源消耗的系统，所述系统包括：

存储器；

一个或多个处理器；以及

一个或多个模块，被存储在所述存储器中并且是所述一个或多个处理器可执行的，所述一个或多个模块包括：

标签模块，被配置为至少部分地基于以下各项来学习话题模型以确定与多媒体数据项相关联的一个或多个标签：

从与所述一个或多个标签相关联的多媒体数据项的语料库中提取多媒体特征；以及

部分地基于以下至少两个相关特征来处理所述多媒体数据项的语料库：

所述至少两个相关特征中的第一相关特征，所述第一相关特征表示在相同簇中的多媒体数据项的配对之间的距离的分布特性；以及

所述至少两个相关特征中的第二相关特征，所述第二相关特征表示在多媒体数据项的不同簇之间的距离的分布特性。

2.根据权利要求1所述的系统，其中所述标签模块还被配置为通过部分地基于至少两个相关值将一个或多个多媒体数据项从所述语料库中移除来提炼所述语料库。

3.根据权利要求1或2所述的系统，其中所述不同簇中的第一簇与第一标签相关联，并且所述不同簇中的第二簇与第二标签相关联。

4.根据权利要求1-3中的任一项所述的系统，其中所述一个或多个模块还包括：

输入模块，被配置为接收包括新多媒体数据项的输入；以及

输出模块，被配置为基于将所述话题模型应用到所述新多媒体数据项来输出一个或多个结果，所述一个或多个结果包括所述一个或多个标签中的、识别所述新多媒体数据项的至少一个标签。

5.一种用于降低在对多媒体数据项进行数据挖掘中的资源消耗的方法，所述方法包括：

由一个或多个计算设备中的至少一个计算设备接收与标签的集合相关联的多媒体数据项的语料库；

由所述一个或多个计算设备中的至少一个计算设备从所述多媒体数据项中提取多媒体特征；

由所述一个或多个计算设备中的至少一个计算设备部分地基于至少两个相关特征来处理所述多媒体数据项的语料库以生成与所述标签的集合相关联的经提炼的多媒体数据项的语料库；以及

由所述一个或多个计算设备中的至少一个计算设备至少部分地基于提取的所述多媒体特征来训练用于识别所述标签的集合中的个体标签的模型的集合。

6.根据权利要求5所述的方法，其中所述处理包括至少部分地基于提取的所述多媒体特征的相似度来将所述多媒体数据项布置在簇中。

7.根据权利要求6所述的方法，其中所述处理还包括部分地基于所述至少两个相关特征来将多媒体数据项从所述语料库中移除。

8.根据权利要求7所述的方法，其中所述至少两个相关特征中的第一相关特征表示在相同簇中的多媒体数据项的配对之间的距离的分布特性。

9.根据权利要求7或8所述的方法，其中所述至少两个相关特征中的第二相关特征表示在与所述标签的集合中的第一标签相关联的簇的第一集合中的个体簇和与所述标签的集合中的第二标签相关联的簇的第二集合中的每个簇之间的距离的分布特性。

10.根据权利要求5-9中的任一项所述的方法，其中接收所述多媒体数据项的语料库包括从以下各项中的至少一项接收所述多媒体数据项：一个或多个搜索引擎、共享站点或网站。

11.一个或多个计算机可读介质，其编码有当由处理器执行时使得计算机执行根据权利要求5-10中的任一项所述的方法的指令。

12.一种装置，包括：

一个或多个处理器；以及

计算机可读介质，其存储由所述一个或多个处理器可执行以将所述装置配置为执行根据权利要求5-10中的任一项所述的方法的一个或多个模块。