CN107209861B

CN107209861B - 使用否定数据优化多类别多媒体数据分类

Info

Publication number: CN107209861B
Application number: CN201680006455.1A
Authority: CN
Inventors: 华先胜; 李劲; I·米斯拉
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-01-22
Filing date: 2016-01-15
Publication date: 2021-12-31
Anticipated expiration: 2036-01-15
Also published as: WO2016118402A1; US20160217349A1; CN107209861A; US9785866B2; EP3248144B1; EP3248144A1

Abstract

描述了用于通过利用否定多媒体数据项训练和更新分类器来优化多类别图像分类的技术。该技术描述了访问多个多媒体数据项中的肯定多媒体数据项，从肯定多媒体数据项中提取特征，以及至少部分基于特征来训练分类器。分类器可以包括多个模型向量，每个模型向量对应于个体标签之一。系统可以使用肯定多媒体数据和否定多媒体数据迭代地测试分类器，并且可以取决于多媒体数据项是肯定的还是否定的来有区别地更新与分类器相关联的一个或多个模型向量。还描述了用于应用分类器以至少部分基于将相似度值与从分类器训练得到的相应统计值相比较来确定新的多媒体数据项是否与主题相关联的技术。

Description

使用否定数据优化多类别多媒体数据分类

背景技术

计算机视觉可以包括对象识别、对象分类、对象类检测、图像分类等。对象识别可以描述寻找特定对象(例如，特定样式的手提包、特定人物的脸部等)。对象分类和对象类检测可以描述寻找属于特定类(例如，面部、鞋子、汽车等)的对象。多媒体数据分类可以描述将整个多媒体数据项分配给特定类(例如，位置识别、纹理分类等)。使用多媒体数据的计算机对象识别、检测和/或分类是具有挑战性的，因为一些对象和/或多媒体数据项可能不属于特定类，但是可能被(误)分类为与特定类相关联的标签，尽管其不属于该特定类。因此，用于准确地确定对象和/或多媒体数据项不是类的一部分(即，拒绝对象和/或多媒体数据项)的技术对于提高分类准确性是有用的。

用于拒绝对象和/或多媒体数据项的当前技术是容易出错的。用于拒绝对象和/或多媒体数据项的一种技术利用阈值来拒绝具有低于预定阈值的分类后(post-classification)值的任何对象和/或多媒体数据项。然而，通常，这种阈值技术不准确，并且与主题相关联的对象和/或多媒体数据项被错误地拒绝。例如，用户可以在“狗”类中输入用于分类的小狗的照片。由于小狗很难分类，所以分类器可能输出低于预定阈值的分类值，以表示该小狗不与“狗”类中的任何标签相关联。然而，小狗是一只狗，因此，这种分类是不准确的。

其他技术(例如，n+1分类技术)收集肯定和否定数据。肯定数据可以包括与类(例如，狗)中的标签相关联的对象和/或多媒体数据项。否定数据可以包括不与类中的任何标签相关联的对象和/或多媒体数据项(例如，不是狗)。这样的技术训练分类器以识别与类中的每个标签相关联的对象和/或多媒体数据项(例如，识别对象和/或多媒体数据项是特定类型的狗)，以及识别与不与该类中的任何标签相关联的附加类相关联的对象和/或多媒体数据项(例如，识别对象和/或多媒体数据项不是狗)。然而，否定数据可以包括非常多样化的标签和类别集合，因此，个体模型可能不能准确地标识不属于类(例如，狗)中的标签的对象和/或多媒体数据项。

发明内容

本公开描述了用于通过利用否定多媒体数据项训练分类器来优化多类别多媒体数据分类的技术。通过提高对输入的多媒体数据项进行分类的准确性并且减少用于训练分类器的计算资源量，本文中描述的技术利用否定多媒体数据项来优化多类别多媒体数据分类。通过训练分类器以更好地区分与主题(例如，类、类别等)相关联的多媒体数据项和不与该主题相关联的多媒体数据项，利用否定多媒体数据项改进了分类器准确性。

本文中的系统和方法描述了访问多个多媒体数据项，其可以包括用于训练分类器的肯定多媒体数据项和否定多媒体数据项的。肯定多媒体数据项可以包括属于与主题相关联的标签的多媒体数据项。否定多媒体数据项可以包括不属于该主题的多媒体数据项。系统可以使用肯定多媒体数据和否定多媒体数据迭代地测试分类器，并且可以取决于多媒体数据项是肯定的还是否定的来有区别地更新与分类器相关联的模型向量。在一个示例中，系统可以访问多个否定多媒体数据项中的否定多媒体数据项。系统可以从否定多媒体数据项中提取特征，并且将分类器应用于特征以确定与和主题相关联的标签相对应的相似度值。分类器可以包括多个模型向量，每个模型向量对应于与主题相关联的标签之一。系统可以确定与特定标签相关联的相似度值大于与特定标签相关联的统计值。统计值可以由使用肯定多媒体数据项训练分类器来得出。至少部分基于确定相似度值大于统计值，系统可以调整与特定标签相对应的个体模型向量以更新分类器从而更准确地确定多媒体数据项是否属于主题。在附加或替代示例中，系统可以访问肯定多媒体数据项，并且可以使用不同的过程来更新分类器。

本文中的系统和方法还描述了应用分类器来分类新的多媒体数据项。系统可以利用在训练分类器来对新的多媒体数据项进行分类的同时收集的统计值。系统可以接收新的多媒体数据项，并且可以从新的多媒体数据项中提取特征。系统可以将分类器应用于特征以生成对应于与主题相关联的每个标签的相似度值，并且可以将相似度值与对应于每个标签的统计值相比较。至少部分基于将相似度值与相应的统计值相比较，系统可以确定新的多媒体数据项是否与主题相关联，并且可以输出标识主题的哪个标签与新的多媒体数据项相关联的识别结果。

提供本发明内容，以便以简化的形式介绍概念的选择，这些概念将在下面的具体实施方式中进一步描述。本发明内容不是用于标识所要求保护的主题的关键或基本特征，也不旨在用于限制所要求保护的主题的范围。

附图说明

具体实施方式参照附图进行说明，其中附图标记的最左边的数字表示附图标记首次出现的图。在相同或不同的图中使用的相同的附图标记表示相似或相同的项目或特征。

图1是示出用于由肯定多媒体数据项和否定多媒体数据项训练分类器并且应用经训练的分类器来对新的多媒体数据项进行分类的示例系统的示意图。

图2是示出用于由肯定多媒体数据项和否定多媒体数据项训练分类器并且应用经训练的分类器来对新的多媒体数据项进行分类的示例系统的附加部件的图。

图3示出了用于训练和更新分类器的示例过程。

图4示出了用于至少部分基于确定新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项来更新分类器的示例过程。

图5示出了展示用于对新的多媒体数据项进行分类的示例系统的图。

图6示出了用于对新的多媒体数据项进行分类的示例过程。

图7示出了用于确定与新的多媒体数据项相关联的标签的示例过程。

图8示出了用于确定与新的多媒体数据项相关联的标签的示例过程。

具体实施方式

多媒体数据项(例如，照片、视频等)的计算机视觉对象(例如，人、动物、地标等)、纹理和/或场景分类对于包括照片和/或视频识别、图像搜索、产品相关搜索等在内的若干应用可以是有用的。使用多媒体数据的当前计算机处理的对象识别、检测和/或分类常常将对象和/或多媒体数据项误分类为属于特定主题，而实际上它们完全不属于该主题。例如，当实际上计算机不是狗时，当前技术可能将计算机分类为特定的狗。因此，用于准确地确定对象和/或多媒体数据项不是主题的一部分(即，拒绝对象和/或多媒体数据项)的技术对于提高识别、检测和/或分类准确性是有用的。

用于拒绝不与主题相关联的对象和/或多媒体数据项的一种技术利用阈值来拒绝具有低于预定阈值的分类后值的任何对象和/或多媒体数据项。然而，通常，结果是不准确的，并且与主题相关联的对象被错误地拒绝。这种错误分类降低了识别、检测和/或分类准确性，并且对用户来说是不方便的。其他技术(例如，n+1分类技术)收集肯定数据和否定数据。肯定数据可以与n个主题相关联。否定数据可以与附加(+1)主题相关联。n+1分类技术训练分类器来识别与主题中的n个标签相关联的对象和/或多媒体数据项、以及与附加主题(+1)相关联的对象和/或多媒体数据项。然而，构成附加主题(+1)的否定数据可以与来自很多标签和主题的数据相关联。因此，模型可能不能准确地标识附加主题(+1)中的对象和/或多媒体数据项。

本文中描述的技术通过利用否定多媒体数据项提高分类器的准确性和训练分类器的速度来优化多类别多媒体数据分类。本文中描述的系统和方法对于训练分类器并且使用分类器来对多媒体数据项进行分类可以是有用的。这种分类可以用于若干应用，包括对象识别(例如，寻找特定对象，诸如特定样式的手提包、特定人物的脸部等)、对象分类或类别检测(例如，寻找属于特定类的对象)、和/或多媒体数据项分类(例如，将整个多媒体数据项分配给特定类)。例如，这种分类对于照片和/或视频识别、图像搜索、产品相关搜索等可能是有用的。本文中描述的技术利用否定多媒体数据项来提高对输入多媒体数据项进行分类的准确性。利用否定多媒体数据项用于训练分类器导致较少的拒绝，使得分类器可以不太可能拒绝来自其适当地属于的主题的肯定多媒体数据项。另外，使用否定多媒体数据项用于训练分类器通过减少用于训练分类器的计算资源量来优化多类别多媒体数据分类。例如，使用负数多媒体数据项通过使分类器比当前技术更快地收敛来提高训练效率。

为了本讨论的目的，多媒体数据项可以包括静止图像(例如，照片)、视频、动画等。在其他示例中，多媒体数据项可以包括音频或语音文件。多媒体数据项可以包括演示文稿、网页、微博等中的文本、视觉和/或音频数据的组合。在至少一个示例中，如下所述，多媒体数据项可以包括与标签相关联的多媒体数据项。多媒体数据项可以在语义上与标签相关联，使得标签表示多媒体数据项的含义和/或主题。

系统和方法描述了至少部分基于肯定多媒体数据项和否定多媒体数据项来训练分类器。在一些示例中，肯定多媒体数据项和否定多媒体数据项可以在因特网上获取。肯定多媒体数据项可以是共同地在语义上与主题相关联的数据项。否定多媒体数据项可以是不与主题在语义上相关联的数据项。本文中描述的主题可以是与本文中描述的标签分层次地相关的一般概念(例如，类、类别等)。在至少一个示例中，标签集合包括主题。例如，主题可以是一般概念，诸如“西雅图景点”、“动物”、“夏威夷海洋生物”等。肯定多媒体数据项中的每个可以与包括主题的标签集合中的标签相关联。

标签可以表示主题的子主题、子概念或子类别。也就是说，标签对应于一个特定实体(例如，动物、植物、吸引物等)。标签可能比主题更具体。可以与主题“西雅图景点”相关联的标签的示例包括“太空针塔”、“西雅图摩天轮”、“林地公园动物园”、“体验音乐项目博物馆”等。可以与主题“动物”相关联的标签的示例可以包括“长颈鹿”、“熊”、“猴子”、“驼鹿”等。可以与主题“狗”相关的标签可以包括“狮子狗”，“粗毛犬”，“拉布拉多猎犬”或“吉娃娃”。

在至少一个示例中，本文中描述的系统可以访问多媒体数据项的语料库。多媒体数据项的语料库可以包括肯定多媒体数据项。多媒体数据项的语料库中的每个肯定多媒体数据项可以与和主题相关联的标签集合中的至少一个标签相关联。系统可以从个体肯定多媒体数据项中提取特征，并且可以至少部分基于这些特征来训练分类器。分类器可以包括多个模型向量，每个模型向量对应于与主题相关联的标签集合中的一个标签。模型向量每个可以表示特定标签在高维特征空间中的位置。系统可以收集与每个标签相对应的统计值。统计值可以至少部分基于使用分类器迭代地处理个体多媒体数据项。系统还可以使用肯定多媒体数据项用于至少部分基于迭代地测试分类器来更新分类器。

多媒体数据项的语料库还可以包括否定多媒体数据项。否定多媒体数据项可以表示不与和肯定多媒体数据项相同的主题相关联并且因此不与和主题相关联的标签集合中的任何标签相关联的多媒体数据项。系统可以从否定多媒体数据项中提取特征，并且将分类器应用于所提取的特征。至少部分基于将分类器应用于否定多媒体数据项，系统可以输出与标签集合中的每个标签相对应的相似度值。系统可以将相似度值与每个标签的统计值相比较，并且至少基于比较，系统可以更新个体模型向量以改善分类器。

为了本讨论的目的，相似度值表示从多媒体数据项中提取的特征向量与用于与主题相关联的标签集合中的标签的模型向量之间的距离。如上所述，特征向量和模型向量都可以表示高维向量。因此，上述距离可以表示高维空间中的特征向量和模型向量之间的距离。距离可以使用点积等来计算。相对大的相似度值可以对应于与多媒体数据项距离最近(例如，最类似于多媒体数据项)的标签。相对小的相似度值可以对应于与多媒体数据项距离最远(例如，最不类似于多媒体数据项)的标签。

本文中的系统和方法还描述了应用分类器来对新的多媒体数据项进行分类。在至少一个示例中，用户可以将新的多媒体数据项输入到本文中描述的训练系统中。系统可以应用分类器来对新的多媒体数据项进行分类。基于比较由应用分类器生成的相似度值，系统可以确定新的多媒体数据项是否与主题相关联。如果系统确定新的多媒体数据项与主题相关联，则系统可以通过确定标签集合中的哪个标签与新的多媒体数据项相关联来对新的多媒体数据项进行分类，并且还确定与标签相关联的置信度得分。另外，系统可以向用户输出识别结果。识别结果可以包括可以与新的多媒体数据项相关联的至少一个标签。

说明性环境

下面描述的环境仅构成一个示例，而不是将下述系统的应用限制于任何一个特定的操作环境。在不脱离所要求保护的主题的精神和范围的情况下，可以使用其他环境。本文中描述的各种类型的处理可以在任何数目的环境中实现，包括但不限于独立的计算系统、网络环境(例如，局域网或广域网)、点对点网络环境、分布式计算(例如，云计算)环境等。在一些示例中，所有处理可以在个体设备上实现。在其他示例中，至少一些处理可以在两个或更多个设备上实现。

图1是示出用于由肯定多媒体数据项和否定多媒体数据项训练分类器并且应用经训练的分类器来对新的多媒体数据项进行分类的示例系统100的图。更具体地，示例操作环境100可以包括服务提供商102、一个或多个网络104、一个或多个用户106、以及与一个或多个用户106相关联的一个或多个用户设备108。

如图所示，服务提供商102可以包括一个或多个服务器110，其可以包括一个或多个处理单元112和计算机可读介质114。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120、以及由处理单元112可加载和可执行以用于对多媒体数据项进行分类的其他模块、程序或应用。一个或多个服务器110可以包括设备。服务提供商102可以是可以至少部分基于肯定多媒体数据项和否定多媒体数据项来训练分类器并且利用经训练的分类器来对新的多媒体数据项进行分类的任何实体、服务器、平台等。服务提供商102可以接收与主题相关联的多媒体数据项的语料库，并且可以从语料库中的个体多媒体数据项中提取特征。服务提供商102可以至少部分基于这些特征来训练分类器。服务提供商102可以利用肯定多媒体数据项和否定多媒体数据项来更新分类器。服务提供商102可以使用分类器来对用户106输入的新的多媒体数据项进行分类。

在一些示例中，网络104可以是本领域已知的任何类型的网络，诸如因特网。此外，用户106可以以任何方式通信地耦合到网络104，诸如通过全局或本地有线或无线连接(例如，局域网(LAN)、内联网等)。网络104可以促进服务器110和与用户106相关联的用户设备108之间的通信。

在一些示例中，用户106可以操作相应的用户设备108以执行与用户设备108相关联的各种功能，用户设备108可以包括一个或多个处理单元112、计算机可读存储介质114和显示器。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120、以及由处理单元112可加载和可执行用于对多媒体数据项进行分类的其他模块、程序或应用。此外，用户106可以利用用户设备108来经由一个或多个网络104与其他用户106通信。

用户设备108可以表示各种各样的设备类型，并且不限于任何特定设备类型。设备108的示例可以包括但不限于固定计算机、移动计算机、嵌入式计算机或其组合。示例固定计算机可以包括台式计算机、工作站、个人计算机、瘦客户端、终端、游戏机、个人录像机(PVR)、机顶盒等。示例移动计算机可以包括膝上型计算机、平板计算机、可穿戴式计算机、植入式计算设备、电信设备、汽车计算机、个人数据助理(PDA)、便携式游戏设备、媒体播放器、相机等。示例嵌入式计算机可以包括网络使能的电视机、用于包括在计算设备中的集成部件、设备、微控制器、数字信号处理器、或任何其他类型的处理设备等。

如上所述，服务提供商102可以包括一个或多个服务器110，其可以包括设备。在示例支持场景中，可以被包括在一个或多个服务器110中的设备可以包括在群集或其他群集配置中操作以共享资源、平衡负载、增加性能、提供容错支持或冗余、或用于其他目的的一个或多个计算设备。被包括在一个或多个服务器110中的设备可以表示但不限于台式计算机、服务器计算机、网络服务器计算机、个人计算机、移动计算机、膝上型计算机、平板计算机、可穿戴式计算机、植入式计算设备、电信设备、汽车计算机、网络使能的电视机、瘦客户端、终端、个人数据助理(PDA)、游戏机、游戏设备、工作站、媒体播放器、个人录像机(PVR)、机顶盒、相机、用于包括在计算设备中的集成部件、设备或任何其他类型的计算设备。

如上所述，可以被包括在一个或多个服务器110和/或用户设备108中的设备可以包括具有一个或多个处理单元112的任何类型的计算设备，该计算设备诸如经由总线可操作地连接到计算机可读介质114，总线在一些情况下可以包括系统总线、数据总线、地址总线、PCI总线、Mini-PCI总线、和任何种类的局部、外围和/或独立总线中的一个或多个。存储在计算机可读介质114上的可执行指令可以包括例如输入模块116、训练模块118和分类模块120、以及由处理单元112可加载和可执行的其他模块、程序或应用。替代地或另外地，本文中描述的功能可以至少部分地由一个或多个硬件逻辑部件(诸如加速器)来执行。例如而非限制，可以使用的说明性类型的硬件逻辑部件包括现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统的系统(SOC)、复杂可编程逻辑器件(CPLD)等。例如，加速器可以表示混合器件，诸如来自

或

的混合器件，其包含嵌入在FPGA架构中的CPU进程。

可以被包括在一个或多个服务器110和/或用户设备108中的设备还可以包括耦合到总线以使得设备能够与其他设备通信的一个或多个输入/输出(I/O)接口，其他设备诸如用户输入外围设备(例如，键盘、鼠标、笔、游戏控制器、语音输入设备、触摸输入设备、手势输入设备等)和/或输出外围设备(例如，显示器、打印机、音频扬声器、触觉输出等)。可以被包括在一个或多个服务器110中的设备还可以包括耦合到总线的一个或多个网络接口，以实现计算设备与诸如用户设备108等其他网络设备之间的通信。这样的网络接口可以包括一个或多个网络接口控制器(NIC)或用以通过网络发送和接收通信的其他类型的收发器设备。为了简单起见，从所示系统中省略了一些部件。

处理单元112可以表示例如CPU型处理单元、GPU型处理单元、现场可编程门阵列(FPGA)、另一类数字信号处理器(DSP)、或在某些情况下可以由CPU来驱动的其他硬件逻辑部件。例如而非限制，可以使用的说明性类型的硬件逻辑部件包括专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统的系统(SOC)，复杂可编程逻辑设备(CPLD)等。在各种示例中，处理单元112可以执行一个或多个模块和/或过程以使得服务器110能够执行各种功能，如上所述并且在下面的公开内容中进一步详细解释。另外，每个处理单元112可以拥有其自己的本地存储器，其也可以存储程序模块、程序数据和/或一个或多个操作系统。

在至少一个配置中，服务器110和/或用户设备108的计算机可读介质114可以包括促进服务提供商102与用户106之间的交互的部件。例如，如上所述，计算机可读介质114可以包括输入模块116、训练模块118和分类模块120。模块(116、118和120)可以经由至少一个处理单元112来实现为计算机可读指令、各种数据结构等，以配置设备执行指令并且执行实现由肯定多媒体数据项和否定多媒体数据项来训练分类器的操作。用以执行这些操作的功能可以被包括在多个设备或个体设备中。

取决于服务器110和/或用户设备108的确切配置和类型，计算机可读介质114可以包括计算机存储介质和/或通信介质。计算机存储介质可以包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实现的易失性存储器、非易失性存储器、和/或其他持久和/或辅助计算机存储介质、可移除和不可移除计算机存储介质。计算机存储器是计算机存储介质的示例。因此，计算机存储介质包括被包括在设备中和/或作为设备的一部分或在设备外部的硬件部件中的有形和/或物理形式的介质，包括但不限于随机存取存储器(RAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、相变存储器(PRAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、光盘只读存储器(CD-ROM)、数字通用盘(DVD)、光卡或其他光存储介质、微型硬盘驱动器、存储卡、磁带盒、磁带、磁盘存储装置、磁卡或其他磁存储设备或介质、固态存储设备、存储阵列、网络附接的存储装置、存储区域网络、托管计算机存储装置或者可以用于存储和维持用于由计算设备访问的信息的任何其他存储存储器、存储设备和/或存储介质。

相比之下，通信介质可以在调制数据信号(诸如载波或其他传输机制)中体现计算机可读指令、数据结构、程序模块、或其他数据。术语“调制数据信号”表示以在信号中对信息进行编码的方式设置或改变其一个或多个特征的信号。这样的信号或载波等可以在诸如有线网络或直接有线连接等有线介质和/或诸如声学、射频(RF)、红外和其它无线介质等无线介质上传播。如本文中定义的，计算机存储介质不包括通信介质。也就是说，计算机存储介质本身不包括仅由调制数据信号、载波或传播信号组成的通信介质。

训练分类器

图2是示出用于由肯定多媒体数据项和否定多媒体数据项来训练分类器并且应用经训练的分类器来对新的多媒体数据项进行分类的示例系统200的附加部件的图。如图1和图2所示，系统200可以包括输入模块116、训练模块118和分类模块120。

输入模块116可以接收多媒体数据项。如上所述，多媒体数据项可以包括肯定多媒体数据项和否定多媒体数据项。在至少一个示例中，接收模块202可以至少部分基于发送一个或多个查询来接收多个多媒体数据项。查询可以是对个体标签或多个标签的查询。查询可以是文本查询、多媒体数据项查询等。例如，查询可以包括用于标识标签的单词(例如，“逆戟鲸”)和相关单词和/或短语(例如，“杀手鲸”、“黑鱼”等)。在至少一个示例中，用户106可以包括对查询的可选修饰符。例如，如果用户希望使用“美洲虎(jaguar)”作为查询，则用户可以将查询“美洲虎”修改为包括“动物”。在这样的示例中，所得到的多媒体数据项的语料库可以包括动物美洲虎，但是可以排除

汽车。如上所述，输入模块116可以向一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务发送一个或多个查询。为了收集肯定多媒体数据项和否定多媒体数据项的语料库，输入模块116可以发送与主题相关联的查询和/或与和主题相关联的一个或多个标签相关联的一个或多个查询以收集肯定多媒体数据项，并且可以发送与不与主题相关联的主题和/或标签相关联的多个查询以收集否定多媒体数据项。接收模块202可以至少部分基于发送一个或多个查询来接收多个多媒体数据项。

在至少一个示例中，多媒体数据项可以在因特网上获取。例如，对于与标签相关联的任何查询，可以在搜索引擎、社交网络服务、博客服务、数据源和/或其他网站或web服务中从因特网上可获取的数据中提取多媒体数据项。搜索引擎的示例包括

Yahoo！

等。社交网络服务的示例包括

等。博客服务的示例包括

Windows

等。数据源的示例包括ImageNet(由斯坦福大学维护)、开放视频注释项目(由哈佛大学维护)等。

在一些示例中，多媒体数据项可以由公众访问(例如，存储在搜索引擎中的数据、公开的

图片、公开的

图片等)。然而，在其他示例中，多媒体数据项可以是私有的(例如，私有的

图片、私有的YouTube视频等)，并且可能不能被公众观看。在这样的示例中(即，当多媒体数据是私有的时)，在不首先获取来自多媒体数据项的作者的访问多媒体数据项的许可时，本文中描述的系统和方法可能无法进行。

在多媒体数据项是私有的或包括标识或可以用于标识、联系或定位这些数据所属的人的个人可识别信息(PII)的示例中，可以向用户106提供如下通知：本文中的系统和方法正在收集PII。另外，在发起PII数据收集之前，用户106可能有机会选择加入或选择退出PII数据收集。例如，用户可以通过采取表明他或她同意PII数据收集的肯定动作来选择加入PII数据收集。或者，用户106可以被呈现选择退出PII数据收集的选项。选择退出选项可能需要选择退出PII数据收集的肯定动作，并且在没有选择退出的肯定的用户动作的情况下，可能暗示允许PII数据收集。

在一些示例中，被返回到接收模块202的多个多媒体数据项可能是有噪声的。因此，输入模块116可以从多个多媒体数据项中过滤一个或多个多媒体数据项，以减轻用于训练分类器的多媒体数据项中的噪声。在附加或替代示例中，接收模块202可以接收新的多媒体数据项用于由经训练的分类器进行分类。

训练模块118可以至少部分基于肯定多媒体数据项和否定多媒体数据项来训练分类器。在至少一个示例中，每个分类器可以表示可以与特定主题相关联的多类别分类器，并且可以包括用于区分与特定主题相关联的标签的多个分类器。训练模块118可以包括用于训练分类器的附加部件或模块。在至少一个示例中，训练模块118可以包括特征提取模块204、学习模块206和更新模块208，更新模块208包括统计模块210。

特征提取模块204可以从多媒体数据项中提取特征。特征提取可以描述标识多媒体数据项的感兴趣部分或形状的过程并且提取这些特征以用于附加的处理。标识多媒体数据项的感兴趣部分或形状的过程可以经由诸如SIFT(尺度不变特征变换)、深层神经网络(DNN)特征提取器等的常见的多媒体特征提取技术来进行。在至少一个示例中，多媒体特征提取可以描述将多媒体数据项(图像、视频、音频、语音、音乐)转换成高维特征向量。例如，所提供的所有信息可以被组织为个体向量，其通常被称为特征向量。在至少一个示例中，基于适当的多媒体特征集合，多媒体数据项的语料库中的每个多媒体数据项可以具有相应的特征向量。特征可以包括视觉特征、文本特征、运动特征、频谱特征等。视觉特征可以从简单的视觉特征(诸如边缘和/或角)到更复杂的视觉特征(诸如对象)。文本特征包括与多媒体数据项相关联的标签、类和/或元数据。对于视频，可以进一步生成运动特征以描述视频中的对象的移动。对于音频、语音和/或音乐，可以生成频谱特征。

学习模块206可以将一个或多个学习算法应用于所提取的特征，用于训练分类器以识别与主题相关联的一个或多个标签。如上所述，每个分类器可以表示可以与特定主题相关联的多类别分类器，并且可以包括用于区分与特定主题相关联的标签的多个分类器。例如，可以应用诸如快速排序、随机梯度下降(SGD)、支持向量机(SVM)、增强(boosting)等学习算法来学习多类别分类器以标识与主题相关联的一个或多个标签。在一些示例中，学习算法可以包括在线SVM。在至少一个示例中，可以使用多标签学习技术(诸如多类别SVM或SGD)来同时训练用于所有标签的分类器。在其他示例中，当接收到新的标签时，上述训练可以应用于新的标签，并且新的分类器可以被添加到多类别分类器。每个多类别分类器可以包括多个模型向量。每个模型向量可以对应于与主题相关联的标签之一。如上所述，模型向量可以表示标签在高维空间中的位置。模型向量可以至少部分基于从与标签相关联的肯定多媒体数据项中提取的特征向量。

更新模块208可以至少部分基于将分类器应用于新的多媒体数据项来更新分类器(例如，多类别分类器)。在一些示例中，新的多媒体数据项可以是肯定多媒体数据项。在其他示例中，新的多媒体数据项可以是否定多媒体数据项。分类模块120可以将分类器应用于新的多媒体数据项，并且所确定的相似度值可以被输出到与更新模块208相关联的统计模块210。更新模块208可以利用相似度值来确定是否要更新模型向量，如下所述。更新模块208可以至少部分基于新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项来有区别地更新模型向量。在一些示例中，更新模块208可以放大模型向量。在其他示例中，更新模块208可以缩小模型向量。训练模块118可以额外地迭代地处理多媒体数据项的语料库一次或多次以更新模型向量并且使分类器随着时间而稳定。在每次迭代之后，统计模块210可以更新统计值，如下所述。

统计模块210可以表示可以至少部分基于使用肯定多媒体数据项对分类器进行训练的迭代来存储所确定的统计值的存储库(例如，数据库、高速缓存、数字存储机制等)。也就是说，可以从使用与主题相关联的肯定多媒体数据项的训练和测试分类器来得到统计值。统计模块210可以利用相似度值至少部分基于在分类器正确地标识与肯定多媒体数据项相关联的标签之后输出的平均相似度值来计算与主题相关联的每个标签的平均相似度值。统计模块210可以利用相似度值至少部分基于在分类器正确地标识与肯定多媒体数据项相关联的标签之后输出的相似度值来计算相似度值的附加统计，诸如标准偏差、分布(例如，直方图等)等。如下所述，存储在统计模块210中的统计值可以表示阈值，并且个体可以至少部分基于相似度值在阈值之上来更新个体模型向量。

分类模块120可以存储一个或多个分类器212(例如，多类别分类器)，并且可以与排序模块214相关联。分类模块120可以接收从多媒体数据项中提取的特征，并且可以向特征应用一个或多个分类器212以对多媒体数据项进行分类。在将一个或多个分类器212应用于从多媒体数据项中提取的特征之后，分类模块120可以输出个体多媒体数据项的相似度值。每个相似度值可以对应于标签集合中的标签。如上所述，相似度值可以表示在高维空间中个体多媒体数据项的特征向量与特定标签的模型向量之间的距离。在一些示例中，相似度值可以类似于置信度值。例如，更大的相似度值可以指示与和较小相似度值相关联的不同标签相比，系统更确信多媒体数据项可能与和较大相似度值相关联的特定标签相关联。排序模块214可以至少部分基于相似度值来对标签进行排序。在一些示例中，最高排序的标签可以表示最可能与多媒体数据项相关联的标签，而最低排序的标签可以表示最不可能与多媒体数据项相关联的标签。分类模块120可以输出包括可能与多媒体数据项相关联的一个或多个标签的识别结果。在一些示例中，识别结果可以包括置信度得分。

示例过程

图3和图4描述用于由肯定多媒体数据项训练一个或多个分类器212、至少部分基于肯定和/或否定多媒体数据项来确定是否要更新一个或多个分类器212、以及在至少一些示例中更新一个或多个分类器212的示例过程。在图1和图2的环境的上下文中描述示例过程，但是不限于这些环境。这些过程被示出为逻辑流程图，其每个操作表示可以以硬件、软件或其组合实现的所示或另一操作顺序中的操作。在软件的上下文中，操作表示存储在一种或多种计算机可读介质114上的计算机可执行指令，其在由一个或多个处理器112执行时配置计算设备执行所记载的操作。通常，计算机可执行指令包括配置计算设备执行特定功能或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。描述操作的顺序不旨在被解释为限制，并且任何数目的所描述的操作可以以任何顺序组合和/或并行地组合以实现该过程。

图3示出了用于由肯定多媒体数据项训练一个或多个分类器212并且至少部分基于肯定和/或否定多媒体数据项来更新一个或多个分类器212的示例过程300。

框302示出了访问多媒体数据项。在至少一个示例中，接收模块202可以接收多媒体数据项的语料库。在一些示例中，接收模块202可以至少部分基于向一个或多个搜索引擎、社交网络服务、博客服务和/或其他网站或web服务发送查询来接收多媒体数据项的语料库，如上所述。训练模块118可以访问多媒体数据项的语料库。多媒体数据项的语料库可以包括肯定多媒体数据项和否定多媒体数据项。

框304示出了从肯定多媒体数据项中提取特征。如上所述，特征提取模块204可以提取可以表示与肯定多媒体数据项相关联的上下文信息的特征。每个肯定多媒体数据项可以与表示肯定多媒体数据项在高维特征空间中的位置的特征向量相关联。

框306示出了基于特征来训练分类器。学习模块206可以至少部分基于特征来训练用于多个标签的一个或多个分类器212。例如，如上所述，可以应用诸如快速排序、SGD、SVM、增强等学习算法来学习一个或多个分类器212(例如，多类别分类器)。一个或多个分类器212每个可以包括多个模型向量，其中每个模型向量对应于与主题相关联的多个标签中的标签。作为非限制性示例，如果300个标签与主题相关联，则分类器可以具有300个模型向量。

训练一个或多个分类器212可以另外包括多次迭代地将一个或多个分类器212应用于肯定多媒体数据项以稳定模型向量。在至少一个示例中，训练模块118可以接收与和主题相关联的多个标签中的第一标签相关联的新的肯定多媒体数据项。该新的肯定多媒体数据项可以是多媒体数据项的语料库的一部分和/或可以是在语料库的初始收集之后接收到的多媒体数据项。第一标签可以表示真实标签或正确地标识该新的肯定多媒体数据项的标签。特征提取模块204可以从该新的肯定多媒体数据项中提取特征。分类模块120可以将一个或多个分类器212应用于所提取的特征以确定相似度值。如上所述，相似度值表示在高维空间中该新的肯定多媒体数据项与多个标签中的每个标签之间的距离。分类模块120可以利用该相似度值来确定多个标签中的哪个标签与该新的肯定多媒体数据项相关联。

在至少一个示例中，分类模块120可以输出指示新的肯定多媒体数据项与多个标签中的第二标签相关联的相似度值，该第二标签不同于第一标签(例如，真实标签)。在这样的示例中，分类模块120可以将从分类得到的第二标签与和新的肯定多媒体数据项相关联的第一标签相比较。至少部分基于标识错误分类，更新模块208可以调整至少一些模型向量。例如，如果分类模块120确定新的肯定多媒体数据项被错误地分类为第二标签，则更新模块208可以按比例减小与第二标签相关联的模型向量，并且可以按比例增加与第一标签相关联的模型向量。调整模型向量可以改善分类器，使得与多媒体数据项相关联的真实标签可以具有在分类期间被识别为结果的增加的可能性。下面的等式1是用于至少部分基于确定一个或多个分类器212错误地对新的肯定多媒体数据项进行分类来调整模型向量的算法的非限制性示例。

等式1

对于输入样本(x_i，y_i)，其中：

x_i表示基于特征提取模块204的特征提取确定的高维特征向量；

y_i表示与主题相关联的多个标签([1，...，C])中的标签；

w_i＝与不正确的标签(例如，第二标签)相关联的模型向量；

和w_i的相似度值(例如，点积)；以及

和

的相似度值(例如，点积)；

如果

并且δ＝ηx_i，

则更新与w_l和

相关联的模型向量，使得

w_l＝(1-λ)w_l-δ

并且

框308示出了收集统计值。至少部分基于将一个或多个分类器212应用于一个或多个肯定多媒体数据项，更新模块208可以收集与每个标签相对应的统计值。如上所述，统计模块210可以表示可以至少部分基于训练和测试一个或多个分类器212的迭代来存储统计值的存储库。至少部分基于由使用一个或多个分类器212正确地确定与肯定多媒体数据项相关联的标签得到的相似度值，统计模块210可以利用相似度值来计算每个标签的相似度值的平均值、标准偏差、第k阶统计值、分布(例如直方图等)等。如下所述，存储在统计模块210中的统计值可以表示阈值，并且更新个体模型向量可以至少部分基于相似度值在阈值之上。在一些示例中，在将一个或多个分类器212应用于新的肯定多媒体数据项以稳定模型向量的每个迭代之后，统计模块210可以更新统计值。在其他示例中，统计模块210可以以预定的时间间隔来更新统计值。

框310示出了更新一个或多个分类器212。训练模块118可以访问多媒体数据项的语料库中的新的多媒体数据项。新的多媒体数据项可以包括肯定多媒体数据项和否定多媒体数据项。特征提取模块204可以从新的多媒体数据项中提取特征。分类模块120可以将一个或多个分类器212应用于所提取的特征以确定相似度值。如上所述，相似度值表示在高维空间中新的多媒体数据项与多个标签中的每个标签之间的距离。分类模块120可以将相似度值输出到更新模块208以确定是否要更新一个或多个分类器212。更新模块208可以至少部分基于新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项来对与一个或多个分类器212相关联的模型向量执行不同的更新。

图4示出了至少部分基于确定新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项来更新一个或多个分类器212的示例过程400。

框402示出了访问新的多媒体数据项。训练模块118可以从多媒体数据项的语料库访问新的多媒体数据项。如上所述，新的多媒体数据项可以包括肯定多媒体数据项和否定多媒体数据项。

框404示出了从新的多媒体数据项中提取特征。特征提取模块204可以提取可以表示与新的多媒体数据项相关联的上下文信息的特征。新的多媒体数据项可以与表示新的多媒体数据项在高维特征空间中的位置的特征向量相关联。

框406示出了将一个或多个分类器212应用于特征以确定与每个标签相对应的相似度值。至少部分基于将一个或多个分类器212应用于特征，分类模块120可以输出表示在高维空间中与多个标签中的每个标签相关联的模型向量与从新的多媒体数据项中提取的特征向量之间的距离的相似度值集合。

框408示出了确定新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项。更新模块208可以确定新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项。在至少一些示例中，确定新的多媒体数据项是肯定多媒体数据项还是否定多媒体数据项可以基于与新的多媒体数据项相关联的标签。如果更新模块208确定新的多媒体数据项是肯定多媒体数据项，则更新模块208根据框410、412和414来更新模型。另一方面，如果更新模块208确定新的多媒体数据项是否定多媒体数据项，更新模块208可以根据框416、418、420和422来更新模型。

框410示出了确定一个或多个分类器212是否正确地标识与新的肯定多媒体数据项相关联的标签。在至少一个示例中，分类模块120可以输出指示新的肯定多媒体数据项与不同于真实标签的多个标签中的标签相关联的相似度值。在这样的示例中，分类模块120可以将由于分类得到的标签与和新的肯定多媒体数据项相关联的真实标签相比较。至少部分基于标识错误分类，更新模块208可以调整至少一些模型向量，如框412所示。例如，如果分类模块120确定新的肯定多媒体数据项被错误地分类，则更新模块208可以按比例缩小与不正确的标签相关联的模型向量，并且可以按比例放大与真实标签相关联的模型向量。调整模型向量可以改善分类器，使得与多媒体数据项相关联的真实标签可以具有在分类期间被识别为结果的增加的可能性。以上的等式1是用于至少部分基于确定一个或多个分类器212错误地分类新的肯定多媒体数据项来调整模型向量的算法的非限制性示例。如果一个或多个分类器212用其真实标签正确地标识新的肯定多媒体数据项，则更新模块208可以不调整任何模型向量，如框414所示。

框416示出了将存储在统计模块210中的统计值与由分类模块120输出的与每个标签相对应的相似度值相比较。作为非限制性示例，如果一个或多个分类器212与主题“狗”相关联，并且与主题“狗”相关联的标签之一是“狮子狗”，则更新模块208可以将与“狮子狗”相关联的统计值与和“狮子狗”相关联的相似度值相比较。至少部分基于将存储在统计模块210中的统计值与根据向从新的多媒体数据项中提取的特征应用一个或多个分类器212而输出的相似度值相比较，更新模块208可以更新多个模型向量中的个体模型向量。

框418示出了确定相似度值是否大于与相同标签相关联的相应统计值。如标记为“否”的箭头所示，更新模块208可以确定与特定标签相对应的相似度值小于与特定标签相关联的相应的统计值。因此，如框420所示，更新模块208可以不缩放特定标签的模型向量。如标记为“是”的箭头所示，更新模块208可以确定与特定标签相对应的特定相似度值大于与特定标签相关联的相应的统计值。也就是说，更新模块208可以确定作为对否定多媒体数据项进行分类的结果，与否定多媒体数据项相关联的相似度值可能导致否定多媒体数据项被错误地分类为与和主题相关联的标签(例如，特定标签)相关联。结果，更新模块208可以按比例缩小对应于特定标签的模型向量，如框422所示。在至少一些示例中，统计值可以表示阈值，并且更新个体模型向量可以至少基于部分相似度值在阈值之上。下面的等式2是用于至少部分基于确定与特定标签相对应的特定相似度值大于与特定标签相关联的相应的统计值来按比例缩小特定模型向量的算法的非限制性示例。

等式2

对于输入样本(x_i，y_i)，其中：

x_i表示至少部分基于从特征提取模块204提取的特征的高维特征向量；

y_t＝-1和-1表示不与主题相关联的标签；

[μ₁，...，μ_C]＝多个标签([1，...，C])的统计值；

w_j＝与特定标签(j＝1，...，C)相关联的模型向量；以及

和w_j的相似度值(例如，点积)；

如果

并且δ＝η_negx_i，

则调整w_j，使得w_j＝w_j-δ。

应用一个或多个分类器

图5示出了展示用于分类新的多媒体数据项的示例系统500的图。如图5所示，系统500可以包括输入模块116、训练模块118和分类模块120。

输入模块116可以包括接收模块202。接收模块202可以接收用于分类的新的多媒体数据项502。新的多媒体数据项502可以是肯定多媒体数据项或否定多媒体数据项。用户106可以经由用户设备108之一将一个或多个多媒体数据项输入到接收模块202中。例如，在至少一个示例中，用户106可以选择存储在他或她的用户设备108上的多媒体数据项用于输入到输入模块116。在另一示例中，用户106可以经由他或她的用户设备108拍摄照片或视频，并且将多媒体数据项输入到输入模块116中。另外地或替代地，用户106可以以其他方式标识用于分类的多媒体数据项。在至少一些示例中，用户106可以包括与新的多媒体数据项502相关联的主题。例如，如果用户106输入狮子狗的图像，则用户106可以指示图像与主题“狗”相关联。

接收模块202可以将新的多媒体数据项502发送到与训练模块118相关联的特征提取模块204。特征提取模块204可以从新的多媒体数据项502中提取特征。如上所述，特征提取可以描述将多媒体数据(图像、视频、音频、语音、音乐)转换成高维特征向量。在至少一个示例中，新的多媒体数据项502可以基于所提取的特征与特征向量相关联。特征提取模块204可以将特征504发送到分类模块以用于由一个或多个分类器212进行分类。另外，在至少一个示例中，更新模块208可以向分类模块120发送存储在统计模块210中的统计值506。在其他示例中，更新模块208可以从分类模块120接收相似度值以将相似度值与统计值506相比较，如下所述。

分类模块120可以将一个或多个分类器212应用于特征504以进行分类。至少部分基于将一个或多个分类器212应用于特征504，分类模块120可以输出相似度值。如上所述，相似度值可以表示在高维空间中与新的多媒体数据项502相关联的特征向量与和与主题相关联的每个标签相关联的权重向量之间的距离。在至少一个示例中，分类模块120可以将每个相似度值与相应的统计值506相比较。在一些示例中，如上所述，分类模块120可以将相似度值发送到更新模块208用于比较。分类模块120可以将每个相似度值与统计值506相比较，以确定新的多媒体数据项502是否与和主题相关联的任何标签相关联。

在至少一个示例中，分类模块120可以利用统计值506作为阈值来确定新的多媒体数据项502是否与任何标签相关联。例如，如果分类模块120确定所有相似度值都低于所有统计值506，则分类模块120可以确定新的多媒体数据项502不与和主题相关联的任何标签相关联。也就是说，分类模块120可以拒绝新的多媒体数据项502，并且可能不会确定多个标签中的标签与新的多媒体数据项502相关联。

如果分类模块120确定与一个或多个标签相对应的至少一些相似度值在统计值506(例如，预定阈值)之上，则分类模块120可以确定新的多媒体数据项502与至少一些标签相关联。在至少一个示例中，可以利用统计值506作为自适应阈值。例如，分类模块120可以在逐标签的基础上比较与新的多媒体数据项502相关联的相似度值。也就是说，分类模块120可以通过将与第一标签相关联的相似度值与和与第一标签相关联的统计值相比较，来确定第一标签是否可以与新的多媒体数据项502相关联。如果与第一标签相关联的相似度值大于与第一标签相关联的统计值，则第一标签可以与新的多媒体数据项502相关联。分类模块120可以通过将与第二标签相关联的相似度值与和第二标签相关联的统计值相比较来确定第二标签是否可以与新的多媒体数据项502相关联。如果与第二标签相关联的相似度值大于与第二标签相关联的统计值，则第二标签可以与新的多媒体数据项502相关联。与第一标签相关联的统计值可以不同于与第二标签相关联的统计值。

如果分类模块120确定新的多媒体数据项502与和主题相关联的多个标签中的至少一个标签相关联，则分类模块120可以确定多个标签中的哪个标签与新的多媒体数据项502相关联。排序模块214可以至少部分基于与每个标签相对应的相似度值来对标签进行排序。最高排序的相似度值可以对应于距离新的多媒体数据项502最近的标签(例如，最类似于新的多媒体数据项502)。最低排序的相似度值可以对应于距离新的多媒体数据项502最远的标签(例如，最不类似于新的多媒体数据项502)。在一些示例中，排序模块214可以对在相应统计值之上的所有相似度值进行排序。在其他示例中，排序模块214可以对预定数目(例如，10、5、2个等)的相似度值进行排序和/或可以对在预定阈值之上的相似度值进行排序。

在至少一个示例中，分类模块120可以选择与最高排序相似度值相对应的标签作为与新的多媒体数据项502相关联的标签。在一些示例中，分类模块120可以选择与在预定阈值之上的相似度值相对应的预定数目(例如5、3、2个)的标签，并且可以将具有置信度得分的预定数目的标签作为识别结果508返回。在其他示例中，分类模块120可以选择与在预定阈值之上的相似度值相对应的预定数目(例如，100、50、20个等)的标签，并且可以将相似度值与相应的统计值506相比较。至少部分基于将相似度值与相应的统计值相比较，排序模块214可以对预定数目的标签中的标签进行重新排序。至少部分基于重新排序，分类模块120可以确定与重新排序后的相似度值中的最高排序相似度值相关联的特定标签与新的多媒体数据项502相关联。

分类模块120可以向用户106发送识别结果508。如果新的多媒体数据502项是肯定多媒体数据项，则识别结果508可以包括与新多媒体数据项502相关联的至少一个标签，并且在一些示例中还包括与至少一个标签相关联的置信度得分。如果新的多媒体数据项502是否定多媒体数据项，则识别结果508可以包括指示新的多媒体数据502项目不与主题中的任何标签相关联的拒绝。

示例过程

在图1、2和5的环境的上下文中描述示例过程600、700和800，但是不限于这些环境。过程600、700和800被示出为逻辑流程图，其每个操作表示可以以硬件、软件或其组合实现的所示出的或另一操作序列中的操作。在软件的上下文中，操作表示存储在一种或多种计算机可读介质114上的计算机可执行指令，其在由一个或多个处理器112执行时配置计算设备执行所记载的操作。通常，计算机可执行指令包括配置计算设备执行特定功能或实现特定抽象数据类型的例程、程序、对象、部件、数据结构等。描述操作的顺序不旨在被解释为限制，并且任何数目的所描述的操作可以以任何顺序组合和/或并行地组合以实现该过程。

图6示出了用于确定是否对新的多媒体数据项502进行分类的示例过程600。

框602示出了接收输入(例如，新的多媒体数据项502)。接收模块202可以接收新的多媒体数据项502用于分类。新的多媒体数据项502可以是肯定多媒体数据项或否定多媒体数据项。在至少一些示例中，用户106还可以输入与新的多媒体数据项502相关联的主题。

框604示出了提取特征。特征提取模块204可以从新的多媒体数据项502中提取特征504。如上所述，新的多媒体数据项502可以基于所提取的特征与特征向量相关联。

框606示出了应用一个或多个分类器212。分类模块120可以将一个或多个分类器212应用于特征504以进行分类。至少部分基于将一个或多个分类器212应用于特征504，分类模块120可以输出相似度值。如上所述，相似度值可以表示与新的多媒体数据项502相关联的特征向量与和主题相关联的标签集合中的每个标签相关联的权重向量之间的距离。

框608示出了比较相似度值和统计值506。在至少一个示例中，分类模块120可以将每个相似度值与相应的统计值506相比较。例如，分类模块120可以将与特定标签相关联的相似度值与和特定标签相关联的统计值506相比较。分类模块120可以对与主题相关联的多个标签中的每个标签执行这样的比较。如上所述，在一些示例中，如上所述，分类模块120可以将相似度值集合发送到更新模块208用于比较。

框610示出了确定输入是否与主题相关联。如上所述，在至少一个示例中，分类模块120可以利用统计值506作为阈值来对新的多媒体数据项502进行分类。在至少一个示例中，对新的多媒体数据项502进行分类包括确定新的多媒体数据项502是否与和主题相关联的任何标签相关联。例如，如果分类模块120确定所有相似度值都低于所有统计值506，则分类模块120可以确定新的多媒体数据项502不与和主题相关联的任何标签相关联。也就是说，分类模块120可以拒绝新的多媒体数据项502，并且可以不确定新的多媒体数据项502的标签，如框612所示。

如果分类模块120确定对应于一个或多个标签的至少一些相似度值在相应的统计值506(例如，预定阈值)之上，则分类模块120可以确定新的多媒体数据项502与至少一些标签相关联。因此，分类模块120可以继续进一步分类新的多媒体数据项502以确定哪个标签与新的多媒体数据项502相关联，如框614所示并且如以下在图7和8中讨论的。

图7示出了用于确定与新的多媒体数据项502相关联的标签的示例过程700。

框702示出了对相似度值进行排序。至少部分基于分类模块120确定新的多媒体数据项502可以与和主题相关联的多个标签中的至少一个标签相关联，排序模块214可以对与每个标签相对应的相似度值进行排序。在一些示例中，排序模块214可以对在相应的统计值506之上的所有相似度值进行排序。在其他示例中，排序模块214可以对在相应的统计值506之上的预定数目(例如，10、5、2个等)的相似度值进行排序。

框704示出了确定新的多媒体数据项502的标签。在至少一个示例中，分类模块120可以选择与最高排序的相似度值相对应的标签作为与新的多媒体数据项502相关联的标签。在一些示例中，分类模块120可以选择与在预定阈值之上的相似度值相对应的预定数目(例如，5、3、2)个标签，并且可以将具有置信度得分的预定数目的标签作为识别结果508返回。识别结果508可以向用户106通知标签的预定数目的可能结果，并且可以包括与每个可能结果相关联的置信度得分。在一些示例中，置信度得分可以至少部分基于统计值。

图8示出了用于确定与新的多媒体数据项502相关联的标签的示例过程800。

框802示出了对相似度值进行排序，如上所述。

框804示出了选择预定数目的相似度值。分类模块120可以选择在预定阈值之上的预定数目(例如，100、50、20等)个相似度值用于进一步处理。

框806示出将相似度值与统计值506相比较。分类模块120可以比较与相应的统计值506相关联的相似度值。

框808示出了对相似度值进行重新排序。至少部分基于将相似度值与相应的统计值506相比较，排序模块214可以对相似度值进行重新排序。

框810示出了为新的多媒体数据项502确定标签。至少部分基于重新排序，分类模块120可以确定可以与新的多媒体数据项502相关联的至少一个标签。在一些示例中，分类模块120可以确定与重新排序后的相似度值中的最高排序的相似度值相关联的特定标签与新的多媒体数据项502相关联。在其他示例中，分类模块120可以选择预定数目(例如，5，3，2)个重新排序后的标签，并且可以将具有置信度得分的预定数目的标签作为识别结果508返回。识别结果508可以向用户106通知标签的预定数目的可能结果，并且可能包括与每个可能结果相关联的置信度得分。

A.一种系统，包括：计算机可读介质；一个或多个处理器；以及存储在所述计算机可读介质中并且由所述一个或多个处理器可执行以执行操作的一个或多个模块，所述操作包括：访问多媒体数据项；从所述多媒体数据项中提取特征；向所述特征应用分类器以确定对应于多个标签中的个体标签的相似度值，所述分类器包括多个模型向量，所述多个模型向量中的每个模型向量对应于所述个体标签中的一个标签；确定所述多媒体数据项是肯定多媒体数据项还是否定多媒体数据项；以及更新所述多个模型向量中的至少一个模型向量，其中更新所述至少一个模型向量包括对于所述肯定多媒体数据项应用第一更新并且对于所述否定多媒体数据项应用第二更新。

B.如段落A所述的系统，所述操作还包括至少部分基于多个肯定多媒体数据项来训练分类器，所述训练包括：访问所述多个多媒体数据项中的个体肯定多媒体数据项，所述个体肯定多媒体数据项中的每个肯定多媒体数据项与所述个体标签中的一个标签相关联；从所述个体肯定多媒体数据项中提取特征；并且至少部分基于从所述个体肯定多媒体数据项中提取的所述特征来训练所述分类器。

C.如段落A或B所述的系统，其中经由所述第二更新来更新所述至少一个模型向量包括：至少部分基于多个肯定多媒体数据项来确定所述相似度值中的特定相似度值大于从训练所述分类器得到的统计值，所述特定相似度值和所述统计值与所述多个标签中的特定个体标签相关联；以及调整所述至少一个模型向量，所述至少一个模型向量对应于所述特定个体标签。

D.如段落C所述的系统，其中所述统计值包括：平均相似度值，其至少部分地基于向所述多个肯定多媒体数据项中的个体肯定多媒体数据项应用所述分类器而被确定，所述个体肯定多媒体数据项与所述特定个体标签相关联；相似度值的标准偏差，其至少部分基于向与所述特定个体标签相关联的所述个体肯定多媒体数据项应用所述分类器而被确定；或者相似度值的分布，其至少部分基于向与所述特定个体标签相关联的所述个体肯定多媒体数据项应用所述分类器而被确定。

E.如段落C所述的系统，其中调整所述至少一个模型向量包括按比例缩小所述至少一个模型向量。

F.一种计算机实现的方法，包括：访问多媒体数据项的语料库，所述多媒体数据项的语料库包括肯定多媒体数据项和所述否定多媒体数据项，其中：所述肯定多媒体数据项中的个体肯定多媒体数据项与多个标签中的个体标签相关联；并且所述否定多媒体数据项不与所述多个标签中的任何标签相关联；从所述个体肯定多媒体数据项中提取第一特征集合；至少部分基于所述第一特征集合来训练所述分类器中的分类器，所述分类器包括多个模型向量，所述多个模型向量中的每个模型向量对应于所述个体标签中的一个标签；至少部分基于向所述个体肯定多媒体数据项中的一个或多个肯定多媒体数据项应用所述分类器，收集对应于所述个体标签中的每个标签的统计值；从新的多媒体数据项中提取第二特征集合；向所述第二特征集合应用所述分类器以确定对应于所述个体标签中的每个标签的相似度值；确定所述新的多媒体数据项是所述否定多媒体数据项中的一个否定多媒体数据项；将所述统计值与对应于所述个体标签中的每个标签的所述相似度值相比较；并且至少部分基于将所述统计值与所述相似度值相比较，更新所述多个模型向量中的个体模型向量。

G.如段落F所述的方法，还包括：接收与所述多个标签中的第一标签相关联的第二新的多媒体数据项；从所述第二新的多媒体数据项中提取第三特征集合；向所述第三特征集合应用所述分类器；至少部分基于向所述第三特征集合应用所述分类器，确定对应于所述个体标签中的每个标签的新的相似度值；确定所述第二新的多媒体数据项是所述肯定多媒体数据项中的一个肯定多媒体数据项；确定所述分类器将所述第二新的多媒体数据项分类为与所述多个标签中的第二标签相关联，所述第二标签不同于所述第一标签；并且调整所述个体模型向量中的至少两个模型向量。

H.如段落G所述的方法，其中调整所述个体模型向量中的至少两个模型向量包括：按比例缩小所述个体模型向量中的第一个体模型向量，所述第一个体模型向量与所述第二标签相关联；以及按比例增大所述个体模型向量中的第二个体模型向量，所述第二个体模型向量与所述第一标签相关联。

I.如段落G所述的方法，还包括至少部分基于确定所述新的相似度值来更新所述统计值。

J.如段落F到I中的任一项所述的方法，其中更新所述个体模型向量包括：确定所述相似度值中的、对应于所述个体标签中的特定个体标签的特定相似度值大于所述统计值中的、与所述特定个体标签相关联的特定统计值；以及按比例缩小所述个体模型向量中的特定个体模型向量，所述特定个体模型向量对应于所述特定个体标签。

K.如段落F到J中的任一项所述的方法，其中所述统计值包括以下中的一项或多项：所述相似度值的平均值，其在所述分类器正确地标识所述个体肯定多媒体数据项中的、具有所述个体标签中的个体标签的个体肯定多媒体数据项时被生成；所述相似度值的标准偏差，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成；所述相似度值的第k阶统计值，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成；或者表示所述相似度值的分布，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成。

L.如段落F到K中的任一项所述的方法，其中：所述统计值包括阈值；并且更新所述个体模型向量至少部分基于所述相似度值在所述阈值之上。

M.如段落F到L中的任一项所述的方法，其中所述分类器是多类别支持向量机。

N.一种或多种编码有指令的计算机可读介质，所述指令在由处理器执行时配置计算机执行如段落F到M中的任一项所述的方法。

O.一种设备，包括一个或多个处理器和编码有指令的一种或多种计算机可读介质，所述指令在由所述一个或多个处理器执行时配置计算机执行如段落F到M中的任一项所述的计算机实现的方法。

P.一种或由指令编码的计算机可读介质，所述指令在由处理器执行时配置计算机执行动作，所述动作包括：至少部分基于多个多媒体数据项来训练分类器，其中所述多个多媒体数据项包括肯定多媒体数据项和否定多媒体数据项；向所述肯定多媒体数据项应用所述分类器；至少部分基于向所述肯定多媒体数据项应用所述分类器，收集与多个标签中的个体标签相关联的统计值；接收新的多媒体数据项；从所述新的多媒体数据项中提取特征；向所述特征应用所述分类器以生成对应于所述个体标签中的每个标签的相似度值；将所述相似度值与所述统计值相比较；并且对所述新的多媒体数据项进行分类。

Q.如段落P所述的一种或多种计算机可读介质，其中对所述新的多媒体数据项进行分类包括：确定与所述个体标签相对应的所述相似度值中的一个或多个相似度值在所述个体标签的预定阈值之上；以及确定所述新的多媒体数据项与所述个体标签中的至少一个标签相关联。

R.如段落Q所述的一种或多种计算机可读介质，其中用于所述个体标签的所述预定阈值是至少部分基于与所述个体标签相关联的所述统计值的自适应阈值。

S.如段落P到R中的任一项所述的一种或多种计算机可读介质，其中对所述新的多媒体数据项进行分类包括：确定与所有所述个体标签相对应的所述相似度值在所述个体标签的预定阈值以下；以及确定所述新的多媒体数据项不与所述个体标签中的任何标签相关联。

T.如段落P到S中的任一项所述的一种或多种计算机可读介质，其中：对所述新的多媒体数据项进行分类包括确定所述新的多媒体数据项与所述个体标签中的至少一个标签相关联；并且所述动作还包括对上述相似度值进行排序。

U.如段落T所述的一种或多种计算机可读介质，其中所述动作还包括至少部分基于对所述相似度值进行排序来确定所述新的多媒体数据项与所述个体标签中的特定个体标签相关联，所述特定个体标签与最高排序的相似度值相关联。

V.如段落T所述的一种或多种计算机可读介质，其中所述动作还包括：选择在预定阈值之上的预定数目的所述相似度值；将所述相似度值与和所述预定数目的所述个体标签相关联的相应统计值相比较；至少部分基于将所述相似度值与和所述预定数目的所述个体标签相关联的相应统计值相比较，对所述预定数目的所述相似度值进行重新排序；并且至少部分基于所述重新排序，确定特定个体标签与所述新的多媒体数据项相关联。

W.一种设备，包括一个或多个处理器和如段落P-V中的任一项所述的一种或多种计算机可读介质。

X.一种系统，包括：计算机可读介质；一个或多个处理器；以及在所述计算机可读介质上并且由所述一个或多个处理器可执行的一个或多个模块，所述一个或多个模块执行操作，所述操作包括：至少部分基于多个多媒体数据项来训练分类器，其中所述多个多媒体数据项包括肯定多媒体数据项和否定多媒体数据项；向所述肯定多媒体数据项应用所述分类器；至少部分基于向所述肯定多媒体数据项应用所述分类器，收集与多个标签中的个体标签相关联的统计值；接收新的多媒体数据项；从所述新的多媒体数据项中提取特征；向所述特征应用所述分类器以生成对应于所述个体标签中的每个标签的相似度值；将所述相似度值与所述统计值相比较；并且对所述新的多媒体数据项进行分类。

Y.如段落X所述的系统，其中对所述新的多媒体数据项进行分类包括：确定与所述个体标签相对应的所述相似度值中的一个或多个相似度值在所述个体标签的预定阈值之上；以及确定所述新的多媒体数据项与所述个体标签中的至少一个标签相关联。

Z.如段落Y所述的系统，其中所述个体标签的所述预定阈值是至少部分基于与所述个体标签相关联的所述统计值的自适应阈值。

AA.如段落X到Z中的任一项所述的系统，其中对所述新的多媒体数据项进行分类包括：确定与所有所述个体标签相对应的所述相似度值在所述个体标签的预定阈值以下；以及确定所述新的多媒体数据项不与所述个体标签中的任何标签相关联。

AB.如段落X到AA中的任一项所述的系统，其中：对所述新的多媒体数据项进行分类包括确定所述新的多媒体数据项与所述个体标签中的至少一个标签相关联；并且所述动作还包括对所述相似度值进行排序。

AC.如段落AB所述的系统，其中所述操作还包括至少部分基于对所述相似度值进行排序来确定所述新的多媒体数据项与所述个体标签中的特定个体标签相关联，所述特定个体标签与最高排序的相似度值相关联。

AD.如段落AB所述的系统，其中所述动作还包括：选择在预定阈值之上的预定数目的所述相似度值；将所述相似度值与和所述预定数目的所述个体标签相关联的所述统计值中的相应统计值相比较；至少部分基于将所述相似度值与和所述预定数目的所述个体标签相关联的所述统计值中的相应统计值相比较，对所述预定数目的所述相似度值进行重新排序；并且至少部分基于所述重新排序，确定特定个体标签与所述新的多媒体数据项相关联。

结论

尽管已经以结构特征和/或方法动作特有的语言描述了主题，但是应当理解，所附权利要求中限定的主题不一定限于所描述的特定特征或动作。相反，特定特征和作用被描述作为实现权利要求的说明性形式。

除非另有明确说明，否则条件语言(诸如，尤其是“可以(can)”、“可以(could)”、“可能(might)”或“可以(may)”等)在上下文中被理解为呈现某些示例包括(但是其他示例不一定包括)某些特征、元素和/或步骤。因此，这种条件语言通常不旨在暗示某些特征、元件和/或步骤以任何方式对于一个或多个示例是必需的，也不暗示一个或多个示例必须包括用于在有或没有用户输入或提示的情况下决定某些特征、元件和/或步骤是否包括或者是否要在任何特定示例中执行的逻辑。除非另有特别说明，否则诸如短语“X、Y或Z中的至少一个”等连接性语言应当被理解为表示项目、条目等可以是X、Y或Z、或其组合。

Claims

1.一种计算机实现的方法，包括：

访问多媒体数据项的语料库，所述多媒体数据项的语料库包括肯定多媒体数据项和否定多媒体数据项，其中：

所述肯定多媒体数据项中的个体肯定多媒体数据项与多个标签中的个体标签相关联；以及

所述否定多媒体数据项不与所述多个标签中的任何标签相关联；

从所述个体肯定多媒体数据项中提取第一特征集合；

至少部分地基于所述第一特征集合来训练分类器，所述分类器包括多个模型向量，所述多个模型向量中的每个模型向量对应于所述个体标签中的一个标签；

至少部分地基于向所述个体肯定多媒体数据项中的一个或多个肯定多媒体数据项应用所述分类器，收集对应于所述个体标签中的每个标签的统计值；

从新的多媒体数据项中提取第二特征集合；

向所述第二特征集合应用所述分类器以确定对应于所述个体标签中的每个标签的相似度值；

确定所述新的多媒体数据项是所述否定多媒体数据项中的一个否定多媒体数据项；

至少部分地基于确定所述新的多媒体数据项是所述否定多媒体数据项中的一个否定多媒体数据项，将所述统计值与对应于所述个体标签中的每个标签的所述相似度值相比较；以及

至少部分地基于将所述统计值与所述相似度值相比较，更新所述多个模型向量中的个体模型向量。

2.根据权利要求1所述的计算机实现的方法，还包括：

接收与所述多个标签中的第一标签相关联的第二新的多媒体数据项；

从所述第二新的多媒体数据项中提取第三特征集合；

向所述第三特征集合应用所述分类器；

至少部分地基于向所述第三特征集合应用所述分类器，来确定对应于所述个体标签中的每个标签的新的相似度值；

确定所述第二新的多媒体数据项是所述肯定多媒体数据项中的一个肯定多媒体数据项；

确定所述分类器将所述第二新的多媒体数据项分类为与所述多个标签中的第二标签相关联，所述第二标签不同于所述第一标签；以及

调整所述个体模型向量中的至少两个模型向量。

3.根据权利要求2所述的计算机实现的方法，其中调整所述个体模型向量中的至少两个模型向量包括：

按比例缩小所述个体模型向量中的第一个体模型向量，所述第一个体模型向量与所述第二标签相关联；以及

按比例增大所述个体模型向量中的第二个体模型向量，所述第二个体模型向量与所述第一标签相关联。

4.根据权利要求2所述的计算机实现的方法，还包括至少部分地基于确定所述新的相似度值来更新所述统计值。

5.根据权利要求1所述的计算机实现的方法，其中更新所述个体模型向量包括：

确定所述相似度值中的、对应于所述个体标签中的特定个体标签的特定相似度值大于所述统计值中的、与所述特定个体标签相关联的特定统计值；以及

按比例缩小所述个体模型向量中的特定个体模型向量，所述特定个体模型向量对应于所述特定个体标签。

6.根据权利要求1所述的计算机实现的方法，其中所述统计值包括以下中的一项或多项：

所述相似度值的平均值，其在所述分类器正确地标识所述个体肯定多媒体数据项中的、具有所述个体标签中的个体标签的个体肯定多媒体数据项时被生成；

所述相似度值的标准偏差，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成；

所述相似度值的第k阶统计值，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成；或者

表示所述相似度值的分布，其在所述分类器正确地标识具有所述个体标签的所述个体肯定多媒体数据项时被生成。

7.根据权利要求1所述的计算机实现的方法，其中：

所述统计值包括阈值；以及

更新所述个体模型向量是至少部分地基于所述相似度值在所述阈值之上。

8.根据权利要求1所述的计算机实现的方法，其中所述分类器是多类别支持向量机。

9.一种系统，包括：

一个或多个处理器；以及

被存储在计算机存储介质中的指令，所述指令可由所述一个或多个处理器执行以执行操作，所述操作包括：

从所述个体肯定多媒体数据项中提取第一特征集合；

从新的多媒体数据项中提取第二特征集合；

10.根据权利要求9所述的系统，所述操作还包括：

从所述第二新的多媒体数据项中提取第三特征集合；

向所述第三特征集合应用所述分类器；

调整所述个体模型向量中的至少两个模型向量。

11.根据权利要求10所述的系统，其中调整所述个体模型向量中的至少两个模型向量包括：

12.根据权利要求10所述的系统，所述操作还包括：至少部分地基于确定所述新的相似度值来更新所述统计值。

13.根据权利要求9所述的系统，其中更新所述个体模型向量包括：

14.根据权利要求9所述的系统，其中所述统计值包括以下中的一项或多项：

15.根据权利要求9所述的系统，其中：

所述统计值包括阈值；以及

16.一种或多种计算机存储介质，所述一种或多种计算机存储介质被指令编码，所述指令当被处理器执行时，配置计算机以执行动作，所述动作包括：

从所述个体肯定多媒体数据项中提取第一特征集合；

从新的多媒体数据项中提取第二特征集合；

17.根据权利要求16所述的一种或多种计算机存储介质，所述动作还包括：

从所述第二新的多媒体数据项中提取第三特征集合；

向所述第三特征集合应用所述分类器；

至少部分基于以下操作来调整所述个体模型向量中的至少两个模型向量：

18.根据权利要求16所述的一种或多种计算机存储介质，其中更新所述个体模型向量包括：

19.根据权利要求16所述的一种或多种计算机存储介质，其中所述统计值包括以下中的一项或多项：

20.根据权利要求16所述的一种或多种计算机存储介质，其中：

所述统计值包括阈值；以及