CN114287005A

CN114287005A - 用于增强图像分类的负采样算法

Info

Publication number: CN114287005A
Application number: CN202080058773.9A
Authority: CN
Inventors: O·尼尔; M·宗塔克; T·C·伯恩斯; A·辛格哈尔; 张磊; I·奥弗; A·勒维; H·萨博; I·巴尔-梅纳凯姆; E·亚米; E·本托夫; A·扎曼
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2019-08-20
Filing date: 2020-06-17
Publication date: 2022-04-05
Also published as: EP4018358A1; US20210056362A1; US20220318574A1; WO2021034399A1; US11366989B2; US11954893B2

Abstract

本文描述的技术针对用于索引视频的系统、方法和软件。在实施方式中，方法包括标识视频帧中的目标内容周围的一个或多个感兴趣区域。此外，该方法包括在感兴趣区域之外的帧的一部分中标识与感兴趣区域相邻的潜在空区域。该方法继续标识潜在空区域中的满足一个或多个标准的至少一个空区域，并将该至少一个空区域分类为目标内容的负样本。在一些实施方式中，目标内容的负样本位于目标内容的负样本集中，利用该负样本来训练用于标识目标内容的实例的机器学习模型。

Description

用于增强图像分类的负采样算法

技术领域

本公开的各方面涉及机器学习和人工智能的领域，尤其涉及用于机器学习图像分类模型的半监督训练的多帧媒体文件(例如，动画视频)中的角色的自动辨识和分组。

背景技术

动画是在全球范围内的极其庞大的业务，并且是许多最大的媒体公司的主要产品。然而，动画视频通常包含非常有限的元数据，因此对特定内容的有效搜索和检索并不总是可能的。例如，动画媒体中的关键组成部分是动画角色本身。实际上，动画视频中的角色必须首先被索引，例如被检测、分类和注释，以便能够有效地搜索和检索动画视频中的那些角色。

各种服务可以利用人工智能或机器学习来理解图像。然而，这些服务通常依赖于大量的人工标记。例如，动画视频中的角色辨识目前涉及在每个角色周围手动绘制边界框，并对边界框中包含的角色使用例如该角色的名称进行标注(或标记)。对多帧动画视频的每一帧的每个角色重复这种人工注释过程。不幸的是，这种人工注释过程繁琐，并且严重限制了这些服务的可扩展性。

总的来说，本文中一些现有的或相关的系统及其相关限制的示例旨在是说明性的而非排他性的。通过阅读以下内容，现存或现有的系统的其它限制针对本领域技术人员将变得显而易见。

发明内容

除了其他益处之外，本文描述的一个或多个实施例通过提供能够自动检测多帧动画媒体文件中的角色的实例(或出现)并对其进行分组，使得每个组包含与单个角色相关联的图像的系统、方法和非暂时性计算机可读介质来解决本领域中的一个或多个前述或其他问题。然后角色组本身可以被标记并用于训练图像分类模型，以用于自动地对后续多帧动画媒体文件中的动画角色进行分类。

虽然公开了多个实施例，但是从下面的详细描述中，本发明的其他实施例针对本领域技术人员来说将变得显而易见，下面的详细描述示出并描述了本发明的说明性实施例。如将认识到的，本发明能够在各个方面进行修改，所有这些都不脱离本发明的范围。因此，附图和详细描述本质上被认为是说明性的而不是限制性的。

提供本概述是为了以简化的形式介绍一些概念，这些概念将在下面的技术公开中进一步描述。可以理解，本概述不旨在标识所要求保护的主题的关键特征或必要特征，也不旨在用于限制所要求保护的主题的范围。本申请的附加特征和优点将在下面的描述中阐述，并且部分地将从描述中显而易见，或者可以通过此类示例性实施例的实践而获知。

附图说明

为了描述可以获得上述和其他优点和特征的方式，阐述更具体的描述并且将通过参考其在附图中示出的具体示例来表现出。应当理解，这些附图仅描绘了典型的示例，因此不应被认为是对其范围的限制，将通过使用附图以附加的特征和细节来描述和解释实施方式。

图1A描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架的框图，动画角色辨识和索引框架用于训练基于人工智能的(基于AI的)图像分类模型来自动地对多帧动画媒体文件中的角色进行分类以进行索引。

图1B描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架的框图，该动画角色辨识和索引框架应用(并且根据需要重新训练)在图1A的示例中训练的基于AI的图像分类模型。

图2描绘了根据一些实施方式以图形方式示出媒体索引器的模块之间的操作和数据流的数据流图。

图3描绘了示出根据一些实施方式的用于使用本文讨论的自动角色检测和分组技术来索引多帧动画媒体文件的示例性过程的流程图。

图4描绘了示出根据一些实施方式的用于使用分组的角色训练数据来训练或细化基于AI的图像分类模型的示例性过程的流程图。

图5描绘了示出根据一些实施方式的用于对在多帧动画媒体文件中自动检测到的角色进行分组(或聚类)的示例性过程的流程图。

图6描绘了包括根据一些实施方式的用于选择上传视频文件的各种选项的各种菜单的图形用户界面。

图7描绘了示出根据一些实施方式的已经使用媒体索引器索引的示例性视频的图形用户界面。

图8描绘了示出根据一些实施方式的已经使用媒体索引器索引的示例性视频的图形用户界面。

图9描绘了示出根据一些实施方式的用于使用本文讨论的自动角色检测和分组技术来索引多帧动画媒体文件的示例性过程的流程图。

图10描绘了示出根据一些实施方式的用于对在多帧动画媒体文件中自动检测到的角色进行分组(或聚类)的另一示例性过程的流程图。

图11描绘了示出根据一些实施方式的用于标识和分类目标内容的负示例的示例性过程的流程图。

图12描绘了根据一些实施方式标识目标内容的负样本的示例性场景。

图13描绘了示出根据一些实施方式的用于标识和分类目标内容的负样本的另一示例性过程的流程图。

图14描绘了根据一些实施方式标识目标内容的负样本的示例性场景。

图15描绘了根据一些实施方式标识目标内容的负样本的示例性场景。

图16描绘了示出适于实现本文公开的技术的示例性计算系统的框图，该示例性计算系统包括在附图中示出并在下面技术公开中讨论的任何应用、架构、元素、过程以及操作场景和序列。

附图不一定按比例绘制。类似地，出于讨论本技术的一些实施例的目的，可以将一些部件和/或操作分成不同的块或组合成单个块。此外，虽然该技术可以有各种修改和替代形式，但是具体实施例已经通过示例的方式在附图中示出并且在下面进行了详细描述。然而，其目的不是将技术限制于所描述的特定实施例。相反，该技术旨在覆盖落入由所附权利要求限定的技术范围内的所有修改、等同物和替代物。

具体实施方式

下面详细讨论示例。虽然讨论了具体的实施方式，但是应当理解，这只是为了说明的目的。相关领域的技术人员将认识到，在不脱离本公开的主题的精神和范围的情况下，可以使用其他部件和配置。这些实施方式可以包括机器实现的方法、计算装置或计算机可读介质。

由于多种原因例如动画角色本身的非规整性质，辨识视频中的动画角色可能具有挑战性。实际上，动画角色可以有许多不同的形式、形状、大小等。在许多情况下，内容制作者(例如，生成或操纵动画媒体内容的公司)想要索引包括在其动画媒体内容中的角色。然而，如上所述，目前这是非常困难且不可扩展的过程，需要人工注释多帧动画媒体文件的每一帧中的每个角色。

本文描述的技术涉及包括角色辨识引擎的媒体索引器，该角色辨识引擎可以自动检测多帧动画媒体文件中的角色的实例(或出现)并对其进行分组，使得每个组包含与单个角色相关联的图像。然后对角色组本身进行标记，并且使用被标记的组来训练图像分类模型，以用于自动地对后续多帧动画媒体文件中的动画角色进行分类。

通过本文讨论的技术可以实现各种技术效果。除了其他益处之外，本文讨论的技术提供用于训练图像分类模型的可扩展解决方案，其对角色检测或角色分类精度的影响最小。此外，关键帧的使用减少了需要处理的数据量，同时保持了较高的数据方差。此外，自动角色辨识消除了对人工注释边界框的需要，并且角色的自动分组产生了精确的注释，而大大减少了人工量，例如通过组标记而不是逐个角色注释的半监督训练。

如本文所使用的，术语“动画角色(animated character)”指的是表现出在动画多帧动画媒体文件中包含或检测到的类人特征的对象。例如，“动画角色”可以是表现出任何人类形式或属性(包括但不限于人类特征、情感、意图等)的有生命或无生命的拟人化对象。

描述动画角色辨识和索引框架的一般概述和示例性架构，以用于训练与图1A相关的基于AI的图像分类模型。然后，图1B描绘了动画角色辨识和索引框架应用(并根据需要重新训练或细化)训练的基于AI的图像分类模型的示例。此后，关于后续附图提供动画角色辨识和索引框架的部件和过程的更详细描述。

图1A描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架100的框图，动画角色辨识和索引框架100用于训练基于AI的图像分类模型来自动地对多帧动画媒体文件中的角色进行分类以进行索引。实际上，示例性动画角色辨识和索引框架100包括媒体索引器服务120，该媒体索引器服务120可以自动检测媒体文件中的角色的实例(或出现)并对其进行分组，使得每个组包含与单个角色相关联的图像。然后，相应地识别(辨识)并标记角色组。如图1A的示例所示，然后可以利用被标记的角色组(或分组的角色训练数据)来训练基于AI的图像分类模型，以自动地对后续多帧动画媒体文件中的动画角色进行分类。

如图1A的示例所示，动画角色辨识和索引框架100包括图像分类器110、媒体索引器120和操作计算系统131的用户135，计算系统131可以提供用户输入以人工标记(或辨识)角色组。额外或更少的系统或部件是可能的。

图像分类器110可以是图像分类服务的任何图像分类器。在一些实施方式中，图像分类器110可以由微软提供的Azure自定义视觉服务来实现。自定义视觉服务使用机器学习算法将标签应用于图像。开发人员通常会提交被标记的图像的组，这些图像可以具有也可以缺乏讨论中的特征。机器学习算法使用提交的数据进行训练，并通过在这些相同的图像上测试它自身而计算其自身的准确性。一旦机器学习算法(或模型)被训练，图像分类器110就可以测试、重新训练并使用该模型来对新图像进行分类。

如图1A和图1B的示例所示，媒体索引器120包括角色辨识引擎122、媒体索引器数据库128和索引引擎129。

角色辨识引擎122包括关键帧选择模块123、角色检测模块124、角色分组模块125和组标记模块126。角色辨识引擎122的部件、模块、管理器和/或引擎所代表的功能可以单独地或以其任何组合，部分地或全部地以硬件、软件或硬件和软件的组合来实现。此外，虽然被示为离散部件，但是角色辨识引擎122的部件、模块、管理器和/或引擎的操作和功能可以部分地或全部地集成在动画角色辨识和索引框架100的其他部件中。

在操作中，未索引的(或非结构化的)多帧动画媒体文件105a被馈送到媒体索引器120以用于角色辨识和索引。媒体索引器120包括角色辨识引擎122、媒体索引器数据库128和索引引擎129。额外或更少的系统或部件是可能的。

关键帧选择模块123被配置为选择或以其他方式标识多帧动画媒体文件的总帧的小子集，以降低角色辨识过程的计算复杂度，而对准确性的影响最小或有限。实际上，关键帧选择模块123被配置为从多帧动画媒体文件中标识和选择重要或有意义的帧(例如，观察角色的可能性最高的帧)。在一些实施方式中，至少部分地基于关键帧在确定微场景或镜头片段中的个体重要性来确定该关键帧。在一些实施方式中，每个帧可以被分配重要性值，并且重要性值大于阈值的帧被选择作为关键帧。可替代地或附加地，总帧的百分比，例如前百分之一的具有最高评价重要性值的帧可以被选择作为关键帧。

如本文所讨论的，关键帧通常构成多帧动画媒体文件(例如动画视频)中总帧的一小部分(例如百分之一)。然而，标记多帧动画媒体文件中的每个帧与仅标记关键帧之间的性能差异针对检测多帧动画媒体文件中的每个角色来说是名义上的。因此，关键帧允许媒体索引器130保持角色检测准确性，同时降低计算复杂度。

角色检测模块124被配置为处理或分析关键帧，以检测(或提出)多帧动画媒体文件的关键帧中的角色的实例(或出现)。实际上，角色检测模块124可以处理关键帧并提供角色区域提议(也称为边界框)。例如，角色检测模块124可以捕获每个角色区域提议作为图像。

如本文所讨论的，动画角色的检测可能是困难的，因为角色可以采取几乎任何有生命的(例如，人、动物等)或无生命的(例如，机器人、汽车、蜡烛等)对象的形式。因此，在一些实施方式中，角色检测模块124包括对象检测模型，训练该对象检测模型以检测不同样式、主题等的动画角色(例如，汽车、人、机器人等)的边界框。

在一些实施方式中，可以训练角色检测模块124以检测表现出类人特征的对象。即，角色检测模块124被设计成检测关键帧内的任何拟人化对象。如本文所讨论的，术语“拟人化对象(anthropomorphic object)”指的是表现出任何人类形式或属性(包括但不限于人类特征、情感、意图等)的任何有生命的或无生命的物体。

角色分组模块125被配置为基于图像的相似性来对角色区域提议进行比较和分组，使得每个组包含与单个角色相关联的图像。在一些情况下，所得到的角色组中的一个以上可以与同一角色相关联，例如，第一组包括戴帽子的海绵宝宝的图像，第二组包括不戴帽子的海绵宝宝的图像。

在一些实施方式中，角色分组模块125使用检测到的角色区域提议的嵌入来应用聚类算法，以确定角色组。实际上，可以通过将角色区域提议(或图像)的特征嵌入到特征空间中来确定角色组，以简化图像比较。参考图5更详细地示出和讨论了说明应用聚类算法的方法的示例，该方法包括将角色区域提议(或图像)嵌入到特征空间中并比较该嵌入以标识角色组。

组标记模块126被配置为在不使用分类模型的情况下对角色组进行标记(注释或分类)。如本文所讨论的，标记角色组针对分类模型的初始训练以及细化训练的分类模型而言是有用的(如参考图1B更详细示出和讨论的)。

在一些实施方式中，组标记模块126可以将每个角色组作为图像聚类呈现给用户135。然后可以利用来自用户135的输入对角色组进行分类。例如，用户135可以为该组提供注释或标签。可替代地或附加地，用户115可以提供期望出现在多帧动画媒体文件中的角色的规范图像。在这种情况下，可以将规范角色与角色组进行比较，以标识和标记角色组。在其他实施方式中，用户115可以提供多帧动画媒体文件的电影或系列名称。在这种情况下，组标记模块126可以查询数据存储，例如Satori(微软知识图)，以获得关于电影和/或系列的信息，并提取角色的名称和任何可用的规范图像。

图1B描绘了示出根据一些实施方式的示例性动画角色辨识和索引框架100的框图，该动画角色辨识和索引框架100应用(并根据需要重新训练)在图1A的示例中训练的基于AI的图像分类模型。实际上，训练的基于AI的图像分类模型被训练以自动标识和索引多帧动画媒体文件106a中的动画角色。多帧动画媒体文件106a与多帧动画媒体文件105a相关(例如，相同系列或具有一个或多个重叠角色)。

如本文所讨论的，在一些实施方式中，用户可以指定训练的基于AI的图像分类模型以用于索引多帧动画媒体文件。参考图6，更详细地示出和讨论了示出图形用户界面的示例，该图形用户界面包括用于选择训练的基于AI的图像分类模型的各种菜单。

在操作中，媒体索引器120可以利用训练的基于AI的图像分类模型来对角色组进行分类，并且使用新的分组的角色训练数据(例如，具有新的或不同的外观或特征的新角色或现有角色)来细化(或调整)训练的基于AI的图像分类模型。如本文所讨论的，媒体索引器120与图像分类器110接口，以利用、训练和/或细化基于AI的(一个或多个)图像分类模型116。

如上所讨论的，图像分类器110可以由Azure自定义视觉服务来实现，该Azure自定义视觉服务可以应用于每个聚类(或角色组)。在一些实施方式中，可以应用平滑操作来处理如下情况，即单个角色被分成两个或更多个不同的聚类(或角色组)，例如包括戴帽子的海绵宝宝的图像的组和包括不戴帽子的海绵宝宝的图像的组。平滑操作可操作以合并两个或更多个不同的聚类(或角色组)并提供分组的角色训练数据，以细化训练的基于AI的图像分类模型，使得未来的分类被归类为相同的角色。

图2描绘了根据一些实施方式以图形方式示出媒体索引器200的模块之间的操作和数据流的数据流图。如图2的示例所示，媒体索引器200包括图1A和1B的关键帧选择模块123、角色检测模块124、角色分组模块125和组标记模块126。附加的或更少的模块、部件或引擎是可能的。

图3描绘了示出根据一些实施方式的用于使用本文讨论的自动角色检测和分组技术来索引多帧动画媒体文件(例如，动画视频)的示例性过程300的流程图。示例性过程300可以由媒体索引器(例如，图1A和图1B的媒体索引器120)或与其相关联的一个或多个处理器、模块、引擎或部件在各种实现中执行。

首先，在310，媒体索引器呈现用户界面(UI)或应用程序接口(API)。如本文所讨论的，用户可以指定要被索引的多帧动画媒体文件和基于AI的图像分类模型，利用该模型来索引(如果训练过的话)或训练(如果未训练过的话)。参考图6，更详细地示出和讨论了示出图形用户界面的示例，该图形用户界面包括用于选择训练的基于AI的图像分类模型的各种菜单。

在312，媒体索引器接收用于索引的多帧动画媒体文件(例如，动画视频)。在314，媒体索引器提取或标识关键帧。在316，媒体索引器检测关键帧中的角色。在318，媒体索引器对在多帧动画媒体文件中自动检测到的角色进行分组。参考图5更详细地示出和讨论了说明角色分组的示例。在320，媒体索引器确定是否指定了训练的分类模型。如果是，则在322，媒体索引器使用训练的分类模型对角色组进行分类，并且在324，平滑(或合并)分类的角色组。

最后，在326，使用已辨识(分类的)和未辨识的(未知的)角色来索引多帧动画媒体文件(例如，动画视频)。在图8的示例中示出了说明借助于已辨识角色和未辨识角色索引的多帧动画媒体文件的示例性图形用户界面。如本文所讨论的，用户可以指定或标记未辨识的角色组，以细化基于AI的图像分类模型。

图4描绘了示出根据一些实施方式的用于使用分组的角色训练数据来训练或细化基于AI的图像分类模型的示例性过程400的流程图。示例性过程400可以由媒体索引器(例如，图1A和图1B的媒体索引器120)或与其相关联的一个或多个处理器、模块、引擎或部件在各种实现中执行。

首先，在412，媒体索引器标识(或以其他方式获得)标签或分类信息。

在414，媒体索引器…

最后，在416，媒体索引器…

图5描绘了示出根据一些实施方式的用于对在多帧动画媒体文件中自动检测到的角色进行分组(或聚类)的示例性过程500的流程图。示例性过程500可以由媒体索引器(例如，图1A和图1B的媒体索引器120)或与其相关联的一个或多个处理器、模块、引擎或部件在各种实现中执行。

首先，在412，媒体索引器标识(或以其他方式获得)未知(或未分类)动画角色组的标签或分类信息。如本文所讨论的，媒体索引器可以标识标签信息，例如与每个动画角色组相关联的单个动画角色的名称，并且利用所标识的标签信息对动画角色组进行分类(或注释)，从而产生至少一个经注释的动画角色组。

在414，媒体索引器在媒体索引器数据库中收集标识的(或经注释的)动画角色组。最后，在416，媒体索引器通过将经注释的动画角色组馈送给图像分类器来训练或细化图像分类模型，以训练图像分类模型。

首先，在510，媒体索引器访问下一个标识的角色。如本文所讨论的，每个角色区域提议包括包含提议的动画角色的关键帧的边界框或子集。在512，媒体索引器提取包含在角色区域提议中的下一个标识的角色的特征，并且在514，将该特征嵌入特征空间中。

在判定516，媒体索引器确定是否已经标识出更多的角色区域提议，如果是，则返回到步骤510。如本文所讨论的，首先标识来自多帧动画媒体文件的多个关键帧。每个关键帧可以包括一个或多个角色区域提议。一旦每个角色区域提议被遍历，在518，媒体索引器就选择特征空间中的聚类角色组。例如，媒体索引器可以通过比较特征空间内的嵌入特征来确定角色区域提议之间的相似性，并基于所确定的相似性应用聚类算法以标识动画角色组。

图6至图8描绘了可以呈现给用户的各种图形用户界面。首先参考图6的示例，图6描绘了根据一些实施方式的图形用户界面，其包括用于选择上传视频文件的各种选项的各种菜单。更具体地，图6描绘了包括各种菜单的图形用户界面，该菜单用于选择上传视频文件的各种选项并(可选地)选择经训练的基于AI的图像分类模型，利用该模型来索引视频文件(或者可替代地进行训练)。

接下来参考图7的示例，图7描绘了示出已经使用本文讨论的媒体索引器索引的示例性视频的图形用户界面。实际上，图7的示例说明了在示例性视频中已经被标识、分类和索引的各种不同角色的实例。

类似地，图8描绘了示出已经使用本文讨论的媒体索引器索引的示例性视频的图形用户界面。更具体地，

图9描绘了示出根据一些实施方式的示例性过程900的流程图，该示例性过程900用于使用本文讨论的自动角色检测和分组技术来索引多帧动画媒体文件(例如，动画视频)。示例性过程900可以由媒体索引器(例如，图1A和图1B的媒体索引器120)或与其相关联的一个或多个处理器、模块、引擎或部件在各种实现中执行。

示例性过程900类似于示例性过程300，除了示例性过程900包括用于样式适应的步骤。例如，可以使用第一类型(或样式)的动画(例如，计算机生成图形(CGI))来训练基于AI的图像分类模型，然后将其应用于包括第二类型(或样式)的动画(例如，手绘动画)的输入，而无需再训练模型。在其他潜在选项中，可以调整或转换关键帧(如图9的示例所示)或者可以在将提取的特征(如图10的示例所示)嵌入到特征空间中之前对其进行转换。

再次参考图9，在一些实施方式中，可以将用于样式适配的附加网络添加到检测器(例如角色检测模块124)以用于未见的(或未知的)动画样式的在线适配。可以以多种方式离线训练附加网络。例如，训练数据可以基于标记的数据集，该数据集用于训练未见过的电影(例如预告片)的检测器和数据集。样式适配网络可以学习将局部特征统计从用于训练的数据集传播到未见的数据。训练可以基于极大极小全局优化，该极大极小全局优化使角色检测器对在未见过的图像中检测到的角色的置信度最大化，同时使在样式转换前后图像的深度学习嵌入的距离最小化(从而保持相似的语义信息)。可以使用的深度学习嵌入与用于特征化和分组的深度学习嵌入是相同的。

图10描绘了示出根据一些实施方式的用于对在多帧动画媒体文件中自动检测到的角色进行分组(或聚类)的另一示例性过程1000的流程图。示例性过程1000可以由媒体索引器(例如，图1A和图1B的媒体索引器120)或与其相关联的一个或多个处理器、模块、引擎或部件在各种实现中执行。

示例性过程1000类似于图5的示例性过程500，除了示例性过程1000包括用于样式适配的步骤。具体地，示例性过程1000可以适配或转换特征而非整个关键帧(如图9的示例中所讨论的)。

图11示出了用于对图像的负示例(negative example)进行采样的过程1100，这些图像作为训练数据被提供给图像分类器。用于图像分类的负示例采样提供了分类增强。任何特定领域(例如，动画角色)的可定制图像分类都需要教机器学习模型区分已知的类别与其他事物。背景采样是生成不与角色边界框相交的边界框的好方法。技术问题是计算复杂性，因为问题的本质是数学意义上的非凸的困难问题(NP完全问题)。例如，可能的背景(BG)框的数量随着感兴趣区域(边界框)的数量呈指数增长。

过程1100开始于标识帧中的目标内容周围的感兴趣区域(步骤1101)。感兴趣区域可以由围绕图像、一系列图像(视频帧)等中的感兴趣内容绘制的矩形边界框形成。此类内容的示例包括动画视频中的角色、布局中的部件(例如，电路板上的电路和部件或办公室布局中的家具)。

接下来，过程1100标识与感兴趣区域相邻的潜在空区域(步骤1103)。感兴趣区域可以是在步骤1101的上下文中标识的感兴趣区域之一。每个潜在相邻区域包括与感兴趣的中心区域相邻的一侧，并且具有与感兴趣的中心区域的轴平行的轴。在示例中，感兴趣的中心区域可以是矩形，并且潜在空区域也是与中心矩形轴向对齐且一侧与中心矩形的一侧邻接的矩形。其他形状也是可能的，例如三角形、正方形、平行四边形和梯形，甚至是缺少前述示例的直边的圆形。

过程1100然后继续从潜在空区域中标识满足一个或多个标准的至少一个空区域(步骤1105)。满足一个或多个标准的空区域可以被分类(或指定)为作为图像分类器的主题的目标内容的负示例(步骤1107)。负示例可以与集合中的其他负示例一起分组，并与目标内容的正面示例一起作为训练数据提供给分类器。

返回到步骤1105，标识空区域可以以多种方式完成。在一个示例中，过程1100可以通过采用最大空矩形算法来找到(一个或多个)空区域(步骤1105A)。最大空矩形算法(或最大空矩形)可以在没有目标内容的图像中快速找到最大的矩形区域。因此，空矩形将避免或者不与包含目标内容的任何其他矩形重叠。

可替代地，过程1100可以采用对与中心区域相邻的区域的递归分析来找到空区域(步骤1105)。这种递归分析首先标识与中心区域相邻的区域并将那些空的(并且可选地具有令人满意的大小)区域指定为负示例。然后，该分析递归地对任何非空的相邻区域进行同样的操作。即，该分析标识与相邻区域相邻的其他区域，并且检查那些空的(并且可选地具有令人满意的大小)区域(或子区域)。

图12示出了在示例性场景1200中由过程1100的实现而产生的结果。在该场景中，过程1100示例了包括由边界框1203和边界框1205表示的两个矩形边界框的1201。围绕一个动画角色绘制边界框1203，而围绕另一个动画角色绘制边界框1205。

当应用于图像1203时，利用递归分析的过程1100将标识与边界框1203相邻的四个空区域，这四个空区域被算作由区域1211、区域1212、区域1213和区域1214表示的目标内容的负示例。利用最大矩形方法，过程1100将仅标识单个矩形，例如区域1214，因为区域1214是四个矩形中最大的。是否使用一种方法而不是另一种方法将取决于操作限制。例如，最大矩形方法可能比递归分析更快，但是所得到的负样本可能固有地比递归方法所产生的负样本的集合具有更少的编码信息。然而，从实际的角度来看，通过最大矩形方法获得的速度可能被认为是值得折衷的。

图13示出了用于对作为训练数据提供给图像分类器的图像的负示例进行采样的递归过程1300。类似四叉树的分支和边界递归是由过程1300提出的，其在某些复杂性约束下产生尽可能大的边界框。递归采用最居中的边界框，并将帧拆分四次，即上方子帧、下方子帧、右侧子帧和左侧子帧。停止标准是不再有边界框或当子帧太小时。即使当图像具有许多边界框时，这种机制也允许索引器和分类器集成来优化负示例的生成，这使得朴素方法实际上是无法解决的。

更具体地参考图13，该过程从标识帧中的边界框开始(步骤1301)。在一些示例中，第一个框可能是帧中最中心的框。该帧大概包括围绕潜在动画角色或其他感兴趣的对象/区域的一个或多个边界框，针对这些对象/区域需要负示例。

该过程继续围绕边界框将帧拆分成多个子帧(步骤1303)。在一个示例中，可以从边界框的四个边(左侧、右侧、顶部和底部)中的每个边形成四个子帧。四个子帧中的每个帧都将从边界框的一侧延伸到帧本身的边缘。在其他示例中，所讨论的边界框可以提供少于四个边，针对这些边来形成子帧。

在步骤1305，该过程将分析的子帧之一标识为潜在可接受的负示例，然后将该子帧的尺寸与尺寸约束的大小进行比较(步骤1307)。如果子帧的尺寸不满足最小尺寸(例如，小于阈值尺寸)，则该子帧作为潜在的负样本被拒绝。然而，如果子帧的尺寸满足最小尺寸，则该过程确定该子帧是否包括一个或多个其他边界框或与一个或多个其他边界框重叠(步骤1309)。

如果在子帧内没有发现其他边界框，则该子帧被认为是负示例，并且可以被分类或标记为负示例(步骤1311)。然而，如果子帧在其内包括一个或多个其他边界框，则该过程返回到步骤1303，以再次将子帧拆分成更多的子帧。

假设将子帧算作负示例，则该过程继续确定相针对该子帧所属的父帧是否剩余任何子帧(步骤1313)。如果是，则该过程返回到步骤1305，以标识和分析下一个子帧。

如果没有剩余的其他子帧，则可以将所有被标识的负示例作为训练数据提供给分类器(步骤1315)。该步骤可以在每个负示例被标识之后单独地以批处理模式或者以某种其他方式来执行。

图14示出了图13的负示例采样过程的示例性实现。在图14中，帧包括围绕两个角色的两个边界框。这些角色在这里被称为“红色”和“黄色”。较大的框1403围绕红色角色绘制，而两者中较小的框1405围绕黄色角色绘制。

当应用于图14中的图像时，图13的负示例采样过程首先标识最中心的边界框，出于示例性目的，假设该边界框是红色角色周围的较大框。围绕边界框的帧被分成四个子帧，即边界框右侧子帧1409、边界框左侧子帧1411、边界框顶部子帧1407和边界框底部子帧1413。

顶部子帧被确定为满足最小尺寸标准，并且其中没有任何边界框。因此，将顶部子帧算作负示例。右侧子帧也足够大，并且其中没有任何其他边界框，因此也可以算作角色的负示例。然而，底部子帧不够大，因此被拒绝作为负示例候选。

另一方面，左侧子帧足够大，但在其中至少包括边界框的一部分，即包围黄色角色的较小框。因此，该过程递归地对黄色角色的边界框的落入父帧的左子帧内的部分进行操作。

像父帧一样，左侧子帧被拆分成多个子帧，但在这种情况下只有三个子帧，因为黄色角色周围的边界框的右侧被排除在左侧子帧之外。将(子子帧的)顶部子帧1415算作负示例，因为它足够大并且其中没有其他边界框。由于相同的原因，将(子子帧的)左侧子帧1417也算作负示例。然而，右侧没有子帧是可能的，并且底部子帧1419由于太小而忽略。

由于在图像帧的子级或父级都不存在其他子帧，因此所有负示例都已被标识，并且可以被呈现给图像分类器以增强其训练。图15示出了通过将图13的采样过程应用于图14的图像而产生的最终四个负示例的放大视图1500。

图16示出了计算系统1601，其代表其中可以实现本文公开的各种过程、程序、服务和场景的任何系统或系统集合。计算系统1601的示例包括但不限于服务器计算机、云计算平台和数据中心设备，以及任何其他类型的物理或虚拟服务器、容器及其任何变体或组合。其他示例包括台式计算机、膝上型计算机、台式计算机、物联网(IoT)设备、可穿戴设备以及其任何其他物理或虚拟组合或变体。

计算系统1601可以实现为单个装置、系统或设备，或者可以以分布式方式实现为多个装置、系统或设备。计算系统1601包括但不限于处理系统1602、存储系统1603、软件1605、通信接口系统1607和用户接口系统1609(可选)。处理系统1602可操作地与存储系统1603、通信接口系统1607和用户接口系统1609耦合。

处理系统1602从存储系统1603加载并执行软件1605。软件1605包括并实现过程1606，过程1606代表关于前面附图讨论的过程。当由处理系统1602执行以提供分组重新路由时，软件1605指示处理系统1602至少针对前述实施方式中讨论的各种过程、操作场景和序列如本文所述进行操作。计算系统1601可以可选地包括出于简洁目的而未讨论的附加设备、特征或功能。

继续图16的示例，处理系统1602可以包括微处理器和从存储系统1603检索和执行软件1605的其他电路。处理系统1602可以在单个处理设备中实现，但是也可以分布在协作执行程序指令的多个处理设备或子系统中。处理系统1602的示例包括通用中央处理单元、图形处理单元、专用处理器和逻辑设备，以及任何其他类型的处理设备、其组合或变体。

存储系统1603可以包括可由处理系统1602读取且能够存储软件1605的任何计算机可读存储介质。存储系统1603可以包括以用于存储信息(例如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘、闪存、虚拟存储器和非虚拟存储器、磁带盒、磁带、磁盘存储器或其他磁存储设备、或任何其他合适的存储介质。在任何情况下，计算机可读存储介质都不是传播的信号。

除了计算机可读存储介质之外，在一些实施方式中，存储系统1603还可以包括计算机可读通信介质，软件1605中的至少一些可以通过该计算机可读通信介质在内部或外部进行通信。存储系统1603可以实现为单个存储设备，但也可以跨多个存储设备或子系统实现，这些存储设备或子系统相针对彼此位于同一处或分布。存储系统1603可以包括能够与处理系统1602或可能的其他系统通信的附加元件，例如控制器。

软件1605(包括学习过程1606)可以在程序指令中实现，并且在其他功能中，当由处理系统1602执行时，软件1605可以指示处理系统1602如关于本文所示的各种操作场景、序列和过程所描述的那样操作。例如，软件1605可以包括用于实施强化学习过程的程序指令，以学习如本文所述的最佳调度策略。

特别地，程序指令可以包括各种部件或模块，这些部件或模块协作或以其他方式交互以执行本文描述的各种过程和操作场景。各种部件或模块可以体现在编译或解释的指令中，或者体现在指令的一些其他变体或组合中。各种部件或模块可以同步或异步方式、串行或并行、在单线程环境或多线程中、或者根据任何其他合适的执行范例、变体或其组合来执行。软件1605可以包括附加的过程、程序或部件，例如操作系统软件、虚拟化软件或其他应用软件。软件1605还可以包括固件或可由处理系统1602执行的某种其他形式的机器可读处理指令。

一般来说，软件1605在被加载到处理系统1602中并被执行时，可以将合适的装置、系统或设备(其中计算系统1601是代表)从通用计算系统整体转换成被定制为提供运动学习的专用计算系统。实际上，存储系统1603上的编码软件1605可以转换存储系统1603的物理结构。该物理结构的具体转换可能取决于本说明书的不同实现中的各种因素。此类因素的示例可以包括但不限于，用于实现存储系统1603的存储介质的技术以及计算机存储介质是被表征为主存储还是辅助存储，以及其他因素。

例如，如果计算机可读存储介质被实现为基于半导体的存储器，则软件1605可以在其中编码程序指令时转换半导体存储器的物理状态，例如通过转换晶体管、电容器或构成半导体存储器的其他分立电路元件的状态。针对磁性或光学介质，可能会发生类似的转换。在不脱离本说明书的范围的情况下，物理介质的其他转换也是可能的，提供前述示例只是为了促进本讨论。

通信接口系统1607可以包括允许通过通信网络(未示出)与其他计算系统(未示出)通信的通信连接和设备。一起允许系统间通信的连接和设备的示例可以包括网络接口卡、天线、功率放大器、RF电路、收发器和其他通信电路。连接和设备可以通过通信介质进行通信，以与其他计算系统或系统网络交换通信，例如金属、玻璃、空气或任何其他合适的通信介质。前述通信网络和协议是众所周知的，这里不需要详细讨论。然而，可以使用的一些通信协议包括但不限于互联网协议(IP、IPv4、IPv6等)、传输控制协议(TCP)和用户数据报协议(UDP)以及任何其他合适的通信协议、其变体或组合。

计算系统1601与其他计算系统(未示出)之间的通信可以通过一个或多个通信网络并根据各种通信协议、协议的组合或其变体来进行。示例包括内部网、互联网、因特网、局域网、广域网、无线网络、有线网络、虚拟网络、软件定义的网络、数据中心总线和背板、或任何其他类型的网络、网络的组合或其变体。前述通信网络和协议是众所周知的，这里不需要详细讨论。

如本领域技术人员将理解的，本发明的各方面可以体现为系统、方法或计算机程序产品。因此，本发明的各方面可以采取完全硬件实施例、完全软件实施例(包括固件、常驻软件、微代码等)或结合软件和硬件方面(在本文中通常可以被称为“电路”、“模块”或“系统”)的实施例的形式。此外，本发明的各方面可以采取包含在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质在其上包含有计算机可读程序代码。

短语“在一些实施例中”、“根据一些实施例”、“在示出的实施例中”、“在其他实施例中”、“在一些实施例中”、“根据一些实施例”、“在示出的实施例中”、“在其他实施例中”等通常意味着该短语之后的特定特征、结构或特性包括在本技术的至少一个实施例或实施方式中，并且可以包括在多于一个实施例或实施方式中。此外，这样的短语不一定指相同或不同的实施例或实施方式。

附图中提供的功能框图、操作场景和序列以及流程图代表了用于执行本公开的新颖方面的示例性系统、环境和方法。虽然为了解释的简单起见，本文中包括的方法可以是功能图、操作场景或序列或流程图的形式，并且可以被描述为一系列动作，但是应当理解和意识到，这些方法不受动作顺序的限制，因为一些动作可以据此以不同于本文示出和描述的顺序发生和/或与其他动作同时发生。例如，本领域技术人员将理解和意识到，例如在状态图中，方法可以可替代地表示为一系列相互关联的状态或事件。此外，针对新颖的实现，并非方法中示出的所有动作都是必需的。

所包括的说明和附图描述了具体实施例，以教导本领域技术人员如何制作和使用最佳模式。出于教导发明原理的目的，已经简化或省略了一些传统方面。本领域技术人员将意识到落入本公开范围内的这些实施例的变体。本领域技术人员还将意识到，上述特征可以以各种方式组合以形成多个实施例。因此，本发明不限于上述具体实施例，而仅由权利要求及其等同物来限定。

Claims

1.一种用于索引视频的方法，包括：

标识所述视频的帧中围绕目标内容的一个或多个感兴趣区域；

在所述帧的在感兴趣区域外部的部分中，标识与所述感兴趣区域相邻的潜在空区域；

标识所述潜在空区域中的满足一个或多个标准的至少一个空区域；以及

将所述至少一个空区域分类为所述目标内容的负样本。

2.根据权利要求1所述的方法，还包括：

将所述目标内容的所述负样本包括在所述目标内容的负样本集中；以及

基于包括所述负样本集的训练数据来训练机器学习模型，以标识所述目标内容的实例。

3.根据权利要求1所述的方法，其中：

所述目标内容包括所述视频中的动画角色；

所述感兴趣区域包括围绕所述动画角色的边界框；以及

与所述感兴趣区域相邻的所述潜在空区域包括矩形，每个矩形的一侧与所述边界框相邻。

4.根据权利要求3所述的方法，其中：

所述矩形包括如下的空矩形，所述空矩形不与围绕所述目标内容的所述一个或多个感兴趣区域中的任何一个感兴趣区域重叠；以及

标识满足所述一个或多个标准的所述至少一个空区域包括：标识所述空矩形中的最大空矩形。

5.根据权利要求3所述的方法，其中针对所述矩形中的每个矩形，所述一个或多个标准包括：

给定的矩形是否因不包括围绕所述目标内容的所述一个或多个感兴趣区域中的任何一个感兴趣区域而被算作空；以及

所述给定的矩形的尺寸是否满足尺寸阈值。

6.根据权利要求5所述的方法，还包括：针对被算作空但不满足尺寸阈值的矩形，将该矩形丢弃，而不将该矩形分类为所述目标内容的任何类型的样本。

7.根据权利要求5所述的方法，还包括：针对不被算作空的矩形：

标识与该矩形的如下矩形部分相邻的潜在空矩形，所述矩形部分包括围绕另一个动画角色的另一个边界框的至少一部分；

标识所述潜在空矩形中的被算作空且满足所述尺寸阈值的至少一个空矩形；以及

将所述至少一个空矩形分类为所述目标内容的负样本。

8.根据权利要求1所述的方法，其中：

所述目标内容包括所述视频中的动画角色；

所述一个或多个感兴趣区域包括围绕所述帧中的所述动画角色的实例绘制的边界框；

所述帧的在所述感兴趣区域外部的部分包括由所述感兴趣区域的边界和所述帧的边界限定的边界区域；以及

所述感兴趣区域包括所述边界框中的最中心的边界框。

9.一种计算装置，包括：

一个或多个计算机可读存储介质；

一个或多个处理器，所述一个或多个处理器可操作地与所述一个或多个计算机可读存储介质耦合；以及

程序指令，所述程序指令存储在所述一个或多个计算机可读存储介质上并用于索引视频，当由所述一个或多个处理器执行时，所述程序指令指示所述计算装置至少：

标识所述视频的帧中的围绕目标内容的一个或多个感兴趣区域；

将所述至少一个空区域分类为所述目标内容的负样本。

10.根据权利要求9所述的计算装置，其中所述程序指令还指示所述计算装置：

11.根据权利要求9所述的计算装置，其中：

所述目标内容包括所述视频中的动画角色；

所述感兴趣区域包括围绕所述动画角色的边界框；以及

与所述感兴趣区域相邻的所述潜在空区域包括矩形，每个所述矩形的一侧与所述边界框相邻。

12.根据权利要求11所述的计算装置，其中：

为了标识满足所述一个或多个标准的所述至少一个空区域，所述程序指令指示所述计算装置标识所述空矩形中最大的一个空矩形。

13.根据权利要求11所述的计算装置，其中针对所述矩形中的每个矩形，所述一个或多个标准包括：

所述给定的矩形的尺寸是否满足尺寸阈值。

14.根据权利要求13所述的计算装置，其中：

针对不被算作空的矩形，所述程序指令还指示所述计算装置：

将所述至少一个空矩形分类为所述目标内容的负样本；并且针对被算作空但不满足所述尺寸阈值的矩形，将该矩形丢弃，而不将该矩形分类为所述目标内容的任何类型的样本。

15.根据权利要求9所述的计算装置，其中：

所述目标内容包括所述视频中的动画角色；

所述感兴趣区域包括所述边界框中的最中心的边界框。