CN111052128B

CN111052128B - 用于检测和定位视频中的对象的描述符学习方法

Info

Publication number: CN111052128B
Application number: CN201880038766.5A
Authority: CN
Inventors: 热雷米·雅库博维奇
Original assignee: Mining Telecommunication School Group; Centre National de la Recherche Scientifique CNRS
Current assignee: Mining Telecommunication School Group; Centre National de la Recherche Scientifique CNRS
Priority date: 2017-06-12
Filing date: 2018-06-08
Publication date: 2024-04-05
Anticipated expiration: 2038-06-08
Also published as: FR3067496B1; ES2907007T3; FR3067496A1; CN111052128A; US11501110B2; WO2018228955A1; US20200210774A1; EP3639190B1; EP3639190A1

Abstract

本发明涉及一种学习用于检测和自动定位视频中的对象的类别描述符的方法，每个对象属于类别集合中的一对象类别，该方法使用：‑学习数据库，该学习数据库由参考视频组成并且包含带注释的帧，每个帧都具有识别在帧中检测到的各个对象的一个或多个标签；‑描述符，描述符与标签相关联并且由预处理神经网络从学习数据库的带注释的帧预先学习得到；‑神经网络架构，该神经网络架构由集中在多个参数服务器上的参数限定；以及‑并行工作的多个计算单元；在该方法中，针对每个对象类别，对于限定类别描述符，使用描述符和标签作为输入数据，来训练架构中的神经网络中之一；为了计算类别描述符，每个计算单元使用该单元所关联的参数服务器的参数的版本并在其计算结束时将更新的参数返回所述参数服务器；并且，参数服务器相互交换各个计算单元的参数，以针对每个类别描述符训练神经网络。

Description

用于检测和定位视频中的对象的描述符学习方法

技术领域

本发明涉及一种用于检测和定位数字视频中的对象的方法。

背景技术

数字视频中的对象的检测和自动定位是特别活跃并且复杂的领域，在要检测和定位的对象目录巨大时，当前的现有解决方案还无法与人类的性能竞争。

术语“对象”应该在广义上理解，并且指定在视频中在空间和时间上定界的任何相干实体。因此，人、脸、车辆、动物、建筑物等等均被视为对象。

已经在图像的背景下研究了检测和定位对象的问题，针对检测对象找到了性能水平与人类的性能接近的方法。特别是，如D.Ciresan等人于2012年在计算机视觉与模式识别发表的文章“Multi-column Deep Neural Networks for Image Classification”中所描述，通过自动学习方法检测手写数字表现出的性能水平等于或高于人类的性能。面部检测也达到了足以在不同图像获取设备中使用的成熟水平，如在Y.Taigman等人于2014在计算机视觉与模式识别发表的文章“DeepFace:Closing the Gap to Human-LevelPerformance in Face Verification”中所示出的。

在数字图像中检测和定位对象的问题既与视频中的类似问题相关联，又有区别。实际上，在图像中，由于图像缺乏时间维度这一事实使问题变得较困难，时间维度使得可以方便地进行检测，因为实体的连贯运动有助于识别实体本身。相比之下，要处理的数据量较小时这一问题变得较简单。

描述符的选择成为了主要问题，因为后者强烈地限制了检索的最终结果或分类的最终结果。形式描述符表征了对象的轮廓，并可以将它们分为类别。一种用于识别视频中如图像中的对象的方法包括使用监督自动学习(或“监督机器学习”)。该技术需要带注释的数据库，称为学习库，在该库中标记了被寻求来定位的对象，并指示了它们的类别。带注释的数据库的构建依赖于繁琐的人工工作。尤其是在J.Deng等人于2009在计算机视觉与模式识别发表的文章“ImageNet:A Large-Scale Hierarchical Image Database”中描述的，共同的努力使得可以为图像建立这样的大型数据库。但是，当前还不存在用于视频的使得可以检测大型类别的对象的跨度相当大的数据库。

根据国际申请WO 2016/081880已知的实践是，在大量的视频数据中，根据提供了在这些对象之间寻求的关系的客户请求，例如关于监视视频的车辆与骑车人之间的交通事故，检索包含某些对象的视频。

专利US 8792732和US 8254699描述了使用视频内容(尤其是YouTube视频)的元数据来自动注释视频数据库以便创建描述符库的注释方法。

大多数当前已知用于对象识别的技术，无论是用于图像还是用于视频，都使用所谓的“深度”神经网络，当前包含数量越来越多的参数，如QV Le等人于2012在机器学习国际会议发表的文章“Building high-level features using large scale unsupervisedlearning”中描述的架构。例如，在K.He等人于2016年在计算机视觉与模式识别发表的文章“Deep Residual Learning for Image Recognition”中描述的ResNet架构使用152个隐藏层来识别对象的1000个类别。

对于数字图像中的对象分类的问题，该深度神经网络以及如从Ren等人于2015年在神经信息处理系统进展(Advances in Neural Information Processing Systems)发表的文章“Faster R-CNN:towards real-time object detection with region proposalnetworks”中描述的“较快R-CNN”架构得来的神经网络，诸如J.Redmon等人于2016年在计算机视觉与模式识别发表的文章“You only look once:Unified,real-time objectdetection”中的YOLO网络，或W.Liu等人的SSD网络(“SSD:Single shot multiboxdetector”，欧洲计算机视觉会议，2016)均表现出良好的性能，但不能与人类的性能相媲美。

由于这些架构仅仅基于对一个图像的分析而构建，因此它们可以用于其为一连串的图像下文中称为“帧”的视频，每个帧都独立于其他帧进行分析。

申请US2012/0238254描述了一种方法，该方法允许用户在移动设备上选择当前正在观看的视频图像的区域，以便通过使用对象库来识别位于该区域中的对象，以便特别是生成与所识别的对象有关并且源自至少一个商业站点的广告产品。

根据专利US 7 246 314，已知的实践是交互式选择视频中的场景，以便在视频的其余部分或其他视频中检索类似的场景。这种使用分割和高斯模型的方法不允许准确地检测对象。

在消费者感兴趣的大多数视频中，同一个视频的两个相继帧之间存在显著的冗余。由于在这些解决方案中没有明确考虑这种冗余，因此可能发生振荡现象：例如，在一个帧中正确检测了对象，在下一帧中由于噪声而不能再正确检测对象，然后在几个帧之后再次正确检测到对象。完全可以对检测进行事后调整，也就是说，偏好可以与先前检测匹配的那些检测。

为了训练与这样的架构相关联的模型，有必要对计算进行分布，因为所需的计算机能力非常高，并且可以使用大量的计算实体，例如最多达一百个图形处理器(“GPU”)。Dean等人于2012年在神经信息处理系统进展发表的文章“Large Scale Distributed DeepNetworks”描述了图1所示的系统，其中使用了参数服务器101，该参数服务器提供了不同的计算实体102、103、104，每个实体根据数据106、107、108片段(称为“碎片(shards：分片)”)并行工作，并异步更新参数w，计算单元不会彼此等待。更具体地，每个计算实体对于寻址到参数服务器的请求读取当前参数w，执行其计算并通过寻址到参数服务器的另一请求返回更新的参数Δw。最终参数w’是当前参数w、在每个实体上更新的参数Δw以及模型的学习率η的函数，在此示例中：w′＝w-ηΔw。因此，存在计算的分布和数据的分布。

当该系统确实设法通过使用来自和去往参数服务器的异步读/写操作克服计算依赖性时，该系统的确通过寻址到单个参数服务器的请求创建了保留点，这成为了系统的瓶颈。并行工作的计算实体越多，计算分布的难度就越显著。

发明内容

需要获得一种用于检测和定位视频中的对象的有效方法，该方法使得能确保容易地检测和定位众多视频上的许多类别的对象。

因此，根据本发明的第一方面，本发明的主题是一种学习用于检测和自动定位视频中的对象的类别描述符的方法，每个对象属于类别集合J中的一对象类别j，该方法使用：

-学习库，该学习库由参考视频组成并且包含带注释的帧(x_t,y_t)_1≤t≤T，每个帧都包括识别在帧中检测到的每个对象的标签，

-描述符，描述符与这些标签相关联并且由预处理神经网络从学习库的带注释的帧预先学习得到，

-神经网络的架构，该神经网络的架构由集中在多个参数服务器上的参数定义，以及

-并行工作的多个(M个)计算实体m，

在该方法中，针对每个对象类别j，对于限定类别描述符通过使用描述符和标签/>作为输入数据，来训练架构的神经网络中的一个神经网络，

为了计算类别描述符每个计算实体m使用实体所依赖的参数服务器的参数θ_j,m的版本，并在其计算结束时将更新的参数返回该参数服务器，以及

参数服务器相互交换每个计算实体的参数，以针对每个类别描述符训练神经网络。

通过使用在固定图像中检测和定位对象的技术，本发明使得可以具有足够大并且具有代表性及包含有效描述符的带有标签的库。

根据本发明的方法还构成了一种在并行工作的几个计算和存储实体上是分布并且异步的算法，适合于针对大数量的数据进行检测和定位模型的学习。因此，对神经网络的参数进行分布，并且学习是异步的，一个计算单元不等待其他实体更新其参数的计算结果。每个计算实体都有其自身的参数估计这一事实使得可以不依赖单个参数服务器。

根据本发明的方法通过提出基于具有众多类别的要检测和定位的对象的众多视频进行模型学习来允许有效缩放。因此，可以将为实现本发明而训练的神经网络从一个视频转移到另一视频。

本发明可以应用于如对社交网络中可用的大规模视频内容进行监视，并且可以应用于视频中的在线广告，特别是用于被称为“电子商务”的在线销售。视频中要检测的对象可以与销售目录的对象对应或类似。视频的内容可以应用，尤其是能够单击某些检测对象，以便返回到与所选择的一个或多个对象对应的电子商务站点。

在本发明中使用的神经网络优选是卷积神经网络(“CNN”)。在这种类型的网络中，卷积在时间和空间上都进行，卷积层随后接着是完全连接的层，以执行分类。

学习库

学习库优选地由对每个参考视频中的对象逐帧的检测和定位组成。

参考视频X由帧x_t的集合T组成，其中t是帧索引，在1和T之间变化:X＝(x_t)_1≤t≤T。可以使用多个(N个)参考视频X_n(其中1≤n≤N)来构建学习库。

每个帧x_t包括对象y_t。向量y_t有利地包括一系列分量y_i,t，这些分量表示介于0和1之间的标量数并且编码对象obj(i)在位置loc(i)处的存在，其中特别地1指定对象存在，而0指定对象不存在。对象的类型及其位置可以由有限的索引集合表示，索引的基数是向量y_t的维度，对于同一个参考视频X_n的所有向量y_t都是恒定的。

对象在帧中的可能位置可以与在帧上滑动的不同维度的、覆盖了所有帧的矩形对应。

该学习库有利地包含针对每个参考视频X的各个帧x_t所逐帧保存的针对帧集合T的数据(x_t,y_t)_1≤t≤T。学习库的带注释的帧可以包括通过其名称指定检测到的对象的标签。

可以使用对象分类器，例如使用由牛津大学开发的神经网络“VGG-16”的分类器，来执行对参考视频的帧中的对象的检测。

可以通过使用低级别信息来检测对象，即特别是通过检测其边缘和/或其纹理，来进行对构成学习库的帧的注释。

第一神经网络可以用来对学习库进行学习。

仅神经网络的第一层可以用来对学习库进行学习，其仍处于像素级别。

参考视频可以源自品牌视频或源自电子商务网站，尤其是用于在线广告。

先前构建的学习库可以包含在执行根据本发明的方法的一个或多个机器上。在变型中，学习库是远程的，并且可以通过网络诸如，例如有线、互联网、Wifi或网络来访问。

在变型中，学习库由另一注释方法提供，尤其是由已经存在的带注释的帧的库提供，例如ImageNet或甚至Cifar-10或Cifar-100。

学习描述符

通过使用从学习库获得的h个相继带注释的帧(x_t,x_t-1,…,x_t-h+1)的组中的在先帧优选地对预处理神经网络进行训练，以检测该组的最后帧上的对象，以学习与检测到的对象对应的描述符。

因此，网络学习了描述符与标签之间的链接，例如与标签“家(home)”相关联的描述符、与标签“云(cloud)”相关联的描述符等。该预处理神经网络被认为是受监督的，因为它将h个相继帧(x_t,x_t-1,…,x_t-h+1)作为输入来预测对象向量y_t。

为了从学习库学习描述符，因此可以相继使用两个神经网络，从而引起两个不同的相继学习，并提高了根据本发明的学习方法的质量。

每组帧可以包括2至32个帧，例如4个帧。

神经网络可以表达为两个函数的组成，其中Φ_w(x_t,…,x_t-h+1)表示卷积部分，与描述符计算函数对应，并且/>表示全部连接的部分，w和θ表示网络的对应层的所有参数。

根据本发明的另一方面，本发明的另一主题是一种用于使用参考视频和至少一个神经网络来学习用于检测和自动定位视频中的对象的描述符的方法，在该方法中：

-通过检测参考视频的每个帧中的对象并通过记录具有检测到的对象及其位置的每个带注释的帧(x_t,y_t)_1≤t≤T来组成学习库；以及

-通过使用从学习库获得的h个相继帧(x_t,x_t-1,…,x_t-h+1)的组中的在先帧来学习与检测到的对象对应的描述符Φ_w(x_t,…,x_t-h+1)，以训练神经网络检测该组的最后帧上的对象。

上面针对用于学习类别描述符的方法描述的特征适用于学习描述符的方法。

学习类别描述符

针对每个对象类别j(1≤j≤J)，通过使用先前定义的描述符和标签来定义类别描述符/>来训练该架构的神经网络中的一个神经网络。

因此，为每个对象类别学习了模型，有多少对象类别可用，就学习了多少模型。

学习库使得可以具有对(x_k,t,y_k,t)，其中k是识别第k个参考视频的索引，而t指定帧索引。借助于由预处理神经网络对描述符的学习，有利地将这些数据转换成对其中φ_k,t＝Φ(x_k,t,x_k,t-1,…,x_k,t-h+1)，并且其中/>与分量i上的向量y_k,t的投影对应，使得obj(i)与类别j对应。

每个计算实体m可以迭代地计算投影梯度下降，其中每个计算实体使用从参数服务器中的一个参数服务器接收的参数θ_j,m的本地版本：

其中，Π_Θ指定在Θ上的投影，γⁿ指定下文中称为一系列步的一系列标量数，以及l是在学习中寻求被最小化的代价函数，n指定第n个迭代。

一旦计算实体m执行了其计算，它将随机选择另一计算实体m′并确保根据以下规则更新参数：

P.Bianchi和J.Jakubowicz的文章“Convergence of a Multi-Agent ProjectedStochastic Gradient Algorithm for Non-Convex Optimization”，IEEE自动控制学报(Transactions on Automatic Control)，2013，证明根据本发明的方法的确集中于在学习阶段寻求的最佳方案。

神经网络架构

因此，根据本发明的架构包括针对每个对象类别学习不同参数的神经网络。因此，该架构的神经网络通过对象类型进行了专门化。

可以以分布式方式在不同计算实体上使架构的神经网络的仅一部分被学习。优选地，以分布式方式使神经网络的层的仅顶部部分被学习。在变型中，也可以以分布式方式使神经网络的层的底部部分被学习。顶部层与最高级别的层对应，其中网络对帧的细节越来越敏感。

计算实体优选地包含在计算机器诸如计算机或计算服务器上。每个计算机器可以包括并行工作并构成作为许多不同计算实体的多个图形处理器(“GPU”)。

有利地，例如通过有线、Wifi或网络将计算机器联网。

参数服务器可以被包含在计算机器的随机存取存储器中。在变型中，参数服务器是远程的，并且可以通过有线、Wifi或网络访问。

参数服务器的数量可以与计算实体的数量一样。在变型中，存在一个参数服务器对两个计算实体的比率，或者存在一个参数服务器对四个计算实体的比率，甚至一个参数服务器对四个计算实体的比率，或者一个参数服务器对八个计算实体的比率，甚至更好的是，一个参数服务器对十六个计算实体的比率。

每个计算实体m优选地使用输入数据的仅一部分。因此可以将输入数据分配给不同的存储实体，使得每个计算实体仅关于数据的一部分工作。输入数据在计算实体之间的分配有利地是随机进行的，输入数据能够被划分成与计算和/或存储实体一样多的部分，因此输入数据遵循关于实体数量的统一定律。

每个计算实体可以包括至少一个存储区域。

有利地，计算实体m’的存储区域能够被另一计算实体m询问并对该另一计算实体作出响应，尤其是在对计算实体m’所依赖的参数服务器的读/写请求的背景下，即使在后者正在执行其自身的计算的过程中。

学习描述符的设备

根据本发明的另一方面，本发明的另一主题是一种学习用于检测和自动定位视频中的对象的类别描述符的设备，每个对象属于类别集合J中的一对象类别j，该设备使用：

-学习库，该学习库由参考视频组成并且包含带注释的帧(x_t,y_t)_1≤t≤T，每个帧都包括识别在帧中检测到的各个对象的一个或多个标签，以及

该设备包括神经网络的架构，该神经网络的架构由集中在多个参数服务器上的参数定义，以及并行工作的多个(M个)计算实体m，该设备被配置成针对每个对象类别j，对于限定类别描述符通过使用描述符和标签/>作为输入数据，来训练架构的神经网络中的一个神经网络，

为了计算类别描述符每个计算实体m使用实体所依赖的参数服务器的参数θ_j,m的版本，并在其计算结束时将更新的参数返回该参数服务器；并且，参数服务器相互交换每个计算实体的参数，以针对每个类别描述符/>训练神经网络。

对象的检测和定位

根据本发明的又一方面，本发明的又一主题是一种用于检测和自动定位视频中的对象的方法，其中，每个对象属于类别集合J中的一对象类别j，在该方法中，

-将在如先前定义的学习类别描述符的方法中学习的类别描述符用来学习描述符计算函数/>其将至少测试视频作为输入，以及

-在测试视频中针对每个对象类别j获得检测得分和位置得分。

以上针对学习类别描述符的方法描述的特征适用于用于检测和定位对象的方法。

计算机程序产品

根据本发明的另一方面，本发明的又一主题是一种计算机程序产品，用于实现如先前所描述的用于学习用于检测和自动定位视频中的对象的类别描述符的方法，每个对象属于类别集合J中的一对象类别j，该方法使用：

-学习库，该学习库由参考视频组成并且包含带注释的帧(x_t,y_t)_1≤t≤T，每个帧都包括指定在帧中检测到的每个对象的标签，

-并行工作的多个(M个)计算实体m，

该计算机程序产品包括介质和保存在该介质上的指令，该指令能被处理器读取，在该指令被执行时，针对每个对象类别j，对于限定类别描述符通过使用描述符和标签作为输入数据，以训练架构的神经网络中之一，

为了计算类别描述符每个计算实体m使用该实体所依赖的参数服务器的参数θ_j,m的版本，并在其计算结束时将更新的参数返回该参数服务器，以及

上面针对学习类别描述符的方法所描述的特征适用于计算机程序产品。

附图说明

通过阅读以下对本发明的实现方式的非限制性实施例的详细说明并研究附图，将能够更好地理解本发明，其中，

-图1(已经描述)表示根据现有技术的神经网络的架构，

-图2是表示根据本发明的方法的实现方式的步骤的图，

-图3示出了逐帧进行的库的注释，

-图3A表示在不同位置包含属于不同类别的对象的帧的实施例，

-图4(a)和图4(b)示出了描述符的学习，以及

-图5表示用于学习类别描述符的设备，该设备包括根据本发明的神经网络的分布式架构。

具体实施方式

在图2中表示了根据本发明的用于检测和定位视频中的对象的方法的步骤。每个对象属于类别集合J中的对象类别j。根据本发明的方法有利地使用用于学习类别描述符的设备1，该设备在图5中被表示并且包括由集中在多个参数服务器2、3、4上的参数限定的CNN神经网络的架构和并行工作的多个(M个)计算实体m_1,p、m_2,p、m_3,p,，其中p＝1…4。根据本发明的方法可以细分为几个步骤，下文中将对这些步骤进行详细描述。

在步骤11中，学习库由参考视频组成，并且提供带注释的帧(x_t,y_t)_1≤t≤T。在步骤12中，根据图4(a)可知，该学习库用来通过CNN类型的预处理神经网络教导与包含在带注释的帧中的标签相关联的描述符。这些步骤11和12可以在先前执行，获得的描述符和标签用作输入数据来针对每个对象类别(j)限定类别描述符/>以用于在步骤13中训练架构1的神经网络中的一个神经网络。

在步骤14中，使用类别描述符来学习描述符计算函数/>其将至少测试视频作为输入。在步骤15中，该函数用来在测试视频中针对每个对象类别j获得检测得分和定位得分。这些检测得分优选地是介于0和1之间的标量数，给出存在对象的可能性，其中，例如，1指示对象存在，而0指示对象不存在。

如图3所表示，用于学习描述符的学习库优选地从参考视频进行训练，并且包含带注释的帧(x_t,y_t)_1≤t≤T，每个帧都包括识别在帧中检测到的各个对象的一个或多个标签。向量y_t包括一系列分量(y_t,i)，这些分量表示介于0和1之间的标量数，并编码对象obj(i)在位置loc(i)处的存在，其中例如1指定对象存在，而0指定对象不存在。

下面表示了向量y_t的实施例，其中示出了帧t中的4个位置和3个对象类别。

值y_t,i与该对象类别j在对应位置处的存在的得分对应。由图3A可知，分量y_t,1、y_t,4、y_t,9和y_t,6中接近1的得分对应于星在位置1和4处的存在、方形在位置1的存在和圆圈在位置2的存在。因此，在该实施例中，向量z^j等于：z¹＝y_t,1…y_t,4、z²＝y_t,5…y_t,8、并且z³＝y_t,9…y_t,12。

第一神经网络有利地用于对学习库进行学习。

如先前所描述，对预处理神经网络进行训练以检测在图4(b)中可见的并且从先前组成的学习库中获得的h个相继帧(x_t,x_t-1,…,x_t-h+1)的组中最后帧x_t上的对象，其中在该实施例中考虑了这些帧中的4个帧。为此，预处理神经网络使用该组中的在先帧(x_t-1,x_t-2,x_t-3)来学习与检测到的对象对应的描述符Φ_w(x_t,…,x_t-h+1)，如图4(b)所表示。

在图5中表示了根据本发明的用于学习类别描述符的设备1，该设备包括神经网络的分布式架构。在所考虑的实施例中，设备1包括三个计算机器m₁,、m₂、m₃，这些计算机器中的每个计算机器包括四个图形处理器“GPU”m_1,p、m_2,p、m_3,p，其中p＝1…4，每个图形处理器构成本发明含义内的计算实体。

如先前所描述，为了计算类别描述符每个计算实体m使用该实体所依赖的参数服务器的参数θ_j,m的版本，并且在计算结束时将更新的参数返回到该参数服务器。参数服务器2、3、4相互交换每个计算实体的参数，以针对每个类别描述符/>训练神经网络。

优选地并且如所表示的，每个计算机器m₁,、m₂、m₃使用输入数据的仅一部分。

本发明不限于刚刚已经描述的实施例。

每组可以使用较大数量的帧，这样可以允许较快的训练。每组的帧的数量的选择取决于视频类型：例如，如果场景频繁变化，则每组选择较少数量的帧，或者如果视频的总体移动缓慢，则每组选择较大数量的帧。

在图5的实施例中，根据本发明的设备包括3个参数服务器和3个计算机器，但是本发明不限于特定数量的计算实体和参数服务器。

Claims

1.一种学习用于检测和自动定位视频中的对象的类别描述符的方法，每个对象属于类别集合(J)中的一对象类别(j)，所述方法使用：

-学习库，所述学习库由参考视频组成并且包含带注释的帧((x_t,y_t)_1≤t≤T)，每个帧都包括识别在所述帧中检测到的各个对象的一个或多个标签，

-描述符，所述描述符与这些标签相关联并且由预处理神经网络从所述学习库的所述带注释的帧预先学习得到，

-神经网络的架构，所述神经网络的架构由集中在多个参数服务器(2、3、4)上的参数限定，以及

-并行工作的多个计算实体(m)，

在所述方法中，针对每个对象类别(j)，对于限定类别描述符，通过使用所述描述符和所述标签作为输入数据来训练所述架构的所述神经网络中之一，

为了计算所述类别描述符，每个计算实体(m)使用该实体所依赖的参数服务器的参数的版本，并在其计算结束时将更新的参数返回该参数服务器；并且，所述参数服务器相互交换各个计算实体的所述参数，以针对每个类别描述符训练所述神经网络。

2.根据权利要求1所述的方法，其中，使所述学习库由对每个参考视频中所述对象的逐帧的检测和定位组成。

3.根据权利要求1或2所述的方法，其中，所述学习库包含针对每个参考视频(X)的各个帧(x_t)所逐帧保存的针对帧集合(T)的数据((x_t,y_t)_1≤t≤T)，这些数据包含向量(y_t)，所述向量包括一系列分量(y_i,t)，所述分量表示介于0和1之间的标量数并且对对象(obj(i))在位置(loc(i))处的存在进行编码，其中，特别地，1指示所述对象存在，而0指示所述对象不存在。

4.根据权利要求1所述的方法，其中，将第一神经网络用于学习所述学习库。

5.根据权利要求1所述的方法，其中，通过下述方式来训练所述预处理神经网络检测从所述学习库获得的(h个)相继帧(x_t,x_t-1,…,x_t-h+1)的组中的最后帧上的对象：所述方式为使用所述组中的在先帧来学习与检测到的对象对应的所述描述符(Φ_w(x_t,…,x_t-h+1))。

6.根据权利要求5所述的方法，其中，每组帧包括2至32个帧。

7.根据权利要求6所述的方法，其中，每组帧包括4个帧。

8.根据权利要求1所述的方法，其中，每个计算实体(m)使用所述输入数据的仅一部分。

9.根据权利要求1所述的方法，其中，每个计算实体包括至少一个存储区域，计算实体(m’)的存储区域能够被另一计算实体(m)询问并对所述另一计算实体作出响应，尤其是在对所述计算实体(m’)所依赖的所述参数服务器有读/写请求的背景下，即使在后者正在执行其自身的计算的过程中。

10.根据权利要求1所述的方法，其中，以分布式方式在不同的计算实体上使所述架构的所述神经网络的仅一部分被学习。

11.根据权利要求10所述的方法，其中，以分布式方式使所述神经网络的层的仅顶部部分被学习。

12.根据权利要求1所述的方法，其中，所使用的所述神经网络是卷积神经网络(CNN)。

13.一种用于检测和自动定位视频中的对象的方法，每个对象属于类别集合(J)的一对象类别(j)，在所述方法中：

-使用在根据权利要求1所述的学习用于检测和自动定位视频中的对象的类别描述符的方法中学习的类别描述符来学习描述符计算函数，其将至少测试视频用作输入，以及

-在所述测试视频中针对每个对象类别(j)获得检测得分和定位得分。

14.一种使用参考视频和至少一个神经网络来学习用于检测和自动定位视频中的对象的类别描述符的方法，其中，学习用于检测和自动定位视频中的对象的类别描述符的方法采用如权利要求1所述的方法，在所述方法中：

-通过检测所述参考视频的每个帧中的对象并通过记录具有检测到的对象及其位置的每个带注释的帧((x_t,y_t)_1≤t≤T)来组成学习库；以及

-通过下述方式来训练所述神经网络检测从所述学习库获得的(h个)相继帧(x_t,x_t-1,…,x_t-h+1)的组中的最后帧上的对象：所述方式为使用所述组中的在先帧来学习与检测到的对象对应的所述描述符(Φ_w(x_t,…,x_t-h+1))。

15.一种学习用于检测和自动定位视频中的对象的类别描述符的设备(1)，每个对象属于类别集合(J)的一对象类别(j)，所述设备(1)使用：

-学习库，所述学习库由参考视频组成并且包含带注释的帧((x_t,y_t)_1≤t≤T)，每个帧都包括识别在所述帧中检测到的各个对象的一个或多个标签；以及

-描述符，所述描述符与这些标签相关联并且由预处理神经网络从所述学习库的所述带注释的帧预先学习得到；

所述设备(1)包括神经网络的架构和并行工作的多个计算实体(m)，所述神经网络的架构由集中在多个参数服务器上的参数限定；

所述设备被配置成：针对每个对象类别(j)，对于限定类别描述符，通过使用所述描述符和所述标签作为输入数据，来训练所述架构的所述神经网络中之一；

为了计算所述类别描述符，每个计算实体(m)使用该实体所依赖的所述参数服务器的所述参数的版本，并在其计算结束时将更新的所述参数返回该参数服务器；并且，所述参数服务器相互交换各个计算实体的所述参数，以针对每个类别描述符训练所述神经网络。

16.一种计算机可读存储介质，所述计算机可读存储介质存储有程序指令，所述程序指令用于在被处理器执行时实施根据权利要求1所限定的学习用于检测和自动定位视频中的对象的类别描述符的方法，每个对象属于类别集合(J)的一对象类别(j)，所述方法使用：

-学习库，所述学习库由参考视频组成并且包含带注释的帧((x_t,y_t)_1≤t≤T)，每个帧都包括指定在所述帧中检测到的各个对象的一个或多个标签，

-神经网络的架构，所述神经网络的架构由集中在多个参数服务器上的参数限定，以及

-并行工作的多个计算实体(m)，

在所述方法中，针对每个对象类别(j)，对于限定类别描述符，通过使用所述描述符和所述标签作为输入数据，来训练所述架构的所述神经网络中之一，

为了计算所述类别描述符，每个计算实体(m)使用所述输入数据的仅一部分和该实体所依赖的所述参数服务器的所述参数的版本，并在其计算结束时将更新的参数返回该参数服务器，以及

所述参数服务器相互交换各个计算实体的所述参数，以针对每个类别描述符训练所述神经网络。