CN112307823A

CN112307823A - 用于对视频中的对象进行标注的方法和设备

Info

Publication number: CN112307823A
Application number: CN201910694727.7A
Authority: CN
Inventors: 郑海源
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2021-02-02

Abstract

本文描述了用于对视频中的对象进行标注的方法和设备。所述方法包括：从所述视频中获取至少一帧图像；针对获取的所述至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，得到与所述对象相关的对象信息；将所述对象信息标注在该帧图像中的与所述对象相关联的位置处；其中，通过将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。

Description

用于对视频中的对象进行标注的方法和设备

技术领域

本公开涉及多媒体技术领域，具体地涉及用于对视频中的对象进行标注的方法和设备。

背景技术

目前用户在观看视频时，经常遇到难以区分视频中出现的各种对象的情况。例如，由于人们的短期记忆一般使非常短的，所以常常在观看视频影片的时候，会因为视频内容中人物众多、名称复杂、人物出现的频率低等而记不住影片中人物的人名。特别是在观看国外影片时，因为文化和语言的差异，导致人们更加难记住其中的人物的名字。在不常出现人物突然在后续的剧集出现时，人们却想不起这个人物是谁，有过什么剧情了，这会给人们对剧情的理解造成困难。又例如，人们在观看军事题材影片时，影片中会出现大量兵器、战斗机、各类军事武器，人们通常会这些物品比较陌生，不知道这些都是什么武器。

发明内容

鉴于此，本公开提供了用于对视频中的对象进行标注的方法和设备，期望克服上面提到的部分或全部缺陷以及其它可能的缺陷。

根据本公开的一个方面，提供了一种用于对视频中的对象进行标注的方法。所述方法包括：从所述视频中获取至少一帧图像；针对获取的所述至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，得到与所述对象相关的对象信息；以及将所述对象信息标注在该帧图像中的与所述对象相关联的位置处；其中，通过将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。

在一些实施例中，所述对象信息包括用于表征所述对象的对象属性。

在一些实施例中，所述方法还包括：利用爬虫技术从网络中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。

在一些实施例中，从所述视频中获取至少一帧图像可以包括：以预定时间间隔从所述视频中获取多帧图像。

在一些实施例中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处包括：如果对象信息符合预设条件，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。作为示例，所述方法包括：如果所述对象信息在该视频中是首次通过识别被得到，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。作为另一示例，所述方法还包括：如果所述对象信息在该视频中不是首次通过识别被得到，则计算该帧图像与上一次识别出该对象信息的另一帧图像间的时间间隔；以及如果计算的所述时间间隔大于预设时间间隔，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。作为又一示例，如果针对所述对象信息的字符串长度大于预设长度阈值，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

在一些实施例中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：将所述对象信息关联到所述视频中的该帧图像中与所述对象相关联的位置。

在一些实施例中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：将所述对象信息合成到所述视频中的该帧图像中与所述对象相关联的位置处。

根据本公开的另一方面，提供了一种用于对视频中的对象进行标注的设备，包括：获取模块，被配置成从所述视频中获取至少一帧图像；识别模块，被配置成：针对获取的至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息；以及标注模块，被配置成将所述对象信息标注在该帧图像中的与所述对象相关联的位置处；训练模块，被配置成：将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。

在一些实施例中，所述设备还包括：信息爬取模块，被配置成：利用爬虫技术从网络中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。

在一些实施例中，所述获取模块被配置成以预定时间间隔从所述视频中获取多帧图像。

根据本公开的再一方面，提供了一种计算设备，包括处理器；以及存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如上面所述的任意方法。

根据本公开的又一方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如上面所述的任意方法。

通过本公开要求保护的用于对视频中的对象进行标注的方法和设备，提供了一种对视频中的对象进行标注的智能标注方案。在该智能标注方案中，利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息，并将其标注在与所述对象相关联的位置处，使得用户在观看视频的时候更快进入剧情的理解，提升了观看体验。而且，对于视频提供方来说，可以实现对视频中的对象的在线或离线的标注，使得对象信息自动地在适当的时间和适当的位置被标注在视频中，从而节省了大量的成本。

根据下文描述的实施例，本公开的这些和其它优点将变得清楚，并且参考下文描述的实施例来阐明本公开的这些和其它优点。

附图说明

现在将更详细并且参考附图来描述本公开的实施例，其中：

图1图示了根据本公开的一个实施例的用于对视频中的对象进行标注的方法可以在其中实施的示意性场景图；

图2图示了根据本公开的一个实施例的用于对视频中的对象进行标注的方法的流程图；

图3A图示了根据本公开的实施例的当在视频客户端上播放视频时的示意效果图；

图3B图示了根据本公开的实施例的当在视频客户端上播放视频时的另一示意效果图；

图3C图示了根据本公开的实施例的当在视频客户端上播放视频时的又一示意效果图；

图4图示了根据本公开的一个实施例的用于对视频中的对象进行标注的设备的示例性结构框图；

图5图示了一个示例系统，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备。

具体实施方式

下面的说明提供用于充分理解和实施本公开的各种实施例的特定细节。本领域的技术人员应当理解，本公开的技术方案可以在没有这些细节中的一些的情况下被实施。在某些情况下，并没有示出或详细描述一些熟知的结构和功能，以避免不必要地使对本公开的实施例的描述模糊不清。在本公开中使用的术语以其最宽泛的合理方式来理解，即使其是结合本公开的特定实施例被使用的。

图1图示了根据本公开的实施例的用于对视频中的对象进行标注的方法可以在其中实施的示意性场景图。如图1所示，该场景中包括终端设备101和服务器102，终端设备101上可以安装有客户端103，例如视频客户端。应当指出，根据本公开的实施例的用于对视频中的对象进行标注的方法可以实施在终端设备101上、服务器102上或者甚至可以实施在不同的第三方实体上。

作为示例，服务器102上可以存储有视频文件，终端设备101与服务器102可通过网络连接。所述客户端103可以通过终端设备101向服务器102请求视频文件，并接收服务器102响应于所述请求而返回的视频文件以便在其上进行播放。作为另一示例，终端设备101可以在本地（例如在本地存储器上）存储视频文件，客户端103可以获取所述本地存储的视频文件进行播放。

通过使用本公开的实施例中描述的用于对视频中的对象进行标注的方法对视频中的对象进行标注，当在客户端103上播放视频文件时，可以在与所显示的视频图像中的对象（例如，图像中的人物）相关联的位置处显示出关于所述对象的对象信息（例如，人物名称等）。

图2图示了根据本公开的一个实施例的用于对视频中的对象进行标注的方法200的流程图。所述方法200可以在安装有所述客户端的终端设备上和/或在用于提供所述视频的视频服务器上实施，或者甚至可以在与所述终端设备和视频服务器不同的实体上实施，这不是限制性的。如图2所示，所述方法包括如下描述的步骤。

在步骤201，从所述视频中获取至少一帧图像。作为示例，可以利用解码器对所述视频进行解码，然后从解码后的视频数据中获取至少一帧图像以供识别。在一些实施例中，可以以预定时间间隔从所述视频中获取多帧图像以供识别。例如，可以每隔几秒钟从所述视频中获取一帧图像以供识别，这能够提高对视频图像的识别效率。因为不需要对视频中的每帧图像进行识别，因此能够节省用于执行该识别的系统的资源。

在步骤202，针对所述至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，从而得到与所述对象相关的对象信息。所述对象识别模型可以例如是深度学习模型，例如各种常见的卷积神经网络模型。利用经训练的对象识别模型可以直接得到与所述对象相关的对象信息，而不必先识别出图像中的对象，然后再查找或者搜索针对所述对象的对象信息。

在一些实施例中，所述对象可以例如是该帧图像中的人物、物品、动物、植物等等任何可以被识别的对象中一个或多个。对象信息例如可以是用于表征所述对象的对象属性。作为示例，当所述对象是该帧图像中的人物时，所述对象信息可以是该人物的扮演者的名称、该人物所在的影片的名称、人物在视频或影片中的角色名称、或者视频或影片中与该人物相关的人物关系等等中的一个或多个。当所述对象是该帧图像中的物品、动物或植物等时，所述对象信息可以是对应的物品、动物或植物等的名称或介绍等中的一个或多个。

在一些实施例中，可以将图像训练集中的样本图像作为所述对象识别模型的输入，并且将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。作为示例，可以利用爬虫技术从网络（例如，互联网）中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。当然，也可以通过其它的方式来得到所述图像训练集以及与所述样本图像中的对象相关的对象信息。例如，可以人工编辑所述图像训练集以及与所述训练集中的样本图像中的对象相关的对象信息作为所述对象识别模型的输入和输出，以对所述对象识别模型进行训练。

在步骤203，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。这里的术语“位置”可以指该帧图像的图像区域中的一个或多个子区域。与所述对象相关联的位置可以是使得观看者可以将所述位置与所述对象相联系的任意位置。将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，可以使得用户在观看视频的时候能够更快进入剧情的理解，提升了观看体验。

在一些实施例中，将所述位置与所述对象相联系可以指将所述位置与所述对象在视觉上相联系。作为示例，所述位置可以是所述图像区域中框定所述对象的对象区域中的任意位置，例如，所述对象区域中的左上角、右上角、所述对象区域中所述对象的右侧或左侧的位置等。所述对象区域可以例如被指定为框定（即，包围）所述对象的正方形区域、长方形区域等。可选地，所述位置不与图像中的任何对象重叠。

作为示例，图3A图示了在这种情形下当在视频客户端301上播放视频时的示意效果图，该视频客户端301例如可以是图1描述的客户端103。如图3A中所示，“大话西游”电影在视频客户端上被播放，当播放到如图3A所示的画面（即，图像）时，在该画面中显示出标注在其中的对象信息303。在图3A中，图像中右侧的人物302被识别而得到与所述图像中右侧人物302相关的对象信息，即该人物的角色名称“紫霞仙子”。在图3A中，人物的角色名称“紫霞仙子”作为对象信息303被标注到框定（即，包围）该人物的长方形区域（即，对象区域，如图3A中的虚线框区域304所示）的右上角。在该示例中，所述长方形区域也可以不被示出。

在一些实施例中，将所述位置与所述对象相联系还可以指将所述位置与所述对象通过指示符相联系。所述指示符例如可以是箭头、箭头框、连接线等等。作为示例，所述位置可以是所述图像中的任意位置，该位置通过箭头与图像中的所述对象联系在一起，所述箭头可以是从所述对象指向所述位置或者从所述位置指向所述对象。可选地，所述位置不与图像中的任何对象重叠。

作为示例，图3B图示了在这种情形下当在视频客户端301上播放视频时的示意效果图。与图3A类似，该画面中的人物被识别而得到与所述图像中右侧人物302相关的对象信息，即该人物的角色名称“紫霞仙子”。然而，在图3B中，人物的角色名称“紫霞仙子”作为对象信息303被标注到图像区域（即整个图像中区域）的右上角，并通过箭头框305指向所述人物302，以便如上面所述的使所述对象信息标注到的位置与所述对象相联系。

应当指出，上面的示例中是以影片中的人物的名称作为对象信息进行描述的，然而这不是限制性。任何用于表征对象的对象属性都可以作为对象信息被标注到在该帧图像中的与所述对象相关联的位置处。如图3C所示，代替图3A中的人物的角色名称“紫霞仙子”，可以将紫霞仙子的扮演者的名称“朱茵”作为对象信息标注到图3A中示出的位置处，其中图3A中的虚线框区域在图3C中未示出。

在一些实施例中，如果所得到的与所述对象相关的对象信息符合预设的规则，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

作为示例，如果所述对象信息在该视频中被首次通过识别而得到，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。如果所述对象信息在该视频中不是被首次得到，则计算该帧图像与上次从中识别出该对象信息的另一帧图像间的时间间隔；以及如果计算的所述时间间隔大于预设时间间隔，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。当对象在视频中首次出现或者间隔很长时间再次出现时，用户可能不知道或者忘记该对象，这种标注能够显著提高用户的观看体验。

作为示例，在图3A和3B中，尽管图像中的左侧人物的角色名称“至尊宝”和右侧人物的角色名称“紫霞仙子”在该视频中都不是被首次识别到，然而，左侧人物“至尊宝”由于前几秒中刚出现过（因此被识别过），而右侧人物之前的几分钟都没有出现过（因此没有被识别），因此仅将右侧人物的角色名称“紫霞仙子”标注到该帧图像中的与所述右侧人物相关联的位置处。

作为另一示例，如果针对所述对象信息的字符串长度大于预设长度阈值，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。通常，如果针对所述对象信息的字符串长度比较长，观众很难长时间记住这些对象信息，因此采用此技术手段可以及时并多次向观众提醒难以记忆的信息。

在一些实施例中，可以通过将所述对象信息关联到所述视频中的该帧图像中与所述对象相关联的位置，从而将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。这样，所述对象信息可以与所述视频文件单独地存储。在这种情况下，在步骤202处得到所述对象信息的时候，可以同时记录下视频的播放位置（例如，处于当前视频的第几秒的播放位置），然后借助于所述播放位置而将所述对象信息关联到所述视频中的该帧图像中与所述对象相关联的位置。当所述视频在视频客户端上播放到所述播放位置时，可以自动读取所述相关联的对象信息，以便将所述对象信息显示在所述视频中的该帧图像中与所述对象相关联的位置。不需要对视频文件进行修改即可以实现将对象信息标注到视频中的效果，节省了大量的资源和成本。

在一些实施例中，可以通过将所述对象信息合成到所述视频中的该帧图像中与所述对象相关联的位置处，从而将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。这样，所述对象信息作为所述视频文件的一部分被存储。在这种情况下，当所述视频在视频客户端上播放时，可以直接在与所述对象相关联的位置处显示出所述对象信息，而不需要额外地存储对象信息。

应当指出，所述方法200可以被实时地执行。在这种情况下，在步骤202处，可以针对所述至少一帧图像中的每帧图像，实时地利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息。作为示例，在获取到一帧图像时，立即利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息，并且将将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。这在视频被实时在线地播放时是特别有利的，能够第一时间自动对视频中涉及的对象进行标注。

图4图示了根据本公开的一个实施例的用于对视频中的对象进行标注的设备400的示例性结构框图。如图4所示，所述设备400包括获取模块401、识别模块402、标注模块403、训练模块404和信息爬取模块405。

所述获取模块401被配置成从所述视频中获取至少一帧图像。在一些实施例中，所述获取模块401可以被配置成以预定时间间隔从所述视频中获取多帧图像以供识别。

所述识别模块402被配置成：针对所述至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息。所述对象识别模型可以例如是深度学习模型，例如各种常见的神经网络模型。如上面所述，所述对象可以例如是该帧图像中的人物、物品、动物、植物等等任何可以被识别的对象中一个或多个。对象信息例如可以是用于表征所述对象的对象属性。

所述标注模块403被配置成将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。在一些实施例中，所述标注模块403可以被配置成如果所得到的与所述对象相关的对象信息符合预设的规则，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。例如，所述标注模块403被配置成如果所述对象信息在该视频中被首次得到，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。所述标注模块403还可以被配置成如果所述对象信息在该视频中不是被首次得到，则计算该帧图像与上次从中识别出该对象信息的另一帧图像间的时间间隔；以及如果所述时间间隔大于预设时间间隔，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

在一些实施例中，所述标注模块403可以被配置成将所述对象信息关联到所述视频中的该帧图像中与所述对象相关联的位置。替换地，所述标注模块403可以被配置成将所述对象信息合成到所述视频中的该帧图像中与所述对象相关联的位置处。

所述训练模块404可以被配置成将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。如上面所述，所述对象识别模型可以例如是深度学习模型，例如各种常见的神经网络模型。

所述信息爬取模块405可以被配置成利用爬虫技术从网络中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。例如，所述信息爬取模块405可以被配置成从互联网中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。

图5图示了示例系统500，其包括代表可以实现本文描述的各种技术的一个或多个系统和/或设备的示例计算设备510。计算设备510可以是例如视频服务提供商的服务器（例如图1中的服务器102）、与视频客户端相关联的设备（例如，图1中的终端设备101）、片上系统、和/或任何其它合适的计算设备或计算系统。图4描述的用于对视频中的对象进行标注的设备400可以采取计算设备510的形式。替换地，用于对视频中的对象进行标注的设备400可以以视频对象标注应用516的形式被实现为计算机程序。

如图示的示例计算设备510包括彼此通信耦合的处理系统511、一个或多个计算机可读介质512以及一个或多个I / O接口513。尽管未示出，但是计算设备510还可以包括系统总线或其他数据和命令传送系统，其将各种组件彼此耦合。系统总线可以包括不同总线结构的任何一个或组合，所述总线结构诸如存储器总线或存储器控制器、外围总线、通用串行总线、和/或利用各种总线架构中的任何一种的处理器或局部总线。还构思了各种其他示例，诸如控制和数据线。

处理系统511代表使用硬件执行一个或多个操作的功能。因此，处理系统511被图示为包括可被配置为处理器、功能块等的硬件元件514。这可以包括在硬件中实现为专用集成电路或使用一个或多个半导体形成的其它逻辑器件。硬件元件514不受其形成的材料或其中采用的处理机构的限制。例如，处理器可以由（多个）半导体和/或晶体管（例如，电子集成电路（IC））组成。在这样的上下文中，处理器可执行指令可以是电子可执行指令。

计算机可读介质512被图示为包括存储器/存储装置515。存储器/存储装置515表示与一个或多个计算机可读介质相关联的存储器/存储容量。存储器/存储装置515可以包括易失性介质（诸如随机存取存储器（RAM））和/或非易失性介质（诸如只读存储器（ROM）、闪存、光盘、磁盘等）。存储器/存储装置515可以包括固定介质（例如，RAM、ROM、固定硬盘驱动器等）以及可移动介质（例如，闪存、可移动硬盘驱动器、光盘等）。计算机可读介质512可以以下面进一步描述的各种其他方式进行配置。

一个或多个I/O接口513代表允许向计算设备510输入命令和信息并且可选地还允许使用各种输入/输出设备将信息呈现给用户和/或其他组件或设备的功能。输入设备的示例包括键盘、光标控制设备（例如，鼠标）、麦克风（例如，用于语音输入）、扫描仪、触摸功能（例如，被配置为检测物理触摸的容性或其他传感器）、相机（例如，可以采用可见或不可见的波长（诸如红外频率）将不涉及触摸的运动检测为手势）等等。输出设备的示例包括显示设备（例如，监视器或投影仪）、扬声器、打印机、网卡、触觉响应设备等。因此，计算设备510可以以下面进一步描述的各种方式进行配置以支持用户交互。

计算设备510还包括视频对象标注应用516。视频对象标注应用516可以例如是关于图4描述的用于对视频中的对象进行标注的设备400的软件实例，并且与计算设备510中的其他元件相组合地实现本文描述的技术。

本文可以在软件硬件元件或程序模块的一般上下文中描述各种技术。一般地，这些模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元素、组件、数据结构等。本文所使用的术语“模块”，“功能”和“组件”一般表示软件、固件、硬件或其组合。本文描述的技术的特征是与平台无关的，意味着这些技术可以在具有各种处理器的各种计算平台上实现。

所描述的模块和技术的实现可以存储在某种形式的计算机可读介质上或者跨某种形式的计算机可读介质传输。计算机可读介质可以包括可由计算设备510访问的各种介质。作为示例而非限制，计算机可读介质可以包括“计算机可读存储介质”和“计算机可读信号介质”。

与单纯的信号传输、载波或信号本身相反，“计算机可读存储介质”是指能够持久存储信息的介质和/或设备，和/或有形的存储装置。因此，计算机可读存储介质是指非信号承载介质。计算机可读存储介质包括诸如易失性和非易失性、可移动和不可移动介质和/或以适用于存储信息（诸如计算机可读指令、数据结构、程序模块、逻辑元件/电路或其他数据）的方法或技术实现的存储设备之类的硬件。计算机可读存储介质的示例可以包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字通用盘（DVD）或其他光学存储装置、硬盘、盒式磁带、磁带，磁盘存储装置或其他磁存储设备，或其他存储设备、有形介质或适于存储期望信息并可以由计算机访问的制品。

“计算机可读信号介质”是指被配置为诸如经由网络将指令发送到计算设备510的硬件的信号承载介质。信号介质典型地可以将计算机可读指令、数据结构、程序模块或其他数据体现在诸如载波、数据信号或其它传输机制的调制数据信号中。信号介质还包括任何信息传递介质。术语“调制数据信号”是指以这样的方式对信号中的信息进行编码来设置或改变其特征中的一个或多个的信号。作为示例而非限制，通信介质包括诸如有线网络或直接连线的有线介质以及诸如声、RF、红外和其它无线介质的无线介质。

如前所述，硬件元件514和计算机可读介质512代表以硬件形式实现的指令、模块、可编程器件逻辑和/或固定器件逻辑，其在一些实施例中可以用于实现本文描述的技术的至少一些方面。硬件元件可以包括集成电路或片上系统、专用集成电路（ASIC）、现场可编程门阵列（FPGA）、复杂可编程逻辑器件（CPLD）以及硅中的其它实现或其他硬件设备的组件。在这种上下文中，硬件元件可以作为执行由硬件元件所体现的指令、模块和/或逻辑所定义的程序任务的处理设备，以及用于存储用于执行的指令的硬件设备，例如，先前描述的计算机可读存储介质。

前述的组合也可以用于实现本文所述的各种技术和模块。因此，可以将软件、硬件或程序模块和其它程序模块实现为在某种形式的计算机可读存储介质上和/或由一个或多个硬件元件514体现的一个或多个指令和/或逻辑。计算设备510可以被配置为实现与软件和/或硬件模块相对应的特定指令和/或功能。因此，例如通过使用处理系统的计算机可读存储介质和/或硬件元件514，可以至少部分地以硬件来实现将模块实现为可由计算设备510作为软件执行的模块。指令和/或功能可以由一个或多个制品（例如，一个或多个计算设备510和/或处理系统511）可执行/可操作以实现本文所述的技术、模块和示例。

在各种实施方式中，计算设备510可以采用各种不同的配置。例如，计算设备510可以被实现为包括个人计算机、台式计算机、多屏幕计算机、膝上型计算机、上网本等的计算机类设备。计算设备510还可以被实现为包括诸如移动电话、便携式音乐播放器、便携式游戏设备、平板计算机、多屏幕计算机等移动设备的移动装置类设备。计算设备510还可以实现为电视类设备，其包括具有或连接到休闲观看环境中的一般地较大屏幕的设备。这些设备包括电视、机顶盒、游戏机等。

本文描述的技术可以由计算设备510的这些各种配置来支持，并且不限于本文所描述的技术的具体示例。功能还可以通过使用分布式系统、诸如通过如下所述的平台522而在“云”520上全部或部分地实现。

云520包括和/或代表用于资源524的平台522。平台522抽象云520的硬件（例如，服务器）和软件资源的底层功能。资源524可以包括在远离计算设备510的服务器上执行计算机处理时可以使用的应用和/或数据。资源524还可以包括通过因特网和/或通过诸如蜂窝或Wi-Fi网络的订户网络提供的服务。

平台522可以抽象资源和功能以将计算设备510与其他计算设备连接。平台522还可以用于抽象资源的分级以提供遇到的对于经由平台522实现的资源524的需求的相应水平的分级。因此，在互连设备实施例中，本文描述的功能的实现可以分布在整个系统500内。例如，功能可以部分地在计算设备510上以及通过抽象云520的功能的平台522来实现。

应当理解，为清楚起见，参考不同的功能模块对本公开的实施例进行了描述。然而，将明显的是，在不偏离本公开的情况下，每个功能模块的功能性可以被实施在单个模块中、实施在多个模块中或作为其它功能模块的一部分被实施。例如，被说明成由单个模块执行的功能性可以由多个不同的模块来执行。因此，对特定功能模块的参考仅被视为对用于提供所描述的功能性的适当模块的参考，而不是表明严格的逻辑或物理结构或组织。因此，本公开可以被实施在单个模块中，或者可以在物理上和功能上被分布在不同的模块和电路之间。

将理解的是，尽管第一、第二、第三等术语在本文中可以用来描述各种设备、元件、或部件，但是这些设备、元件、或部件不应当由这些术语限制。这些术语仅用来将一个设备、元件、或部件与另一个设备、元件、或部件相区分。

尽管已经结合一些实施例描述了本公开，但是其不旨在被限于在本文中所阐述的特定形式。相反，本公开的范围仅由所附权利要求来限制。附加地，尽管单独的特征可以被包括在不同的权利要求中，但是这些可以可能地被有利地组合，并且包括在不同权利要求中不暗示特征的组合不是可行的和/或有利的。特征在权利要求中的次序不暗示特征必须以其工作的任何特定次序。此外，在权利要求中，词“包括”不排除其它元件，并且不定冠词“一”或“一个”不排除多个。权利要求中的附图标记仅作为明确的例子被提供，不应该被解释为以任何方式限制权利要求的范围。

Claims

1.一种用于对视频中的对象进行标注的方法，包括：

从所述视频中获取至少一帧图像；

针对获取的所述至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，得到与所述对象相关的对象信息；

将所述对象信息标注在该帧图像中的与所述对象相关联的位置处；

其中，通过将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。

2.根据权利要求1所述的方法，其中，所述对象信息包括用于表征所述对象的对象属性。

3.根据权利要求1或2所述的方法，还包括：利用爬虫技术从网络中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。

4.根据权利要求1或2所述的方法，其中，从所述视频中获取至少一帧图像包括：

以预定时间间隔从所述视频中获取多帧图像。

5.根据权利要求1或2所述的方法，其中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：

如果针对所述对象信息的字符串长度大于预设长度阈值，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

6.根据权利要求1或2所述的方法，其中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：

如果所述对象信息在该视频中是首次通过识别被得到，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

7. 根据权利要求1或2所述的方法，其中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：

如果所述对象信息在该视频中不是首次通过识别被得到，则计算该帧图像与上一次识别出该对象信息的另一帧图像间的时间间隔；以及

如果计算的所述时间间隔大于预设时间间隔，则将所述对象信息标注在该帧图像中的与所述对象相关联的位置处。

8.根据权利要求1或2所述的方法，其中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：

将所述对象信息关联到所述视频中的该帧图像中与所述对象相关联的位置。

9.根据权利要求1或2所述的方法，其中，将所述对象信息标注在该帧图像中的与所述对象相关联的位置处，包括：

将所述对象信息合成到所述视频中的该帧图像中与所述对象相关联的位置处。

10.一种用于对视频中的对象进行标注的设备，包括：

获取模块，被配置成从所述视频中获取至少一帧图像；

识别模块，被配置成：针对获取的至少一帧图像中的每帧图像，利用经训练的对象识别模型来识别该帧图像中的对象，以得到与所述对象相关的对象信息；

标注模块，被配置成将所述对象信息标注在该帧图像中的与所述对象相关联的位置处；

训练模块，被配置成：将图像训练集中的样本图像作为对象识别模型的输入，以及将与所述样本图像中的对象相关的对象信息作为所述对象识别模型的输出来对所述对象识别模型进行训练，以得到所述经训练的对象识别模型。

11.根据权利要求10所述的设备，其中，所述对象信息包括用于表征所述对象的对象属性。

12.根据权利要求10所述的设备，还包括：

信息爬取模块，被配置成：利用爬虫技术从网络中爬取所述图像训练集以及与所述样本图像中的对象相关的对象信息。

13. 根据权利要求10所述的设备，其中，获取模块被配置成以预定时间间隔从所述视频中获取多帧图像。

14. 一种计算设备，包括

处理器；以及

存储器，配置为在其上存储有计算机可执行指令，当计算机可执行指令被处理器执行时执行如权利要求1-9中的任一项所述的方法。

15.一种计算机可读存储介质，其存储有计算机可执行指令，当所述计算机可执行指令被执行时，执行如权利要求1-9中的任一项所述的方法。