CN102547479B

CN102547479B - 媒体元数据的生成与供应

Info

Publication number: CN102547479B
Application number: CN201110430523.6A
Authority: CN
Inventors: C·顾; A·默钦; C·吉布森; D·奥尔斯
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2010-12-09
Filing date: 2011-12-08
Publication date: 2016-08-03
Anticipated expiration: 2031-12-08
Also published as: US8763068B2; US20120147265A1; US20140250487A1; CN102547479A; US9015788B2

Abstract

本发明涉及媒体元数据的生成与供应。公开了关于媒体元数据的生成和供应的各种实施例。例如，一个所公开的实施例提供计算设备(103)，该计算设备包括被配置为执行指令的逻辑子系统(120)，以及包括其中存储的可由逻辑子系统(120)执行以实现以下动作的指令的数据保持子系统(122)：接收视频和/或音频内容项的输入(202)，并将该视频和/或音频内容项与一个或多个对象描述符进行比较(204)以定位内容项中的一个或多个对象的实例，每个对象描述符表示用于定位在内容项内的对象。指令可进一步执行以为位于视频内容项中的每个对象生成视频元数据(206)，并且接收关于为所选对象生成的元数据是否正确的确认用户输入(212)。

Description

媒体元数据的生成与供应

技术领域

本发明涉及媒体元数据，尤其是媒体元数据的生成与供应。

背景技术

通常向数字视频和/或音频内容提供元数据以描述视频和/或音频内容项的各个方面。例如，视频内容项可以具有包括诸如标题、演员表成员、制片方、导演、制作年份等信息的相关联的元数据。这种元数据通常全局地应用于视频和/或音频内容项的整体。

例如，超视频可以包括与视频内容内部包括的对象(诸如人)有关的媒体内元数据。更具体地，超视频包括嵌入到视频项内的用户可选择的元数据链接，该元数据链接允许观看者通过与链接交互来导航至其他内容。由于典型的数字视频和/或音频内容项内包括巨大数量的单独图像帧以及潜在的巨大数量的可能出现在单独帧中的对象，生成元数据并将其包括在视频和/或音频内容项内希望的位置处可能是困难和耗时的。

发明内容

描述了关于用于视频和/或音频媒体内容的媒体内和/或媒体间的元数据的生成及供应的各种实施例。例如，一个所公开的实施例提供计算设备，该计算设备包括被配置为执行指令的逻辑子系统，以及包括其中存储的可由处理器执行以实现以下动作的指令的数据保持子系统：接收视频和/或音频内容项的输入，将该视频和/或音频内容项与一个或多个对象描述符进行比较以定位该视频和/或音频内容项中的一个或多个对象的实例，每个对象描述符表示用于定位在视频和/或音频内容项内的对象。指令还可执行以为位于视频和/或音频内容项中的每个对象生成视频元数据，并且接收关于为所选对象生成的元数据是否正确的确认用户输入。

提供本发明内容以便以简化的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容并不旨在标识所要求保护主题的关键特征或必要特征，也不旨在用于限制所要求保护主题的范围。此外，所要求保护的主题不限于解决在本发明的任一部分中提及的任何或所有缺点的实现。

附图说明

图1示出用于媒体内和媒体间元数据的生成和消费的视频和/或音频使用环境的实施例。

图2示出描绘为视频和/或音频内容生成元数据的方法的实施例的流程图。

图3示出描绘为视频和/或音频内容生成元数据的另一个实施例的流程图。

图4示出被配置为允许计算机生成的元数据的高效确认的用户界面的实施例的示意性描述。

具体实施方式

鉴于为视频和/或音频内容手动生成媒体内及媒体间元数据的耗时和困难的本质，此处公开了关于这种元数据的自动生成的实施例。此处还公开了关于人类辅助自动元数据生成和识别的实施例。如以下将更详细地描述，这可以有助于获得计算能力的优势以快速地生成元数据，以及人类识别的优势以准确地识别并验证这种元数据。

在描述对视频和/或音频内容的媒体内及媒体间元数据的生成和供应之前，参考图1描述示例视频和/或音频使用环境100。视频和/或音频使用环境100包括视频和/或音频内容服务器系统102，该视频和/或音频内容服务器系统102可包括一个或多个物理计算设备103。视频和/或音频内容服务器系统102被配置为经由网络105向客户机设备104提供视频和/或音频内容，客户机设备104被示为任意数目n个客户机设备。客户机设备104可包括任何合适类型的设备，包括但不限于电视机、机顶盒、智能电话、便携式媒体播放器、桌面计算机、膝上型计算机、笔记本计算机等。在某些实例中，虚线框106所指示的用户可以经由多个不同的客户机设备(如由框106内的客户机1和2所指示的)消费视频内容。例如，用户可以消费电视机、膝上型计算机、笔记本计算机和移动智能电话上的视频和/或音频内容，并且可以经由存储在视频和/或音频内容服务器系统102上的或由视频和/或音频内容服务器系统102以其他方式可以访问的用户帐户信息将全部这些设备链接到用户。

视频和/或音频内容服务器系统102还包括或其他方式被配置为访问包括用于供应给客户机设备104的视频和/或音频内容项的视频和/或音频内容存储110。视频和/或音频内容存储110中的视频和/或音频内容项可被配置为被流传输到客户机设备104和/或是由客户机设备104可下载的用于稍后的消费。在某些场景中，可以在一个设备(例如电视里)上消费视频和/或音频，而在另一个伴随设备(例如智能电话)上接收并消费元数据。此外，可以理解的是，元数据可以被生成并被提供给经由可移动存储媒体消费的视频和/或音频内容，诸如紧致盘(CD)、数字多功能盘(DVD)、和其他这种可移动存储媒体。

各种元数据项可被存储在视频和/或音频内容存储110中，包括但不限于视频和/或音频内容的媒体间元数据及媒体内元数据的每个视频和/或音频内容项。某些元数据可以与对应的视频和/或音频内容项捆绑在一起，并且与视频和/或音频内容项存储在一起，而其他元数据可与相关联的视频和/或音频内容项分开地存储，使得它可与相关联的视频和/或音频内容项分开地提供给客户机。图1中的元数据存储112表示该分开地存储的元数据，但是可以理解的是，分开地存储的元数据可被存储在与相关联的视频和/或音频内容项相同或不同的数据库中。也可以理解的是，视频和/或音频内容项和/或元数据也可被存储在视频和/或音频内容服务器系统102经由网络105可以访问的远程位置，如图1在114所示。

可以理解的是，视频和/或音频内容服务器系统102所服务的媒体可以可选地被加密。由此，认证/许可/解密方案可被内置到每个客户机以及元数据生成逻辑中。加密/内容保护方案也可被应用于元数据以及媒体内容。

如以下将更详细地描述的，视频和/或音频内容服务器系统102被配置为从被示为任意数量n个媒体源的媒体源116接收视频和/或音频内容项，并且处理视频和/或音频内容项以生成用于视频和/或音频内容项的元数据。由此，视频和/或音频内容服务器系统102包括逻辑子系统120，该逻辑子系统120被配置为执行存储在数据保持子系统122中的指令以执行关于生成用于视频和/或音频内容项的元数据的各种功能，并且向发出请求的客户机设备104提供视频和/或音频内容项以及用于视频和/或音频内容项的相关联的元数据。

视频和/或音频内容服务器系统102还被示为包括显示器124，用以呈现关于对为视频和/或音频内容项所生成的元数据的确认的用户界面。如以下更详细地描述的，元数据可以由视频和/或音频内容服务器系统102的用户、由操作客户机设备104的消费者、和/或由自动服务来确认。

可以理解的是，任何合适的计算机体系结构可用于视频和/或音频内容服务器系统102而不背离本公开的范围。此外，视频和/或音频内容服务器系统102可包括除图1所描绘的那些以外的任何其他合适的组件，包括但不限于诸如键盘、鼠标、游戏控制器、相机、话筒、和/或例如触摸屏等用户输入设备。

逻辑子系统120可包括被配置为执行一个或多个指令的一个或更多个物理设备。例如，逻辑子系统120可以被配置为执行一个或多个指令，该一个或更多个指令是一个或更多个应用、服务、程序、例程、库、对象、组件、数据结构或其他逻辑构造的部分。可实现此类指令以执行任务、实现数据类型、变换一个或多个设备的状态、或以其它方式得到希望的结果。

逻辑子系统120可以包括被配置为执行软件指令的一个或多个处理器。附加地或可替代地，逻辑子系统120可以包括被配置为执行硬件或固件指令的一个或多个硬件或固件逻辑机器。逻辑子系统120的处理器可以是单核或多核的，且在上面执行的程序可以被配置为供并行或分布式地处理。逻辑子系统120可以任选地包括分布在两个或更多个设备上的单独组件，这些设备可位于远程和/或被配置为进行协同处理。逻辑子系统120的一个或多个方面可被虚拟化并由以云计算配置进行配置的可远程访问的联网计算设备执行。

数据保持子系统122可包括一个或更多个物理、非瞬时设备，这些设备被配置成保持数据和/或可由该逻辑子系统执行的指令，以实现此处描述的方法和过程。在实现这样的方法和过程时，可以变换数据保持子系统122的状态(例如，以保持不同数据)。

数据保持子系统122可以包括可移动介质和/或内置设备。数据保持子系统122尤其是可以包括光学存储器设备(例如，CD、DVD、HD-DVD、蓝光盘等)、半导体存储器设备(例如，RAM、EPROM、EEPROM等)和/或磁存储器设备(例如，硬盘驱动器、软盘驱动器、磁带驱动器、MRAM等)。数据保持子系统122可以包括具有以下特性中的一个或更多个特性的设备：易失性、非易失性、动态、静态、读/写、只读、随机存取、顺序存取、位置可寻址、文件可寻址、以及内容可寻址。在某些实施例中，可以将逻辑子系统120和数据保持子系统122集成到一个或更多个常见设备中，如专用集成电路或片上系统。

图1还示出以可移动计算机可读存储介质130形式的数据保持子系统的一方面，该可移动计算机可读存储介质可用于存储和/或传输可执行以实现此处所述的方法和过程的数据和/或指令。可移动计算机可读存储介质130可以采取CD、DVD、HD-DVD、蓝光盘、EEPROM、磁存储器设备、和/或软盘等形式。

应当理解，如此处所使用的“服务”可以是跨越多个用户会话可执行的、而且对一个或更多系统组件、程序和/或其他服务可用的应用程序。在一些实现中，服务可以响应于来自客户端的请求而在服务器上运行。

显示器124可被用于呈现由数据保持子系统122保存的数据的可视表示。由于此处所描述的方法和过程改变了由数据保持子系统保存的数据，并由此转变了数据保持子系统的状态，因此同样可以转变显示显示器124的状态以可视地表示底层数据中的改变。显示器124可以包括使用实际上任何类型的技术的一个或多个显示设备。可将此类显示设备与逻辑子系统120和/或数据保持子系统122一起组合在共享封装中，或此类显示设备可以是外围显示设备。此外，在某些实施例中，可以包括一个或多个音频输出(例如扬声器)以呈现数据保持子系统122所保持的数据的音频表示，和/或可以提供一个或多个音频输入以接收诸如语音命令的音频输入。

图2示出描绘为视频和/或音频内容项生成元数据的方法200的实施例的流程图。方法200包括，在202，接收视频和/或音频内容项的输入，并且在204，将该视频和/或音频内容项与一个或多个对象描述符进行比较，其中每个视频对象描述符表示可位于视频和/或音频内容项中的对象。对象描述符可包括例如视频和/或音频内容项中出现的人的面部的表示。这可以允许使用面部识别技术以识别构成视频和/或音频内容项的各个图像数据帧中的演员的面部。同样，对象描述符可包括动物的表示、位于视频和/或音频内容项中的无生命对象的表示、视频和/或音频内容项的音轨中使用的歌曲的表示、和/或其他合适的视频内对象。此外，对象描述符可包括帮助识别视频和/或音频内容项中诸如场景改变的视频内和/或音频内事件的功能和/或数据。可以理解的是，视频和/或音频内容项可包括完整的视频内容选择，或视频内容选择的任何子部分，诸如场景、截图、或者甚至是单个帧。

方法200接下来包括，在206，为位于视频和/或音频内容项中的每个对象生成元数据。例如，这可以包括生成位于视频和/或音频内容项中的对象的身份208的列表，并且还生成每个对象出现在视频和/或音频内容项中的时间和/或图像帧坐标形式的位置210的列表。此外，在某些实施例中，为位于视频和/或音频内容项中的每个对象的每个实例生成元数据，如在211所示。可以理解的是，此处使用的术语“位置”可以指特定图像数据帧(例如，引用特定图像帧的矩形边界框)内的时间位置和/或物理位置。此外，所生成的元数据可包括视频和/或音频内容项中的场景中断的列表，和/或可以列出任何其他合适的视频内对象。可以理解的是，生成元数据的视频和/或音频内容项处理可以例如经由分布式计算机网络本地地和/或远程地进行。

接下来，方法200包括，在212，接收关于为所选对象的所选实例所生成的元数据是否正确的确认输入。如上所述，对视频中的对象的自动识别相比手动地实现可以更快地生成大量的元数据，但还缺少对象的人类识别的精度和准确性。因此，方法200可以提供元数据的人类辅助确认，这可以帮助确保与视频和/或音频内容项相关联的元数据的可靠性。在其他实施例中，确认输入可以来自服务组件，而不是用户。

从用户接收确认输入时，确认用户输入可以经由本地用户界面从执行视频和/或音频内容项摄取/元数据生成过程的用户接收，如在214所指示的，和/或经由远程客户机设备在消费元数据期间从消费者接收，如在216所指示的。此外，如上所述，可以从自动化服务接收确认用户输入，如在217所指示的。生成时对所生成的元数据的正确性的确认可以帮助预防将不正确的元数据传输给消费者。同样，从元数据的消费者接收确认输入可以帮助预防将不正确的元数据传输给元数据的以后的消费者。例如，在某些情况下，视频和/或音频内容项具有相对低的利润预期时，可能期望不在摄取过程确认，而相反仅在消费阶段进行确认过程。在这种实施例中，可以向消费者提供用于指出元数据中的任何错误信息的激励。

可以按照任何合适的方式接收视频和/或音频内容项输入202。例如，可以按照原始格式或编码格式接收视频和/或音频内容项。此外，可以在流传输模式或下载以拥有(DTO)模式中接收视频和/或音频内容项。所生成的元数据可以与视频和/或音频内容项捆绑在一起来存储，或者可以分开地存储，使得它可以被分开地提供，如上所述。此外，可以购买可移动媒体存储设备形式的视频和/或音频内容项，在此情形中，可以分开地存储和提供元数据。

图3示出描绘为视频和/或音频内容项生成元数据的方法的更详细的实施例的流程图。方法300包括，在302，接收视频和/或音频内容项的输入，并且在304，请求并接收表示可能在视频和/或音频内容项中的对象的一组对象描述符。例如，视频和/或音频内容项是电影或电视演出时，视频和/或音频内容服务器可以确定演出的身份，并随后可以向外部服务发送对包括电影或演出的演员表中的演员列表以及一组演员图像(或其他数字表示)的一组对象描述符的请求同样，视频和/或音频内容项具有音乐的音轨时，视频和/或音频内容服务器可以向外部服务发送对音轨内包括的歌曲、或来自歌曲的剪辑的请求。可以使用类似的方法来获得对象描述符以定位视频和/或音频内容项中的无生命对象、动物等。可以理解的是，演员表、音轨歌曲列表、和视频和/或音频内容项的其他这种通用元数据项可以如接收时和/或来自各种外部服务时那样与视频和/或音频内容项包括在一起。

方法300接下来包括，在306，将视频和/或音频内容项与对象描述符进行比较以定位视频和/或音频内容项中对象描述符所表示的对象的任何实例。随后，对于所定位的每个对象的每个实例，方法300包括，在308生成元数据。如上所述，所生成的元数据可以是媒体内和/或媒体间元数据，并且可以包括任何合适的信息，包括但不限于被分配给所定位的对象的身份以及所定位的对象出现在视频和/或音频内容项中的(时间和/或空间)位置。

在对象的实例的定位及为实例生成元数据时或之后，方法300包括，在314，将用户界面的表示发送到显示设备或其他合适的输出设备(例如，音频输出设备)，其中用户界面显示从视频和/或音频内容项的图像帧获得一组图像316，该组图像表示所选对象定位于视频和/或音频内容项中的实例。此外，在某些实施例中，除了经由显示器或不经由显示器，将音频输出呈现给用户。如下所述，该用户界面随后用于接收确认用户输入(或者其他确认输入，例如来自服务)，如在322所指示的，以基于该组图像所表示的对象实例是否被正确地识别来确认元数据。另选地或另外地，可以经由音频输入或以任何其他合适的方式来接收确认用户输入。随后，在324，仅当确认用户输入确认了对象实例被正确地识别时，可以将所生成的元数据与用于供应给客户机设备的所识别的已定位对象实例相关联。

用户界面可包括任何合适的信息和/或控件来便于对用于所定位的对象实例的所生成的元数据的确认。例如，如在318所示，用户界面可包括表示对象描述符的图像。这种图像可以作为用户可以选择以确认所识别的对象实例的正确性的用户界面控件，并由此确认为该实例所生成的元数据。此外，用户界面可包括可用于拒绝对象实例的任何不正确的识别的一个或多个非确认控件，并由此使为该实例生成的元数据无效。在某些实施例中，这种非确认控件可被配置为全局地应用于用户界面上所描绘的所有对象实例。

图4示出可用于快速地确认大量所生成的元数据或使大量所生成的元数据无效的用户界面400的示例实施例。可以理解的是，此处使用的术语“确认用户输入”可以指确认所生成的元数据或使所生成的元数据无效的用户输入。

用户界面400包括第一字段402，该第一字段402包括如由对视频和/或音频内容项的自动化搜索所识别的视频和/或音频内容项中的特定对象的检测到的外形的每个实例的表示，其中由取自图像数据帧的所识别的对象的图像(图4中被示为角色头部的轮廓)来示出每个实例。第一字段402被配置为是可滚动的，或以其他方式允许包括比一次可显示的更多的数据。

用户界面400还包括第二字段404，第二字段404包括对用于识别对象实例的每个视频对象描述符的表示。在所描绘的实施例中，第二字段404包括视频和/或音频内容项中演员表成员的面部图像的列表。如所示的，用户可以例如使用光标405、触摸输入、或以任何其他合适的方式选择演员表成员的面部(在所描绘的实施例中是演员3)以进行用于该组图像所表示的全部实例的单个确认输入。由此，经由对第二字段404中的图像的选择为所选对象的全部实例接收用于所生成的元数据的单个确认输入。在为一组所识别的对象实例执行该过程之后，导航控件406允许用户导航以显示表示另一个所选对象定位于视频和/或音频内容项中的实例的另一组图像，并且随后进行另一个确认输入。

在某些实例中，不是第一字段402所示的全部图像都可以识别相同的对象。例如，所选对象描述符与演员表成员相对应时，所示的一个或多个图像可以识别不同的演员表成员、非演员表成员(例如额外的)、或无生命对象(例如雕像、钟面等)。由此，用户界面400包括允许使为这些不正确地识别的对象实例生成的元数据无效的无效控件。在所描绘的实施例中，用户界面包括示例单项无效控件408和全局无效控件410。单项无效控件408被标记为“不在演员表中”，并且允许用户选择来自第一字段402的不正确地识别的对象实例的图像，并且随后选择单项无效控件408以使为该项生成的元数据无效。在不正确地识别的对象实例被无效之后，剩余的对象实例可以作为一组经由对来自第二字段404的图像的选择来确认，如上所述。同样，被标记为“坏组”的全局无效控件410允许第一字段402中所显示的一组图像所示的全部对象实例通过接收单个确认输入来无效。以此方式，一个明显错误的对象识别组可以被快速地拒绝，而不必单独地拒绝每个错误地识别的对象实例。

图4还示出其他示例用户界面控件。例如，图像大小调整控件412可用于放大或缩小特定图像以辅助确认过程。可以理解的是，用户界面的所描绘的实施例是出于示例的目的而示出的，并且不旨在以任何方式进行限制。

返回图3，在某些实施例中，可以执行附加的确认后处理来生成附加的元数据。例如，如在326所指示的，可以通过确定两个或多个所识别的对象同时出现的视频和/或音频内容项的片段，并随后生成关于对象的这些重叠实例中的对象的身份和(时间和/或位置的)位置的元数据来生成关系元数据。例如，这可以通过允许视频内容的消费者执行希望的视频内容的更细粒度的搜索来辅助内容发现。

作为使用关系元数据的更具体的示例，关系元数据可用于识别消费者可能记得两个或多个喜欢的角色或其他对象出现的场景的之前观看过的电影或电视演出。在发现所记得的场景之后，消费者随后可以仅观看所请求的场景，或者可以观看整个视频和/或包括所请求的场景的视频和/或音频内容项。这还可以允许收集视频内观看统计数据，使得内容提供方可以确定多少人观看视频和/或音频内容项中的所选场景。这可以帮助基于各个演员和/或对象出现在视频和/或音频内容项中多长时间来分析统计数据，并且因此可以允许基于其中提供广告的场景的场景特征或邻近提供该广告的场景的场景特征来对广告进行定价，而不是基于作为整体的视频和/或音频内容项的特征。

方法300接下来包括，在328，从客户机接收对元数据的请求，并且向发出请求的客户机提供元数据。在某些实例中，元数据可以与视频和/或音频内容项捆绑在一起。由此，如在330所指示的，对元数据的请求可以采取对视频和/或音频内容项的请求的形式，并且元数据可以与视频和/或音频内容项捆绑在一起被发送到客户机。在其他实例中，如在330所指示的，元数据可以与视频和/或音频内容项分开地存储。分开存储时，元数据可以基于对视频和/或音频内容项的请求而被发送到客户机(即，元数据与视频和/或音频内容项被推送到客户机，流传输或被下载)，或者基于请求与视频和/或音频内容项分开地被发送(即，元数据被拉到客户机)。

作为这些场景的每一个的更具体的示例，在拉场景中，消费者可以在时间T暂停视频重放，并且使视频元数据递送服务提供关于该视频帧中位置P处的视频对象(角色或其他)的信息。这种交互可以以任何合适的方式进行以请求关于感兴趣的对象的更多信息，包括但不限于经由诸如光标控制设备的用户输入设备，经由与诸如三维深度相机的运动传感器的交互，经由话筒或话筒阵列检测到的语音命令等。视频元数据服务随后将被下载的姓名或其他信息发送到客户机。相反，在推场景中，客户机接收与视频一同正被观看的视频和/或音频内容项的全部元数据。由此，时间T和位置P处的视频内和视频间元数据对于推场景中的消费者是立刻可用的。

某些实施例可以采用混合推拉元数据递送场景。例如，在此实施例中，对象位置P和时间T的列表可被推送到客户机，而关于对象的诸如新闻、绯闻等的近期信息由客户机拉取。

如上所述的对元数据的供应允许启用并显示与媒体项内部的时间偏移量或视觉位置相关联的派生元数据体验。某些这种元数据体验可以是入口/出口体验，而其他的可以是基于统计数据的社交体验。作为入口事件的非限制性示例，消费者可以预订特定的有趣的人的“频道”，关于该特定的人的信息内容可以以各种各样的视觉粒度被自动地通知/触发给消费者，或以其他方式被消费者访问，从整部电影或TV剧集到特定的场景或甚至是单个帧，而不是订阅基于内容的频道或与特定的广播实体相关联的频道。可以理解的是，所请求的信息可以被发送到消费者正在观看视频和/或音频内容项的设备上，或发送到诸如移动电话、遥控器、膝上型计算机、笔记本计算机等的另一个设备。

作为出口事件的非限制性示例，如上所述，消费者可以暂停重放，在视频重放期间经由输入设备在时间T选择矩形位置P，并且显示诸如角色的姓名、扮演该角色的演员的姓名的信息和该演员出现的其他内容。消费者随后可以退出并导航至与该角色或演员有关的其他信息，诸如内容内部该角色的难忘的/受欢迎的/可引用的内容/场景/帧。作为另一个出口场景，当给定角色离开特定的内容项的场景时，可以呈现可观看该角色的演出选择的概览。

作为基于统计数据的社交体验的非限制性示例，消费者可以接收关于第一个进入新的电视演出的场景的演员的实时潮流数据(例如，微博潮流数据)。消费者还可以搜索关于演员在视频和/或音频内容项中出现多少次的统计数据以获得可被显示并推荐给社交网络上的朋友以供进一步探索的流行性分布。

由此，通过利用对视频内对象的自动化识别以产生元数据，结合对这种元数据的人类辅助确认以过滤任何错误的结果，可能获得高度精确的比率的正确地识别的元数据，而与手动的元数据生成方法相比，高效地生成大量的元数据。

应该理解，此处所述的配置和/或方法在本质上是示例性的，且这些具体实施例或示例不是局限性的，因为多个变体是可能。此处所述的具体例程或方法可表示任何数量的处理策略中的一个或更多个。由此，所示出的各个动作可以按所示顺序执行、按其他顺序执行、并行地执行、或者在某些情况下省略。同样，可以改变上述过程的次序。

本发明的主题包括各种过程、系统和配置的所有新颖和非显而易见的组合和子组合、和此处所公开的其他特征、功能、动作、和/或特性、以及其任何和全部等效物。

Claims

1.一种用于媒体元数据的生成与供应的计算设备(103)，包括：

逻辑子系统(120)，被配置为执行指令；以及

数据保持子系统(122)，包含存储其中的可由所述逻辑子系统(120)执行的指令以：

接收视频和/或音频内容项的输入(202)；

将所述视频和/或音频内容项与一个或多个对象描述符进行比较(204)以定位所述视频和/或音频内容项中的一个或多个对象的多个实例，每个对象描述符表示用于定位在所述视频和/或音频内容项内的对象；

为位于所述视频和/或音频内容项中的每个对象生成元数据(206)，对应的对象的所述元数据包括所述对应的对象的身份；

向显示设备输出用户界面，所述用户界面包括表示所选对象定位于所述视频和/或音频内容项中的多个实例的一组图像；以及

通过所述用户界面接收确认输入(212)，所述确认输入包括用于由该组图像所表示的所述多个实例的单个确认输入，所述单个确认输入有关于为所选的对象生成的所述元数据是否正确。

2.如权利要求1所述的计算设备，其特征在于，还包括可执行的指令，以在接收所述确认输入之后，显示表示另一个所选对象定位于所述视频和/或音频内容项中的实例的另一组图像，并随后接收另一个确认输入。

3.如权利要求1所述的计算设备，其特征在于，所述指令是可执行的以将所述元数据与所述视频和/或音频内容项中所对应的对象捆绑在一起。

4.如权利要求1所述的计算设备，其特征在于，所述指令是可执行的以将所述元数据与所述视频和/或音频内容项分开地保存，并且将所述元数据与所述视频和/或音频内容项分开地发送到客户机。

5.如权利要求1所述的计算设备，其特征在于，所述对象描述符包括所述视频和/或音频内容项中的演员列表。

6.如权利要求1所述的计算设备，其特征在于，还包括可执行的指令以生成关系元数据信息，所述关系元数据信息是关于两个或多个对象二者出现在所述视频和/或音频内容项的帧中的所述视频和/或音频内容项中的位置的。

7.一种将视频内元数据与视频内容项中的一个或多个对象相关联的方法(300)，所述方法(300)包括：

接收视频内容项的输入(302)；

将所述视频内容项与一个或多个视频对象描述符进行比较(306)以定位所述视频内容项中的一个或多个对象的多个实例，每个视频对象描述符表示用于定位在所述视频内容项内的对象；

为位于所述视频内容项中的每个对象的每个实例生成视频内元数据(308)，对应的对象的所述视频内元数据包括所述对应的对象的身份以及所述对应的对象出现在所述视频内容项内的位置；

向显示设备输出包括一组图像的用户界面(314)，所述组图像表示所选对象定位于所述视频内容项中的所述多个实例；

通过所述用户界面接收确认用户输入(322)，所述确认输入包括用于由该组图像所表示的所述多个实例的单个确认输入，所述单个确认输入有关于所述所选对象的所述多个实例是否正确地位于所述视频内容项中；以及

仅当所述确认用户输入确认所选实例被正确地识别为包括所述所选对象时，将所述视频内元数据与所述所选对象的所述所选实例相关联。