CN114467125A

CN114467125A - 使用面部识别从视频内容中获取艺术家图像

Info

Publication number: CN114467125A
Application number: CN202080067828.2A
Authority: CN
Inventors: 杰弗里·斯科特; 阿尼什·瓦特阿卡维
Original assignee: Gracenote Inc
Current assignee: Gracenote Inc
Priority date: 2019-09-26
Filing date: 2020-09-18
Publication date: 2022-05-10
Anticipated expiration: 2040-09-18
Also published as: US11568678B2; US11568679B2; WO2021061511A8; WO2021061511A1; US20210097263A1; US20210295024A1; EP4035065A1; US11062127B2; US20210295023A1; US20240062581A1; US11790696B2; EP4035065A4; US20210295022A1; CN114467125B

Abstract

示例方法可以包括将在计算设备上实现的自动面部检测程序应用于与特定TV节目相关联的多个训练数字图像，以识别各自包含与特定TV节目相关联的特定人的单个面部的子多个训练数字图像。针对子多个训练数字图像确定的一组特征向量可以用来训练面部识别程序的计算模型，以用于识别任何给定数字图像中的特定人。面部识别程序和计算模型可以应用于与特定TV节目相关联的运行时数字图像，以识别运行时数字图像中的特定人以及几何坐标。运行时数字图像可以与识别特定人的信息和该特定人在运行时数字图像中的对应几何坐标一起存储。

Description

使用面部识别从视频内容中获取艺术家图像

相关申请的交叉引用

本申请要求于2020年12月19日提交的美国专利申请序列号16/720,200和于2019年9月26日提交的美国临时专利申请序列号62/906,238的优先权，其全部内容通过引用并入本文。

用法和术语

在本公开中，除非另有说明和/或除非特定上下文另有明确规定，否则术语“一”或“一个”表示至少一个，术语“该”表示至少一个。

发明内容

在一个方面中，公开了一种方法。该方法可以包括将在计算设备上实现的自动面部检测程序应用于与特定TV节目相关联的第一多个训练数字图像，以识别第一子多个训练数字图像，该第一子多个训练数字图像中的每个都包含与特定TV节目相关联的第一特定人的单个面部。该方法还可以包括基于针对第一子多个训练数字图像确定的第一组特征向量，训练计算机实现的面部识别程序的第一计算模型，以用于识别任何给定数字图像中的第一特定人。该方法还可以包括将面部识别程序与第一计算模型一起应用于与特定TV节目相关联的运行时数字图像，以从运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别运行时数字图像中的第一特定人。该方法还可以包括将运行时数字图像以及与识别所识别的第一特定人的信息和所识别的第一特定人在运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

在另一个方面中，可以包括一种系统，该系统包括一个或多个处理器，以及存储指令的存储器，该指令在由一个或多个处理器执行时使系统执行一组操作。该操作可以包括：将自动面部检测算法应用于与特定TV节目相关联的第一多个训练数字图像，以识别第一子多个训练数字图像，该第一子多个训练数字图像中的每个都包含与特定TV节目相关联的第一特定人的单个面部。该操作还可以包括基于针对第一子多个训练数字图像确定的第一组特征向量，训练自动面部识别算法的第一计算模型，以用于识别任何给定数字图像中的第一特定人。该操作还可以包括将自动面部识别算法与第一计算模型一起应用于与特定TV节目相关联的运行时数字图像，以从运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别运行时数字图像中的第一特定人。该操作还可以包括将运行时数字图像与识别所识别的第一特定人的信息和所识别的第一特定人在运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

在又一个方面中，非暂时性计算机可读介质可以具有存储在其上的指令，该指令在由系统的一个或更多个处理器执行时使系统执行一组操作。该操作可以包括：将自动面部检测算法应用于与特定TV节目相关联的第一多个训练数字图像，以识别第一子多个训练数字图像，该第一子多个训练数字图像中的每个都包含与特定TV节目相关联的第一特定人的单个面部。该操作还可以包括基于针对第一子多个训练数字图像确定的第一组特征向量，训练自动面部识别算法的第一计算模型，以用于识别任何给定数字图像中的第一特定人。该操作还可以包括将自动面部识别算法与第一计算模型一起应用于与特定TV节目相关联的运行时数字图像，以从运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别运行时数字图像中的第一特定人。该操作还可以包括将运行时数字图像与识别所识别的第一特定人的信息和所识别的第一特定人在运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

附图说明

图1A是示例图像内容识别系统的简化框图，其中能够实现各种所公开的原理。

图1B是另一示例图像内容识别系统的简化框图，其中能够实现各种所公开的原理。

图2是示例计算系统的简化框图，其中能够实现各种所公开的原理。

图3是示例方法的流程图。

图4是另一示例方法的流程图。

具体实施方式

I.概述

A.图像内容识别系统

内容提供者可以向最终用户提供各种形式的基于图像的内容，该内容包括视频内容和静止图像内容。内容提供者可以是最终用户的直接内容源，或者可以向一个或更多个内容分发服务机构(诸如广播公司)提供内容，该内容分发服务机构随后将所选择的内容传送到最终用户。内容可以包括数字和/或模拟的静止图像和/或视频图像。内容提供者的示例可以是向媒体分发服务机构提供媒体内容的媒体内容公司，该媒体分发服务机构随后将媒体内容传送到最终用户。最终用户可以付费订阅一项或更多项媒体分发服务机构或直接订阅一家或更多家媒体内容公司以用于内容传送，和/或可以(例如从至少托管一些免费内容以用于传送到最终用户的无线广播公司或公共互联网网站)免费接收至少一些内容。

内容提供者和/或内容分发服务机构可能对“标记”或以其他方式识别所传送的内容的某些视觉特征，以使得所识别的特征能够被调用以引起最终用户的注意或考虑感兴趣。引起对视觉特征的注意对于用于宣传目的的内容提供者和/或内容分发服务机构(诸如赞助商和/或产品广告以及节目内容宣传等)可能是有用的。引起对视觉特征的注意也可以是最终用户的增值服务的一部分。

特别感兴趣的可以是与内容节目(诸如TV节目或分组网络视频流媒体节目)相关联的人员的识别。例如，能够在节目的任意静止图像或视频帧中识别TV或流媒体节目的演艺成员以便显示与演艺成员有关的信息(包括数据和/或其他图像)可能是有价值的。在一个示例实施例中，在TV节目(诸如情景喜剧或戏剧)的广播或流式传输期间，可以显示当前出现在广播流中的一个或更多个演艺成员(例如演员)的插入图像以及某种形式的宣传文字或音频。其他示例也是可能的，诸如识别在那些人物出现的广播片段期间，以小侧面和/或插入图像显示的TV新闻节目的工作人物或其他人物。

虽然生成与TV节目广播或其他媒体内容传送活动或操作相关联的演艺人员、工作人员和/或其他人物的此类辅助显示可能存在许多有益的原因，但这样做的能力可能在一定程度上取决于快速和有效地识别所传送的媒体内容中的这些演艺人员、工作人员和/或其他人物的能力。原则上，可以手动搜索由媒体内容提供者(例如公司)存储和维护的媒体内容，以用于搜索特定人物，这些特定人物一旦在各种节目部分(例如视频帧、静止图像等)中被识别，就可以用包括图像中的几何坐标的识别信息进行标记，这些识别信息可以存储在与发现他们的特定内容相关联的元数据中。然而，在实践中，为传送而存储或维护的媒体内容可能非常庞大，从而使识别即使与所存储的媒体内容的一部分相关联的特定个人成为不切实际的大任务。因此，能够检查大量的媒体内容数据(例如视频帧和静止图像)，并自动识别与内容相关联的特定和/或具体人物(例如演艺人员、工作人员等)，以自动生成相关联的元数据(或其他辅助数据)将是有利的，该元数据记录识别所识别的人物的信息以及指定所识别的人物在媒体内容中的几何位置(例如直角坐标)的信息。

因此，本文描述了使用面部检测和面部识别来标记视频内容中的视觉和/或美学特征和/或图像的系统和方法的示例实施例。示例操作可以根据对TV节目或其他形式的广播或流媒体视频内容的应用进行说明。在计算设备上实现的面部识别应用程序可以被训练以识别与特定TV节目或其他形式的广播或流媒体视频相关联的特定人的面部。在训练之后，所训练的面部识别可以在运行时(可能是实时地)应用于与TV节目相关联的其他任意图像或视频片段，以便识别那些图像中的特定人。

训练可以涉及将与特定TV节目相关联的多个训练数字图像提供给在计算设备上实现的面部检测应用。面部检测应用可以用于从多个图像中识别和选择仅包含单个面部并且还已知包含特定人的所有那些图像。这样做有效地过滤掉包含多个面部的所有数字训练图像。并且如果已知所有图像都包含特定人，那么所有选择的训练数字图像将因此只是特定人的图像。然后可以将所选择的数字训练图像输入到生成对应于每个数字训练图像的相应的特征向量的特征向量提取应用。然后特征向量可以用来训练面部识别程序的计算模型。所训练的模型可以与将其与特定TV节目和特定人的标识符相关联的信息一起存储在模型数据库中。类似的训练过程可以应用于与和特定TV节目相关联的一个或更多个附加人中的每个都相关联的数字训练图像。这样，可以填充与和特定TV节目相关联的一个或更多个人中的每个都相关联的模型数据库。

在运行期间，数字运行时图像可以呈现给面部检测程序，在运行时模式下，该面部检测程序首先隔离数字运行时图像仅包含一个面部的区域或子区域。也就是说，虽然给定的数字运行时图像可能包含多个面部，但面部检测程序会识别各个面部，并确定包含各个面部的区域在图像中的坐标。数字运行时图像的每个区域都可以被输入到面部识别应用，该面部识别应用在运行时模式下查询与特定TV节目相关联的模型的模型数据库，并针对每个检测到的面部确定哪个模型提供了最佳的“适合”或识别。如果给定的检测到的面部(出现在数字运行时图像的给定子区域中)的最佳适合产生了大于预定阈值的概率，则检测到的面部可以视为以最佳匹配模型识别的人的面部。对给定的数字运行时图像的所有检测到的面部重复该过程，提供了对每个所识别的面部的自动识别，以及在图像中每个面部的位置的几何坐标。数字运行时图像连同识别和位置信息一起可以存储在标记图像的数据库中。通过对与特定TV节目和/或其他TV节目相关联的多个数字运行时图像以及对与节目相关联的相同或其他人员重复此过程，能够建立标记数据库，以包含多个TV节目和多个相关联的人员(例如演艺人员、工作人员等)的多个数字运行时图像的识别信息。

出于上述目的，该自动化过程可以有利地提供可以支持大量标记图像的图像。特别是，训练和运行时识别和识别过程的自动化使得大量图像能够以自动化和实用的方式被标记。下面通过示例描述方法和系统的示例实施例的细节。

II.架构

A.图像内容识别系统

图1A是一个示例图像内容识别系统100的简化框图。图像内容识别系统100能够包括各种部件，这些部件可以实现为一个或更多个计算设备或在一个或更多个计算设备中实现。因此，图像内容识别系统100的部件本身可以是或包括硬件、软件、固件或它们的组合。图像内容识别系统100的非限制性示例部件包括数字图像数据库102、面部检测应用104、特征提取应用106、模型训练应用108、模型数据库110、运行时数字图像112、面部识别应用114以及内容标记数字图像数据库116。在图1A的图示中，数据输入和输出(诸如运行时数字图像112和内容标记数字图像数据库116)被包括为系统的部件。在其他表示中，这些可能被认为是与系统本身分开的，而且可能被视为被系统消耗、发出或作用的元件。

图像内容识别系统100还能够包括连接图像内容识别系统100内的各种部件的一个或更多个连接机构。举例来说，连接机构被描绘为部件之间的箭头。箭头的方向可以指示信息流的方向，尽管这种解释不应被视为限制。如下所述，图像内容识别系统100可以在训练模式和运行时模式下操作。为了说明目的，用于训练操作的连接机构用虚线描绘，而用于运行时操作的连接机构用实线描绘。

在本公开中，术语“连接机构”是指连接并促进两个或更多个部件、设备、系统或其他实体之间的通信的机构。连接机构能够包括相对简单的机构(诸如电缆或系统总线)和/或相对复杂的机构(诸如基于分组的通信网络(例如互联网))。在一些情况下，诸如在连接至少部分是无线的情况下，连接机构能够包括无形介质。在本公开中，连接能够是直接连接或间接连接，后者是穿过和/或贯穿一个或更多个实体(诸如路由器、交换机或其他网络设备)的连接。同样，在本公开中，通信(例如数据的传输或接收)能够是直接或间接通信。

如上所述，图像内容识别系统100和/或其部件能够采取计算系统或计算设备的形式、能够是其一部分、或能够包括或包含计算系统或计算设备。

图1B是图像内容识别系统120的另一示例实施例的简化框图。图像内容识别系统120在某些方面类似于图1A的示例图像内容识别系统100。与图像内容识别系统100一样，图像内容识别系统120的部件本身可以是或包括硬件、软件、固件或它们的组合。图像内容识别系统120的非限制性示例部件包括数字图像数据库102、面部检测应用104、特征提取应用106、运行时数字图像112、特征向量数据库122、比较分析应用124以及内容标记数字图像数据库116。如图1A所示，图像内容识别系统120的数据输入和输出(诸如运行时数字图像110和内容标记数字图像数据库116)被包括为系统的部件。在其他表示中，这些可能被认为是与系统本身分开的，而且可能被视为被系统消耗、发出或作用的元件。

图像内容识别系统120还能够包括连接图像内容识别系统120内的各种部件的一个或更多个连接机构。与图像内容识别系统100一样，图像内容识别系统120可以在训练模式和运行时模式下操作。为了说明目的，用于训练操作的连接机构用虚线描绘，而用于运行时操作的连接机构用实线描绘。

与图像内容识别系统100一样，图像内容识别系统120和/或其部件能够采取计算系统或计算设备的形式、能够是其一部分、或能够包括或包含计算系统或计算设备。

在示例实施例中，图像内容识别系统(诸如但不限于系统100和120)可以由媒体内容提供者操作，以便为从提供者获取媒体并将其分发给最终用户的媒体分发者增加价值。附加地或替代地，媒体分发者可以操作图像内容识别系统以为从媒体内容提供者获得的媒体内容增加价值。其他实施方式和实施例是可能的。应当理解，本文描述的示例图像内容识别系统的示例操作并非旨在限制示例系统可以实现和/或操作的背景。

B.计算系统

图2是示例计算系统(或计算设备)200的简化框图。计算系统200能够配置为执行和/或能够执行一个或更多个动作(诸如本公开中描述的动作)。如图所示，计算设备200可以包括处理器202、存储器204、网络接口206和输入/输出单元208。举例来说，部件通过总线210通信连接。总线还可以从电源(未示出)供电。

处理器202可以包括一个或更多个通用处理器和/或一个或更多个专用处理器(例如数字信号处理器(DSP)或图形处理单元(GPU))。处理器202可以配置为执行包含在存储器204中的计算机可读指令和/或如本文所述的其他指令。

在中，存储器204可以包括固件、内核和应用以及存储器的其他形式和功能。如所描述的，存储器204可以存储可以由处理器202执行的机器语言指令(诸如编程代码或非暂时性计算机可读存储介质)，以便执行实现如本文所述的方法、场景和技术的操作。在一些示例中，存储器204可以使用单个物理设备(例如一个磁存储单元或盘存储单元)来实现，而在其他示例中，存储器204可以使用两个或更多个物理设备来实现。在一些示例中，存储器204可以包括用于如本文所述的一个或更多个机器学习系统和/或一个或更多个机器学习模型的存储器。

在一些情况下，计算系统200能够响应于接收到输入(诸如经由通信接口206和/或用户接口208接收到的输入)来执行程序指令。数据存储单元204还能够存储其他数据(诸如本公开中描述的任何数据)。

通信接口206能够允许计算系统200根据一个或更多个协议与另一个实体连接和/或通信。在一个示例中，通信接口206能够是有线接口(诸如以太网接口)。在另一个示例中，通信接口206能够是无线接口(诸如蜂窝或WIFI接口)。

如果适用，用户接口208能够允许计算系统200与计算系统200的用户之间的交互。因此，用户接口208能够包括输入部件(诸如键盘、鼠标、触敏面板和/或麦克风)和/或输出部件(诸如显示设备(其例如能够与触控面板组合使用)和/或扬声器)，或者向这些输入部件和/或这些输出部件提供接口连接。在一个示例实施例中，客户端设备212可以提供用户接口功能。

计算系统200还能够包括连接计算系统200内的各种部件的一个或更多个连接机构。例如，如图2所示，计算系统200能够包括连接计算系统200的部件的连接机构210。

网络接口206可以向计算系统200提供诸如到互联网或其他公共和/或专用网络的网络连接。网络可以用于将计算系统100与一个或更多个其他计算设备(诸如服务器或其他计算系统)连接。在一个示例实施例中，多个计算系统可以进行通信连接，并且示例方法可以以分布式方式实现。

客户端设备212可以是包括交互式显示(诸如GUI)的用户客户端或终端。客户端设备212可以用于用户访问计算设备200的程序、应用和数据。例如，GUI可以用于与本文描述的程序和应用进行图形交互。在一些配置中，客户端设备212本身可以是计算设备；在其他配置中，计算设备200可以包含客户端设备或配置为作为客户端设备进行操作。

如上文所引用和下文更详细地描述的，数据库214可以包括用于输入和/或输出数据的存储器(诸如数字图像数据库102、运行时数字图像112、内容标记的数字图像数据库116和/或特征向量数据库122)。

在一些配置中，计算系统200能够包括上述部件中的一个或更多个，并且能够以各种方式设置。例如，计算机系统200能够配置为例如以一种或更多种服务器-客户端类型布置操作的服务器和/或客户端(或者可能是服务器集群和/或客户端集群)。

III.示例操作

示例图像内容识别系统100和120以及/或者其部件能够配置为执行和/或能够执行一个或更多个动作。现在将描述这些和相关特征的示例。

通常，图像内容识别系统100和120二者都可以在两种模式下操作：训练模式和运行时模式。在训练模式下，图像内容识别系统100和120可以被“训练”以从特定面部或特定人的面部的已知图像中识别特定面部或特定人的面部。在运行时模式下，图像内容识别系统100和120可以操作以将图像中的面部识别成在训练模式下学习的面部之一。同样在运行时模式下，图像内容识别系统100和120可以操作以确定一个或更多个所识别的面部在图像中的几何坐标，然后将具有标识图像中识别的一个或更多个人员的信息或数据的图像连同相关联的所识别的面部的确定坐标一起存储。

将在两者执行的共同操作的方面以及在根据两个示例实施例的不同方面而不同的操作的方面来对两个实施例的示例操作进行描述。此外，举例来说，将在电视(TV)节目的方面对操作进行描述。然而，操作也可以被描述和/或应用于除TV或TV节目外的其他类型的媒体内容或“实体”。非限制性示例可包括体育赛事、电影和用户托管的和/或用户生成的内容(例如

)。内容传送模式的非限制性示例可以通过基于网络的广播或流式传输(诸如通过互联网或其他公共分组网络或者免费的空中广播)。最终用户访问可以是有线和/或无线的。

图像内容识别系统100和120在训练模式下的操作通常都可以涉及由图像内容识别系统100和/或120的一个或更多个部件执行或与其一起执行的多个步骤或过程。根据示例实施例，与一个或更多个特定电视(TV)节目相关联的数字图像(例如内容)可以存储在数字图像数据库102中。这里可能存在不止一个这样的数据库，并且可能存在与一个或更多个特定TV节目相关联的数字图像的其他源。用于训练的图像有时可以被称作“训练图像”。应当理解，数字图像可以与除TV或TV节目外的其他类型的媒体实体相关联。

在示例实施例中，TV节目(或其他类型的媒体实体)可以被分配标识符并且可以具有与该标识符相关联的各种人或人员，(例如情景喜剧或戏剧的)演艺成员和/或工作成员、(例如新闻或娱乐报道演出/节目的)广播成员和/或工作成员等。此外，TV节目可以现场直播和/或流式直播或以预先录制的形式。也可以使用其他传送手段和/或模式。

与给定特定TV节目相关联的每个数字图像可以包括或包含与给定特定TV节目相关联的人或人员的一个或更多个面部。例如，数字图像可以是或包括特定TV节目的一个或更多个演艺成员的面部。举例来说，在训练模式下的操作可以通过识别给定特定TV节目的演艺成员的方式进行描述。应当理解，操作例如也可以应用于与给定的特定TV节目和/或不止一个TV演出相关联的其他人或人员(诸如导演、制片人和/或其他工作成员)。

初始动作可以涉及向面部检测应用104提供与给定特定TV节目相关联的多个数字图像，如图1A和图1B两者中由从数字图像数据库102到面部检测应用104的虚线箭头所指示的。对于给定特定TV演出的每个工作成员来说，面部检测应用104可以识别仅包括一个面部的数字图像的子集。例如，在该初始动作中，被确定包括或包含两个或更多个面部(例如两个或更多个演艺成员的面部)的所有数字图像在训练中都可以不再考虑。在示例实施例中，面部检测应用104可以包括配置为执行已知或定制开发的面部检测算法的计算机可执行指令。用于已知面部检测算法的计算机可执行指令可以作为开放源代码和/或作为可商购的程序来获得。

根据示例实施例，数字图像数据库102中的每个数字图像可以与节目标识符(ID)一起存储或与之相关联地存储，使得可以基于节目ID来选择与给定特定TV节目相关联的数字图像。还根据示例实施例，每个数字图像可以与一个或更多个个人ID一起存储或与之相关联地存储，该一个或更多个个人ID指示数字图像中已知的一个或更多个演艺成员。此外，每个演艺成员可以具有或被分配一个永久或唯一的个人ID，该个人ID可以用于在系统中(以及可能在系统外)呈现的所有数字图像和TV节目中标识演艺成员。

根据该示例操作，处于训练模式下的面部检测应用104可以针对给定特定演出的每个相应的演艺成员标识仅包括或包含相应的演艺成员的数字图像(即仅一个面部)的子集。因此，将该操作应用于所有演艺成员或演艺成员中的至少一个以上可以为应用该操作的每个演艺成员生成或创建这种数字图像的子集。因此，给定子集对应于数字图像的集合，这些数字图像中的每个都仅包括或包含一个面部，并且所有这些数字图像都是同一演艺成员的面部。可以根据演艺成员的个人ID和给定特定TV节目的节目ID来识别每个子集。

在下一个训练动作中，可以向特征提取应用106输入每个子集，该向特征提取应用可以针对子集中的每个数字图像生成特征向量(“提取特征”)。众所周知，特征向量可以包括一组数字(提取出的特征)，该组数字以某种方式量化数字(或数字化)图像中表示的面部的特性和/或属性。在示例实施例中，特征向量可以包括128个数字，尽管其他特征向量维度(例如具有更多或更少的数字的特征向量维度)也是可能的。在实践中，两个或更多个相似的面部特征向量可能对应于相同或相似的面部。两个特征向量的相似程度可以通过计算两个特征向量的内积(“点积”)来确定。例如，也可以使用或替代地使用特征向量之间的其他距离度量，诸如欧几里得和/或余弦距离。(点积可以被认为等同于归一化余弦距离。)因此，被确定为相同或足够相似的两个或更多个特征向量可以对应于相同个人的数字图像。在示例实施例中，特征提取应用106可以包括配置为执行已知或定制开发的特征提取算法的计算机可执行指令。用于已知特征提取算法的计算机可执行指令可以作为开放源代码和/或作为可商购的程序来获得。

根据示例实施例，特征提取应用106的输出可以是针对与给定特定TV节目相关联的每个相应的演艺成员的特征向量的相应组。与相应的演艺成员的数字图像的子集相关联的同一节目ID和个人ID可以分配给相应的演艺成员的特征向量子集或与之相关联。

从此开始，图像内容识别系统100的示例训练模式操作在某些方面不同于图像内容识别系统120的示例训练模式操作。

在图像内容识别系统100的示例训练模式操作中，由特征提取应用106针对每个相应的演艺成员生成的一组特征向量可以输入到模型训练应用108，如从特征提取应用到模型训练应用108的虚线箭头所指示的。模型训练应用108可以是统计模型或其他分析框架，其可以被调整(“训练”)以评估稍后提供的特征向量对应于与用于训练模型的特征向量的相应组相关联的面部相同的面部的可能性。在示例实施例中，模型可以对应于或包括人工神经网络(ANN)或其他机器学习算法。一旦针对给定TV节目的相应的演艺成员训练了模型，该模型就可以存储在模型数据库110中，如从模型训练应用到模型数据库110的虚线箭头所指示的。可以针对与给定TV节目的每个相应的演艺成员对应的该组特征向量执行刚刚描述的模型训练。一旦所有经训练的模型都存储在模型数据库110中，图像内容识别系统100针对给定TV节目的训练就可以被认为是完成的，或者如下所述，至少可用于运行时操作中的应用。在示例实施例中，模型数据库110可以不时地进行更新或修改，例如当新的和/或附加的数字图像变得可用和/或根据上述动作被处理时。

在图像内容识别系统120的示例操作中，由特征提取应用106生成的一组特征向量可以存储在特征向量数据库122中，如从特征提取应用到特征向量数据库122的虚线箭头所指示的。一旦生成并存储了给定TV节目的相应的演艺成员的一组特征向量，如刚刚描述的，图像内容识别系统120针对给定TV节目的相应的演艺成员的训练可以被认为是完成的，或者如下所述，至少可用于运行时操作中的应用。在示例实施例中，特征向量数据库122可以不时地进行更新或修改，例如当新的和/或附加的数字图像变得可用和/或根据上述动作进行处理时。

可以注意到，给定组中的每个特征向量可以与给定TV节目的相同的给定演艺成员的不同数字图像相关联。例如，给定演艺成员的数字图像的子集可以对应于在给定TV节目的背景之内或之外的不同设置或环境中捕获的图像。因此，给定组中的相同演艺成员能够存在不同的特征向量。对于图像内容识别系统120，特征向量数据库122中的相同的演艺成员也可能有不同的特征向量。

对于图像内容识别系统100和图像内容识别系统120二者来说，在运行时模式下的初始操作是相同的。

图像内容识别系统100和图像内容识别系统120两者在运行时模式下的操作可以包括将(例如在模型数据库110中)存储的训练模型或(例如在特征向量数据库122中)存储的训练数据应用于与给定特定TV节目相关联的未知的和/或以前未检查的和/或未分析的数字图像(在本文称为“运行时”图像)，以便识别运行时图像中的面部，并生成与演艺成员的身份以及他们的面部在运行时图像中相应的几何坐标相关的信息。可以通过仅考虑从运行时图像110检索或由其发送的一个运行时图像作为到此时在运行时模式下进行操作的面部检测应用104的输入来对操作进行描述。给定的运行时图像可以包括或具有将给定运行时图像与特定TV节目相关联的标识符。例如，在随后的运行时操作中可以携带或引用该标识符，以便将识别操作的结果与特定TV节目相关联。

根据示例实施例，面部检测应用104可以使用一种或另一种已知技术检测与特定TV节目相关联的给定运行时图像中的各个面部。在这样做时，面部检测应用104还可以有效地隔离或裁剪给定运行时图像的不同区域，其中每个区域包含或包括仅一个面部。例如，每个区域可以对应于框住单个面部的图像像素的矩形分组。矩形区域可以由两个正交方向(例如垂直方向和水平方向)中的每个方向上的多个像素以及该区域的给定运行时图像中的参考像素(或点)的像素(或其他几何)坐标来定义。例如，参考像素可以对应于矩形区域一个角的给定运行时图像中的像素坐标。可以使用几何坐标和/或参考点的其他形式。应当注意，与在面部检测步骤之后选择的仅包含一个面部的训练图像不同，运行时图像可以包括多个面部。

面部检测应用104的输出可以提供给此时也在运行时模式下操作的特征提取应用106。输出可以是给定的运行时图像和指定被识别或确定为各自包括仅一个面部的区域的位置和边界的信息。利用给定运行时图像和坐标信息，特征提取应用106可以生成与每个相应的区域(或每个相应的区域内的面部)相关联的相应的面部特征向量(例如提取特征)。

根据示例实施例，特征提取应用106在运行时模式下的输出可以是一组一个或更多个特征向量，这些特征向量各自与由面部检测应用104识别的给定运行时图像的区域中的相应之一相关联。在本文中，在运行时生成的特征向量可以被称为“运行时特征向量”，尽管它们通常以与由特征提取应用106在训练模式操作期间生成的那些特征向量相同的方式产生。在运行时模式下生成的每个运行时特征向量也可以与对应区域的几何坐标相关联。然后来自特征提取应用106的运行时操作的输出特征向量可以作为输入提供给一种或另一种形式面部识别的，以便确定运行时图像中检测到的面部中的一个或更多个是否可以利用例如来自训练数据库之一的已知面部来识别(认出)。

从此开始，示例运行时操作在图像内容识别系统100与图像内容识别系统120之间的某些方面有所不同。首先对图像内容识别系统100的示例运行时操作进行描述。

根据示例实施例，在图像内容识别系统100的示例运行时操作中，来自特征提取应用106的一组一个或更多个运行时特征向量可以输入到面部识别应用114，如从特征提取应用106到面部识别应用114的实线箭头所示。如上所述，该组运行时特征向量将凭借与给定运行时图像相关联的标识符与特定TV节目相关联，并且该组的每个运行时特征向量将关联(例如具有)给定运行时图像中的相应的几何坐标。

面部识别应用114可以使用特定TV节目的标识符来从模型数据库110检索与特定TV节目相关联的一个或更多个模型。在当前说明性示例中，一个或更多个检索到的模型中的每个都可以对应于特定TV节目的演艺成员之一的面部。(如上所述，可以使用或包括与TV节目相关联的个人的其他角色，诸如工作人员、制作人等；并且可以使用或包括其他类型的媒体实体。)利用检索到的模型，面部识别应用114然后可以尝试根据针对相应的演艺成员的面部的检索到的模型来利用特定TV节目的相应的演艺成员识别在给定运行时图像中并与该组的相应的运行时特征向量相关联的每个面部。面部识别应用114可以应用于该组的每个运行时特征向量，从而识别或至少尝试识别在给定运行时图像中检测到的每个面部。

面部识别应用114可以使用或基于一种或另一种已知技术或算法。该面部识别应用还可以使用或基于现有的开放源和/或商业软件或应用程序。附加地或替代地，面部检测应用114可以完全或部分地在内部定制开发。可以在面部检测应用114中使用的面部识别算法或技术的非限制性示例可以包括机器学习模型、统计学习模型以及包括深度网络和/或深度学习模型的人工神经网络。

对于每个运行时特征向量来说，面部检测应用114可以确定与检索到的模型的一个或更多个相匹配的统计可能性，并且提供一个或更多个确定的可能性中的每一个的最大值作为最可能(最佳)的匹配。如果最可能的匹配具有大于阈值的计算可能性，则可以认为已经做出了对与运行时特征向量相关联的面部与与最佳匹配模型相关联的面部的识别。在示例实施例中，可以使用0.6(60％)的阈值来进行匹配。也可以使用其他阈值和/或标准。

在某些情况下，与给定运行时图像相关联的多于一个的运行时特征向量可能与同一检索模型匹配，这表明给定运行时图像中检测到的多于一个的面部与同一演艺成员的面部匹配。例如，当特定演艺成员的面部在给定运行时图像中出现不止一次时，就可能出现这种情况。在这种情况下，面部检测应用114例如可以从给定运行时图像中仅识别出与与匹配模型相关联的特定演艺成员最佳匹配的面部，而将运行时图像中也与特定演艺成员匹配的其他检测到的面部留为“未识别的”。也可以使用处理给定运行时图像中相同演艺成员的多个识别的其他方法。例如，高于匹配相同演艺成员的模型的阈值概率的多个识别中的每个都可以被认为是对相同演艺成员的识别。

通过对每个运行时特征向量执行面部识别，给定运行时图像中每个检测到的面部可以用给定特定TV节目的演艺成员的面部进行识别。此外，由于给定运行时图像中的每个面部将具有由面部检测应用104确定的运行时图像中相关联的几何坐标，因此面部识别应用114的输出可以包括给定运行时图像以及利用相关联的特定TV的演艺成员识别运行时图像中的每个面部的信息、以及指定每个所识别的面部在运行时图像中的位置的几何坐标。信息还可以包括给定特定TV节目的标识符。识别信息和坐标可以被认为成“标记”运行时图像的内容。然后可以将运行时图像和该相关联的信息存储在内容标记数字图像数据库116中。这是由从面部识别应用114到内容标记数字图像数据库116的实线箭头指示的。

接下来对图像内容识别系统120的示例运行时操作进行描述。

根据示例实施例，在图像内容识别系统120的示例运行时操作中，来自特征提取应用106的一组一个或更多个运行时特征向量可以输入到比较分析应用124，如从特征提取应用106到面部识别应用124的实线箭头所指示的。再次，如上所述，该组运行时特征向量将凭借与给定运行时图像相关联的标识符与特定TV节目相关联，并且该组的每个运行时特征向量将关联(例如具有)给定运行时图像中的相应的几何坐标。

比较分析应用124可以将每个运行时特征向量与特征向量数据库122中的一些或全部特征向量进行比较，以便利用由特征向量数据库122中已知面部的各自对应的特征向量表示的所述已知面部识别给定运行时图像中的面部中的一个或更多个(由它们各自对应的特征向量表示)。可以使用一种或更多种已知分析技术对每个运行时生成的特征向量执行比较分析。例如，对于每个运行时生成的特征向量来说，可以针对特征向量数据库122中的所有或一些特征向量计算内积，并且结果的最大值用于识别最可能的匹配。如果最可能匹配大于阈值，则可以认为已经利用与特征向量数据库122中的最佳匹配特征向量相关联的面部对与运行时特征向量相关联的面部进行识别。在示例实施例中，0.6(60％)的阈值可以用于归一化内积。也可以使用其他阈值和/或标准。

类似于图像内容识别系统100的运行时操作，图像内容识别系统120的运行时操作有时可能导致与给定运行时图像相关联的多于一个的运行时特征向量匹配从特征向量数据库122中检索到的同一特征向量，这表示在给定运行时图像中检测到的多于一个面部与同一演艺成员的面部相匹配。在这种情况下，比较分析应用124例如可以利用与来自特征向量数据库122的匹配特征向量相关联的特定演艺成员从给定运行时图像中识别出仅最佳匹配的面部，而将运行时间图像中也与特定演艺成员匹配的其他检测到的面部留为“未识别的”。也可以使用处理给定运行时图像中相同演艺成员的多个识别的其他方法。例如，多个识别中的每一个都可以被视为对同一演艺成员的识别。

也可以使用其他形式的比较分析。例如，可以为每个运行时特征向量计算统计最大似然分析，以识别特征向量数据库122中的最佳匹配特征向量。图1B中从特征向量数据库108到比较分析应用124的实线箭头可以被用来表示在运行时操作期间比较分析应用124对特征向量数据库122的访问。附加和/或替代技术可以包括或需要使用机器学习模型(例如涉及或基于神经网络的机器学习模型)。

通过对每个运行时生成的特征向量执行比较分析，可以用给定特定TV节目的演艺成员的面部来识别运行时图像中的每个面部。此外，由于运行时图像中的每个面部将具有由面部检测应用104确定的运行时图像中的相关联的几何坐标，因此比较分析应用112的输出可以包括运行时图像以及用相关联的特定TV的演艺成员识别运行时图像中的每个面部的信息、以及指定每个所识别的面部在运行时图像中的位置的几何坐标。信息还可以包括给定特定TV节目的标识符。识别信息和坐标可以被认为是“标记”运行时图像的内容。然后可以将运行时图像和该相关联的信息存储在内容标记数字图像数据库116中。

对于图像内容识别系统100和120两者来说，标记信息(即特定TV演出的标识符、运行时图像中演艺成员的一个或更多个标识符、以及演艺成员的面部在运行时图像中的坐标)可以被认为是与运行时图像相关联的“元数据”。因此，内容标记数字图像可以连同上述元数据一起被视为运行时数字图像。一旦存储在内容标记数字图像数据库116中，就可以认为给定运行时图像的运行时处理已完成。应当理解，运行时数字图像的已完成运行时处理仍可以不时进行更新和/或修改，例如以识别在先前匹配过程中可能没有被匹配的先前未识别的面部。

根据示例实施例，可以以多种方式使用内容标记的数字图像。例如，在特定TV节目的节目广播期间的目标数字图像显示可以显示来自特定TV节目的图像以及针对图像中所示的演艺成员的注释、评论或叠加图形。因此，相关联的元数据可以用于针对演艺成员身份及其在图像中的位置定制注释、评论或图形。其他用途也是可能的。

通常，可能存在大量的TV节目，对于它们来说可能需要内容标记的数字图像的可用性。每个节目可以具有大量相关联的图像和大量演艺成员。至少出于这些原因，以与可能的TV节目数量和可能的演艺成员数量相匹配的规模生成或创建内容标记的数字图像能够是一项非常昂贵和/或不切实际或乏味的任务。有利地，根据示例操作或其他类似变体操作的图像内容识别系统的示例实施例能够以高效且可扩展的方式自动化该过程。因此，示例实施例可以大规模和实际规模地生成或产生并提供内容标记数字图像。

在一些实施例中，运行时操作可以实时执行，因为媒体内容正在被广播或流式传输。例如，在对应于TV节目的视频内容的流式传输期间，可以处理一个或更多个单独的视频帧，以识别TV节目的演艺成员并如上所述地标记这些帧。然后，当向最终用户显示一个或更多个视频帧时，标记可以用于显示与TV节目有关的宣传信息或其他信息。实时完成的标记也可以用于更新现有的内容标记数据库。在其他实施例中，基于流式传输与标记数据库的已知内容的协调，现有的内容标记数据库可以用于在视频帧被传送到最终用户时创建与该视频帧相关联的宣传或其他信息显示。其他示例用途情况也是可能的。

根据示例实施例，图像内容识别系统120的特征向量数据库122中的单独的特征向量的存储可以用于在运行时操作期间直接扩展搜索和识别的范围。具体而言，如上所述，给定组中的每个特征向量可以与TV节目的相同给定演艺成员的不同数字图像相关联，使得在存储特征向量数据库122中的给定组中，相同演艺成员能够存在不同的特征向量。然而，特征向量数据库122可以被概括，使得特征向量与特定TV节目的关联可以用作选择标准或选择滤波器的一种形式。也就是说，给定演艺成员的特征向量的组可以被概括为识别给定演员(或其他类型的演艺成员、工作成员等)，与给定演艺成员可能与之相关联的一个或更多个特定TV节目、电影、演出或角色无关。例如，训练特征向量(例如，训练包含给定演艺成员的数字图像)的源可能与给定演艺成员参与或已经参与的一些或所有TV节目、电影等相关联。给定演艺成员的每个训练特征向量仍然可以与一个或另一个特定TV节目、电影、演出等相关联地存储在特征向量数据库122中。但是给定演艺成员的训练特征向量可以用作给定演艺成员的特征向量的全局数据库，而特征向量与相应的TV节目、电影等的关联可以在运行时期间作为选择标准来应用。这样，特征向量数据库122可以用作给定演艺成员的特征向量的全局数据库，并且在运行时操作中被搜索而不用考虑与给定TV节目的关联。特征向量数据库122作为全局数据库的使用也可以应用于其他演艺成员、工作成员或人物。

搜索和/或选择标准可以在全局应用，或者在某些受限的基础上应用。例如，如果没有应用选择标准，则搜索可以被认为是全局的，以至于运行时特征向量可以与特征向量数据库122中的特定个人一起被识别，而不考虑任何特定TV节目或其他关联。相反，在运行时限制对特定TV节目的选择可以提供与特征向量与TV节目的假定关联相关的上述相同的功能。也可以应用其他选择标准组合，例如两个或更多个特定TV节目。

同样根据示例实施例，图像内容识别系统100也可以被扩展用于全局(或部分受限)搜索和识别。在一个示例实施例中，这可以通过将训练特征向量保留在的数据库(诸如特征向量数据库122)中并且为特征向量的每个新选择构建和/或训练新模型来实现。例如，根据两个或更多特定TV节目或电影选择的给定演员的特征向量可以用于训练给定演员和所选择的节目的模型。然后可以在运行时以上述方式应用模型。每组新的选择标准都将与其自己的模型相关联。

图3示出了示例方法300的流程图，该示例方法可以由图像内容识别系统(诸如图像内容识别系统100)执行。示例方法300可以以存储在非暂时性计算机可读介质中的计算机可读指令来实现，并且由系统的一个或更多个处理器执行。在一个示例实施例中，指令在由系统的一个或更多个处理器执行时可以使系统执行该方法。在仅与一个TV节目相关联的一个人的训练和运行时识别的方面来对示例方法300进行描述。鉴于以上描述，并且如进一步详述的，应当理解，示例方法能够直接扩展到与TV节目相关联的多个人(例如演艺成员)以及多个TV节目。下面的描述是指涉及多个操作的计算设备。应当理解，对计算设备的多次引用可以指在一些或所有操作中的相同计算设备，或者在一些或所有操作中的不同计算设备。

在框302，在计算设备上实现的自动面部检测程序可以应用于与特定TV节目相关联的第一多个训练数字图像，以便识别第一子多个训练数字图像，该第一子多个训练数字图像中的每个都包含与特定TV节目相关联的第一特定人的单个面部。在一个示例实施例或示例用法中，第一特定人可以是特定TV节目的演艺成员或工作成员。第一多个训练数字图像可以被认为是上述意义上的训练图像。

在框304，针对第一子多个训练数字图像确定的第一组特征向量可以用来训练计算机实现的面部识别程序的第一计算模型，以用于识别任何给定数字图像中的第一特定人。

在框306，可以将面部识别程序连同第一计算模型一起应用于与特定TV节目相关联的运行时数字图像，以从运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别运行时数字图像中的第一特定人。

最后，在框308，可以将运行时数字图像与识别第一特定人的信息和第一特定人在运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

根据示例实施例，上述操作中的一些或全部可以应用于与特定TV演出相关联的第二特定人，和/或应用于具有不同(可能一些或全部相同)的相关联的人员(例如工作成员)的另一个TV节目。例如，可以将自动面部检测程序应用于第二多个训练数字图像以生成第二子多个训练数字图像，并且针对第二子多个训练数字图像确定的第二组特征向量可以用于训练面部识别程序的第二计算模型，以用于识别任何给定数字图像中的第二特定人。随后可以将面部识别程序与第二计算模型一起应用于与特定TV节目相关联的另外的运行时数字图像，以便从另外的运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别另外的运行时数字图像中的第二特定个人。最后，可以将另外的运行时数字图像与识别第二特定人的信息和第二特定人在运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

根据示例实施例，第一多个训练数字图像和第二多个训练数字图像可以至少部分重叠。

根据示例实施例，运行时数字图像和另外的运行时数字图像可以是相同的公共运行时数字图像。在这种情况下，(i)识别第一特定个人的信息和第一特定个人在运行时数字图像中的对应几何坐标以及(ii)识别第二特定个人的信息和第二特定个人在另外的运行时数字图像中的对应几何坐标可以与公共运行时数字图像一起存储。

进一步根据示例实施例，方法300可能需要确定第一组特征向量，其中第一组特征向量中的每个特征向量对应于第一子多个训练数字图像中的相应一个。

进一步根据示例实施例，方法300可能需要将第一计算模型连同特定TV节目的标识符和第一特定个人的标识符一起存储在面部识别程序的计算模型的数据库中。

根据示例实施例，将面部识别程序连同第一计算模型应用于与特定TV节目相关联的运行时数字图像可能需要运行时数字图像中与相应的几何坐标一起检测到的一个或更多个面部中的至少一个相对应的运行时特征向量。面部识别程序可以连同与特定TV节目相关联的一个或更多个存储的计算模型(包括第一计算模型)一起应用于运行时特征向量。然后可以确定，将面部识别程序连同第一计算模型一起应用于运行时特征向量产生的概率超过阈值，并且大于将面部识别程序连同与特定TV节目相关联的任何其它一个或更多个存储的计算模型一起应用而产生的概率。

根据示例实施例，计算机实现的面部识别程序和自动面部检测程序都可以在相同的计算设备上实现，或者均可以在不同的计算设备上实现。

根据示例实施例，示例方法300可能进一步需要将面部识别程序与第一计算模型一起应用于与特定TV节目相关联的附加运行时数字图像，以从附加运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中再次识别附加运行时数字图像中的第一特定人，以及然后将附加运行时数字图像与识别再次识别的第一特定人的信息和所再次识别的第一特定人在附加运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

根据示例实施例，示例方法300可以进一步需要将自动面部检测程序应用于与另外的特定TV节目相关联的第三多个训练数字图像，以识别第三子多个训练数字图像，该第三子多个训练数字图像中的每个都包含与另外的特定TV节目相关联的第三特定人的单个面部。然后，基于针对第三子多个训练数字图像确定的第三组特征向量，训练面部识别程序的第三计算模型，以用于识别任何给定数字图像中的第三特定人。然后可以将面部识别程序与第三计算模型一起应用于与另外的特定TV节目相关联的另外的运行时数字图像，以便从另外的运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别另外的运行时数字图像中的第三特定人。最后，另外的运行时数字图像可以连同识别所识别的第三特定人的信息和所识别的第三特定人在另外的运行时数字图像中的对应几何坐标一起存储。

如所描述的示例方法300需要训练模式和运行时模式两者的操作。替选版本主要只考虑运行时操作，而训练模式操作被认为是先前已执行的。示例方法300的这个版本可以通过以下操作进行描述。

首先，接收与特定TV节目相关联的运行时数字图像，其中运行时数字图像包含与特定TV节目相关联的特定人员的一个或更多个面部。

其次，将计算机实现的面部识别程序连同与特定TV节目相关联的一组计算模型应用于数字图像，以从运行时数字图像中连同一个或更多个检测到的面部中的每一个的相应的几何坐标一起检测到的一个或更多个面部中识别数字图像中特定人员中的一个或更多个，其中计算模型中每一个还与特定人中的相应之一相关联。

第三，在非暂时性计算机可读存储器中存储运行时数字图像以及(i)指示分配给包含在运行时数字图像中的一个或更多个面部的身份的信息以及(ii)与在运行时数字图像中身份所分配的面部的每个分配的身份几何坐标相关联的信息。

接下来描述图4。

图4示出了示例方法400的流程图，该示例方法可以由图像内容识别系统(诸如图像内容识别系统120)执行。与示例方法300一样，示例方法400可以以存储在非暂时性计算机可读介质中的计算机可读指令来实现，并且由系统的一个或更多个处理器执行。在示例实施例中，指令在由系统的一个或更多个处理器执行时可以使系统执行该方法。在仅与一个TV节目相关联的一个人的训练和运行时识别的方面来对示例方法400进行描述。鉴于以上描述，并且如进一步详述的，应当理解，示例方法能够直接扩展到与TV节目相关联的多个人(例如演艺成员)以及多个TV节目。下面的描述是指涉及多个操作的计算设备。应当理解，对计算设备的多次引用可以指在一些或所有操作中的相同计算设备，或者在一些或所有操作中的不同计算设备。

在框402，在计算设备上实现的自动面部检测程序可以应用于与特定TV节目相关联的第一多个训练数字图像，以便识别第一子多个训练数字图像，该第一子多个训练数字图像中的每个都包含与特定TV节目相关联的第一特定人的单个面部。在一个示例实施例或示例用法中，第一特定人可以是特定TV节目的演艺成员或工作成员。第一多个训练数字图像可以被认为是上述意义上的训练图像。

在框404，在计算设备上实现的自动特征提取程序可以应用于第一子多个训练数字图像，以便生成与第一特定人相关联的第一组特征向量，第一组中的每个特征向量对应于第一子多个训练数字图像中的不同之一。

在框406，在计算设备上实现的自动面部识别程序可以应用于与特定TV节目相关联的运行时数字图像，以便基于来自第一组的至少一个特征向量来识别运行时数字图像中的第一个特定个人。运行时数字图像可以被认为是上述意义上的运行时图像。

最后，在框408，可以将运行时数字图像连同识别第一特定人的信息和第一特定个人在运行时数字图像中的对应几何坐标存储在非暂时性计算机可读存储器中。

根据示例实施例，上述操作中的一些或全部可以应用于与特定TV演出相关联的第二特定人，和/或应用于具有不同(可能一些或全部相同)的相关联的人员(例如演艺成员)的另一个TV节目。因此，可以由自动特征提取程序生成第二多个训练数字图像，并且可以将自动面部识别程序应用于另外的运行时数字图像。

根据示例实施例，运行时数字图像和另外的运行时数字图像可以是相同的公共运行时数字图像。在这种情况下，(i)识别第一特定人的信息和第一特定人在运行时数字图像中的对应几何坐标以及(ii)识别第二特定人的信息和第二特定人在另外的运行时数字图像中的对应几何坐标均可以与公共运行时数字图像一起存储。

根据示例实施例，示例方法400可以进一步需要将自动面部识别程序应用于与特定TV节目相关联的附加运行时数字图像，以便基于来自第一组的至少一个特征向量识别附加运行时数字图像中的第一特定个人，以及将附加运行时数字图像连同识别第一特定个人的信息和第一特定个人在附加运行时数字图像中的对应几何坐标一起存储。

如所描述的示例方法400需要训练模式和运行时模式两者的操作。替代版本主要只考虑运行时操作，而训练模式操作被认为是先前已执行的。示例方法400的这个版本可以通过以下操作进行描述。

首先，接收与特定TV节目相关联的运行时数字图像，运行时数字图像包含与特定TV节目相关联的特定人员的一个或更多个面部。

其次，将在计算设备上实现的自动特征提取程序应用于数字图像以生成对应于包含在运行时数字图像中的一个或更多个面部中的每一个的相应的特征向量。

第三，在计算设备上执行每个相应的特征向量与一组已知特征向量的比较分析，每个已知特征向量被识别为与特定TV节目相关联的人员之一，以将特定人员之一的身份分配给对应于相应特征向量的一个或更多个面部之一。

第四，在非暂时性计算机可读存储器中存储运行时数字图像以及(i)指示分配给包含在运行时数字图像中的一个或更多个面部的身份的信息以及(ii)与在运行时数字图像中身份所分配的面部的每个分配的身份几何坐标相关联的信息。

示例方法300和400以及其他可能的示例实施例均可以被认为是用于创建和存储标记有具体元数据的数字图像的规定过程，该具体元数据识别(i)特定TV节目(或其他类型的媒体实体)、(ii)特定TV节目的一个或更多个演艺成员(或与此相关的其他个人)、以及(iii)一个或更多个识别的演艺成员的面部在数字图像中的几何坐标。也可以创建或确定其他元数据。因此，本公开可被视为描述根据在本文中作为示例描述的一个或更多个规定过程进行生产、创建或生成，并且进行存储或记录的产品的示例实施例(即数字图像和相关联的元数据)。也就是说，本公开包括在创建产品的过程的方面进行定义、描述或指定的产品的示例实施例。

IV.示例变型

尽管已经结合特定实体和特定操作描述了上述示例和特征，但在实践中，可能存在这些实体的许多实例，并且这些操作的许多实例可能同时或一起大规模地执行。实际上，在实践中，图像内容识别系统100可能包括许多电视广播系统(每个都可能在许多频道上传输内容)和许多内容呈现设备，所描述的操作中的一些或所有是在常规和重复的基础上执行。

此外，虽然本公开中描述的一些动作已被描述为由特定实体执行，但这些动作可以由任何实体(诸如本公开中描述的那些实体)执行。此外，尽管已按特定顺序叙述了这些动作，但这些动作不必按所描述的顺序执行。然而，在某些情况下，能够期望按照所述顺序执行动作。此外，能够响应于其他动作中一个或更多个来执行动作中的每一个。此外，并非所有的动作都需要执行以实现所公开的特征提供的好处中的一个或更多个，因此并非所有的动作都是必需的。

并且尽管已经结合本公开的一个或更多个示例描述了某些变型，但是这些变型也能够应用于本公开的一些或所有其他示例。

此外，尽管已经描述了本公开的选择示例，但是这些示例的改变和排列对于本领域普通技术人员来说将是显而易见的。在不背离本发明的情况下，在比所附权利要求中所述的更广泛的方面，其他改变、替换和/或替代也是可能的。

Claims

1.一种方法，包括：

将在计算设备上实现的自动面部检测程序应用于与特定TV节目相关联的第一多个训练数字图像，以识别第一子多个训练数字图像，所述第一子多个训练数字图像中的每个包含与所述特定TV节目相关联的第一特定人的单个面部；

基于针对所述第一子多个训练数字图像确定的第一组特征向量，训练计算机实现的面部识别程序的第一计算模型，以用于识别任何给定数字图像中的第一特定人；

将所述面部识别程序与所述第一计算模型一起应用于与所述特定TV节目相关联的运行时数字图像，以从所述运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述运行时数字图像中的第一特定人；以及

将所述运行时数字图像与识别所识别的第一特定人的信息和所识别的第一特定人在所述运行时数字图像中的对应几何坐标一起存储在非暂时性计算机可读存储器中。

2.根据权利要求1所述的方法，还包括：

将所述自动面部检测程序应用于与所述特定TV节目相关联的第二多个训练数字图像，以识别第二子多个训练数字图像，所述第二子多个训练数字图像中的每个包含与所述特定TV节目相关联的第二特定人的单个面部，其中，所述第二特定人不同于所述第一特定人；

基于针对所述第二子多个训练数字图像确定的第二组特征向量，训练面部识别程序的第二计算模型，以用于识别任何给定数字图像中的第二特定人；

将所述面部识别程序与所述第二计算模型一起应用于与所述特定TV节目相关联的另外的运行时数字图像，以从所述另外的运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述另外的运行时数字图像中的第二特定人；以及

将所述另外的运行时数字图像与识别所识别的第二特定人的信息和所识别的第二特定人在所述另外的运行时数字图像中的对应几何坐标一起存储在所述非暂时性计算机可读存储器中。

3.根据权利要求2所述的方法，其中所述第一多个训练数字图像和所述第二多个训练数字图像至少部分重叠。

4.根据权利要求2所述的方法，其中所述运行时数字图像和所述另外的运行时数字图像是相同的公共运行时数字图像，

并且其中，(i)识别所识别的第一特定人的信息和所识别的第一特定人在所述运行时数字图像中的对应几何坐标以及(ii)识别所识别的第二特定人的信息和所识别的第二特定人在所述另外的运行时数字图像中的对应几何坐标均与公共运行时数字图像一起存储。

5.根据权利要求1所述的方法，还包括确定所述第一组特征向量，其中所述第一组特征向量中的每个特征向量对应于所述第一子多个训练数字图像中的相应一个。

6.根据权利要求1所述的方法，还包括将第一计算模型连同所述特定TV节目的标识符和所述第一特定人的标识符一起存储在面部识别程序的计算模型的数据库中。

7.根据权利要求1所述的方法，其中将所述面部识别程序连同第一计算模型一起应用于与所述特定TV节目相关联的运行时数字图像，以从所述运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述运行时数字图像中的第一特定人包括：

确定运行时特征向量，所述运行时特征向量对应于在所述运行时数字图像中连同相应的几何坐标一起检测到的所述一个或更多个面部中的至少一个；

将面部识别程序连同包括第一计算模型的与所述特定TV节目相关联的一个或更多个存储的计算模型一起应用于所述运行时特征向量；以及

确定将面部识别程序连同第一计算模型一起应用于所述运行时特征向量产生的概率超过阈值并且大于将面部识别程序连同与所述特定TV节目相关联的任何其它一个或更多个存储的计算模型一起应用而产生的概率。

8.根据权利要求1所述的方法，其中所述计算机实现的面部识别程序在以下之一上实现：与所述自动面部检测程序相同的计算设备、或与所述自动面部检测程序不同的计算设备。

9.根据权利要求1所述的方法，其中所述第一特定人是所述特定TV节目的演艺成员。

10.根据权利要求1所述的方法，还包括：

将面部识别程序与第一计算模型一起应用于与所述特定TV节目相关联的附加运行时数字图像，以从所述附加运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中再次识别所述附加运行时数字图像中的所述第一特定人；以及

将所述附加运行时数字图像与识别再次识别的第一特定人的信息和再次识别的第一特定人在所述附加运行时数字图像中的对应几何坐标一起存储在所述非暂时性计算机可读存储器中。

11.根据权利要求1所述的方法，还包括：

将所述自动面部检测程序应用于与另外的特定TV节目相关联的第三多个训练数字图像，以识别第三子多个训练数字图像，所述第三子多个训练数字图像中的每个包含与所述另外的特定TV节目相关联的第三特定人的单个面部；

基于针对所述第三子多个训练数字图像确定的第三组特征向量，训练面部识别程序的第三计算模型，以用于识别任何给定数字图像中的第三特定人；

将所述面部识别程序与所述第三计算模型一起应用于与所述另外的特定TV节目相关联的另外的运行时数字图像，以从所述另外的运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述另外的运行时数字图像中的第三特定人；以及

将所述另外的运行时数字图像与识别所识别的第三特定人的信息和所识别的第三特定人在所述另外的运行时数字图像中的对应几何坐标一起存储在所述非暂时性计算机可读存储器中。

12.一种系统，其包括：

一个或更多个处理器；以及

存储指令的存储器，所述指令当由所述一个或更多个处理器执行时使所述系统执行如下操作，所述操作包括：

将自动面部检测算法应用于与特定TV节目相关联的第一多个训练数字图像，以识别第一子多个训练数字图像，所述第一子多个训练数字图像中的每个包含与所述特定TV节目相关联的第一特定人的单个面部；

基于针对所述第一子多个训练数字图像确定的第一组特征向量，训练自动面部识别算法的第一计算模型，以用于识别任何给定数字图像中的第一特定人；

将所述自动面部识别算法与所述第一计算模型一起应用于与所述特定TV节目相关联的运行时数字图像，以从所述运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述运行时数字图像中的第一特定人；以及

13.根据权利要求12所述的系统，其中所述操作还包括：

将自动面部检测程序应用于与所述特定TV节目相关联的第二多个训练数字图像，以识别第二子多个训练数字图像，所述第二子多个训练数字图像中的每个包含与所述特定TV节目相关联的第二特定人的单个面部，其中，所述第二特定人不同于所述第一特定人；

将所述面部识别程序与所述第二计算模型一起应用于与所述特定TV节目相关联的另外的运行时数字图像，以从所述另外的运行时数字图像中连同相应的几何坐标一起检测的一个或更多个面部中识别所述另外的运行时数字图像中的第二特定人；以及

14.根据权利要求13所述的系统，其中所述运行时数字图像和所述另外的运行时数字图像是相同的公共运行时数字图像，

15.根据权利要求12所述的系统，其中所述系统还包括面部识别程序的计算模型的数据库，

并且其中，所述操作还包括将第一计算模型连同所述特定TV节目的标识符和所述第一特定人的标识符一起存储在面部识别程序的计算模型的数据库中。

16.根据权利要求12所述的系统，其中所述一个或更多个处理器包括在所述系统的两个或更多个计算设备中，

并且其中，面部识别程序在以下之一上实现：所述系统的与所述自动面部检测程序相同的计算设备、或所述系统的与所述自动面部检测程序不同的计算设备。

17.根据权利要求12所述的系统，其中所述操作还包括：

将面部识别程序与第一计算模型一起应用于与所述特定TV节目相关联的附加运行时数字图像，以从所述附加运行时数字图像中连同相应的几何坐标一起检测的一个或更多个面部中再次识别所述附加运行时数字图像中的第一特定人；以及

18.一种非暂时性计算机可读介质，其上存储有指令，所述指令在由系统的一个或更多个处理器执行时使所述系统执行如下操作，所述操作包括：

将所述自动面部识别算法与所述第一计算模型一起应用于与所述特定TV节目相关联的运行时数字图像，以从在所述运行时数字图像中连同相应的几何坐标一起检测到的一个或更多个面部中识别所述运行时数字图像中的第一特定人；以及

19.根据权利要求18所述的非暂时性计算机可读介质，其中所述操作还包括：

将所述自动面部检测程序应用于与所述特定电视节目相关联的第二多个训练数字图像，以识别第二子多个训练数字图像，所述第二子多个训练数字图像中的每个包含与所述特定TV节目相关联的第二特定人的单个面部，其中，所述第二特定人不同于所述第一特定人；

20.根据权利要求18所述的非暂时性计算机可读介质，其中所述第一特定人是所述特定TV节目的演艺成员。