CN107750460A

CN107750460A - 媒体捕获事件中的实体的自动识别

Info

Publication number: CN107750460A
Application number: CN201680035310.4A
Authority: CN
Inventors: A·考尔; S-E·特雷姆布莱
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2015-06-16
Filing date: 2016-06-16
Publication date: 2018-03-02
Anticipated expiration: 2036-06-16
Also published as: US20170223392A1; US10785510B2; CN112218112A; US10165307B2; CN112218112B; EP3311332A1; HK1246550A1; WO2016205432A1; US20160371534A1; US9704020B2; US20190075341A1; CN107750460B

Abstract

使得能够使用识别过程实时标识实况广播(例如，实况事件的流式内容(例如，视频))及非实况呈现(例如，电影)中诸如人物和内容的实体的架构。这可以通过提取与实况事件相关的实况数据来完成。关于人物实体，可以执行过滤，以从所提取的实况数据中标识已命名的(人物)实体，以及被发现与实况事件相关联的、与已命名的实体相关的趋势话题。针对已命名的实体，捕获在不同条件下捕获已命名的实体的已命名的实体的多个图像。然后对图像进行处理，以提取并学习脸部特征(训练一个或多个模型)，然后使用一个或多个经训练的模型对视频中的脸部执行脸部识别。

Description

媒体捕获事件中的实体的自动识别

背景技术

脸部识别是流行且充满竞争的技术领域。然而，实况广播的实时脸部标识面临巨大的挑战。为了这样的系统运作，必须创建具有可能出现在电视上的每个人(例如，名人、体育明星等)的脸部的庞大支持系统。然而，快速且提供高精度的这种规模的系统是非常难以实现的。而且，采用出现在广播中的人物的相当小的子集仍然导致通常在广播中看到的数百万个脸部，这是无法进行实时处理的数量。此外，许多名人脸部看起来如此相似，使得用于实时区分这些脸部所需的处理是不切实际的。需要获得结果的速度、所需的存储器资源以及低精度是大规模的实时标识实况广播的脸部面临巨大的挑战的原因。

发明内容

以下呈现简化的发明内容，以提供对本文所描述的一些新颖实现的基本理解。本发明内容并不是广泛的概述，也不旨在标识关键/重要元素或划定其范围。其唯一目的是以简化的形式呈现一些概念，作为稍后呈现的更详细描述的序言。

所公开的架构使得能够至少使用识别过程(例如，脸部识别)在实况广播(例如，实况事件的流式内容(例如，视频))和非实况呈现(例如，电影)中实时标识诸如人物和内容(例如，文本、标志等)的实体。可以针对实况事件的电视广播以及电视节目和电影来实现实时标识，并且实时标识足够轻量化(用于更简单和更快的执行的更少的指令)以通过具有适度资源的系统(例如，本地客户端设备、便携式计算设备、蜂窝电话等)进行处理。

所公开的架构扩展到实况广播和非实况电视以及基于计算机的节目和电影，以识别视频帧中的实体并且利用来自网络源的信息/内容以及来自用户的个人存储和企业信息源的信息/内容来补充视频呈现，网络源例如是限制性(登录启用)信息源以及因特网的非限制性信息源(例如，网站)。

更具体地，这可以通过提取与实况事件有关的实况数据来实现(其中实况数据包括在事件正在发生时生成的实时信息和/或在与事件正在发生的时间接近的时间生成的实时信息)。关于人物实体，可以执行过滤，以从所提取的实况数据中标识已命名的实体(例如，人物)，以及与实况事件相关联地、被发现与已命名的实体有关的趋势话题。可以利用在不同条件(例如，照明、用于实现品质识别的一个或多个合适姿势等)下捕获的已命名的实体的多个图像(例如，照片)。然后对图像进行处理，以提取并学习脸部特征(训练一个或多个模型)，然后使用一个或多个经训练的模型对(例如，实况)视频中的脸部执行脸部识别。

架构还适用于在诸如聚会、集会等的社交活动期间，在个人电影/照片中捕获的家庭成员、亲属和/或朋友的识别处理。可以基于针对这些种类的人物训练的个人模型来标识这样的人物。例如，常见的是家庭和亲属的家庭规模扩大并且跨地理位置分散，使得与子女和孙子女的“紧密联系”很困难。捕获表亲、亲属等的家庭图像以及访问这样的图像随后使得能够在经由视频、照片等回顾过去的事件(例如，聚会)的同时识别这些成员的脸部和背景内容。在回顾期间与视频/照片一起呈现的信息可以包括从社交网络和其他合适的信息源接收的此人正在做什么、传记信息等。

例如，架构可以被实现为系统，该系统包括：访问组件，被配置为访问与视频中捕获的事件有关的信息；收集组件，被配置为从信息中收集训练数据并用于标识视频中的实体；训练组件，被配置为使用训练数据来训练模型；识别组件，被配置为执行视频中的实体的脸部识别处理，以标识特定实体，使用模型执行脸部识别处理；以及内容组件，被配置为获取与特定实体有关的内容，以与特定实体一起呈现。

该架构可以被实现为方法，该方法包括：访问与查看视频有关并且与事件有关的信息；从信息中收集用于标识视频中的实体的训练数据；使用训练数据来训练模型；执行对视频中实体的识别处理来标识实体，使用模型执行识别处理；以及呈现与实体相关的内容。

为了实现前述目的和相关目的，本文结合以下描述和附图描述了某些示例性方面。这些方面指示可以实践本文所公开的原理的各种方式，并且所有方面及其等同物均旨在所要求保护的主题的范围内。当结合附图考虑下面的详细描述时，其他优点和新颖特征将变得显而易见。

附图说明

图1示出了根据所公开的架构的用于自动识别媒体捕获事件中的实体的系统。

图2示出了根据所公开的架构的用于自动识别媒体捕获事件中的实体的备选系统。

图3示出了示出设备显示中的视频和相关内容的呈现的视图。

图4示出了多个客户端设备之间的实体识别和内容分配的系统。

图5示出了根据所公开的架构的方法。

图6示出了根据所公开的架构的备选方法。

图7示出了根据所公开的架构执行媒体捕获事件中的实体的自动识别的计算系统的框图。

具体实施方式

实况广播中的实体识别(例如，脸部、文字)是艰巨的挑战。关于作为人物的实体，保证实时事件的精度的一个方法是逐个场景手动标记人物(其图像)；然而，该技术不能扩展到广播中通常示出的潜在的数百万人物的脸部。

所公开的架构扩展到包括实况广播和非实况电视节目及电影的视频，以在视频帧中实时识别实体，并利用内容网络源(例如，限制性的信息源和因特网的非限制性的信息源)以及来自用户的个人存储和企业信息源来补充视频呈现。这可以通过以下方式来实现：提取与事件相关的实况数据、从所提取的实况数据中过滤已命名的实体、基于已命名的实体来找到趋势话题、取回在不同条件下针对每个人物的多个图像、从所取回的多个照片中提取并学习脸部特征、以及基于经训练的数据来识别实况视频中的脸部。

架构通过附加从不同源获得的关于事件的上下文、并从搜索引擎获取训练内容(例如，针对人物脸部的图像)，使得能够在实况广播的事件期间以及在TV节目和电影中实时在屏幕上进行实时实体(例如，人物的脸部)识别。不同源可以是在线的、离线的、结构化的和/或非结构化的。

现在相对于事件的实况广播来描述架构。事件被定义为包括紧接在事件之前和之后发生的活动以及事件的执行。例如，体育事件包括在比赛开始之前捕获(报道)的活动以及比赛结束之后的活动(关于参赛者、教练员的赛后访谈的“重新捕获”，事件期间的特定赛事的回放等)。以下描述非实况实现的描述。关于诸如电影重播的非实况事件，事件包括在电影开始之前捕获(报道)的活动(例如，主持人简要地谈论电影中的演员，以及颁发的奖项)以及电影结束之后的活动(关于电影评论等的“重新捕获”)。

实况广播过程开始于从诸如网站、在线电视节目指南、在线用户消息传输等的各种数据源提取实况数据(信息)。通常容纳关于不同话题的足够量的用户消息流量的数据源(例如，社交媒体网站)是特别有用的。因此，与事件(在事件的活动实际上正在发生时)实时并且在先前确定的时间窗口内从一个或多个数据源提取与实况事件相关的用户消息。例如，可以基于事件的种类和事件的持续时间来确定针对任何给定事件计算的时间窗口。附加地，还可以提取结构化和非结构化的搜索引擎结果信息来确定可能在事件中的感兴趣的人物。

在获得关于事件的用户消息传输内容(例如，文本)之后，通过已命名的实体识别系统来处理用户消息传输内容，已命名的实体识别系统在内容中出现名称时生成已命名的实体列表及相关联的流行度以及实体类型(例如，人物、组织、位置等)。在寻找人物时，可以将不涉及人物名称的已命名的实体过滤掉。

使用已命名的实体的上述集合，该架构然后找到在事件正在发生的时刻(例如，在社交媒体网络中)的趋势的已命名的实体。趋势信息提供围绕视频的实况内容的上下文，并且进一步使得能够生成人物实体的排序列表。可以在固定时间间隔处执行趋势及排序列表生成过程，以标识与实况事件相关的趋势话题的变化。

模型训练包括使用搜索引擎来查询已命名的人物实体的排序列表中的每个人物的图像。取回多个图像是收集训练数据的一部分，并且包括在不同照明条件下、来自不同角度、以及可以增强训练数据的质量的其他姿势的人物的图像。质量增强还可以包括：移除包括多于一个脸部的图像(例如，群体照片)以及不具有人物脸部的图像，留下经标记的最终图像集合作为训练数据。然后通过脸部识别系统将针对每个人物(例如，名人、公众人物等)的经标记的照片集合处理为训练数据，以从图像创建所提取并学习的脸部特征的模型。

实况广播事件(例如，在电视上)的个体帧被输入到脸部识别系统。当脸部识别器从人物列表(利用该人物列表，对识别器进行训练)产生输出并且输出具有高于预定阈值的置信度时，使用人物的名称来标记包括该图像的帧。

该架构是轻量级的，因为每个已命名的实体的少数(例如，二十个)图像足以训练脸部识别系统并高精度地标识对应的实体。由于该过程仅使用存储在存储器中的少量图像，因此系统可以在没有高级处理器或存储器需求的情况下，快速学习并识别脸部。附加地，由于屏幕上的项不会频繁地(例如，每隔几秒)改变，因此该架构可以以每n个帧地(例如，每25帧)进行处理，而不是以每一个帧地进行处理。

对于诸如预先录制的电视节目的非实况事件，该架构的操作略有不同，因为可以从列出演员/名人的在屏(on-screen)名称和离屏(off-screen)名称的在线知识源收集人物列表。然后使用查询细化针对演员以及演员的在屏名称执行图像搜索以获得演员以与节目中相同的一般化妆的图像。如本文所描述的实况事件描述，然后将标记有诸如演员的名称的记号的这些图像输入到脸部识别系统，以用于训练。附加地，可以获得在电影或节目片段的首映期间先前在社交媒体网站上传达的用户消息来找到所提及的实体。

如本文所指出的，该架构可以被扩展为处理除人类脸部之外的实体。例如，可以使用图像识别算法代替脸部识别来实现图像识别，以标识文本信息、标志设计、风景、兴趣点等。

所公开的架构表现出与程序执行、减少的存储器需求以及改进的可用性相关的技术效果。例如，考虑到该架构的轻量性质，需要更少的存储器，并且因此缓存变得更加可以承担资源，从而实现改进的用户体验。附加地，待执行的更少代码被转换为更快的代码执行和改进的用户体验。

现在参考附图，其中相同的附图标记始终用于指代相同的元件。在以下描述中，出于解释的目的，阐述了许多具体细节，以提供对其的透彻理解。然而，显而易见的是，可以在没有这些具体细节的情况下实践新颖的实现。在其他情况下，以框图形式示出众所周知的结构和设备，以支持其描述。意图是覆盖落入所要求保护的主题的精神和范围内的所有修改、等同物和备选。

图1示出了根据所公开的架构的用于自动识别媒体捕获事件中的实体的系统100。系统100可以包括访问组件102，访问组件102被配置为访问与视频110中捕获/呈现的事件108以及显示在视频110中的一个或多个实体112(例如，人物、标志、文本、音频、其他内容和媒体类型等)相关的信息104(来自各种可访问源106)。

访问组件102可以包括与信息的各种可访问源106(例如，普通公众可访问的源、需要登录凭证的源等)对接的一个或多个应用，各种可访问源106诸如社交媒体网络、企业网络、公共访问的网站、个人网络和存储设备等。访问组件102能够标识实时发生或即将发生的特定事件108，并且然后提取与事件108(例如，实况广播事件)、电影、节目重播和/或其他类型的呈现媒体相关的信息104。

访问组件102还可以被配置为访问来自诸如事件节目源的各种可访问源106的事件标识数据114，各种可访问源106包括但不限于容易获得的并且通常提供这样的事件标识数据114的媒体通信源(例如，电视、无线电广播、基于web的节目源、节目指南、网站等)。事件标识数据114使得访问组件102能够获得针对事件108以及与事件108相关联的任何实体112的相关信息104。

例如，可以从包括电视节目源的各种可访问源106获得体育事件的事件标识数据114，电视节目源指示何时将发生体育事件、事件的位置以及可能的实体(例如，广播员和参加体育事件的队伍的队员)。因此，给定该事件标识数据114，可以推断某些实体(例如，人物)将呈现在视频110中，并且还可以推断期望与事件108结合观看与这些人物相关的特定内容片段(例如，参赛者统计数据、传记等)。

收集组件116可以被提供并且被配置为从信息104得出并输出训练数据118，并且最终使用训练数据118经由经训练的模型120来标识视频110中的实体112。因此，训练组件122可以被提供并被配置为使用训练数据118来训练模型120。训练组件122可以被配置为使用实体122的经标记(标记)的图像集合来训练模型120，以学习实体122的脸部特征。换言之，在事件已知的情况下，也可以大概率知道可能是事件的一部分的人物的身份。因此，给定该信息，可以获得并标记可能在事件中或是事件的一部分的人物的图像来训练模型120。

识别组件124可以被提供并且被配置为执行视频110中的实体112的识别处理(例如，脸部)，以例如标识特定实体(例如，人物)或多个实体(例如，一个或多个广播员、参赛者、教练等)，其中使用经训练的模型120来执行识别处理。

内容组件126可以被提供并且被配置为获得与特定实体相关的内容128，以与特定实体和/或视频110一起呈现。一旦针对给定实体完成了识别处理，则实体是已知的，并且然后内容组件126可以从各种可访问源106搜索并检索与实体、事件等相关的内容128，并且支持在呈现视频110的设备130上或者在可以或不可以呈现(播放)视频110的一个或多个其他设备上呈现相关内容128。

如前所述，事件108可以是经由视频110捕获的实况广播事件，并且视频110被流式传输(经由到计算设备和/或电视的web)，以在事件108发生的同时，在第一设备(例如，设备130)上进行观看。然后可以在第一设备(例如，设备130)上正在观看视频110的同时，在第一设备(设备130)上呈现相关内容128。

例如，当使用诸如台式计算机的设备时，内容120可以呈现在正在呈现视频110的视频窗口旁边的内容窗口中。当使用智能电视时，可以实现视频110和内容120的类似的并排呈现。

在这些场景中，内容120可以被配置为基于在视频110中正在观看的实体而动态地改变。例如，如果足球事件(正在实况广播)中橄榄球队的四分卫是视频焦点，则与四分卫有关的内容可以在视频视图旁边呈现，其中四分卫被示出为视频帧中的主要实体。当视频然后从四分卫转换回到整体队伍行动时，内容120可以被自动改变，以随后示出与队伍相关的内容(例如，级别排名、赛事统计等)。因此，系统100实时地操作，以基于视频110中所示的特定场景和实体来实时提供内容。

所公开的架构是适当鲁棒的并且使得能够在第一设备上显示视频，而在另一设备上显示内容。因此，在事件是经由视频捕获的实况事件并且在事件正在发生的同时视频被流式传输以在第一设备上观看的情况下，可以在第一设备上观看视频的同时，将相关内容呈现在一个或多个其他设备上。在这种场景中，用户可以在电视上观看事件，而相关内容被呈现在用户所握持的平板计算设备上。

访问组件102可以被配置为根据预定的时间窗口来访问信息104，其中可以基于事件的种类或事件的持续时间中的至少一个来确定时间窗口。换言之，信息104将可能在紧接事件发生之前(例如，几个小时)而不是在事件之前的几天甚至几周具有期望的质量和数量。例如，在各种可访问源106包括社交媒体的情况下，其中各种事件中的用户兴趣(用户消息)倾向于以特定时间的兴趣为趋势，通常紧接在事件108发生之前和紧接在事件108发生之后兴趣较大，而在事件发生之前和事件发生之后的相当的一段时间(例如，几周、几个月)兴趣较小。

图2示出了根据所公开的架构的用于自动识别媒体捕获事件中的实体的备选系统200。系统200包括图1的系统100的组件和能力以及附加的组件(例如，已命名的实体识别组件202和趋势组件204)。已命名的实体识别组件202可以被提供并被配置为处理社交媒体消息，并输出已命名的实体、实体流行度参数以及实体类型信息中的一个或多个。趋势组件204被提供并且被配置为访问趋势信息，趋势信息指示与事件相关的趋势的实体，并且从趋势信息来推断事件的上下文。

在操作中，访问组件102访问与在视频110中捕获/呈现的事件108有关以及在视频110中示出的一个或多个实体112(例如，人物、标志、文本、音频、其他内容和媒体类型等)的信息104(来自各种可访问源106)。

访问组件102可以包括与各种可访问源106对接的一个或多个应用。访问组件102标识实时发生或即将发生的特定事件108(例如，广播实况事件、电影等)，并且然后提取与事件108(例如，实况广播事件)、电影、节目重播和/或其他类型的呈现媒体相关的信息104。

在广播实况事件的上下文中，当在电视频道(例如，奥斯卡)上正在播放实况事件时，提取与事件相关的实况信息。该信息的源可以是提供适当量的用户消息流量的社交媒体站点(例如，Twitter^TM)。在操作中，在事件期间，在先前确定的时间窗口内，从对应的社交媒体站点实时提取与奥斯卡有关的用户消息。可以使得时间窗口取决于事件的种类和事件持续时间。附加地，可以从维持电影、电视和名人内容等的更新的数据储存库的知识图表、网站中提取结构化和非结构化的数据，以确定针对该事件预期的人物。在另一示例中，如果事件是实况体育事件，则可以访问通常存储并更新与体育相关的信息(例如，参赛者和队伍统计、参赛者名称等)的网站。

访问组件102还可以被配置为访问来自诸如事件节目源的各种可访问源106的事件标识数据114，可访问源106例如包括但不限于容易获得的并且通常提供这样的事件标识数据114的媒体通信源(例如，电视、无线电广播、基于web的节目源、节目指南、网站等)。事件标识数据114使得访问组件102能够获得针对事件108以及与事件108相关联的任何实体112的相关信息104。

在从关于事件的用户消息获得所有内容(例如，文本)之后，该用户内容由已命名的实体识别组件202处理。已命名的实体识别组件202的输出是已命名的实体和属性206的列表，其中相关联的属性可以包括但不限于实体名称出现在内容(例如，文本)中时的实体流行度以及实体类型(例如，人物名称、组织名称和/或位置名称)。不涉及人物名称的已命名的实体可以被过滤掉。换言之，已命名的实体识别组件202处理社交媒体消息，并且输出已命名的实体、实体流行度参数以及实体类型信息中的一个或多个。

对于上述已命名的实体(和属性)206的集合，趋势组件204在社交媒体网络中找到当前时间处作为趋势的已命名的实体。这提供关于视频的实况内容的上下文的信息，并产生实体的排序列表208。该步骤可以在固定间隔处执行，以跟上趋势话题的变化。换言之，趋势组件204被提供并被配置为访问趋势信息，趋势信息指示与事件相关的趋势的实体，并且从趋势信息来推断事件的上下文。

从所获得的已命名的人物(已命名的实体和属性206)的顶部集合中，可以由收集组件114查询(各种可访问源106的)搜索引擎，以检索针对每个人物的图像。取回多个图像(例如，二十、三十等)有助于收集具体在不同的照明条件下并且从不同的角度的图像(脸部姿势)的训练数据118。可以通过脸部检测系统来处理每个图像(例如，照片)，以过滤掉示出多于一个脸部的图像。这将删除诸如群体照片的图像，这最终可能会在计算特定脸部(从特定脸部来学习特征和特点)时产生问题。也可以执行过滤来删除未检测到脸部的图像。

剩余过程基本上与图1的系统100中相同。其中，关于训练识别组件124，收集组件116从信息104中得出并输出训练数据118，以使用实体122的经标记(标记)的图像集合来训练模型120，从而学习实体122的脸部特征。识别组件124执行实体112的识别处理(例如，脸部)，以使用经训练的模型120来标识特定实体(例如，人物)或多个实体(例如，广播员、参赛者、教练等)。

内容组件126获得与特定实体相关的内容128，以与特定实体和/或视频110一起呈现，从各种可访问源106搜索并检索内容128。然后可以将相关内容128呈现在呈现视频110的设备130上或在可以或可以不呈现(播放)视频110的一个或多个其他设备上。

如前所述，可以基于视频110中正在观看的实体动态地改变内容120。因此，系统200实时操作，以基于视频110中所示的特定场景和实体来实时提供内容。

根据图1的系统100，所公开的架构是适当鲁棒的并且使得视频能够示出在第一设备上，而内容能够示出在另一设备上。因此，在事件是经由视频捕获的实况事件并且视频在事件正在发生的同时被流式传输以在第一设备上观看的情况下，可以在第一设备上正在观看视频的同时，将相关内容呈现在一个或多个其他设备上。在该场景中，用户可以在电视上观看事件，而相关内容被呈现在用户所握持的平板计算设备上。

附加地，访问组件102可以被配置为根据预定时间窗口来访问信息104，其中可以基于事件的种类或事件的持续时间中的至少一个来确定时间窗口。

应当理解，在所公开的架构中，某些组件可以被重新定向、组合、省略，并且可以包括附加的组件。例如，由于该架构的轻量性质，图1的系统100中的所有组件(除了源106之外)可以在本地设备(例如，膝上型计算机)中实现。类似地，图2的系统200中的所有组件(除了源106之外)可以在本地设备(例如，膝上型计算机)中实现。因此，可以实现存储器中的高速缓存，以快速执行识别处理以及内容呈现。

图3示出了示出在设备显示器302中呈现视频110及相关内容128的视图300。示出了呈现视频110(例如，电影、实况广播、电视节目等)的视频窗口304。视频窗口304可以包括通常与观看电影时的用户控制相关联的各种控件和指示符306，例如，前进、暂停、快进、倒退、快速倒退、扬声器音量控制等。

脸部识别处理标识视频110中的人物310的脸部308(如在识别边界框312中所指示的，在观看视频110的同时，其可以对用户可见或不可见)。一旦人物310被标识，查询可以由搜索引擎创建并处理以用于相关内容128。从搜索返回的相关内容128可以包括各种媒体类型，例如，文本(文本1和文本2)、图像(图像1和图像2)、使得用户能够导航到网站或其他内容源的链接(链接)。内容128可以呈现在可滚动内容窗口中，以使得能够回顾当前观看的内容之上或之下的内容。

如本文所指示的，可以采用对视频的一个或多个帧上的图像识别以用于标志标识，并且图像识别如果在相同图像中与人物的脸部识别结合使用导致内容128，内容128包括关于人物310的内容以及与标志(未示出)相关联的内容两者。

图4示出了多个客户端个人设备402之间的实体识别和内容分布的系统400。这里，结合在电视404上观看实况广播的视频110，诸如平板计算机、膝上型计算机、台式计算机、智能电话等的三个客户端个人设备(设备l、设备2和设备3)正在由用户使用。可以使用系统100或系统200以及如本文所描述的相关联的方法来实现个人设备402和电视404中的任一个。

因此，在一个示例性操作中，电视404在相关内容128的实况广播和内容呈现的视频110中执行脸部识别。个人设备402的用户可以选择仅观看内容128(例如，在设备1中)、仅观看视频110(例如，在设备2中)或者观看视频110和内容128两者(例如，在设备3中)。

在不具有所公开的架构的能力的设备的第二示例性操作中，设备1操作以执行由电视404呈现的实况广播视频110的脸部识别，并且然后将内容128传送(提供)到电视404，同时在设备1上呈现内容128。然后，设备2和设备3可以接收视频110、内容128或例如可以是用户选择的内容128的不同项。

在又一示例性操作中，由设备1创建的模型然后可以被共享到其他设备(设备2和设备3)，而不是需要这些设备生成它们自己的模型或者缺乏生成模型的能力。

也可以是基于先前的类似事件在事件之前生成一个或多个模型并且将其提供(下载)到客户端设备的情况。例如，尽管体育事件可能每周改变位置，但是与队伍、广播员等相关联的脸部相对稳定并且保持基本相同。因此，可以为特定的队伍生成模型，并且然后在两个队伍竞赛时将模型组合以用于客户端设备上的快速实况识别。

在各种可访问源106可以包括用户希望不使用的个人存储设备以及内容和/或社交媒体内容的情况下，所公开的架构可以可选地包括隐私组件，隐私组件使得用户能够选择或不选择公开个人信息。隐私组件支持对用户信息(诸如跟踪信息以及已经获得、维护和/或访问的个人信息)的经授权的和安全的处理。可以向用户提供收集个人信息的部分的通知以及选择或不选择收集过程的机会。同意可以采取若干形式。在收集数据之前，选择同意可以强制用户采取确认动作。备选地，不选择同意可以强制用户采取确认动作，以防止在收集数据之前收集数据。

本文包括表示用于执行所公开的架构的新颖方面的示例性方法的流程图集合。虽然出于简化说明的目的，将本文所示的一个或多个方法(例如，以流程图或流程图表的形式)示出并描述为一系列动作，但应理解并认识到，方法不受动作顺序的限制，因为一些动作可以根据方法以不同顺序发生和/或与本文所示出并描述的其他动作同时发生。例如，本领域的技术人物将理解并认识到，例如在状态图中，方法可以备选地表示为一系列相互关联的状态或事件。此外，针对新颖的实现，可以不需要方法中示出的所有动作。

图5示出了根据所公开的架构的方法。在500处，访问与用于在视频中观看的事件相关的信息。在502处，从信息收集训练数据以用于标识视频中的实体。在504处，执行视频中的实体的识别处理以标识实体。使用经训练的模型来执行识别处理。在506处，呈现与实体相关的内容。

方法可以进一步包括在正在观看视频的同时呈现相关内容。方法可以进一步包括在正在观看视频的设备上或在与正在观看视频的设备不同的设备上呈现相关内容。方法可以进一步包括访问信息、收集训练数据、执行识别处理、以及在正在观看视频的同时呈现内容。方法可以进一步包括访问信息、收集训练数据、执行识别处理以及在视频捕获实况事件的同时呈现内容。

方法可以进一步包括从社交媒体网络并根据相对于事件的预定时间窗口来访问信息。方法可以进一步包括执行名称识别处理，以标识从社交媒体获得的信息中的名称。方法可以进一步包括访问关于已命名的实体的趋势信息来推断事件的上下文。方法可以进一步包括呈现与所识别的实体的脸部相关联地相关内容。

图6示出了根据所公开的架构的备选方法。在600处，访问关于实况事件以及关于与实况事件相关联的人物的信息。实况事件和人物被捕获并在视频中广播。在602处，对信息执行已命名的实体识别，以获得与实况事件有关的已命名的实体与关联属性的列表。在604处，在社交媒体消息中与实况事件相关联的趋势被标识以计算已命名的实体的排序列表。在606处，获得并处理排序列表中的已命名的实体的图像，以输出包括与实况事件相关联的人物脸部的特征的训练数据。在608处，使用训练数据来训练模型。在610处，基于训练模型执行视频中的人物的脸部识别处理，以标识已命名的实体并返回与已命名的实体相关的内容。

方法可以进一步包括访问信息、执行已命名的实体识别、标识趋势、获得并处理图像、训练模型、执行脸部识别处理、以及在实况事件发生的同时呈现相关内容。方法可以进一步包括在正在观看视频的设备上或在与正在观看视频的设备不同的设备上呈现相关内容。方法还可以包括当在视频中示出已命名的实体时，呈现与已命名的实体相关联的相关内容。

如在本申请中所使用的，术语“组件”旨在指代计算机相关的实体(硬件、软件与有形硬件的组合、软件、或者执行中的软件)。例如，组件可以是但不限于有形组件，例如，一个或多个微处理器、芯片存储器、大容量存储设备(例如，光学驱动器、固态驱动器、磁存储介质驱动器等)、计算机、以及便携式计算设备和具有计算能力的设备(例如，蜂窝电话、平板计算机、智能电话等)。软件组件包括运行在微处理器上的进程、对象(使用方法维持行为并且在变量中维持状态的软件实体)、可执行文件、数据结构(存储在易失性或非易失性存储介质中)、模块(程序的一部分)、执行线程(可以独立管理的最小指令序列)和/或程序。

例如，在服务器上运行的应用程序和服务器均可以是组件。一个或多个组件可以驻留在进程和/或执行线程内，并且组件可以位于一个计算机上和/或分布在两个或多个计算机之间。本文可以使用词语“示例性”来表示用作示例、实例或说明。本文描述为“示例性”的任何方面或设计不一定被解释为比其他方面或设计优选或有利。

现在参考图7，示出了根据所公开的架构执行媒体捕获的事件中的实体的自动识别的计算系统700的框图。备选地或附加地，可以至少部分地由一个或多个硬件逻辑组件来执行本文描述的功能。例如但不限于，可以使用的硬件逻辑组件的示例性类型包括可现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑器件(CPLD)等，其中可以在衬底中实现模拟信号、数字信号和/或混合信号和其他功能。

为了针对其各种方面提供附加的上下文，图7和下面的描述旨在提供其中可以实现各种方面的合适的计算系统700的简要、一般描述。尽管以上描述处于可以在一个或多个计算机上运行的计算机可执行指令的一般上下文中，但是本领域技术人员将认识到，可以与其他程序模块组合实现新颖的实现和/或新颖的实现可以被实现为硬件和软件的组合。

用于实现各种方面的计算系统700包括：具有一个或多个微处理单元704(也被称为一个或多个微处理器及一个或多个处理器)的计算机702；诸如系统存储器706(一个或多个计算机可读存储介质还包括磁盘、光盘、固态驱动器、外部存储器系统和闪存驱动器)的计算机可读存储介质(其中该介质是在其上数据可以被电子地和/或光学地存储并检索的任何物理器件或材料)；以及系统总线708。一个或多个微处理单元704可以是各种商业可用的微处理器中的任何一种，例如，处理和/或存储电路的单处理器、多处理器、单核单元和多核单元。此外，本领域的技术人员将理解，可以使用其他计算机系统配置来实践新颖的系统和方法，其他计算机系统配置包括小型计算机、大型计算机以及个人计算机(例如，台式计算机、膝上型计算机、平板PC等)、手持式计算设备、基于微处理器的电子设备或可编程消费者电子设备等，其中的每一个均可以可操作地耦合到一个或多个相关联的设备。

计算机702可以是在数据中心和/或计算资源(硬件和/或软件)中采用的若干计算机中的一个，数据中心和/或计算资源(硬件和/或软件)支持针对便携式和/或移动计算系统的云计算服务，便携式和/或移动计算系统例如为无线通信设备、蜂窝电话、以及其他移动设备。云计算服务例如包括但不限于基础架构即服务、平台即服务、软件即服务、存储即服务、桌面即服务、数据即服务、安全即服务以及API(应用程序接口)即服务。

系统存储器706可以包括诸如易失性(VOL)存储器710(例如，随机存取存储器(RAM))和非易失性存储器(NON-VOL)712(例如，ROM、EPROM、EEPROM等)的计算机可读存储(物理存储)介质。基本输入/输出系统(BIOS)可以被存储在非易失性存储器712中，并且包括例如在启动期间支持在计算机702内的组件之间传送数据和信号的基本例程。易失性存储器710还可以包括用于高速缓存数据的诸如静态RAM的高速RAM。

系统总线708为系统组件提供接口，接口包括但不限于系统存储器706到一个或多个微处理单元704的接口。系统总线708可以是使用市场上可购的各种总线架构中的任何一种可以进一步互连到存储器总线(具有或不具有存储器控制器)以及外围总线(例如，PCI、PCIe、AGP、LPC等)的若干类型的总线结构中的任何一种。

计算机702还包括一个或多个机器可读存储子系统714以及用于将一个或多个存储子系统714对接到系统总线708及其他期望的计算机组件和电路的一个或多个存储接口716。例如，一个或多个存储子系统714(物理存储介质)可以包括硬盘驱动器(HDD)、磁性软盘驱动器(FDD)、固态驱动器(SSD)、闪存驱动器和/或光盘存储驱动器(例如，CD-ROM驱动器、DVD驱动器)中的一个或多个。例如，一个或多个存储接口716可以包括诸如EIDE、ATA、SATA和IEEE 1394的接口技术。

一个或多个程序和数据可以存储在存储器子系统706、机器可读和可移除存储器子系统718(例如，闪存驱动器形成因子技术)和/或一个或多个存储子系统714(例如，光学、磁性、固态)中，一个或多个程序和数据包括操作系统720、一个或多个应用程序722、其他程序模块724和程序数据726。

例如，操作系统720、一个或多个应用程序722、其他程序模块724和/或程序数据726可以包括图1的系统100的项和组件、图2的系统200的项和组件、图3的视图300的项和组件、图4的系统400的项和组件、以及图5和图6的流程图表示的方法。

通常，程序包括执行特定任务、功能或实现特定抽象数据类型的例程、方法、数据结构、其他软件组件等。例如，操作系统720、应用程序722、模块724和/或数据726的全部或部分也可以被高速缓存在诸如易失性存储器710和/或非易失性存储器的存储器中。应理解，所公开的架构可以利用各种商业上可购的操作系统或操作系统的组合(例如，作为虚拟机)来实现。

一个或多个存储子系统714和存储器子系统(706和718)充当用于数据、数据结构、计算机可执行指令等的易失性和非易失性存储的计算机可读介质。这样的指令在由计算机或其他机器执行时可以使得计算机或其他机器执行方法的一个或多个动作。计算机可执行指令包括例如使得通用计算机、专用计算机或一个或多个专用微处理器设备执行特定功能或功能组的指令和数据。计算机可执行指令可以是例如二进制文件、诸如汇编语言的中间格式指令、或者甚至是源代码。执行动作的指令可以存储在一个介质上、或者可以跨多个介质存储，使得不论所有指令是否在相同的介质上，指令集中出现在一个或多个计算机可读存储介质上。

一个或多个计算机可读存储介质排除传播信号本身、可以被计算机702访问、并且包括可移除和/或不可移除的易失性和非易失性内部和/或外部介质。对于计算机702，各种类型的存储介质适应以任何合适的数字格式存储数据。本领域技术人员应理解，可以使用其他类型的计算机可读介质(例如，zip驱动器、固态驱动器、磁带、闪存卡、闪存驱动器、盒式磁带等)用于存储用于执行所公开的架构的新颖方法(动作)的计算机可执行指令。

用户可以使用诸如键盘和鼠标的外部用户输入设备728以及通过语音识别支持的语音命令来与计算机702、程序和数据进行交互。其他外部用户输入设备728可以包括麦克风、IR(红外)遥控器、操纵杆、游戏手柄、相机识别系统、手写笔、触摸屏、手势系统(例如，眼球运动、身体姿势(例如，与一个或多个手、一个或多个手指、一个或多个手臂、头等相关))等。用户可以使用机载用户输入设备730(例如，触摸板、麦克风、键盘等)与计算机702、程序和数据进行交互，其中计算机702例如是便携式计算机。

这些输入和其他输入设备经由系统总线708通过一个或多个输入/输出(I/O)设备接口732连接到一个或多个微处理单元704，但是可以通过其他接口(例如，并行端口、IEEE1394串行端口、游戏端口、USB端口、IR接口、短距离无线(例如，蓝牙)技术和其他个人区域网络(PAN)技术等)进行连接。一个或多个I/O设备接口732也支持使用诸如打印机、音频设备(例如，声卡和/或机载音频处理能力)、相机设备等的输出外围设备734。

一个或多个图形接口736(通常也称为图形处理单元(GPU))在计算机702以及一个或多个外部显示器738(例如，LCD、等离子体)和/或机载显示器740(例如，用于便携式计算机)之间提供图形和视频信号。一个或多个图形接口736也可以被制造成计算机系统板的一部分。

计算机702可以使用经由有线/无线通信子系统742到一个或多个网络和/或其他计算机的逻辑连接在联网环境(例如，基于IP)中操作。其他计算机可以包括工作站、服务器、路由器、个人计算机、基于微处理器的娱乐设备、对等设备或其他公共网络节点，并且通常包括相对于计算机702描述的许多元件或全部元件。逻辑连接可以包括到局域网(LAN)、广域网(WAN)、热点等的有线/无线连接。LAN和WAN联网环境在办公室和公司中是常见的，并且支持企业范围的计算机网络(例如，内联网)，所有这些网络都可以连接到诸如因特网的全球通信网络。

当在联网环境中使用时，计算机702经由有线/无线通信子系统742(例如，网络接口适配器、机载收发机子系统等)连接到网络，以与有线/无线网络、有线/无线打印机、有线/无线输入设备744等通信。计算机702可以包括调制解调器或用于通过网络建立通信的其他方式。在联网的环境中，如与分布式系统相关联的那样，与计算机702相关的程序和数据可以存储在远程存储器/存储设备中。可以理解，所示的网络连接是示例性的，并且可以使用在计算机之间建立通信链路的其他方式。

计算机702可操作以使用诸如IEEE 802.xx系列标准的无线电技术与有线/无线设备或实体进行通信，有线/无线设备或实体例如是与例如打印机、扫描仪、台式和/或便携式计算机、个人数字助理(PDA)、通信卫星、与无线可检测标签相关联的任何设备或位置(例如，信息亭、新闻站、休息室)以及电话进行无线通信(例如，通过无线调制技术的IEEE802.11)的可操作设置的无线设备。这至少包括针对热点、WiMax和Bluetooth^TM无线技术的Wi-Fi^TM(用于证明无线计算机网络设备的互操作性)。因此，通信可以是与传统网络一样的预定义结构，或者仅仅是至少两个设备之间的自组织通信。Wi-Fi网络使用称为IEEE802.11x(a、b、g等)的无线电技术来提供安全、可靠、快速的无线连接。Wi-Fi网络可用于将计算机彼此连接、连接到互联网以及连接到有线网络(使用IEEE 802.3相关的技术和功能)。

架构可以被实现为系统，系统包括：用于访问与视频观看有关并涉及事件的信息的装置；用于从信息中收集训练数据用于标识视频中的实体的装置；用于使用训练数据来训练模型的装置；用于对视频中的实体进行识别处理以标识实体的装置，使用模型来执行识别处理；以及用于呈现与实体相关的内容的装置。

架构可以被实现为备选系统，备选系统包括：用于访问关于实况事件以及关于与实况事件相关联的人物的信息的装置，在视频中捕获并广播实况事件及人物；用于对信息执行已命名的实体识别来获得与实况事件有关的已命名的实体和关联属性列表的装置；用于标识与实况事件相关联的社交媒体消息中的趋势来计算已命名的实体的排序列表的装置；用于获得并处理排序列表中的已命名的实体的图像来输出包括与实况事件相关联的人物的脸部的特征的训练数据的装置；用于使用训练数据来训练模型的装置；以及用于基于训练模型对视频中的人物进行脸部识别处理以标识已命名的实体并返回与已命名的实体相关的内容的装置。

以上描述的内容包括所公开的架构的示例。当然，不可能描述组件和/或方法的每个可设想的组合，但是本领域普通技术人员可以认识到，许多进一步的组合和排列是可能的。因此，新颖的架构旨在涵盖落入所附权利要求的精神和范围内的所有这样的改变、修改和变化。此外，就在具体实施方式或权利要求书中使用术语“包含”而言，这样的术语旨在以类似于术语“包括”的方式(如“包括”在权利要求中使用时被解释为过渡词)是包含性的。

Claims

1.一种系统，包括：

硬件处理器以及存储器设备，所述存储器设备被配置为存储计算机可执行指令，所述计算机可执行指令当由所述处理器执行时使得所述处理器支持计算机可执行组件，所述组件包括：

访问组件，被配置为访问与视频中捕获的事件中的实体相关的信息；

收集组件，被配置为从所述信息中收集训练数据并且用于标识所述视频中的所述实体；

识别组件，被配置为执行所述视频中的所述实体的脸部识别处理以标识特定实体，所述脸部识别处理使用模型来执行；以及

内容组件，被配置为获得与所述特定实体相关的内容，以用于与所述特定实体的所述视频一起呈现。

2.根据权利要求1所述的系统，其中所述事件是经由所述视频捕获的实况事件，并且当所述事件正在发生时，所述视频被流式传输用于在第一设备上观看，当所述视频正在所述第一设备上被观看时，相关的所述内容被呈现在一个或多个其他设备上。

3.根据权利要求1所述的系统，其中所述访问组件被配置为根据预定时间窗口来访问所述信息，所述时间窗口基于所述事件的种类或所述事件的持续时间中的至少一个来确定。

4.根据权利要求1所述的系统，还包括训练组件，所述训练组件被配置为使用训练数据来训练所述模型以学习所述实体的脸部特征，所述训练数据包括所述实体的经标记的图像的集合。

5.根据权利要求1所述的系统，还包括实体识别组件，所述实体识别组件被配置为处理社交媒体消息，并且输出已命名的实体、实体流行度参数以及实体类型信息。

6.根据权利要求1所述的系统，还包括趋势组件，所述趋势组件被配置为访问趋势信息，所述趋势信息指示作为与所述事件相关的趋势的实体，并且所述事件的上下文从所述趋势信息被推断。

7.一种包括计算机可执行指令的计算机实现的方法，所述计算机可执行指令当由硬件处理器执行时使得所述硬件处理器执行以下动作：

访问与视频中的实体相关以及与所述视频中的事件相关的信息；

从所述信息中收集训练数据以用于标识所述视频中的特定实体；

执行所述视频中的实体的识别处理以标识所述实体，所述识别处理使用训练模型来执行；

执行搜索以检索与所述实体相关的内容；以及

呈现与所述实体相关的所述内容。

8.根据权利要求7所述的方法，还包括在所述视频正在被观看时呈现相关的所述内容。

9.根据权利要求7所述的方法，还包括在正在观看所述视频的设备上或在与正在观看所述视频的设备不同的设备上呈现相关的所述内容。

10.根据权利要求7所述的方法，还包括在所述视频正在被观看时访问所述信息、收集所述训练数据、执行所述识别处理、以及呈现所述内容。

11.根据权利要求7所述的方法，还包括在所述视频捕获实况事件时访问所述信息、收集所述训练数据、执行所述识别处理、以及呈现所述内容。

12.根据权利要求7所述的方法，还包括从社交媒体网络并且根据相对于所述事件的预定时间窗口来访问所述信息。

13.根据权利要求7所述的方法，还包括执行名称识别处理以标识从社交媒体获得的所述信息中的名称。

14.根据权利要求7所述的方法，还包括访问关于已命名的实体的趋势信息来推断所述事件的上下文。

15.根据权利要求7所述的方法，还包括呈现与所述实体的经识别的脸部相关联的相关内容。