CN108228705A

CN108228705A - 直播视频反馈中的自动对象和活动跟踪设备、方法及介质

Info

Publication number: CN108228705A
Application number: CN201711171113.8A
Authority: CN
Inventors: 潘简伟; 尤里·列夫丘克; 扎卡里·乔根森
Original assignee: Boeing Co
Current assignee: Boeing Co
Priority date: 2016-12-09
Filing date: 2017-11-21
Publication date: 2018-06-29
Anticipated expiration: 2037-11-21
Also published as: CN108228705B; US10607463B2; EP3333851A1; JP2018117338A; JP7136546B2; US20180165934A1; EP3333851B1

Abstract

提供一种用于直播视频反馈中的自动对象和活动跟踪的设备、方法及计算机可读储存介质。设备接收并处理直播视频反馈，以识别其中的多个对象和活动。设备还使用由此识别的多个对象和活动生成描述直播视频反馈的故事情节的自然语言文本。使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理直播视频反馈。然后，设备利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。

Description

直播视频反馈中的自动对象和活动跟踪设备、方法及介质

技术领域

本公开整体上涉及对象和活动跟踪，且具体地，涉及跟踪并描述直播视频反馈内的对象和活动的故事情节。

背景技术

目前，对更为精密的视频监视系统的需求正在增加。该需求主要由寻求使用监视视频不仅增强安全性能、而且还提高用于改善其企业运营的态势感知的组织推动。例如，零售商和面向客户的分支网络运营商利用来自视频的洞察力来优化其运营并且更好地理解客户的行为。在另一实例中，机场、火车站、以及其他公共交通运营商监控视频来促进人员交通流动、检测运营事故，并且使用预测性建模来优化其运营。

随着对视频监视系统的安装的这种快速增加，监视系统的现有运营团队不能够有效地处理和保持正在生成的大量视频数据，这导致产生大量看不见的录像片段。因此，大多数视频监视安装仅用于事后的法庭和证据目的。为了最大化与视频监视录像片段相关的洞察力，大量地利用人类分析者来监控诸如可疑行为、对象辨别、交通监控、事故检测、面部匹配、安全警报、异常检测、以及人群计数等活动的视频。视频处理的这种手动使用效率低下且容易出错。

因此，可希望具有一种至少考虑上面讨论的一些问题以及可能的其他问题的系统和方法。

发明内容

本公开的示例性实现方式针对一种用于直播视频反馈中的自动对象和活动跟踪的改进的设备、方法以及计算机可读储存介质。在一些示例性实现方式中，提供一种用于直播视频反馈中的自动对象和活动跟踪的方法。该方法包括接收直播视频反馈。该方法还包括处理直播视频反馈，以识别其中的多个对象和活动，并且使用由此识别的多个对象和活动生成描述直播视频反馈的故事情节的自然语言文本。使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录处理直播视频反馈。该方法还包括利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。

在前述方法的一些示例性实现方式或任意后续示例性实现方式或其任何组合中，该方法进一步包括使用机器学习保持可识别对象和活动的目录，包括利用该多个对象和活动中的至少一些的属性更新目录中的对应对象和活动。

在任意前述方法的一些示例性实现方式或任意后续示例性实现方式或其任意组合中，该方法进一步包括：接收指定感兴趣的对象或感兴趣的活动的用户输入；处理直播视频反馈，以进一步识别该多个对象和活动中的感兴趣的对象或感兴趣的活动；并且从空间和时间上跟踪直播视频反馈中的感兴趣的对象，或者生成警报以指示对直播视频反馈中的感兴趣的活动的识别。

在任意前述方法的一些示例性实现方式或任意后续示例性实现方式或其任何组合中，生成自然语言文本包括对自然语言文本并且由此对仅与感兴趣的对象或感兴趣的活动有关的故事情节进行过滤。

在任意前述方法的一些示例性实现方式或任意后续示例性实现方式或其任何组合中，处理直播视频反馈进一步包括生成描述该多个对象和活动的信息的对应数据库，并且该方法进一步包括接收指定对关于多个对象和活动中的至少一个对象或活动的信息的请求的用户输入。响应于此，该方法包括：基于请求查询数据库；并且生成和输出用于显示的、响应于请求的自然语言文本。

在任意前述方法的一些示例性实现方式或任意后续示例性实现方式、或其任何组合中，处理直播视频反馈以识别多个对象和活动包括：基于对来自多个对象和活动的至少两个预定义对象或活动的识别来预测未来感兴趣的结果；并且生成指示由此预测的未来感兴趣的结果的警报。

在任意前述方法的一些示例性实现方式或任意后续示例性实现方式或其任何组合中，预测未来感兴趣的结果包括：识别直播视频的当前帧内的至少两个预定义对象或活动中的至少一个和直播视频的当前帧或后续帧内的至少两个预定义对象或活动中的另一个。

在一些示例性实现方式中，提供一种用于直播视频反馈中的自动对象和活动跟踪的设备。该设备包括处理器和储存可运行指令的存储器，该可运行指令响应于通过处理器的运行而致使设备实现多个子系统，诸如，被配置为至少执行任意前述示例性实现方式或其任意组合中的方法的接收器、识别器以及文本生成器等。

在一些示例性实现方式中，提供一种用于直播视频反馈中的自动对象和活动跟踪的计算机可读储存介质。该计算机可读储存介质是非易失性的并具有储存在其中的计算机可读程序代码部分，该计算机可读程序代码部分响应于通过处理器的运行而致使设备至少执行任意前述示例性实现方式或其任意组合中的方法。

从对下面简要描述的以下具体实施方式部分以及所附附图的阅读中，本公开的这些特征及其他特征、方面以及优点将显而易见。无论该特征或元件是否被明确组合或以其他方式在本文中描述的特定示例性实现方式中叙述，本公开包括该公开中阐述的两个、三个、四个或更多个特征的任意组合。本公开旨在从整体上阅读，因此，除非本公开的上下文另有明确指示，否则，就其任意方面和示例性实现方式而言，本公开的任何独立特征或元件应被视为预期的，即，可组合的。

因此，应认识到，提供该发明内容仅用于总结一些示例性实现方式的目的，从而提供对本公开的一些方面的基本理解。因此，应认识到，以上描述的示例性实现方式仅是实例，而不应被视为以任何方式缩小本公开的范围或实质。从结合所附附图做出的以下具体实施方式部分，其他示例性实现方式、方面以及优点将变得显而易见，所附附图通过实例的方式示出了一些所描述的示例性实现方式的原理。

附图说明

因此，现将参考所附附图概括地描述本公开的示例性实现方式，所附附图并不一定必须按比例进行绘制，并且其中：

图1是根据本公开的示例性实现方式的用于直播视频反馈中的自动对象和活动跟踪的系统的图示；

图2示出了根据一些示例性实现方式的图1中的合适的识别器；

图3示出了根据一些示例性实现方式的合适的直播视频反馈及对应的文本显示；

图4是示出根据示例性实现方式的用于直播视频反馈中的自动对象和活动跟踪的方法的各种操作的流程图；并且

图5示出了根据一些示例性实现方式的设备。

具体实施方式

在下文中，现将参考所附附图更全面地描述本公开的一些实现方式，其中，示出了本公开中的一些但并非全部的实现方式。实际上，本公开的各种实现方式可以许多不同的形式体现，而不应被视为局限于本文中阐述的实现方式；相反地，提供的这些示例性实现方式使得该公开将是全面且完整的，并且将本公开的范围充分传递给本领域技术人员。例如，除非另有指示，否则，被称为第一、第二等的某事物不应被视为暗示具体的顺序。此外，例如，此处可以参考定量测量、值、关系等。除非另有陈述，否则，任意一个或多个(如果并非这些中的全部)可以是绝对的或由于可接受变量(诸如由于工程误差等而产生的那些)而近似的。类似的参考标号通篇指代类似的元件。

本公开中的示例性实现方式整体上针对对象和活动跟踪，且具体地，针对跟踪并描述直播视频反馈内的对象和活动的故事情节。主要将结合用于视频监视和分析系统的应用对示例性实现方式进行描述。然而，应当理解的是，可以结合各种其他应用(诸如航空工业和航空工业之外的其他应用)利用示例性实现方式。

更具体地，本公开的示例性实现方式针对一种被配置为(例如，经由视频摄像机)接收视频反馈并被训练成使用计算机视觉、自然语言处理以及机器学习模型的组合来自动识别视频反馈中呈现的各种对象和活动的系统。该系统被配置为接收由人类操作员指定的用户输入或查询并做出响应而推断人类感兴趣的对象或活动。进一步地，基于用户查询，系统被配置为出于跟踪和警告的目的而将其识别过程自动聚焦于感兴趣的对象和活动。系统还通过跨视频反馈的多个帧跟踪它们的空间时间关系来生成描述观察或识别到的对象和活动的实时、易理解的故事情节。

图1示出了用于直播视频反馈中的自动对象和活动跟踪的系统100，此处，其可被简称为“系统”。该系统被配置为自动、在直接操作员控制下或其一些组合而执行多种不同的功能或操作。在一些实施例中，系统被配置为自动执行其功能或操作中的一个或多个，即，无需通过操作员的直接控制。此外地或替代地，在一些实施例中，系统被配置为在直接操作员控制下执行其功能或操作中的一个或多个。

根据本公开的示例性实现方式，系统100被配置为执行各种功能或操作，以跟踪直播视频反馈内的对象和活动，并且生成描述对象和活动的故事情节。在一些示例性实现方式中，系统被配置为接收并处理直播视频反馈。在这些示例性实现方式中，系统被配置为处理直播视频反馈，以识别其中的多个对象和多个活动，并且使用由此识别的多个对象和活动生成描述直播视频反馈的故事情节的自然语言文本。使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理直播视频反馈。

因此，系统被配置为利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。

系统100可以包括彼此耦合以用于执行一个或多个功能或操作的多种不同子系统中的每个(每个均是独立系统)中的一个或多个。如图1所示，在一些实施例中，系统包括彼此耦合的接收器102、识别器104以及文本生成器106。尽管被示出为系统的一部分，然而，接收器、识别器或文本生成器可与系统通信，而非独立于系统。还应理解的是，任一子系统可用作或操作为独立的系统，与其他子系统无关。并且进一步地，应理解的是，系统可包括除图1所示的那些以外的一个或多个额外或替代子系统。

如下面更详细说明的，接收器102、识别器104以及文本生成器106被配置为执行系统100中的相应功能或操作。在一些实现方式中，接收器被配置为接收直播视频反馈。在一些实施例中，用户指定由直播流链接或视频文件接收的直播视频源。识别器被配置为处理直播视频反馈，以识别其中的多个对象和活动。如此处讨论的，接收器和文本生成器可以彼此操作性地耦合，以用作视频到文本(或加字幕)引擎，并且识别器和文本生成器可以彼此操作性地耦合，以用作端到端查询和响应引擎。接收器用作初始处理单元，其接收直播视频流或视频文件作为输入并将直播视频分成单独的图像帧。

为了初始处理直播视频反馈，接收器102被配置为快速地从视频提取帧。在一些实例中，提取视频帧的速度与系统的可允许数据传输带宽相关。因此，识别器104识别或辨别帧内感兴趣的不同区域和对象。一经识别，文本生成器106则生成描述可由系统辨别的帧内感兴趣的不同区域和对象的一个或多个自然语言文本串。然后，将文本串馈送至识别器的查询引擎，以确定对于用户发起的查询的最佳匹配答案或响应。

如上面指出的，使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理直播视频反馈。在利用识别器104和文本生成器106之前，它们请求一次性训练过程。对训练过程的输入由一组视频帧及对应的字幕构成，其中，每个图像-字幕对均构成一个训练实例，在一些实例中，通过人类专家准备大量的适当域训练实例。

例如，训练实例用于使用反向传播算法调节神经网络的权重。在一些实现方式中，通过机器学习技术(诸如，深度学习神经网络或其他合适的方法等)训练识别器104，以自动检测对象和活动的属性。利用视觉特征和语言输入(诸如，文本、语音等)这两者也可以训练识别器，因此，其变得能够自动实时地解释并且描述语言输出(例如，文本和语音)中视频情景。在一些实例中，出于训练的目的，系统被配置为使用机器学习保持可识别对象和活动的目录。例如，这可以包括利用多个对象和活动中的至少一些的属性来更新目录中的对应对象和活动。

在一些实例中，训练过程包括使用神经网络(例如，卷积神经网络)处理各个提取的帧，该神经网络对于帧的不同区域生成外观特征的矩阵。在这些实例中，将矩阵传递至另一卷积神经网络，该另一卷积神经网络选择可以基于用户输入指定的预定数目的帧区域(感兴趣的区域)并且输出包含用于所选择区域的坐标的三个矩阵(每个区域四个坐标)。卷积神经网络还分别针对各个区域输出指示感兴趣的对应区域的可能性的概率并针对各个区域输出一组特征。然后，将关于感兴趣的区域的特征传递至一对充分连接的神经网络层，该对充分连接的神经网络层针对生成堆叠式矩阵的各个区域生成特征的紧凑型的、固定大小的编码。将堆叠式矩阵传递至从递归神经网络(例如，长短期记忆网络(LSTM))构建的语言模型中。

进一步地，在这些实例中，将关于帧区域的视觉特征输入至递归神经网络中并对令牌(例如，词)进行采样。然后，将采样的令牌输入至LSTM中并且对另一令牌进行采样，并且该过程继续循环，直至生成结束令牌。该系列的采样词形成区域中的句子描述或字幕。在更具体的实例中，识别器104被配置为检测并辨别之前被识别的对象和活动(例如，人类和对象)。识别器还被配置为分析感兴趣区域内的对象和活动之间的空间距离、将这些对象和活动与之前采样的自然语言文本描述进行匹配并输出被确定为与感兴趣区域匹配的句子描述。

将后续描述以及感兴趣的对应区域的坐标储存在存储器中，以用于为由人类用户接收的查询提供响应。然而，仅将与之前帧明显不同的帧对应的所生成的描述储存在存储器中。例如，如果描述不与从之前帧生成的描述充分不同，则其将被拒绝并且不储存在存储器中。在一些可替代实例中，独立引擎被配置为评估连续帧之间的不同图像并仅处理与之前帧明显不同的帧。进一步地，仅将预定数目的描述储存在存储器中，因此，当存储器变满时，从存储器清除最老的描述，以为更新的描述分配储存空间。

在一些实例中，为每个句子描述提供识别编号并与其他之前生成的描述一起储存在存储器中。将整组描述转换成固定大小的存储器矢量，其通过将每个描述嵌入到连续空间内而计算。这些步骤形成代表整组的嵌入矩阵。然后，将后续描述写入存储器中，直到固定的缓冲器大小，其能通过默认设置或由用户从系统图形用户界面(GUI)预定义。

图2示出了一些实例中可与图1中的识别器104对应的识别器200的合适的实例。如所示的，在一些实现方式中，识别器包括彼此耦合以用于执行一个或多个功能或操作以处理并分析直播视频反馈的查询引擎202、跟踪器204、警报引擎206、预测器208以及数据库210。在一些实例中，查询引擎被配置为接收指定感兴趣的对象或感兴趣的活动的用户输入并处理直播视频反馈，以进一步识别多个对象和活动中的感兴趣的对象或感兴趣的活动。在这些实例中，跟踪器被配置为从空间和时间上跟踪直播视频反馈中的感兴趣的对象。在一些实例中，跟踪器被配置为独立于感兴趣的对象或活动对于目录内的多个对象和活动中的每个跟踪空间和时间信息。进一步地，在实例中，警报引擎被配置为生成指示直播视频反馈中的感兴趣的活动的识别的警报。

在一些实例中，识别器200被配置为处理直播视频反馈，以生成描述多个对象和活动的信息的对应数据库210。在这些实例中，查询引擎202被配置为接收指定对关于多个对象和活动中的至少一个对象或活动的信息的请求的用户输入，并且基于请求查询数据库。例如，用户能够提交包括关于直播视频反馈的开放式、自由形式的自然语言问题的查询。这些问题可以进一步指示识别器200应将系统的分析和辨别资源集中在哪些地方。基于该指定的分析，系统能够生成与用户的问题或兴趣相关的自然语言答案或警示消息。在一些实例中，进一步利用用户输入作为训练识别器200自动辨别用户感兴趣的对象和活动的方式，例如，在一个实例中，基于用户输入和对应响应的组合训练查询引擎，因此，与基于请求查询数据库相反，一旦收到用户输入，查询引擎则被配置为推断正确的响应。

在一些实例中，识别器200被配置为处理直播视频反馈，以预测未来的结果。具体地，预测器208被配置为基于对来自该多个对象和活动的至少两个预定义对象或活动的识别来预测未来感兴趣的结果。例如，这可以包括至少识别直播视频的当前帧内的至少两个预定义对象或活动中的一个和直播视频的当前帧或后续帧内的至少两个预定义对象或活动中的另一个。作为响应地，警报引擎206被配置为生成指示由此预测的未来感兴趣的结果的警报。例如，响应于检测或预测与在直播视频内识别的多个对象和活动相关的任何可疑行为或异常情况，警报引擎可以通过界面(诸如电子邮件、显示器的图形用户界面等)将警示消息快速地传送至用户。

在更具体的实例中，人类用户查询问题q，并且通过利用鼠标点击感兴趣的对象或活动而选择感兴趣的对象或活动。用户还可以指定感兴趣的持续时间。然后，查询引擎将查询及其他输入嵌入到另一矩阵B中。在该矩阵中，通过内部状态矢量定义问题。通过使内积遵循多项逻辑斯蒂回归(例如，柔性最大回归)，在内部状态矢量与所储存的第i个描述的存储器之间执行匹配。这些步骤以概率形式p_i形成用于后续描述x和q两者的连续表示法，其也被视为通过描述形成的匹配的概率。

进一步地，在这些实例中，应用多步骤机制，其中，通过多个计算跳跃处理连续表示法，以确定与用户给出的输入集合匹配最佳的答案。在一些实例中，通过反向传播训练系统，以自动执行计算步骤。通过堆叠存储器嵌入矩阵和另一对应矩阵的多层来支持多步骤计算。这些层形成为使得来自查询的输出和输入的总和形成下一层输入。然后，系统预测最佳匹配答案。通过计算出的关注权重矩阵和多项逻辑斯蒂回归(例如，柔性最大回归)由输出矢量与输入查询内部状态的总和生成该最终预测。如上所述，在训练过程(诸如反向传播算法)中形成关注权重矩阵。在一些实例中，系统从充足的指定域训练数据中获知系统将提供与用户的指定域相关的答案。

再次参考图1，使用通过识别器104识别的多个对象和活动，因此，文本生成器106则被配置为生成描述直播视频反馈的故事情节的自然语言文本，并且利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。图3示出了示例性视频反馈302和具有描述直播视频反馈的故事情节的对应自然语言文本的显示器304。在一些实例中，文本生成器被配置为对自然语言文本并且由此对仅与感兴趣的对象或感兴趣的活动有关的故事情节进行过滤。在一些实例中，其中，查询引擎202被配置为接收指定对关于该多个对象和活动中的至少一个对象或活动的信息的请求的用户输入，并且基于请求查询数据库，文本生成器106被配置为生成和输出用于显示的、响应于请求的自然语言文本。在一些实现方式中，文本生成器进一步被配置成生成文本日志，其中，描述故事情节或直播视频反馈或更具体地响应于用户请求的自然语言文本被记录成可搜索的格式，以在后续用户请求过程中用于快速检索目的。

图4示出了包括用于直播视频反馈中的自动对象和活动跟踪的方法400的各种操作的流程图。如框图402所示，方法包括接收直播视频反馈。如框图404所示，该方法还包括处理直播视频反馈，以识别其中的多个对象和活动，并且使用由此识别的多个对象和活动生成描述直播视频反馈的故事情节的自然语言文本。使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理直播视频反馈。如框图406所示，该方法还包括利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。

根据本公开中的一些示例性实现方式，通过各种装置可以实现系统100及其子系统和/或部件，包括接收器102、识别器104以及文本生成器106。相似地，通过各种装置可以实现识别器200及其相应的子系统和/或部件。用于实现系统、子系统及其相应元件的装置可以单独或在来自计算机可读储存介质的一个或多个计算机程序的指引下包括硬件。

在一些实例中，可以提供被配置为用作或以其他方式实现本文中示出和描述的系统、子系统、工具以及相应元件的一个或多个设备。在涉及一个以上设备的实例中，相应的设备可以通过多个不同的方式()彼此连接或以其他方式彼此通信，诸如，经由有线或无线网络等直接或间接地连接或通信。

图5示出了根据本公开的一些示例性实现方式的设备500。通常，本公开中的示例性实现方式的设备可以包括、包含或嵌入到一个或多个固定或便携式电子设备中。合适的电子设备的实例包括智能手机、平板电脑、膝上型电脑、台式电脑、工作站计算机、服务器计算机等。例如，设备可以包括多个部件中的每个中的一个或多个，诸如与存储器504(例如，储存设备)连接的处理器502(例如，处理器单元)。

通常，处理器502是能够处理信息(诸如，数据、计算机程序和/或其他合适的电子信息)的任一件计算机硬件。处理器由电子电路的集合构成，其中一些可被打包成集成电路或多个互连的集成电路(更常见地，集成电路有时被称为“芯片”)。处理器可被配置为运行计算机程序，该计算机程序可以机载地储存在处理器上或以其他方式储存在(同一或另一设备的)存储器504中。

处理器502可以是多个处理器、多处理器内核或一些其他类型的处理器，依具体实现方式而定。进一步地，使用多个异构处理器系统可以实现处理器，其中，在单个芯片上设置有主处理器以及一个或多个次处理器。作为另一说明性实施例，处理器可以是包含同一类型的多个处理器的对称式多处理器系统。在又一个实施例中，处理器可以体现为或以其他方式包括一个或多个专用集成电路(ASIC)、现场可编程门阵列(FPGA)等。因此，尽管处理器能够运行计算机程序以执行一种或多种功能，然而，各种实例的处理器能够在没有计算机程序的帮助的情况下执行一种或多种功能。

通常，存储器504是能够将信息(诸如，数据、计算机程序(例如，计算机可读程序代码506)和/或其他合适的信息)储存在临时基础和/或永久基础上的任一件计算机硬件。存储器可以包括易失性和/或非易失性存储器，并且可以是固定和/或可移除的。合适的存储器的实例包括随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器、闪存、拇指驱动器、可移除计算机磁盘、光盘、磁带或上面的一些组合。光盘可以包括光盘只读存储器(CD-ROM)、光盘读/写(CD-R/W)、DVD等。在各种实例中，存储器可被称为计算机可读储存介质。计算机可读储存介质是能够储存信息的非暂时性装置，并且与能够将信息从一个位置传送至另一个位置的计算机可读传输媒介(诸如电子暂时信号)区别开。如本文中描述的计算机可读介质通常可以被称为计算机可读储存介质或计算机可读传输介质。

除存储器以外，处理器还可以连接至用于显示、发送和/或接收信息的一个或多个接口508。接口可以包括通信接口(例如，通信单元)和/或一个或多个用户界面。通信接口可以被配置为发送和/或接收信息，诸如将信息发送至其他装置、网络等和/或从其他装置、网络等接收信息。通信接口可以被配置为通过物理(有线)和/或无线通信链接发送和/或接收信息。适合的通信接口的实施例包括网络接口控制器(NIC)、无线NIC(WNIC)等。

用户界面可以包括显示器510和/或一个或多个用户输入界面512(例如，输入/输出单元)。显示器可以被配置为将信息呈现或以其他方式显示给用户，合适的实例包括液晶显示器(LCD)、发光二极管显示器(LED)、等离子显示面板(PDP)等。

用户输入界面512可以是有线或无线的，并且可以被配置为将来自用户的信息接收到设备中，诸如，用于处理、储存、和/或显示。用户输入界面的合适的实例包括麦克风、图像或视频捕获设备、键盘或键区、操纵杆、触摸感测表面(独立于或被集成到触摸屏中)、生物传感器等。用户界面可以进一步包括用于与外围设备(诸如打印机、扫描仪等)通信的一个或多个界面。

如上面指出的，可以将程序代码指令储存在存储器中，并且通过处理器运行，以实现本文中描述的系统、子系统及其相应元件的功能。如应认识到的，可以将任何合适的程序代码指令从计算机可读储存介质加载到计算机或其他可编程设备中，以产生具体的机器，因此，该具体的机器变成用于实现本文中指定的功能的装置。这些程序代码指令还可以储存在能够指挥计算机、处理器或其他可编程设备以具体方式操作以由此生成具体的机器或具体的制造制品的计算机可读储存介质中。储存在计算机可读储存介质中的指令可以产生制造制品，其中，制造制品变成用于实现本文中描述的功能的装置。从计算机可读储存介质中可以检索程序代码指令，并且将程序代码指令加载到计算机、处理器或其他可编程设备中，以将计算机、处理器或其他可编程设备配置成运行待在计算机、处理器或其他可编程设备上或通过计算机、处理器或其他可编程设备执行的操作。

可以相继地执行程序代码指令的检索、加载以及运行，因此，一次检索、加载并且运行一个指令。在一些示例性实现方式中，可以并行执行检索、加载和/或运行，以使得同时检索、加载和/或运行多个指令。程序代码指令的运行可产生计算机实现的过程，因此，由计算机、处理器或其他可编程设备运行的指令提供用于实现本文中描述的功能的操作。

由处理器运行指令或在计算机可读储存介质中储存指令支持用于执行指定功能的操作的组合。如此，设备500可以包括处理器502和耦合至处理器的计算机可读储存介质或存储器504，其中，处理器被配置为运行储存在存储器中的计算机可读程序代码506。还应理解的是，通过执行指定功能的基于专用硬件的计算机系统和/或处理器、或专用硬件与程序代码指令的组合可以实现一种或多种功能及功能的组合。

进一步地，本公开包括根据下列条款的实施方式：

条款1.一种用于直播视频反馈中的自动对象和活动跟踪的设备，设备包括处理器和储存可运行指令的存储器，可运行指令响应于通过处理器的运行而致使设备至少：

接收直播视频反馈；

处理直播视频反馈，以识别其中的多个对象和活动，并且使用由此识别的多个对象和活动生成描述直播视频反馈的故事情节的自然语言文本，其中，使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理直播视频反馈；并且

利用直播视频反馈的显示器在听觉上或在视觉上输出自然语言文本。

条款2.根据条款1所述的设备，其中，存储器储存进一步可运行指令，进一步可运行指令响应于通过处理器的运行而致使设备使用机器学习保持可识别对象和活动的目录，包括致使设备利用该多个对象和活动中的至少一些的属性更新目录中的对应对象和活动。

条款3.根据条款1-2中任一项所述的设备，其中，存储器储存进一步可运行指令，进一步可运行指令响应于通过处理器的运行而致使设备至少：

接收指定感兴趣的对象或感兴趣的活动的用户输入；

处理直播视频反馈，以进一步识别该多个对象和活动中的感兴趣的对象或感兴趣的活动；并且

从空间和时间上跟踪直播视频反馈中的感兴趣的对象，或者生成指示直播视频反馈中的感兴趣的活动的识别的警报。

条款4.根据条款3所述的设备，其中，生成自然语言文本的设备对自然语言文本并且由此对仅与感兴趣的对象或感兴趣的活动有关的故事情节进行过滤。

条款5.根据条款1-4中任一项所述的设备，其中，处理直播视频反馈的设备进一步包括致使设备生成描述该多个对象和活动的信息的对应数据库，并且存储器储存进一步可运行的指令，该进一步可运行的指令响应于通过处理器的运行而致使设备至少：

接收指定对关于该多个对象和活动中的至少一个对象或活动的信息的请求的用户输入；并且响应于此，

基于请求查询数据库；并且

生成和输出用于显示的、响应于请求的自然语言文本。

条款6.根据条款1-5中任一项所述的设备，其中，被致使处理直播视频反馈以识别多个对象和活动的设备包括被致使至少：

基于对多个对象和活动中的至少两个预定义对象或活动的识别来预测未来感兴趣的结果；并且

生成指示由此预测的未来感兴趣的结果的警报。

条款7.根据条款6所述的设备，其中，被致使预测未来感兴趣的结果的设备包括被致使至少识别直播视频的当前帧内的至少两个预定义对象或活动中的至少一个和直播视频的当前帧或后续帧内的至少两个预定义对象或活动中的另一个。

条款8.一种用于直播视频反馈中的自动对象和活动跟踪的方法，该方法包括：

接收直播视频反馈；

条款9.根据条款8所述的方法，进一步包括使用机器学习保持可识别对象和活动的目录，包括利用该多个对象和活动中的至少一些的属性更新目录中的对应对象和活动。

条款10.根据条款8-9中任一项所述的方法，进一步包括：

接收指定感兴趣的对象和感兴趣的活动的用户输入；

条款11.根据条款10所述的方法，其中，生成自然语言文本包括对自然语言文本并且由此对仅与感兴趣的对象或感兴趣的活动有关的故事情节进行过滤。

条款12.根据条款8-11中任一项所述的方法，其中，处理直播视频反馈进一步包括生成描述该多个对象和活动的信息的对应数据库，并且该方法进一步包括：

基于请求查询数据库；并且

生成和输出用于显示的、响应于请求的自然语言文本。

条款13.根据条款8-12中任一项所述的方法，其中，处理直播视频反馈以识别该多个对象和活动包括：

基于对该多个对象和活动中的至少两个预定义对象或活动的识别来预测未来感兴趣的结果；并且

生成指示由此预测的未来感兴趣的结果的警报。

条款14.根据条款13所述的方法，其中，预测未来感兴趣的结果包括至少识别直播视频的当前帧内的至少两个预定义对象或活动中的至少一个和直播视频的当前帧或后续帧内的至少两个预定义对象或活动中的另一个。

条款15.一种用于直播视频反馈中的自动对象和活动跟踪的计算机可读储存介质，计算机可读储存介质具有储存于其中的计算机可读程序代码，计算机可读程序代码响应于通过处理器的运行而致使设备至少：

接收直播视频反馈；

条款16.根据条款15所述的计算机可读储存介质，具有储存于其中的计算机可读程序代码，计算机可读程序代码响应于通过处理器的运行而致使设备使用机器学习进一步至少保持可识别对象和活动的目录，包括致使设备利用该多个对象和活动中的至少一些的属性更新目录中的对应对象和活动。

条款17.根据条款15-16中任一项所述的计算机可读储存介质，具有储存于其中的计算机可读程序代码，计算机可读程序代码响应于通过处理器的运行而致使设备进一步至少：

接收指定感兴趣的对象或感兴趣的活动的用户输入；

条款18.根据条款15-17中任一项所述的计算机可读储存介质，其中，被致使生成自然语言文本的设备包括被致使为对自然语言文本并且由此对仅与感兴趣的对象或感兴趣的活动有关的故事情节进行过滤。

条款19.根据条款15-18中任一项所述的计算机可读储存介质，其中，被致使为处理直播视频反馈的设备进一步包括该设备被致使生成描述该多个对象和活动的信息的对应数据库，并且计算机可读储存介质具有储存于其中的计算机可读程序代码，计算机可读程序代码响应于通过处理器的运行而致使设备进一步至少：

基于请求查询数据库；并且

生成和输出用于显示的、响应于请求的自然语言文本。

条款20.根据条款15-19中任一项所述的计算机可读储存介质，其中，被致使处理直播视频反馈以识别该多个对象和活动的设备包括被致使至少：

基于对该多个对象和活动中的至少两个预定义对象或活动的识别预测未来感兴趣的结果；并且

生成指示由此预测的未来感兴趣的结果的警报。

条款21.根据条款20所述的计算机可读储存介质，其中，被致使预测未来感兴趣的结果的设备包括被致使至少识别直播视频的当前帧内的至少两个预定义对象或活动中的至少一个和直播视频的当前帧或后续帧内的至少两个预定义对象或活动中的另一个。

本公开所属领域技术人员应想到本文中阐述的本公开的多个变形及其他实现方式具有以上描述及相关联的附图中呈现的教导的益处。因此，应当理解的是，本公开并不局限于所公开的具体实现方式，并且变形及其他实现方式旨在包括在所附权利要求的范围内。而且，尽管以上描述及相关联的附图在元件和/或功能的特定示例性组合的上下文中描述了示例性实现方式，然而，应认识到，在不背离所附权利要求的范围的情况下，通过替代实现方式可以提供元件和/或功能的不同组合。在这方面，例如，如在一些所附权利要求中所阐述的，还构想了与上面明确描述的那些不同的元件和/或功能的组合。尽管本文中采用了指定的术语，然而，其仅用于一般性和描述性的意义而不用于限制性的目的。

Claims

1.一种用于直播视频反馈中的自动对象和活动跟踪的设备(500)，所述设备(500)包括处理器(502)和储存可运行指令的存储器(504)，所述可运行指令响应于通过所述处理器(502)的运行而致使所述设备(500)至少：

接收直播视频反馈；

处理所述直播视频反馈，以识别其中的多个对象和活动，并且使用由此识别的所述多个对象和活动生成描述所述直播视频反馈的故事情节的自然语言文本，其中，使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理所述直播视频反馈；并且

利用所述直播视频反馈的显示器在听觉上或在视觉上输出所述自然语言文本。

2.根据权利要求1所述的设备，其中，所述存储器(504)储存进一步可运行指令，所述进一步可运行指令响应于通过所述处理器(502)的运行而致使所述设备(500)使用所述机器学习保持所述可识别对象和活动的所述目录，包括致使所述设备(500)利用所述多个对象和活动中的至少一些的属性更新所述目录中的对应对象和活动。

3.根据权利要求1-2中任一项所述的设备，其中，所述存储器(504)储存进一步可运行指令，所述进一步可运行的指令响应所述处理器(502)的运行而致使所述设备(500)至少：

接收指定感兴趣的对象或感兴趣的活动的用户输入；

处理所述直播视频反馈，以进一步识别所述多个对象和活动中的所述感兴趣的对象或所述感兴趣的活动；并且

从空间和时间上跟踪所述直播视频反馈中的所述感兴趣的对象，或者生成指示所述直播视频反馈中的所述感兴趣的活动的识别的警报。

4.根据权利要求3所述的设备，其中，生成所述自然语言文本的所述设备对所述自然语言文本并且由此对仅与所述感兴趣的对象或所述感兴趣的活动有关的所述故事情节进行过滤。

5.根据权利要求1-2中任一项所述的设备，其中，处理所述直播视频反馈的所述设备进一步包括致使所述设备生成描述所述多个对象和活动的信息的对应数据库，并且所述存储器(504)储存进一步可运行指令，所述进一步可运行指令响应于通过所述处理器(502)的运行而致使所述设备至少：

接收指定对关于所述多个对象和活动中的至少一个对象或活动的信息的请求的用户输入；并且响应于此，

基于所述请求查询所述数据库；并且

生成和输出用于显示的、响应于所述请求的自然语言文本。

6.根据权利要求1-2中任一项所述的设备，其中，被致使处理所述直播视频反馈以识别所述多个对象和活动的所述设备包括被致使至少：

基于对所述多个对象和活动中的至少两个预定义对象或活动的识别来预测未来感兴趣的结果；并且

生成指示由此预测的所述未来感兴趣的结果的警报。

7.根据权利要求6所述的设备，其中，被致使预测所述未来感兴趣的结果的所述设备包括被致使至少识别所述直播视频反馈的当前帧内的所述至少两个预定义对象或活动中的至少一个和所述直播视频反馈的所述当前帧或后续帧内的所述至少两个预定义对象或活动中的另一个。

8.一种用于直播视频反馈中的自动对象和活动跟踪的方法(400)，所述方法包括：

接收直播视频反馈(402)；

处理所述直播视频反馈，以识别其中的多个对象和活动，并且使用由此识别的所述多个对象和活动生成描述所述直播视频反馈的故事情节的自然语言文本，其中，使用计算机视觉、自然语言处理和机器学习以及可识别对象和活动的目录来处理所述直播视频反馈(404)；并且

利用所述直播视频反馈的显示器在听觉上或在视觉上输出所述自然语言文本(406)。

9.根据权利要求8所述的方法，进一步包括使用所述机器学习保持所述可识别对象和活动的所述目录，包括利用所述多个对象和活动中的至少一些的属性更新所述目录中的对应对象和活动。

10.根据权利要求8-9中任一项所述的方法，进一步包括：

接收指定感兴趣的对象或感兴趣的活动的用户输入；

11.根据权利要求10所述的方法，其中，生成所述自然语言文本包括对所述自然语言文本并且由此对仅与所述感兴趣的对象或所述感兴趣的活动有关的所述故事情节进行过滤。

12.根据权利要求8-9中任一项所述的方法，其中，处理所述直播视频反馈进一步包括生成描述所述多个对象和活动的信息的对应数据库，并且所述方法进一步包括：

基于所述请求查询所述数据库；并且

生成和输出用于显示的、响应于所述请求的自然语言文本。

13.根据权利要求8-9中任一项所述的方法，其中，处理所述直播视频反馈以识别所述多个对象和活动包括：

生成指示由此预测的所述未来感兴趣的结果的警报。

14.根据权利要求13所述的方法，其中，预测所述未来感兴趣的结果包括识别所述直播视频反馈的当前帧内的所述至少两个预定义对象或活动中的至少一个和所述直播视频反馈的所述当前帧或后续帧内的所述至少两个预定义对象或活动中的另一个。

15.一种用于直播视频反馈中的自动对象和活动跟踪的计算机可读储存介质(504)，所述计算机可读储存介质(504)具有储存于其中的计算机可读程序代码(506)，所述计算机可读程序代码(506)响应于通过处理器(502)的运行而致使设备至少：

接收直播视频反馈；