CN110622176A

CN110622176A - 视频分区

Info

Publication number: CN110622176A
Application number: CN201880031932.9A
Authority: CN
Inventors: 楚航; M.尼希巴; A.C.加拉赫; U.普拉布赫
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2017-11-15
Filing date: 2018-10-31
Publication date: 2019-12-27
Anticipated expiration: 2038-10-31
Also published as: US10628486B2; WO2019099198A1; CN110622176B; US20190147105A1; EP3610421A1

Abstract

用于对视频进行分区的方法、系统和装置，包括在计算机存储介质上编码的计算机程序。在一个方面，该方法包括获得将视频分成一个或多个镜头的分区。生成每个镜头的特征，包括视觉特征和音频特征。将每个镜头的所生成的特征作为输入提供给分区神经网络，该分区神经网络被配置为处理所生成的特征以生成分区神经网络输出。基于分区神经网络输出确定将视频分成一个或多个章节的分区，其中，章节是被确定为在一个或多个位置处拍摄的、在语义上相关的一系列连续镜头。

Description

视频分区

背景技术

本说明书涉及使用机器学习模型处理数据。

机器学习模型接收输入，并基于接收到的输入生成输出(例如，预测的输出)。一些机器学习模型是参数模型，并且它们基于接收到的输入和模型的参数值生成输出。

一些机器学习模型是深度模型，它们采用模型的多个层来为接收到的输入生成输出。例如，深度神经网络是深度机器学习模型，其包括输出层和一个或多个隐藏层，每个隐藏层对接收到的输入应用非线性变换以生成输出。

发明内容

本说明书描述了一种执行视频分区任务的方法，该方法在一个或多个位置处的一个或多个计算机上被实施为计算机程序。

根据第一方面，提供了一种用于对视频进行分区的方法，该方法包括：获得将视频分成一个或多个镜头的分区，其中，镜头是具有平滑的时变视点的一系列连续帧；生成每个镜头的特征，对于特定镜头，包括：生成特定镜头的视觉特征，包括将特定镜头的视频数据作为输入提供给视觉特征神经网络，该视觉特征神经网络处理视频数据以生成一个或多个视觉特征输出；生成特定镜头的音频特征，包括将特定镜头的音频数据作为输入提供给音频特征神经网络，该音频特征神经网络处理音频数据以生成一个或多个音频特征输出；将所生成的每个镜头的特征作为输入提供给分区神经网络，该分区神经网络被配置为处理所生成的特征以生成分区神经网络输出；基于分区神经网络输出确定将视频分成一个或多个章节的分区，其中，每个章节是被确定为在一个或多个位置处拍摄的、在语义上相关的一系列连续镜头。

在一些实施方式中，确定将视频分成一个或多个章节的分区包括：确定将视频分成一个或多个场景的分区，其中，每个场景是被确定为在视频中描绘的特定位置处拍摄的一系列连续镜头，并且每个章节是被确定为在语义上相关的一系列连续场景。

在一些实施方式中，至少一个章节具有至少两个场景，其中，两个场景的相应镜头分别在不同的位置处拍摄。

在一些实施方式中，提供将视频分成一个或多个镜头的分区。

在一些实施方式中，基于自动帧分析过程来确定将视频分成一个或多个镜头的分区。

在一些实施方式中，生成每个镜头的特征包括：生成每个镜头的固定大小特征表示，该固定大小特征表示与镜头中的帧的数量无关。

在一些实施方式中，生成每个镜头的固定大小特征表示包括：池化为每个镜头的每一帧生成的特征。

在一些实施方式中，视觉特征神经网络被配置为接收图像；将特定镜头的视频数据作为输入提供给视觉特征神经网络包括：将特定镜头的每一帧作为输入提供给视觉特征神经网络，以生成每一帧的一个或多个视觉特征输出。

在一些实施方式中，每一帧的一个或多个视觉特征输出包括视觉特征神经网络的一个或多个中间输出。

在一些实施方式中，一个或多个音频特征输出包括音频特征神经网络的一个或多个中间输出。

在一些实施方式中，每一帧的一个或多个视觉特征输出包括：概率向量，每个概率指示帧描绘特定类型的对象的可能性。

在一些实施方式中，一个或多个音频特征输出包括：概率向量，每个概率指示音频数据描绘特定类型的声音的可能性。

在一些实施方式中，分区神经网络是递归神经网络。

在一些实施方式中，递归神经网络是双向递归神经网络。

在一些实施方式中，生成特定镜头的视觉特征包括以下这些项中的一项或多项：生成表征特定镜头中的帧的颜色强度分布的颜色特征；生成表征特定镜头中的不同帧之间的相似性的帧相似性特征；至少部分基于以下这些项中的一项或多项来生成身份特征：在特定镜头中描绘的人的身份；在特定镜头中描绘的已识别的人在特定镜头的视频帧内的空间位置。

在一些实施方式中，对于每个镜头，分区神经网络输出指示镜头的最后一帧是章节的最后一帧的概率。

在一些实施方式中，将每个镜头的所生成的特征作为输入提供给分区神经网络，分区神经网络被配置为处理所生成的特征以生成分区神经网络输出，包括：将每个镜头窗口的每个镜头的所生成的特征提供给分区神经网络，以生成每个镜头窗口的分区神经网络输出，其中，镜头窗口是一系列预定数量的镜头；并且基于分区神经网络输出确定将视频分成一个或多个章节的分区包括：组合每个镜头窗口的分区神经网络输出。

根据第二方面，提供一个或多个存储指令的计算机存储介质，当这些指令由一个或多个计算机运行时，使一个或多个计算机执行对视频进行分区的方法的操作。

根据第三方面，提供一种包括一个或多个计算机和一个或多个存储指令的存储设备的系统，当这些指令由一个或多个计算机运行时，使一个或多个计算机执行对视频进行分区的方法的操作。

可以实施本说明书中描述的主题的特定实施例，以实现以下优点中的一个或多个。如本说明书中描述的视频分区方法可以生成将视频分成场景和章节的分区，不像一些常规的视频分区方法，它们只能将视频分区为镜头。因此，如本说明书中描述的视频分区方法生成的分区可用于某些不适用于常规的视频分区方法的应用中，诸如，在视频的场景或章节之间自动插入第三方内容，或智能快速转发特征(例如，允许观看者在场景和章节之间轻松跳转)。

本说明书中描述的视频分区方法集成了视觉特征和音频特征两者以确定视频分区，不像一些仅依赖视觉特征的常规方法，因此可以生成比仅使用视觉特征的方法生成的视频分区更精确(相对于真值训练数据)的视频分区。这是因为从音频导出的信号可以指示不应根据特定的分区标准对内容进行分区，否则会导致在仅对图像内容进行评估时的分区。这引起视频处理领域的技术改进。

如本说明书中描述的视频分区方法可以结合递归神经网络(例如，双向递归神经网络)。因此，如本说明书中描述的视频分区方法可以通过集成来自先前(在某些情况下是将来)帧和镜头的信息，来生成对于给定镜头的最后一帧代表场景边界还是章节边界的预测，从而生成视频分区。再者，这引起根据一个或多个分区标准的一组更精确的视频分区，否则在不使用递归神经网络时将不可用。这也是视频处理领域的另一技术改进。

此外，在一些实施方式中，如本说明书中描述的视频分区方法将视频的镜头的固定大小特征表示提供给机器学习模型以生成视频的分区，不像常规方法仅处理视频的帧的特征表示。通过处理镜头而不是帧的特征表示，本说明书中描述的视频分区方法与仅处理视频帧的特征表示的其他方法相比更加有效(例如，消耗较少的计算资源)。此外，通过生成视频的镜头的固定大小特征表示，如本说明书中描述的视频分区方法可以结合具有与正被分区的视频无关的固定结构的机器学习模型(例如，神经网络)。因此，与不生成视频的镜头的固定大小特征表示的可能情况相比，本说明书中描述的视频分区方法可以在更广泛的视频类别上进行训练和应用。这些优点也是图像和视频处理领域的改进。

本说明书的主题的一个或多个实施例的细节在附图和以下描述中阐述。根据说明书、附图和权利要求书，本主题的其他特征、方面和优点将变得显而易见。

附图说明

图1A是示例视频分区系统的图示。

图1B是视频的分区的示例表示的图示。

图2是用于确定将视频分成章节的预测分区的示例过程的流程图。

图3是用于生成镜头的固定大小特征表示的示例过程的流程图。

图4是用于训练视频分区系统的示例过程的流程图。

在各个附图中，相同的附图标记和名称表示相同的元件。

具体实施方式

本书面描述中的技术涉及一种用于在给定将视频分成镜头的分区的情况下，确定将视频分成场景或章节的分区的方法。通常，镜头是具有平滑的时变视点的一系列连续帧。场景是被确定为在视频中描绘的特定位置处拍摄的一系列连续镜头。章节是被确定为在一个或多个位置处拍摄的、在语义上(semantically)相关的一系列连续镜头。例如，镜头可以描绘参与对话的人的面部，场景可以对应于参与对话的两个或多个人的面部的相应镜头，以及章节可以对应于在一个或多个位置处拍摄的、描绘与该对话相关的事件的相应镜头。

利用这种技术的系统和方法生成每个镜头的特征，包括视觉特征和音频特征，并将每个镜头的所生成的特征作为输入提供给分区神经网络。神经网络基于分区神经网络输出来确定将视频分成章节或场景的分区。在一些实施方式中，分区神经网络可以是双向递归神经网络。

这些特征和其他特征在下面更详细地描述。

图1A示出了示例视频分区系统100。视频分区系统100是在一个或多个位置处的一个或多个计算机上被实施为计算机程序的系统的示例，其中实施了下面描述的系统、组件和技术。

视频分区系统100生成将视频102分成章节的预测分区116。在一些情况下，视频102是由摄像机获取的。在一些情况下，视频102是计算机生成的视频(例如，动画电影)。在一些情况下，视频可以是由摄像机获取的视频和计算机生成的视频的组合(例如，具有一些计算机生成的特征或场景的电影)。通常，视频102伴随有音频，在本说明书中，音频将被视为视频102的一部分。视频102可以包括由脚本提供的字幕、由人类转录生成的字幕或由自动语音识别确定的字幕。

视频102由一系列连续镜头组成。同样，镜头是具有平滑的时变视点的一系列连续帧。当两个连续的帧的视觉变化次数不超过变化的阈值次数时，检测到“平滑的时变视点”。例如，对于由摄像机获取的视频，镜头是被确定为从特定的摄像机拍摄的一系列连续帧。例如，镜头可以通过一系列连续帧来描绘参与对话的人的面部。作为另一示例，对于由动画处理生成的帧，镜头是具有平滑的时变视点的一系列连续帧。

由系统100生成的预测章节分区116是指将视频102分成章节的分区，其中，章节是被确定为在一个或多个位置处拍摄并且在语义上相关的一系列连续镜头。例如，在旅行视频中，当叙述者描述特定城市或特定国家时，章节可以对应于在特定城市或特定国家的一个或多个位置处拍摄的相应镜头。

在一些实施方式中，可以预先指定视频102的镜头分区。在其他实施方式中，系统100将视频102提供给镜头分区引擎104，镜头分区引擎104被配置为接收视频作为输入，并被配置为根据一组镜头分区引擎参数的值来处理视频，以生成将视频102分成镜头106的分区作为输出。可以使用任何适当的镜头分区引擎104。镜头分区引擎的一个示例可以是视频处理引擎，视频处理引擎确定两个连续帧的视觉特性的差异何时大于阈值。当检测到这样的差异时，引擎确定在帧之间出现了镜头分区。

系统将镜头分区106提供给特征生成引擎108，特征生成引擎108生成镜头分区106的每个镜头的固定大小特征表示。镜头的固定大小特征表示包括从与镜头相对应的视频帧中提取的视觉特征124和从伴随镜头的视频帧的音频中提取的音频特征126。参考图3描述用于生成镜头的固定大小特征表示的示例过程。

系统100将镜头分区106的镜头的固定大小特征表示提供给分区神经网络112，分区神经网络112被配置为接收视频的预定数量的镜头的固定大小特征表示作为输入，根据一组分区神经网络参数的值来处理输入，并且生成分区神经网络输出114。系统100基于分区神经网络输出114来确定预测章节分区116。参考图2描述用于确定将视频分成章节的预测分区的示例过程。

训练引擎118基于一组训练数据120对分区神经网络112进行训练。训练数据120包括带有注释的视频，其中该注释指示章节分区。训练引擎118将来自训练数据120的视频作为输入提供给系统100，为视频生成对应的章节分区，并基于损失函数122反向传播梯度以调整分区神经网络112的一组参数的值。参考图4描述用于训练视频分区系统的示例过程。

在一些实施方式中，系统100生成将视频100分成场景而不是章节的分区，其中，场景是被确定为在视频102中描绘的特定位置处拍摄的一系列连续镜头。例如，场景可以是在描绘参与对话的多个人的面部之间切换的一系列镜头。系统100可以生成视频的场景分区，类似于生成视频的章节分区，不同之处在于训练数据120将包括带有指示场景分区而不是章节分区的注释的视频，并且训练引擎118将训练系统100以生成场景分区而不是章节分区。

在一些其他实施方式中，章节被认为是被确定为在语义上相关的一系列连续场景，并且系统100通过处理场景分区而不是镜头分区106来生成将视频102分成章节的分区。在一些实施方式中，系统100根据系统100的第一组参数值生成将视频分成场景的分区，并且根据系统100的第二组参数值生成将视频分成章节的分区(基于将视频分成场景的分区)。图1B描绘了将视频分成镜头、场景和章节的示例分区。在某些情况下，至少一个章节具有至少两个场景，其中，两个场景的相应镜头分别在不同的位置处拍摄。

图2是用于确定将视频分成章节的预测分区的示例过程的流程图。为了方便起见，将过程200描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据本说明书适当编程的视频分区系统(例如，图1A的视频分区系统100)可以执行过程200。

该系统获得将视频分成镜头的分区(202)。在一些实施方式中，系统将视频提供给镜头分区引擎，该镜头分区引擎被配置为接收视频作为输入，并被配置为根据一组镜头分区引擎参数的值来处理视频，以生成将视频分成镜头的分区作为输出。在其他一些实施方式中，系统被提供有镜头分区(例如，镜头分区可以通过手动注释来确定)。在一些实施方式中，将视频分成镜头的分区被表示为二进制向量，该二进制向量的长度与视频的帧的数量相同，并且其中如果视频的对应帧被确定为镜头边界(即，镜头的最后一帧)，则给定条目的值为1，否则为0。在一些其他实施方式中，将视频分成镜头的分区被表示为向量，该向量的长度与视频中的镜头的数量相同，其中，给定条目具有由被确定为镜头边界的视频帧的帧索引给定的值。

在一些实施方式中，系统生成镜头分区的每个镜头的固定大小特征表示(204)。参考图3描述用于生成镜头的固定大小特征表示的示例过程。

系统100将镜头分区的镜头的固定大小特征表示提供给分区神经网络，分区神经网络被配置为接收视频的预定数量的镜头的固定大小特征表示作为输入，根据一组分区神经网络参数的值来处理输入，并且生成分区神经网络输出(206)。如果视频的镜头分区具有比预定数量的镜头(分区神经网络被配置为接收其固定大小特征表示作为输入)更多的镜头，则可以将镜头分区的镜头划分成一系列镜头窗口，每个镜头窗口由一系列预定数量的镜头组成。每个镜头窗口的镜头的固定大小特征表示可以作为输入提供给分区神经网络，并且可以为每个相应镜头窗口确定相应的分区神经网络输出。在某些情况下，镜头窗口可以重叠。例如，如果镜头分区具有200个镜头，并且分区神经网络被配置为一次接收100个镜头的固定大小特征表示，则镜头窗口可以由以下各项给定：镜头0-镜头100、镜头50-镜头150、镜头100-镜头200。如果视频的镜头分区具有比预定数量的镜头更少的镜头，则可以顺序地重复镜头分区的镜头，以生成具有预定数量的镜头的镜头窗口。

在一些实施方式中，镜头窗口的分区神经网络输出是二进制变量的向量，其指对于镜头窗口的每个镜头的最后一帧是否是章节边界(即，章节的最后一帧)的预测。在一些实施方式中，分区神经网络输出是概率向量(即，0和1之间的标量值)，其指示镜头窗口的每个镜头的最后一帧是章节边界的预测概率。

在一些实施方式中，分区神经网络是递归神经网络。在一些实施方式中，分区神经网络是双向递归神经网络。也可以使用其他学习网络。

系统通过集成每个镜头窗口的分区神经网络输出来确定视频的预测章节分区(208)。在一些实施方式中，系统可以通过组合(例如，平均)来自包括给定镜头的每个镜头窗口的分区神经网络输出的对于给定镜头的最后一帧的预测(例如，如上所述的二进制预测或概率预测)，来确定对于给定镜头的最后一帧是否是章节边界的预测。例如，如果镜头窗口由以下各项给定：镜头0-镜头100、镜头50-镜头150、镜头100-镜头200，则系统可以通过组合来自镜头0-镜头100和镜头50-镜头150的分区神经网络输出的对于镜头100的最后一帧的预测，来确定镜头100的最后一帧是否是章节边界的预测。

在一些其他实施方式中，系统可以基于来自包括给定镜头的特定镜头窗口的分区神经网络输出的对于给定镜头的最后一帧的预测，来确定对于给定镜头的最后一帧是否是章节边界的预测。在某些情况下，特别是当分区神经网络是双向递归神经网络时，可以选择特定的镜头窗口作为其中给定镜头最接近镜头窗口的一系列镜头的中间的镜头窗口。例如，如果镜头窗口由以下各项给定：镜头0-镜头100、镜头50-镜头150、镜头100-镜头200，则系统可以将对镜头100的最后一帧是否为章节边界的预测确定为来自镜头50-镜头150的分区神经网络输出的对于镜头100的最后一帧的预测。

图3是用于生成镜头的固定大小特征表示的示例过程的流程图。为了方便起见，将过程300描述为由位于一个或多个位置处的一个或多个计算机的系统执行。例如，根据该说明书适当编程的视频分区系统(例如，图1A的视频分区系统100)可以执行过程300。

系统生成镜头的音频特征(302)。在一些实施方式中，生成音频特征包括将特定镜头的音频数据提供给音频特征神经网络，音频特征神经网络被配置为根据一组音频特征神经网络参数来处理音频数据，以生成一个或多个音频特征输出。在一些情况下，音频数据是伴随镜头的音频信号。在一些其他情况下，通过预处理音频信号来生成音频数据，例如，预处理音频信号以生成频谱图表示。在一些实施方式中，音频特征神经网络被训练以生成包括概率向量的输出，每个概率指示音频数据描绘特定类型的声音(例如，枪声)的可能性。在一些实施方式中，镜头的音频特征包括音频特征神经网络的一个或多个中间输出(即，响应于处理输入音频数据而生成的、来自音频特征神经网络的一个或多个隐藏层的一个或多个激活)。

系统生成镜头的视觉特征(304)。在一些实施方式中，生成视觉特征包括将特定镜头的视频数据作为输入提供给视觉特征神经网络，视觉特征神经网络被配置为根据一组视觉特征神经网络参数来处理视频数据，以生成一个或多个视觉特征输出。在一些实施方式中，视觉特征神经网络被配置为接收图像，以及生成镜头的视觉特征包括将镜头的每个视频帧作为输入提供给视觉特征神经网络，并且为镜头的每个视频帧生成一个或多个视觉特征输出。在一些实施方式中，镜头的视觉特征包括视觉特征神经网络的一个或多个中间输出(即，响应于处理输入视频数据而生成的、来自视觉特征神经网络的一个或多个隐藏层的一个或多个激活)。在一些实施方式中，视觉特征神经网络被训练以生成包括概率向量的输出，每个概率指示作为输入提供给视觉特征神经网络的视频帧描绘特定类型的对象(例如，猫)的可能性。

在一些实施方式中，生成镜头的视觉特征包括生成表征镜头的视频帧的颜色强度分布的颜色特征。例如，镜头的每个视频帧可以是RGB图像。在这种情况下，系统可以通过表征与镜头的每个视频帧的每个颜色通道相对应的强度分布来生成颜色特征。在一些实施方式中，颜色特征可以包括镜头的视频帧的颜色强度的直方图。

在一些实施方式中，生成镜头的视觉特征包括生成表征镜头的不同视频帧之间的相似性的帧相似性特征。例如，可以通过确定镜头的每个连续视频帧之间的帧相似性的度量来生成帧相似性特征。可以使用确定帧相似性的适当系统。

在一些实施方式中，生成镜头的视觉特征包括至少部分地基于在镜头中描绘的人的身份而生成身份特征。在一些实施方式中，最初对视频进行处理以检测和识别在视频中最频繁描绘的特定人群。例如，系统可以通过将检测和识别方法应用于每个视频帧来生成镜头的每个视频帧的身份特征，以生成特定人群中的每个人出现在帧中的概率。作为另一个示例，该系统可以通过将检测和识别方法应用于每个视频帧来生成镜头的每个视频帧的身份特征，以生成特定人群中的每个人出现在视频帧的一组区域中的每个区域中的概率。视频帧的一组区域可以由网格区域定义。可以使用任何适当的面部检测系统和识别系统。

系统池化(pool)特征以生成镜头的固定大小特征表示(306)。具体地，镜头的固定大小特征表示与镜头中的视频帧的数量无关。池化特征是指组合对于镜头的每个视频帧确定的特征的值，以确定该特征的单个值。在一些实施方式中，可以通过将池化的特征值确定为对于镜头的每个视频帧确定的特征的值的平均值来实施池化。在一些实施方式中，可以通过将池化的特征值确定为对于镜头的每个视频帧确定的特征的值的最大值来实施池化。在一些实施方式中，可以根据不同的池化操作来池化不同的特征。某些特征可能不需要池化。例如，指示镜头的音频数据描绘特定类型的声音的概率的音频特征不需要池化，因为它们是为镜头整体生成的而不是为镜头的单个视频帧生成的。通过将池化的特征值和不需要池化的特征值串联(concatenate)，可以确定镜头的固定大小特征表示。

图4是用于训练视频分区系统的示例过程的流程图。为了方便起见，过程400将被描述为由包括位于一个或多个位置处的一个或多个计算机的训练引擎执行。例如，根据本说明书适当编程的训练引擎(例如，图1A的训练引擎118)可以执行过程400。

该引擎将来自训练数据的视频提供给视频分区系统(402)。训练数据包括带有注释的视频，这些注释指示章节分区。

系统处理视频以生成视频的预测章节分区(404)。参考图2描述用于确定将视频分成章节的预测分区的示例过程。

该引擎基于损失函数反向传播梯度，以调整分区神经网络的一组参数的值，以使分区神经网络生成与训练数据的视频的所注释的章节分区更相似的预测章节分区。在一些实施方式中，损失函数是交叉熵(cross-entropy)损失函数的总和，其中，每个交叉熵损失函数对应于由分区神经网络处理的镜头窗口的镜头。具体地，每个交叉熵损失函数可以测量分区神经网络的预测(对于镜头的最后一帧是否是章节边界)与训练数据的注释(该注释指示镜头的最后一帧是否是章节边界)之间的交叉熵损失。在其他一些实施方式中，损失函数是在每个特定镜头之后并且直到章节边界的预测数量的镜头之间的差异(例如，平方误差差异)的和。

在系统被配置为生成将视频102分成场景而不是章节的预测分区的实施方式中，训练数据包括带有指示场景分区的注释的视频，并且引擎基于损失函数反向传播梯度，以使分区神经网络生成与训练数据的视频的所注释的场景分区更相似的预测场景分区。

本说明书使用与系统和计算机程序组件相关的术语“配置”。对于将被配置为执行特定操作或动作的一个或多个计算机的系统，意味着该系统已在其上安装了软件、固件、硬件或它们的组合，这些软件、固件、硬件或它们的组合在运行中使系统执行这些操作或动作。对于将被配置为执行特定操作或动作的一个或多个计算机程序，意味着该一个或多个程序包括指令，这些指令在由数据处理装置运行时使该装置执行这些操作或动作。

本说明书中描述的主题、功能性操作的实施例可以在数字电子电路系统中、有形体现的计算机软件或固件中、计算机硬件(包括本说明书中公开的结构和它们的结构等同物)中，或者在它们中的一个或多个的组合中实施。本说明书中描述的主题的实施例可以被实施为一个或多个计算机程序(即，编码在有形的非暂时性存储介质上的计算机程序指令的一个或多个模块)以由数据处理装置运行或用于控制数据处理装置的操作。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行访问存储器设备，或者它们中的一个或多个的组合。可替代地或附加地，程序指令可以被编码在人工生成的传播信号(例如，机器生成的电、光或电磁信号)上，该信号被生成以编码信息，以便传输到合适的接收器装置以供数据处理装置运行。

术语“数据处理装置”是指数据处理硬件和包含用于处理数据的各种装置、设备和机器，作为示例，包括可编程处理器、计算机或多个处理器或多个计算机。该装置也可以是或还可以包括专用逻辑电路系统，例如，FPGA(field programmable gate array，现场可编程门阵列)或ASIC(application specific integrated circuit，专用集成电路)。除硬件之外，该装置可以可选地包括为计算机程序创建运行环境的代码，例如，构成处理器固件、协议栈、数据库管理系统、操作系统或者它们中的一个或多个的组合的代码。

计算机程序(也可以称为或描述为程序、软件、软件应用、app、模块、软件模块、脚本或代码)可以以任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写，并且其可以以任何形式(包括作为独立程序或作为模块、组件、子例程或适合在计算环境中使用的其他单元)部署。程序可以但不必对应于文件系统中的文件。程序可以存储在保存其他程序或数据的文件的一部分中(例如，存储在标记语言文档中的一个或多个脚本)，存储在专用于在讨论的程序的单个文件中，或者存储在多个协调文件中(例如，存储一个或多个模块、子程序或代码的部分的文件)。可以将计算机程序部署为在位于一个站点处的一个计算机上或者在分布于多个站点处并通过数据通信网络互连的多个计算机上运行。

在本说明书中，术语“引擎”广泛地用于指代被编程为执行一个或多个指定功能的基于软件的系统、子系统或过程。通常，引擎将被实施为安装在位于一个或多个位置处的一个或多个计算机上的一个或多个软件模块或组件。在一些情况下，一个或多个计算机将专用于特定的引擎。在其他情况下，可以在同一个或多个计算机上安装并运行多个引擎。

本说明书中描述的过程和逻辑流程可以由一个或多个可编程计算机来执行，该一个或多个可编程计算机运行一个或多个计算机程序以通过对输入数据进行操作并生成输出来执行功能。这些过程和逻辑流程还可以由专用逻辑电路系统(例如，FPGA或ASIC)来执行，或者由专用逻辑电路系统和一个或多个编程计算机的组合来执行。

适合运行计算机程序的计算机可以基于通用或专用微处理器或两者，或者基于任何其他类型的中央处理单元。通常，中央处理单元将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本元件是用于执行或运行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。中央处理单元和存储器可以由专用逻辑电路系统补充或并入专用逻辑电路系统中。通常，计算机还将包括用于存储数据的一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)，或者可操作地耦合到一个或多个大容量存储设备(例如，磁盘、磁光盘或光盘)以从其接收数据或将数据传输到其中。但是，计算机不必具有这样的设备。此外，计算机可以被嵌入到另一个设备中，例如，移动电话、个人数字助理(personal digital assistant，PDA)、移动音频或视频播放器、游戏控制台、全球定位系统(Global Positioning System，GPS)接收器或便携式存储设备(例如通用串行总线(universal serial bus，USB)闪存驱动器)，仅举几个示例。

适合存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、介质和存储器设备，作为示例，包括半导体存储器设备(例如，EPROM、EEPROM和闪存设备)、磁盘(例如，内部硬盘或可移动磁盘)、磁光盘以及CD-ROM和DVD-ROM磁盘。

为了提供与用户的交互，本说明书中描述的主题的实施例可以在计算机上实施，该计算机具有用于向用户显示信息的显示器设备(例如，CRT(cathode ray tube，阴极射线管)或LCD(liquid crystal display，液晶显示器)以及用户可以通过其向计算机提供输入的键盘和点击设备(例如，鼠标或轨迹球)。其他类型的设备也可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的感官反馈，例如，视觉反馈、听觉反馈或触觉反馈；并且可以以任何形式接收来自用户的输入，包括声音输入、语音输入或触觉输入。此外，计算机可以通过向用户使用的设备发送文档和从用户使用的设备接收文档来与用户交互，例如，通过响应于从web浏览器接收的请求向用户设备上的web浏览器发送网页。此外，计算机可以通过将文本消息或其他形式的消息发送到个人设备(例如，运行消息应用程序的智能手机)并反过来从用户接收响应消息来与用户交互。

例如，用于实施机器学习模型的数据处理装置也可以包括专用硬件加速器单元，该专用硬件加速器单元用于处理机器学习训练或生产的通用部分和计算强化部分(即，推理、工作负载)。

可以使用机器学习框架(例如，TensorFlow框架、Microsoft Cognitive Toolkit框架、Apache Singa框架或Apache MXNet框架)来实施和部署机器学习模型。

本说明书中描述的主题的实施例可以在计算系统中实施，该计算系统包括后端组件(例如，数据服务器)、或者包括中间件组件(例如，应用服务器)、或者包括前端组件(例如，具有用户可以通过其与本说明书中描述的主题的实施方式进行交互的图形用户界面、web浏览器或app的客户端计算机)或者一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过任何形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(local area network，LAN)和广域网(wide area network，WAN)(例如，因特网)。

计算系统可以包括客户端和服务器。客户端和服务器通常彼此远离，并且一般通过通信网络进行交互。客户端和服务器的关系由于在相应的计算机上运行的计算机程序以及彼此之间的客户端-服务器关系而产生的。在一些实施例中，服务器将数据(例如，HTML页面)发送到用户设备，例如，为了向与设备(充当客户端)交互的用户显示数据并从该用户接收用户输入。可以在服务器处从设备接收在用户设备处生成的数据，例如，用户交互的结果。

尽管本说明书包含许多指定的实施细节，但是这些不应被解释为对任何发明的范围或所要求保护的范围的限制，而应解释为指定于特定发明的特定实施例的特征的描述。在本说明书中在分开的实施例的上下文中描述的某些特征也可以在单个实施例中组合实施。相反，在单个实施例的上下文中描述的各种特征也可以在多个实施例中分开实施或在任何合适的子组合中实施。此外，尽管上面将特征描述为以某些组合起作用并且甚至最初是这样要求保护的，但是在一些情况下，可以从该组合中切除所要求保护的组合的一个或多个特征，并且可以将所要求保护的组合指向子组合或子组合的变体。

类似地，尽管以特定顺序在附图中描绘了操作并在权利要求中对其进行了列举，但这不应理解为要求以所示的特定顺序或连续的顺序执行这样的操作，或者执行所有所示的操作，以便取得期望的结果。在某些情况下，多任务和并行处理可能是有利的。此外，上述实施例中的各种系统模块和组件的分开不应理解为在所有实施例中都需要这样分开，并且应当理解，所描述的程序组件和系统通常可以集成在单个软件产品种或打包成多个软件产品。

已经描述了主题的特定实施例。其他实施例在所附权利要求的范围内。例如，权利要求中列举的动作可以以不同的顺序执行并且仍然实现期望的结果。作为一个示例，附图中描绘的过程不一定需要所示的特定顺序或连续的顺序来实现期望的结果。在一些情况下，多任务和并行处理可能是有利的。

Claims

1.一种用于确定将视频分成一个或多个章节的分区的计算机实施的方法，所述方法包括：

获得将视频分成一个或多个镜头的分区，其中，镜头是具有平滑的时变视点的一系列连续帧；

生成每个镜头的特征，对于特定镜头，包括：

生成特定镜头的视觉特征，包括将特定镜头的视频数据作为输入提供给视觉特征神经网络，所述视觉特征神经网络处理视频数据以生成一个或多个视觉特征输出；

生成特定镜头的音频特征，包括将特定镜头的音频数据作为输入提供给音频特征神经网络，所述音频特征神经网络处理音频数据以生成一个或多个音频特征输出；

将每个镜头的所生成的特征作为输入提供给分区神经网络，所述分区神经网络被配置为处理所生成的特征以生成分区神经网络输出；

基于分区神经网络输出确定将视频分成一个或多个章节的分区，其中，每个章节是被确定为在一个或多个位置处拍摄的、在语义上相关的一系列连续镜头。

2.根据权利要求1所述的计算机实施的方法，其中，确定将视频分成一个或多个章节的分区包括：

确定将视频分成一个或多个场景的分区，其中，每个场景是被确定为在视频中描绘的特定位置处拍摄的一系列连续镜头，并且每个章节是被确定为在语义上相关的一系列连续场景。

3.根据权利要求2所述的计算机实施的方法，其中，至少一个章节具有至少两个场景，其中，所述两个场景的相应镜头分别在不同的位置处拍摄。

4.根据前述权利要求中任一项所述的计算机实施的方法，其中，提供了将视频分成一个或多个镜头的分区。

5.根据权利要求1至3中任一项所述的计算机实施的方法，其中，基于自动帧分析过程来确定将视频分成一个或多个镜头的分区。

6.根据前述权利要求中任一项所述的计算机实施的方法，其中，生成每个镜头的特征包括：

生成每个镜头的固定大小特征表示，所述固定大小特征表示与镜头中的帧的数量无关。

7.根据权利要求6所述的计算机实施的方法，其中，生成每个镜头的固定大小特征表示包括：池化为每个镜头的每一帧生成的特征。

8.根据前述权利要求中任一项所述的计算机实施的方法，其中：

视觉特征神经网络被配置为接收图像；

将特定镜头的视频数据作为输入提供给视觉特征神经网络包括：

将特定镜头的每一帧作为输入提供给视觉特征神经网络，以生成每一帧的一个或多个视觉特征输出。

9.根据权利要求8所述的计算机实施的方法，其中：

每一帧的一个或多个视觉特征输出包括视觉特征神经网络的一个或多个中间输出。

10.根据前述权利要求中任一项所述的计算机实施的方法，其中：

一个或多个音频特征输出包括音频特征神经网络的一个或多个中间输出。

11.根据权利要求8所述的计算机实施的方法，其中，每一帧的一个或多个视觉特征输出包括：

概率向量，每个概率指示帧描绘特定类型的对象的可能性。

12.根据前述权利要求中任一项所述的计算机实施的方法，其中，一个或多个音频特征输出包括：

概率向量，每个概率指示音频数据描绘特定类型的声音的可能性。

13.根据前述权利要求中任一项所述的计算机实施的方法，其中，分区神经网络是递归神经网络。

14.根据权利要求13所述的计算机实施的方法，其中，所述递归神经网络是双向递归神经网络。

15.根据前述权利要求中任一项所述的计算机实施的方法，其中，生成特定镜头的视觉特征包括以下这些项中的一项或多项：

生成表征特定镜头中的帧的颜色强度分布的颜色特征；

生成表征特定镜头中的不同帧之间的相似性的帧相似性特征；

至少部分基于以下这些项中的一项或多项来生成身份特征：

在特定镜头中描绘的人的身份；

在特定镜头中描绘的已识别的人在特定镜头的视频帧内的空间位置。

16.根据前述权利要求中任一项所述的计算机实施的方法，其中，对于每个镜头，分区神经网络输出指示镜头的最后一帧是章节的最后一帧的概率。

17.根据前述权利要求中任一项所述的计算机实施的方法，其中：将每个镜头的所生成的特征作为输入提供给分区神经网络，所述分区神经网络被配置为处理所生成的特征以生成分区神经网络输出，包括：

将每个镜头窗口的每个镜头的所生成的特征提供给所述分区神经网络，以生成每个镜头窗口的分区神经网络输出，其中，镜头窗口是一系列预定数量的镜头；以及

基于所述分区神经网络输出确定将视频分成一个或多个章节的分区包括：

组合每个镜头窗口的分区神经网络输出。

18.一个或多个存储指令的计算机存储介质，当所述指令由一个或多个计算机运行时，使所述一个或多个计算机执行根据前述权利要求中任一项所述的方法的操作。

19.一种系统，包括一个或多个计算机和一个或多个存储指令的存储设备，当所述指令由所述一个或多个计算机运行时，使所述一个或多个计算机执行根据权利要求1至17中任一项所述的方法的操作。