CN107430687B

CN107430687B - 视频流的基于实体的时间分割

Info

Publication number: CN107430687B
Application number: CN201680019489.4A
Authority: CN
Inventors: 蔡明轩; 苏达赫恩德拉·维娅亚纳拉辛汉; 托马斯·伊佐; 桑凯希·谢帝; 巴拉科利什南·瓦瑞德瑞简
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2015-05-14
Filing date: 2016-04-13
Publication date: 2022-03-04
Anticipated expiration: 2036-04-13
Also published as: DE112016002175T5; US9607224B2; GB201715780D0; US20160335499A1; KR20170128771A; JP2018515006A; CN107430687A; KR101967086B1; EP3295678A4; GB2553446B8; JP6445716B2; EP3295678A1; GB2553446A; WO2016182665A1; CN107430687B9; GB2553446B

Abstract

提供了一种基于对在视频的视频帧中识别的实体的分析来时间上分割视频的解决方案。将视频解码为多个视频帧，并且选择多个视频帧进行注释。注释过程识别存在于样本视频帧中的实体，并且每个所识别的实体具有时间戳以及指示该实体被准确识别的可能性的置信度得分。对于每个所识别的实体，生成由时间戳和对应的置信度得分组成的时间序列并对其进行平滑以减少注释噪声。通过检测实体的时间序列中的片段的边界来获得在视频的长度上包含实体的一个或多个片段。根据视频中每个所识别的实体的个体时间分割，生成视频的总体时间分割，其中该总体时间分割反映视频的语义。

Description

视频流的基于实体的时间分割

背景技术

所描述的实施例总体上涉及视频处理，并且更具体地，涉及视频流的基于实体的时间分割。

通过诸如YOUTUBE的托管服务共享具有各种不同内容并以不同格式编码的视频代表了对有效组织、索引和管理的日益增长的需求。大多数用于视频浏览和检索的现有解决方案是基于镜头的，其中视频流在时间上被分割成镜头。视频流的镜头是从一个相机拍摄的视频流的不间断视频帧序列；使用基于镜头的时间分割的两个时间上相邻的片段在视觉上是不同的。

存在许多多媒体应用，其指向视频场景的语义，而不是指向相邻镜头之间的时间视觉差异。基于镜头的时间分割中的一个挑战是将原始低级视频数据与视频流的高级语义字段相关联(例如，寻找反映视频的语义的视觉内容的适当表示)。以朝向跑道飞行并着陆的飞机的连续镜头为例，在语义层面上，连续镜头包括两个场景：一个描述飞机飞行，另一个关于飞机着陆。如果两个场景之间的过渡是平滑的，则基于镜头的分割可以不区分两个场景。

发明内容

所描述的方法、系统和计算机程序产品提供了基于对在视频的视频帧中识别的实体的分析来时间上分割视频的解决方案。

一个实施例包括一种用于时间上分割视频的计算机实现的方法。该方法包括将视频解码为多个视频帧的步骤。选择多个视频帧进行注释。注释过程识别存在于样本视频帧中的实体，并且每个所识别的实体具有时间戳以及指示该实体被准确识别的可能性的置信度得分。对于每个所识别的实体，生成并平滑由时间戳和对应的置信度得分组成的时间序列以减少注释噪声。通过检测实体的时间序列中的片段的边界来获得在视频的长度上包含实体的一个或多个片段。从视频中的每个所识别的实体的个体时间分割，生成视频的总体时间分割，其中总体时间分割反映视频的语义。

本说明书中所描述的特征和优点不是全包括的，特别地，对于本领域普通技术人员而言许多附加特征和优点将由于附图、说明书和权利要求书而显而易见。此外，应当注意，本说明书中所使用的语言主要是为了可读性和教导目的而选择，而不是被选择来描绘或限制所公开的主题。

附图说明

图1是示出根据一个实施例的具有基于实体的时间分割模块的视频托管服务的系统视图的框图。

图2是具有戴帽子的狗以及狗和帽子的对应的注释的视频帧的示例。

图3是示出根据一个实施例的分割模块的框图。

图4示出视频中识别的实体的时间序列与实体在视频中的各种时间实例处的对应的置信度得分的示例。

图5是对视频中识别的实体的时间序列应用平滑函数的示例。

图6是检测视频中识别的实体的片段边界的示例。

图7A是根据一个实施例的基于视频中识别的实体的个体分割来生成视频的总体分割的示例。

图7B是在对识别的实体的个体分割排序之后与图7A所示的视频生成的总体分割对应的示例。

图8是根据一个实施例的基于实体的时间分割的流程图。

附图仅为了例示的目的而描绘了本发明的各种实施例，并且本发明不限于这些示出的实施例。本领域技术人员将从以下讨论容易地认识到，在不脱离本文所述的本发明的原理的情况下，可以采用本文所示的结构和方法的另选实施例。

具体实施例

I.系统概述

图1是示出具有根据一个实施例的基于实体的时间分割模块102的视频托管服务100的系统视图的框图。多个用户/观看者使用客户端110A-N来使用由视频托管服务100提供的服务(例如，从视频托管网站上传和检索视频)，并且从视频托管服务100接收所请求的服务。视频托管服务100经由网络130与一个或多个客户端110A-N通信。视频托管服务100从客户端110A-N接收对视频的视频托管服务请求，通过基于实体的时间分割模块102对视频进行分割和索引，并且向客户端110A-N返回所请求的视频。

在一个实施例中，用户使用客户端110来请求视频托管服务。例如，用户使用客户端110来发送索引或存储上传的视频的请求。客户端110可以是诸如个人计算机(例如，台式计算机、笔记本计算机、膝上型计算机)的任何类型的计算机装置以及诸如移动电话、个人数字助理、启用IP的视频播放器的装置。客户端110通常包括处理器、显示装置(或者输出到显示装置)、客户端110存储执行任务中用户所使用的数据的本地存储装置(例如，硬盘驱动器或闪存装置)、以及经由网络130耦合到视频托管服务100的网络接口。客户端110还具有用于播放视频流的视频播放器。

网络130使得客户机110与视频托管服务100之间能够进行通信。在一个实施例中，网络130是互联网，并且使用现在已知或者后续开发的使客户端110能够与视频托管服务100通信的标准化网络互联通信技术和协议。

视频托管服务100包括基于实体的时间分割模块102、视频服务器104和视频数据库106。视频服务器104响应于用户视频托管服务请求为来自视频数据库106的视频服务。视频数据库106存储用户上传的视频、从互联网收集的视频以及由基于实体的时间分割模块102分割的视频。在一个实施例，视频数据库106存储用于基于实体的时间分割模块102的大型视频语料库以训练注释模型。

基于实体的时间分割模块102基于对存在于输入视频的视频帧中的一个或多个实体的分析来将输入视频分割成多个时间语义片段。视频帧中的实体表示视频帧的语义上有意义的空间-时间区域。例如，猫和狗一起玩耍的视频的帧可以包含狗、或猫、或者狗和猫二者，其中狗和/或猫是视频帧的实体。就片段的语义而言，输入视频的两个时间上相邻的语义片段包含不同的场景(例如，狗场景对猫场景)。

在一个实施例中，基于实体的时间分割102具有解码模块140、注释模块150和分割模块300。解码模块140将输入视频解码，并且解码的视频具有多个视频帧。根据实施者的决定，解码模块140可以使用本领域普通技术人员已知的任何解码方案。在一个实施例中，解码模块140通过执行根据视频压缩标准将输入视频编码的对应的编码过程的每一阶段的逆过程来将输入视频解码，上述的逆过程包括输入视频信号的逆变换(离散余弦变换或小波变换)、逆量化以及逆熵编码。

注释模块150从解码的视频选择多个视频帧并对每个选择的视频帧进行注释。在一个实施例中，注释模块150基于定时信息(例如，输入视频的每5秒选择一个视频帧)或者位置(例如，根据解码的视频帧的显示次序选择每第十个视频帧)来选择视频帧。为了对所选择的视频帧进行注释，注释模块150识别所选择的视频帧中的实体并且为每个识别的实体指配置信度得分。在一个实施例中，注释模块150将经训练的注释模型应用于输入视频的每个视频帧，并且生成描述每个识别的实体的注释参数集合(例如，类标签、包含所识别的实体的边界框和置信度得分)。所识别的实体的类标签以人可读的方式描述实体(例如，实体的描述性文本)。包含所识别的实体的边界框限定了包含所识别的实体的视频帧中的区域。边界框由其尺寸和宽度以及其一个角像素的坐标来定义。与实体相关联的置信度得分指示该实体被准确识别的可能性，例如，视频帧中所识别的狗有90％的概率是狗。在视频帧中具有较高置信度得分的实体更可能存在于该视频帧中，而不是存在于其中同一实体具有较低置信度得分的另一视频帧中。

在一个实施例中，注释模块150使用诸如DisBelief框架的注释训练框架来训练注释模型，该训练框架使用存储在视频数据库106中的视频利用快速迭代以分布方式训练深层神经网络模型。例如，注释模块150在具有数千台机器的计算集群上针对1600万个图像和21000个类别的数据集使用异步随机梯度下降过程以及各种分布式批处理优化过程来训练注释模型。注释模块150从训练图像提取视觉特征，学习所提取的视觉特征中的不变特征，并且从视觉特征的学习构建训练模型。注释模块150的其它实施例可以使用其它机器学习技术来训练注释模型。

图2是具有戴着帽子220的狗220以及狗和帽子的对应的注释的视频帧810的示例。注释模块150将经训练的注释模型应用于视频帧210。基于该应用，注释模块150识别视频帧210中的两个实体：狗220以及具有宽边的帽子230。对于每个识别的实体，注释模块150使用类标签(例如，狗、帽子以及包含所识别的实体的边界框)来识别实体。注释模块150还基于通过经训练的注释模型对与实体相关联的视觉特征的分析来为每个所识别的实体指配置信度得分(未示出)。

基于对输入视频的视频帧中的一个或多个识别的实体的分析，分割模块300将输入视频分割成多个时间语义片段。在一个实施例中，分割模块300基于输入视频的每个所识别的实体的时间分割来生成输入视频的总体时间分割，并且将输入视频的所有识别的实体的时间分割组合以生成整个输入视频的总体时间分割。下面参照图3至图8进一步描述分割模块300。

II.基于实体的时间语义分割

图3是示出根据一个实施例的分割模块300的框图。图3中的分割模块300的实施例包括实体模块310、平滑模块320、片段检测模块330和场景分割模块340。本领域技术人员将认识到，分割模块300的其它实施例可以具有与这里所述的模块不同的模块和/或其它的模块，可以在模块之间以不同的方式分配功能。

实体模块310与分割模块150的注释模块150交互以接收所识别的实体及其对应的置信度得分，并且在输入视频的整个长度上生成具有对应的置信度得分的每个所识别的实体的时间序列。在一个实施例中，实体模块310将所识别的实体的时间序列表示为S_e，其中参数e表示视频帧中所识别的实体。时间序列S_e包括一系列

对，其中参数i指帧号，参数

是第i帧的时间戳，

指实体e在时间戳

处的置信度得分。

现在参照图4，图4示出了输入视频中识别的实体的时间序列与实体在输入视频的各种时间实例处的对应的置信度得分的示例。图4示出了在输入视频的整个长度上的一个识别的实体(例如，猫与狗一起玩耍的视频中的狗)的时间序列430。水平轴410表示时间序列430的定时信息(例如，视频的长度和视频的视频帧的时间戳)，垂直轴420表示与每个时间实例处的实体相关联的置信度得分(例如，430a-420h)。例如，时间实例t₁处的帧具有置信度得分430a，其表示时间实例t₁处的帧具有视频帧中识别的实体的可能性。

平滑模块320通过对输入视频的每个识别的实体的时间序列应用平滑函数来去除潜在的伪片段。由于噪声(例如，在捕获输入视频时由相机抖动导致的运动模糊)基于视频的原始视觉特征可能会误识别视频的视频帧中的实体。因此，在输入视频的整个长度上识别的实体的置信度得分可能由于时间上后续的帧的小变化而变化很大，这可能导致输入视频的伪片段。

在一个实施例中，平滑模块320使用移动窗口来平滑每个所识别的实体的时间序列，以生成每个所识别的实体的平滑的时间序列。移动窗口由大小和步长来定义。实体的时间序列上的移动窗口选择要平滑的实体的置信度得分。平滑模块320对移动窗口内的置信度得分进行平均以生成平均的置信度得分，其表示实体在移动窗口内的平滑的置信度得分。平滑模块320将窗口移动到实体的时间序列的下一部分以用于平滑时间序列的下一部分内的置信度得分。

图5是对视频中识别的实体的时间序列应用平滑函数的示例。所识别的实体的原始时间序列由平滑且连续的曲线530表示。平滑函数是对由其大小和步长定义的移动窗口540内的置信度得分进行平均的平均函数。实体的平滑的时间序列由曲线550表示，其去除了输入视频的视频帧中的注释噪声。

片段检测模块330检测输入视频中每个所识别的实体的片段。在一个实施例中，片段检测模块330通过在识别的实体的时间序列中检测包含识别的实体的片段的边界来检测视频帧中的边缘。片段检测模块330从片段检测模块330所选择的第一时间戳开始，按照时间序列的时间戳的升序对与识别的实体的平滑的时间序列相关联的置信度得分进行排序。片段检测模块330基于预定义的起始和偏移阈值来检测时间序列中的片段的一对边界。片段的边界的起始阈值指示包含识别的实体的片段的开始；识别的实体的偏移阈值指示包含识别的实体的片段的结束。与片段的开始和结束相关联的时间实例之间的视频帧形成包含识别的实体的片段。在对应的时间实例之间捕获的视频帧中的识别的实体具有等于或大于起始阈值的平滑的置信度得分。

为了确定识别的实体的片段的长度，片段检测模块330基于与两个连续时间戳相关联的置信度得分的导数来确定是否在时间实例处开始新片段或结束当前片段。在一个实施例中，片段检测模块330如下式(1)中将导数计算为两个连续时间戳处的置信度得分之差：

其中

表示

处的置信度得分，

表示下一时间戳

处的置信度得分并且两个时间戳被假设为在时间上均匀地间隔Δt。片段检测模块330将所计算的导数与第一导数阈值(也称为“起始导数阈值”)进行比较。响应于所计算的导数超过起始导数阈值，片段检测模块330开始所识别的实体的新片段。

类似地，片段检测模块330可将所计算的导数与第二导数阈值(也称为“偏移导数阈值”)进行比较。响应于所计算的导数小于偏移导数阈值，片段检测模块330结束实体的当前片段。

图6示出了基于可配置的起始导数阈值和偏移导数阈值来检测视频中的识别的实体(例如，狗)的片段边界的示例。狗实体的时间序列由曲线660表示。时间实例t_1+Δt处的实体具有对应的置信度得分b，其被选为指示狗实体的片段的开始630的起始阈值。时间实例t_j处的实体具有对应的置信度得分c，其被选为指示狗实体的片段的结束650的偏移阈值。时间实例t_1+Δt和t_j之间的视频帧形成包含狗实体的片段。在时间实例t_1+Δt和t_j之间捕获的视频帧中的每个狗实体具有等于或大于起始阈值(即，置信度得分b)的置信度得分。

假设t₁和t_1+Δt处的时间实例是连续的，则片段检测模块330根据上面的式(1)计算t₁和t_1+Δt之间的置信度得分的导数。片段检测模块330将所计算的导数与预定起始导数阈值进行比较。在图6的示例中，t₁和t_1+Δt之间的置信度得分的导数超过预定起始导数阈值。片段检测模块330确定狗实体的新片段在时间实例t_1+Δt处开始。

类似地，片段检测模块330根据上面的式(1)计算t_j和t_j+Δt之间的置信度得分的导数，并且将所计算的导数与预定偏移导数阈值进行比较。在图6的示例中，t_j和t_j+Δt之间的置信度得分的导数低于预定偏移导数阈值。片段检测模块330确定狗实体的片段在时间实例t_j处结束。

应当注意，起始导数阈值和偏移导数阈值是可配置的。在一个实施例中，片段检测模块330利用存储在视频数据库106中的选择的视频基于视频分割实验来选择起始导数阈值和偏移导数阈值，其中选择的视频具有已知的分割信息并且表示用于推导起始和偏移导数阈值的真实数据。在另一实施例中，实体片段检测模块330基于置信度得分的升序的正导数的所选百分位数来选择起始导数阈值；片段检测模块330基于置信度得分的降序的负导数的所选百分位数来选择偏移导数阈值。

为了进一步示出基于百分位数的起始/偏移导数阈值选择，假设实体的时间序列的排序的导数如下：

{-0.9，-0.6，-0.5，-0.3，-0.1，0，0，0，0，0.1，0.2，0.3，0.3，0.5}，

其中升序的正导数为{0，0，0，0，0.1，0.2，0.3，0.3，0.5}，降序的负导数为{-0.1，-0.3，-0.5，-0.6-0.9}，片段检测模块330选择升序的正导数的0.3的百分位数作为起始阈值并且选择降序的负导数的0.3的百分位数作为偏移阈值。升序的正导数的0.3的百分位数将起始导数阈值设定为0.2，而降序的负导数的0.3的百分位数将偏移导数阈值设定为-0.3。起始导数阈值指示实体的片段的开始，偏移导数阈值指示实体的片段的结束。

在另一实施例中，片段检测模块330如下式(2)计算两个连续时间戳之间的置信度得分的减少百分比：

片段检测模块230选择减少百分比的阈值，并将所计算的Percentage_Reduction与所选择的阈值进行比较。响应于所计算的Percentage_Reduction小于所选择的阈值，片段检测模块230在时间戳

处结束片段。

为了防止在对实体的分割过程中由于少数丢失的视频帧而引起不必要的分割，片段检测模块330在平缓期期间合并时间上接近的片段。根据诸如输入视频的内容的特征、可用计算资源(例如，计算机处理器的数量)的各种因素，平缓期可以持续一段时间(例如，五秒)。在平缓期期间，即使满足指示上述片段的结束的条件，仍允许实体的片段继续。

输入视频通常具有许多视频帧并持续一段时间。每个视频帧可以在视频帧中包含不止一个实体。上述实施例公开了针对每个识别的实体生成个体分割。场景分割模块340基于每个所识别的实体的个体分割来生成整个输入视频的总体分割。输入视频的总体分割包括各自具有实体的集合的一个或多个时间语义片段；任两个邻近片段具有不同实体的集合。

在一个实施例中，分割模块300具有用于生成输入视频的总体分割的场景分割模块340。场景分割模块340从片段检测模块330获得输入视频的每个识别的实体的个体分割，并且根据与个体分割相关联的时间戳对识别的实体的个体分割进行排序。从排序的个体分割，场景分割模块340记录与个体分割相关联的开始和结束并且生成包含不同实体的片段。

现在参照图7，图7是根据一个实施例的基于输入视频中识别的实体的个体分割来生成输入视频的总体分割的示例。图7中的示例具有由分割检测模块230生成的四个个体片段：时间实例t₁和时间实例t₃之间的狗实体的片段；时间实例t₅和时间实例t₇之间的另一狗实体的片段；时间实例t₂和时间实例t₄之间的猫实体的片段；时间实例t₆和时间实例t₈之间的另一猫实体的片段。

如图7所示，场景分割模块340根据与个体片段相关联的开始和结束时间戳来对狗实体和猫实体的个体片段进行排序。场景分割模块340记录4个开始时间戳(即，时间实例t₁、t₂、t₅和t₆处的时间戳)以及4个结束时间戳(即，时间实例t₃、t₄、t₇和t₈处的时间戳)。场景分割模块340根据排序的开始和结束时间戳来组合狗实体和猫实体的个体片段以生成用于输入视频的新片段。例如，个体片段的排序的时间戳指示以下六个新片段：

·时间戳t₁和t₂之间的片段，其是仅有狗的片段；

·时间戳t₂和t₃之间的片段，其是猫和狗片段；

·时间戳t₃和t₄之间的片段，其是仅有猫的片段；

·时间戳t₅和t₆之间的片段，其是仅有狗的片段；

·时间戳t₆和t₇之间的片段，其是猫和狗片段；

·时间戳t₇和t₈之间的片段，其是仅有猫的片段。

场景分割模块340可以进一步对新片段进行排序并且删除包含与另一实体相同的实体集合的片段。例如，时间戳t₁和t₂之间的片段与时间戳t₅和t₆之间的片段均为仅有狗的片段。场景分割模块340可以选择这两个片段中的一个(例如，时间戳t₅和t₆之间的片段)来表示输入视频的仅有狗的片段。类似地，场景分割模块340可以选择时间戳t₇和t₈之间的片段来表示仅有猫的片段。在进一步排序之后，场景分割模块340生成包括三个片段的输入视频的总体分割：仅有狗的片段、仅有猫的片段以及猫和狗片段。图7B示出排序之后的输入视频的总体分割的示例。

在另一实施例中，场景分割模块340可以根据与实体相关联的置信度得分进一步对新片段进行排序。例如，场景分割模块340基于片段的对应的置信度得分来对识别的实体(例如，狗)的片段进行排序。响应于对实体的搜索查询，场景分割模块340可以返回所查询的实体的各自具有超过阈值的置信度得分的所有片段的子集，或者返回所查询的实体的所有片段。

III.基于实体的时间语义分割的示例性操作

图8是根据一个实施例的基于实体的时间分割的流程图。最初，基于实体的时间分割模块102将输入视频进行解码(810)。解码的输入视频具有多个视频帧，每个视频帧具有一个或多个实体。基于实体的时间分割模块102选择一个或多个样本视频帧以用于分割(820)。例如，基于实体的时间分割模块102从输入视频的每五个视频帧中选择一个视频帧。对于每个选择的视频帧，基于实体的时间分割模块102将经训练的注释模型应用于所选择的样本视频帧(830)。基于实体的时间分割模块102基于经训练的注释模型的应用来识别每个选择的样本视频帧中的每个实体(840)。选择的样本视频帧中的每个识别的实体具有时间戳、实体的标签以及指示实体被准确识别的可能性的置信度得分。

基于实体的时间分割模块102生成每个所识别的实体的时间序列(850)，其中该时间序列包含在输入视频的整个长度上的每个时间实例处的所识别的实体及其对应的置信度得分。基于实体的时间分割模块102对每个实体的时间序列应用平滑功能以消除在注释过程期间生成的噪声(860)。

对于每个识别的实体，基于实体的时间分割模块102在输入视频的整个长度上生成包含识别的实体的个体片段。实体的个体片段具有开始点和结束点，其限定片段的长度。在一个实施例中，基于实体的时间分割模块102基于预定义的起始和偏移阈值来检测限定片段的一对边界(870)。基于对识别的实体的个体片段的重新排序和分析，基于实体的时间分割模块102生成整个输入视频的总体分割。

包括上述描述以示出优选实施例的操作，并不意味着限制本发明的范围。本发明的范围仅由所附权利要求书限定。从上面的讨论，许多变化对于相关领域的技术人员而言将显而易见，其也将被本发明的精神和范围涵盖。

已针对一个可能的实施例特别详细地描述了本发明。本领域技术人员将理解，本发明可以在其它实施例中实践。首先，组件的具体命名、术语的大小写、属性、数据结构或者任何其它编程或结构方面不是强制性的或有重大意义的，实现本发明或其特征的机制可以具有不同的名称、格式或协议。此外，系统可以如所述经由硬件和软件的组合来实现，或者完全在硬件元件中实现。另外，本文所述的各种系统组件之间的功能的特定划分仅仅是示例性的，而不是强制性的；由单个系统组件执行的功能可以相反由多个组件来执行，而由多个组件执行的功能可以相反由单个组件执行。

Claims

1.一种用于时间上分割视频的方法，所述方法包括：

从所述视频的多个解码的视频帧选择样本视频帧；

利用神经网络模型在训练图像的语料库上训练注释模型；

利用经训练的注释模型注释所选择的样本视频帧中的每个样本视频帧；

基于所选择的样本视频帧的所述注释，将所选择的样本视频帧分割为所述视频的每个实体的多个片段，所述视频的实体的片段表示所述视频的语义上有意义的空间-时间区域，其中，所述分割包括：

对于所述视频的每个实体：

生成所述实体的时间序列，所述时间序列包括包含所述实体的所选择的样本视频帧的多个时间戳以及指示所述实体被准确识别的可能性的所述实体的对应的置信度得分；

将平滑函数应用于所述实体的所生成的时间序列；以及

基于所述实体的经平滑的时间序列的置信度得分来识别包含所述实体的每个片段的边界；以及

基于所述视频的每个实体的所述多个片段来生成所述视频的总体时间分割。

2.根据权利要求1所述的方法，其中，注释所选择的样本视频帧中的每个样本视频帧包括：

将经训练的注释模型应用于所选择的样本视频帧；

基于经训练的注释模型的所述应用来识别存在于所选择的样本视频帧中的一个或多个实体，所述视频的所识别的实体表示所选择的样本视频帧中的感兴趣对象；以及

通过注释参数集合来表示每个所识别的实体。

3.根据权利要求2所述的方法，其中，用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。

4.根据权利要求1所述的方法，其中，将平滑函数应用于所述实体的所生成的时间序列包括：

将移动窗口应用于所述实体的所述时间序列，所述移动窗口由大小和步长定义，并且所述移动窗口选择在所述移动窗口内的时间戳的多个置信度得分；以及

计算通过所述移动窗口选择的所述置信度得分的平均置信度得分。

5.根据权利要求1所述的方法，其中，识别实体的片段的边界包括：

选择所述片段的起始阈值，所述起始阈值指示所述片段的开始；

选择所述片段的偏移阈值，所述偏移阈值指示所述片段的结束；

将所述实体的经平滑的时间序列的所述置信度得分与所述起始阈值和所述偏移阈值进行比较；以及

基于所述实体的经平滑的时间序列的所述置信度得分的所述比较来识别所述片段的所述边界。

6.一种存储有指令的非暂时性计算机可读存储介质，所述指令在被执行时使得计算机处理器执行操作，所述操作包括：

从视频的多个解码的视频帧选择样本视频帧；

利用神经网络模型在训练图像的语料库上训练注释模型；

对于所述视频的每个实体：

将平滑函数应用于所述实体的所生成的时间序列；以及

基于所述实体的经平滑的时间序列的置信度得分来识别包含所述实体的每个片段的边界；并且

7.根据权利要求6所述的非暂时性计算机可读存储介质，其中，注释所选择的样本视频帧中的每个样本视频帧包括：

将经训练的注释模型应用于所选择的样本视频帧；

基于经训练的注释模型的所述应用来识别存在于所选择的样本视频帧中的一个或多个实体，所述视频的所识别的实体表示所选择的样本视频帧中的感兴趣对象；并且

通过注释参数集合来表示每个所识别的实体。

8.根据权利要求7所述的非暂时性计算机可读存储介质，其中，用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。

9.根据权利要求6所述的非暂时性计算机可读存储介质，其中，用于将平滑函数应用于所述实体的所生成的时间序列的计算机程序指令包括这样的指令，所述指令在被执行时使得所述计算机处理器：

将移动窗口应用于所述实体的所述时间序列，所述移动窗口由大小和步长定义，并且所述移动窗口选择在所述移动窗口内的时间戳的多个置信度得分；并且

10.根据权利要求9所述的非暂时性计算机可读存储介质，其中，识别实体的片段的边界包括：

将所述实体的经平滑的时间序列的所述置信度得分与所述起始阈值和所述偏移阈值进行比较；并且

11.一种用于时间上分割视频的计算机系统，所述计算机系统包括：

计算机处理器，所述计算机处理器执行操作，所述操作包括：

从所述视频的多个解码的视频帧选择样本视频帧；

利用神经网络模型在训练图像的语料库上训练注释模型；

基于所选择的样本视频帧的所述注释，将所选择的样本视频帧分割为所述视频的每个实体的多个片段，所述视频的实体的片段反映所述视频的语义，其中，所述分割包括：

对于所述视频的每个实体：

将平滑函数应用于所述实体的所生成的时间序列；以及

12.根据权利要求11所述的计算机系统，其中，注释所选择的样本视频帧中的每个样本视频帧包括：

将经训练的注释模型应用于所选择的样本视频帧；

通过注释参数集合来表示每个所识别的实体。

13.根据权利要求12所述的计算机系统，其中，用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。

14.根据权利要求11所述的计算机系统，其中，识别实体的片段的边界包括：