CN107430687B - 视频流的基于实体的时间分割 - Google Patents
视频流的基于实体的时间分割 Download PDFInfo
- Publication number
- CN107430687B CN107430687B CN201680019489.4A CN201680019489A CN107430687B CN 107430687 B CN107430687 B CN 107430687B CN 201680019489 A CN201680019489 A CN 201680019489A CN 107430687 B CN107430687 B CN 107430687B
- Authority
- CN
- China
- Prior art keywords
- entity
- video
- entities
- selected sample
- segment
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011218 segmentation Effects 0.000 title claims abstract description 82
- 230000002123 temporal effect Effects 0.000 title claims abstract description 43
- 238000000034 method Methods 0.000 claims abstract description 20
- 238000009499 grossing Methods 0.000 claims description 16
- 238000012549 training Methods 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 9
- 241000282472 Canis lupus familiaris Species 0.000 description 36
- 239000012634 fragment Substances 0.000 description 28
- 238000001514 detection method Methods 0.000 description 27
- 241000282326 Felis catus Species 0.000 description 14
- 230000006870 function Effects 0.000 description 8
- 230000000007 visual effect Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 230000001174 ascending effect Effects 0.000 description 5
- 230000004044 response Effects 0.000 description 5
- 230000009467 reduction Effects 0.000 description 4
- 241000282324 Felis Species 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/8547—Content authoring involving timestamps for synchronizing content
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/192—Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
- G06V30/194—References adjustable by an adaptive method, e.g. learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Signal Processing (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Image Analysis (AREA)
Abstract
提供了一种基于对在视频的视频帧中识别的实体的分析来时间上分割视频的解决方案。将视频解码为多个视频帧,并且选择多个视频帧进行注释。注释过程识别存在于样本视频帧中的实体,并且每个所识别的实体具有时间戳以及指示该实体被准确识别的可能性的置信度得分。对于每个所识别的实体,生成由时间戳和对应的置信度得分组成的时间序列并对其进行平滑以减少注释噪声。通过检测实体的时间序列中的片段的边界来获得在视频的长度上包含实体的一个或多个片段。根据视频中每个所识别的实体的个体时间分割,生成视频的总体时间分割,其中该总体时间分割反映视频的语义。
Description
背景技术
所描述的实施例总体上涉及视频处理,并且更具体地,涉及视频流的基于实体的时间分割。
通过诸如YOUTUBE的托管服务共享具有各种不同内容并以不同格式编码的视频代表了对有效组织、索引和管理的日益增长的需求。大多数用于视频浏览和检索的现有解决方案是基于镜头的,其中视频流在时间上被分割成镜头。视频流的镜头是从一个相机拍摄的视频流的不间断视频帧序列;使用基于镜头的时间分割的两个时间上相邻的片段在视觉上是不同的。
存在许多多媒体应用,其指向视频场景的语义,而不是指向相邻镜头之间的时间视觉差异。基于镜头的时间分割中的一个挑战是将原始低级视频数据与视频流的高级语义字段相关联(例如,寻找反映视频的语义的视觉内容的适当表示)。以朝向跑道飞行并着陆的飞机的连续镜头为例,在语义层面上,连续镜头包括两个场景:一个描述飞机飞行,另一个关于飞机着陆。如果两个场景之间的过渡是平滑的,则基于镜头的分割可以不区分两个场景。
发明内容
所描述的方法、系统和计算机程序产品提供了基于对在视频的视频帧中识别的实体的分析来时间上分割视频的解决方案。
一个实施例包括一种用于时间上分割视频的计算机实现的方法。该方法包括将视频解码为多个视频帧的步骤。选择多个视频帧进行注释。注释过程识别存在于样本视频帧中的实体,并且每个所识别的实体具有时间戳以及指示该实体被准确识别的可能性的置信度得分。对于每个所识别的实体,生成并平滑由时间戳和对应的置信度得分组成的时间序列以减少注释噪声。通过检测实体的时间序列中的片段的边界来获得在视频的长度上包含实体的一个或多个片段。从视频中的每个所识别的实体的个体时间分割,生成视频的总体时间分割,其中总体时间分割反映视频的语义。
本说明书中所描述的特征和优点不是全包括的,特别地,对于本领域普通技术人员而言许多附加特征和优点将由于附图、说明书和权利要求书而显而易见。此外,应当注意,本说明书中所使用的语言主要是为了可读性和教导目的而选择,而不是被选择来描绘或限制所公开的主题。
附图说明
图1是示出根据一个实施例的具有基于实体的时间分割模块的视频托管服务的系统视图的框图。
图2是具有戴帽子的狗以及狗和帽子的对应的注释的视频帧的示例。
图3是示出根据一个实施例的分割模块的框图。
图4示出视频中识别的实体的时间序列与实体在视频中的各种时间实例处的对应的置信度得分的示例。
图5是对视频中识别的实体的时间序列应用平滑函数的示例。
图6是检测视频中识别的实体的片段边界的示例。
图7A是根据一个实施例的基于视频中识别的实体的个体分割来生成视频的总体分割的示例。
图7B是在对识别的实体的个体分割排序之后与图7A所示的视频生成的总体分割对应的示例。
图8是根据一个实施例的基于实体的时间分割的流程图。
附图仅为了例示的目的而描绘了本发明的各种实施例,并且本发明不限于这些示出的实施例。本领域技术人员将从以下讨论容易地认识到,在不脱离本文所述的本发明的原理的情况下,可以采用本文所示的结构和方法的另选实施例。
具体实施例
I.系统概述
图1是示出具有根据一个实施例的基于实体的时间分割模块102的视频托管服务100的系统视图的框图。多个用户/观看者使用客户端110A-N来使用由视频托管服务100提供的服务(例如,从视频托管网站上传和检索视频),并且从视频托管服务100接收所请求的服务。视频托管服务100经由网络130与一个或多个客户端110A-N通信。视频托管服务100从客户端110A-N接收对视频的视频托管服务请求,通过基于实体的时间分割模块102对视频进行分割和索引,并且向客户端110A-N返回所请求的视频。
在一个实施例中,用户使用客户端110来请求视频托管服务。例如,用户使用客户端110来发送索引或存储上传的视频的请求。客户端110可以是诸如个人计算机(例如,台式计算机、笔记本计算机、膝上型计算机)的任何类型的计算机装置以及诸如移动电话、个人数字助理、启用IP的视频播放器的装置。客户端110通常包括处理器、显示装置(或者输出到显示装置)、客户端110存储执行任务中用户所使用的数据的本地存储装置(例如,硬盘驱动器或闪存装置)、以及经由网络130耦合到视频托管服务100的网络接口。客户端110还具有用于播放视频流的视频播放器。
网络130使得客户机110与视频托管服务100之间能够进行通信。在一个实施例中,网络130是互联网,并且使用现在已知或者后续开发的使客户端110能够与视频托管服务100通信的标准化网络互联通信技术和协议。
视频托管服务100包括基于实体的时间分割模块102、视频服务器104和视频数据库106。视频服务器104响应于用户视频托管服务请求为来自视频数据库106的视频服务。视频数据库106存储用户上传的视频、从互联网收集的视频以及由基于实体的时间分割模块102分割的视频。在一个实施例,视频数据库106存储用于基于实体的时间分割模块102的大型视频语料库以训练注释模型。
基于实体的时间分割模块102基于对存在于输入视频的视频帧中的一个或多个实体的分析来将输入视频分割成多个时间语义片段。视频帧中的实体表示视频帧的语义上有意义的空间-时间区域。例如,猫和狗一起玩耍的视频的帧可以包含狗、或猫、或者狗和猫二者,其中狗和/或猫是视频帧的实体。就片段的语义而言,输入视频的两个时间上相邻的语义片段包含不同的场景(例如,狗场景对猫场景)。
在一个实施例中,基于实体的时间分割102具有解码模块140、注释模块150和分割模块300。解码模块140将输入视频解码,并且解码的视频具有多个视频帧。根据实施者的决定,解码模块140可以使用本领域普通技术人员已知的任何解码方案。在一个实施例中,解码模块140通过执行根据视频压缩标准将输入视频编码的对应的编码过程的每一阶段的逆过程来将输入视频解码,上述的逆过程包括输入视频信号的逆变换(离散余弦变换或小波变换)、逆量化以及逆熵编码。
注释模块150从解码的视频选择多个视频帧并对每个选择的视频帧进行注释。在一个实施例中,注释模块150基于定时信息(例如,输入视频的每5秒选择一个视频帧)或者位置(例如,根据解码的视频帧的显示次序选择每第十个视频帧)来选择视频帧。为了对所选择的视频帧进行注释,注释模块150识别所选择的视频帧中的实体并且为每个识别的实体指配置信度得分。在一个实施例中,注释模块150将经训练的注释模型应用于输入视频的每个视频帧,并且生成描述每个识别的实体的注释参数集合(例如,类标签、包含所识别的实体的边界框和置信度得分)。所识别的实体的类标签以人可读的方式描述实体(例如,实体的描述性文本)。包含所识别的实体的边界框限定了包含所识别的实体的视频帧中的区域。边界框由其尺寸和宽度以及其一个角像素的坐标来定义。与实体相关联的置信度得分指示该实体被准确识别的可能性,例如,视频帧中所识别的狗有90%的概率是狗。在视频帧中具有较高置信度得分的实体更可能存在于该视频帧中,而不是存在于其中同一实体具有较低置信度得分的另一视频帧中。
在一个实施例中,注释模块150使用诸如DisBelief框架的注释训练框架来训练注释模型,该训练框架使用存储在视频数据库106中的视频利用快速迭代以分布方式训练深层神经网络模型。例如,注释模块150在具有数千台机器的计算集群上针对1600万个图像和21000个类别的数据集使用异步随机梯度下降过程以及各种分布式批处理优化过程来训练注释模型。注释模块150从训练图像提取视觉特征,学习所提取的视觉特征中的不变特征,并且从视觉特征的学习构建训练模型。注释模块150的其它实施例可以使用其它机器学习技术来训练注释模型。
图2是具有戴着帽子220的狗220以及狗和帽子的对应的注释的视频帧810的示例。注释模块150将经训练的注释模型应用于视频帧210。基于该应用,注释模块150识别视频帧210中的两个实体:狗220以及具有宽边的帽子230。对于每个识别的实体,注释模块150使用类标签(例如,狗、帽子以及包含所识别的实体的边界框)来识别实体。注释模块150还基于通过经训练的注释模型对与实体相关联的视觉特征的分析来为每个所识别的实体指配置信度得分(未示出)。
基于对输入视频的视频帧中的一个或多个识别的实体的分析,分割模块300将输入视频分割成多个时间语义片段。在一个实施例中,分割模块300基于输入视频的每个所识别的实体的时间分割来生成输入视频的总体时间分割,并且将输入视频的所有识别的实体的时间分割组合以生成整个输入视频的总体时间分割。下面参照图3至图8进一步描述分割模块300。
II.基于实体的时间语义分割
图3是示出根据一个实施例的分割模块300的框图。图3中的分割模块300的实施例包括实体模块310、平滑模块320、片段检测模块330和场景分割模块340。本领域技术人员将认识到,分割模块300的其它实施例可以具有与这里所述的模块不同的模块和/或其它的模块,可以在模块之间以不同的方式分配功能。
实体模块310与分割模块150的注释模块150交互以接收所识别的实体及其对应的置信度得分,并且在输入视频的整个长度上生成具有对应的置信度得分的每个所识别的实体的时间序列。在一个实施例中,实体模块310将所识别的实体的时间序列表示为Se,其中参数e表示视频帧中所识别的实体。时间序列Se包括一系列对,其中参数i指帧号,参数是第i帧的时间戳,指实体e在时间戳处的置信度得分。
现在参照图4,图4示出了输入视频中识别的实体的时间序列与实体在输入视频的各种时间实例处的对应的置信度得分的示例。图4示出了在输入视频的整个长度上的一个识别的实体(例如,猫与狗一起玩耍的视频中的狗)的时间序列430。水平轴410表示时间序列430的定时信息(例如,视频的长度和视频的视频帧的时间戳),垂直轴420表示与每个时间实例处的实体相关联的置信度得分(例如,430a-420h)。例如,时间实例t1处的帧具有置信度得分430a,其表示时间实例t1处的帧具有视频帧中识别的实体的可能性。
平滑模块320通过对输入视频的每个识别的实体的时间序列应用平滑函数来去除潜在的伪片段。由于噪声(例如,在捕获输入视频时由相机抖动导致的运动模糊)基于视频的原始视觉特征可能会误识别视频的视频帧中的实体。因此,在输入视频的整个长度上识别的实体的置信度得分可能由于时间上后续的帧的小变化而变化很大,这可能导致输入视频的伪片段。
在一个实施例中,平滑模块320使用移动窗口来平滑每个所识别的实体的时间序列,以生成每个所识别的实体的平滑的时间序列。移动窗口由大小和步长来定义。实体的时间序列上的移动窗口选择要平滑的实体的置信度得分。平滑模块320对移动窗口内的置信度得分进行平均以生成平均的置信度得分,其表示实体在移动窗口内的平滑的置信度得分。平滑模块320将窗口移动到实体的时间序列的下一部分以用于平滑时间序列的下一部分内的置信度得分。
图5是对视频中识别的实体的时间序列应用平滑函数的示例。所识别的实体的原始时间序列由平滑且连续的曲线530表示。平滑函数是对由其大小和步长定义的移动窗口540内的置信度得分进行平均的平均函数。实体的平滑的时间序列由曲线550表示,其去除了输入视频的视频帧中的注释噪声。
片段检测模块330检测输入视频中每个所识别的实体的片段。在一个实施例中,片段检测模块330通过在识别的实体的时间序列中检测包含识别的实体的片段的边界来检测视频帧中的边缘。片段检测模块330从片段检测模块330所选择的第一时间戳开始,按照时间序列的时间戳的升序对与识别的实体的平滑的时间序列相关联的置信度得分进行排序。片段检测模块330基于预定义的起始和偏移阈值来检测时间序列中的片段的一对边界。片段的边界的起始阈值指示包含识别的实体的片段的开始;识别的实体的偏移阈值指示包含识别的实体的片段的结束。与片段的开始和结束相关联的时间实例之间的视频帧形成包含识别的实体的片段。在对应的时间实例之间捕获的视频帧中的识别的实体具有等于或大于起始阈值的平滑的置信度得分。
为了确定识别的实体的片段的长度,片段检测模块330基于与两个连续时间戳相关联的置信度得分的导数来确定是否在时间实例处开始新片段或结束当前片段。在一个实施例中,片段检测模块330如下式(1)中将导数计算为两个连续时间戳处的置信度得分之差:
其中表示处的置信度得分,表示下一时间戳处的置信度得分并且两个时间戳被假设为在时间上均匀地间隔Δt。片段检测模块330将所计算的导数与第一导数阈值(也称为“起始导数阈值”)进行比较。响应于所计算的导数超过起始导数阈值,片段检测模块330开始所识别的实体的新片段。
类似地,片段检测模块330可将所计算的导数与第二导数阈值(也称为“偏移导数阈值”)进行比较。响应于所计算的导数小于偏移导数阈值,片段检测模块330结束实体的当前片段。
图6示出了基于可配置的起始导数阈值和偏移导数阈值来检测视频中的识别的实体(例如,狗)的片段边界的示例。狗实体的时间序列由曲线660表示。时间实例t1+Δt处的实体具有对应的置信度得分b,其被选为指示狗实体的片段的开始630的起始阈值。时间实例tj处的实体具有对应的置信度得分c,其被选为指示狗实体的片段的结束650的偏移阈值。时间实例t1+Δt和tj之间的视频帧形成包含狗实体的片段。在时间实例t1+Δt和tj之间捕获的视频帧中的每个狗实体具有等于或大于起始阈值(即,置信度得分b)的置信度得分。
假设t1和t1+Δt处的时间实例是连续的,则片段检测模块330根据上面的式(1)计算t1和t1+Δt之间的置信度得分的导数。片段检测模块330将所计算的导数与预定起始导数阈值进行比较。在图6的示例中,t1和t1+Δt之间的置信度得分的导数超过预定起始导数阈值。片段检测模块330确定狗实体的新片段在时间实例t1+Δt处开始。
类似地,片段检测模块330根据上面的式(1)计算tj和tj+Δt之间的置信度得分的导数,并且将所计算的导数与预定偏移导数阈值进行比较。在图6的示例中,tj和tj+Δt之间的置信度得分的导数低于预定偏移导数阈值。片段检测模块330确定狗实体的片段在时间实例tj处结束。
应当注意,起始导数阈值和偏移导数阈值是可配置的。在一个实施例中,片段检测模块330利用存储在视频数据库106中的选择的视频基于视频分割实验来选择起始导数阈值和偏移导数阈值,其中选择的视频具有已知的分割信息并且表示用于推导起始和偏移导数阈值的真实数据。在另一实施例中,实体片段检测模块330基于置信度得分的升序的正导数的所选百分位数来选择起始导数阈值;片段检测模块330基于置信度得分的降序的负导数的所选百分位数来选择偏移导数阈值。
为了进一步示出基于百分位数的起始/偏移导数阈值选择,假设实体的时间序列的排序的导数如下:
{-0.9,-0.6,-0.5,-0.3,-0.1,0,0,0,0,0.1,0.2,0.3,0.3,0.5},
其中升序的正导数为{0,0,0,0,0.1,0.2,0.3,0.3,0.5},降序的负导数为{-0.1,-0.3,-0.5,-0.6-0.9},片段检测模块330选择升序的正导数的0.3的百分位数作为起始阈值并且选择降序的负导数的0.3的百分位数作为偏移阈值。升序的正导数的0.3的百分位数将起始导数阈值设定为0.2,而降序的负导数的0.3的百分位数将偏移导数阈值设定为-0.3。起始导数阈值指示实体的片段的开始,偏移导数阈值指示实体的片段的结束。
在另一实施例中,片段检测模块330如下式(2)计算两个连续时间戳之间的置信度得分的减少百分比:
片段检测模块230选择减少百分比的阈值,并将所计算的Percentage_Reduction与所选择的阈值进行比较。响应于所计算的Percentage_Reduction小于所选择的阈值,片段检测模块230在时间戳处结束片段。
为了防止在对实体的分割过程中由于少数丢失的视频帧而引起不必要的分割,片段检测模块330在平缓期期间合并时间上接近的片段。根据诸如输入视频的内容的特征、可用计算资源(例如,计算机处理器的数量)的各种因素,平缓期可以持续一段时间(例如,五秒)。在平缓期期间,即使满足指示上述片段的结束的条件,仍允许实体的片段继续。
输入视频通常具有许多视频帧并持续一段时间。每个视频帧可以在视频帧中包含不止一个实体。上述实施例公开了针对每个识别的实体生成个体分割。场景分割模块340基于每个所识别的实体的个体分割来生成整个输入视频的总体分割。输入视频的总体分割包括各自具有实体的集合的一个或多个时间语义片段;任两个邻近片段具有不同实体的集合。
在一个实施例中,分割模块300具有用于生成输入视频的总体分割的场景分割模块340。场景分割模块340从片段检测模块330获得输入视频的每个识别的实体的个体分割,并且根据与个体分割相关联的时间戳对识别的实体的个体分割进行排序。从排序的个体分割,场景分割模块340记录与个体分割相关联的开始和结束并且生成包含不同实体的片段。
现在参照图7,图7是根据一个实施例的基于输入视频中识别的实体的个体分割来生成输入视频的总体分割的示例。图7中的示例具有由分割检测模块230生成的四个个体片段:时间实例t1和时间实例t3之间的狗实体的片段;时间实例t5和时间实例t7之间的另一狗实体的片段;时间实例t2和时间实例t4之间的猫实体的片段;时间实例t6和时间实例t8之间的另一猫实体的片段。
如图7所示,场景分割模块340根据与个体片段相关联的开始和结束时间戳来对狗实体和猫实体的个体片段进行排序。场景分割模块340记录4个开始时间戳(即,时间实例t1、t2、t5和t6处的时间戳)以及4个结束时间戳(即,时间实例t3、t4、t7和t8处的时间戳)。场景分割模块340根据排序的开始和结束时间戳来组合狗实体和猫实体的个体片段以生成用于输入视频的新片段。例如,个体片段的排序的时间戳指示以下六个新片段:
·时间戳t1和t2之间的片段,其是仅有狗的片段;
·时间戳t2和t3之间的片段,其是猫和狗片段;
·时间戳t3和t4之间的片段,其是仅有猫的片段;
·时间戳t5和t6之间的片段,其是仅有狗的片段;
·时间戳t6和t7之间的片段,其是猫和狗片段;
·时间戳t7和t8之间的片段,其是仅有猫的片段。
场景分割模块340可以进一步对新片段进行排序并且删除包含与另一实体相同的实体集合的片段。例如,时间戳t1和t2之间的片段与时间戳t5和t6之间的片段均为仅有狗的片段。场景分割模块340可以选择这两个片段中的一个(例如,时间戳t5和t6之间的片段)来表示输入视频的仅有狗的片段。类似地,场景分割模块340可以选择时间戳t7和t8之间的片段来表示仅有猫的片段。在进一步排序之后,场景分割模块340生成包括三个片段的输入视频的总体分割:仅有狗的片段、仅有猫的片段以及猫和狗片段。图7B示出排序之后的输入视频的总体分割的示例。
在另一实施例中,场景分割模块340可以根据与实体相关联的置信度得分进一步对新片段进行排序。例如,场景分割模块340基于片段的对应的置信度得分来对识别的实体(例如,狗)的片段进行排序。响应于对实体的搜索查询,场景分割模块340可以返回所查询的实体的各自具有超过阈值的置信度得分的所有片段的子集,或者返回所查询的实体的所有片段。
III.基于实体的时间语义分割的示例性操作
图8是根据一个实施例的基于实体的时间分割的流程图。最初,基于实体的时间分割模块102将输入视频进行解码(810)。解码的输入视频具有多个视频帧,每个视频帧具有一个或多个实体。基于实体的时间分割模块102选择一个或多个样本视频帧以用于分割(820)。例如,基于实体的时间分割模块102从输入视频的每五个视频帧中选择一个视频帧。对于每个选择的视频帧,基于实体的时间分割模块102将经训练的注释模型应用于所选择的样本视频帧(830)。基于实体的时间分割模块102基于经训练的注释模型的应用来识别每个选择的样本视频帧中的每个实体(840)。选择的样本视频帧中的每个识别的实体具有时间戳、实体的标签以及指示实体被准确识别的可能性的置信度得分。
基于实体的时间分割模块102生成每个所识别的实体的时间序列(850),其中该时间序列包含在输入视频的整个长度上的每个时间实例处的所识别的实体及其对应的置信度得分。基于实体的时间分割模块102对每个实体的时间序列应用平滑功能以消除在注释过程期间生成的噪声(860)。
对于每个识别的实体,基于实体的时间分割模块102在输入视频的整个长度上生成包含识别的实体的个体片段。实体的个体片段具有开始点和结束点,其限定片段的长度。在一个实施例中,基于实体的时间分割模块102基于预定义的起始和偏移阈值来检测限定片段的一对边界(870)。基于对识别的实体的个体片段的重新排序和分析,基于实体的时间分割模块102生成整个输入视频的总体分割。
包括上述描述以示出优选实施例的操作,并不意味着限制本发明的范围。本发明的范围仅由所附权利要求书限定。从上面的讨论,许多变化对于相关领域的技术人员而言将显而易见,其也将被本发明的精神和范围涵盖。
已针对一个可能的实施例特别详细地描述了本发明。本领域技术人员将理解,本发明可以在其它实施例中实践。首先,组件的具体命名、术语的大小写、属性、数据结构或者任何其它编程或结构方面不是强制性的或有重大意义的,实现本发明或其特征的机制可以具有不同的名称、格式或协议。此外,系统可以如所述经由硬件和软件的组合来实现,或者完全在硬件元件中实现。另外,本文所述的各种系统组件之间的功能的特定划分仅仅是示例性的,而不是强制性的;由单个系统组件执行的功能可以相反由多个组件来执行,而由多个组件执行的功能可以相反由单个组件执行。
Claims (14)
1.一种用于时间上分割视频的方法,所述方法包括:
从所述视频的多个解码的视频帧选择样本视频帧;
利用神经网络模型在训练图像的语料库上训练注释模型;
利用经训练的注释模型注释所选择的样本视频帧中的每个样本视频帧;
基于所选择的样本视频帧的所述注释,将所选择的样本视频帧分割为所述视频的每个实体的多个片段,所述视频的实体的片段表示所述视频的语义上有意义的空间-时间区域,其中,所述分割包括:
对于所述视频的每个实体:
生成所述实体的时间序列,所述时间序列包括包含所述实体的所选择的样本视频帧的多个时间戳以及指示所述实体被准确识别的可能性的所述实体的对应的置信度得分;
将平滑函数应用于所述实体的所生成的时间序列;以及
基于所述实体的经平滑的时间序列的置信度得分来识别包含所述实体的每个片段的边界;以及
基于所述视频的每个实体的所述多个片段来生成所述视频的总体时间分割。
2.根据权利要求1所述的方法,其中,注释所选择的样本视频帧中的每个样本视频帧包括:
将经训练的注释模型应用于所选择的样本视频帧;
基于经训练的注释模型的所述应用来识别存在于所选择的样本视频帧中的一个或多个实体,所述视频的所识别的实体表示所选择的样本视频帧中的感兴趣对象;以及
通过注释参数集合来表示每个所识别的实体。
3.根据权利要求2所述的方法,其中,用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。
4.根据权利要求1所述的方法,其中,将平滑函数应用于所述实体的所生成的时间序列包括:
将移动窗口应用于所述实体的所述时间序列,所述移动窗口由大小和步长定义,并且所述移动窗口选择在所述移动窗口内的时间戳的多个置信度得分;以及
计算通过所述移动窗口选择的所述置信度得分的平均置信度得分。
5.根据权利要求1所述的方法,其中,识别实体的片段的边界包括:
选择所述片段的起始阈值,所述起始阈值指示所述片段的开始;
选择所述片段的偏移阈值,所述偏移阈值指示所述片段的结束;
将所述实体的经平滑的时间序列的所述置信度得分与所述起始阈值和所述偏移阈值进行比较;以及
基于所述实体的经平滑的时间序列的所述置信度得分的所述比较来识别所述片段的所述边界。
6.一种存储有指令的非暂时性计算机可读存储介质,所述指令在被执行时使得计算机处理器执行操作,所述操作包括:
从视频的多个解码的视频帧选择样本视频帧;
利用神经网络模型在训练图像的语料库上训练注释模型;
利用经训练的注释模型注释所选择的样本视频帧中的每个样本视频帧;
基于所选择的样本视频帧的所述注释,将所选择的样本视频帧分割为所述视频的每个实体的多个片段,所述视频的实体的片段表示所述视频的语义上有意义的空间-时间区域,其中,所述分割包括:
对于所述视频的每个实体:
生成所述实体的时间序列,所述时间序列包括包含所述实体的所选择的样本视频帧的多个时间戳以及指示所述实体被准确识别的可能性的所述实体的对应的置信度得分;
将平滑函数应用于所述实体的所生成的时间序列;以及
基于所述实体的经平滑的时间序列的置信度得分来识别包含所述实体的每个片段的边界;并且
基于所述视频的每个实体的所述多个片段来生成所述视频的总体时间分割。
7.根据权利要求6所述的非暂时性计算机可读存储介质,其中,注释所选择的样本视频帧中的每个样本视频帧包括:
将经训练的注释模型应用于所选择的样本视频帧;
基于经训练的注释模型的所述应用来识别存在于所选择的样本视频帧中的一个或多个实体,所述视频的所识别的实体表示所选择的样本视频帧中的感兴趣对象;并且
通过注释参数集合来表示每个所识别的实体。
8.根据权利要求7所述的非暂时性计算机可读存储介质,其中,用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。
9.根据权利要求6所述的非暂时性计算机可读存储介质,其中,用于将平滑函数应用于所述实体的所生成的时间序列的计算机程序指令包括这样的指令,所述指令在被执行时使得所述计算机处理器:
将移动窗口应用于所述实体的所述时间序列,所述移动窗口由大小和步长定义,并且所述移动窗口选择在所述移动窗口内的时间戳的多个置信度得分;并且
计算通过所述移动窗口选择的所述置信度得分的平均置信度得分。
10.根据权利要求9所述的非暂时性计算机可读存储介质,其中,识别实体的片段的边界包括:
选择所述片段的起始阈值,所述起始阈值指示所述片段的开始;
选择所述片段的偏移阈值,所述偏移阈值指示所述片段的结束;
将所述实体的经平滑的时间序列的所述置信度得分与所述起始阈值和所述偏移阈值进行比较;并且
基于所述实体的经平滑的时间序列的所述置信度得分的所述比较来识别所述片段的所述边界。
11.一种用于时间上分割视频的计算机系统,所述计算机系统包括:
计算机处理器,所述计算机处理器执行操作,所述操作包括:
从所述视频的多个解码的视频帧选择样本视频帧;
利用神经网络模型在训练图像的语料库上训练注释模型;
利用经训练的注释模型注释所选择的样本视频帧中的每个样本视频帧;
基于所选择的样本视频帧的所述注释,将所选择的样本视频帧分割为所述视频的每个实体的多个片段,所述视频的实体的片段反映所述视频的语义,其中,所述分割包括:
对于所述视频的每个实体:
生成所述实体的时间序列,所述时间序列包括包含所述实体的所选择的样本视频帧的多个时间戳以及指示所述实体被准确识别的可能性的所述实体的对应的置信度得分;
将平滑函数应用于所述实体的所生成的时间序列;以及
基于所述实体的经平滑的时间序列的置信度得分来识别包含所述实体的每个片段的边界;以及
基于所述视频的每个实体的所述多个片段来生成所述视频的总体时间分割。
12.根据权利要求11所述的计算机系统,其中,注释所选择的样本视频帧中的每个样本视频帧包括:
将经训练的注释模型应用于所选择的样本视频帧;
基于经训练的注释模型的所述应用来识别存在于所选择的样本视频帧中的一个或多个实体,所述视频的所识别的实体表示所选择的样本视频帧中的感兴趣对象;以及
通过注释参数集合来表示每个所识别的实体。
13.根据权利要求12所述的计算机系统,其中,用于所选择的样本视频帧中的实体的所述注释参数集合包括描述所述实体的语义的描述性标签、包含所述实体的所选择的样本视频帧的一部分以及指示所述实体被准确识别的可能性的所述置信度得分。
14.根据权利要求11所述的计算机系统,其中,识别实体的片段的边界包括:
选择所述片段的起始阈值,所述起始阈值指示所述片段的开始;
选择所述片段的偏移阈值,所述偏移阈值指示所述片段的结束;
将所述实体的经平滑的时间序列的所述置信度得分与所述起始阈值和所述偏移阈值进行比较;以及
基于所述实体的经平滑的时间序列的所述置信度得分的所述比较来识别所述片段的所述边界。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/712,071 US9607224B2 (en) | 2015-05-14 | 2015-05-14 | Entity based temporal segmentation of video streams |
US14/712,071 | 2015-05-14 | ||
PCT/US2016/027330 WO2016182665A1 (en) | 2015-05-14 | 2016-04-13 | Entity based temporal segmentation of video streams |
Publications (3)
Publication Number | Publication Date |
---|---|
CN107430687A CN107430687A (zh) | 2017-12-01 |
CN107430687B true CN107430687B (zh) | 2022-03-04 |
CN107430687B9 CN107430687B9 (zh) | 2022-04-08 |
Family
ID=57249260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201680019489.4A Active CN107430687B9 (zh) | 2015-05-14 | 2016-04-13 | 视频流的基于实体的时间分割 |
Country Status (8)
Country | Link |
---|---|
US (1) | US9607224B2 (zh) |
EP (1) | EP3295678A4 (zh) |
JP (1) | JP6445716B2 (zh) |
KR (1) | KR101967086B1 (zh) |
CN (1) | CN107430687B9 (zh) |
DE (1) | DE112016002175T5 (zh) |
GB (1) | GB2553446B8 (zh) |
WO (1) | WO2016182665A1 (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10051344B2 (en) * | 2016-09-27 | 2018-08-14 | Clarifai, Inc. | Prediction model training via live stream concept association |
CN108510982B (zh) * | 2017-09-06 | 2020-03-17 | 腾讯科技(深圳)有限公司 | 音频事件检测方法、装置及计算机可读存储介质 |
DE102017124600A1 (de) * | 2017-10-20 | 2019-04-25 | Connaught Electronics Ltd. | Semantische Segmentierung eines Objekts in einem Bild |
US10417501B2 (en) | 2017-12-06 | 2019-09-17 | International Business Machines Corporation | Object recognition in video |
CN108510493A (zh) * | 2018-04-09 | 2018-09-07 | 深圳大学 | 医学图像内目标对象的边界定位方法、存储介质及终端 |
CN109145784B (zh) * | 2018-08-03 | 2022-06-03 | 百度在线网络技术(北京)有限公司 | 用于处理视频的方法和装置 |
EP3621021A1 (en) | 2018-09-07 | 2020-03-11 | Delta Electronics, Inc. | Data search method and data search system thereof |
CN109410145B (zh) * | 2018-11-01 | 2020-12-18 | 北京达佳互联信息技术有限公司 | 时序平滑方法、装置及电子设备 |
CN111480166B (zh) * | 2018-12-05 | 2023-05-05 | 北京百度网讯科技有限公司 | 从视频中定位目标视频片段的方法和装置 |
US10963702B1 (en) * | 2019-09-10 | 2021-03-30 | Huawei Technologies Co., Ltd. | Method and system for video segmentation |
CN110602527B (zh) * | 2019-09-12 | 2022-04-08 | 北京小米移动软件有限公司 | 视频处理方法、装置及存储介质 |
CN110704681B (zh) * | 2019-09-26 | 2023-03-24 | 三星电子(中国)研发中心 | 一种生成视频的方法及系统 |
CN110933462B (zh) * | 2019-10-14 | 2022-03-25 | 咪咕文化科技有限公司 | 视频处理方法、系统、电子设备及存储介质 |
CN110958489A (zh) * | 2019-12-11 | 2020-04-03 | 腾讯科技(深圳)有限公司 | 视频处理方法、装置、电子设备和计算机可读存储介质 |
CN114025216B (zh) * | 2020-04-30 | 2023-11-17 | 网易(杭州)网络有限公司 | 媒体素材处理方法、装置、服务器及存储介质 |
CN111738173B (zh) * | 2020-06-24 | 2023-07-25 | 北京奇艺世纪科技有限公司 | 视频片段检测方法、装置、电子设备及存储介质 |
CN111898461B (zh) * | 2020-07-08 | 2022-08-30 | 贵州大学 | 一种时序行为片段生成方法 |
KR20220090158A (ko) * | 2020-12-22 | 2022-06-29 | 삼성전자주식회사 | 관심 객체를 이용하여 비디오를 편집하는 전자 장치 및 그 동작 방법 |
US11935253B2 (en) | 2021-08-31 | 2024-03-19 | Dspace Gmbh | Method and system for splitting visual sensor data |
CN114550300A (zh) * | 2022-02-25 | 2022-05-27 | 北京百度网讯科技有限公司 | 视频数据分析方法、装置、电子设备及计算机存储介质 |
CN117095317B (zh) * | 2023-10-19 | 2024-06-25 | 深圳市森歌数据技术有限公司 | 一种无人机三维影像实体识别与时间定位方法 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1132835A1 (en) * | 2000-03-08 | 2001-09-12 | Lg Electronics Inc. | Method of generating synthetic key frame and video browsing system using the same |
CN1945628A (zh) * | 2006-10-20 | 2007-04-11 | 北京交通大学 | 一种基于时空显著单元的视频内容表示方法 |
US7559017B2 (en) * | 2006-12-22 | 2009-07-07 | Google Inc. | Annotation framework for video |
CN101527043A (zh) * | 2009-03-16 | 2009-09-09 | 江苏银河电子股份有限公司 | 基于运动目标轮廓信息的视频对象分割方法 |
CN101789124A (zh) * | 2010-02-02 | 2010-07-28 | 浙江大学 | 对已知摄像机参数和深度信息的视频序列的时空一致性分割方法 |
CN102160084A (zh) * | 2008-03-06 | 2011-08-17 | 阿明·梅尔勒 | 用于分割、分类视频对象并拍卖交互式视频对象的权利的自动过程 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH07175816A (ja) * | 1993-10-25 | 1995-07-14 | Hitachi Ltd | 映像の連想検索装置及び方法 |
US6195458B1 (en) * | 1997-07-29 | 2001-02-27 | Eastman Kodak Company | Method for content-based temporal segmentation of video |
US7653635B1 (en) * | 1998-11-06 | 2010-01-26 | The Trustees Of Columbia University In The City Of New York | Systems and methods for interoperable multimedia content descriptions |
JP4404172B2 (ja) * | 1999-09-02 | 2010-01-27 | 株式会社日立製作所 | メディアシーン情報表示編集装置、方法、および該方法に係るプログラムを記憶した記憶媒体 |
US7042525B1 (en) * | 2000-07-06 | 2006-05-09 | Matsushita Electric Industrial Co., Ltd. | Video indexing and image retrieval system |
JP4192703B2 (ja) * | 2003-06-30 | 2008-12-10 | 日本電気株式会社 | コンテンツ処理装置、コンテンツ処理方法及びプログラム |
GB0406512D0 (en) * | 2004-03-23 | 2004-04-28 | British Telecomm | Method and system for semantically segmenting scenes of a video sequence |
US7551234B2 (en) * | 2005-07-28 | 2009-06-23 | Seiko Epson Corporation | Method and apparatus for estimating shot boundaries in a digital video sequence |
US7555149B2 (en) * | 2005-10-25 | 2009-06-30 | Mitsubishi Electric Research Laboratories, Inc. | Method and system for segmenting videos using face detection |
EP1959449A1 (en) | 2007-02-13 | 2008-08-20 | British Telecommunications Public Limited Company | Analysing video material |
DE102007028175A1 (de) * | 2007-06-20 | 2009-01-02 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Automatisiertes Verfahren zur zeitlichen Segmentierung eines Videos in Szenen unter Berücksichtigung verschiedener Typen von Übergängen zwischen Bildfolgen |
US8170342B2 (en) * | 2007-11-07 | 2012-05-01 | Microsoft Corporation | Image recognition of content |
US20090278937A1 (en) * | 2008-04-22 | 2009-11-12 | Universitat Stuttgart | Video data processing |
JP2012038239A (ja) * | 2010-08-11 | 2012-02-23 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
CN102402536A (zh) * | 2010-09-13 | 2012-04-04 | 索尼公司 | 从视频中提取关键帧的方法和设备 |
US9118886B2 (en) * | 2012-07-18 | 2015-08-25 | Hulu, LLC | Annotating general objects in video |
US20140181668A1 (en) * | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
US10482777B2 (en) * | 2013-02-22 | 2019-11-19 | Fuji Xerox Co., Ltd. | Systems and methods for content analysis to support navigation and annotation in expository videos |
US9154761B2 (en) * | 2013-08-19 | 2015-10-06 | Google Inc. | Content-based video segmentation |
MX349609B (es) * | 2013-09-13 | 2017-08-04 | Arris Entpr Llc | Segmentacion de contenido de video basado en contenido. |
KR101507272B1 (ko) * | 2014-02-12 | 2015-03-31 | 인하대학교 산학협력단 | 대화형 비디오에서 이동 객체의 의미적 어노테이션 시스템의 인터페이스 및 그 방법 |
US10664687B2 (en) * | 2014-06-12 | 2020-05-26 | Microsoft Technology Licensing, Llc | Rule-based video importance analysis |
US9805268B2 (en) * | 2014-07-14 | 2017-10-31 | Carnegie Mellon University | System and method for processing a video stream to extract highlights |
JP2016103714A (ja) * | 2014-11-27 | 2016-06-02 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 録画再生装置 |
-
2015
- 2015-05-14 US US14/712,071 patent/US9607224B2/en active Active
-
2016
- 2016-04-13 GB GB1715780.1A patent/GB2553446B8/en active Active
- 2016-04-13 WO PCT/US2016/027330 patent/WO2016182665A1/en active Application Filing
- 2016-04-13 KR KR1020177028040A patent/KR101967086B1/ko active IP Right Grant
- 2016-04-13 EP EP16793129.4A patent/EP3295678A4/en not_active Ceased
- 2016-04-13 JP JP2017551249A patent/JP6445716B2/ja active Active
- 2016-04-13 DE DE112016002175.5T patent/DE112016002175T5/de active Pending
- 2016-04-13 CN CN201680019489.4A patent/CN107430687B9/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1132835A1 (en) * | 2000-03-08 | 2001-09-12 | Lg Electronics Inc. | Method of generating synthetic key frame and video browsing system using the same |
CN1945628A (zh) * | 2006-10-20 | 2007-04-11 | 北京交通大学 | 一种基于时空显著单元的视频内容表示方法 |
US7559017B2 (en) * | 2006-12-22 | 2009-07-07 | Google Inc. | Annotation framework for video |
CN102160084A (zh) * | 2008-03-06 | 2011-08-17 | 阿明·梅尔勒 | 用于分割、分类视频对象并拍卖交互式视频对象的权利的自动过程 |
CN101527043A (zh) * | 2009-03-16 | 2009-09-09 | 江苏银河电子股份有限公司 | 基于运动目标轮廓信息的视频对象分割方法 |
CN101789124A (zh) * | 2010-02-02 | 2010-07-28 | 浙江大学 | 对已知摄像机参数和深度信息的视频序列的时空一致性分割方法 |
CN102663015A (zh) * | 2012-03-21 | 2012-09-12 | 上海大学 | 基于特征袋模型和监督学习的视频语义标注方法 |
Non-Patent Citations (5)
Title |
---|
《A Neural Network Model for Automatic Image Annotation and Annotation Refinement: A survey》;Alpesh Dabhi et al;《International Journal of Engineering Development and Research》;20141231;第2卷(第1期);第435-439页; * |
《Semantic Annotation of Images and Videos for Multimedia Analysis》;Stephan Bloehdorn et al;;《Springer-Verlag Berlin Heidelberg》;20051231;第592-607页; * |
《Study on a New Video Scene Segmentation Algorithm》;Shaofei Wu et al;《Applied Mathematics & Information Sciences》;20150101;第361-368页; * |
《Supervised Video Scene Segmentation using Similarity Measures》;Radim Burget et al;《IEEE》;20131231;第793-797页; * |
《VideoAL: A Novel End-to-End MPEG-7 Video Automatic Labeling System》;Ching-Yung Lin et al;;《IEEE International Conference on Image Processing》;20030930;第1-4页; * |
Also Published As
Publication number | Publication date |
---|---|
DE112016002175T5 (de) | 2018-01-25 |
US9607224B2 (en) | 2017-03-28 |
GB201715780D0 (en) | 2017-11-15 |
US20160335499A1 (en) | 2016-11-17 |
KR20170128771A (ko) | 2017-11-23 |
JP2018515006A (ja) | 2018-06-07 |
CN107430687A (zh) | 2017-12-01 |
KR101967086B1 (ko) | 2019-04-08 |
EP3295678A4 (en) | 2019-01-30 |
GB2553446B8 (en) | 2021-12-08 |
JP6445716B2 (ja) | 2018-12-26 |
EP3295678A1 (en) | 2018-03-21 |
GB2553446A (en) | 2018-03-07 |
WO2016182665A1 (en) | 2016-11-17 |
CN107430687B9 (zh) | 2022-04-08 |
GB2553446B (en) | 2021-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107430687B (zh) | 视频流的基于实体的时间分割 | |
US12014542B2 (en) | Selecting and presenting representative frames for video previews | |
US11132555B2 (en) | Video detection method, server and storage medium | |
US20220027634A1 (en) | Video processing method, electronic device and storage medium | |
US8358837B2 (en) | Apparatus and methods for detecting adult videos | |
US8983192B2 (en) | High-confidence labeling of video volumes in a video sharing service | |
US8995531B2 (en) | Representative motion flow extraction for effective video classification and retrieval | |
US9177208B2 (en) | Determining feature vectors for video volumes | |
US20140029801A1 (en) | In-Video Product Annotation with Web Information Mining | |
US9215479B2 (en) | System and method for real-time new event detection on video streams | |
JP2001155169A (ja) | ビデオ画像の分割、分類、および要約のための方法およびシステム | |
WO2015062848A1 (en) | Process for generating a video tag cloud representing objects appearing in a video content | |
CN116645624A (zh) | 视频内容理解方法和系统、计算机设备、存储介质 | |
Zhao et al. | Key‐Frame Extraction Based on HSV Histogram and Adaptive Clustering | |
Haroon et al. | Video scene detection using compact bag of visual word models | |
Bhaumik et al. | Real-time storyboard generation in videos using a probability distribution based threshold | |
Sharma et al. | TECHNIQUES FOR DETECTING VIDEO SHOT BOUNDARIES: A REVIEW. | |
Xu et al. | SAIVT-QUT@ TRECVid 2012: Interactive surveillance event detection | |
Masneri et al. | Towards semi-automatic annotations for video and audio corpora | |
KR20110108454A (ko) | 재배열 체인 코드 기반 영상 검색 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
CB02 | Change of applicant information |
Address after: California, USA Applicant after: Google Inc. Address before: California, USA Applicant before: Google Inc. |
|
CB02 | Change of applicant information | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CI03 | Correction of invention patent |
Correction item: Claims Correct: Claims submitted on December 6, 2021 False: Claims submitted on October 8, 2021 Number: 09-02 Page: full text Volume: 38 |
|
CI03 | Correction of invention patent |