CN105518783B - 基于内容的视频分段 - Google Patents

基于内容的视频分段 Download PDF

Info

Publication number
CN105518783B
CN105518783B CN201480046149.1A CN201480046149A CN105518783B CN 105518783 B CN105518783 B CN 105518783B CN 201480046149 A CN201480046149 A CN 201480046149A CN 105518783 B CN105518783 B CN 105518783B
Authority
CN
China
Prior art keywords
frame
segmentation
boundary
module
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480046149.1A
Other languages
English (en)
Other versions
CN105518783A (zh
Inventor
迈克尔·安德鲁·赛普
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of CN105518783A publication Critical patent/CN105518783A/zh
Application granted granted Critical
Publication of CN105518783B publication Critical patent/CN105518783B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

一般地,描述了视频分段技术。根据各个示例,该视频分段技术可以基于视频内容。一种示例方法包括确定要将视频内容划分成的一个或多个分段,将视频内容划分为所确定的数量的分段,识别与每个分段相关联的边界帧,并且调节与分段中的第一分段相关联的相应边界帧以生成与该第一分段相关联的经调节的边界帧,其中该调节基于与该经调节的边界帧相关联的一个或多个实体表示。

Description

基于内容的视频分段
背景技术
诸如台式和膝上计算机、平板计算机、移动电话、光盘播放器、电视和电视机顶盒之类的各种设备能够输出视频数据。这样的设备还可以使得用户能够在视频文件的内容内的特定结合处开始或继续播放视频文件。在一个示例中,设备可以接收用户输入以选择视频中要在那里开始播放视频文件的预定义分段或“章节”。
发明内容
在一个示例中,一种方法包括由计算设备确定要将视频内容划分成的一个或多个分段,以及由该计算设备将视频内容划分成一个或多个分段。该方法进一步包括由该计算设备识别与每个分段相关联的边界帧,以及由该计算设备调节与该分段中的第一分段相关联的相应边界帧以生成与该第一分段相关联的经调节的边界帧,其中该调节基于与该经调节的边界帧相关联的一个或多个实体表示。
在另一个示例中,一种设备包括存储器以及一个或多个可编程处理器。该可编程处理器能够进行操作以确定要将视频内容划分成的分段的数量,并且将视频内容划分为所确定数量的分段。该可编程处理器能够进一步进行操作以识别与每个分段相关联的边界帧,并且调节与该分段中的第一分段相关联的相应边界帧以生成与该第一分段相关联的经调节的边界帧,其中该调节基于与该经调节的边界帧相关联的一个或多个实体表示。
在另一个示例中,一种计算机可读存储设备编码有指令。该指令在被执行时使得计算设备执行操作。该操作包括确定要将视频内容划分成的分段的数量,并且将视频内容划分为所确定数量的分段。该操作进一步包括识别与每个分段相关联的边界帧,并且调节与该分段中的第一分段相关联的相应边界帧以生成与该第一分段相关联的经调节的边界帧,其中该调节基于与该经调节的边界帧相关联的一个或多个实体表示。
本公开的一个或多个示例的细节在附图和以下描述中阐述。本公开的其它特征、目标和优势将从该描述和附图以及从权利要求是显而易见的。
附图说明
图1是图示依据本公开的一个或多个方面的计算设备以及包括分段视频的表示的用户界面(UI)的细节的框图。
图2是图示依据本公开的一个或多个方面的能够进行操作以对视频进行分段的计算设备的一个示例实施方式的进一步细节的框图。
图3是图示依据本公开的一个或多个方面的计算设备可以执行以对视频进行分段的示例过程的流程图。
图4是图示依据本公开的一个或多个方面的计算设备可以执行以对视频进行分段的另一个示例过程的流程图。
具体实施方式
计算设备或者在计算设备上执行的程序可以播放或者以其它方式输出视频内容,诸如电影。更具体地,计算设备可以通过显示图像序列(或“视频帧”)来播放视频。基于视频的帧率(例如,每秒钟的帧数或每分钟的帧数),每个帧可以与视频的特定时间相关联。此外,计算设备可以对视频进行分段,以便为观看者提供视频的分段或“章节”,使得观看者能够选择并播放特定章节。在一些示例中,计算设备可以将视频分段为相等长度的章节,其中该长度例如在时间单位或帧计数的方面进行表示。在其它示例中,计算设备可以将视频分段为诸如由管理者手动地确定的章节,该管理者基于视频的故事情节或其它方面来确定章节。
一般地,本公开的技术涉及由计算设备自动将视频分段为章节。在一些实施方式中,该计算设备可以接收定义要将视频分段为章节的数量。在一个这样的实施方式中,该计算设备可以将视频分段为所指示数量的分段,使得所有作为结果的分段都为相等长度。更具体地,该计算设备可以通过在每个分段间转换处指定一个或多个“边界帧”来对各个分段划界或者标记分段间转换。
进而,该计算设备可以基于进入和/或离开相应帧的视场的演员来检测与视频的帧相关联的事件。此外,该计算设备可以基于演员在事件的总体轮转来确定与每个事件相关联的活动水平。在一些示例中,该计算设备可以基于所标记的演员来确定事件和相对应的活动水平。如果该计算设备检测到与特定活动水平相关联的帧,则该计算设备可以将所检测到的帧设置为边界帧。更具体地,该计算设备可以调节现有边界帧以与新的边界帧相符。依据这里所描述的一个或多个方面,通过将边界帧设置为与具有特定活动水平的帧相符,该计算设备可以使用活动水平作为视频分段中的标准。
本公开的技术可以提供一种或多种潜在的优势。例如,实现该技术的设备可以基于诸如各个帧的活动水平的标准来确定视频的分段或章节。更具体地,该设备可以自动执行分段,同时避免与其它自动分段技术相关联的可能死板的分段方案。此外,由于设备可以自动执行视频分段,所以该设备可以缓解或消除否则与分段相关联的可能麻烦的人工努力。
图1是图示依据本公开的一个或多个方面的计算设备2以及包括分段视频的表示的用户界面(UI)14的细节的框图。计算设备2可以包括、作为各种设备中的一个或多个或者作为其一部分,所述各种设备包括台式计算机、膝上计算机(包括所谓的“笔记本”和“超级本”)、移动电话(诸如“智能电话”)、个人数字助理(PDA)、平板计算机、可翻转膝上/平板计算机、手表等等。在一些示例中,计算设备2可以包括、作为被配置为流送各种媒体的设备,诸如电视机顶盒或机顶单元、数字媒体接收器(也被称作媒体扩展器、媒体流送器、数字媒体集线器或数字媒体适配器)、所谓的“智能电视”(也被称作联网电视或混合电视)、游戏控制台,以及被配置为生成可移除存储设备的设备,诸如光盘记录仪,其包括数字视频盘(DVD)记录仪或“烧录机”,或者作为所述设备的一部分。
如图1的示例中所示,各个元件被示为包括、存储或以其它方式实现于计算设备2中。然而,在一些示例中,这些元件中的一个或多个可以包括、存储或以其它方式实现于与计算设备2分离且不同的一个或多个设备中。在这样的示例中,与计算设备2分离且不同的该一个或多个设备被(物理地、通信地和/或操作地)耦合至计算设备2。计算设备2在实现本公开的视频分段技术时可以访问远程实现的模块的功能。作为包括远程实现的功能的一个示例实现,计算设备2可以表示客户端设备,并且服务器设备可以实现一个或多个所图示的模块。
如所示出的,计算设备2可以包括用户界面(UI)设备4。UI设备4可以表示可以提供或输出UI 14以显示的任意设备或设备组合。UI设备4的示例可以包括液晶显示器(LCD)监视器、发光二极管(LED)监视器、阴极射线管(CRT)监视器、以及诸如触摸屏的存在敏感设备。在其中UI设备4包括存在敏感设备的示例中,UI设备4还可以被配置为或能够以其它方式进行操作以通过检测诸如触控笔或用户手指的输入物体的接近或与其的接触来接收用户输入。
在图1的示例中,计算设备2还包括应用模块12A-12N(统称为“应用模块12”)。应用模块12可以被配置为或能够以其它方式进行操作以基于诸如用户输入的各种激励来执行操作。作为一个示例,应用模块12中的一个或多个可以在各个实例中利用UI设备14输出UI14。此外,相关应用模块12可以接收用户输入,并且基于计算设备2所接收到的用户输入生成输出。应用模块12还可以通过计算设备2所提供的各种工具将该输出通信给用户,诸如通过经由UI设备4(例如,在UI 14内)以可读格式显示输出。在各个实例中,应用模块12可以实现计算设备2的制造者所提供的功能和/或另一方所提供的功能(经常被称作“第三方应用”)。
计算设备12可以生成UI 14,并且进而使得UI设备4能够显示UI 14。计算设备2可以基于计算设备2的各个模块或组件所接收、处理和/或生成的数据来生成和/或修改UI14。在图1的示例中,计算设备2可以生成UI 14以包括若干元件,诸如章节链接16A-16D(统称为“章节链接16”)、播放按钮24和光标20。更具体地,计算设备2可以响应于经由输入设备所接收到的用户输入而在UI 14内移动光标,所述输入设备诸如鼠标、触摸板、触控笔、游戏控制器或遥控器。进而,计算设备2和/或UI设备4可以使得用户能够通过将光标20置于元件之上并且提供诸如点击、按钮/手柄的激活或轻击手势的选择输入而选择或激活UI 14的各个元件。
此外,计算设备2可以生成每个章节链接16以包括各种子元件。如所示出的,章节链接16A包括缩略图18和数据标签20。将要意识到的是,每个章节链接16B-16D也可以包括对应于缩略图18和数据标签20的子元件,但是仅是出于便于说明的目的,这些子元件不是关于章节链接16B-16D调用的。
在图1所示的实现中,计算设备2包括视频标记模块6。视频标记模块6可以识别所要分段的视频文件中包括的各种表示。作为一些示例,视频标记模块6可以识别视频文件包括或者与视频文件相关联的诸如歌曲的音频实体的特定的人、位置或物体的表示。在标记视频文件中所表示的诸如演员、运动员或音乐家之类的人的视觉或图形表示的实例中,视频标记模块6可以实现面部识别技术以对视频文件中的特定人的每个视觉表示进行标记。
将要意识到的是,视频标记模块6可以不关于在视频中被视觉表示的每个人执行标记。替代地,视频标记模块6可以对在视频中视觉表示的人的子集进行标记,诸如至少在电影中扮演主要角色的演员。在一些示例中,视频标记模块6可以基于诸如角色重要性的标准来识别要在电影中标记的演员。例如,视频标记模块6可以基于演员在视频中是否被视觉表示达至少阈值数量的帧(对应于该演员在视频中的“屏幕时间”)来确定角色重要性。在这些和其它示例中,视频标记模块6可以基于诸如经由用户输入所接收到的指令或者根据从计算设备2的其它组件或计算设备2与之通信耦合的远程设备所接收到的指令来识别要标记的演员。
更具体地,视频标记模块6可以接收或者以其它方式识别与每个要标记的演员相关联的控制图像。进而,视频标记模块6可以使用面部识别技术将视频的各个帧中的面部图像与每个控制图像进行比较。如果视频标记模块6基于该面部识别比较来确定帧中的面部图像在可接受误差裕量内与所识别的控制图像中的一个相匹配,则视频标记模块6可以确定该帧包括预先识别的演员的表示。具体地,在这种情形中,视频标记模块6可以确定该帧包括在匹配的控制图像中表示的特定演员的视觉表示。
进而,视频标记模块6可以将该帧标记、标明或以其它方式识别为包括该演员的表示。视频标记模块6所执行的这样的识别在这里被称作帧中的“标记”演员。在特定情形中,视频标记模块6可以针对单个演员标记帧的连续或持续序列,其中该帧的序列映射至该演员在视频中的连续出现。此外,如果特定帧包括与所识别的控制图像以外的相匹配的面部图像,则视频标记模块6可以对单个帧内的多个演员进行标记。
作为结果,在一些情形中,视频标记模块6可以对关于不同演员标记重叠但不相同的帧序列。作为一个示例,视频标记模块6可以标记在与视频的00:00:01至00:10:00的范围相关联的帧序列中的第一演员,其中上述示例值是以[时:分:秒]的格式表达的。此外,根据该示例,视频标记模块6可以标记在与视频的00:05:00至00:15:00的范围相关联的帧序列中的第二演员。在该示例中,第一和第二演员的标签在视频的00:05:00至00:10:00范围中重叠。以这种方式,视频标记模块6可以在视频的各个范围标记多个演员,因此针对各个演员生成重叠但不是必然相同的标签序列。
如图1所示,计算设备2还可以包括分段模块8。分段模块8可以被配置为或者能够以其它方式进行操作以执行这里所描述的视频分段技术中的一个或多个。在示例中,分段模块8在对视频内容进行分段时可以使用视频标记模块6所提供或生成的数据,诸如存储到计算设备2或者能够以其它方式经由其进行访问的视频文件。在一些示例中,分段模块8可以确定要将视频内容划分为的分段的数量。该数量在这里由变量“N”表示。分段模块8可以以各种方式来确定数值N,诸如通过经由用户输入接收该数值,从服务器设备接收该数值,或者通过将N设置为预定义的缺省数值。
在示例中,分段模块8可以将视频内容划分为总共N个长度相等的分段。如这里所描述的,作为结果的长度相等的分段均可以具有对应于该视频的“T”秒的时间跨度的帧计数。在其它示例中,分段模块8可以将视频内容划分为N个分段,使得作为结果的分段中的至少两个的长度不相等。在长度不相等的划分的各个示例中,分段模块8可以通过在随机点对分段间转换划界,或者通过对长度相等的划分进行近似以在视频内容的某些时间标志处放置分段间转换或确保该转换不与单个帧交叉来对视频进行划分。
更具体地,分段模块8可以将作为结果的分段中的第一帧和/或最后一帧指定为相应分段的“场景边界”或“章节边界”。更具体地,分段模块8可以将帧指定为章节边界以指示分段间转换的点。在分段的第一帧的情况下,章节边界可以指示例如从之前分段转换至当前分段中。相反地,在分段的最后一帧的情况下,章节边界可以指示转换出当前分段,例如到后续分段。
此外,分段模块8可以基于检测在帧转换处进入或离开视场的一个或多个演员来检测视频的特定帧或帧转换处的事件。在一些示例中,分段模块8可以通过使用视频标记模块6所生成的标记数据来检测事件。更具体地,在这些示例中,分段模块8可以检测每个帧转换处指示所标记的演员进入视场或离开视场的事件。例如,分段模块8可以检测视频标记模块6已经将“演员_1”标记为出现在视频的帧_10中,但是视频的帧_11中不包括演员_1的标记。在这种情况下,分段模块8可以在帧_11处检测有关演员_1离开视场的事件。
通过以所描述的方式检测个体事件,分段模块8可以识别指示具有不同量级的事件的帧转换。在一些示例中,分段模块8可以识别多个演员离开视场的帧转换。在一个这样的示例中,分段模块8可以确定该帧转换还指示一个或多个演员的不同集合进入视场。例如,单个帧转换可以指示演员1至3离开视场,并且演员4至10进入视场。分段模块8所检测到的事件的量级在这里被称作相应事件的“活动水平”。
虽然以上关于视频标记模块6所标记的演员进行了描述,但是将要意识到的是,无论视频标记模块6是否已经对演员进行了标记,分段模块8都可以针对视频中所表示的演员实现所描述的功能中的一个或多个。在一些示例中,分段模块8可以实现一种或多种跟踪技术,诸如通过确定演员的脸在一段时间内(例如,跨视频的连续帧)连续出现。基于演员是否跨多个连续帧连续出现,分段模块8可以检测该演员进入或离开视场所触发的事件。在各个示例中,分段模块8可以实现包括检测(例如,面部检测)和运动建模(例如,基于一个或多个运动模型)中的一个或多个的技术,以关于未标记演员确定事件。
此外,分段模块8可以确定每个章节边界的特定帧范围内的任意所检测事件的活动水平。更具体地,分段模块8可以确定位于每个章节边界之前和/或之后的特定范围内的帧的活动水平。如果分段模块8检测到与特定事件活动水平相关联的帧,则分段模块8可以将章节边界设置为该所检测的具有该特定事件活动水平的帧。通过将章节边界设置为展现某个活动水平的接近帧,分段模块8可以将分段间转换移动至视频的与视频场境(context)的明显变化相关联的点。更具体地,高度演员轮转所导致的较大活动水平可以指示视频的实质性内容的可能不同的部分之间的转换。作为一个特定使用情形,如果视频与电影相关联,则高的演员轮转可以指示电影中的子图之间的变化。
进而,分段模块8可以将章节边界设置为原始设置的边界的预定义范围内的这样的帧以与视频的实质性内容中的潜在转换相符。在以上所描述的电影使用情形中,通过将章节边界设置为高的活动水平帧,分段模块8可以在所寻址的不同子图的开始处开始电影的下一个分段。以这种方式,分段模块8可以实现本公开的技术以将章节边界设置为与视频内容转换相符,由此潜在地生成更为紧密地跟踪视频的实质性内容的章节。
在图1所示的示例实现中,计算设备2可以可选地包括缩略图选择模块10。缩略图选择模块10在图1中利用虚线边界进行图示以指示缩略图选择模块10的可选本质。缩略图选择模块10可以被配置为或者能够以其它方式进行操作以针对视频的特定分段选择代表帧。更具体地,缩略图选择模块10可以选择包括在特定分段中的帧以表示该特定分段。
根据一些实现,缩略图选择模块10在针对特定分段选择代表帧时可以使用分段模块8所生成的数据。例如,缩略图选择模块10可以基于分段模块8所设置的章节边界来识别视频的分段。此外,在一些示例中,缩略图选择模块10可以选择分段模块8针对给定分段所设置的章节边界帧中的一个作为该给定分段的代表帧。
在各个示例中,缩略图选择模块10可以随机选择如分段模块8所确定的分段的两个章节边界(即,起始和结束帧)中的一个。在其它示例中,缩略图选择模块10可以基于视频标记模块6所生成的标签数据来确定这两个章节边界中的哪一个与较高活动水平相关联,并且基于活动水平的任意差别来选择代表帧。在又其它的示例中,缩略图选择模块10可以搜索比分段模块8所搜索的帧范围大的分段部分,并且例如将代表帧选择为是分段中具有最高活动水平的帧。
此外,计算设备2和/或其各个组件可以生成UI 14,并且使得UI设备4输出UI 14。分段模块8可以设置或调节章节边界以生成如时间单位或帧计数所表示的长度变化的视频分段。针对分段模块8所生成的相对应分段,每个章节链接16包括以[分:秒]格式指示的时间长度的指示。例如,章节链接A的数据标记20指示视频的相对应分段(“章节1”)具有38分53秒的播放长度。类似地,章节链接16B-16D与视频的章节2-4相关联,其分别具有29分2秒、21分16秒和12分9秒的播放长度。
章节链接16A还包括缩略图18。在示例中,缩略图18可以包括缩略图选择模块10关于视频的章节1所选择的代表帧的缩小版本。如所示出的,每个章节链接16包括不同缩略图,具有变化的演员表示水平。例如,分段模块8和缩略图选择模块10中的一个或二者可以确定缩略图18的单个演员表示供边界设置和/或代表帧选择所考虑的特定数量的帧内的最高活动水平。
作为另一个示例,分段模块8和缩略图选择模块10中的一个或二者可以确定所搜索的章节3的帧不包括充分的基于演员的活动。作为结果,缩略图选择模块10可以关于章节3选择不包括演员的任何视觉表示的代表帧。在其它实现中,计算设备可以生成章节链接16以包括附加信息,诸如相应分段的开始时间标记、章节标题、章节中所表示的演员/角色的姓名等等。在其中计算设备2不包括缩略图选择模块10的一些实现中,章节链接16可以不包括代表帧的缩略图(例如,章节链接16A可以不包括缩略图18)。
进而,计算设备2可以基于关于章节链接16中的一个或多个接收到的用户输入来经由UI设备4输出视频的特定章节。例如,计算设备2可以检测用户已经将光标22放置在章节链接16中的一个的上方,并且经由点击、敲击或致动输入选择了相应的章节链接16。此外,计算设备2可以检测到用户已经经由输入激活了播放按钮24。作为响应,计算设备2可以经由UI设备4生成视频,该视频在当前所选择的章节的开头处开始。如果计算设备2在当前未选择章节时检测到对播放按钮24的用户激活,则计算设备2可以从缺省的起始帧开始视频的输出,上述起始帧诸如章节1的第一帧。
图2是图示依据本公开的一个或多个方面的能够进行操作以对视频进行分段的计算设备2的一个示例实现的进一步细节的框图。图1和图2的共同编号的元件可以类似地操作。为了便于讨论,仅关于图2对具有不同于图1的元件编号的那些元件进行描述。将要意识到的是,图1所示的计算设备2的其它实现可以执行本公开的一个或多个技术,并且可以在各个实例中使用不同的实现。虽然在图1和2中出于示例的目的被示为独立计算设备2,但是计算设备2可以是包括处理器(例如,处理器32)的任意组件或系统,或者用于执行软件指令的其它适当计算环境,并且例如无需包括图2中所示的一个或多个元件(例如,输入设备34、UI设备4、输出设备38)。
如图2的示例所示,计算设备2可以包括一个或多个处理器32、一个或多个输入设备34、一个或多个通信单元36、一个或多个输出设备38、一个或多个存储设备40、以及用户界面(UI)设备4。在一个实现中,计算设备2进一步包括应用模块12A-12N以及操作系统42,它们能够由计算设备2执行。组件4、32、34、36、38和40中的每一个可以互连(物理地、通信地和/或操作地)以便进行组件间通信。在一些示例中,通信信道52可以包括系统总线、网络连接、进程间通信数据结构或者用于通信数据的任意其它通道。如图2中的一个示例,组件4、32、34、36、38和40可以通过一个或多个通信信道52进行耦合。应用模块12和操作系统42还可以互相以及与计算设备2中的其它组件通信信息。
在一个示例中,处理器32被配置为实现功能和/或处理指令以便在计算设备2内执行。例如,处理器32可以能够处理存储在存储设备40中的指令。处理器32的示例可以包括微处理器、控制器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者等同的离散或集成逻辑电路中的任意一个或多个。
一个或多个存储设备40可以被配置为在操作期间存储计算设备2内的信息。在一些示例中,存储设备40被描述为一个或多个计算机可读存储介质和/或一个或多个计算机可读存储设备。在一些示例中,存储设备40包括临时存储器,意味着存储设备40的主要目的不是长期存储。在一些示例中,存储设备40被描述为易失性存储器,意味着存储设备40在计算机关机时不保存所存储的内容。易失性存储器的示例包括随机存取存储器(RAM)、动态随机存取存储器(DRAM)、静态随机存取存储器(SRAM)以及本领域已知的其它形式的易失性存储器。在一些示例中,存储设备40被用来存储程序指令以便由处理器32执行。在一个示例中,存储设备40被在计算设备2上运行的软件或应用(例如,应用模块12)用来在程序执行期间临时存储信息。
在一些示例中,存储设备40还包括一个或多个计算机可读存储介质。这样的计算机可读存储介质的示例可以包括非瞬态计算机可读存储介质,以及各种计算机可读存储设备。存储设备40可以被配置为存储比各种形式的易失性存储器更大量的信息。存储设备40可以进一步被配置用于信息的长期存储。在一些示例中,存储设备40包括非易失性存储元件。这样的非易失性存储元件的示例包括磁性硬盘、固态盘(SSD)、光盘、软盘、闪存、或者多种形式的电可编程存储器(EPROM)或电可擦除可编程存储器(EEPROM)。
在一些示例中,计算设备2还包括一个或多个通信单元36。在一个示例中,计算设备2利用通信单元36经由诸如一个或多个无线网络的一个或多个网络与外部设备进行通信。通信单元36可以是网络接口卡,诸如以太网卡、光学收发器、射频收发器、或者能够发送并接收信息的任意其它类型的设备。这样的网络接口的其它示例可以包括蓝牙、3G、4G和无线电计算设备以及通用串行总线(USB)。在一些示例中,计算设备2利用通信单元36与外部设备进行无线通信。
在一个示例中,计算设备2还包括一个或多个输入设备34。在一些示例中,输入设备34被配置为通过触觉、音频或视频反馈来接收来自用户的输入。输入设备34的示例包括存在敏感设备(诸如存在敏感显示器)、鼠标、键盘、语音响应系统、视频相机、麦克风或者用于检测来自用户的命令的任意其它类型的设备。在一些示例中,存在敏感显示器包括触摸敏感屏幕。
一个或多个输出设备38也可以包括在计算设备2中。在一些示例中,输出设备38被配置为使用触觉、音频或视频刺激向用户提供输出。在各个示例中,输出设备38包括存在敏感设备(例如,触摸敏感屏幕)、声卡、视频图形适配器卡、或者用于将信号转换为人或机器所能够理解的适当形式的任意其它类型的设备。输出设备38的进一步示例包括扬声器、阴极射线管(CRT)监视器、液晶显示器(LCD)、或者能够生成用户可理解的输出的任意其它类型的设备。
在一些示例中,UI设备4可以包括输入设备34和/或输出设备38的功能。在图2的示例中,UI设备4可以包括、作为存在敏感显示器和/或存在敏感输入设备,或者可以是其一部分。在一些示例中,存在敏感显示器和/或存在敏感输入设备可以检测在相应显示器或输入设备处和/或附近的物体。作为一个非限制示例范围,存在敏感显示器可以检测处于存在敏感显示器的物理屏幕2英寸或更近内的诸如手指或触控笔的物体。存在敏感显示器可以确定检测到物体处或附近的存在敏感显示器的位置(例如(x,y)坐标集)。在另一个非限制性示例范围中,存在敏感显示器可以检测距存在敏感显示器的物理屏幕6英寸或更近的物体,并且其它范围也是可能的。存在敏感显示器可以使用电容、电感和/或光学识别技术来确定物体(例如,用户手指)所选择的显示器位置。在一些示例中,如关于输出设备38所描述的,存在敏感显示器使用触觉、音频或视频刺激提供输出。
计算设备2可以包括操作系统42。在一些示例中,操作系统42控制计算设备2的组件的操作。例如,在一个示例中,操作系统42促成应用模块12与处理器32、通信单元36、存储设备40、输入设备34和输出设备38的通信。如图2所示,存储设备40可以包括如图1中所描述的视频标记模块6、分段那模块8以及可选地包括缩略图选择模块10。进而,在图2中所图示的计算设备2的示例中,分段模块8包括子模块,也就是事件检测模块44、活动量度模块46、帧搜索模块48和边界重置模块50。图2中所示的各个模块均可以包括能够由计算设备2执行或者以其它方式使用的程序指令和/或数据。作为一个示例,分段模块8和/或其子模块可以包括使得计算设备2执行本公开中所描述的操作和动作中的一个或多个的指令。
如关于图1所描述的,视频标记模块6可以识别视频文件或者与视频文件相关联的诸如歌曲的音频实体中包括的人、位置或物体的各种表示。在标记人的视觉或图形表示的实例中,视频标记模块6可以使用面部识别技术以将在帧中检测到的面部表示与诸如演员或运动员的人的基准图像进行比较。在各个示例中,视频标记模块6可以使用一种或多种算法来执行该比较,举几个例子,上述算法诸如几何和/或测光方法、三维(3D)建模和识别技术、使用本征脸的主分量分析、线性区别分析、弹性图匹配、模式匹配和动态链接匹配。
基于所应用的算法产生的基于比较的值,诸如预先编程的可接受裕量误差,视频标记模块6可以确定帧中的面部表示是否充分类似于基准面部图像。视频标记模块8可以应用这些或相对应的基于比较的技术来识别视频帧中的其它类型的视觉表示,诸如特定物体的表示,或者基于城市的天际线识别诸如城市的位置。类似地,在识别与一个或多个视频帧相关联的诸如歌曲、与屏幕外演员相关联的讲话或者叙述之类的音频数据的实例中,视频标记模块6可以使用能够应用于音频数据的各种识别技术。能够应用于音频数据的识别技术的示例包括语音识别和声音指纹。
如图2所示,分段模块8可以包括一个或多个子模块。分段模块8的每个子模块可以被配置为或者能够以其它方式进行操作以实现这里关于分段模块8所描述的功能的各个部分。虽然分段模块8的子模块为了便于讨论和说明而在这里被描述为实现分段模块8的功能的特定部分,但是将要意识到的是,在依据本公开的其它实施方式中,功能在子模块之间的不同分配是可能的。
在图2所示的示例实现中,分段模块8包括事件检测模块44、活动量度模块46、帧搜索模块48和边界设置模块50。事件检测模块44可以别配置为或者能够以其它方式进行操作以基于一个或多个被标记演员进入或离开有关视频文件中的帧转换的视场来检测视频文件中表示的事件。例如,事件检测模块44可以关于至少一个被标记演员在其进入或离开视场的每个帧转换来检测事件。事件检测模块44关于帧转换所检测的事件在这里可以由项“e_t”表示。
虽然以上关于视频标记模块6所标记的演员进行了描述,但是将要意识到的是,事件检测模块44可以实现针对视频中所表示的演员所描述的功能中的一个或多个,而无论视频标记模块6是否已经标记了演员。在一些示例中,事件检测模块44可以实现一种或多种跟踪技术,诸如通过确定演员的脸在一段时间内(例如,跨视频的连续帧)连续出现。基于演员是否跨多个连续帧连续出现,事件检测模块44可以检测由该演员进入或离开视场所触发的事件。在各个示例中,事件检测模块44可以实现包括一种或多种检测(例如,面部检测)和运动建模(例如,基于一种或多种运动模型)的技术,以关于未标记演员确定事件。
分段模块8的活动量度模块46可以被配置为或者能够以其它方式进行操作以确定与事件检测模块44所检测到的每个事件(e_t)相关联的活动水平。更具体地,活动量度模块46在一个示例中可以基于进入视场的被标记演员的数量与离开视场的被标记演员的数量之和来关于特定帧转换确定特定事件的活动水平。应用以上关于图1所描述的示例(但是非限制性)情形,特定帧转换可以表示离开视场的三个被标记演员。在以上所描述的该情形中,相同的帧转换可以表示进入视场的七个被标记演员。在该示例中,活动量度模块46可以确定帧转换处的事件与活动水平10相关联。更具体地,活动量度模块46可以通过对在帧转换处进入视场的被标记演员的总数和离开视场的演员的总数进行求和来计算该事件的活动水平。活动量度模块关于事件所确定的活动水平在这里能够由表达式“D(e_t)”表示,其中e_t指代对其应用该活动水平的特定事件。
在一些示例中,活动量度模块46可以利用与关于帧转换处于静态的被标记演员相关的数据对活动水平计算进行扩增。例如,在以上所描述的示例中,其中活动量度模块46将D(e_t)计算为10,活动量度模块46可以基于跨越该帧转换保持处于视场内的被标记演员的数量来调节所计算的D(e_t)。在一个非限制性示例中,活动量度模块46可以确定两个被标记演员在该帧转换期间始终保持处于视场之内。在该示例中,活动量度模块46可以将所计算的D(e_t)数值递减2,导致经调节的D(e_t)数值8。
在经扩增的D(e_t)计算的另一个示例中,活动量度模块46可以确定跨帧转换而处于静态的被标记演员的数量超过了原始的D(e_t)数值。例如,活动量度模块46可以确定总共15个被标记演员跨该帧转换保持处于视场之中。换句话说,活动量度模块46可以确定转换之前的帧和转换之后的帧共享相应视场内的总共15个被标记演员。将要意识到的是,即使视频标记模块6对转换之前和之后的帧的相应视场内的不同相对位置处的共享演员进行标记,活动量度模块46也可以检测转换之前和之后的帧共享被标记演员。
因此,在该示例中,活动量度模块46可以确定扩增之前的D(e_t)数值为10,例如关于帧转换进入帧的被标记演员的数量与离开视场的被标记演员的数量之和为10。在该示例中,活动量度模块46可以确定关于该帧转换经扩增的D(e_t)数值为零。更具体地,活动量度模块46可以通过针对每个静态的被标记演员递减原始D(e_t),在经扩增的D(e_t)数值达到零时停止递减,来对计算进行扩增。在该特定示例中,由于跨帧转换处于静态的被标记演员的数量超过原始D(e_t)数值,所以活动量度模块46可以在经扩增的D(e_t)数值达到零时停止递减。作为结果,在该示例中,活动量度模块46可以将经扩增的D(e_t)数值设置为零。作为一个示例使用情形,活动量度模块46可以确定较大数量的静态被标记演员比跨该帧转换进入和/或离开视场的较少数量的被标记演员所指示的任何潜在图变化都重要。
在扩增的D(e_t)计算的另一个示例中,活动量度模块46可以确定没有被标记演员跨帧转换处于静态。例如,活动量度模块46可以确定转换之前的帧包括总共三个处于视场之中的被标记演员,以及总共三个在转换之后的帧中从视场离开的被标记演员。类似地,活动量度模块46可以确定转换之后的帧包括总共七个处于视场之中的被标记演员,以及在转换之前的帧中这七个被标记演员中没有一个处于视场之中。在该示例中,活动量度模块46可以确定原始D(e_t)数值和经扩增的D(e_t)是相同的,例如数值10。更具体地,由于活动量度模块46确定没有被标记演员跨帧转换处于静态,所以活动量度模块46可以不对原始D(e_t)数值10进行扩增(或者替选地,该扩增过程可以包括从原始D(e_t)数值减去零值)。将要意识到的是,活动量度模块46可以在这里所描述的技术的一些实现中确定经扩增的D(e_t)数值,而在其它实现中,活动量度模块46可以使用原始或“原”D(e_t)数值作为与帧转换相关联的最终D(e_t)数值。
帧搜索模块48可以被配置为或者能够以其它方式进行操作对位于章节边界的特定范围内的帧的D(e_t)数值进行调查。例如,帧搜索模块48可以在预定帧范围内对章节的起始帧之后的帧的D(e_t)数值进行调查。类似地,帧搜索模块48可以在预定帧范围内对章节的结束帧之前的帧的D(e_t)数值进行调查。在一些示例中,帧搜索模块48可以识别调查范围内具有最大D(e_t)数值的帧。帧搜索模块48可以通过应用一个或多个选择和/或排序算法来识别所调查的帧范围内的最大D(e_t)数值,上述算法诸如线性最大值选择、气泡排序等。
在一些示例中,帧搜索模块48可以将连续的帧范围进行融合,并且调查经融合的范围。例如,帧搜索模块48可以识别两个连续的章节边界,诸如第一章节的结束帧以及紧接在第一章节之后的第二章节的起始帧。此外,帧搜索模块48可以针对最大D(e_t)数值而调查经融合的帧范围。更具体地,通过调查经融合的帧范围,帧搜索模块48可以确定该帧范围中的最大D(e_t)数值,同时保持对一致数量的帧进行考虑。例如,通过关于相邻章节边界所定义的章节间转换而搜索并识别具有最大D(e_t)数值的单个帧。通过识别具有最大D(e_t)数值的单个帧,帧搜索模块48可以避免检测两个帧,一个在第一章节的结束帧之前的范围内具有最大D(e_t)数值,而另一个在第二章节的起始帧之后的范围内具有最大的D(e_t)数值。以这种方式,帧搜索模块48可以实现这里所描述的技术以避免关于章节间转换而识别出两个单独的帧,并且更具体地,避免识别可能在视频文件中被一个或多个中间帧所隔开的帧。
根据这里所描述的技术的一些实现,帧搜索模块48可以将所要调查的时间范围定义为自章节边界起的[T/4]个时间单位,其中“T”表示特定章节的时间跨度。例如,帧搜索模块48可以使用视频的帧率(例如,以单位“每秒钟的帧数”表达)来确定特定章节中所包括的帧数。更具体地,帧搜索模块48可以将该帧率乘以该章节的时间跨度(例如,以秒表示)以获得该章节中所包括的帧的总数。进而,帧搜索模块48可以将该章节中的帧数除以4以获得自每个章节边界起所要调查的帧的总数。如所描述的,帧搜索模块48可以针对最大的D(e_t)数值而对使用公式[T/4]识别的每个帧范围进行调查,或者在可应用情形中,可以将两个连续的帧范围进行融合,并且针对最大的D(e_t)数值调查经融合的范围。在该示例中,经融合的帧范围可以具有[T/4]乘以因数2所表示的长度,换句话说具有长度[T/2]。此外,帧搜索模块48可以针对每个所调查的帧范围将对具有最大的D(e_t)数值的帧的识别通信至边界设置模块50。该识别的示例可以包括帧数、与视频文件中所包括的帧相关联的时间戳等等。
根据本公开的一个或多个方面,边界设置模块50可以使用从计算设备2的其它组件所接收的数据,诸如从帧搜索模块48所接收的帧识别,来设置或重置章节边界。例如,边界设置模块50可以从帧搜索模块48接收在所调查的帧范围内具有最大的D(e_t)数值的帧的指示。进而,边界设置模块50可以将与所调查的帧范围相关联的章节边界设置为帧搜索模块48所识别的帧。
更具体地,边界设置模块50可以确定所调查的帧范围与单个原始章节边界相关联。在一个示例中,边界设置模块50可以基于与所识别的帧的接近来识别原始章节边界,诸如通过选择与所识别的帧最接近的原始章节边界。在另一个示例中,边界设置模块50可以从帧搜索模块48和/或计算设备2的其它组件接收与所识别的帧相关联的原始章节边界的指示。
此外,边界设置模块50可以对相对应的章节边界进行调节以与所识别的帧相符。例如,边界设置模块50可以将所识别的帧设置为与章节间转换相关联的第二章节的起始帧。此外,边界设置模块50可以将紧接在所识别的帧之前的帧设置为与章节间转换相关联的第一章节的结束帧。通过基于被帧搜索模块48识别为在所调查的范围内具有最大的D(e_t)数值的帧对章节边界进行调节,边界设置模块50可以实现这里所描述的技术以调节章节边界,以便更准确地跟踪视频文件的实质性内容中的变换。
如图1的示例,缩略图选择模块10在图2中利用虚线边界示出以指示缩略图选择模块10的可选属性。如关于图1所描述的,缩略图选择模块10可以被配置为或者能够以其它方式进行操作以针对视频的特定分段选择代表帧。虽然缩略图选择模块10关于图1在选择用于章节选择的代表缩略图的场境中进行描述,但是将要意识到的是,计算设备2也可以在其它场境中应用缩略图选择模块10的功能。作为一个实例,计算设备2可以使用章节代表帧来生成提升材料,诸如与视频文件相关联的海报或其它提升图像。
图3是图示依据本公开的一个或多个方面的计算设备可以执行以对视频进行分段的示例过程60的流程图。虽然过程60可以由依据本公开的方面的各种设备所执行,但是仅出于清楚的目的,过程60在这里关于如图1-2中所图示的计算设备2及其组件进行描述。
过程60包括分段模块8识别用于分段的视频内容(62)。在各个示例中,分段模块8可以基于用户输入、基于从通信地耦合至计算设备2的另一个设备(例如,服务器)接收的指令等来识别视频内容。此外,在各个示例中,所识别的视频内容可以在本地存储至存储设备40,可以从通信地耦合至计算设备2的另一个设备接收,等等。在各个示例中,视频内容可以包括、可以是数据文件或者可以是其一部分,上述数据文件诸如是符合一种或多种视频文件格式的视频文件。
此外,分段模块8可以确定要将所识别的视频内容分段成的分段的数量(N)(64)。作为一些示例,分段模块8可以基于指示数量的用户输入、来自远程设备的指示数量的指令来确定分段的数量,或者通过将该数量设置为预定义的缺省数值。分段模块8可以将所识别的视频内容分段为所确定的数量(N)的分段(66)。在一些示例中,分段模块8可以将视频内容分段为N个相等长度的分段。例如,分段模块8可以使用各种量度来确定分段的长度,诸如帧计数或者每个分段中的总帧的正常速率输出所表示的时间。分段模块8和/或计算设备2的其它组件可以基于与视频内容相关联的帧率或图片速率来确定视频内容的输出的正常速率。帧率可以在每单位时间的帧或图片方面进行表达,诸如每秒钟的帧。帧率还可以由设备以赫兹(Hz)来表达,上述设备诸如配备有逐行扫描能力的监视器。
活动量度模块46可以针对分段模块8所形成的分段的帧来确定在这里由“D(e_t)”表示的活动水平(68)。具体地,事件检测模块44可以检测事件,事件的每个实例在这里关于该分段的每个帧由“e_t”表示。更具体地,事件检测模块44可以将转换之前和之后的帧进行比较来确定被视频标记模块6标记的一个或多个演员是否关于该帧进入和/或离开了视场。如果事件检测模块44确定至少一个被标记演员在帧转换处进入或离开视场,则事件检测模块44可以检测到关于该帧转换的事件。
进而,活动量度模块46可以针对事件检测模块44所检测到的每个事件来确定D(e_t)数值。更具体地,活动量度模块46可以通过将在帧转换处进入视场的被标记演员的总数与在该帧转换处离开视场的被标记演员的总数相加来计算事件的D(e_t)数值。在一些示例中,如果事件检测模块44关于特定帧转换未检测到事件,则活动量度模块46可以对无事件的帧转换指定D(e_t)数值零。
此外,帧搜索模块48可以对位于每个章节边界的预定帧范围内的帧的D(e_t)数值进行调查。基于在所调查的帧范围内检测到的D(e_t)数值,帧搜索模块48可以确定在该预定帧范围内是否检测到具有比原始章节边界大的D(e_t)数值的事件(70)。如果帧搜索模块48检测到所调查的帧范围包括具有比原始章节边界大的D(e_t)数值的帧(70的“是”分支),则帧搜索模块48可以使得边界设置模块50对章节边界进行调节以与具有较大D(e_t)数值的帧相符(72)。此外,如果帧搜索模块48检测到所调查范围内均具有比原始章节边界大的D(e_t)数值的多个帧,则帧搜索模块48可以使得边界设置模块50调节章节边界以与所调查的范围内具有较大D(e_t)数值(例如,D(e_t)“峰值”)的帧相符。
另一方面,如果帧搜索模块48未在所调查的范围内检测到具有比原始章节边界大的D(e_t)数值的帧(70的“否”分支),则帧搜索模块48可以使得边界设置模块50保持原始章节边界(74)。此外,缩略图选择模块10可以选择分段的章节边界(例如,起始帧或结束帧)中的一个作为该分段的代表缩略图(76)。在一个示例中,过程60可以根据由计算设备2和/或其一个或多个组件执行的以下工作流进行描述:
1)对视频中每个演员的每次出现进行标记。
2)将视频分段为由N-1个场景边界定义的N个相等长度(T秒)的场景。
3)定义一个或多个演员进入或离开视频(如该工作流的步骤1所确定的)的每个时间t的事件e_t。
4)针对每个e_t,计算D(e_t)=进入的演员的数量+离开的演员的数量。
5)针对在该工作流的步骤2中所定义的每个场景边界,针对具有最大D数值的事件搜索边界之前的T/4秒和边界之后的T/4秒,并且将边界重置为相对应的时间。换句话说,搜索边界前后的T/2秒窗口中的D的峰值并且将边界重置为该点。如果在该T/2秒窗口中没有事件,则保持原有边界。
图4是图示依据本公开的一个或多个方面的计算设备2可以执行以对视频进行分段的另一示例过程80的流程图。虽然过程80可以由依据本公开的方面的各种设备执行,但是仅出于清楚的目的,过程80在这里关于如图1-2中所图示的计算设备2及其组件进行描述。
过程80包括分段模块8确定要将视频内容分段为的分段的数量(82)。所确定的数量在各个示例中可以对应于一个或多个分段。此外,分段模块8可以将视频内容分段为所确定的数量的分段(84)。分段模块8的边界设置模块50可以识别与每个分段相关联的边界帧(86)。此外,边界设置模块50可以调节与该分段中的第一分段相关联的相应边界帧以生成与该第一分段相关联的经调节的边界帧,其中该调节是基于与经调节的边界帧相关联的一个或多个实体表示(88)。如这里所描述的,与帧相关联的实体表示的示例可以包括诸如演员或运动员的一个或多个人的相应视觉表示,诸如建筑物、天际线或地标的无生命物体的视觉表示,或者结合该帧输出的诸如歌曲或叙述中声音的各种音频实体的可听表示。
根据一些示例,基于活动量度模块48确定与经调节的边界帧相关联的活动水平,边界设置模块50可以使用一个或多个实体表示来调节相应的边界帧,该活动水平与一个或多个实体表示中的变化相关联。例如,活动量度模块48可以在显示顺序上相对于经调节的帧的相邻帧使得一个或多个实体表示变化。在一些示例中,边界设置模块50可以至少部分基于活动量度模块48在从与视频内的第一分段相关联的相应边界帧起的预定时间跨度内识别出在该预定时间跨度内的所有帧中具有最大活动水平的帧来调节与该第一分段相关联的相应边界帧,并且边界设置模块50将具有最大活动水平的帧识别为经调节的边界帧。在一个这样的示例中,缩略图选择模块10可以选择与第一分段相关联的经调节的边界帧作为该第一分段的代表缩略图。
在一些示例中,活动量度模块48可以至少部分基于事件检测模块44针对第一分段内的预定时间跨度中的每个帧确定以下至少一个:(i)进入视场的演员的数量和(ii)离开视场的演员的数量,来识别具有最大活动水平的帧,其中该视场与第一分段内的相对应帧的所显示的部分相关联。在一个这样的示例中,活动量度模块48可以至少部分地通过识别第一分段内的预定时间跨度内的特定帧而使得该特定帧与第一分段中的该预定时间跨度内的所有帧相比具有进入视场的演员数量和离开视场的演员数量的最大总和,作为具有最大活动水平的帧,来识别具有最大活动的帧。
在一些示例中,活动量度模块48可以至少部分基于识别第一分段内的预定时间跨度内的特定帧而使得该特定帧与第一分段内的该预定时间跨度内的帧的集合相比具有进入视场的演员的数量和离开视场的演员的数量之间的最大差值,作为具有最大活动水平的帧,来识别具有最大活动水平的帧。
根据一些示例,边界设置模块50可以至少部分通过调节相应边界帧以形成与第一分段相关联的经调节的边界帧而使得第一分段与该视频内容被分段为的至少一个其它分段的长度不相等,来对与第一分段相关联的相应边界帧进行调节。在一些示例中,视频标记模块6可以识别视频内容中表示的一个或多个演员。根据一些示例,均与第一分段相关联的相应边界帧和经调节的边界帧是相同的帧。根据一些示例,相应边界帧和经调节的边界帧是不同的帧。在一些示例中,分段模块8可以至少部分地通过将视频内容划分为使得所有分段都为相等长度来将该视频内容划分为所确定的数量的分段。
以下对依据本公开的方面的示例进行描述。
示例1.
一种方法,包括:由计算设备确定要将视频内容划分成的一个或多个分段;由所述计算设备将所述视频内容划分为所述一个或多个分段;由所述计算设备识别与每个所述分段相关联的边界帧;以及由所述计算设备调节与所述分段中的第一分段相关联的相应边界帧以生成与所述第一分段相关联的经调节的边界帧,其中所述调节基于与所述经调节的边界帧相关联的一个或多个实体表示。
示例2.
根据示例1所述的方法,其中,基于所述一个或多个实体表示调节与所述第一分段相关联的相应边界帧包括确定与所述经调节的边界帧相关联的活动水平,所述活动水平与所述一个或多个实体表示中的变化相关联。
示例3.
根据示例1-2中的任一项所述的方法,其中,调节与所述第一分段相关联的相应边界帧包括:在从与所述视频内的所述第一分段相关联的相应边界帧起的预定时间跨度内识别在所述预定时间跨度内的帧集合中具有最大活动水平的帧;以及由所述计算设备将所述具有最大活动水平的帧识别为所述经调节的边界帧。
示例4.
根据示例3所述的方法,其中,识别所述具有最大活动水平的帧包括:由所述计算设备针对所述第一分段内的所述预定时间跨度的每个帧确定以下至少一个:(i)进入视场的演员的数量和(ii)离开视场的演员的数量中,其中所述视场与所述第一分段内的相对应帧的所显示的部分相关联。
示例5.
根据示例1-4中的任一项所述的方法,其中,识别所述具有最大活动水平的帧包括:由所述计算设备识别所述第一分段内的所述预定时间跨度内的特定帧,使得所述特定帧与所述第一分段中的所述预定时间跨度内的所有帧相比具有进入视场的演员的数量和离开所述视场的演员的数量的最大总和,作为所述具有最大活动水平的帧。
示例6.
根据示例1-5中的任一项所述的方法,进一步包括:由所述计算设备选择与所述第一分段相关联的经调节的边界帧作为所述第一分段的代表缩略图帧。
示例7.
根据示例1-6中的任一项所述的方法,其中,调节与所述第一分段相关联的相应边界帧包括:由所述计算设备设置所述相应边界帧以形成与所述第一分段相关联的经调节的边界帧,使得所述第一分段与所述视频内容被划分为的至少一个其它分段的长度不相等。
示例8.
根据示例1-7中的任一项所述的方法,进一步包括:由所述计算设备识别在所述视频内容中表示的一个或多个演员。
示例9.
根据示例1-8中的任一项所述的方法,其中,均与所述第一分段相关联的所述相应边界帧和经调节的边界帧是相同的帧。
示例10.
根据示例1-9中的任一项所述的方法,其中,所述相应边界帧和经调节的边界帧是不同的帧。
示例11.
根据示例1-10中的任一项所述的方法,其中将该视频内容划分为所述一个或多个分段包括:将所述视频内容划分为使得所述一个或多个分段中的每一个的长度相等。
示例12.
一种设备,包括:存储器;和一个或多个可编程处理器,所述一个或多个可编程处理器能够进行操作以:确定要将视频内容划分成的分段的数量;将所述视频内容划分为所确定的数量的分段;识别与每个所述分段相关联的边界帧;以及调节与所述分段中的第一分段相关联的相应边界帧以生成与所述第一分段相关联的经调节的边界帧,其中所述调节基于与所述经调节的边界帧相关联的一个或多个实体表示。
示例13.
根据示例12所述的设备,其中,为了基于所述一个或多个实体表示调节与所述第一分段相关联的相应边界帧,所述一个或多个可编程处理器进行操作以确定与所述经调节的边界帧相关联的活动水平,所述活动水平与所述一个或多个实体表示中的变化相关联。
示例14.
根据示例12-13中的任一项所述的设备,其中,所述一个或多个可编程处理器进一步进行操作以:在从与所述视频内的所述第一分段相关联的相应边界帧起的预定时间跨度内识别在所述预定时间跨度内的帧集合中具有最大活动水平的帧;以及将所述具有最大活动水平的帧识别为所述经调节的边界帧。
示例15.
根据示例14所述的设备,其中,为了识别所述具有最大活动水平的帧,所述一个或多个可编程处理器进行操作以针对所述第一分段内的所述预定时间跨度的每个帧确定以下至少一个:(i)进入视场的演员的数量和(ii)离开视场的演员的数量中,其中所述视场与所述第一分段内的相对应帧的所显示的部分相关联。
示例16.
根据示例12-15中的任一项所述的设备,其中,为了识别所述具有最大活动水平的帧,所述一个或多个可编程处理器进行操作以:识别所述第一分段内的所述预定时间跨度内的特定帧,使得所述特定帧与所述第一分段中的所述预定时间跨度内的所有帧相比具有进入视场的演员的数量和离开所述视场的演员的数量的最大总和,作为所述具有最大活动水平的帧。
示例17.
根据示例12-16中的任一项所述的设备,其中,所述一个或多个可编程处理器能够进一步进行操作以:选择与所述第一分段相关联的经调节的边界帧作为所述第一分段的代表缩略图帧。
示例18.
根据示例12-17中的任一项所述的设备,其中,为了调节与所述第一分段相关联的相应边界帧,所述一个或多个可编程处理器进行操作以:设置所述相应边界帧以形成与所述第一分段相关联的经调节的边界帧,使得所述第一分段与所述视频内容被划分为的至少一个其它分段的长度不相等。
示例19.
根据示例12-18中的任一项所述的设备,其中,所述一个或多个可编程处理器能够进一步进行操作以:识别在所述视频内容中表示的一个或多个演员。
示例20.
根据示例12-19中的任一项所述的设备,其中,均与所述第一分段相关联的所述相应边界帧和经调节的边界帧是相同的帧。
示例21.
根据示例12-20中的任一项所述的设备,其中,所述相应边界帧和经调节的边界帧是不同的帧。
示例22.
一种编码有指令的计算机可读存储设备,所述指令在被执行时使得一个或多个计算设备执行包括以下的操作:确定要将视频内容划分成的分段的数量;将所述视频内容划分为所确定的数量的分段;识别与每个所述分段相关联的边界帧;以及调节与所述分段中的第一分段相关联的相应边界帧以生成与所述第一分段相关联的经调节的边界帧,其中所述调节基于与所述经调节的边界帧相关联的一个或多个实体表示。
示例23.
根据示例22所述的计算机可读存储设备,进一步编码有指令,所述指令在被执行时使得所述计算设备的所述一个或多个处理器执行根据示例2-11中的任一项所述的方法。
示例24.
根据示例12所述的设备,进一步包括用于执行根据示例2-11中的任一项所述的方法的装置。
这里所描述的技术可以至少部分地以硬件、软件、固件或者它们的任意组合来实现。例如,所描述的实施例的各个方面可以在一个或多个处理器内实现,其包括一个或多个微处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)、或者其它等同的集成或离散逻辑电路,以及这样的组件的任意组合。术语“处理器”或“处理电路”一般可以指代单独或者结合其它逻辑电路的任意上述逻辑电路,或者任意其它等同电路。包括硬件的控制单元也可以执行本公开的一种或多种技术。
这样的硬件、软件和固件可以在相同设备内或分立设备内实现以支持在此所描述的各种技术。此外,任何所描述的单元、模块或组件都可以共同或单独被实现为离散但是能够交互操作的逻辑设备。将不同特征描述为模块或单元意在强调不同的功能方面而并非必然暗示这样的模块或单元由分立的硬件、固件或软件组件来实现。相反,与一个或多个模块或单元相关联的功能可以由分立的硬件、固件或软件组件来执行,或者被集成在共用或分立的硬件、固件或软件组件内。
这里所描述的技术还可以以包括编码有指令的计算机可读存储介质的制品来体现或编码。嵌入或编码在包括被编码的计算机可读存储介质或计算机可读存储设备的制品中的指令可以使得一个或多个可编程处理器或其它处理器实现这里所描述的一种或多种技术,诸如在包括或编码在该计算机可读存储介质中的指令被一个或多个处理器执行时。计算机可读存储介质可以包括随机存取存储器(RAM)、只读存储器(ROM)、可编程只读存储器(PROM)、可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、闪存、硬盘、压缩盘ROM(CD-ROM)、软盘、卡盒、磁性介质、光学介质或者其它计算机可读存储介质。在一些示例中,制品可以包括一个或多个计算机可读存储介质。
在一些示例中,计算机可读存储介质可以包括有形或非瞬态介质,诸如一个或多个计算机可读存储设备。术语“非瞬态”可以指示该存储介质不是以载波或传播信号所体现的。在某些示例中,非瞬态存储介质或非瞬态计算机可读存储设备可以存储能够随时间而变化的数据(例如,在RAM或高速缓存中)。
已经对各个示例进行了描述。这些和其它示例处于所附权利要求的范围内。

Claims (20)

1.一种对视频进行分段的方法,包括:
由计算设备确定要将视频内容划分成的一个或多个分段;
由所述计算设备将所述视频内容划分为所述一个或多个分段;
由所述计算设备识别与每个所述分段相关联的相应边界帧;
由所述计算设备基于与帧集合相关联的一个或多个实体表示来识别所述帧集合内具有最大活动水平的帧,其中所述帧集合中的每个帧在从与所述一个或多个分段中的第一分段相关联的相应边界帧起的预定时间跨度内出现;以及
由所述计算设备调节与所述第一分段相关联的所述相应边界帧,以至少部分地通过将具有最大活动水平的帧识别为与所述第一分段相关联的经调节的边界帧来生成所述经调节的边界帧。
2.根据权利要求1所述的方法,其中,识别具有最大活动水平的帧包括确定与所述帧集合中的每个帧相关联的相应活动水平,每个相应活动水平与所述一个或多个实体表示中的变化相关联。
3.根据权利要求1所述的方法,其中,识别具有最大活动水平的帧包括:
由所述计算设备针对所述第一分段内的所述预定时间跨度的每个帧确定以下至少一个:(i)进入视场的演员的数量、以及(ii)离开视场的演员的数量,
其中所述视场与所述第一分段内的相对应帧的所显示的部分相关联。
4.根据权利要求1所述的方法,其中,识别具有最大活动水平的帧包括:
由所述计算设备识别所述第一分段内的所述预定时间跨度内的特定帧,使得所述特定帧与所述第一分段中的所述预定时间跨度内的所有帧相比具有进入视场的演员的数量和离开所述视场的演员的数量的最大总和,作为所述具有最大活动水平的帧。
5.根据权利要求1所述的方法,进一步包括:
由所述计算设备选择与所述第一分段相关联的经调节的边界帧作为所述第一分段的代表缩略图帧。
6.根据权利要求1所述的方法,其中,调节与所述第一分段相关联的相应边界帧包括:
由所述计算设备设置所述相应边界帧以形成与所述第一分段相关联的经调节的边界帧,使得所述第一分段与所述视频内容被划分为的至少一个其它分段的长度不相等。
7.根据权利要求1所述的方法,进一步包括:
由所述计算设备识别在所述视频内容中表示的一个或多个演员。
8.根据权利要求1所述的方法,其中,均与所述第一分段相关联的所述相应边界帧和所述经调节的边界帧是相同的帧。
9.根据权利要求1所述的方法,其中,所述相应边界帧和所述经调节的边界帧是不同的帧。
10.根据权利要求1所述的方法,其中,将所述视频内容划分为所述一个或多个分段包括:
将所述视频内容划分为使得所述一个或多个分段中的每一个的长度相等。
11.一种对视频进行分段的设备,包括:
存储器;和
一个或多个可编程处理器,所述一个或多个可编程处理器能够进行操作以:
确定要将视频内容划分成的分段的数量;
将所述视频内容划分为所确定的数量的分段;
识别与每个所述分段相关联的相应边界帧;
基于与帧集合相关联的一个或多个实体表示来识别所述帧集合内具有最大活动水平的帧,其中所述帧集合中的每个帧在从与所述一个或多个分段中的第一分段相关联的相应边界帧起的预定时间跨度内出现;以及
调节与所述第一分段相关联的所述相应边界帧,以至少部分地基于将具有最大活动水平的帧识别为与所述第一分段相关联的经调节的边界帧来生成所述经调节的边界帧。
12.根据权利要求11所述的设备,其中,为了识别具有最大活动水平的帧,所述一个或多个可编程处理器可操作来确定与所述帧集合中的每个帧相关联的相应活动水平,每个相应活动水平与和所述帧集合中的相应帧相关联的所述一个或多个实体表示中的变化相关联。
13.根据权利要求11所述的设备,其中,为了识别具有最大活动水平的帧,所述一个或多个可编程处理器可操作来:
针对所述第一分段内的所述预定时间跨度的每个帧确定以下至少一个:(i)进入视场的演员的数量、以及(ii)离开视场的演员的数量,
其中所述视场与所述第一分段内的相对应帧的所显示的部分相关联。
14.根据权利要求11所述的设备,其中,为了识别具有最大活动水平的帧,所述一个或多个可编程处理器可操作来:
识别所述第一分段内的所述预定时间跨度内的特定帧,使得所述特定帧与所述第一分段中的所述预定时间跨度内的所有帧相比具有进入视场的演员的数量和离开所述视场的演员的数量的最大总和,作为所述具有最大活动水平的帧。
15.根据权利要求11所述的设备,其中,所述一个或多个可编程处理器进一步可操作来:
选择与所述第一分段相关联的经调节的边界帧作为所述第一分段的代表缩略图帧。
16.根据权利要求11所述的设备,其中,为了调节与所述第一分段相关联的相应边界帧,所述一个或多个可编程处理器可操作来:
设置所述相应边界帧以形成与所述第一分段相关联的经调节的边界帧,使得所述第一分段与所述视频内容被划分为的至少一个其它分段的长度不相等。
17.根据权利要求11所述的设备,所述一个或多个可编程处理器进一步可操作来:
识别在所述视频内容中表示的一个或多个演员。
18.根据权利要求11所述的设备,其中,均与所述第一分段相关联的所述相应边界帧和所述经调节的边界帧是相同的帧。
19.根据权利要求11所述的设备,其中,所述相应边界帧和所述经调节的边界帧是不同的帧。
20.一种编码有指令的计算机可读存储设备,所述指令在被执行时使得一个或多个计算设备执行包括以下的操作:
确定要将视频内容划分成的分段的数量;
将所述视频内容划分为所确定的数量的分段;
识别与每个所述分段相关联的相应边界帧;
基于与帧集合相关联的一个或多个实体表示来识别所述帧集合内具有最大活动水平的帧,其中所述帧集合中的每个帧在从与所述一个或多个分段中的第一分段相关联的相应边界帧起的预定时间跨度内出现;以及
调节与所述第一分段相关联的所述相应边界帧,以至少部分地通过将具有最大活动水平的帧识别为与所述第一分段相关联的经调节的边界帧来生成所述经调节的边界帧。
CN201480046149.1A 2013-08-19 2014-07-18 基于内容的视频分段 Active CN105518783B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US13/970,553 2013-08-19
US13/970,553 US9154761B2 (en) 2013-08-19 2013-08-19 Content-based video segmentation
PCT/US2014/047270 WO2015026461A1 (en) 2013-08-19 2014-07-18 Content-based video segmentation

Publications (2)

Publication Number Publication Date
CN105518783A CN105518783A (zh) 2016-04-20
CN105518783B true CN105518783B (zh) 2018-09-07

Family

ID=51355618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201480046149.1A Active CN105518783B (zh) 2013-08-19 2014-07-18 基于内容的视频分段

Country Status (4)

Country Link
US (1) US9154761B2 (zh)
EP (1) EP3036742A1 (zh)
CN (1) CN105518783B (zh)
WO (1) WO2015026461A1 (zh)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9451162B2 (en) 2013-08-21 2016-09-20 Jaunt Inc. Camera array including camera modules
US11019258B2 (en) 2013-08-21 2021-05-25 Verizon Patent And Licensing Inc. Aggregating images and audio data to generate content
US10104394B2 (en) * 2014-01-31 2018-10-16 Here Global B.V. Detection of motion activity saliency in a video sequence
US9911454B2 (en) 2014-05-29 2018-03-06 Jaunt Inc. Camera array including camera modules
US11108971B2 (en) 2014-07-25 2021-08-31 Verzon Patent and Licensing Ine. Camera array removing lens distortion
US10440398B2 (en) * 2014-07-28 2019-10-08 Jaunt, Inc. Probabilistic model to compress images for three-dimensional video
US10701426B1 (en) 2014-07-28 2020-06-30 Verizon Patent And Licensing Inc. Virtual reality system including social graph
US9774887B1 (en) 2016-09-19 2017-09-26 Jaunt Inc. Behavioral directional encoding of three-dimensional video
US9363569B1 (en) 2014-07-28 2016-06-07 Jaunt Inc. Virtual reality system including social graph
US9607224B2 (en) * 2015-05-14 2017-03-28 Google Inc. Entity based temporal segmentation of video streams
KR20170009037A (ko) * 2015-07-15 2017-01-25 삼성전자주식회사 영상 컨텐츠 제공 장치 및 영상 컨텐츠 제공 방법
KR102376700B1 (ko) * 2015-08-12 2022-03-22 삼성전자주식회사 비디오 컨텐츠 생성 방법 및 그 장치
US10452874B2 (en) 2016-03-04 2019-10-22 Disney Enterprises, Inc. System and method for identifying and tagging assets within an AV file
CN105893631B (zh) * 2016-05-31 2020-10-16 努比亚技术有限公司 一种视频缩略图的获取方法、装置及终端
US10560734B2 (en) * 2016-08-01 2020-02-11 Microsoft Technology Licensing, Llc Video segmentation and searching by segmentation dimensions
US11032535B2 (en) 2016-09-19 2021-06-08 Verizon Patent And Licensing Inc. Generating a three-dimensional preview of a three-dimensional video
US11032536B2 (en) 2016-09-19 2021-06-08 Verizon Patent And Licensing Inc. Generating a three-dimensional preview from a two-dimensional selectable icon of a three-dimensional reality video
US10681341B2 (en) 2016-09-19 2020-06-09 Verizon Patent And Licensing Inc. Using a sphere to reorient a location of a user in a three-dimensional virtual reality video
CN106503127B (zh) * 2016-10-19 2019-09-27 竹间智能科技(上海)有限公司 基于脸部动作识别的音乐数据处理方法及系统
US10929886B2 (en) * 2017-01-05 2021-02-23 Rovi Guides, Inc. Systems and methods for personalized timing for advertisements
US10068616B2 (en) 2017-01-11 2018-09-04 Disney Enterprises, Inc. Thumbnail generation for video
CN107277650B (zh) * 2017-07-25 2020-01-21 中国华戎科技集团有限公司 视频文件切割方法及装置
CN107592525B (zh) * 2017-09-19 2019-12-13 深圳市兆驰数码科技股份有限公司 机顶盒wifi功能检测及烧号方法及设备
US10956492B2 (en) * 2017-10-17 2021-03-23 Verily Life Sciences Llc Systems and methods for segmenting surgical videos
US10628486B2 (en) 2017-11-15 2020-04-21 Google Llc Partitioning videos
US10595098B2 (en) * 2018-01-09 2020-03-17 Nbcuniversal Media, Llc Derivative media content systems and methods
CN108566567B (zh) * 2018-04-25 2020-09-01 中影数字巨幕(北京)有限公司 电影剪辑方法及装置
US10694167B1 (en) 2018-12-12 2020-06-23 Verizon Patent And Licensing Inc. Camera array including camera modules
US11501176B2 (en) 2018-12-14 2022-11-15 International Business Machines Corporation Video processing for troubleshooting assistance
CN110781711A (zh) * 2019-01-21 2020-02-11 北京嘀嘀无限科技发展有限公司 目标对象识别方法、装置、电子设备及存储介质
US11348235B2 (en) 2019-03-22 2022-05-31 Verily Life Sciences Llc Improving surgical video consumption by identifying useful segments in surgical videos
CN110602546A (zh) * 2019-09-06 2019-12-20 Oppo广东移动通信有限公司 视频生成方法、终端及计算机可读存储介质
CN111432138B (zh) * 2020-03-16 2022-04-26 Oppo广东移动通信有限公司 视频拼接方法及装置、计算机可读介质和电子设备
CN111914682B (zh) * 2020-07-13 2024-01-05 完美世界控股集团有限公司 一种包含演示文稿的教学视频分割方法、装置及设备
CN112261491B (zh) * 2020-12-22 2021-04-16 北京达佳互联信息技术有限公司 视频时序标注方法、装置、电子设备及存储介质
US20230230152A1 (en) * 2022-01-14 2023-07-20 Shopify Inc. Systems and methods for generating customized augmented reality video
CN114550300A (zh) * 2022-02-25 2022-05-27 北京百度网讯科技有限公司 视频数据分析方法、装置、电子设备及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1376584A2 (en) * 2002-06-19 2004-01-02 Microsoft Corporation System and method for automatically generating video cliplets from digital video
CN101295354A (zh) * 2007-04-23 2008-10-29 索尼株式会社 图像处理装置、成像装置、图像处理方法和计算机程序
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5136655A (en) 1990-03-26 1992-08-04 Hewlett-Pacard Company Method and apparatus for indexing and retrieving audio-video data
US6496228B1 (en) 1997-06-02 2002-12-17 Koninklijke Philips Electronics N.V. Significant scene detection and frame filtering for a visual indexing system using dynamic thresholds
US6711587B1 (en) 2000-09-05 2004-03-23 Hewlett-Packard Development Company, L.P. Keyframe selection to represent a video
CN1886988B (zh) 2003-10-22 2012-07-04 视频网络Ip控股有限公司 非线性交互式视频导航
US7986372B2 (en) 2004-08-02 2011-07-26 Microsoft Corporation Systems and methods for smart media content thumbnail extraction
US20060110128A1 (en) 2004-11-24 2006-05-25 Dunton Randy R Image-keyed index for video program stored in personal video recorder
US8316301B2 (en) 2005-08-04 2012-11-20 Samsung Electronics Co., Ltd. Apparatus, medium, and method segmenting video sequences based on topic
US8462152B2 (en) 2006-03-10 2013-06-11 Nero Ag Apparatus and method for providing a sequence of video frames, apparatus and method for providing a scene model, scene model, apparatus and method for creating a menu structure and computer program
US7881505B2 (en) 2006-09-29 2011-02-01 Pittsburgh Pattern Recognition, Inc. Video retrieval system for human face content
US8196045B2 (en) 2006-10-05 2012-06-05 Blinkx Uk Limited Various methods and apparatus for moving thumbnails with metadata
EP2454712A4 (en) 2009-07-16 2013-01-23 Bluefin Labs Inc DETERMINATION AND DISPLAY OF SOCIAL INTERESTS IN TIME-BASED MEDIA
US20120090009A1 (en) 2010-10-12 2012-04-12 Comcast Cable Communications, Llc Video Assets Having Associated Graphical Descriptor Data
US9271035B2 (en) 2011-04-12 2016-02-23 Microsoft Technology Licensing, Llc Detecting key roles and their relationships from video
US9047376B2 (en) * 2012-05-01 2015-06-02 Hulu, LLC Augmenting video with facial recognition

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7548565B2 (en) * 2000-07-24 2009-06-16 Vmark, Inc. Method and apparatus for fast metadata generation, delivery and access for live broadcast program
EP1376584A2 (en) * 2002-06-19 2004-01-02 Microsoft Corporation System and method for automatically generating video cliplets from digital video
CN101295354A (zh) * 2007-04-23 2008-10-29 索尼株式会社 图像处理装置、成像装置、图像处理方法和计算机程序

Also Published As

Publication number Publication date
EP3036742A1 (en) 2016-06-29
US20150050006A1 (en) 2015-02-19
CN105518783A (zh) 2016-04-20
WO2015026461A1 (en) 2015-02-26
US9154761B2 (en) 2015-10-06

Similar Documents

Publication Publication Date Title
CN105518783B (zh) 基于内容的视频分段
US20210042666A1 (en) Localized Learning From A Global Model
CN105052155B (zh) 内插视频标签
US11409791B2 (en) Joint heterogeneous language-vision embeddings for video tagging and search
US10217027B2 (en) Recognition training apparatus, recognition training method, and storage medium
CN109740499A (zh) 视频分割方法、视频动作识别方法、装置、设备及介质
JP6911866B2 (ja) 情報処理装置および情報処理方法
US8879888B2 (en) Video clip selection via interaction with a hierarchic video segmentation
CN110073369B (zh) 时间差分模型的无监督学习技术
CN110622176A (zh) 视频分区
KR101986307B1 (ko) 시각 대화를 통해 객체의 위치를 알아내기 위한 주의 기억 방법 및 시스템
TW201250609A (en) Gesture recognition using depth images
US11205418B2 (en) Monotone speech detection
US20200242398A1 (en) Information processing method and information processing system
CN104516635B (zh) 一种管理内容显示的方法、系统及存储介质
US10762902B2 (en) Method and apparatus for synthesizing adaptive data visualizations
US10699746B2 (en) Control video playback speed based on user interaction
US20160373834A1 (en) Rhythm based multimedia generator
TW201510901A (zh) 對建議系統的基於強度之建模
CN109034199B (zh) 数据处理方法及装置、存储介质和电子设备
US20210295493A1 (en) System and method for machine learning based video quality assessment
Hasan et al. Multi-modal highlight generation for sports videos using an information-theoretic excitability measure
US20190196445A1 (en) Method and system for sensing fine changes in processing/equipment measurement data
CN109658172A (zh) 一种商圈推荐方法、计算设备、装置及存储介质
US11042274B2 (en) Extracting demonstrations from in-situ video content

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: American California

Applicant after: Google limited liability company

Address before: American California

Applicant before: Google Inc.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant