CN105611430B

CN105611430B - 用于处理视频内容的方法和系统

Info

Publication number: CN105611430B
Application number: CN201510744639.5A
Authority: CN
Inventors: S·库尔比斯
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2014-11-14
Filing date: 2015-11-05
Publication date: 2018-10-12
Anticipated expiration: 2035-11-05
Also published as: EP3021258A2; CN105611430A; EP3021258A3; US9544615B2; US20160142730A1

Abstract

本公开的一个方面涉及用于处理视频内容的方法和系统。本文公开了处理视频内容的方法和系统的各个方面。该方法包括确定与视频内容相关联的第一帧识别值。第一帧识别值对应于视频内容的一帧的平均颜色值。该方法还包括确定与视频内容相关联的第二帧识别值。第二帧识别值对应于视频内容的帧的全局运动矢量(GMV)值。该方法还包括基于第一帧识别值和第二帧识别值中一个或二者确定第一中间帧。

Description

用于处理视频内容的方法和系统

技术领域

本公开内容的各种实施例涉及处理视频内容。更具体而言，本公开内容的各种实施例涉及处理视频内容，以生成视频摘要。

背景技术

近年来视频处理领域的进展已经引入从运动视频生成视频摘要的各种方法。视频摘要是一个或多个视频精选的组合。视频精选可以基于从运动视频中的一个或多个视频片段选择一帧或多帧来确定。每当在运动视频中检测到场景变化时可以确定一个或多个视频片段。

在某些场景中，该一个或多个视频精选可以由用户基于一个或多个参数，诸如优选的时间戳和/或优选的持续时间，来人工选择。这种人工选择不可考虑视频帧信息和/或相机运动信息，这是不期望的。

通过所述系统与本公开内容一些方面的比较，常规和传统方法的更多限制和缺点将对本领域的技术人员变得明显，如在本申请剩余部分中并且参考附图所阐述的。

发明内容

提供了处理视频内容的方法和系统，基本上如在至少一个图中示出和/或联系至少一个图描述的，如在权利要求中更完全地阐述的。

连同附图，从下面对本公开内容的具体实施方式的审查可以理解本公开内容的这些和其它特征和优点，其中附图中相同的标号贯穿全文指相同的部分。

附图说明

图1是根据本公开内容的实施例，说明实现所公开的处理视频内容的方法和系统的网络环境的框图。

图2是根据本公开内容的实施例，说明示例性电子设备的框图。

图3A、3B、3C、3D和3E根据本公开内容的实施例说明了实现所公开的处理视频内容的方法和系统的示例性场景。

图4是根据本公开内容的实施例，说明处理视频内容的示例性场景的表。

图5A、5B和5C是根据本公开内容的实施例，说明处理视频内容的示例性场景的图表。

图6是根据本公开内容的实施例，说明处理视频内容的方法的流程图。

具体实施方式

可以发现处理视频内容的方法和/或系统的各种实现。本公开内容的示例性方面可以包括生成视频摘要的方法。该方法可以包括确定与视频内容相关联的第一帧识别值。第一帧识别值可以对应于视频内容的一帧的平均颜色值。该方法还可以包括确定与该视频内容相关联的第二帧识别值。第二帧识别值可以对应于该视频内容的一帧的全局运动矢量(GMV)值。该方法还可以确定第一中间帧。该第一中间帧可以基于第一帧识别值和第二帧识别值中之一或二者。该第一中间帧可以指示视频内容中的场景变化。

在实施例中，第一帧识别值可以对应于与视频内容的帧相关联的梯度值。在实施例中，平均颜色值可以对应于包括亮度和色度(YUV)颜色模型和/或红、绿和蓝(RGB)颜色模型之一的颜色模型。在实施例中，用于该帧的第一帧识别值可以基于第一量化值生成。在实施例中，第二帧识别值可以基于第二量化值。

在实施例中，第二中间帧可以基于另一第一帧识别值和另一第二帧识别值之一或二者来确定。在实施例中，第二中间帧可以指示视频内容中的场景变化。在实施例中，一个或多个帧可以在第一中间帧和第二中间帧之间确定。在实施例中，一个或多个帧可以基于第一帧识别值、第二帧识别值之一或二者的变化来确定。在实施例中，第一中间帧和第二中间帧中的每一个均可以具有相关联的第一帧识别值、第二帧识别值。在实施例中，视频片段可以基于所确定的一个或多个帧以及第一中间帧来生成。在实施例中，一个或多个关键帧可以从所生成的视频片段来选择。所确定的关键帧的一个或多个可以基于与每个帧相关联的一个或多个参数和/或一个或多个用户偏好来选择。

在实施例中，参数可以包括运动行为分析值和/或稳定性等级中的一个或多个。在实施例中，所生成的一个或多个视频片段可以组合，以基于用户偏好和/或默认设置生成视频摘要。在实施例中，用户偏好可以包括视频片段的期望持续时间、视频摘要的期望持续时间、用户提供的音频文件的持续时间、期望的稳定性等级、视频片段中存在的对象、与对象相关联的特性和/或与对应于视频片段的关键帧相关联的颜色值和梯度值中的一个或多个。

在实施例中，视频摘要的期望持续时间可以基于包括音频文件的用户输入和/或视频摘要持续时间的预存储值的一个或多个来确定。在实施例中，可以确定对应于视频内容的一帧的稳定性等级。在实施例中，稳定性等级可以对应于该帧的GMV特性变化。在实施例中，所确定的稳定性等级可以与GMV特性变化成反比。

图1是根据本公开内容的实施例，说明用于显示视频内容的网络环境100的框图。参考图1，示出了电子设备102、应用服务器104、视频内容服务器106和通信网络108。电子设备102可以包括显示屏110。电子设备102可以与一个或多个用户，诸如用户112(未示出)，相关联。电子设备102可以经由通信网络108与应用服务器104和视频内容服务器106通信耦合。

电子设备102可以包括可操作为经由显示屏110接收用户输入的合适的逻辑、电路、接口和/或代码。电子设备102可操作为在显示屏110上显示用于视频处理的视频内容。电子设备102可操作为经由通信网络108从应用服务器104下载处理视频内容的应用。电子设备102可操作为经由通信网络108从视频内容服务器106检索将要被处理的视频内容。电子设备102还可操作为接收一个或多个用户偏好和/或一个或多个用户输入。该一个或多个用户偏好和/或一个或多个用户输入可以由一个或多个用户，诸如用户112，来提供。电子设备还可操作为，利用所下载的视频内容的每一帧，基于颜色信息、梯度信息和/或运动信息生成视频摘要。电子设备102还可操作为在显示屏110上显示所生成的视频摘要。电子设备102的例子可以包括，但不限于，电视机、互联网协议电视机(IPTV)、膝上型计算机、平板电脑、智能手机和/或个人数字助理(PDA)设备。

应用服务器104可以包括可操作为托管处理视频内容的应用的合适的逻辑、电路、接口和/或代码。应用服务器104可操作为托管用于一个或多个订阅的设备，诸如电子设备102，的应用。应用服务器104可以利用本领域技术人员众所周知的几种技术来实现。

视频内容服务器106可以包括可操作为托管视频内容的合适的逻辑、电路、接口和/或代码。视频内容服务器106可以与配置为在视频内容服务器106记录并存储视频内容的远程视频捕捉设备(未示出)通信耦合。视频内容服务器106可以利用本领域技术人员众所周知的几种技术来实现。

通信网络108可以包括电子设备102通过其可以与一个或多个服务器，诸如应用服务器104和/或视频内容服务器106，通信的介质。通信网络108的例子可以包括，但不限于，互联网、云网络、无线保真(Wi-Fi)网络、无线局域网(WLAN)、局域网(LAN)、电话线(POTS)和/或城域网(MAN)。根据各种有线和无线通信协议，网络环境100中的各种设备可操作为连接到通信网络108。这种有线和无线通信协议的例子可以包括，但不限于，传输控制协议和互联网协议(TCP/IP)、用户数据报协议(UDP)、超文本传输协议(HTTP)、文件传输协议(FTP)、ZigBee、EDGE、红外线(IR)、IEEE 802.11、802.16、蜂窝通信协议和/或蓝牙(BT)通信协议。

显示屏110可以包括可操作为呈现从一个或多个视频内容源，诸如视频内容服务器106，接收的视频内容的合适的逻辑、电路、接口和/或代码。显示屏110还可操作为呈现对应于从应用服务器104下载的应用的一个或多个特征。显示屏110还可操作为从一个或多个用户，诸如用户112，接收一个或多个用户偏好。显示屏110可以通过几种已知的技术来实现，所述技术可以包括，但不限于，液晶显示(LCD)显示器、发光二极管(LED)显示器、有机LED(OLED)显示技术，等。

在操作中，电子设备102可操作为经由通信网络108从应用服务器104下载处理视频内容的应用。在实施例中，电子设备102还可操作为经由通信网络108从视频内容服务器106检索将要被处理的视频内容。在实施例中，视频内容可以由远程视频捕捉设备记录。所记录的视频内容可以存储在视频内容服务器106中。在另一种实施例中，视频内容可以实时地流式传输到电子设备102。在实施例中，处理视频内容的应用可以预存储在电子设备102中。在另一种实施例中，处理视频内容的应用可以存在于视频内容服务器106处。

在实施例中，显示屏110可操作为将对应于从应用服务器104下载的应用的一个或多个特征呈现给用户112。在实施例中，显示屏110还可操作为从用户112接收一个或多个用户偏好。在实施例中，用户偏好可以包括与视频内容相关联的视频帧的期望时间戳、一个或多个视频片段的期望持续时间、和/或视频摘要的期望持续时间。用户偏好还可以包括颜色信息、梯度信息、帧背景、一个或多个对象和/或与和视频内容相关联的一个或多个帧中的一个或多个对象相关联的一个或多个特性。

在实施例中，电子设备102可操作为检测与视频内容的每一帧相关联的颜色信息。在实施例中，与每一帧相关联的颜色信息可以对应于基本颜色模型。RGB颜色模型可以包括红(R)、绿(G)和蓝(B)颜色成分，统称为“RGB颜色模型”。在实施例中，与每一帧相关联的颜色信息可以对应于派生的颜色模型。颜色模型可以包括亮度(Y)成分和两个色度(UV)成分，其被统称为“YUV”颜色模型。电子设备102可以配置为确定视频内容的每一帧的平均颜色值。

在实施例中，电子设备102可操作为检测与视频内容的每一帧相关联的梯度信息。视频内容的每一帧的梯度信息可以对应于帧中一个或多个对象的强度和/或颜色的方向性变化。电子设备102可以配置为确定视频内容的每一帧的平均梯度值。

在实施例中，电子设备102可操作为基于视频内容的每一帧的平均颜色值和/或平均梯度值确定第一帧识别值。在实施例中，电子设备102可操作为检测与视频内容相关联的全局运动矢量(GMV)值。在实施例中，针对视频内容的每一帧，电子设备102可操作为基于多个量化值生成第二帧识别值。

在实施例中，电子设备102可操作为基于第一帧识别值和第二帧识别值中之一或二者确定第一中间帧。在实施例中，电子设备102可操作为基于另一第一帧识别值和另一第二帧识别值中之一或二者确定第二中间帧。在这种实施例中，另一第一帧识别值和另一第二帧识别值可以针对不同的帧被确定。在实施例中，第一中间帧和/或第二中间帧可以指示视频内容中的场景变化。

在实施例中，电子设备102可操作为确定第一中间帧和第二中间帧之间的一个或多个帧。在实施例中，电子设备102还可操作为基于所确定的一个或多个帧和/或第一中间帧生成视频片段。尽管，本公开内容可以不这样限制，在不限制本公开内容范围的情况下，电子设备102可操作为基于多个中间帧生成多个视频片段。

在实施例中，电子设备102可操作为确定与视频内容的每一帧相关联的一个或多个参数。在实施例中，参数可以包括运动行为分析值和/或稳定性等级。在实施例中，电子设备102还可操作为从所生成的多个视频片段选择一个或多个关键帧。在实施例中，关键帧对应于一个或多个视频精选。在实施例中，一个或多个视频精选的选择可以基于与视频内容的每一帧相关联的参数，和/或由用户提供的用户偏好。在实施例中，电子设备还可操作为从一个或多个视频精选中丢弃帧。在实施例中，一个或多个帧的丢弃可以基于相似性指数。在实施例中，相似性指数对应于一个或多个帧的一个或多个成分的复制。在实施例中，电子设备102还可操作为组合一个或多个视频精选，以生成视频摘要。

在实施例中，视频摘要可以基于用户输入来定制。在实施例中，用户输入包括用户期望的用于背景音乐的音频文件和/或一个或多个视觉效果。在实施例中，定制的视频摘要可以呈现在显示屏110上。在实施例中，电子设备102还可操作为向用户提供与视频摘要相关联的一个或多个选项。在实施例中，选项包括传送、共享、保存、编辑和/或播放视频摘要。

图2是根据本公开内容的实施例，说明示例性电子设备的框图200。图2是结合图1的元素来解释的。参考图2，示出了电子设备102。电子设备102可以包括一个或多个处理器，诸如应用处理器204、颜色处理单元206、梯度处理单元208和运动处理单元210。电子设备102还可以包括存储器212以及一个或多个输入/输出(I/O)设备，诸如I/O单元214。I/O单元214可以包括显示屏110。应用处理器204可以通信耦合到颜色处理单元206、梯度处理单元208、运动处理单元210、存储器212和I/O单元214。在实施例中，电子设备102还可以包括收发器(未示出)。收发器可操作为经由通信网络108(图1)与一个或多个服务器，诸如应用服务器104、视频内容服务器106和/或其它电子设备(未示出)，通信。在这种实施例中，收发器可以通信耦合到一个或多个处理器，其包括应用处理器204、颜色处理单元206、梯度处理单元208、运动处理单元210、存储器212和I/O单元214。

应用处理器204可以包括可操作为执行存储在存储器212中的一组指令的合适的逻辑、电路、接口和/或代码。应用处理器204可操作为确定与视频内容相关联的第一帧识别值和第二帧识别值。应用处理器204还可操作为生成视频片段。应用处理器204可以组合视频片段的视频精选，以生成视频摘要。应用处理器204可以基于本领域中已知的多种处理器技术来实现。

颜色处理单元206可以包括可操作为检测和/或处理与视频内容的每一帧相关联的颜色信息的合适的逻辑、电路、接口和/或代码。在实施例中，颜色处理单元206可以通信耦合到远程视频捕捉设备(未示出)。颜色处理单元206可操作为基于从存储器212检索的一个或多个算法确定对应于视频内容的每一帧的平均颜色值。该一个或多个算法可以对应于，但不限于，图像处理算法、计算机视觉算法和/或机器视觉算法。

梯度处理单元208可以包括可操作为检测和/或处理与视频内容的每一帧相关联的梯度信息的合适的逻辑、电路、接口和/或代码。在实施例中，梯度处理单元208可以通信耦合到远程视频捕捉设备。梯度处理单元208可操作为基于从存储器212检索的一个或多个算法确定对应于视频内容的每一帧的平均梯度值。

运动处理单元210可以包括可操作为检测和/或处理与视频内容的每一帧相关联的全局运动矢量(GMV)值的合适的逻辑、电路、接口和/或代码。运动处理单元210可以通信耦合到远程视频捕捉设备。运动处理单元210可操作为关于相邻帧确定对应于视频内容的每一帧的GMV值。运动处理单元210还可操作为基于与电子设备102相关联的多个运动值确定稳定性等级。

应用处理器204、颜色处理单元206、梯度处理单元208和运动处理单元210可以实现为一个或多个处理器。应用处理器204、颜色处理单元206、梯度处理单元208和运动处理单元210的例子可以包括基于x86的处理器、精简指令集计算(RISC)处理器、专用集成电路(ASIC)处理器、复杂指令集计算(CISC)处理器和/或其它处理器。

存储器212可以包括可操作为存储机器代码和/或具有由应用处理器204可执行的至少一个代码部分的计算机程序的合适的逻辑、电路、和/或接口。存储器212还可操作为存储对应于视频内容的每一帧的第一帧识别值和/或第二帧识别值。存储器212还可操作为存储与颜色信息、梯度信息和/或全局运动矢量值中一个或多个相关联的一个或多个量化值。存储器212还可操作为存储分别与电子设备102和视频内容相关联的一个或多个参数和/或一个或多个用户偏好。存储器212还可操作为存储一个或多个算法，诸如计算机视觉算法和/或机器视觉算法等。存储器212的实现的例子可以包括，但不限于，随机存取存储器(RAM)、只读存储器(ROM)、硬盘驱动器(HDD)和/或安全数字(SD)卡。

I/O单元214可以包括可操作为从用户接收输入或者向用户提供输出的合适的逻辑、电路、接口和/或代码。I/O单元214可以包括可操作为与应用处理器204通信的各种输入和输出设备。I/O单元可以包括显示屏110。I/O单元214的例子可以包括，但不限于，键盘、鼠标、控制杆、触摸屏、触控板、麦克风、相机、运动传感器、光传感器和/或扩展坞(dockingstation)。显示屏110的例子可以包括，但不限于，液晶显示(LCD)显示器、发光二极管(LED)显示器、有机LED(OLED)显示器技术等。

在操作中，颜色处理单元206可操作为检测与视频内容的每一帧相关联的颜色信息。在实施例中，视频内容可以实时地被捕捉。在另一种实施例中，视频内容可以是在后处理阶段的预先记录的运动视频。在实施例中，与每一帧相关联的颜色信息可以对应于基本颜色模型，诸如RGB颜色模型。在实施例中，与每一帧相关联的颜色信息可以对应于YUVG颜色模型，并且可以包括亮度(Y)成分和两个色度(UV)成分。

在实施例中，颜色处理单元206可以被配置为基于第一量化值“Q₁”把每一帧分成一个或多个量化区间(bin)。尽管，本公开内容可以不这样限制，在不限制本公开内容范围的情况下，另一个处理器，诸如应用处理器204和/或梯度处理单元208，可操作为确定第一量化值“Q₁”。在实施例中，这种一个或多个量化区间的数量可以基于用户偏好来确定。在实施例中，量化区间的数量可以基于从存储器212检索的预存储值来确定。

在实施例中，颜色处理单元206可以被配置为根据等式(1)基于第一量化值“Q₁”计算量化除法器值(quantization divider value)，诸如“div”。

div＝256/Q₁ (1)

在实施例中，颜色处理单元206可操作为向应用处理器204传送第一量化值“Q₁”。在另一种实施例中，颜色处理单元206可操作为在存储器212中存储第一量化值“Q₁”。

在实施例中，颜色处理单元206可以被配置为确定对应于与颜色模型相关联的每个成分的平均颜色值。例如，在派生的颜色模型(诸如YUV颜色模型)的情况下，平均颜色值可以对应于每一帧的亮度(Y)的平均值(诸如“avg Y”)、第一色度成分(U)的平均值(诸如“avg U”)、以及第二色度成分(V)的平均值(诸如“avg V”)。在实施例中，根据等式(2)、(3)和(4)，颜色处理单元206可被配置为确定多个第一量化值，诸如Y颜色量化值“y”、U颜色量化值“u”和V颜色量化值“v”。

y＝(avg Y)/div (2)

u＝(avg U)/div (3)

v＝(avg V)/div (4)

其中，“avg Y”、“avg U”和“avg V”分别是对应于视频内容的每一帧的平均Y、U和V值。

多个第一量化值可以指示对应于平均颜色值的多个区间数量。在实施例中，颜色处理单元206还可操作为向应用处理器204传送所确定的多个第一量化值。在实施例中，颜色处理单元206可以在存储器212中存储所确定的多个第一量化值。

在实施例中，梯度处理单元208可操作为检测与视频内容的每一帧相关联的梯度信息。视频内容的每一帧的梯度信息可以对应于该帧中一个或多个对象的强度和/或颜色的方向性变化。梯度处理单元208可以被配置为确定可以对应于视频内容的每一帧的平均梯度值，诸如“G”。在实施例中，梯度处理单元208可以被配置为根据等式(5)基于量化除法器值，诸如“div”，确定梯度量化值，诸如“g”。

g＝(avg G)/div (5)

在实施例中，梯度处理单元208还可操作为向应用处理器204传送所确定的梯度量化值“g”。在实施例中，颜色处理单元206可以在存储器212中存储所确定的梯度量化值“g”。

在实施例中，应用处理器204可操作为基于所确定的多个第一量化值和梯度量化值生成第一帧识别值，诸如“YUVG帧ID”。第一帧识别值“YUVG帧ID”可以根据等式(6)来确定。

YUVG帧ID＝(y*Q₁*Q₁*Q₁)+(u*Q₁*Q₁)+(v*Q₁)+g (6)

在实施例中，运动处理单元210可操作为检测与视频内容相关联的GMV值。在实施例中，运动处理单元210可以被配置为基于第二量化值“Q₂”把一帧划分为一个或多个量化区间。在实施例中，运动处理单元210可操作为向应用处理器204传送第二量化值“Q₂”。在实施例中，运动处理单元210可操作为在存储器212中存储第二量化值“Q₂”。

在实施例中，运动处理单元210可操作为确定电子设备102的x轴平移量化值“Q_x”、y轴平移量化值“Q_y”和旋转量化值“Q_r”。在实施例中，运动处理单元210还可操作为确定电子设备102的多个运动值。该多个运动值可以包括第一运动值“t_x”、第二运动值“t_y”和第三运动值“rot”。

第一运动值“t_x”可以对应于电子设备102沿x轴的转变(transition)。第二运动值，诸如“t_y”，可以对应于电子设备102沿y轴的转变。第三运动值“rot”可以对应于电子设备102的旋转成分。在实施例中，运动处理单元210还可操作为根据等式(7)、(8)和(9)基于多个运动值确定多个第二量化值，诸如x轴运动量化值“x”、y轴运动量化值“y”和旋转运动量化值“r”。

x＝min(Q₂-1,abs(t_x/Q_x)) (7)

y＝min(Q₂-1,abs(t_y/Q_y)) (8)

r＝min(Q₂-1,abs(rot/Q_r)) (9)

在实施例中，颜色处理单元206还可操作为向应用处理器204传送在等式(7)、(8)和(9)中所确定的多个第二量化值。在实施例中，运动处理单元210可以在存储器212中存储所确定的多个第二量化值。在实施例中，应用处理器204可操作为基于所确定的多个第二量化值以及编码的符号图案“EncodedSignPattern”生成第二帧识别值，诸如“GMV帧ID”。在实施例中，第二帧识别值“GMV帧ID”可以根据等式(10)来确定。

GMV帧ID＝(x*Q₂*Q₂)+(y*Q₂)+r+EncodedSignPattern (10)

在实施例中，应用处理器204可操作为在存储器212中存储第一帧识别值和第二帧识别值。在实施例中，应用处理器204可操作为基于第一帧识别值和第二帧识别值中之一或二者确定第一中间帧。在实施例中，应用处理器204可操作为基于另一第一帧识别值和另一第二帧识别值中之一或二者确定第二中间帧。在这种实施例中，另一第一帧识别值和另一第二帧识别值可以以类似于确定第一帧识别值和第二帧识别值的方式来针对不同的帧确定。

在实施例中，第一中间帧和/或第二中间帧可以指示视频内容中的场景变化。由第一中间帧和/或第二中间帧指示的这种场景变化可以在各种应用中使用。这种应用的例子可以包括，但不限于，智能视频摘要提取、用于快速浏览的视频索引、用于视频编码的实时关键帧提取、和/或监控视频中的变化检测。

在实施例中，应用处理器204可操作为确定第一中间帧和第二中间帧之间的一个或多个帧。基于所确定的一个或多个帧和/或第一中间帧，应用处理器204可操作为生成视频片段。尽管，本公开内容可以不这样限制，在不限制本公开内容范围的情况下，应用处理器204可操作为基于多个中间帧生成多个视频片段。

在实施例中，应用处理器204可操作为确定可以对应于电子设备102的GMV特性变化的稳定性等级。在实施例中，稳定性等级可以与电子设备102的GMV特性变化成反比。在实施例中，应用处理器204可以基于从存储器212检索的一个或多个算法确定针对视频内容的每一帧的稳定性等级。在实施例中，应用处理器204可以基于所确定的多个运动值确定针对视频内容的每一帧的稳定性等级。例如，当帧呈现出帧中一个或多个对象的可忽略的转变和/或旋转运动时，针对与监控相机相关联的视频内容的帧的稳定性等级可以高。在示例性场景中，视频内容可以包括突然的活动，诸如道路事故、打雷和/或交通拥挤状况。在这种场景下，由于帧呈现出帧中一个或多个对象的大量转变和/或旋转运动，针对视频内容的帧的稳定性等级值可以小于预定义的阈值。在实施例中，应用处理器204可操作为选择具有大于预定义阈值的稳定性等级值的帧，使得所生成的视频摘要中的转变是平滑的。在实施例中，应用处理器204可操作为自动选择具有低于预定义阈值的稳定性等级值的帧。在这种情况下，自动选择的帧可以包括突然的活动。

在实施例中，应用处理器204可操作为从存储器212检索一个或多个参数和/或一个或多个用户偏好。在实施例中，该一个或多个参数可以包括电子设备102的运动行为分析值和/或一个或多个帧的稳定性等级。运动行为分析值可以对应于电子设备102关于参考点的位移的方向、量值和速度。在实施例中，稳定性等级可以基于从存储器212检索的一个或多个算法的实现从一个或多个帧中的视频内容确定。在实施例中，稳定性等级可以基于所确定的电子设备102的多个运动值自动确定。在实施例中，由用户提供的用户偏好可以包括期望的时间戳、一个或多个视频片段的期望持续时间、和/或视频摘要的期望持续时间。用户偏好还可以包括颜色信息、梯度信息、帧背景、一个或多个对象和/或与一个或多个帧中的一个或多个对象相关联的一个或多个特性。

在实施例中，应用处理器204可以从所生成的视频片段选择一个或多个关键帧。在实施例中，选定的关键帧对应于视频精选。在实施例中，视频精选可以基于一个或多个参数和/或一个或多个用户偏好来选择。在实施例中，为了精炼一个或多个视频精选，应用处理器204可以从所生成的一个或多个视频精选丢弃一个或多个帧。在实施例中，应用处理器204可以基于相似性指数丢弃一个或多个帧。在实施例中，相似性指数可以与一个或多个帧的一个或多个成分之间的复制程度相关联。该一个或多个成分可以包括颜色信息、梯度信息、帧背景、一个或多个对象和/或与一个或多个帧中的一个或多个对象相关联的一个或多个特性。在实施例中，应用处理器204可操作为组合精炼的一个或多个视频精选，以生成视频摘要。

在实施例中，I/O单元214可操作为接收定制所生成的视频摘要的用户输入。用户输入可以包括用户期望的用于背景音乐的音频文件和/或一个或多个视觉效果。在实施例中，应用处理器204可操作为基于所接收的用户输入定制所生成的视频摘要。定制的视频摘要可以显示在显示屏110上。在实施例中，I/O单元214可操作为向用户提供一个或多个选项。该一个或多个选项可以对应于传送、共享、保存、编辑和/或播放视频摘要。

图3A、3B、3C、3D和3E根据本公开内容的实施例说明了实现所公开的处理视频内容的方法和系统的示例性场景。图3A、3B、3C、3D和3E是结合图1和图2的元素解释的。参考图3A、3B、3C、3D和3E，示出了与视频内容相关联的示例性帧300a、300b、300c、300d和300e。示例性帧300a、300b、300c、300d和300e可以包括在地面上移动的车辆302。地面可以包括道路304、景观306和/或隧道308。示例性帧300a、300b、300c、300d和300e中每一个可以具有对应于帧识别值(未示出)、第一帧识别值“YUVG帧ID”和/或第二帧识别值“GMV帧ID”的关联信息。

参考图3A，在示例性场景中，帧300a可以包括车辆302。车辆302可以正在接近隧道308，使得景观306包含帧300a的主要部分。帧300a可以对应于具有值“6”的帧ID。在实施例中，颜色处理单元206可以基于第一量化值“Q₁”把帧300a划分成量化区间。在实施例中，第一量化值“Q₁”可以基于用户偏好或预存储值。在实施例中，颜色处理单元206可以根据等式(1)确定量化除法器值“div”。在实施例中，颜色处理单元206可以根据等式(2)、(3)和(4)确定与帧300a相关联的多个第一量化值“y”、“u”和“v”。在实施例中，梯度处理单元208可以根据等式(5)确定与帧300a相关联的梯度量化值“g”。应用处理器204可以使用所生成的多个第一量化值“y”、“u”和“v”以及梯度值“g”来生成第一帧识别值“YUVG帧ID”。第一帧识别值“YUVG帧ID”，诸如“1752”，可以根据等式(6)生成。

在实施例中，运动处理单元210可以确定与一对帧，诸如帧300a和300b，相关联的第二帧识别值“GMV帧ID”。在实施例中，运动处理单元210可以基于第二量化值“Q₂”把帧300a划分成量化区间。在实施例中，运动处理单元210可操作为确定x轴平移量化值“Q_x”、y轴平移量化值“Q_y”和旋转量化值“Q_r”。在实施例中，运动处理单元210还可以确定与该对帧相关联的多个运动值，诸如第一运动值“t_x”、第二运动值“t_y”和第三运动值“rot”。在实施例中，梯度处理单元208可以根据等式(7)、(8)和(9)确定与帧300a相关联的多个第二量化值。应用处理器204可以根据等式(10)生成第二帧识别值“GMV帧ID”，诸如“7”。在实施例中，显示屏110(未示出)的一部分可以显示“帧ID:6；YUVG帧ID:1752；GMV帧ID:7”。

参考图3B，车辆302可以接近隧道308，如在帧300b中所示。应用处理器204可以生成对应于隧道中接近点的“YUVG帧ID”和“GMV帧ID”。该过程类似于图3A中所描述的过程。参考示例性场景，帧300b可以对应于具有值“352”的帧ID。应用处理器204可以根据等式(6)生成第一帧识别值“YUVG帧ID”，诸如“2264”。第一帧识别值“YUVG帧ID”的变化可以由平均Y、U、V和G值的变化造成。帧300a与300b之间平均Y、U、V和G值的变化可以由于周围环境的变化而发生。应用处理器204还可以根据等式(10)生成第二帧识别值“GMV帧ID”，诸如“7”。在实施例中，显示屏110的部分可以显示“帧ID:352；YUVG帧ID:2264；GMV帧ID:7”。

参考图3C，车辆302可以进入隧道308，如在帧300c中所示的。以图3A中所描述的类似方式，应用处理器204可以生成“YUVG帧ID”和“GMV帧ID”。参考示例性场景，帧300c可以对应于具有值“360”的帧ID。应用处理器204可以根据等式(6)生成第一帧识别值“YUVG帧ID”，诸如“3752”。第一帧ID值“YUVG帧ID”的变化可以由平均Y、U、V和G值的变化造成。帧300b和300c之间平均Y、U、V和G值的变化可以由于周围环境的变化而发生。应用处理器204还可以根据等式(10)生成第二帧ID值“GMV帧ID”，诸如“20”。在实施例中，显示屏110可以显示“帧ID:360；YUVG帧ID:3752；GMV帧ID:20”。

参考图3D，车辆302可以位于隧道308的出口点，如在帧300d中所示。应用处理器204可以以与图3A所述类似的方式生成“YUVG帧ID”和“GMV帧ID”。参考示例性场景，帧300d可以对应于具有值“450”的帧ID。应用处理器204可以根据等式(6)生成第一帧识别值“YUVG帧ID”，诸如“2752”。第一帧ID值“YUVG帧ID”的变化可以由平均Y、U、V和G值的变化造成。帧300b和300c之间平均Y、U、V和G值的变化可以由于周围环境的变化而发生。应用处理器204还可以根据等式(10)生成第二帧ID值“GMV帧ID”，诸如“7”。在实施例中，显示屏110可以显示“帧ID:450；YUVG帧ID:2752；GMV帧ID:7”。

参考图3E，车辆302可以离开隧道308，返回景观306，如帧300e中所示。参考示例性场景，帧300e可以对应于具有值“472”的帧ID。应用处理器204可以根据等式(6)生成第一帧ID值“YUVG帧ID”，诸如“1752”。第一帧识别值“YUVG帧ID”的变化可以由平均Y、U、V和G值的变化造成。帧300b和300c之间平均Y、U、V和G值的变化可以由于周围环境的变化而发生。应用处理器204还可以根据等式(10)生成第二帧ID值“GMV帧ID”，诸如“7”。与帧300a和300e相关联的“YUVG帧ID”和“GMV帧ID”中的相似性可以归因于暴露于光和与两个帧的颜色空间相关联的颜色梯度的相似性。在实施例中，显示屏110可以显示“帧ID:472；YUVG帧ID:1752；GMV帧ID:7”。

在实施例中，应用处理器204还可以确定针对视频内容的每一帧(例如，300a、300b、300c、300d和300e)的稳定性等级。稳定性等级可以基于与每个所示的帧300a至300e相关联的多个第二量化值，诸如“t_x”、“t_y”和/或“rot”。在实施例中，稳定性等级可以基于与电子设备102相关联的多个运动值的变化程度从一个帧到另一个帧变化。

参考图4，应用处理器204可以基于在“YUVG帧ID”和/或“GMV帧ID”中所检测到的变化确定第一中间帧。应用处理器204可以确定对应于帧ID“6”的第一中间帧。应用处理器204还可以基于在“YUVG帧ID”和/或“GMV帧ID”中所检测到的变化确定第二中间帧。应用处理器204可以确定对应于帧ID“352”的第二中间帧。应用处理器204可以基于第一中间帧和第二中间帧之间的“345号帧”生成第一视频片段，诸如“片段#1”。第一视频片段“片段#1”还可以包括第一帧ID“6”。应用处理器204还可以以与之前解释的类似的方式确定随后的中间帧。基于随后的中间帧的确定，生成随后的视频片段，诸如“片段#2”和“片段#3”。在实施例中，应用处理器204可以基于全局运动矢量分析和/或稳定性等级从“片段#1”丢弃一些帧。在这种情况下，具有剩余帧的片段可以包括视频内容的视频精选。在用户偏好可用的情况下，应用处理器204可以基于这种用户偏好从视频精选丢弃一个或多个帧。

在实施例中，应用处理器204可以基于一个或多个参数和/或一个或多个用户偏好选择一个或多个视频精选。例如，用户可以从视频片段“片段#1”选择第一视频精选，诸如帧ID“7”至“20”。用户还可以从视频片段“片段#2”选择第二视频精选，诸如帧ID“355”至“359”。用户还可以从视频片段“片段#3”选择第三视频精选，诸如帧ID“360”至“365”。在实施例中，应用处理器204可以分别从第一视频精选和第三视频精选丢弃一个或多个帧，诸如帧ID“8”和“360”。应用处理器204还可以丢弃帧ID“10”和“362”，因为帧ID“10”可以类似于之前添加的具有帧ID“9”的帧，并且帧ID“362”可以类似于之前添加的具有帧ID“361”的帧。基于帧ID“7”、“9”、“11”至“20”、“355”至“359”和“361”、“363”至“365”，应用处理器204可以通过组合相应的帧生成视频摘要。用户可以提供输入，诸如背景得分“xyz.wav”，以定制生成的视频摘要。定制的视频摘要可以显示在显示屏110上。

图5A、5B和5C是根据本公开内容的实施例，说明处理视频内容的示例性场景的图表500a、500b和500c。图5A、5B和5C已经结合图4的元素进行描述。参考图5A，图表500a可以在“YUVG帧ID”和“帧ID”之间绘制。“YUVG帧ID”可以在x轴上表示并且“帧ID”可以在y轴上表示。在这种图形表示中，在其可以确定“YUVG帧ID”值的变化的帧可以对应于第一中间帧502。“YUVG帧ID”的随后的变化可以对应于第二中间帧504。视频片段506可以基于第一中间帧502和第二中间帧504生成。视频片段506可以包括从第一中间帧502开始到紧挨着第二中间帧504之前一帧的帧序列。

参考图5B，图表500b可以在“GMV帧ID”和“帧ID”之间绘制。“GMV帧ID”可以在x轴上表示并且“帧ID”可以在y轴上表示。在这种图形表示中，在其可以观察到“GMV帧ID”中的值变化的帧可以对应于第一中间帧508。“GMV帧ID”中随后的变化可以对应于第二中间帧510。视频片段512可以基于第一中间帧508和第二中间帧510生成。视频片段512可以包括从第一中间帧508开始到紧挨着第二中间帧510之前一帧的帧序列。

参考图5C，图表500c可以在“出现次数”和“YUVG帧ID”之间绘制。可以对应于视频内容的“YUVG帧ID”可以在x轴上表示。对应于“YUVG帧ID”的出现次数的“出现次数”可以在y轴上表示。图表500c可以说明，对于具有值“1752”的“YUVG帧ID”，“出现次数”可以大于1200，如经由峰值514所示出的。

图6是根据本公开内容的实施例，说明处理视频内容的方法的流程图。参考图6，示出了流程图600。流程图600是结合图1、2、3A至3E、4以及5A至5C描述的。该方法在步骤602开始并且前进到步骤604。

在步骤604，与视频内容相关联的多个帧可以由电子设备102检索。在步骤606，多个第一量化值、平均颜色值、平均梯度值以及多个第二量化值可以被确定。在步骤608，“YUVG帧ID”和/或“GMV帧ID”可以被确定。

在步骤610，第一中间帧和第二中间帧可以被确定。在步骤612，视频片段可以基于第一中间帧和第二中间帧生成。在步骤614，一个或多个帧可以基于运动行为分析值和/或稳定性等级从生成的视频片段选择。

在步骤616，一个或多个用户偏好的可用性可以被确定。在其中一个或多个用户偏好不可用的情况下，控制传递到步骤618。在步骤618，预定义的设置可以被检索。在其中一个或多个用户偏好可用的情况下，控制传递到步骤620。在步骤620，从视频片段选择对应于用户偏好和/或预定义设置的一个或多个帧，以生成一个或多个视频精选。在实施例中，可以从一个或多个视频精选丢弃类似的帧。在步骤622，该一个或多个视频精选可以组合，以生成视频摘要。控制传递到结束步骤624。

根据本公开内容的实施例，处理视频的系统可以包括电子设备102(图1)。电子设备102可以包括可操作为确定与视频内容相关联的第一帧识别值的一个或多个处理器，诸如应用处理器204(图1)。第一帧识别值可以对应于视频内容的一帧的平均颜色值。应用处理器204还可以确定与视频内容相关联的第二帧识别值。第二帧识别值可以对应于视频内容的该帧的GMV值。应用处理器204还可以基于第一帧识别值和第二帧识别值中一个或二者确定第一中间帧。所确定的第一中间帧可以指示视频内容中的场景变化。

本公开内容的各种实施例可以提供非暂时性计算机可读介质和/或存储介质，和/或其上存储了机器代码和/或具有被机器和/或计算机可执行以处理视频内容的至少一个代码部分的计算机程序的非暂时性机器可读介质和/或存储介质。电子设备中的所述至少一个代码部分可以使机器和/或计算机执行包括动态确定与视频内容相关联的第一帧识别值的步骤。第一帧识别值可以对应于视频内容的一帧的平均颜色值。可以确定与视频内容相关联的第二帧识别值。第二帧识别值可以对应于视频内容的该帧的GMV值。基于第一帧识别值和第二帧识别值当中之一或二者还可以确定第一中间帧。所确定的第一中间帧可以指示视频内容的场景变化。

本公开内容可以在硬件或者硬件和软件的组合中实现。本公开内容可以在至少一个计算机系统中以集中方式或者以其中不同元件可以跨若干个互连的计算机系统散布的分布方式实现。适于执行本文所述方法的计算机系统或其它装置可以是合适的。硬件与软件的组合可以是具有计算机程序的通用计算机系统，当计算机程序被加载和执行时，可以控制计算机系统，使得它执行本文所述的方法。本公开内容可以在包括还执行其它功能的集成电路的一部分的硬件中实现。

本公开内容还可以被嵌入在计算机程序产品中，该计算机程序产品包括使得能够实现本文所述方法的所有特征，并且当被在计算机系统中加载时，能够执行这些方法。在所给出的上下文中，计算机程序意味着要使具有信息处理能力的系统或者直接地或者在以下任意一个或二者：a)转换成另一种语言、代码或符号；b)以不同的材料形式再现，之后执行特定功能的一组指令的以任何语言、代码或符号的任意表示。

虽然本公开内容已经参考某些实施例进行了描述，但是本领域技术人员应当理解，在不背离本公开内容范围的情况下，可以进行各种变化并且等效物可以被代替。此外，在不背离其范围的情况下，可以进行许多修改，以便使特定的情形或材料适应本公开内容的教导。因此，本公开内容不意在限于所公开的特定实施例，而是本公开内容将包括落入所附权利要求范围内的所有实施例。

Claims

1.一种用于处理视频内容的方法，所述方法包括：

在电子设备中：

确定与所述视频内容相关联的第一帧识别值，其中所述第一帧识别值对应于所述视频内容的一帧的平均颜色值；并且

基于所述确定的所述第一帧识别值确定第一中间帧，其中所述确定的所述第一中间帧指示所述视频内容中的场景变化；

其中，所述帧的所述第一帧识别值是基于多个第一量化值生成的，所述多个第一量化值包括用于将所述帧分成一个或多个量化区间的量化值以及分别对应于与颜色模型相关联的每个成分的量化值。

2.根据权利要求1所述的方法，其中所述平均颜色值对应于包括：亮度和色度YUV颜色模型和/或红、绿和蓝RGB颜色模型之一的颜色模型。

3.根据权利要求1所述的方法，还包括基于另一第一帧识别值确定第二中间帧，其中所述确定的所述第二中间帧指示所述视频内容中的场景变化。

4.根据权利要求3所述的方法，还包括确定所述确定的所述第一中间帧和所述确定的所述第二中间帧之间的一个或多个帧。

5.根据权利要求4所述的方法，其中所述确定基于所述确定的所述第一帧识别值的变化。

6.根据权利要求4所述的方法，还包括基于所述确定的所述一个或多个帧和所述确定的所述第一中间帧生成视频片段。

7.根据权利要求6所述的方法，还包括基于与所述帧中每一个相关联的一个或多个参数和/或一个或多个用户偏好从所述生成的所述视频片段选择一个或多个关键帧。

8.根据权利要求7所述的方法，其中所述参数包括运动行为分析值和/或稳定性等级中的一个或多个，其中，所述稳定性等级与帧的全局运动矢量GMV特性的变化成反比。

9.根据权利要求7所述的方法，还包括组合所述选择的一个或多个关键帧，以基于一个或多个用户输入和/或默认设置生成视频摘要。

10.根据权利要求9所述的方法，其中所述一个或多个用户偏好包括以下一个或多个：所述视频片段的期望持续时间、所述视频摘要的期望持续时间、由所述用户提供的音频文件的持续时间、期望的稳定性等级、视频片段中存在的对象、与所述对象相关联的特性和/或与对应于所述视频片段的所述关键帧相关联的颜色值和梯度值，其中，所述稳定性等级与帧的全局运动矢量GMV特性的变化成反比。

11.根据权利要求10所述的方法，其中所述视频摘要的所述期望持续时间是基于包括音频文件的用户输入和/或视频摘要持续时间的预存储值中的一个或多个确定的。

12.一种用于处理视频内容的系统，所述系统包括：

电子设备中的一个或多个处理器，能够操作为：

确定与所述视频内容相关联的第一帧识别值，其中所述第一帧识别值对应于所述视频内容的一帧的平均颜色值，其中所述视频内容包括一个或多个帧；并且

13.根据权利要求12所述的系统，其中所述一个或多个处理器能够操作为基于所述确定的所述第一帧识别值确定第二中间帧，其中所述确定的所述第二中间帧指示所述视频内容中的场景变化。

14.根据权利要求13所述的系统，其中所述一个或多个处理器能够操作为确定所述确定的所述第一中间帧和所述确定的所述第二中间帧之间的一个或多个帧，其中所述确定基于对应于所述确定的所述第一中间帧和所述确定的所述第二中间帧的所述确定的所述第一帧识别值的变化。

15.根据权利要求14所述的系统，其中所述一个或多个处理器能够操作为基于所述确定的所述一个或多个帧和所述确定的所述第一中间帧生成视频片段。

16.根据权利要求15所述的系统，其中所述一个或多个处理器能够操作为基于与所述帧中每一个相关联的一个或多个参数和/或一个或多个用户偏好从所述生成的所述视频片段选择一个或多个关键帧，其中所述参数包括运动行为分析值和/或稳定性等级中的一个或多个，其中，所述稳定性等级与帧的全局运动矢量GMV特性的变化成反比。

17.根据权利要求16所述的系统，其中所述一个或多个处理器能够操作为组合所述选择的一个或多个关键帧，以基于用户偏好和/或默认设置生成视频摘要。

18.根据权利要求12所述的系统，其中所述一个或多个处理器能够操作为确定对应于所述帧的稳定性等级，其中所述稳定性等级与所述帧的全局运动矢量GMV特性的变化成反比。

19.一种用于处理视频内容的系统，所述系统包括：

用于确定与所述视频内容相关联的第一帧识别值的装置，其中所述第一帧识别值对应于所述视频内容的一帧的平均颜色值，其中所述视频内容包括一个或多个帧；以及

用于基于所述确定的所述第一帧识别值确定第一中间帧的装置，其中所述确定的所述第一中间帧指示所述视频内容中的场景变化；

20.一种用于处理视频内容的系统，所述系统包括：

颜色处理单元，被配置成确定所述视频内容的一帧的平均颜色值，其中所述视频内容包括一个或多个帧；以及

应用处理器，被配置成

确定与所述视频内容相关联的第一帧识别值，其中所述第一帧识别值对应于所述平均颜色值；并且