CN108352174B

CN108352174B - 用于图像处理的电子设备、存储设备和方法

Info

Publication number: CN108352174B
Application number: CN201680068783.4A
Authority: CN
Inventors: M.皇莆; K.K.辛格; T.李; O.蒂库
Original assignee: Intel Corp
Current assignee: Intel Corp
Priority date: 2015-12-24
Filing date: 2016-10-21
Publication date: 2021-08-24
Anticipated expiration: 2036-10-21
Also published as: US20200012864A1; US11861495B2; CN108352174A; WO2017112067A1; US10949674B2; US20210201047A1; US20240127061A1; US10229324B2; US20170185846A1

Abstract

本文描述一种用于使用语义信息的视频概括的设备。该设备包括控制器、评分机构和概括器。控制器将传入的视频流分割成多个活动段，其中每个帧与活动相关联。评分机构要为每个活动的每个帧演算分数，其中分数基于每个帧中的多个对象。概括器要基于对于每个帧的分数概括活动段。

Description

用于图像处理的电子设备、存储设备和方法

相关申请的交叉引用

本申请要求由Hwangbo等人在2015年12月24日提交的题为“Video Summarizationusing Semantic Information”的美国专利申请号14/998，322的提交日期的权益，并且通过引用并入到本文。

背景技术

电子装置典型地包括能够捕获图像、静止镜头和视频数据的图像捕获机构。电子装置包括（但不限于）移动和可穿戴装置。视频数据能够容易地被捕获并为了各种目的被共享。典型地在本地记录和保存或在线共享视频数据。由于易于捕获，所以用户能够保存和共享大量视频。然而，用户不愿意花费时间和精力来仔细检查大量视频以定位他们想要观看或共享的特定视频或时刻。另外，视频数据能够消耗大量存储空间。

附图说明

图1是使能使用语义信息的视频概括的电子装置的框图；

图2是使用语义信息的视频概括的概图；

图3是视频概括流水线的概图；

图4是CNN活动分类器的定性结果的图示；

图5是具有对于对象分类的检测概率的边界框的图示；

图6A和6B示出视频概要；

图7是用于利用语义信息的视频概括的方法的过程流程图；以及

图8是示出包含用于视频概括的逻辑的介质的框图。

附图和本公开通篇中使用相同附图标记来引用类似组件和特征。100系列中的数字是指原本在图1中发现的特征；200系列中的数字是指原本在图2中发现的特征；以此类推。

具体实施方式

视频概括是在视频中自动发现代表性和突出的时刻的计算机视觉系统。它使得用户能够通过查看高亮区（highlight）和概要而快速浏览视频的大量收集。同样地，它通过只保留有信息的片段而有助于节省存储和通信带宽。概要将由将简洁地传达整个视频的整体故事情节的关键帧或子场景的集合组成。

之前的许多现有视频概括解决方案必定使用诸如颜色直方图或光流的低级特征。这种内容不可知的途径不能在构建概要时捕获在语义上有意义的时刻，并且只对于其中假设专业编辑的有限情形（像电影和电视新闻）工作。同样地，它们的应用局限于单个事件或情形的视频。

本文中描述的实施例确定驻留在视频中的高级语义上下文（例如，活动、对象、位置和人），并利用重要性评分机构从语义上下文产生内容感知概要。取代依赖于手工制作的特征，使用从成千上万个图像提取数据驱动特征的卷积神经网络。这个深度特征对于在由普通用户捕获的长时间或未经编辑的视频中严重发生的不稳定的相机运动、光照改变和场景混乱更加不变。

图1是使能使用语义信息的视频概括的电子装置的框图。电子装置100除其它以外可以是例如膝上型计算机、平板计算机、移动电话、智能电话或可穿戴装置。电子装置100可包括配置成执行存储的指令的中央处理单元（CPU）102以及存储可由CPU 102执行的指令的存储器装置104。CPU可通过总线106耦合到存储器装置104。另外，CPU 102能够是单核处理器、多核处理器、计算集群或任何数量的其它配置。此外，电子装置100可包括多于一个CPU102。存储器装置104能够包括随机存取存储器（RAM）、只读存储器（ROM）、闪速存储器或任何其它合适的存储器系统。例如，存储器装置104可包括动态随机存取存储器（DRAM）。

电子装置100还包括图形处理单元（GPU）108。如所示，CPU 102能够通过总线106耦合到GPU 108。GPU 108能够配置成在电子装置100内执行任何数量的图形操作。例如，GPU108能够配置成渲染或操纵图形图像、图形帧、视频等，以向电子装置100的用户进行显示。在一些实施例中，GPU 108包括多个图形引擎，其中每个图形引擎配置成执行特定图形任务或执行特定类型的工作负载。

CPU 102能够通过总线106链接到显示接口110，所述显示接口110配置成将电子装置100连接到显示装置112。显示装置112能够包括作为电子装置100的内置组件的显示屏。显示装置112除其它以外还能够包括外部连接到电子装置100的计算机监视器、电视机或投影仪。

CPU 102还能够通过总线106连接到输入/输出（I/O）装置接口114，所述I/O装置接口114配置成将电子装置100连接到一个或多个I/O装置116。I/O装置116能够包括例如键盘和指向装置，其中指向装置除其它以外能够包括触摸板或触摸屏。I/O装置116能够是电子装置100的内置组件，或者能够是在外部连接到电子装置100的装置。

因此，电子装置100还包括用于捕获音频的麦克风阵列118。麦克风阵列118能够包括任何数量的麦克风，包括2、3、4、5个麦克风或更多。在一些实施例中，麦克风阵列118能够与图像捕获机构120一起使用以捕获同步音频/视频数据，可将所述同步音频/视频数据作为音频/视频文件存储到存储装置122。

存储装置122是诸如硬盘驱动器、光驱动器、闪速驱动器、驱动器阵列或其任何组合的物理存储器。存储装置122能够存储用户数据，诸如音频文件、视频文件、音频/视频文件和图片文件，除其它以外。存储装置122还能够存储诸如装置驱动、软件应用、操作系统等的编程代码。存储到存储装置122的编程代码可由CPU 102、GPU 108或可包括在电子装置100中的任何其它处理器执行。

视频中的高级内容和它们的相关性能够导致更具语义意义的概要。能够以上下文感知的方式概括来自GPU或存储设备122的视频。能够从由可穿戴和移动装置捕获的未编辑的视频生成上下文感知的视频概要。可通过使用像CNN（卷积神经网络）的深度网络从视频提取高级语义实体，诸如活动、对象和地方。可实现评分机构，所述评分机构基于语义实体之间的相关性（例如，活动和对象之间的同现）来评估每个场景的重要性等级。

CPU 102可通过总线106链接到蜂窝硬件124。蜂窝硬件124可以是任何蜂窝技术，例如4G标准（由国际电信联盟-无线电通信部（ITU-R）公布的国际移动电信-高级（IMT-高级）标准）。以此方式，PC 100可在不与另一个装置栓系（tether）或配对的情况下接入任何网络126，其中网络130是蜂窝网络。

CPU 102还可通过总线106链接到WiFi硬件126。WiFi硬件是根据WiFi标准（作为电气和电子工程师协会（IEEE）802.11标准公布的标准）的硬件。WiFi硬件126使得可穿戴电子装置100能够使用传输控制协议和互联网协议（TCP/IP）连接到互联网，其中网络130是互联网。因此，可穿戴电子装置100能够在不使用另一个装置的情况下通过根据TCP/IP协议寻址、路由选择、传送和接收数据而使能与互联网的端到端连接性。另外，蓝牙接口128可通过总线106耦合到CPU 102。蓝牙接口128是根据蓝牙网络（基于由蓝牙特别兴趣小组公布的蓝牙标准）的接口。蓝牙接口128使得可穿戴电子装置100能够通过个人域网（PAN）与其它蓝牙使能装置配对。因此，网络130可以是PAN。蓝牙使能装置的示例除其它以外包括膝上型计算机、桌面型计算机、超级本、平板计算机、移动装置或服务器。

图1的框图不打算指示电子装置100将包括图1中示出的所有组件。相反，计算系统100能够包括更少的或图1中没有示出的附加组件（例如，传感器、功率管理集成电路、附加网络接口等）。取决于特定实现的细节，电子装置100可包括图1中没有示出的任何数量的附加组件。此外，CPU 102的功能性的任何功能性可部分或完全在硬件和/或在处理器中实现。例如，可利用专用集成电路，在处理器中实现的逻辑中、在专门化图形处理单元中实现的逻辑中或在任何其它装置中实现功能性。

图2是使用语义信息的视频概括的概图。在框202，获得输入视频。输入视频能够是由图像捕获机构当前捕获的视频，或是存储或保存的视频。另外，输入视频能够是电影或电视节目。在框204，能够使用深度网络来提取输入视频的内容。如本文中所使用的深度网络可以是包括具有能够用于特征提取和变换的许多层的算法的深度学习体系结构的结果。深度网络包括卷积神经网络（CNN），其是前馈人工神经网络，其中单独神经元以对视野中的重叠区域做出响应的方式平铺（tile）。例如，卷积神经网络能够由小神经元收集的多个层组成，其能够分析输入视频的每个帧。然后，平铺这些收集的结果以使得它们重叠，从而获得在视频数据中呈现的活动或对象的更佳表示。能够对于卷积神经网络的每一个此类层重复这种平铺。

在框206，结合评分机构根据每个帧的语义内容的分析来评估每个帧的重要性。如本文中所使用的语义内容是指与每个帧的内容相关联的含义。可基于在每个帧中发现的各种语义内容之间的关系来对与每个帧的语义内容相关联的重要性不同地评分。在框208，生成最终概要。当向用户呈现关键帧或关键子场景时，最终概要能够回答以下问题诸如：原始视频包含什么活动的系列；在多少个不同的位置或地方取得视频；以及什么对象重要以及谁出现在视频中

最终概要可基于每个视频剪辑的重要性分数大于特定阈值。以此方式，所得视频概要是通过使用与每个视频剪辑相关联的语义信息的上下文感知的视频概要。

典型的视频概括解决方案基于像颜色或运动提示的低级特征，并且它们在正确回答关于原始视频的这些问题方面有困难，因为本质上，没有给它们关于视频的什么部分是语义地有代表性的时刻的线索。本技术基于高级语义上下文，并且能够在观看整个原始视频时提供接近于用户预期事物的更有意义的答案。此外，语义内容之间的相关性使得跨视频的重要方面能够被注意。例如，在其中已经将“刷牙”标识为活动的视频中，所得概要应当将包含像牙刷/牙膏的关键对象的更多帧视为是重要帧，并包括它们作为概要的部分。如本文中所使用的，重要帧是具有高分的帧，如下所述。高分可比其它分数高，或者它可以是大于特定阈值的分数。

在本技术中，利用诸如活动和对象的两个语义内容之间的相关性以改进视频概要的质量。使用像CNN的深度机器学习技术从视频提取语义内容。从成千上万个图像训练的深度特征具有更多识别力，并且一般显示出比来自之前使用的手工制作的特征的那些更高的分类和检测精度。将在相同深度学习体系结构下更便利地进行将新的语义信息增加到概括中。

另外，根据本技术的输入视频的长度和内容复杂度能够处置更广泛范围的使用情形。现有方法通常局限于包含短的并且单个的事件的视频输入。得益于对光照改变、相机运动和场景混乱更不敏感的深度特征，甚至对于由可穿戴或移动装置所取得的具有多个事件的长时间视频可获得始终如一的概括性能。

图3是视频概括流水线300的概图。流水线300表示通过分析语义视觉内容从给定视频生成关键帧或抽象的剪辑的集合的内容感知视频概括技术。它涉及如上文所论述的提供活动分类和对象检测的深度机器学习技术。输入视频的类型不仅仅是专业编辑的电影或电视影片，而且是由可穿戴或移动装置所取得的未编辑或未构造的视频。

图3示出包括概括方法的三个主要模块：时间分割302、重要性评分304和概要选择306。时间分割302模块从活动转变检测镜头边界，并将输入视频划分成子场景的集合，其中每个子场景包括一个或多个活动段。在实施例中，镜头边界是视频的各种设置之间的明显转变。例如，镜头边界可以是在视频中从一个房间到另一个房间的转变。在每个活动段中，重要性评分模块304检测可视对象，并对于每个图像帧评估分数，其通过对象对活动同现被加权。最后，概要选择模块306选择将是该活动段内的最重要的和突出的时刻的高分区域。区域是图像中的特定区。然后，来自每一个子场景的概括的关键剪辑的集合被收集并对于用户显示。

具体来说，时间分割302将输入视频308划分成包括语义地不同的活动的子场景。卷积神经网络（CNN）310能够被用于活动分类。例如，可为诸如刷牙、看电视、使用计算机、吃饭、做饭、洗衣服等的20个日常室内/室外活动训练CNN。为了找到时间段，首先通过活动分类器经由CNN 310将每个帧分类到活动类别312之一中。一旦将输入视频中的所有帧分类，便使用模式过滤器来使活动标签在时间上平滑，以便修剪错误分类的标签。每个活动段由在最小时间内具有相同活动的连续帧组成。移除比某个阈值更短的段，并加入属于相同活动的相邻段。因此，如由箭头314所指示，能够通过活动来集群段。

一旦将视频划分成活动段，便根据评分函数来选择来自每个段的最佳时刻。因此，将分类的子场景316发送给重要性评分模块304。对于给定活动段A，可应用以下两种评分机制。如下演算基于活动的分数：

其中

是由活动分类器返回的分类概率。分数S1和分类概率是在时间i的图像帧f _i属于活动类别A的可信度。第二分数是基于活动对对象同现的分数：

其中

是由对象检测器返回的意指对象O _i属于它的标记的类别的概率。

表示对象对于特定活动有多重要。分数S2给予包含与段的标记的活动高度相关的更重要对象的帧更高分数。通过活动A的帧在帧中具有对象O _i的小数（fraction）来计算同现。

对象O _i对于活动A的重要性与如下的

的值成正比：

其中

是活动A中包含对象O _i的帧的数量，并且

是对于活动A的帧的总数。

从训练数据的对象和活动标签学习同现。能够通过在训练数据上运行活动分类器和对象检测器两者或通过人工注解来获得标签。例如，表1示出在我们的实验中使用的前两个与给定活动最同现的对象。

因此，在参考数字处进行区域提议318。然后，使用CNN来将帧的每个区域中的对象分类。可使用快速区域性CNN 320来学习帧的每个区域中的对象。区域性CNN 320导致对象类别322。可在以上等式中使用对象类别322和活动类别312，并可如在箭头324所指示找到对象对活动相关性。

将从以上等式得到的分数326和如在箭头324所指示的对象对活动相关性发送给概要选择模块306。概要选择模块306生成视频剪辑332的最重要帧或高亮区的最终概要。能够通过检查重要性分数分布或分数图328来以各种方式生成最终概要。例如，可如由箭头330所指示选择关键图像帧的集合，其中的每个对应于对于每个活动段的最高分数。在另一个示例中，能够对于最终概要选择关键剪辑的集合，其中的每个对应于显示最高分数和的每个动作段的N-秒。在实施例中，能够任意选择N，诸如5或10秒，取决于用户偏好或存储约束选择。

在实施例中，使用的活动分类器和对象检测器各自是基于CNN的深度网络。通过来自对于数百个不同标签的数据库的成千上万个图像预先训练基于CNN的深度网络，并接着进行精细调谐以供包括标签的修改集合和附加训练数据集的视频概括使用。数据集可以是例如执行不用剧本的日常活动的许多人的成千上万的帧。

考虑例如通过在他们自己家中捕获他们的日常活动的不同个体收集的20个视频组成的数据集。与视频一起，为地面实况提供对于活动和对象类别的人工注解。在评估中，15个视频被用于训练，并且剩余的5个被用于测试。

图4是CNN活动分类器的定性结果400的图示。示出具有所得活动类别的6个帧。尽管示出6个帧，但是可使用任何数量的帧。对于每个帧，活动类别是洗碗402、洗衣服404、弄干脸/手406、化妆/梳头408、阅读/书写410和在外面行走412。可使用基于CNN的深度网络执行如上所述的活动分类，其被训练以用于使用人工注解来将20个活动分类。活动分类在逐帧测试中产生55.1%的精度。能够通过像MIT地方混合-CNN（其通过对于1183个对象/场景类别的230万个图像进行训练）的预先训练的网络来初始化网络的权重。权重可定义为CNN网络中的每个节点的系数数值。

时间分割模块使用以下20个活动标签以用于通过图4所示的活动分割输入视频：化妆/梳头、刷牙、洗脸/洗手、弄干脸/手、洗衣服、调节恒温器、洗碗、泡茶/泡咖啡、喝瓶装水（water-bottle）、做饭、吃饭、厨房拖地、吸尘、吃药、看电视、使用计算机、用手机、阅读/书写、喝咖啡、在外面行走。55.1%的精度数值合理地认为这些活动类别中的大多数活动类别彼此非常类似。另外，图4中使用20个活动标签作为示例，并且根据本技术能够使用任何数量的活动标签。

在已经将活动分类之后，执行对象检测。如上文所论述，快速-RCNN可被用于对象检测。快速-RCNN可采用利用根据WordNet层级组织的图像数据库预先训练的CNN，其中通过成百上千个图像描绘层级的每个节点。然后，快速-RCNN在可视对象类别检测数据上精细调谐网络。可使用提供的注解对于更多对象类别附加地训练快速-RCNN。

图5是具有对于对象分类的检测概率的边界框的图示。图5包括帧502、帧504、帧506和帧508。帧502包括和人510、门512、毛巾514和水龙头516。帧504包括窗户520、水龙头522、肥皂/洗手液524和杯子526。帧506包括电视机530和手机532。帧508包括门540和书本542。在帧内的每个检测的对象包括具有通过快速-RCNN的测试图像中的检测概率的边界框。

可通过基于S2分数（基于活动对对象同现的评分）从6个活动段中选择最佳的5个连续秒来创建视频概要。防止在概要中重复相同活动，并且优选在概要中包括更长活动。为了可视化概要，在图6A和6B的网格布局中显示每个活动段的最佳时刻。在这些图中，条602表示视频输入的整体持续时间，并且交叉平行线部分604表示活动段的时间周期。实心部分606指示在网格中示出的最高重要性分数的时刻。根据评分机构S2决定实心部分606的位置。概括的输出显示我们的算法捕获重要活动的有意义时刻的能力。当与单纯的均匀采样相比时，错过视频中的许多重要活动。在像均匀采样的内容不感知的方法中，一个缺点是，花费非常长持续时间的某些活动可主导概要。

图7是用于利用语义信息的视频概括的方法的过程流程图。在框702，可根据活动类别标记多个帧中的每个帧。在实施例中，将多个帧分割成子场景。在框704，确定对于每个帧的对象对活动相关性。在实施例中，对象对活动相关性导致指示对象与对于帧的特定活动类别相关的似然的一个或多个分数。在框706，渲染视频概要。视频包括具有对于子场景或镜头边界中的每个帧的最高对象对活动相关性的帧。

图8是示出包含用于视频概括的逻辑的介质800的框图。介质800可以是计算机可读介质，包括存储能够由处理器802通过计算机总线804访问的代码的非暂时性介质。例如，计算机可读介质800能够是易失性或非易失性数据存储装置。介质800也能够是逻辑单元，诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）或在例如一个或多个集成电路中实现的逻辑门的布置。

介质800可包括配置成执行本文中描述的技术的模块808-810。例如，分割模块806可配置成将帧分割成视频数据并对段应用活动类别。评分模块808可配置成基于对象对活动相关性来生成一个或多个分数。概要模块810可配置成渲染视频概要中具有最高对象对活动相关性的帧。

图8的框图不打算指示介质800将包括图8中示出的所有组件。此外，取决于特定实现的细节，介质800可包括图8中没有示出的任何数量的附加组件。

示例1是一种设备。该设备包括：用于将传入的视频流分割成多个活动段的控制器，其中每个帧与活动相关联；用于为每个活动的每个帧演算分数的评分机构，其中分数至少部分地基于每个帧的分类概率；以及用于基于对于每个帧的分数来概括活动段的概括器。

示例2包括示例1的设备，包括或排除可选特征。在该示例中，分数至少部分地基于活动对对象同现。

示例3包括示例1到2中任一示例的设备，包括或排除可选特征。在该示例中，通过一个或多个镜头边界分割活动，并根据活动类别来标记每个帧。

示例4包括示例1到3中任一示例的设备，包括或排除可选特征。在该示例中，使用卷积神经网络来将每个段分类到活动中。可选地，根据周围帧的活动重新标记具有错误标记的活动的帧。

示例5包括示例1到4中任一示例的设备，包括或排除可选特征。在该示例中，使用快速区域性卷积神经网络来分类每个帧的多个对象。

示例6包括示例1到5中任一示例的设备，包括或排除可选特征。在该示例中，丢弃在长度上低于预定义阈值的段。

示例7包括示例1到6中任一示例的设备，包括或排除可选特征。在该示例中，评分机构基于帧中的对象来确定作为帧属于活动的概率的分数。

示例8包括示例1到7中任一示例的设备，包括或排除可选特征。在该示例中，评分机构确定分数，所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。

示例9包括示例1到8中任一示例的设备，包括或排除可选特征。在该示例中，概括器要通过将具有大于预定义阈值的分数的帧增加到概要来创建概要。

示例10包括示例1到9中任一示例的设备，包括或排除可选特征。在该示例中，通过选择对应于对于每个段的最高分数的关键图像帧来生成概要，或者对于每个段选择N-秒的关键剪辑。

示例11是一种用于视频概括的方法。该方法包括：根据活动类别来标记多个帧中的每个帧；确定对于每个帧内的对象的对象对活动相关性；以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的对象对活动相关性的帧的视频概要。

示例12包括示例11的方法，包括或排除可选特征。在该示例中，通过在训练数据的集合上执行活动分类器和对象检测器两者、通过人工注解或通过其任何组合来获得对象对活动相关性。

示例13包括示例11或12的方法，包括或排除可选特征。在该示例中，对象对于活动的重要性与包含对象的活动中的帧的数量除以对于那个活动的帧的总数的值成正比。

示例14包括示例11到13中任一示例的方法，包括或排除可选特征。在该示例中，使用卷积神经网络来根据活动类别标记每个帧。

示例15包括示例11到14中任一示例的方法，包括或排除可选特征。在该示例中，使用快速区域性卷积神经网络来分类每个帧的多个对象。

示例16包括示例11到15中任一示例的方法，包括或排除可选特征。在该示例中，使用对象属于特定活动的概率来至少部分地确定对象对活动相关性。

示例17包括示例11到16中任一示例的方法，包括或排除可选特征。在该示例中，评分机构基于帧中的对象来确定作为帧属于活动的概率的分数，所述概率用于至少部分地确定对象对活动相关性。

示例18包括示例11到17中任一示例的方法，包括或排除可选特征。在该示例中，评分机构确定分数，所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合，所述概率用于至少部分地确定对象对活动相关性。

示例19包括示例11到18中任一示例的方法，包括或排除可选特征。在该示例中，通过向概要增加具有大于预定义阈值的对象对活动相关性的帧来创建概要，从而渲染视频概要。

示例20包括示例11到19中任一示例的方法，包括或排除可选特征。在该示例中，通过选择对应于最高的对象对活动相关性的关键图像帧来生成视频概要。

示例21是一种系统。该系统包括：显示器；图像捕获机构；存储器，其要存储指令，并且通信地耦合到图像捕获机构和显示器；以及处理器，其通信地耦合到图像捕获机构、显示器和存储器，其中当处理器要执行指令时，处理器要：根据活动类别标记多个帧中的每个帧；确定对应于每个帧的分数；以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的分数的帧的视频概要。

示例22包括示例21的系统，包括或排除可选特征。在该示例中，分数至少部分地基于每个帧内的对象的活动对对象同现。

示例23包括示例21到22中任一示例的系统，包括或排除可选特征。在该示例中，分数至少部分地基于每个帧的分类概率。

示例24包括示例21到23中任一示例的系统，包括或排除可选特征。在该示例中，使用卷积神经网络来根据活动类别标记多个帧中的每个帧。

示例25包括示例21到24中任一示例的系统，包括或排除可选特征。在该示例中，根据周围帧的活动重新标记具有错误标记的活动类别的帧。

示例26包括示例21到25中任一示例的系统，包括或排除可选特征。在该示例中，使用快速区域性卷积神经网络来分类每个帧的多个对象。

示例27包括示例21到26中任一示例的系统，包括或排除可选特征。在该示例中，丢弃具有低于预定阈值的分数的帧。

示例28包括示例21到27中任一示例的系统，包括或排除可选特征。在该示例中，分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。

示例29是一种有形、非暂时性计算机可读介质。该计算机可读介质包括指令，所述指令引导处理器：根据活动类别标记多个帧的每个帧；确定对于每个帧内的对象的对象对活动相关性；以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的对象对活动相关性的帧的视频概要。

示例30包括示例29的计算机可读介质，包括或排除可选特征。在该示例中，通过在训练数据的集合上执行活动分类器和对象检测器两者、通过人工注解或通过其任何组合来获得对象对活动相关性。

示例31包括示例29到30中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，对象对于活动的重要性与包含对象的活动中的帧的数量除以对于那个活动的帧的总数的值成正比。

示例32包括示例29到31中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，使用卷积神经网络来根据活动类别标记每个帧。

示例33包括示例29到32中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，使用快速区域性卷积神经网络来分类每个帧的多个对象。

示例34包括示例29到33中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，使用对象属于特定活动的概率来至少部分地确定对象对活动相关性。

示例35包括示例29到34中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，评分机构基于帧中的对象来确定作为帧属于活动的概率的分数，所述概率用于至少部分地确定对象对活动相关性。

示例36包括示例29到35中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，评分机构确定分数，所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合，所述概率用于至少部分地确定对象对活动相关性。

示例37包括示例29到36中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，通过向概要增加具有大于预定义阈值的对象对活动相关性的帧来创建概要，从而渲染视频概要。

示例38包括示例29到37中任一示例的计算机可读介质，包括或排除可选特征。在该示例中，通过选择对应于最高的活动对对象相关性的关键图像帧来生成视频概要。

示例39是一种设备。该设备包括指令，所述指令引导处理器以：用于将传入的视频流分割成多个活动段的控制器，其中每个帧与活动相关联；用于为每个帧演算分数的部件；以及用于基于对于每个帧的分数来概括活动段的概括器。

示例40包括示例39的设备，包括或排除可选特征。在该示例中，分数至少部分地基于活动对对象同现。

示例41包括示例39到40中任一示例的设备，包括或排除可选特征。在该示例中，分数至少部分地基于每个帧的分类概率。

示例42包括示例39到41中任一示例的设备，包括或排除可选特征。在该示例中，通过一个或多个镜头边界分割活动，并根据活动类别来标记每个帧。

示例43包括示例39到42中任一示例的设备，包括或排除可选特征。在该示例中，使用卷积神经网络来将每个段分类到活动中。可选地，根据周围帧的活动重新标记具有错误标记的活动的帧。

示例44包括示例39到43中任一示例的设备，包括或排除可选特征。在该示例中，使用快速区域性卷积神经网络来分类每个帧的多个对象。

示例45包括示例39到44中任一示例的设备，包括或排除可选特征。在该示例中，丢弃在长度上低于预定义阈值的段。

示例46包括示例39到45中任一示例的设备，包括或排除可选特征。在该示例中，用于演算对于每个帧的分数的部件基于帧中的对象确定作为帧属于活动的概率的分数。

示例47包括示例39到46中任一示例的设备，包括或排除可选特征。在该示例中，用于演算对于每个帧的分数的部件确定分数，所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。

示例48包括示例39到47中任一示例的设备，包括或排除可选特征。在该示例中，概括器要通过将具有大于预定义阈值的分数的帧增加到概要来创建概要。

示例49包括示例39到48中任一示例的设备，包括或排除可选特征。在该示例中，通过选择对应于对于每个段的最高分数的关键图像帧来生成概要，或者对于每个段选择N-秒的关键剪辑。

一些实施例可在硬件、固件和软件之一或组合中实现。一些实施例也可作为存储在有形、非暂时性机器可读介质上的指令实现，所述指令可由计算平台读取并执行以执行描述的操作。另外，机器可读介质可包括用于存储或传送采用由机器（例如，计算机）可读形式的信息的任何机构。例如，机器可读介质除其它以外可包括：只读存储器（ROM）；随机存取存储器（RAM）；磁盘存储媒体；光存储媒体；闪速存储器装置；或电、光、声或其它形式的传播信号，例如载波、红外信号、数字信号；或传送和/或接收信号的接口。

实施例是实现或示例。说明书中提到“实施例”、“一个实施例”、“一些实施例”、“各种实施例”或“其它实施例”意思是，结合实施例描述的特定特征、结构或特性包括在本技术的至少一些实施例（但不一定是所有实施例）中。“实施例”、“一个实施例”或“一些实施例”的各种出现不一定都指相同实施例。

在一个或多个特定实施例中无需包括本文中描述和示出的所有组件、特征、结构、特性等。例如如果说明书阐述“可”、“可能”、“能够”或“可能会”包括组件、特征、结构或特性，那么不要求包括该特定组件、特征、结构或特性。如果说明书或权利要求书提到“a”或“an”元件，那么这不意味着只有一个元件。如果说明书或权利要求书提到“附加”元件，那么这不排除存在多于一个附加元件。

要注意，尽管已经参考特定实现描述了一些实施例，但是根据一些实施例，其它实现是可能的。另外，附图中示出和/或本文中描述的电路元件或其它特征的布置和/或顺序无需按示出和描述的特定方式布置。根据一些实施例，许多其它布置是可能的。

在图中示出的每个系统中，在一些情形下，元件可各自具有相同的附图标记或不同的附图标记以暗示表示的元件可不同和/或类似。然而，元件可足够灵活以具有不同实现并对本文中示出或描述的一些或所有系统起作用。图中示出的各种元件可以相同或不同。将哪个元件称为第一元件并将哪个元件称为第二元件是任意的。

要了解，在一个或多个实施例中，可在任何地方使用前述示例中的细节。例如，也可关于本文中描述的方法或计算机可读介质中的任一者实现上文描述的计算装置的所有可选特征。此外，尽管本文中可已经使用流程图和/或状态图来描述实施例，但是技术不限于本文中的那些图表或对应描述。例如，流程无需移动经过每个示出的方格或状态或采用与本文中示出和描述的确切相同的顺序。

本技术不限于本文中列出的特定细节。而是，得益于本公开的本领域技术人员将领会，可在本技术的范围内从以上描述和附图进行许多其它改变。因此，包括其任何修订的随附权利要求限定本技术的范围。

Claims

1.一种用于图像处理的电子设备，包括：

图像捕获传感器；

用于存储视频片段的存储器；

无线通信电路，用于传输数据；以及

处理器电路，用于：

处理来自所述图像捕获传感器的第一视频片段的第一图像，以确定所述第一图像的第一分数，其中使用神经网络检测与图像相关联的动作、与标签相关联的动作；

基于所述第一视频片段中的对应图像的第一分数的和，确定所述第一视频片段的第二分数；以及

基于所述第二分数，确定是否将所述第一视频片段保留在所述存储器中。

2.根据权利要求1所述的电子设备，其中，所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。

3.根据权利要求1所述的电子设备，其中，所述第一视频片段具有至少五秒的持续时间。

4.根据权利要求1所述的电子设备，其中，所述标签对应于具有大小为至少数百个标签的一组标签。

5.根据权利要求1所述的电子设备，其中，所述电子设备是可穿戴设备。

6.根据权利要求1所述的电子设备，其中，所述无线通信电路包括WiFi硬件、蓝牙硬件或蜂窝硬件中的至少一个。

7.根据权利要求1所述的电子设备，其中，所述神经网络是卷积神经网络。

8.根据权利要求1所述的电子设备，其中，所述神经网络被训练为检测与所述图像相关联的动作。

9.根据权利要求1所述的电子设备，还包括：

显示器；

麦克风；以及

键盘、触摸板或触摸屏中的至少一个。

10.至少一个用于图像处理的存储设备，包括计算机可读指令，所述计算机可读指令在被执行时使电子设备的至少一个处理器至少：

处理来自所述电子设备的图像捕获传感器的第一视频片段的第一图像，以确定所述第一图像的第一分数，其中使用神经网络检测与至少一个图像相关联的动作、与标签相关联的动作；

基于所述第二分数，确定是否将所述第一视频片段保留在所述电子设备中。

11.根据权利要求10所述的至少一个存储设备，其中，所述神经网络将要输出所述第一图像与所述标签相关联的置信度。

12.根据权利要求10所述的至少一个存储设备，其中，所述第一视频片段具有至少五秒的持续时间。

13.根据权利要求10所述的至少一个存储设备，其中，所述标签是具有大小为至少数百个标签的一组标签中的一个。

14.根据权利要求10所述的至少一个存储设备，其中，所述神经网络是被训练为检测所述动作的卷积神经网络。

15.一种用于图像处理的电子设备，包括：

用于捕获图像的部件；

用于存储视频片段的部件；

用于传输数据的部件；以及

用于确定是否保留第一视频片段的部件，所述用于确定的部件用于：

处理所述第一视频片段的第一图像，以确定所述第一图像的第一分数，其中使用神经网络检测与图像相关联的动作、与标签相关联的动作；

基于所述第二分数，确定是否保留所述第一视频片段。

16.根据权利要求15所述的电子设备，其中，所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。

17.根据权利要求15所述的电子设备，其中，所述第一视频片段具有至少五秒的持续时间。

18.根据权利要求15所述的电子设备，其中，所述标签对应于具有大小为至少数百个标签的一组标签。

19.根据权利要求15所述的电子设备，其中，所述用于传输的部件要经由WiFi网络进行传输。

20.根据权利要求15所述的电子设备，其中，所述神经网络是用于检测与所述图像相关联的动作的卷积神经网络。

21.一种用于图像处理的方法，包括：

通过用电子设备的至少一个处理器执行指令，处理第一视频片段的第一图像，以确定所述第一图像的第一分数，其中使用神经网络检测与图像相关联的动作、与标签相关联的动作，所述第一视频片段来自所述电子设备的图像捕获传感器；

通过用所述至少一个处理器执行指令，基于所述第一视频片段中的对应图像的第一分数的和，确定所述第一视频片段的第二分数；以及

通过用所述至少一个处理器执行指令，基于所述第二分数，确定是否将所述第一视频片段保留在所述电子设备中。

22.根据权利要求21所述的方法，其中，所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。

23.根据权利要求21所述的方法，其中，所述第一视频片段具有至少五秒的持续时间。

24.根据权利要求21所述的方法，其中，所述标签对应于具有大小为至少数百个标签的一组标签。

25.根据权利要求21所述的方法，其中，所述神经网络是被训练为检测与图像相关联的动作的卷积神经网络。