CN108352174B - 用于图像处理的电子设备、存储设备和方法 - Google Patents

用于图像处理的电子设备、存储设备和方法 Download PDF

Info

Publication number
CN108352174B
CN108352174B CN201680068783.4A CN201680068783A CN108352174B CN 108352174 B CN108352174 B CN 108352174B CN 201680068783 A CN201680068783 A CN 201680068783A CN 108352174 B CN108352174 B CN 108352174B
Authority
CN
China
Prior art keywords
image
electronic device
video segment
neural network
score
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201680068783.4A
Other languages
English (en)
Other versions
CN108352174A (zh
Inventor
M.皇莆
K.K.辛格
T.李
O.蒂库
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Intel Corp
Original Assignee
Intel Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Intel Corp filed Critical Intel Corp
Publication of CN108352174A publication Critical patent/CN108352174A/zh
Application granted granted Critical
Publication of CN108352174B publication Critical patent/CN108352174B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2431Multiple classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • G06V20/47Detecting features for summarising video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本文描述一种用于使用语义信息的视频概括的设备。该设备包括控制器、评分机构和概括器。控制器将传入的视频流分割成多个活动段,其中每个帧与活动相关联。评分机构要为每个活动的每个帧演算分数,其中分数基于每个帧中的多个对象。概括器要基于对于每个帧的分数概括活动段。

Description

用于图像处理的电子设备、存储设备和方法
相关申请的交叉引用
本申请要求由Hwangbo等人在2015年12月24日提交的题为“Video Summarizationusing Semantic Information”的美国专利申请号14/998,322的提交日期的权益,并且通过引用并入到本文。
背景技术
电子装置典型地包括能够捕获图像、静止镜头和视频数据的图像捕获机构。电子装置包括(但不限于)移动和可穿戴装置。视频数据能够容易地被捕获并为了各种目的被共享。典型地在本地记录和保存或在线共享视频数据。由于易于捕获,所以用户能够保存和共享大量视频。然而,用户不愿意花费时间和精力来仔细检查大量视频以定位他们想要观看或共享的特定视频或时刻。另外,视频数据能够消耗大量存储空间。
附图说明
图1是使能使用语义信息的视频概括的电子装置的框图;
图2是使用语义信息的视频概括的概图;
图3是视频概括流水线的概图;
图4是CNN活动分类器的定性结果的图示;
图5是具有对于对象分类的检测概率的边界框的图示;
图6A和6B示出视频概要;
图7是用于利用语义信息的视频概括的方法的过程流程图;以及
图8是示出包含用于视频概括的逻辑的介质的框图。
附图和本公开通篇中使用相同附图标记来引用类似组件和特征。100系列中的数字是指原本在图1中发现的特征;200系列中的数字是指原本在图2中发现的特征;以此类推。
具体实施方式
视频概括是在视频中自动发现代表性和突出的时刻的计算机视觉系统。它使得用户能够通过查看高亮区(highlight)和概要而快速浏览视频的大量收集。同样地,它通过只保留有信息的片段而有助于节省存储和通信带宽。概要将由将简洁地传达整个视频的整体故事情节的关键帧或子场景的集合组成。
之前的许多现有视频概括解决方案必定使用诸如颜色直方图或光流的低级特征。这种内容不可知的途径不能在构建概要时捕获在语义上有意义的时刻,并且只对于其中假设专业编辑的有限情形(像电影和电视新闻)工作。同样地,它们的应用局限于单个事件或情形的视频。
本文中描述的实施例确定驻留在视频中的高级语义上下文(例如,活动、对象、位置和人),并利用重要性评分机构从语义上下文产生内容感知概要。取代依赖于手工制作的特征,使用从成千上万个图像提取数据驱动特征的卷积神经网络。这个深度特征对于在由普通用户捕获的长时间或未经编辑的视频中严重发生的不稳定的相机运动、光照改变和场景混乱更加不变。
图1是使能使用语义信息的视频概括的电子装置的框图。电子装置100除其它以外可以是例如膝上型计算机、平板计算机、移动电话、智能电话或可穿戴装置。电子装置100可包括配置成执行存储的指令的中央处理单元(CPU)102以及存储可由CPU 102执行的指令的存储器装置104。CPU可通过总线106耦合到存储器装置104。另外,CPU 102能够是单核处理器、多核处理器、计算集群或任何数量的其它配置。此外,电子装置100可包括多于一个CPU102。存储器装置104能够包括随机存取存储器(RAM)、只读存储器(ROM)、闪速存储器或任何其它合适的存储器系统。例如,存储器装置104可包括动态随机存取存储器(DRAM)。
电子装置100还包括图形处理单元(GPU)108。如所示,CPU 102能够通过总线106耦合到GPU 108。GPU 108能够配置成在电子装置100内执行任何数量的图形操作。例如,GPU108能够配置成渲染或操纵图形图像、图形帧、视频等,以向电子装置100的用户进行显示。在一些实施例中,GPU 108包括多个图形引擎,其中每个图形引擎配置成执行特定图形任务或执行特定类型的工作负载。
CPU 102能够通过总线106链接到显示接口110,所述显示接口110配置成将电子装置100连接到显示装置112。显示装置112能够包括作为电子装置100的内置组件的显示屏。显示装置112除其它以外还能够包括外部连接到电子装置100的计算机监视器、电视机或投影仪。
CPU 102还能够通过总线106连接到输入/输出(I/O)装置接口114,所述I/O装置接口114配置成将电子装置100连接到一个或多个I/O装置116。I/O装置116能够包括例如键盘和指向装置,其中指向装置除其它以外能够包括触摸板或触摸屏。I/O装置116能够是电子装置100的内置组件,或者能够是在外部连接到电子装置100的装置。
因此,电子装置100还包括用于捕获音频的麦克风阵列118。麦克风阵列118能够包括任何数量的麦克风,包括2、3、4、5个麦克风或更多。在一些实施例中,麦克风阵列118能够与图像捕获机构120一起使用以捕获同步音频/视频数据,可将所述同步音频/视频数据作为音频/视频文件存储到存储装置122。
存储装置122是诸如硬盘驱动器、光驱动器、闪速驱动器、驱动器阵列或其任何组合的物理存储器。存储装置122能够存储用户数据,诸如音频文件、视频文件、音频/视频文件和图片文件,除其它以外。存储装置122还能够存储诸如装置驱动、软件应用、操作系统等的编程代码。存储到存储装置122的编程代码可由CPU 102、GPU 108或可包括在电子装置100中的任何其它处理器执行。
视频中的高级内容和它们的相关性能够导致更具语义意义的概要。能够以上下文感知的方式概括来自GPU或存储设备122的视频。能够从由可穿戴和移动装置捕获的未编辑的视频生成上下文感知的视频概要。可通过使用像CNN(卷积神经网络)的深度网络从视频提取高级语义实体,诸如活动、对象和地方。可实现评分机构,所述评分机构基于语义实体之间的相关性(例如,活动和对象之间的同现)来评估每个场景的重要性等级。
CPU 102可通过总线106链接到蜂窝硬件124。蜂窝硬件124可以是任何蜂窝技术,例如4G标准(由国际电信联盟-无线电通信部(ITU-R)公布的国际移动电信-高级(IMT-高级)标准)。以此方式,PC 100可在不与另一个装置栓系(tether)或配对的情况下接入任何网络126,其中网络130是蜂窝网络。
CPU 102还可通过总线106链接到WiFi硬件126。WiFi硬件是根据WiFi标准(作为电气和电子工程师协会(IEEE)802.11标准公布的标准)的硬件。WiFi硬件126使得可穿戴电子装置100能够使用传输控制协议和互联网协议(TCP/IP)连接到互联网,其中网络130是互联网。因此,可穿戴电子装置100能够在不使用另一个装置的情况下通过根据TCP/IP协议寻址、路由选择、传送和接收数据而使能与互联网的端到端连接性。另外,蓝牙接口128可通过总线106耦合到CPU 102。蓝牙接口128是根据蓝牙网络(基于由蓝牙特别兴趣小组公布的蓝牙标准)的接口。蓝牙接口128使得可穿戴电子装置100能够通过个人域网(PAN)与其它蓝牙使能装置配对。因此,网络130可以是PAN。蓝牙使能装置的示例除其它以外包括膝上型计算机、桌面型计算机、超级本、平板计算机、移动装置或服务器。
图1的框图不打算指示电子装置100将包括图1中示出的所有组件。相反,计算系统100能够包括更少的或图1中没有示出的附加组件(例如,传感器、功率管理集成电路、附加网络接口等)。取决于特定实现的细节,电子装置100可包括图1中没有示出的任何数量的附加组件。此外,CPU 102的功能性的任何功能性可部分或完全在硬件和/或在处理器中实现。例如,可利用专用集成电路,在处理器中实现的逻辑中、在专门化图形处理单元中实现的逻辑中或在任何其它装置中实现功能性。
图2是使用语义信息的视频概括的概图。在框202,获得输入视频。输入视频能够是由图像捕获机构当前捕获的视频,或是存储或保存的视频。另外,输入视频能够是电影或电视节目。在框204,能够使用深度网络来提取输入视频的内容。如本文中所使用的深度网络可以是包括具有能够用于特征提取和变换的许多层的算法的深度学习体系结构的结果。深度网络包括卷积神经网络(CNN),其是前馈人工神经网络,其中单独神经元以对视野中的重叠区域做出响应的方式平铺(tile)。例如,卷积神经网络能够由小神经元收集的多个层组成,其能够分析输入视频的每个帧。然后,平铺这些收集的结果以使得它们重叠,从而获得在视频数据中呈现的活动或对象的更佳表示。能够对于卷积神经网络的每一个此类层重复这种平铺。
在框206,结合评分机构根据每个帧的语义内容的分析来评估每个帧的重要性。如本文中所使用的语义内容是指与每个帧的内容相关联的含义。可基于在每个帧中发现的各种语义内容之间的关系来对与每个帧的语义内容相关联的重要性不同地评分。在框208,生成最终概要。当向用户呈现关键帧或关键子场景时,最终概要能够回答以下问题诸如:原始视频包含什么活动的系列;在多少个不同的位置或地方取得视频;以及什么对象重要以及谁出现在视频中
Figure DEST_PATH_IMAGE002
最终概要可基于每个视频剪辑的重要性分数大于特定阈值。以此方式,所得视频概要是通过使用与每个视频剪辑相关联的语义信息的上下文感知的视频概要。
典型的视频概括解决方案基于像颜色或运动提示的低级特征,并且它们在正确回答关于原始视频的这些问题方面有困难,因为本质上,没有给它们关于视频的什么部分是语义地有代表性的时刻的线索。本技术基于高级语义上下文,并且能够在观看整个原始视频时提供接近于用户预期事物的更有意义的答案。此外,语义内容之间的相关性使得跨视频的重要方面能够被注意。例如,在其中已经将“刷牙”标识为活动的视频中,所得概要应当将包含像牙刷/牙膏的关键对象的更多帧视为是重要帧,并包括它们作为概要的部分。如本文中所使用的,重要帧是具有高分的帧,如下所述。高分可比其它分数高,或者它可以是大于特定阈值的分数。
在本技术中,利用诸如活动和对象的两个语义内容之间的相关性以改进视频概要的质量。使用像CNN的深度机器学习技术从视频提取语义内容。从成千上万个图像训练的深度特征具有更多识别力,并且一般显示出比来自之前使用的手工制作的特征的那些更高的分类和检测精度。将在相同深度学习体系结构下更便利地进行将新的语义信息增加到概括中。
另外,根据本技术的输入视频的长度和内容复杂度能够处置更广泛范围的使用情形。现有方法通常局限于包含短的并且单个的事件的视频输入。得益于对光照改变、相机运动和场景混乱更不敏感的深度特征,甚至对于由可穿戴或移动装置所取得的具有多个事件的长时间视频可获得始终如一的概括性能。
图3是视频概括流水线300的概图。流水线300表示通过分析语义视觉内容从给定视频生成关键帧或抽象的剪辑的集合的内容感知视频概括技术。它涉及如上文所论述的提供活动分类和对象检测的深度机器学习技术。输入视频的类型不仅仅是专业编辑的电影或电视影片,而且是由可穿戴或移动装置所取得的未编辑或未构造的视频。
图3示出包括概括方法的三个主要模块:时间分割302、重要性评分304和概要选择306。时间分割302模块从活动转变检测镜头边界,并将输入视频划分成子场景的集合,其中每个子场景包括一个或多个活动段。在实施例中,镜头边界是视频的各种设置之间的明显转变。例如,镜头边界可以是在视频中从一个房间到另一个房间的转变。在每个活动段中,重要性评分模块304检测可视对象,并对于每个图像帧评估分数,其通过对象对活动同现被加权。最后,概要选择模块306选择将是该活动段内的最重要的和突出的时刻的高分区域。区域是图像中的特定区。然后,来自每一个子场景的概括的关键剪辑的集合被收集并对于用户显示。
具体来说,时间分割302将输入视频308划分成包括语义地不同的活动的子场景。卷积神经网络(CNN)310能够被用于活动分类。例如,可为诸如刷牙、看电视、使用计算机、吃饭、做饭、洗衣服等的20个日常室内/室外活动训练CNN。为了找到时间段,首先通过活动分类器经由CNN 310将每个帧分类到活动类别312之一中。一旦将输入视频中的所有帧分类,便使用模式过滤器来使活动标签在时间上平滑,以便修剪错误分类的标签。每个活动段由在最小时间内具有相同活动的连续帧组成。移除比某个阈值更短的段,并加入属于相同活动的相邻段。因此,如由箭头314所指示,能够通过活动来集群段。
一旦将视频划分成活动段,便根据评分函数来选择来自每个段的最佳时刻。因此,将分类的子场景316发送给重要性评分模块304。对于给定活动段A,可应用以下两种评分机制。如下演算基于活动的分数:
Figure DEST_PATH_IMAGE004
其中
Figure DEST_PATH_IMAGE006
是由活动分类器返回的分类概率。分数S1和分类概率是在时间i的图像帧f i 属于活动类别A的可信度。第二分数是基于活动对对象同现的分数:
Figure DEST_PATH_IMAGE008
其中
Figure DEST_PATH_IMAGE010
是由对象检测器返回的意指对象O i 属于它的标记的类别的概率。
Figure DEST_PATH_IMAGE012
表示对象对于特定活动有多重要。分数S2给予包含与段的标记的活动高度相关的更重要对象的帧更高分数。通过活动A的帧在帧中具有对象O i 的小数(fraction)来计算同现。
对象O i 对于活动A的重要性与如下的
Figure DEST_PATH_IMAGE014
的值成正比:
Figure DEST_PATH_IMAGE016
其中
Figure DEST_PATH_IMAGE018
是活动A中包含对象O i 的帧的数量,并且
Figure DEST_PATH_IMAGE020
是对于活动A的帧的总数。
从训练数据的对象和活动标签学习同现。能够通过在训练数据上运行活动分类器和对象检测器两者或通过人工注解来获得标签。例如,表1示出在我们的实验中使用的前两个与给定活动最同现的对象。
Figure DEST_PATH_IMAGE022
因此,在参考数字处进行区域提议318。然后,使用CNN来将帧的每个区域中的对象分类。可使用快速区域性CNN 320来学习帧的每个区域中的对象。区域性CNN 320导致对象类别322。可在以上等式中使用对象类别322和活动类别312,并可如在箭头324所指示找到对象对活动相关性。
将从以上等式得到的分数326和如在箭头324所指示的对象对活动相关性发送给概要选择模块306。概要选择模块306生成视频剪辑332的最重要帧或高亮区的最终概要。能够通过检查重要性分数分布或分数图328来以各种方式生成最终概要。例如,可如由箭头330所指示选择关键图像帧的集合,其中的每个对应于对于每个活动段的最高分数。在另一个示例中,能够对于最终概要选择关键剪辑的集合,其中的每个对应于显示最高分数和的每个动作段的N-秒。在实施例中,能够任意选择N,诸如5或10秒,取决于用户偏好或存储约束选择。
在实施例中,使用的活动分类器和对象检测器各自是基于CNN的深度网络。通过来自对于数百个不同标签的数据库的成千上万个图像预先训练基于CNN的深度网络,并接着进行精细调谐以供包括标签的修改集合和附加训练数据集的视频概括使用。数据集可以是例如执行不用剧本的日常活动的许多人的成千上万的帧。
考虑例如通过在他们自己家中捕获他们的日常活动的不同个体收集的20个视频组成的数据集。与视频一起,为地面实况提供对于活动和对象类别的人工注解。在评估中,15个视频被用于训练,并且剩余的5个被用于测试。
图4是CNN活动分类器的定性结果400的图示。示出具有所得活动类别的6个帧。尽管示出6个帧,但是可使用任何数量的帧。对于每个帧,活动类别是洗碗402、洗衣服404、弄干脸/手406、化妆/梳头408、阅读/书写410和在外面行走412。可使用基于CNN的深度网络执行如上所述的活动分类,其被训练以用于使用人工注解来将20个活动分类。活动分类在逐帧测试中产生55.1%的精度。能够通过像MIT地方混合-CNN(其通过对于1183个对象/场景类别的230万个图像进行训练)的预先训练的网络来初始化网络的权重。权重可定义为CNN网络中的每个节点的系数数值。
时间分割模块使用以下20个活动标签以用于通过图4所示的活动分割输入视频:化妆/梳头、刷牙、洗脸/洗手、弄干脸/手、洗衣服、调节恒温器、洗碗、泡茶/泡咖啡、喝瓶装水(water-bottle)、做饭、吃饭、厨房拖地、吸尘、吃药、看电视、使用计算机、用手机、阅读/书写、喝咖啡、在外面行走。55.1%的精度数值合理地认为这些活动类别中的大多数活动类别彼此非常类似。另外,图4中使用20个活动标签作为示例,并且根据本技术能够使用任何数量的活动标签。
在已经将活动分类之后,执行对象检测。如上文所论述,快速-RCNN可被用于对象检测。快速-RCNN可采用利用根据WordNet层级组织的图像数据库预先训练的CNN,其中通过成百上千个图像描绘层级的每个节点。然后,快速-RCNN在可视对象类别检测数据上精细调谐网络。可使用提供的注解对于更多对象类别附加地训练快速-RCNN。
图5是具有对于对象分类的检测概率的边界框的图示。图5包括帧502、帧504、帧506和帧508。帧502包括和人510、门512、毛巾514和水龙头516。帧504包括窗户520、水龙头522、肥皂/洗手液524和杯子526。帧506包括电视机530和手机532。帧508包括门540和书本542。在帧内的每个检测的对象包括具有通过快速-RCNN的测试图像中的检测概率的边界框。
可通过基于S2分数(基于活动对对象同现的评分)从6个活动段中选择最佳的5个连续秒来创建视频概要。防止在概要中重复相同活动,并且优选在概要中包括更长活动。为了可视化概要,在图6A和6B的网格布局中显示每个活动段的最佳时刻。在这些图中,条602表示视频输入的整体持续时间,并且交叉平行线部分604表示活动段的时间周期。实心部分606指示在网格中示出的最高重要性分数的时刻。根据评分机构S2决定实心部分606的位置。概括的输出显示我们的算法捕获重要活动的有意义时刻的能力。当与单纯的均匀采样相比时,错过视频中的许多重要活动。在像均匀采样的内容不感知的方法中,一个缺点是,花费非常长持续时间的某些活动可主导概要。
图7是用于利用语义信息的视频概括的方法的过程流程图。在框702,可根据活动类别标记多个帧中的每个帧。在实施例中,将多个帧分割成子场景。在框704,确定对于每个帧的对象对活动相关性。在实施例中,对象对活动相关性导致指示对象与对于帧的特定活动类别相关的似然的一个或多个分数。在框706,渲染视频概要。视频包括具有对于子场景或镜头边界中的每个帧的最高对象对活动相关性的帧。
图8是示出包含用于视频概括的逻辑的介质800的框图。介质800可以是计算机可读介质,包括存储能够由处理器802通过计算机总线804访问的代码的非暂时性介质。例如,计算机可读介质800能够是易失性或非易失性数据存储装置。介质800也能够是逻辑单元,诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)或在例如一个或多个集成电路中实现的逻辑门的布置。
介质800可包括配置成执行本文中描述的技术的模块808-810。例如,分割模块806可配置成将帧分割成视频数据并对段应用活动类别。评分模块808可配置成基于对象对活动相关性来生成一个或多个分数。概要模块810可配置成渲染视频概要中具有最高对象对活动相关性的帧。
图8的框图不打算指示介质800将包括图8中示出的所有组件。此外,取决于特定实现的细节,介质800可包括图8中没有示出的任何数量的附加组件。
示例1是一种设备。该设备包括:用于将传入的视频流分割成多个活动段的控制器,其中每个帧与活动相关联;用于为每个活动的每个帧演算分数的评分机构,其中分数至少部分地基于每个帧的分类概率;以及用于基于对于每个帧的分数来概括活动段的概括器。
示例2包括示例1的设备,包括或排除可选特征。在该示例中,分数至少部分地基于活动对对象同现。
示例3包括示例1到2中任一示例的设备,包括或排除可选特征。在该示例中,通过一个或多个镜头边界分割活动,并根据活动类别来标记每个帧。
示例4包括示例1到3中任一示例的设备,包括或排除可选特征。在该示例中,使用卷积神经网络来将每个段分类到活动中。可选地,根据周围帧的活动重新标记具有错误标记的活动的帧。
示例5包括示例1到4中任一示例的设备,包括或排除可选特征。在该示例中,使用快速区域性卷积神经网络来分类每个帧的多个对象。
示例6包括示例1到5中任一示例的设备,包括或排除可选特征。在该示例中,丢弃在长度上低于预定义阈值的段。
示例7包括示例1到6中任一示例的设备,包括或排除可选特征。在该示例中,评分机构基于帧中的对象来确定作为帧属于活动的概率的分数。
示例8包括示例1到7中任一示例的设备,包括或排除可选特征。在该示例中,评分机构确定分数,所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。
示例9包括示例1到8中任一示例的设备,包括或排除可选特征。在该示例中,概括器要通过将具有大于预定义阈值的分数的帧增加到概要来创建概要。
示例10包括示例1到9中任一示例的设备,包括或排除可选特征。在该示例中,通过选择对应于对于每个段的最高分数的关键图像帧来生成概要,或者对于每个段选择N-秒的关键剪辑。
示例11是一种用于视频概括的方法。该方法包括:根据活动类别来标记多个帧中的每个帧;确定对于每个帧内的对象的对象对活动相关性;以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的对象对活动相关性的帧的视频概要。
示例12包括示例11的方法,包括或排除可选特征。在该示例中,通过在训练数据的集合上执行活动分类器和对象检测器两者、通过人工注解或通过其任何组合来获得对象对活动相关性。
示例13包括示例11或12的方法,包括或排除可选特征。在该示例中,对象对于活动的重要性与包含对象的活动中的帧的数量除以对于那个活动的帧的总数的值成正比。
示例14包括示例11到13中任一示例的方法,包括或排除可选特征。在该示例中,使用卷积神经网络来根据活动类别标记每个帧。
示例15包括示例11到14中任一示例的方法,包括或排除可选特征。在该示例中,使用快速区域性卷积神经网络来分类每个帧的多个对象。
示例16包括示例11到15中任一示例的方法,包括或排除可选特征。在该示例中,使用对象属于特定活动的概率来至少部分地确定对象对活动相关性。
示例17包括示例11到16中任一示例的方法,包括或排除可选特征。在该示例中,评分机构基于帧中的对象来确定作为帧属于活动的概率的分数,所述概率用于至少部分地确定对象对活动相关性。
示例18包括示例11到17中任一示例的方法,包括或排除可选特征。在该示例中,评分机构确定分数,所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合,所述概率用于至少部分地确定对象对活动相关性。
示例19包括示例11到18中任一示例的方法,包括或排除可选特征。在该示例中,通过向概要增加具有大于预定义阈值的对象对活动相关性的帧来创建概要,从而渲染视频概要。
示例20包括示例11到19中任一示例的方法,包括或排除可选特征。在该示例中,通过选择对应于最高的对象对活动相关性的关键图像帧来生成视频概要。
示例21是一种系统。该系统包括:显示器;图像捕获机构;存储器,其要存储指令,并且通信地耦合到图像捕获机构和显示器;以及处理器,其通信地耦合到图像捕获机构、显示器和存储器,其中当处理器要执行指令时,处理器要:根据活动类别标记多个帧中的每个帧;确定对应于每个帧的分数;以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的分数的帧的视频概要。
示例22包括示例21的系统,包括或排除可选特征。在该示例中,分数至少部分地基于每个帧内的对象的活动对对象同现。
示例23包括示例21到22中任一示例的系统,包括或排除可选特征。在该示例中,分数至少部分地基于每个帧的分类概率。
示例24包括示例21到23中任一示例的系统,包括或排除可选特征。在该示例中,使用卷积神经网络来根据活动类别标记多个帧中的每个帧。
示例25包括示例21到24中任一示例的系统,包括或排除可选特征。在该示例中,根据周围帧的活动重新标记具有错误标记的活动类别的帧。
示例26包括示例21到25中任一示例的系统,包括或排除可选特征。在该示例中,使用快速区域性卷积神经网络来分类每个帧的多个对象。
示例27包括示例21到26中任一示例的系统,包括或排除可选特征。在该示例中,丢弃具有低于预定阈值的分数的帧。
示例28包括示例21到27中任一示例的系统,包括或排除可选特征。在该示例中,分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。
示例29是一种有形、非暂时性计算机可读介质。该计算机可读介质包括指令,所述指令引导处理器:根据活动类别标记多个帧的每个帧;确定对于每个帧内的对象的对象对活动相关性;以及渲染包括对于镜头边界中的每个帧具有大于预定阈值的对象对活动相关性的帧的视频概要。
示例30包括示例29的计算机可读介质,包括或排除可选特征。在该示例中,通过在训练数据的集合上执行活动分类器和对象检测器两者、通过人工注解或通过其任何组合来获得对象对活动相关性。
示例31包括示例29到30中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,对象对于活动的重要性与包含对象的活动中的帧的数量除以对于那个活动的帧的总数的值成正比。
示例32包括示例29到31中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,使用卷积神经网络来根据活动类别标记每个帧。
示例33包括示例29到32中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,使用快速区域性卷积神经网络来分类每个帧的多个对象。
示例34包括示例29到33中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,使用对象属于特定活动的概率来至少部分地确定对象对活动相关性。
示例35包括示例29到34中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,评分机构基于帧中的对象来确定作为帧属于活动的概率的分数,所述概率用于至少部分地确定对象对活动相关性。
示例36包括示例29到35中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,评分机构确定分数,所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合,所述概率用于至少部分地确定对象对活动相关性。
示例37包括示例29到36中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,通过向概要增加具有大于预定义阈值的对象对活动相关性的帧来创建概要,从而渲染视频概要。
示例38包括示例29到37中任一示例的计算机可读介质,包括或排除可选特征。在该示例中,通过选择对应于最高的活动对对象相关性的关键图像帧来生成视频概要。
示例39是一种设备。该设备包括指令,所述指令引导处理器以:用于将传入的视频流分割成多个活动段的控制器,其中每个帧与活动相关联;用于为每个帧演算分数的部件;以及用于基于对于每个帧的分数来概括活动段的概括器。
示例40包括示例39的设备,包括或排除可选特征。在该示例中,分数至少部分地基于活动对对象同现。
示例41包括示例39到40中任一示例的设备,包括或排除可选特征。在该示例中,分数至少部分地基于每个帧的分类概率。
示例42包括示例39到41中任一示例的设备,包括或排除可选特征。在该示例中,通过一个或多个镜头边界分割活动,并根据活动类别来标记每个帧。
示例43包括示例39到42中任一示例的设备,包括或排除可选特征。在该示例中,使用卷积神经网络来将每个段分类到活动中。可选地,根据周围帧的活动重新标记具有错误标记的活动的帧。
示例44包括示例39到43中任一示例的设备,包括或排除可选特征。在该示例中,使用快速区域性卷积神经网络来分类每个帧的多个对象。
示例45包括示例39到44中任一示例的设备,包括或排除可选特征。在该示例中,丢弃在长度上低于预定义阈值的段。
示例46包括示例39到45中任一示例的设备,包括或排除可选特征。在该示例中,用于演算对于每个帧的分数的部件基于帧中的对象确定作为帧属于活动的概率的分数。
示例47包括示例39到46中任一示例的设备,包括或排除可选特征。在该示例中,用于演算对于每个帧的分数的部件确定分数,所述分数是帧的对象属于对象的类别的概率与对象对于指派给帧的活动的重要性的组合。
示例48包括示例39到47中任一示例的设备,包括或排除可选特征。在该示例中,概括器要通过将具有大于预定义阈值的分数的帧增加到概要来创建概要。
示例49包括示例39到48中任一示例的设备,包括或排除可选特征。在该示例中,通过选择对应于对于每个段的最高分数的关键图像帧来生成概要,或者对于每个段选择N-秒的关键剪辑。
一些实施例可在硬件、固件和软件之一或组合中实现。一些实施例也可作为存储在有形、非暂时性机器可读介质上的指令实现,所述指令可由计算平台读取并执行以执行描述的操作。另外,机器可读介质可包括用于存储或传送采用由机器(例如,计算机)可读形式的信息的任何机构。例如,机器可读介质除其它以外可包括:只读存储器(ROM);随机存取存储器(RAM);磁盘存储媒体;光存储媒体;闪速存储器装置;或电、光、声或其它形式的传播信号,例如载波、红外信号、数字信号;或传送和/或接收信号的接口。
实施例是实现或示例。说明书中提到“实施例”、“一个实施例”、“一些实施例”、“各种实施例”或“其它实施例”意思是,结合实施例描述的特定特征、结构或特性包括在本技术的至少一些实施例(但不一定是所有实施例)中。“实施例”、“一个实施例”或“一些实施例”的各种出现不一定都指相同实施例。
在一个或多个特定实施例中无需包括本文中描述和示出的所有组件、特征、结构、特性等。例如如果说明书阐述“可”、“可能”、“能够”或“可能会”包括组件、特征、结构或特性,那么不要求包括该特定组件、特征、结构或特性。如果说明书或权利要求书提到“a”或“an”元件,那么这不意味着只有一个元件。如果说明书或权利要求书提到“附加”元件,那么这不排除存在多于一个附加元件。
要注意,尽管已经参考特定实现描述了一些实施例,但是根据一些实施例,其它实现是可能的。另外,附图中示出和/或本文中描述的电路元件或其它特征的布置和/或顺序无需按示出和描述的特定方式布置。根据一些实施例,许多其它布置是可能的。
在图中示出的每个系统中,在一些情形下,元件可各自具有相同的附图标记或不同的附图标记以暗示表示的元件可不同和/或类似。然而,元件可足够灵活以具有不同实现并对本文中示出或描述的一些或所有系统起作用。图中示出的各种元件可以相同或不同。将哪个元件称为第一元件并将哪个元件称为第二元件是任意的。
要了解,在一个或多个实施例中,可在任何地方使用前述示例中的细节。例如,也可关于本文中描述的方法或计算机可读介质中的任一者实现上文描述的计算装置的所有可选特征。此外,尽管本文中可已经使用流程图和/或状态图来描述实施例,但是技术不限于本文中的那些图表或对应描述。例如,流程无需移动经过每个示出的方格或状态或采用与本文中示出和描述的确切相同的顺序。
本技术不限于本文中列出的特定细节。而是,得益于本公开的本领域技术人员将领会,可在本技术的范围内从以上描述和附图进行许多其它改变。因此,包括其任何修订的随附权利要求限定本技术的范围。

Claims (25)

1.一种用于图像处理的电子设备,包括:
图像捕获传感器;
用于存储视频片段的存储器;
无线通信电路,用于传输数据;以及
处理器电路,用于:
处理来自所述图像捕获传感器的第一视频片段的第一图像,以确定所述第一图像的第一分数,其中使用神经网络检测与图像相关联的动作、与标签相关联的动作;
基于所述第一视频片段中的对应图像的第一分数的和,确定所述第一视频片段的第二分数;以及
基于所述第二分数,确定是否将所述第一视频片段保留在所述存储器中。
2.根据权利要求1所述的电子设备,其中,所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。
3.根据权利要求1所述的电子设备,其中,所述第一视频片段具有至少五秒的持续时间。
4.根据权利要求1所述的电子设备,其中,所述标签对应于具有大小为至少数百个标签的一组标签。
5.根据权利要求1所述的电子设备,其中,所述电子设备是可穿戴设备。
6.根据权利要求1所述的电子设备,其中,所述无线通信电路包括WiFi硬件、蓝牙硬件或蜂窝硬件中的至少一个。
7.根据权利要求1所述的电子设备,其中,所述神经网络是卷积神经网络。
8.根据权利要求1所述的电子设备,其中,所述神经网络被训练为检测与所述图像相关联的动作。
9.根据权利要求1所述的电子设备,还包括:
显示器;
麦克风;以及
键盘、触摸板或触摸屏中的至少一个。
10.至少一个用于图像处理的存储设备,包括计算机可读指令,所述计算机可读指令在被执行时使电子设备的至少一个处理器至少:
处理来自所述电子设备的图像捕获传感器的第一视频片段的第一图像,以确定所述第一图像的第一分数,其中使用神经网络检测与至少一个图像相关联的动作、与标签相关联的动作;
基于所述第一视频片段中的对应图像的第一分数的和,确定所述第一视频片段的第二分数;以及
基于所述第二分数,确定是否将所述第一视频片段保留在所述电子设备中。
11.根据权利要求10所述的至少一个存储设备,其中,所述神经网络将要输出所述第一图像与所述标签相关联的置信度。
12.根据权利要求10所述的至少一个存储设备,其中,所述第一视频片段具有至少五秒的持续时间。
13.根据权利要求10所述的至少一个存储设备,其中,所述标签是具有大小为至少数百个标签的一组标签中的一个。
14.根据权利要求10所述的至少一个存储设备,其中,所述神经网络是被训练为检测所述动作的卷积神经网络。
15.一种用于图像处理的电子设备,包括:
用于捕获图像的部件;
用于存储视频片段的部件;
用于传输数据的部件;以及
用于确定是否保留第一视频片段的部件,所述用于确定的部件用于:
处理所述第一视频片段的第一图像,以确定所述第一图像的第一分数,其中使用神经网络检测与图像相关联的动作、与标签相关联的动作;
基于所述第一视频片段中的对应图像的第一分数的和,确定所述第一视频片段的第二分数;以及
基于所述第二分数,确定是否保留所述第一视频片段。
16.根据权利要求15所述的电子设备,其中,所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。
17.根据权利要求15所述的电子设备,其中,所述第一视频片段具有至少五秒的持续时间。
18.根据权利要求15所述的电子设备,其中,所述标签对应于具有大小为至少数百个标签的一组标签。
19.根据权利要求15所述的电子设备,其中,所述用于传输的部件要经由WiFi网络进行传输。
20.根据权利要求15所述的电子设备,其中,所述神经网络是用于检测与所述图像相关联的动作的卷积神经网络。
21.一种用于图像处理的方法,包括:
通过用电子设备的至少一个处理器执行指令,处理第一视频片段的第一图像,以确定所述第一图像的第一分数,其中使用神经网络检测与图像相关联的动作、与标签相关联的动作,所述第一视频片段来自所述电子设备的图像捕获传感器;
通过用所述至少一个处理器执行指令,基于所述第一视频片段中的对应图像的第一分数的和,确定所述第一视频片段的第二分数;以及
通过用所述至少一个处理器执行指令,基于所述第二分数,确定是否将所述第一视频片段保留在所述电子设备中。
22.根据权利要求21所述的方法,其中,所述神经网络将要输出所述第一图像与所述标签中的第一标签相关联的置信度。
23.根据权利要求21所述的方法,其中,所述第一视频片段具有至少五秒的持续时间。
24.根据权利要求21所述的方法,其中,所述标签对应于具有大小为至少数百个标签的一组标签。
25.根据权利要求21所述的方法,其中,所述神经网络是被训练为检测与图像相关联的动作的卷积神经网络。
CN201680068783.4A 2015-12-24 2016-10-21 用于图像处理的电子设备、存储设备和方法 Active CN108352174B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14/998,322 US10229324B2 (en) 2015-12-24 2015-12-24 Video summarization using semantic information
US14/998322 2015-12-24
PCT/US2016/058078 WO2017112067A1 (en) 2015-12-24 2016-10-21 Video summarization using semantic information

Publications (2)

Publication Number Publication Date
CN108352174A CN108352174A (zh) 2018-07-31
CN108352174B true CN108352174B (zh) 2021-08-24

Family

ID=59087902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680068783.4A Active CN108352174B (zh) 2015-12-24 2016-10-21 用于图像处理的电子设备、存储设备和方法

Country Status (3)

Country Link
US (4) US10229324B2 (zh)
CN (1) CN108352174B (zh)
WO (1) WO2017112067A1 (zh)

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
US10229324B2 (en) 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
JP6586243B2 (ja) 2016-03-03 2019-10-02 グーグル エルエルシー ロボットの把持のための深層機械学習方法および装置
EP3742347B1 (en) 2016-03-03 2022-11-02 Google LLC Deep machine learning methods and apparatus for robotic grasping
US10558186B2 (en) * 2016-10-13 2020-02-11 Farrokh Mohamadi Detection of drones
US10163227B1 (en) 2016-12-28 2018-12-25 Shutterstock, Inc. Image file compression using dummy data for non-salient portions of images
US10663711B2 (en) 2017-01-04 2020-05-26 Corista, LLC Virtual slide stage (VSS) method for viewing whole slide images
US10536700B1 (en) * 2017-05-12 2020-01-14 Gopro, Inc. Systems and methods for encoding videos based on visuals captured within the videos
US10402698B1 (en) * 2017-07-10 2019-09-03 Gopro, Inc. Systems and methods for identifying interesting moments within videos
US10489654B1 (en) * 2017-08-04 2019-11-26 Amazon Technologies, Inc. Video analysis method and system
CN107516084B (zh) * 2017-08-30 2020-01-17 中国人民解放军国防科技大学 一种基于多特征融合的互联网视频作者身份识别方法
US10417501B2 (en) 2017-12-06 2019-09-17 International Business Machines Corporation Object recognition in video
US10679069B2 (en) 2018-03-27 2020-06-09 International Business Machines Corporation Automatic video summary generation
CN108848422B (zh) * 2018-04-19 2020-06-02 清华大学 一种基于目标检测的视频摘要生成方法
JP7458328B2 (ja) 2018-05-21 2024-03-29 コリスタ・エルエルシー マルチ分解能登録を介したマルチサンプル全体スライド画像処理
CN108882024B (zh) * 2018-08-01 2021-08-20 北京奇艺世纪科技有限公司 一种视频播放方法、装置及电子设备
CN109472201A (zh) * 2018-09-29 2019-03-15 天津卡达克数据有限公司 一种基于场景、动作和文本的视频问答方法
US11501176B2 (en) * 2018-12-14 2022-11-15 International Business Machines Corporation Video processing for troubleshooting assistance
US11176654B2 (en) * 2019-03-27 2021-11-16 Sharif University Of Technology Quality assessment of a video
CN110602527B (zh) * 2019-09-12 2022-04-08 北京小米移动软件有限公司 视频处理方法、装置及存储介质
US11869032B2 (en) * 2019-10-01 2024-01-09 Medixin Inc. Computer system and method for offering coupons
US11308331B2 (en) * 2019-12-31 2022-04-19 Wipro Limited Multimedia content summarization method and system thereof
CN111274443B (zh) * 2020-01-10 2023-06-09 北京百度网讯科技有限公司 视频片段描述的生成方法、装置、电子设备及存储介质
CN113286194A (zh) * 2020-02-20 2021-08-20 北京三星通信技术研究有限公司 视频处理方法、装置、电子设备及可读存储介质
US11170389B2 (en) * 2020-02-20 2021-11-09 Adobe Inc. Enhancing media content effectiveness using feedback between evaluation and content editing
US20210278852A1 (en) * 2020-03-05 2021-09-09 Uatc, Llc Systems and Methods for Using Attention Masks to Improve Motion Planning
CN111626202B (zh) * 2020-05-27 2023-08-29 北京百度网讯科技有限公司 用于识别视频的方法及装置
US11776319B2 (en) * 2020-07-14 2023-10-03 Fotonation Limited Methods and systems to predict activity in a sequence of images
US11854264B2 (en) * 2021-06-18 2023-12-26 Kyndryl, Inc. Speculative actions based on predicting negative circumstances
WO2023218413A1 (en) * 2022-05-12 2023-11-16 Samsung Electronics Co., Ltd. Method and electronic device for generating a segment of a video

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7000200B1 (en) * 2000-09-15 2006-02-14 Intel Corporation Gesture recognition system recognizing gestures within a specified timing
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
CN102939630A (zh) * 2010-05-25 2013-02-20 伊斯曼柯达公司 用于确定关键视频帧的方法
CN104715023A (zh) * 2015-03-02 2015-06-17 北京奇艺世纪科技有限公司 基于视频内容的商品推荐方法和系统
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence

Family Cites Families (104)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3041076A (en) 1958-04-21 1962-06-26 Lely Nv C Van Der Spreader for granular or powdery material
US7289643B2 (en) 2000-12-21 2007-10-30 Digimarc Corporation Method, apparatus and programs for generating and utilizing content signatures
US6711278B1 (en) * 1998-09-10 2004-03-23 Microsoft Corporation Tracking semantic objects in vector image sequences
US7248300B1 (en) 1999-06-03 2007-07-24 Fujifilm Corporation Camera and method of photographing good image
US6301440B1 (en) 2000-04-13 2001-10-09 International Business Machines Corp. System and method for automatically setting image acquisition controls
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
US6931595B2 (en) 2000-11-02 2005-08-16 Sharp Laboratories Of America, Inc. Method for automatic extraction of semantically significant events from video
US6961754B2 (en) 2001-01-12 2005-11-01 Telefonaktiebolaget Lm Ericsson Interactive access, manipulation, sharing and exchange of multimedia data
CA2359269A1 (en) 2001-10-17 2003-04-17 Biodentity Systems Corporation Face imaging system for recordal and automated identity confirmation
KR100464075B1 (ko) * 2001-12-28 2004-12-30 엘지전자 주식회사 비디오 하이라이트 자동 생성 방법 및 장치
JP2004121218A (ja) 2002-08-06 2004-04-22 Jenokkusu Soyaku Kenkyusho:Kk 気管支喘息または慢性閉塞性肺疾患の検査方法
US7319780B2 (en) 2002-11-25 2008-01-15 Eastman Kodak Company Imaging method and system for health monitoring and personal security
US7403211B2 (en) 2003-02-13 2008-07-22 Lumapix, Inc. Method and system for interactive region segmentation
GB2400667B (en) 2003-04-15 2006-05-31 Hewlett Packard Development Co Attention detection
US7552387B2 (en) 2003-04-30 2009-06-23 Hewlett-Packard Development Company, L.P. Methods and systems for video content browsing
JP2004356970A (ja) 2003-05-29 2004-12-16 Casio Comput Co Ltd ウエアラブルカメラの撮影方法、撮像装置、及び撮影制御プログラム
GB2403365B (en) 2003-06-27 2008-01-30 Hewlett Packard Development Co An autonomous camera having exchangeable behaviours
GB2404511B (en) 2003-07-26 2007-08-22 Hewlett Packard Development Co Image capture device having a learning function
US7924323B2 (en) 2003-12-24 2011-04-12 Walker Digital, Llc Method and apparatus for automatically capturing and managing images
WO2006022977A2 (en) 2004-07-23 2006-03-02 Digimarc Corporation Facial database methods and systems
US20060059120A1 (en) * 2004-08-27 2006-03-16 Ziyou Xiong Identifying video highlights using audio-visual objects
GB2419488B (en) 2004-10-23 2010-10-27 Hewlett Packard Development Co Image processing
US9001215B2 (en) 2005-06-02 2015-04-07 The Invention Science Fund I, Llc Estimating shared image device operational capabilities or resources
US8089563B2 (en) * 2005-06-17 2012-01-03 Fuji Xerox Co., Ltd. Method and system for analyzing fixed-camera video via the selection, visualization, and interaction with storyboard keyframes
EP1793580B1 (en) 2005-12-05 2016-07-27 Microsoft Technology Licensing, LLC Camera for automatic image capture having plural capture modes with different capture triggers
US8699806B2 (en) * 2006-04-12 2014-04-15 Google Inc. Method and apparatus for automatically summarizing video
JP2007336098A (ja) 2006-06-13 2007-12-27 Canon Inc 映像録画・再生システム用映像制御装置
JP5017989B2 (ja) 2006-09-27 2012-09-05 ソニー株式会社 撮像装置、撮像方法
FR2913510B1 (fr) 2007-03-07 2009-07-03 Eastman Kodak Co Procede pour determiner automatiquement une probabilite de saisie d'images avec un terminal a partir de donnees contextuelles
US7664389B2 (en) 2007-05-21 2010-02-16 Sony Ericsson Mobile Communications Ab System and method of photography using desirable feature recognition
US7676145B2 (en) 2007-05-30 2010-03-09 Eastman Kodak Company Camera configurable for autonomous self-learning operation
US7817914B2 (en) 2007-05-30 2010-10-19 Eastman Kodak Company Camera configurable for autonomous operation
US8253770B2 (en) 2007-05-31 2012-08-28 Eastman Kodak Company Residential video communication system
JP2009042876A (ja) * 2007-08-07 2009-02-26 Toshiba Corp 画像処理装置及びその方法
US8554784B2 (en) 2007-08-31 2013-10-08 Nokia Corporation Discovering peer-to-peer content using metadata streams
US8005771B2 (en) 2007-10-04 2011-08-23 Siemens Corporation Segment-based change detection method in multivariate data stream
JP5024093B2 (ja) 2008-02-08 2012-09-12 ソニー株式会社 画像の撮影装置、その表示装置および画像データの管理システム
US9111146B2 (en) * 2008-02-15 2015-08-18 Tivo Inc. Systems and methods for semantically classifying and normalizing shots in video
JP4914398B2 (ja) 2008-04-09 2012-04-11 キヤノン株式会社 表情認識装置、撮像装置、方法及びプログラム
CN101673346B (zh) 2008-09-09 2013-06-05 日电(中国)有限公司 对图像进行处理的方法、设备和系统
US8745250B2 (en) 2009-06-30 2014-06-03 Intel Corporation Multimodal proximity detection
US8370282B1 (en) 2009-07-22 2013-02-05 Google Inc. Image quality measures
US8311364B2 (en) 2009-09-25 2012-11-13 Eastman Kodak Company Estimating aesthetic quality of digital images
US8508622B1 (en) 2010-01-15 2013-08-13 Pixar Automatic real-time composition feedback for still and video cameras
US8345984B2 (en) * 2010-01-28 2013-01-01 Nec Laboratories America, Inc. 3D convolutional neural networks for automatic human action recognition
US20130286244A1 (en) 2010-03-23 2013-10-31 Motorola Mobility Llc System and Method for Image Selection and Capture Parameter Determination
US8502879B2 (en) 2010-05-26 2013-08-06 Sony Corporation Camera system and method for taking photographs that correspond to user preferences
US9171578B2 (en) * 2010-08-06 2015-10-27 Futurewei Technologies, Inc. Video skimming methods and systems
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム
US9584733B2 (en) 2010-09-30 2017-02-28 Apple Inc. High dynamic range transition
US8923607B1 (en) * 2010-12-08 2014-12-30 Google Inc. Learning sports highlights using event detection
US20120189284A1 (en) 2011-01-24 2012-07-26 Andrew Morrison Automatic highlight reel producer
KR101750827B1 (ko) 2011-03-02 2017-06-27 삼성전자주식회사 통신 시스템에서 소셜 네트워크를 이용한 미디어 공유 방법 및 장치
US20120277914A1 (en) 2011-04-29 2012-11-01 Microsoft Corporation Autonomous and Semi-Autonomous Modes for Robotic Capture of Images and Videos
WO2013031096A1 (ja) * 2011-08-29 2013-03-07 パナソニック株式会社 画像処理装置、画像処理方法、プログラム、集積回路
US9596398B2 (en) 2011-09-02 2017-03-14 Microsoft Technology Licensing, Llc Automatic image capture
US8983192B2 (en) * 2011-11-04 2015-03-17 Google Inc. High-confidence labeling of video volumes in a video sharing service
US8611015B2 (en) 2011-11-22 2013-12-17 Google Inc. User interface
JP5752585B2 (ja) * 2011-12-16 2015-07-22 株式会社東芝 映像処理装置、方法及びプログラム
WO2013095641A1 (en) 2011-12-23 2013-06-27 Intel Corporation Sub-block based wear leveling
KR101894395B1 (ko) 2012-02-24 2018-09-04 삼성전자주식회사 캡쳐 데이터 제공 방법 및 이를 위한 이동 단말기
JP2013255168A (ja) 2012-06-08 2013-12-19 Toyota Infotechnology Center Co Ltd 撮像装置、および撮像方法
EP3672227B1 (en) 2012-07-20 2022-05-04 BlackBerry Limited Dynamic region of interest adaptation and image capture device providing same
JP2014057191A (ja) 2012-09-12 2014-03-27 Olympus Imaging Corp 撮像装置
US20140078304A1 (en) 2012-09-20 2014-03-20 Cloudcar, Inc. Collection and use of captured vehicle data
US9148567B2 (en) 2012-09-21 2015-09-29 Blackberry Limited Methods and devices for controlling camera image capture
US20140093174A1 (en) * 2012-09-28 2014-04-03 Canon Kabushiki Kaisha Systems and methods for image management
US9436875B2 (en) * 2012-12-06 2016-09-06 Nokia Technologies Oy Method and apparatus for semantic extraction and video remix creation
US9330296B2 (en) * 2013-03-15 2016-05-03 Sri International Recognizing entity interactions in visual media
US9760803B2 (en) * 2013-05-15 2017-09-12 Google Inc. Associating classifications with images
CN103310099A (zh) 2013-05-30 2013-09-18 佛山电视台南海分台 一种利用图像捕获和识别技术实现增强现实的方法和系统
US9210319B2 (en) 2013-07-11 2015-12-08 Magisto Ltd. Method and system for capturing important objects using a camera based on predefined metrics
US9247136B2 (en) 2013-08-21 2016-01-26 Xerox Corporation Automatic mobile photo capture using video analysis
WO2015127383A1 (en) 2014-02-23 2015-08-27 Catch Motion Inc. Person wearable photo experience aggregator apparatuses, methods and systems
US20160080835A1 (en) * 2014-02-24 2016-03-17 Lyve Minds, Inc. Synopsis video creation based on video metadata
US10521671B2 (en) * 2014-02-28 2019-12-31 Second Spectrum, Inc. Methods and systems of spatiotemporal pattern recognition for video content development
US10460194B2 (en) * 2014-03-07 2019-10-29 Lior Wolf System and method for the detection and counting of repetitions of repetitive activity via a trained network
WO2015200350A1 (en) 2014-06-24 2015-12-30 Google Inc. Ranking and selecting images for display from a set of images
EP3161791A4 (en) * 2014-06-24 2018-01-03 Sportlogiq Inc. System and method for visual event description and event analysis
US10074003B2 (en) 2014-07-11 2018-09-11 Intel Corporation Dynamic control for data capture
US9685194B2 (en) * 2014-07-23 2017-06-20 Gopro, Inc. Voice-based video tagging
US10140517B2 (en) * 2014-08-06 2018-11-27 Dropbox, Inc. Event-based image classification and scoring
US9639762B2 (en) * 2014-09-04 2017-05-02 Intel Corporation Real time video summarization
CN107077595A (zh) * 2014-09-08 2017-08-18 谷歌公司 选择和呈现代表性帧以用于视频预览
US20160140395A1 (en) * 2014-11-14 2016-05-19 Xerox Corporation Adaptive sampling for efficient analysis of ego-centric videos
JP6673221B2 (ja) * 2014-12-18 2020-03-25 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10129608B2 (en) * 2015-02-24 2018-11-13 Zepp Labs, Inc. Detect sports video highlights based on voice recognition
US10572735B2 (en) * 2015-03-31 2020-02-25 Beijing Shunyuan Kaihua Technology Limited Detect sports video highlights for mobile computing devices
US10074015B1 (en) * 2015-04-13 2018-09-11 Google Llc Methods, systems, and media for generating a summarized video with video thumbnails
US20160350336A1 (en) 2015-05-31 2016-12-01 Allyke, Inc. Automated image searching, exploration and discovery
US9706111B2 (en) * 2015-07-08 2017-07-11 Santa Clara No-reference image and video quality evaluation
US10169659B1 (en) * 2015-09-24 2019-01-01 Amazon Technologies, Inc. Video summarization using selected characteristics
US20170109584A1 (en) * 2015-10-20 2017-04-20 Microsoft Technology Licensing, Llc Video Highlight Detection with Pairwise Deep Ranking
US9818032B2 (en) * 2015-10-28 2017-11-14 Intel Corporation Automatic video summarization
US9635307B1 (en) * 2015-12-18 2017-04-25 Amazon Technologies, Inc. Preview streaming of video data
US10229324B2 (en) 2015-12-24 2019-03-12 Intel Corporation Video summarization using semantic information
US9600717B1 (en) * 2016-02-25 2017-03-21 Zepp Labs, Inc. Real-time single-view action recognition based on key pose analysis for sports videos
US10390082B2 (en) * 2016-04-01 2019-08-20 Oath Inc. Computerized system and method for automatically detecting and rendering highlights from streaming videos
US10303984B2 (en) * 2016-05-17 2019-05-28 Intel Corporation Visual search and retrieval using semantic information
US9972360B2 (en) * 2016-08-30 2018-05-15 Oath Inc. Computerized system and method for automatically generating high-quality digital content thumbnails from digital video
US10607098B2 (en) * 2017-11-13 2020-03-31 Aupera Technologies, Inc. System of a video frame detector for video content identification and method thereof
US10990877B2 (en) * 2018-01-09 2021-04-27 Adobe Inc. Frame selection based on a trained neural network
US10706701B2 (en) * 2018-01-12 2020-07-07 Qognify Ltd. System and method for dynamically ordering video channels according to rank of abnormal detection
US11416546B2 (en) * 2018-03-20 2022-08-16 Hulu, LLC Content type detection in videos using multiple classifiers

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7000200B1 (en) * 2000-09-15 2006-02-14 Intel Corporation Gesture recognition system recognizing gestures within a specified timing
CN102939630A (zh) * 2010-05-25 2013-02-20 伊斯曼柯达公司 用于确定关键视频帧的方法
CN102073864A (zh) * 2010-12-01 2011-05-25 北京邮电大学 四层结构的体育视频中足球项目检测系统及实现
US9129158B1 (en) * 2012-03-05 2015-09-08 Hrl Laboratories, Llc Method and system for embedding visual intelligence
CN104715023A (zh) * 2015-03-02 2015-06-17 北京奇艺世纪科技有限公司 基于视频内容的商品推荐方法和系统

Also Published As

Publication number Publication date
WO2017112067A1 (en) 2017-06-29
US20170185846A1 (en) 2017-06-29
US20210201047A1 (en) 2021-07-01
CN108352174A (zh) 2018-07-31
US10949674B2 (en) 2021-03-16
US10229324B2 (en) 2019-03-12
US20200012864A1 (en) 2020-01-09
US20240127061A1 (en) 2024-04-18
US11861495B2 (en) 2024-01-02

Similar Documents

Publication Publication Date Title
CN108352174B (zh) 用于图像处理的电子设备、存储设备和方法
US10303984B2 (en) Visual search and retrieval using semantic information
Bolanos et al. Toward storytelling from visual lifelogging: An overview
US10834355B2 (en) Barrage message processing
Sharma et al. A review of deep learning-based human activity recognition on benchmark video datasets
Fathi et al. Understanding egocentric activities
CN109729426B (zh) 一种视频封面图像的生成方法及装置
Higuchi et al. Egoscanning: Quickly scanning first-person videos with egocentric elastic timelines
WO2020253372A1 (zh) 基于大数据分析的信息推送方法、装置、设备及存储介质
US10163227B1 (en) Image file compression using dummy data for non-salient portions of images
CN107295361B (zh) 一种内容推送方法
CN102577367A (zh) 时移视频通信
JP2011215963A (ja) 電子機器、画像処理方法及びプログラム
Song et al. Activity recognition in egocentric life-logging videos
Dai et al. Toyota smarthome untrimmed: Real-world untrimmed videos for activity detection
Riegler et al. How'how'reflects what's what: content-based exploitation of how users frame social images
Hamid et al. A survey of activity recognition in egocentric lifelogging datasets
WO2015102711A2 (en) A method and system of enforcing privacy policies for mobile sensory devices
Dimiccoli et al. Activity recognition from visual lifelogs: State of the art and future challenges
Alghamdi et al. AUVANA: An automated video analysis tool for visual complexity
Fa et al. Global and local C3D ensemble system for first person interactive action recognition
Banerjee et al. Pose filter based hidden-crf models for activity detection
CN111818364B (zh) 视频融合方法、系统、设备及介质
Niu et al. Real-time generation of personalized home video summaries on mobile devices
Bakhshi et al. Filtered food and nofilter landscapes in online photography: the role of content and visual effects in photo engagement

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant