CN108351965B

CN108351965B - 视频摘要的用户界面

Info

Publication number: CN108351965B
Application number: CN201680066486.6A
Authority: CN
Inventors: 文森特·博雷尔; 阿伦·斯坦德里奇; 法比安·内特; 赫尔穆特·格雷布纳
Original assignee: Logitech Europe SA
Current assignee: Logitech Europe SA
Priority date: 2015-09-14
Filing date: 2016-09-13
Publication date: 2022-08-02
Anticipated expiration: 2036-09-13
Also published as: WO2017046704A1; DE112016004160T5; CN108351965A

Abstract

在本发明的一个实施方式中，远程摄像机间歇地向远程服务器发送检测到运动的视频片段或视频事件。远程服务器向用户设备(例如智能电话)上的应用程序提供视频摘要。在一个实施方式中，用户界面(UI)提供来自网络摄像机的即时流，在其侧边有(例如通过使用一系列指示事件发生于多久之前的气泡)指示存储的检测到的重要事件的标记。

Description

视频摘要的用户界面

相关申请的交叉引用

本申请是下述申请的PCT申请并要求其优先权：于2015年9月14日提交、于2016年4月12日以美国专利第9,313,556号发布的题为“User Interface for Video Summaries”的美国申请第14/853,965号；于2015年9月14日提交的题为“Temporal Video Streaming andSummaries”的美国专利申请第14/853,943号；于2015年9月14日提交的题为“Automatically Determining Camera Location and Determining Type of Scene”的美国专利第14/853,980号；以及于2015年9月14日提交的题为“Video Searching forFiltered and Tagged Motion”的美国专利申请第14/853,989号，其全部内容通过引用并入本文中。

技术领域

本发明总体上涉及对自动视频编辑的方法的改进，并且更具体地涉及基于网络摄像机视频内容自动创建摘要的方法,如通过图像分析所确定的。

背景技术

诸如摄像机和麦克风的设备通常用于监视区域或房间。现有的视频编辑和监视系统通常在检测到运动时记录事件并通过因特网向用户提供警报。用户然后可以查看仅在检测到运动时存储的监控区域的各部分。例如，摘要可以提供来自每个视频的一系列静止图像，以便让用户了解该动作是否值得观看。例如，用户可以看到某人是否在场景中、或者动作是否看起来是窗帘移动、鸟类等。

与编辑相反,Magisto的第20150015735号公开文献描述了基于各种因素捕捉图像并检测重要对象，并基于重要性(例如某人是否在微笑)决定是否拍摄视频或快照。BriefCam拥有多项专利，这些专利描述了检测活动或对象在图像中的移动量以及在同一图像上叠加不同的对象移动，如马赛克。例如参见第2009-0219300号公开文献(涉及图像采集侧的不同采样率)和第2010-0092037号公开文献(涉及“自适应快进”)。第20150189402号公开文献描述了创建仅检测到的视频中的重要事件的视频摘要，诸如足球比赛中的射门。另见第20050160457号公开文献，其描述了从视觉上和根据激动的播音员声音来检测棒球安打。

第20100315497号公开文献是利用目标面部轮廓基于面部识别来捕捉图像的系统的示例。ObjectVideo的第20070002141号公开文献描述了一种基于视频的人验证系统，其处理视频以验证有人存在、无人存在和/或运动。另见Wells Fargo Alarm Services的第6,069,655号专利。第2004-0027242号公开文献也描述了检测人类和其他对象。“示例包括交通工具、动物、植物生长(例如检测何时修剪树篱的系统)、下落的对象(例如检测可回收罐落入垃圾槽的系统)以及微观实体(例如检测微生物已渗透细胞壁的系统)”。

第20120308077号公开文献描述了通过将图像与来自社交网站上的标记位置的图像进行比较来确定该图像的位置。第20110285842号公开文献描述了通过使用地标识别(诸如标志或者桥、隧道、塔、杆、建筑物或其他结构)来确定用于交通工具导航系统的位置。

Sony的第2008-0018737号公开文献描述了基于对象的出现/消失、对象经过边界线、对象的数量超过容量、对象游荡时间比预定时间更长等来过滤图像。

ObjectVideo的第2008-0100704号公开文献描述了用于各种目的的对象识别。其描述了检测特定类型的移动(攀爬栅栏、沿错误方向移动)、监视资产(例如从博物馆移走，或者例如：检测个人是否在零售店中拿取可疑的大量的给定物品)、检测人员是否滑倒、检测车辆是否停放在非停车区域等。

第2005-0168574号公开文献描述了“折返”(passback)(例如通过机场出口进入)检测。会自动学习视频监控区域中的运动的正常方向，其可以学习为时间的函数来并且针对不同的时段内可以不同。“然后分析系统3可以基于一天中的时间、一周中的天数和/或相对时间(例如，体育赛事的开始和体育赛事的结束)来自动改变折返方向。学习到的折返方向和时间可以被显示给用户，用户可以验证和/或修改它们。”

Logitech(罗技)的第6995794号专利描述了在摄像机与主机之间分开进行的图像处理(颜色处理和缩放被移动到主机)。Intel的第6,803,945号专利描述了网络摄像机中的运动检测处理，用于仅上载令人感兴趣的“有趣的”图片，特别是阈值量的运动(阈值数量的像素变化)。

Yahoo！(雅虎)的第20140355907号公开文献是检查图像和视频内容以识别待标记的特征以用于随后的搜索的示例。被识别的对象的示例包括面部识别、面部特征(微笑、皱眉等)、对象识别(例如汽车、自行车、一组人)和场景识别(沙滩、山)。参见0067段至0076段。另见Disney Enterprise(迪士尼公司)的第20100082585号公开文献的第0034段。

发明内容

在本发明的一个实施方式中，远程摄像机间歇地向远程服务器发送检测到运动的视频片段或视频事件。远程服务器向用户设备(例如智能电话)上的应用程序提供视频摘要。

(A)视频摘要的用户界面

在一个实施方式中，用户界面(UI)提供来自网络摄像机的即时流，在其侧边有指示被存储检测到的重要事件的标记(如通过使用一系列指示事件发生于多久之前的气泡)。(例如用颜色编码)标记指示符以指示相对重要性。当用户选择指示符时，与一天中的时间指示一起显示缩时摘要。可替选地，用户可以选择使用更紧缩的缩时按顺序对所有事件进行缩时显示，其中较不重要的事件具有较短的时间或被略去。

在另一实施方式中，当启动应用程序时，UI提供自从该应用程序最近一次启动以来的内容的视频摘要。用户可以以超缩时速度滚动该视频，然后选择用于正常的缩时或正常时长视图的部分。

(B)时间视频流和摘要

在本发明的一个实施方式中，摄像机选择性地向远程服务器进行流送。当未检测到显著的运动时，间歇地发送静态图像或短视频事件。当检测到显著的运动时，向远程服务器流送视频。通过在本地缓冲图像和视频并且以扩展至无即时流时的较低帧率进行发送，图像和视频的分辨率可以高于所使用的带宽。这提供了有延时但是在较低的带宽下具有较高分辨率的流。

本发明的实施方式涉及使用人工智能自动编辑来自远程摄像机的视频以关注重要事件。在一个实施方式中，一定时间段(例如一天)中的多个视频/图像被紧缩成简短的摘要视频(例如30秒)。使用图像识别技术以识别重要事件(例如人的存在)，为其生成缩时视频，而对较不重要的事件和缺乏活动则设置长的多的时间间隔以用于缩时。这创建了关注重要事件的具有不同的缩时速度的加权的视频摘要。事件的特性被录入事件日志并且该事件日志被用于生成摘要。可以给每个事件分配情境标签使得可以容易地对该事件进行概括。

(C)自动确定摄像机位置并确定场景类型

在一个实施方式中，使用图像识别来确定摄像机所安装的位置的类型，诸如在室内或室外、在会议室或餐厅。用于为摘要选择事件类型的过滤器具有根据位置类型而改变的参数。例如，室内的位置可以标记检测到人的事件而忽略动物(宠物)。室外的位置可以将参数设定为检测人和动物移动这两者。

在一个实施方式中确定场景类型涉及确定检测到的事件尤其是运动的相关性。在基本层面上，其涉及消除最小的运动或非显著运动(窗帘移动、风扇移动、一天中影子随着太阳逐渐移动等)。在更高的层面上，其涉及针对场景(诸如早餐、孩子们进行枕头大战等)将“有意义的”事物分组到一起。用于确定场景或活动何时开始和结束的一些主要线索包括移动停止后的时间量(指示场景的结束)、长时间连续移动(指示同一场景的一部分)、不同地方的新运动(指示新场景)以及对象数量的变化或人员离开或新人员进入。

(D)针对经过滤并经标记的动作进行视频搜索

在一个实施方式中，用元数据标记所捕捉的视频摘要以便容易地搜索视频。根据视频中动作的类型将视频分类为不同的场景，因此可以基于场景类型进行搜索。在一个实施方式中，为移动的对象或人设置标签。标记正在移动的对象的类型(汽车、球类、人、宠物等)。基于视频事件或视频摘要的权重对视频搜索结果进行排列。视频事件权重基于分配给事件标签的权重为视频事件提供分数。例如，将高权重分配给长时长的持续时间标签、指示大量动作或在中央的动作的动作标签、基于与用户的亲密关系的人员标签等。视频摘要权重关注重要事件，将一定时段内的多个视频/图像紧缩为简短的摘要视频。这创建了关注重要事件的具有不同的缩时速度的加权的视频摘要。

在一个实施方式中，摄像机中的处理器至少基于显著运动的存在对视频进行初始过滤。对视频事件和摘要的创建由服务器根据由摄像机通过因特网发送的视频而完成。具有已下载的应用程序的智能电话提供用于与服务器合作完成的搜索的显示和用户界面。

在一个实施方式中，搜索结果提供不具有与搜索项匹配的标签但在时间上接近的视频。例如，搜索“生日”可以返回不包括生日但包括在同一天过生日的男孩的视频摘要或视频事件。可替选地，可以使用形成搜索结果的视频中的其他标签来提供类似的视频事件。例如，搜索“泳池派对”可以在主要的搜索结果下方返回找到的带有泳池派对中的人的其他视频。

附图说明

图1是在本发明的实施方式中使用的摄像机的框图。

图2是在本发明的实施方式中使用的基于云的系统的框图。

图3是示出在根据本发明的实施方式的摄像机和服务器中执行的基本步骤的流程图。

图4是示出根据本发明的实施方式的转换至不同用户界面显示摄像机视图的图。

图5是示出根据本发明的实施方式的转换至不同用户界面显示菜单的图。

图6是示出根据本发明的实施方式的用于多个网络摄像机的划分开的用户界面显示的图。

具体实施方式

摄像机图

图1是在本发明的实施方式中使用的摄像机的框图。摄像机100具有图像传感器102，图像传感器102在微处理器106的控制下向存储器104提供图像，微处理器106在程序存储器107中的程序下进行操作。设置麦克风110以检测声音，并且设置扬声器112以允许远程通信。收发器108直接或通过局域网或路由器提供至因特网的无线连接。电池114为摄像机提供电力。

系统图

图2是在本发明的实施方式中使用的基于云的系统的框图。摄像机100通过因特网202无线连接到远程服务器204。服务器204与智能电话206或其他用户计算设备进行无线通信。摄像机100还可以本地连接到智能电话206或本地计算机208。本地计算机可以进行一些图像处理，诸如高级运动检测和对象识别与标记，并且可以将处理后的视频和标签返回到摄像机100以用于随后向服务器204进行发送，或者本地计算机208可以直接向服务器204进行发送(诸如当摄像机100处于低功率、电池模式时)。

操作流程图

图3是示出在根据本发明的实施方式的摄像机和服务器中执行的基本步骤的流程图。在摄像机100中执行虚线300以上的步骤，而在服务器204中执行该虚线以下的步骤。当没有检测到显著运动时，摄像机周期性地(例如每8分钟)捕捉短视频(例如4秒)或者静态图像(302)。捕捉的短视频被缓存和标记。这种摄像机标签至少包括时间与日期和缺乏运动。

摄像机被编程为根据图像分析检测运动(步骤304)。如果运动量(例如像素变化的数量)小于预定量(306)，则丢弃该运动的视频(308)。如果运动量大于阈值，则确定该运动是否持续多于预定时间量(310)。如果运动时长少于预定时长，则将其丢弃(308)。如果运动持续多于预定时长，则将其发送到缓冲器并用元数据进行标记(314)。这种摄像机元数据标签包括时间与日期、视频的长度以及运动量。

在一个实施方式中，可以在摄像机上或在本地计算机中完成更高级的运动检测和对象识别(315)。然后将组合后的视频事件无线流送至远程服务器(312)。图像和视频的分辨率可以高于用于流送的带宽。通过在本地缓冲图像和视频可以推迟流送并以较低的帧率进行发送。因此，例如，可能存在15个每个为4秒的无运动的视频事件和5分钟的第二运动视频。例如可以经过20分钟将这些视频缓冲并流送。这提供了延时但是在较低的带宽下具有较高分辨率的流。

远程服务器将接收的静态图像标记为无运动。远程服务器过滤(316)所接收的视频。该过滤被设计成去除不感兴趣的视频运动。例如，算法处理视频以确定运动的类型。如果运动是窗帘移动、窗户上移动的树木阴影、房间内的风扇等，则可以将其滤除并丢弃。

位置检测器318可以用于处理图像以确定摄像机的位置的类型。特别是其在室内还是室外，是在餐厅还是会议室等。可以应用人工智能来确定位置。例如，对图像进行整体评估而不是采用复杂的对象识别方法。图像被提供给神经网络或其他进行学习的应用程序。该应用程序还访问了被标记为特定位置的存储的图像的数据库。例如，提供了种类繁多的厨房、餐厅和卧室的存储图像。将这些图像与所捕捉的视频或图像进行比较，完成匹配以确定位置。可替选地，用户界面可以使得用户能够标记位置类型。用户界面可以向用户提供推测的位置，如果需要，用户可以校正或者进一步地标记(例如，女儿的卧室)。在下述文献中阐述了整体图像评估处理的一个示例：2001年国际计算机视觉杂志(InternationalJournal of Computer Vision)卷42(3)中Aude Oliva、Antonio Torralba所著的“Modeling the shape of the scene:a holistic representation of the spatialenvelope”，145-175。

除了确定位置之外，还完成对“场景”的更具体的确定。例如，位置可能是卧室，而场景是熟睡的婴儿。在一个实施方式中，提示用户标注场景(例如为熟睡的婴儿)。可替选地，可以利用与特定场景的图像进行比较，并且还可以利用与以前存储的经用户标注的图像和视频进行比较，使用神经网络或类似的应用程序对场景进行自动检测。此外，在一个实施方式中使用各种线索来确定场景类型。例如，对于“熟睡的婴儿”，可以根据对视频的检查将该视频与婴儿在床上的场景相匹配。将该线索与其他线索相结合，诸如指示夜间时间的一天中的时间、摄像机处于夜间模式、麦克风检测与睡眠相关联的声音等。类似地，可以使用不同线索来整体检测生日聚会，包括与生日派对图像进行比较、指示有许多个体的运动、唱歌(例如歌曲“生日快乐”)等。在一个实施方式中，存储关于用户的以前的场景并用于比较。例如，在提示用户进行确认之后，以前的场景可以用于“早餐”。通过使用同一用户的来自同一地点的类似场景，可以随着时间而提高识别的准确性。

一旦确定了位置类型，就可以向过滤块316提供过滤参数。通常，位置/场景将会设置关于所预期的以及在特定情况下对于用户来说更相关/更有趣的内容的一些优先级。在一个场景中有趣的内容在另一场景中可能并不有趣。例如，如果位置是起居室，那么会存在对在特定地点处的很可能是由于电视机或风扇的持续运动的抑制。对于室外位置，由于风或其他天气条件，预计会有更多的运动。因此，调整视频处理的参数(例如阈值)以便抑制这种运动(移动的叶子等)。此外，在一个实施方式中抑制了在室外设置中的规则运动模式(例如车辆在街上经过)。相反，如果设置是会议室并且场景是会议，则发现小的运动是与示出人们坐在一起并讨论但不大幅移动有关。在另一示例中，场景是熟睡的婴儿时，提供不同的过滤以捕捉婴儿的小动作而不是将其滤除。例如，期望确认婴儿正在呼吸或轻微移动。

一旦去除了无关运动，程序确定是否存在人或动物(320)。可以使用面部识别来识别特定的人(322)。用户可以标记多个个体以初始化该处理。可以以相同的方式识别特定动物，诸如通过用户提供家庭宠物的照片或者在所捕捉的视频中对宠物进行标记。

然后用情境数据对经过过滤并具有经识别的人或动物的视频进行标记(324)。标签或元数据包括人或动物的身份、日期时间、视频的持续时间等。在一个实施方式中，存在对有助于进一步学习和个性化的其他元数据的提取。示例包括“颜色丰富度”、运动量、运动出现的方向/位置、摄像机的内部状态(例如是否处于夜视模式)、对象的数量等。大多数数据不是用户可访问的。但是，该(匿名)数据为收集用户反馈和个性化提供了基础。

在一个实施方式中，(经用户指导或利用用户输入)提供了受监督的个性化。这种个性化使用各种用户输入设备来进行，例如应用程序中的滑块和开关或按钮以及用户反馈。在另一个实施方式中提供了无监督的个性化，其中应用程序在没有用户输入的情况下确定如何为特定用户进行个性化(其利用实际的用户输入和/或校正进行补充)。无监督的个性化的示例包括使用场景统计和隐式用户反馈。如上文所讨论的，在无监督的个性化的示例中使用用于确定是否有熟睡的婴儿的线索。

可以使用各种类型的用户反馈来辅助或改进该处理。例如，可以提示用户确认已正确识别出“熟睡的婴儿”，如果没有，则用户可以输入正确的描述。然后用该描述更新数据以用于将来的特性描述。

然后使用静态图像和视频来生成(326)一天或其他时段(例如自上次应用程序启动以来)的摘要。然后将摘要压缩(328)以适合于例如30秒的短时长片段。这种压缩可以减少(例如在存在没有运动的长序列的情况下)所使用的静态图像的数量，并且还可以根据所确定的重要性以不同速率减少或快进视频。

具有当天摘要、气泡图标的用户界面

图4是示出根据本发明的实施方式的转换至不同用户界面显示摄像机视图的图。显示402(以比延时的摘要的分辨率更低的分辨率)提供即时视频流。在一个实施方式中，当用户激活智能电话或其他用户计算设备上的应用程序时，通过服务器将信号中继到网络摄像机以开启网络摄像机对图像进行流送。这提供了示出的即时视图。特定数据被叠加在位置404处的显示上。在所示的示例中，该数据是对摄像机位置或给予(起居室)网络摄像机的其他标签的指示、对该视频是即时流视图(直播)的指示以及指示当前时间的时钟。

当用户点击屏幕(406)时，显示转换为视图408，其包括用于所存储的视频场景的一系列气泡指示符410。视图408还提供一系列图标412。图标414用于与其他人分享该视频摘要，图标416用于将该视频存储到图库，并且图标418用于激活扬声器以利用网络摄像机与房间中的任何人通话(如同步话机一键通话功能)。

一系列气泡图标410包括指示“即时视图”的较大气泡420。图标410对应于当前正在显示的内容，并且被放大以示出所选择的是哪个视图。图标422和424指示针对重要的运动检测事件捕捉的视频，其中气泡中的数字指示该视频被捕捉于多久之前(例如所示示例中的2分钟和37分钟)。可替选地，气泡可以有时间戳。气泡422和424的颜色指示所捕捉的事件的已确定的重要性。如果用户选择例如气泡422，那么在移动该系列的中点时该气泡将被锁定并增大尺寸。随着用户滚动气泡将显示来自事件的静态图像，并且一旦有事件被锁定或者用户激活播放按钮就开始播放视频。气泡426是“当日简介”，其将显示来自图3中的步骤328的经压缩的当天摘要。在一个实施方式中，图像或图标可以提供关于由气泡指示的场景的更多信息，诸如狗或猫的图像指示涉及家庭宠物的场景，或者场景中的一个或多个人的图片或名称标签。

当用户在显示408上滑动时间线(428)时，一系列气泡如视图430所示的那样移动。如图所示，气泡已经向下移动，37分钟气泡424将消失并且1小时气泡432目前被放大。半圆434指示正在显示的实际视图是即时视图。可替选地，随着每个气泡被放大，一旦到达屏幕侧边的中间就会显示来自该视频的静态图像。因此，针对按钮432将显示来自1小时前的运动的静态图像。当用户释放他/她的手指时，将开始播放1小时前的事件的视频。在一个实施方式中，可以与静态预览图像一起显示特定的标签。例如，可以显示由面部识别确定的事件中的人员姓名。此外，可以基于时间和对象识别(例如早餐)或与日历的交互(例如，会见客户X)来对事件进行分类。

显示440在被选择之后示出“当日简介”气泡426(去除了播放图标)。然后播放该视频并提供暂停图标442。提供时间线444以示出播放当日简介的进度。

GUI菜单

图5是示出根据本发明的实施方式的转换至不同用户界面显示菜单的图。通过从屏幕的左侧向右滑动来激活显示502。这拉起了3个菜单图标504、506和508。点击图标504调出设备菜单画面510。点击图标506调出通知菜单512。点击图标514调出账户菜单514。

在显示510上是用于控制设备(网络摄像机)的各种图标。图标516用于打开/关闭网络摄像机。图标518用于添加或删除网络摄像机。在显示512上，图标520使得能够激活向智能电话推送通知，诸如利用文本消息或简单地提供关于电子邮件的通知。图标522用于电子邮件通知。显示514提供不同的账户选项，诸如更改密码和升级到云(获得云存储和其他高级功能)。

多个摄像机、分视图显示

图6是示出根据本发明的实施方式的用于多个网络摄像机的划分开的用户界面显示的图。显示602是示出起居室网络摄像机的主要的、大面积的显示。显示604示出游戏室网络摄像机，并且显示606示出书房网络摄像机。在一个实施方式中，图6中的显示是应用程序启动时提供的默认显示。在一个实施方式中，主显示提供流视频，而其他显示提供静态图像。可替选地，所有显示都可以提供流视频。主显示可以是连接的第一个摄像机或是用户指定的摄像机。

自上次活动以来首次发布摘要的用户界面

在另一实施方式中，在应用程序启动时，UI提供自该应用程序上次启动以来的内容的视频摘要。用户可以以超缩时(hyper-lapse)速度滚动视频，然后选择用于正常的缩时或正常时长视图的部分。用户还可以切换到分辨率低于延时摘要分辨率的实时直播流。摘要被不断更新和加权。例如，摘要可能包含4小时后有运动的8个事件。当检测到附加事件时，其可以被加权得更高，并且可以去除原始的8个事件中的一些从而为更高权重的事件腾出空间。可替选地，可以将摘要中较小的部分(例如2秒而非5秒)给予一些原始的、较低权重的事件。在一个实施方式中，用户可以访问更详细的摘要，或者被略去的事件的二级摘要，或者低权重的事件的更长的摘要。

场景直觉

场景直觉是确定检测到的事件特别是运动的相关性。在基本层面上，其涉及去除最小的运动或非显著运动(窗帘移动、风扇移动、阴影在白天随着太阳逐渐移动等)。在更高的层面上，如下述示例中更详细地讨论的那样，其涉及根据检测到的对象确定摄像机位置(室内或室外、厨房或会议室)。可以根据检测到的人或宠物来检测活动。如果有新人进入或某人离开，或者可替选地如果检测到完全不同的一群人，则可以标记新场景。在上述UI示例中可以为检测到的不同事件分配不同的事件气泡。

将视频分配给不同的由气泡表示的摘要涉及将“有意义”的事物分组到一起。例如，不同的活动有不同的长度。吃早餐可能是相当长的一项活动，而进入房间可能是短的。在一个实施方式中，应用程序捕捉人们想要记住/保存/分享的有趣时刻(例如孩子们进行枕头大战等)。用于确定场景或活动何时开始和结束的主要线索包括移动停止后的时间量(指示场景的结束)、长时间连续移动(指示同一场景的一部分)、不同地方的新运动(指示新场景)以及对象数量的变化，或者人员离开或新人员进入。

搜索

通过提供标签或元数据可以容易地搜索视频。通过将视频分类为不同的场景可以基于场景类型进行搜索。还可以基于时间、片段的持续时长、视频中的人、检测到的特定对象、特定的摄像机位置等进行搜索。在一个实施方式中，应用程序基于将检测到的内容与可能的搜索项进行匹配来生成默认搜索选项。这些可能的搜索项可以由用户输入，或者可以通过与用户的其他应用程序和数据进行交互而获得。例如，用户可能已经在社交媒体或其他应用程序中用与标签对应的图像标记了家庭成员、朋友或工作伙伴的名称。然后，本申请可以将那些标记的图像与视频中的面部进行比较以确定是否存在匹配，并且应用已知的名称。然后，默认搜索项将包括例如所搜索的时段内的视频中标记的所有人。

在一个实施方式中，考虑到后续搜索，提供标签。为用户可能想要搜索的典型事物提供标签。一个示例是取得人和宠物的名称。另一个示例是标记移动的对象或人。正在移动的对象的类型被标记(汽车、球、人、宠物等)。在一个实施方式中，虽然为了确定场景而使用了整体方法而不是对象检测，但是针对移动的对象使用对象检测。其他标签包括人的年龄、心情(快乐——检测到微笑、大笑，或者悲伤——检测到蹙额、皱起的眉毛)。

在一个实施方式中，如下文和本申请中的其他地方所讨论的，基于视频摘要的权重对视频搜索结果进行排名。在使用多个搜索项的情况下，首先在一个实施方式中呈现关于第一搜索项具有最高权重的结果。在另一实施方式中，利用第一项权重将落入最高权重范围、第二最高权重范围等以内的视频组内的结果按优先次序排列。

在一个实施方式中，视频搜索结果还包括与搜索项有关的事件。例如，搜索“Mitch生日”将返回标记有“Mitch”和“生日”二者的视频事件。此外，在这些搜索结果的下方还将显示出标记了“Mitch”但未标记“生日”的同一日期的其他视频事件。“生日”标签可应用于包括生日蛋糕、礼物和客人的视频片段。但同一天的其他视频活动可能会让用户感兴趣，这表明Mitch在他的生日这天做了其他事情。

时间(延时)流

如上所述，可以以高分辨率捕捉、缓冲然后通过更长的时段流送视频和图像。这是可能的，因为不存在持续不断的即时流，而只有周期性的无运动片段流和间歇性的运动片段流。例如，可以以2至3兆字节捕捉图像，而然后以可处理500千比特即时流的带宽进行流送。在一个实施方式中，图像数据被存储在摄像机存储器中、被转码并被发送。

当视频摘要随后被用户查看时，可以以高带宽对其进行流送，因为它们只是简短的摘要。可替选地，也可以在用户的智能电话中以具有额外的延时的相反的处理对其进行缓冲。可替选地，可以以低分辨率对视频进行传输，在用户减缓缩时以按照正常时长观看或者观看单个图像的情况下，然后以高分辨率传输以提供更多细节。

在本地摄像机与远程服务器之间分开进行的处理

在一个实施方式中，网络摄像机提供了对视频的粗略过滤和基本处理，视频被传输到“云”(因特网上的远程服务器)以用于对缩时视频序列的进一步处理和存储。更多处理可以在本地摄像机上进行以避免进行云处理，同时利用更大的云存储容量。用户可以使用智能电话上的应用程序访问存储的视频并激活来自网络摄像机的即时流。

在一个实施方式中，本地摄像机不仅检测运动，还检测运动的方向(例如从左到右、进入房间或离开房间)。还可以在本地确定运动的起点(从门、窗、椅子等起始)。此外，本地摄像机或本地计算机或与摄像机(例如通过LAN)通信的其他设备可以进行一些处理。例如，可以在本地进行形状识别和对象或面部识别以及与其他用户应用程序(例如Facebook)中的已经标记的图像的比较。在一个实施方式中，所有的处理都可以在本地完成，并且通过云(因特网)提供访问。

在一个实施方式中，在摄像机上完成的处理是需要更高的分辨率、更密集的图像的处理。这包括运动检测和某些类型的过滤(例如确定对哪些图像执行运动检测)。例如位置检测的其他功能可以在发送到云的较低分辨率的图像和视频上完成。

低功耗、电池模式

在一个实施方式中，摄像机可以直接地或通过基座或另一设备插入线路电源，或者其可以使用电池电量进行操作。因此，摄像机具有高功率(线路电源)模式和低功率(电池)模式。在电池模式下，通过技术组合节省电力。针对运动进行分析的帧数减少，例如每隔4帧代替正常的每隔2帧。此外，在摄像机中仅执行基本的运动检测，更复杂的运动识别和目标检测由远程服务器中的处理器或本地计算机来完成。当没有动作时，摄像机进入休眠模式并且周期性地(例如每8分钟)被唤醒以捕捉短视频或图像。这些视频/图像可以存储在本地，并且只有在还存在要在某一较长时段发送的运动视频时或者在请求的情况下(例如在应用程序启动时)，这些视频/图像才被发送。在一个实施方式中，在睡眠模式下，除了用于定时器和唤醒处理器所需的处理器的部分之外，一切都被关闭。摄像机定期从休眠模式被唤醒并激活图像传感器和存储器。不需要捕捉和处理图像的发送器和其他电路系统保持休眠。检测到图像或视频事件。将图像或视频事件与上次录制的图像或视频事件进行比较。如果没有显著运动，则摄像机返回休眠模式。

标签

在一个实施方式中，每个数据帧都包括标签。可替选地，标签可以应用于一组帧，或者针对每一帧可以有一些标签，其他标签针对一组帧。如上所述，最小的标签包括时间戳和对运动存在的指示以及运动量。附加的标签包括：

-对象识别

-人员识别

-摄像机位置

-运动速度

-运动方向

-运动位置(例如人进入房间)

-运动类型(例如步行、跑步、烹饪、玩耍等)。

初始化

在一个实施方式中，产品包括具有至少一个麦克风的至少一个摄像机；以及可以下载到智能电话或其他设备的应用程序。初次启动时，应用程序执行一系列步骤。其提示用户输入各种信息，包括姓名、电子邮件等。

应用程序将自动地或在用户提示之后访问用户数据和其他应用程序以构建用于在对象、人员和事件检测中使用的简档。例如，可以访问用户的社交媒体应用程序以获得识别用户的家人、朋友等的标记图像。可以将该数据上传到云，或者提供给摄像机或另一本地处理设备上的处理器以用于检查视频。此外，可以访问用户的日历应用程序以确定计划的会议、位置和参与者以在合适的情况下与摄像机位置进行匹配。

在一个实施方式中，可以使用各种方法与其他人分享摘要或直播流。例如，诸如Periscope或Meercat的应用程序可用于分享流或者设置可以查看视频摘要的时间。也可以在社交网络和其他网站上或者通过电子邮件、即时消息等来分享视频事件。在一个实施方式中，当选择分享图标时，向用户呈现关于使用何种分享方法以及和谁来分享的选项。例如，视频摘要中识别出的人员列表被呈现以用于可能的分享。

传感器变化

摄像机可以是包括其他传感器(诸如麦克风)的情节捕捉设备的一部分。特定实施方式中的摄像机可以监视可通过传感器检测并且随后记录的任何类型的事件或交互或者环境中的变化，包括但不限于以无论图像、音频文件、视频文件、数据文件或其他数据存储机制形式记录包括但不限于运动、日期和时间、地理位置以及音频的图像记录设备、运动传感器(包括运动传感器与能够识别特定类型的运动的算法的组合)、接近传感器、温度传感器、电容式传感器、电感式传感器、磁铁、麦克风、光学传感器、天线、近场通信、磁力计、GPS接收器和其他传感器。摄像机可以是数码相机、数码摄像机、智能电话、平板电脑、膝上型计算机或其他移动设备内的摄像机、网络摄像机等。

早餐的示例

本发明提供了向表示已经发生的事件的数据流添加具有情境相关性的标签的能力。一个示例是设置摄像机以从上午6点至下午6点观察厨房。通过摄像机观看到的场景内会发生诸如家庭吃早餐的事件。针对情境分析所记录的内容。例如，摄像机基于对正在使用的餐盘的噪声的音频摘录来分析数据，确定其被放置在厨房中并且进餐正在发生。选择音频数据仅仅是如何实现这一点的一个示例，而用于实现该工作的其他技术对于本领域技术人员来说将是明显的。此外，可以在摄像机内、在另一个本地连接的设备中或远程地(例如在云中)执行分析。然后将情境标签分配给在检测到餐盘的噪声时所记录的数据。例如，这可能发生在上午7点15分，并且摄像机使用面部识别技术进一步识别出存在于场景中的人是家庭成员。基于由于识别出家庭成员而得到的附加信息但还基于用于形成时间戳的时间信息，这创造了添加另一个情境标签的机会。可以结合附加的感测信息来使用时间戳信息，以将事件与具有类似动作的其他事件区分开，例如将事件识别为与“午餐”或“晚餐”相反的“早餐”。使用这种情境标签使得能够创建完全可定制的摘要。摘要可以基于预定标准或基于用户偏好。因此，场景会在延长的时间段内被监视、分析并且适当地应用情境标签和时间戳。

当用户选择了事件或部分摘要时，情境标签和时间戳使得能够生成关注场景内的特定环境或特定事件的环境的更具体的摘要。以早餐为例，可以选择包括短视频序列的摘要或者包括“早餐”事件的相关信息摘要的摘要，诸如有谁出席、早餐持续了多久等。与事件相关的信息也可以显示为覆盖所呈现的视频序列的文本信息。另一种可能性是包括在场景中定期发生的相同事件的细节的摘要，例如过去七天发生的早餐的摘要。因此，本发明提供了一种基于为场景内发生的事件分配情境标签来完全灵活地产生摘要的方式，其可以是完全可由用户选择的并由用户确定，或者由情节捕捉设备动态地确定，或者两者的组合。这在下述一系列非限制性示例中进一步进行描述。

会议室示例

能够与通信网络(诸如因特网、局域网(LAN)或用于发送数据的蜂窝网络)进行通信的视频数据记录设备(例如摄像机)被放置在会议室中。最初，摄像机观察该场景，即在一段情节(例如24小时)内监视该房间内发生的所有事件并使用视频捕捉来记录该场景以进行处理。因此该段情节包含活动期(人员进入并使用房间)和无活动期(房间是空的)。在该段情节中，可以观察到人群进入、使用和离开该房间，出于各种目的(例如会议或电话会议)而使用该房间。该视频捕捉形成了根据本发明的示例性实施方式产生摘要的方法的初始阶段。

在视频捕捉期间获得的数据被发送以被处理用于创建事件日志。这可以在情节捕捉设备上(在该示例中为在摄像机上)完成，或者可以通过例如因特网的通信网络(在远程服务器上、在云中)或者在与该设备例如通过局域网(LAN)进行通信的处理器上远程完成。处理可以即时地，即在视频捕捉阶段期间进行，或者在视频捕捉阶段一旦完成之后紧接着进行或者在时间偏移处(例如视频捕捉后30分钟)进行。

一旦事件被识别就可以创建事件日志。感官信息可以包括与视觉或非视觉传感器的输出有关的数据。这些传感器中的任何传感器可以检测和/或识别事件，例如，光束运动检测器检测通过会议室门的人的移动。在这种情况下，通过对象(该人)生成事件，并且在房间中识别人员的存在。情节捕捉设备还可以确定房间中的静态物品(例如椅子)的存在，当需要时该信息被馈送到事件日志中。

从视觉传感器获得的视觉感官信息被存录。其可以包括：

确定是否发生运动、发生什么类型的运动、发生多少运动、任何运动的方向和速度；

确定是否存在任何对象、存在的对象的数量；

确定任何对象的分类，包括人、宠物、例如椅子的无生命对象；以及

使用识别技术例如面部识别方法来确定对象的身份。

从视觉传感器获得的非视觉感官信息被存录。其可以包括：

使用GPS(全球定位系统)坐标、地理围栏或其他定位机制来存录任何对象的位置；

以任何适用的格式存录音频数据；

存录温度；以及

存录加速度、方向和海平面以上的高度(海拔)。

感官信息被用于创建情境标签，当被应用于数据时使得用户能够创建有意义的摘要。情境标签指示事件的情境，并且可以是特定的情境或更一般的情境。例如，标签可以是“至少一人在场”或“多于一人在场”或“多于一人在场且人们之间有交互”或“会议进行中”。在该示例中，情境标签指示特定事件为会议。时间戳数据可以单独应用于事件，或者可以是情境标签的一部分，或者情境标签实际上可以是时间戳数据。当一群人进入房间时，分配指示会议开始的情境标签。如果一个人进入房间并使用电话，则摄像机会分配指示该房间正在用于私人通话的情境标签。如果摄像机被连接到经其可访问会议室中的演说(presentation)的通信网络，则摄像机可以分配表示会议开始、会议结束、会议中发生的中断或者演说的特定部分的情境标签。以这种方式，可以使用经由摄像机(例如观察视频场景)直接可用的信息来生成情境标签，但是也可以使用经由其他传感器/系统可用的信息(即，与投影仪的使用有关的信息)。

基于情境标签用事件的至少一个子集创建摘要。在该示例中，摘要执行向会议室组织者报告以示出设施的使用情况的功能。摘要报告可以采取各种形式。例如，摘要报告可以是基于文本的报告、视频摘要或具有重要事件的“可点击的”缩略图的文本报告。会议室组织者可以通过时间戳数据或情境标签来搜索摘要。通过向用户提供关于事件子集的信息，摘要使得该用户能够有效地监视情节和场景。注意，可能还期望在情节摘要中包括无活动时段。例如，设施管理员可以找到有关会议室有多频繁地闲置待用的信息。在另一示例中，医护人员可以使用摘要报告来了解患者的活动(或缺乏活动)。

作为事件摘要的一部分，在场景中观察到的事件可以与所存储的或输入的数据相匹配，以便产生更有意义的摘要作为摘要的一部分。情节捕捉设备可以配备关于房间的频繁占用者的身份信息，使得其可以识别特定的房间占用者。可以在摘要中添加情境标签以识别特定的房间占用者。所存储或输入的数据识别可能是人的对象，并且所存储的或输入的数据可以用于选择和分配识别此人的情境标签。这使得用户能够确定是否只有经授权人员(例如员工)进入会议室，或者是否有非员工(例如顾客或客户)频繁使用会议室。作为识别过程的一部分，如果匹配所存储的或输入的数据的步骤识别出人，则可能期望使用特征识别技术(诸如面部识别技术)。然后这可以用于确定摘要中包括的事件的子集，将在场景中观察到的事件与所存储的或输入的数据进行匹配以基于情境标签创建匹配的事件，使得事件的子集包含匹配的事件。

其他示例

以上概述的面部识别示例是事件由对象触发的特殊情况。在这种情况下，情节捕捉设备识别场景内的对象(人)，并识别该对象的特征(人的名字)，并且将该对象(人)的身份和特征(人的名字)二者包括在摘要中。对于其他对象可能存在下述情况，例如识别房间中正燃烧的蜡烛——首先识别出蜡烛，然后根据其温度推断出其正在燃烧。

监视对象。在另一示例中，可以使用摄像机来监视房间以防偷盗。可以存录房间中的内容或对象。设置可以被配置成使得仅当从场景中移除对象或对象位置变化时才会触发事件。因此，只要对象未被移除或移动，人们就可以在不触发事件的情况下进入或退出该场景。

与智能手机的交互。情节捕捉设备优选地被配置成连接到数据网络，使得其可以与其他设备(诸如智能电话和平板电脑)进行交互和/或通信。可以在情节捕捉设备处或远程地进行创建事件日志和摘要的处理。传感器可以被设置在情节捕捉设备内或者外部设备内，或者被佩戴在人身上或者被设置在场景内，其可以被编程为或者监视事件、监视场景或者触发事件。例如，摄像机可以被配置成与智能电话内的运动传感器进行交互以记录会议参与者以步行速度进入场景并且以跑步速度离开场景。此外，摄像机可以记录属于特定用户的智能电话进入表示场景的外围的局域网(WiFi)的区域，因此其已经进入场景。在上述示例中，使用摄像机作为情节捕捉设备，并且使用音频数据来增强获得的视频数据。然而，可以使用其他传感器捕捉事件，诸如但不限于运动传感器(包括运动传感器与能够识别特定类型的运动的算法的组合)、接近传感器、温度传感器、电容式传感器、电感式传感器、磁铁、麦克风、光学传感器、天线、近场通信以及类似设备。

其他传感器。因此，情节捕捉设备是能够记录事件的设备，并且可以适当地使用所获得的数据来创建摘要。典型的情节捕捉设备包括可以是数码(包括CCD和CMOS设备)的图像捕捉设备(可见光、红外光或紫外光光谱摄像机)。这种设备设置有视觉和非视觉传感器，其或者与情节捕捉设备(具有摄像机的移动电话中的加速度计)集成在一起或者独立但与情节捕捉设备进行通信并连接，以实现功能集成效果。在温度传感器的情况下，传感器可以检测到房间温度在上午6点升高并在下午8点降低。其将这些点标识为黎明和黄昏，并适当地对每点应用情境标签。情节捕捉设备可以被单独使用或一起使用以增强摘要。考虑商店使用在穿过感应圈时触发警报的磁性标签监视库存并使用系统的情况。可以组合第一情节捕捉设备(例如摄像机)和第二情节捕捉设备(例如感应传感器系统)并且对特定事件分配情境标签。带有标签的物品可能被携带通过感应传感器从而触发警报。此时，可以向从摄像机系统获得的视频馈送分配情境标签并相应地生成摘要。

事件的用户标准。可以使摘要的格式适合于包括用户感兴趣的任何事件信息。在摘要指示会议室的使用的情况下，摘要可以包括与会者的详细信息，包括他们的身份、静态图像、录音、事件类型信息以及标记某种警告的使用细节。添加到由情节捕捉设备捕捉的数据中的情境标签使摘要能够如所期望的那样详细或简洁。这可以是设备无法确定个人身份或无法将事件与经批准的房间用途相关联的情况。用户可以从各种预先编程的选项中进行选择，或者提供与摘要可能基于的情境标签相匹配的各种标准。作为示例，这可以包括事件类型、事件频率、视频序列的长度、日期与时间、地理位置、音频内容，然而可以是许多其他标准。直接或远程地将标准存储到或将标准输入到图像捕捉设备以形成已存储的或已输入的标准，并使用所存储的或所输入的标准生成摘要允许用户完全的使用自由。用户可以建立定制的摘要格式或从预先编程的选项中进行选择。摘要可以由情节捕捉设备生成，在该设备中摄像机被定位或该设备使用远程系统。

摘要格式。摘要可以取决于用户偏好而采用各种格式。一种格式是以可变速度例如缩时或超缩时(hyperlapse)显示所有事件和无活动时段的视频馈送。另一种是将特定事件的子集合并到单个视频馈送中，例如，如上所述由用户选择这些事件的情况，或者使用所存储的或所输入的数据选择事件以创建匹配事件的情况。可以基于用户标准删除或移除不重要的事件。例如，用户可以指定只有存在4人或更多人在场的会议必须被包括在摘要中。情节捕捉设备记录情节期间的所有事件，然后仅选择那些与有4人或更多人在场的会议对应的会议，有效地丢弃所记录的所有其他事件。

加权。另一种可能是使用加权或其他优先级排序方法(例如二元选择方案)将事件按优先顺序排列。使用加权方法，向事件加权使得摘要中的事件的子集由权重确定。权重本身由事件的特性决定，例如会议室中的人数、宠物的身份而不是人的身份、对象的温度。在以上示例中，通过考虑会议室的最大容量为6并且组织者有兴趣查明对房间的使用是否达到其最大容量来对此进行了说明。进行加权的一种方式是为少于6人参加会议情况下的每个事件分配权重，例如，一人使用房间的事件的权重为5，两人使用房间的权重为4，等。最初，用户可以基于权重为5或更小的事件来选择摘要。

但是，用户可能希望在摘要内按优先顺序排列条目。在这种情况下，权重决定了子集内事件的优先级。在会议室示例中，可以按照最高权重在先的顺序列出事件。在一个实施方式中，针对每个加权要素使用0至1或1至10的加权标度。在对任何项加权之前，显著运动的出现被用作过滤器。在通过该过滤器之后，针对每个视频事件或图像，简单地一起累加出总权重。例如在1至10的标度中，大量运动的出现可以贡献8权重。被用户标记为重要的人的出现可以为每个出现的这样的人增加7权重。其他人的出现可以每人提供4权重因数。显著运动的持续时间可以每分钟增加1权重，最多共10分钟。因此，在一个示例中，对10分钟的视频事件的加权如下(注意，该片段的各个部分可以具有不同的权重)：

两个陌生人(每人4点)＝8点

一个重要的人＝7点

显著运动＝8点

运动持续时间为五分钟＝5点

总计＝28点权重

在一个实施方式中，被考虑用于摘要的事件在指定时段内(例如，从午夜直到现在或在过去的2个小时期间等)并且(在过滤步骤之后)包含显著运动。可替选地，除了处于特定时段，可以用一些事件、一定比例的所记录的事件、在特定分数以上的所有事件等来限定摘要。

在一个实施方式中，基于以下线索对事件进行评分：

1.事件评分。

a.事件之前的空白(gap)：如果在事件之前的长时间没有发生任何事，则该事件得到更高的分数。

b.事件持续时间：非常短的事件得分较低。

c.运动位置和大小：在中央并且范围大的运动的得分较高。

d.运动异常：创建检测到的过去的运动的模型。如果考虑到以前的内容，新的运动观测是异常的，则该新的动作观测获得更高的分数。这也可以被视为是“惊喜”的概念。

e.对象数量：如果更多的对象在事件中移动则得分较高。

f.检测：某些检测到的概念会导致较高的分数，例如检测到的人、检测到的面部、肤色区域等。

g.图像质量：图像的对比度、清晰度或颜色分布。

在一个实施方式中，使用加权平均来组合分数。也可以用其他的组合方法。在替选实施方式中，基于用户的总体偏好或针对一个摘要的用户说明来调整或添加/省略分数和权重。

在一个实施方式中，当事件出现时，权重不包括一天中的时间。其是在第二步中处理的：

2.使用贪婪方法选择事件。伪代码：

while总的摘要持续时间<目标持续时间do：

A.选择最高权重的事件并将其添加到摘要中

B.根据所有其他事件相对于所选择的事件的时间距离对该所有其他事件重新加权。

这将确保不选择一个紧接着另一个发生的两个事件，而是在整个时间范围内选择多种事件。在一个实施方式中，添加了一些启发法以确保在时间上的某些规则分布。重新加权因数取决于总的摘要时间范围：例如，针对1小时的时段的重新加权与针对24小时的时段的重新加权不同。

在一个实施方式中，针对没有活动的长时段(例如，在一个人整日都在工作并且唯一的动作出现在早上和晚上的起居室中)，添加“填充”(filler)。即，如以上面已经讨论的那样调整回放速度。对于没有活动的时段，使用每6分钟1帧的缩时，而对于运动事件播放“超缩时”式的视频(例如，将正常速度加快8倍)。当然，可以使用其他特定的时段和速度。

云存储装置。情节捕捉设备可以利用云数据存储装置来创建或增强情节捕捉设备或可以在云数据存储设施内利用云数据存储装置。然后可以在想要创建摘要时从云数据存装置下载数据，使得使用该数据发生以上概述的方法中的至少一个步骤。这使得即使具有小存储容量的设备也能够被配置以创建摘要，因为上述方法中概述的至少一个步骤可以远离该情节捕捉设备而发生。存储和访问关于事件和场景的大量数据的能力也使得能够创建增强的摘要。

增强的摘要。详细的摘要可以被认为包括对视频数据、音频数据、地理数据等进行概括的许多信息层。这种分层的方法使得用户能够放大某些感兴趣的区域。例如，在上面的会议室场景中，会议组织者收到当天会议的摘要。其包括会议期间或事件捕捉设备所监视的各个会议室中发生的各种会议的所有参与者的详细信息、演说和讲义的副本、所有移动和地理信息以及事件的视频和音频数据。组织者被告知特定事件(如演说)发生在特定的时间。组织者可以在不同时间放大摘要并选择放大该事件。摘要内的详细信息使得组织者能够查看和选择特定事件，并且选择将事件的视频数据流送到设备进行查看。该设备可以是组织者选择查看摘要的设备或另一设备。例如，组织者可以选择在智能电话上查看摘要。然而，组织者更偏向于使用平板电脑以便查看视频数据。一旦使用智能电话选择了放大摘要，组织者就能够将事件的视频内容流送至平板电脑。

分层方法还有助于根据用户可以接收的数据量自动编辑摘要。例如，如果用户正在使用连接到蜂窝数据网络的智能电话访问摘要，则发送仅包含具有去往更多内容的超链接的突出显示内容的简短版本的摘要，因为例如如果蜂窝数据网络是3G网络，则数据传输相对较慢并且用户可能更偏向于不接收和下载大量数据。此外，可以以短消息(诸如SMS、MMS或文本)的形式和/或利用用于通知的推送功能向用户的移动设备发送文本形式的摘要信息，例如特定事件的发生或特定人物的出现。以这种方式提供给用户的信息的类型可以由用户确定或者根据预先确定的标准发送。然而，如果用户经由局域网(Wi-Fi)或其他数据连接访问摘要，则可以发送更详细的摘要。可以用特定于情节捕捉设备所在房间的信息预先编程该情节捕捉设备。可替选地，一旦摄像机已被放置在房间内就可以通知用户摄像机的位置。

替选实施方式。本发明不限于上述示例性实施方式。可以将本发明用于各种应用中，例如住宅安全、监控、监视(诸如婴儿监视器或宠物监视器)、房间或设施使用(例如指定的设备或装置)，事实上可以应用于需要能够远程监视场景以确定事件的发生的任何情况中。合适的情节捕捉设备包括数码相机、数码摄像机，智能电话、平板电脑、膝上型计算机或其他移动设备内的摄像机、网络摄像机等。这些摄像机应该适用于经由网络将数据传送到客户端计算机、软件程序、移动设备上的应用程序或通常的适合的存储设备，其中这种存储设备可以包括用于后续图像处理的额外的处理能力。摄像机可以是专用设备或多用途设备，也就是说，对于监控事件场景没有固定的指定。

总的来说，情节捕捉设备包括能够访问被配置成执行以上概述的方法的软件模块的处理器。在示例性实施方式中，软件模块是基于特定标准的确定或者预先定义或者可由用户选择以用于识别特定事件。随后，例如，针对用户的选择，基于所选择的标准(诸如某个事件)，可选地结合另一约束条件(例如摘要视频序列的最大长度或预定的数据量)来创建包括摘要的摘要。这导致了参数相关的自动视频分析方法，其中需要评估明显较少的视频数据以确定场景内是否发生了事件。

以下概括各种实施方式的特征：

(B)时间视频流和摘要

1.一种从摄像机提供视频摘要的方法，包括：

使用所述摄像机中的处理器检测运动；

使用所述处理器确定所述运动是否显著；

在只具有非显著运动的无活动时段期间，在所述摄像机的存储器中记录至少一帧周期性图像；

从具有显著的检测到的运动的活动时段中识别事件并创建事件标签；

在所述摄像机的存储器中记录来自所识别的事件的视频和所述事件标签的视频；以及

使用所述摄像机中的发送器将所述存储器中的所述图像和视频间歇地发送至远程计算设备。

2.根据权利要求1所述的方法，其中，所述周期性图像在无活动时段期间包括1至10秒之间的视频。

3.根据权利要求1所述的方法，还包括以高分辨率捕捉图像，然后使用较低分辨率带宽在比实时视频更长的时段内发送所述图像。

4.根据权利要求1所述的方法，还包括由所述摄像机中的所述处理器和所述远程计算设备之一基于移动停止之后的时间量来确定事件的结束和新事件的开始。

5.根据权利要求1所述的方法，还包括由所述摄像机中的所述处理器和所述远程计算设备之一基于不同地点处的新动作来确定事件的结束和新事件的开始。

6.根据权利要求1所述的方法，还包括由所述摄像机中的所述处理器和所述远程计算设备之一基于所述视频中的移动对象数和所述视频中的人数之一的变化来确定事件的结束和新事件的开始之一。

7.根据权利要求1所述的方法，还包括利用所述远程计算设备，根据由所述摄像机提供的多个视频事件来创建摘要视频，包括：

创建在一定时段内具有显著运动的视频事件和不具有显著的运动图像的缩时视频；

以更快的缩时为不具有显著运动的所述图像分配较少的时间；以及

以较缓慢的缩时为具有显著运动的视频分配较多的时间。

8.根据权利要求7所述的方法，还包括根据重要性对视频事件进行加权，以及向被认为更重要的较高权重的视频事件提供较缓慢的缩时和更多的时间之一。

9.根据权利要求8所述的方法，其中，所述视频事件具有情境标签，并且所述加权基于至少下述之一：检测到的人数、检测到的人的身份、所述运动的持续时间和所述运动的量。

10.根据权利要求7所述的方法，还包括以小于第二缩时速度的缩时速度为由用户选择的所述摘要视频的各部分提供附加的详细视频事件。

11.根据权利要求7所述的方法，还包括基于以下对所述视频事件进行加权：

所述视频事件之前的无活动量；

所述视频事件中的运动持续时间；

所述视频事件中的动作与所述视频事件的中央的接近度；

所述视频事件中的运动与来自先前的视频事件的运动之间的差异量；以及

在所述视频事件中移动的对象的数目。

12.一种从摄像机提供视频摘要的方法，包括：

使用所述摄像机中的处理器检测运动；

使用所述处理器确定所述运动是否显著；

在所述摄像机的存储器中记录来自所识别的事件的视频和所述事件标签；

使用所述摄像机中的发送器将所述存储器中的所述图像和视频间歇地发送至远程计算设备；

利用所述远程计算设备，根据由所述摄像机提供的多个视频来创建摘要视频，包括：

创建在一定时段内具有显著运动的视频事件和不具有显著运动的图像的缩时视频；

以较缓慢的缩时为具有显著运动的视频分配较多的时间；

向所述视频事件提供情境标签；以及

基于至少下述之一对所述视频事件进行加权：检测到的人数、检测到的人的身份、所述运动的持续时间和所述运动的量。

13.一种用于提供视频摘要的系统，包括：

具有处理器的摄像机，所述处理器被配置成分析由所述摄像机捕捉的视频中的像素以检测所述视频中的运动；

处理器被配置成确定所述运动是否显著；

所述摄像机的存储器被配置成在仅具有非显著运动的非活动时段期间记录至少一帧的周期性图像；

所述处理器被配置成从具有显著的检测到的运动的活动时段识别事件并创建事件标签；

所述处理器被进一步配置成在所述摄像机的所述存储器中记录来自所识别的事件的视频和所述事件标签；以及

发送器，被配置成间歇地将所述存储器中的图像和视频发送到远程计算设备。

14.根据权利要求13所述的系统，其中，在无活动时段期间的所述周期性图像包括1至10秒之间的视频。

15.根据权利要求13所述的系统，其中，所述处理器还被配置成以高分辨率捕捉图像，然后使用较低分辨率带宽在比实时视频更长的时段内向所述发送器发送所述图像。

16.根据权利要求13所述的系统，还包括由所述摄像机中的所述处理器和所述远程计算设备之一基于移动停止之后的时间量来确定事件的结束和新事件的开始。

17.根据权利要求13所述的系统，还包括所述摄像机中的所述处理器和所述远程计算设备之一被配置成基于所述视频中的不同位地点处的新动作来确定事件的结束和新事件的开始。

18.根据权利要求13所述的系统，还包括所述摄像机中的所述处理器和所述远程计算设备之一被配置成基于所述视频中的移动对象数和所述视频中的人数之一的变化来确定事件的结束和新事件的开始之一。

19.根据权利要求13所述的系统，其中，所述远程计算装置还被配置成根据由所述摄像机提供的多个视频事件来创建摘要视频，包括：

以较缓慢的缩时为具有显著运动的视频分配较多的时间；

20.根据权利要求19所述的系统，其中，所述远程计算装置还被配置成根据重要性对所述视频事件进行加权，以及向被认为更重要的较高权重的视频事件提供下述之一：较缓慢的缩时和更多的时间。

(C)自动确定摄像机位置并确定场景类型

1.一种用于确定摄像机的位置的方法，包括：

在一个位置处的摄像机处捕捉图像；

将所述图像从所述摄像机发送至远程服务器；

在所述服务器处将来自所述摄像机的图像与来自耦接至所述服务器的数据库的与已知位置对应的多个存储的图像进行整体比较；

确定提供最佳匹配的存储图像；以及

根据与提供最佳匹配的所述图像相关联的标签来确定所述摄像机的位置类型。

2.根据权利要求1所述的方法，还包括：

确定所述位置是室内位置还是室外位置。

3.根据权利要求2所述的方法，还包括：

当所述摄像机被确定为处于所述室内位置，确定房间类型；

其中，所述房间类型包括至少下述之一：会议室、餐厅、厨房、起居室、卧室、办公室和走廊。

4.根据权利要求1所述的方法，还包括：

滤除特定类型的运动，所述运动类型取决于所确定的所述摄像机的位置类型。

5.根据权利要求1所述的方法，还包括：

检测视频中高于阈值运动量的实质运动；

检测所述视频中的实质运动中的对象和人中的至少之一；

将来自实质运动的图像与对应于已知的不同事件的存储图像进行整体比较；

确定提供最佳匹配的存储图像；以及

根据与提供最佳匹配的所述图像相关联的标签来确定事件类型；以及

用所述事件类型标记所述视频。

6.根据权利要求5所述的方法，还包括：

检测来自所述摄像机中的麦克风的声音；

将所检测到的声音与所存储的数据库的声音进行比较；

确定声音的至少一个最佳匹配；

将与声音的所述最佳匹配相关联的标签与与所述图像相关联的标签进行比较；以及

基于来自所述图像和所述声音的标签来确定事件类型。

7.一种用于确定来自摄像机的视频中的事件类型的方法，包括：

检测视频中高于阈值运动量的实质运动；

检测所述视频中的实质动作中的对象和人中至少之一；

将来自实质运动的图像与对应于不同事件的存储的图像进行整体比较；

确定提供最佳匹配的存储图像；以及

用所述事件类型标记所述视频。

8.根据权利要求7所述的方法，还包括：

通过下述方法确定所述摄像机的位置类型：

将来自所述摄像机的图像与对应于已知位置的多个存储的图像进行整体比较；

确定提供最佳匹配的存储图像；以及

根据与提供最佳匹配的所述图像相关联的标签来确定所述摄像机的位置类型；以及

利用所述位置类型来确定所述事件类型。

9.一种用于确定摄像机位置的系统，包括：

被配置成在一个位置处捕捉图像的摄像机；

所述摄像机中的发送器，用于将来自所述摄像机的图像发送到远程服务器；

服务器，被配置成将来自所述摄像机的图像与对应于已知位置的多个存储的图像进行整体比较；

耦接到所述服务器的数据库，用于存储多个存储图像；

所述服务器被配置成确定提供最佳匹配的存储图像；以及

所述服务器被配置成根据与提供最佳匹配的所述图像相关联的标签来确定所述摄像机的位置类型。

10.根据权利要求9所述的系统，还包括：

所述服务器被配置成确定所述位置是室内位置还是室外位置。

11.根据权利要求10所述的系统，还包括：

当所述摄像机被确定为处于所述室内位置，所述服务器被配置为确定房间类型；

其中，所述房间类型包括会议室、餐厅、厨房、起居室、卧室、办公室和走廊至少之一。

12.根据权利要求9所述的系统，还包括：

所述服务器被配置成滤除特定类型的运动，所述运动类型取决于所确定的所述摄像机的位置类型。

13.根据权利要求9所述的系统，还包括：

所述摄像机被配置成检测所述视频中高于阈值运动量的实质运动；

所述服务器被配置成检测所述视频中的实质动作中的对象和人中至少之一；

所述服务器被配置成将来自所述实质运动的图像与对应于已知不同事件的存储的图像进行整体比较；

所述服务器被配置成确定提供最佳匹配的存储图像；

所述服务器被配置成根据与提供最佳匹配的所述图像相关联的标签来确定事件类型；以及

所述服务器被配置成使用所述事件类型来标记视频。

14.根据权利要求13所述的系统，还包括：

所述摄像机中用于检测声音的麦克风；

所述服务器被配置成将检测到的声音与存储的数据库的声音进行比较；

所述服务器被配置成确定声音的至少一个最佳匹配；

所述服务器被配置成将与声音的最佳匹配相关联的标签与与所示图像相关联的标签进行比较；以及

所述服务器被配置成基于来自所述图像和所述声音的所述标签来确定事件类型。

15.根据权利要求14所述的系统，还包括：

所述服务器被配置成提示用户确认所述事件的位置和类型。

16.根据权利要求14所述的系统，还包括：

所述服务器被配置成将图像和声音与先前针对特定用户记录和存储的场景进行比较。

(D)针对经过滤并经标记的动作进行视频搜索

1.一种搜索来自摄像机的视频的方法，包括：

使用摄像机中的处理器检测运动；

使用所述处理器确定所述运动是否显著，并且滤除不具有显著运动的视频；

使用所述摄像机中的发送器将存储器中的视频发送到远程计算设备；

将所述视频组织成分别的视频事件；

利用所述远程计算设备，根据由所述摄像机提供的多个视频事件来创建多个摘要视频；

用与所述视频摘要中的事件对应的多个标签来标记每个摘要视频；

响应于由用户输入的搜索项，将所述搜索项与所述标签进行匹配；以及

显示按最佳匹配顺序排列的与所述搜索项最佳匹配的视频摘要的指示符。

2.根据权利要求1所述的方法，其中，创建摘要视频包括：

以较缓慢的缩时为具有显著运动的视频分配较多的时间；

3.根据权利要求1所述的方法，其中，所述搜索项包括至少下述之一：时间、视频的持续时间、所述视频中的人、所述视频中的对象和摄像机位置。

4.根据权利要求1所述的方法，还包括基于所述视频摘要的权重对视频搜索结果进行排序。

5.根据权利要求1所述的方法，还包括：

利用搜索结果提供没有与所述搜索项对应的标签但是与带有所述标签的视频在时间上接近的视频的指示。

6.根据权利要求1所述的方法，还包括：

利用搜索结果提供没有与所述搜索项对应的标签但是带有与所述搜索结果中的视频中未搜索的标签对应的其他标签的视频的指示。

7.一种搜索来自摄像机的视频的方法，包括：

使用摄像机中的处理器检测运动；

使用所述摄像机中的发送器将存储器中的所述视频发送到远程计算设备；

将所述视频组织成分别的视频事件；

用与下述中至少两个对应的多个标签来标记每个视频事件：时间、视频的持续时间、视频中的人、视频中的对象和摄像机位置；

基于标签的重要性对每个视频事件进行加权：

显示按照最佳匹配和所述视频事件的权重排列的与所述搜索项最佳匹配的视频事件的指示符。

8.根据权利要求7所述的方法，还包括：

利用与所述视频摘要中的事件对应的多个标签来标记每个摘要视频；

基于所述标签的重要性对每个所述视频摘要进行加权；

显示按照最佳匹配和所述视频事件的权重排列的与所述搜索项最佳匹配的视频摘要的指示符。

9.根据权利要求7所述的方法，还包括：

利用搜索结果提供没有与所述搜索项对应的标签但是是与具有所述标签的视频在时间上接近的视频之一并且带有与所述搜索结果中的视频中未搜索的标签对应的其他标签的视频的指示。

10.一种用于搜索来自摄像机的视频的系统，包括：

摄像机中被配置成检测运动的处理器；

所述处理器还被配置成确定所述运动是否显著，并且滤除不具有显著运动的视频；

所述摄像机中用于存储视频的存储器；

所述摄像机中被配置成发送所述存储器中的所述视频的发送器；

远程计算设备，被配置成接收所发送的视频；

所述远程计算设备被配置成将所述视频组织成分别的视频事件；

所述远程计算设备被配置成利用与下述中至少两个对应的多个标签来标记每个视频事件：时间、视频的持续时间、所述视频中的人、所述视频中的对象和摄像机位置。

所述远程计算设备被配置成基于所述标签的重要性来对每个视频事件加权；

所述远程计算设备被配置成响应于由用户输入的搜索项将所述搜索项与所述标签进行匹配；以及

所述远程计算设备被配置成显示按最佳匹配和所述视频事件的权重排列的与所述搜索项最佳匹配的所述视频事件的指示符。

11.根据权利要求10所述的系统，还包括：

所述远程计算设备被配置成根据由所述摄像机提供的多个视频事件来创建多个摘要视频；

所述远程计算设备被配置成利用与所述视频摘要中的事件对应的多个标签来标记每个摘要视频；

所述远程计算设备被配置成基于所述标签的重要性来对每个视频摘要加权；

所述远程计算设备被配置成显示按最佳匹配和所述视频事件的权重排列的与所述搜索项最佳匹配的所述视频摘要的指示符。

12.根据权利要求10所述的系统，其中，所述远程计算设备是服务器。

13.根据权利要求10所述的系统，其中，所述远程计算设备是被配置成通过因特网使用服务器与所述摄像机进行通信的智能电话。

14.根据权利要求10所述的系统，其中，所述远程计算设备还被配置为通过以下方法创建摘要视频：

以较缓慢的缩时为具有显著运动的视频分配较多的时间；

15.根据权利要求10所述的系统，其中，所述搜索项包括下述至少之一：时间、视频的持续时间、所述视频中的人、所述视频中的对象和摄像机位置。

16.根据权利要求10所述的系统，其中，所述远程计算设备还被配置成基于所述视频摘要的权重对视频搜索结果进行排列。

17.根据权利要求10所述的系统，还包括：

所述远程计算设备还被配置成利用所述搜索结果来提供没有与所述搜索项对应的标签但是与带有所述标签的视频在时间上接近的视频的指示。

18.根据权利要求10所述的系统，还包括：

所述远程计算设备还被配置成利用所述搜索结果来提供没有与所述搜索项对应的标签但是带有与所述搜索结果中的视频中未搜索的标签对应的其他标签的视频的指示。

19.根据权利要求10所述的系统，其中，所述远程计算设备是服务器和智能电话的组合。

将从所附权利要求书中明显得出不偏离本发明的精神和范围的这些和其他实施方式。

Claims

1.一种用于向用户显示视频摘要的方法，包括：

当在具有显示器的计算设备上启动应用程序时，提供下述组的内容之一：来自远程摄像机的即时视频流、来自所述远程摄像机的视频事件、来自所述远程摄像机的视频事件的摘要以及来自所述远程摄像机的图像；

由所述计算设备中的处理器在所述显示器上提供指示被存储、检测到的视频事件的多个指示符；

当所述处理器检测到所述用户在所述显示器上选择指示符时，提供所选择的事件的缩时摘要；以及

在所述显示器上与所选择的事件一起提供一天中的时间的指示；

其中，所述指示符中的一个是用于使用比用于单个视频事件的缩时更紧缩的缩时在指定的定时时段内按顺序对所有所述事件进行的缩时显示。

2.根据权利要求1所述的方法，其中，所述指示符是一系列气泡，每个气泡包括有关事件何时发生的指示。

3.根据权利要求1所述的方法，其中，所述指示符还用颜色编码指示所述事件的相对重要性。

4.根据权利要求1所述的方法，其中，所述指示符中的一个是用于

使用比用于单个视频事件的缩时更紧缩的缩时在指定的定时时段内按顺序对所有所述事件进行的缩时显示；

其中，较不重要的事件具有较短的时间；以及

对所述事件应用加权，使得具有较高权重的事件被提供较长的时间和较慢的缩时中之一。

5.根据权利要求1所述的方法，其中，启动时提供的图像包括来自多个远程摄像机的多个图像。

6.根据权利要求1所述的方法，还包括：

响应于用户在所述显示器上的滑动动作而滚动所述指示符；

放大当前指示符；以及

提供来自与所述当前指示符对应的视频事件的至少一个图像的显示。

7.根据权利要求1所述的方法，其中，为所述视频事件的摘要提供所述指示符中的一个，所述摘要包括一天的视频事件。

8.根据权利要求1所述的方法，其中，为所述视频事件的摘要提供所述指示符中的一个，所述摘要包括自从用于实现权利要求1所述的方法的应用程序最近一次启动以来的视频事件。

9.根据权利要求1所述的方法，其中，在启动时提供来自远程摄像机的即时视频流，其中所述即时视频流具有比所选择的事件的缩时摘要低的分辨率。

10.一种用于向用户显示视频摘要的具有显示器的计算设备，包括：

处理器，被配置成当在所述计算设备上启动应用程序时，提供下述组的内容之一：来自远程摄像机的即时视频流、来自远程摄像机的视频事件、来自所述远程摄像机的视频事件的摘要以及来自所述远程摄像机的图像；

所述处理器还被配置成在所述显示器上提供指示被存储、检测到的重要视频事件的多个指示符；

所述处理器被配置成：当检测到所述用户在所述显示器上选择指示符时，提供所选择的事件的缩时摘要；

其中，所述指示符中的一个是用于使用比用于单个视频事件的缩时更紧缩的缩时在指定的定时时段内按顺序对所有所述事件进行的缩时显示；以及

所述处理器被配置成在所述显示器上与所选择的事件一起提供一天的时间的指示。

11.根据权利要求10所述的设备，其中，所述指示符是一系列气泡，每个气泡包括有关事件发生于多久之前的指示。

12.根据权利要求10所述的设备，其中，所述指示符还用颜色编码指示所述事件的相对重要性。

13.根据权利要求10所述的设备，其中，所述指示符中的一个是用于

使用比用于单个视频事件的缩时更紧缩的缩时在指定的定时时段内按顺序对所有所述事件进行缩时显示；

其中，较不重要的事件具有较短的时间；以及

所述处理器被配置成对所述事件应用加权，使得具有较高权重的事件被提供较长的时间和较慢的缩时中之一。

14.根据权利要求10所述的设备，其中，启动时提供的图像包括来自多个远程摄像机的多个图像。

15.根据权利要求10所述的设备，还包括：

所述处理器被配置成响应于用户在所述显示器上的滑动动作而滚动所述指示符；

放大当前指示符；以及

16.根据权利要求10所述的设备，其中，为所述视频事件的摘要提供所述指示符中的一个，所述摘要包括一天的视频事件。

17.根据权利要求10所述的设备，其中，为所述视频事件的摘要提供所述指示符中的一个，所述摘要包括自从用于实现权利要求1所述的方法的应用程序最近一次启动以来的视频事件。

18.根据权利要求10所述的设备，其中，所述处理器被配置成在启动时提供来自远程摄像机的即时视频流，其中所述即时视频流具有比所选择的事件的缩时摘要低的分辨率。

19.根据权利要求10所述的设备，其中，所述处理器被配置成通过播放所述视频事件的摘要来向用户显示视频摘要；

其中，所述视频事件的摘要包括在指定时段内来自所述远程摄像机的一系列视频事件；

其中，所述视频摘要是检测到运动的间歇视频事件的缩时摘要；以及

所述处理器被配置成修改由所述用户选择的摘要的各部分的回放速度。