CN107437063A

CN107437063A - 用于感测环境的装置和方法、非暂态计算机可读介质

Info

Publication number: CN107437063A
Application number: CN201710539481.7A
Authority: CN
Inventors: 唐明勇
Original assignee: Shanghai Xiaoyi Technology Co Ltd
Current assignee: Shanghai Xiaoyi Technology Co Ltd
Priority date: 2017-07-04
Filing date: 2017-07-04
Publication date: 2017-12-05
Also published as: US10750276B2; US20190014408A1; EP3425905A1

Abstract

本发明提供用于感测环境的装置和方法、非暂态计算机可读介质。所述装置包括用于感测环境的传感器和扬声器。所述装置还包括能够在多个方向上显示视频信息的显示器，其中所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息。所述扬声器被配置为在多个方向上生成与所述视频信息相关联的声音。

Description

用于感测环境的装置和方法、非暂态计算机可读介质

技术领域

本公开总体上涉及用于感测、输出和显示的装置和方法。更具体地，本公开涉及一种具有人机接口的装置和用于该装置的方法，用于通过传感器感测环境并且基于由传感器感测的对象的信息通过显示器在多个方向上显示视频信息。

背景技术

个人和企业通过视频远程会议设备在各个位置之间实时通信。这样的设备可以用于人和/或内容运动的设置环境中。然而，利用当前技术，在运动时捕捉一个或多个呼叫者可能是具有挑战性的。在某些设置环境中，用户可能会要求设备在多个方向上或360°视场中捕捉视频。例如，通过使用360°摄像机，这种要求可以是部分可能的。但是，仅使用360°摄像机有缺点。虽然360°摄像机可能能够生成全景图像，但是它不能基于由摄像机感测的对象的信息在不同方向上捕捉视频信息。

发明内容

本公开的一个方面涉及一种用于感测环境的装置，包括用于感测环境的传感器和扬声器。所述装置还包括能够在多个方向上显示视频信息的显示器，其中，所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息，并且所述扬声器被配置为在多个方向上生成与所述视频信息相关联的声音。

本公开的另一方面涉及一种用于感测环境的方法，包括：利用传感器感测环境以及利用扬声器生成输出。所述方法还包括：利用显示器在多个方向上显示视频信息，其中所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息，并且所述扬声器在多个方向上生成与所述视频信息相关联的声音。

本公开的另一方面涉及一种非暂态计算机可读介质，存储可执行的指令，所述指令被配置为使处理器利用传感器感测环境以及利用扬声器生成输出。所述指令还被配置为使处理器利用显示器在多个方向上显示视频信息，其中所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息，并且所述扬声器在多个方向上生成与所述视频信息相关联的声音。

附图说明

以示例性实施例进一步描述本文所描述的方法、系统和/或编程。参考附图详细描述这些示例性实施例。这些实施例是非限制性示例性实施例，其中在附图的多个视图中相同的附图标记表示相似的结构，并且其中：

图1是根据本公开的实施例的装置的示例性透视图。

图2是图1所示的装置的示例性顶视图。

图3是根据本公开的实施例的弧形装置的示例性透视图。

图4是图3所示的弧形装置的示例性顶视图。

图5是根据本公开的实施例的球形装置的示例性透视图。

图6是根据一些实施例的用于同步多个元件的示例性系统的框图。

图7是根据本公开的实施例的包括通过网络连接的两个传感器系统的示例性系统的框图。

图8是根据一些实施例的用于识别事件并生成警报的示例性过程的流程图。

图9是根据一些实施例的用于获得与一个或多个事件有关的信息并生成警报的示例性过程的流程图。

图10是根据一些实施例的用于识别事件以及显示图像与用户界面的示例性过程的流程图。

具体实施方式

现在将详细参考所公开的实施例，其示例在附图中示出。在方便时，贯穿附图使用相同的附图标记来指代相同或相似的部件。

参考附图考虑以下描述，本公开的特征和特点以及操作方法和结构的相关元件的功能以及部件的组合和制造的经济性可以变得更加明显，附图和描述都形成本说明书的一部分。然而，应当理解，附图仅用于说明和描述的目的，并不旨在作为本发明的限制的定义。如在说明书和权利要求书中所使用的，除非上下文另有明确指示，单数形式的“一”、“一个”和“该”包括复数指示物。

本文描述的实施例涉及包括图像、视频和音频捕捉和显示中的一个或多个的系统，包括能够消费360°内容的系统。许多情况，从如远程会议的活动到全景场所的休闲活动，都是捕捉这种内容的理想情况。

根据本公开的一些实施例，一种装置包括用于感测环境的传感器，用于生成输出的扬声器和用于在多个方向上显示视频信息的显示器，其中所述显示器被配置为基于由传感器感测的对象的信息，在不同方向上显示视频信息。相应地，该装置可以由用户使用来实时地对该装置捕捉的一个或多个图像进行远程会议、监视或查看。例如，根据本公开的实施例，即使在该装置正在捕捉视频数据的同时用户处于运动中，也可以在多个方向上捕捉视频数据。

根据一些实施例，该装置可以被配置为以各种方式捕捉一个或多个图像。例如，该装置可被配置为：响应于用户输入，通过软件或硬件编程、硬件设置或其组合来捕捉图像。在一些实施例中，当该装置被配置为通过软件或硬件编程或通过硬件设置捕捉图像时，可以在一个或多个预定条件下执行图像捕捉。例如，一组预定条件可以触发该装置捕捉图像。备选地或附加地，该装置可以响应于用户的操作来捕捉图像。在一些实施例中，捕捉图像可以包括将该装置置于特定的操作模式或者控制该装置的设置以使得能够捕捉一个或多个图像。在一些实施例中，捕捉图像可以包括捕捉一个或多个图像。如本文所使用的，“图像”部分地或全部地指静态或动态的视觉表示，包括但不限于照片、图片、图形、视频、全息图、虚拟现实图像、增强现实图像、其他视觉表示或其组合。在另外的实施例中，本文公开的系统和方法还包括处理器，其执行软件指令以基于由该装置接收的声音或图像来识别事件。

如本文所使用的，术语“实时”是指在捕捉的同时或在捕捉的短时内(在几毫秒或几十毫秒的量级上)显示图像或视频，使得显示图像或者视频实际显示典型的移动对象，例如远程会议用户或婴儿爬行。

本文描述的实施例可以应用于许多领域。与特定域相关的描述和应用不排除将所描述的实施例应用于其他技术或领域。

图1是与本公开的实施例一致的装置100的示例性透视图。图2是装置100的示例性顶视图。如图1和图2所示，装置100具有正方形或矩形横截面。装置100包括用于感测环境的传感器、扬声器和能够在多个方向上显示视频信息的显示器。在一些实施例中，传感器包括一个或多个音频检测器、图像检测器、不同传感器的组合或任何其它感测机构。例如，传感器可以包括麦克风、摄像机、超声传感器、陀螺仪、加速度计或能够感测环境的任何其它感测机构中的一个或多个。在一些实施例中，一个或多个传感器可被配置为感测环境中的人。该一个或多个传感器可以感测感测到的人的信息，包括人的语音、人相对于装置100的位置、命令、触摸和/或手势。

作为示例，装置100包括外壳102，其容纳显示器104、扬声器阵列106以及包括摄像机阵列108和麦克风阵列110的传感器。外壳102具有四个侧向侧面102A-D和一个顶面102E。显示器104可以包括在外壳102的相应侧面102A-D上的一个显示器或多个显示器，例如显示器104A-D，其中显示器104A和104B在图1中直接可见，显示器104C和104D在外壳102的表面102C和102D上，在图1中不直接可见。摄像机阵列108包括摄像机108A-D。在一些实施例中，摄像机108A-D可以被配置为分别与外壳102的侧向侧面102A-D齐平地安装。麦克风阵列110包括麦克风110A-D。在一些实施例中，麦克风110A-D可以被配置为分别安装在外壳102的侧向侧面102A-D上，其中麦克风110A和110B在图1中可见。扬声器阵列106包括扬声器106A-D。在一些实施例中，扬声器106A-D可以被配置为分别安装在外壳102的侧向侧面102A-D上，其中扬声器102A和102B在图1中可见。

在其它实施例中，装置100被配置为具有圆柱形或球形形状。

用于显示多个图像的显示器可以如装置100的显示器104A-D一样环绕设备。在符合本公开的一些实施例中，系统和方法可以包括更多显示器或少至一个显示器。作为示例，装置100可以放置在桌子的中心。用户可以坐在桌子的不同侧与远程用户组进行远程会议。多个显示器中的每一个可以呈现相同的图像。该图像可能包括此刻在说话的远程用户。备选地，多个显示器中的每个可以呈现包括位于远程装置周围的所有远程用户的全景图像。此外，由远程装置接收的全景图像可以在装置的每个显示器之间分离。在另一个实施例中，显示器上的多个图像可以是远程用户组的静止图像或视频或用户界面。

摄像机阵列108的摄像机108A-D可以被配置为捕捉视频数据并且具有环境的多方向视图。分别由捕捉的图像生成的视频帧可以被组合和缝合以创建虚拟现实体验。本文所用的术语“虚拟现实”是指使用图像、声音和其他感觉来模拟环境(例如真实环境或假想设置)的技术。在与本公开一致的其他实施例中，系统和方法可以包括更多的摄像机或少至一个摄像机。

摄像机108A-D中的每一个可以是数字摄像机、网络摄像机、鱼眼镜头摄像机或具有环境的多方向视图的任何摄像机。在一些实施例中，摄像机阵列108的摄像机108A-D还可被配置为以320×240、426×240、640×360、480×360、800×600、852×640、960×540、1024×768、1280×720、1280×960、1280×1024、1440×1050、1440×1080、1600×1200、1920×1080、2560×1440、3840×2160、5120×2880、7680×4320的原生分辨率或任何其他合适的分辨率来捕捉视频。应当理解，前述示例仅是示例性实施例的代表。可以实现所公开的系统和方法以提供比原生或标准分辨率能力更大的增强分辨率。

在一些实施例中，麦克风阵列110的麦克风110A-D中的每一个可以具有分别对应于摄像机108A-D的视场的方向拾取场。在与本公开一致的其它实施例中，系统和方法可以包括更多的麦克风或少至一个麦克风。在一些实施例中，麦克风检测环境中的语音和语音的方向。

在一些实施例中，扬声器阵列106的扬声器106A-D是多方向的，并且每个扬声器106A-D可以被调节以基于所感测的环境的信息在不同方向上播放声音。与本公开一致的其它实施例中，系统和方法可以包括更多的扬声器或少至一个扬声器。

作为示例，在一些实施例中，装置100可以生成本地相关信息，使得说话的远程用户可以在显示器104上显示出来，同时扬声器106A-D输出从与指向该远程用户的远程摄像机对应的远程麦克风生成的音频。此外，装置100可以被配置为仅捕捉正在说话的人的图像和语音。

在一个实施例中，装置100被配置为由多个呼叫者使用的会议装置。在这样的实施例中，显示器104使用本地站点处的装置100，在第一呼叫者的方向上显示远程站点处的远程参与者的信息。远程参与者的信息包括远程参与者的图像、远程参与者的位置或远程参与者与第一呼叫者共享的视频/图像。本地站点处的第一呼叫者可以围绕装置100移动。装置100可以被配置为捕捉环境的多方向视图，以跟随第一呼叫者的移动。在一个实施例中，装置100可以在例如具有重叠视场的摄像机108A-D之间切换。当第一呼叫者移动时，该装置可以在本地站点的任何位置捕捉第一呼叫者的图像、音频和相关信息。该装置可以通过在装置100周围的竖直和水平方向上覆盖本地站点处的环境的多方向视图来发送连续的音频和视频数据。远程站点处的装置的显示器可以提供移动的第一呼叫者的连续视图。第一呼叫者不需要调整装置100的物理方向来发送连续的视频和音频数据。此外，在本地站点处移动的第一呼叫者可以在不调整本地设备的情况下查看或收听远程站点处的远程参与者。

图3是与本公开的实施例一致的弧形装置200的示例性透视图。图4是弧形装置200的示例性顶视图。如图3和图4所示，装置200具有包括具有圆形横截面和弧形表面的外壳202的圆柱形形状。装置200包括安装在外壳202的弧形表面上的弧形显示器204。弧形显示器适于显示广角视图或全景图像，例如示出城市的虚拟游览或播放电影。装置200可以被配置为识别来自用户的语音命令并在显示器204上播放用户选择的视频或图像。

作为示例，装置200包括弧形显示器204、扬声器阵列206和包括摄像机阵列208和麦克风阵列210的传感器。外壳202具有弧形表面202A和顶面202B。弧形显示器204可以包括在外壳202的弧形表面202A上的一个显示器或多个弧形显示器。摄像机阵列208包括摄像机208A-D。在一些实施例中，摄像机208A-D可以被配置为与外壳202的弧形表面202A齐平地安装，其中摄像机208A和208B直接可见，并且摄像机208C和208D位于外壳202的弧形表面202A中在图3中不直接可见的部分上。摄像机阵列208的摄像机208A-D在图4中的弧形装置200的示例性顶视图中直接可见。麦克风阵列210包括麦克风210A-D。在一些实施例中，麦克风210A-D可以被配置为安装在外壳202的弧形表面202A上，其中麦克风210A和210B可见，并且麦克风210C和210D在外壳202的弧形表面202A中在图3中不直接可见的部分上。扬声器阵列206被提供为围绕外壳202的弧形表面202A的圆周的连续扬声器阵列，尽管扬声器阵列206可以替代地被提供为例如围绕外壳202分布的四个分立的扬声器。

图5是与本公开的实施例一致的球形装置300的示例性透视图。装置300具有球形，其包括具有圆形横截面和弧形表面的外壳302。装置300的球形形状允许多方向使用。在一些实施例中，显示器304被配置为基于由包括在其中的一个或多个传感器(例如，一个或多个摄像机和麦克风)感测的对象的信息，在不同方向上显示视频信息。在一些实施例中，装置300包括摄像机阵列306，摄像机阵列306包括摄像机306A-F，其被配置为提供环境的多方向视图。摄像机306D在图5中是不可见的。在一些实施例中，装置300包括麦克风阵列308，麦克风阵列308包括被配置为在本地环境中提供声音/语音检测以及检测到的语音的方向的麦克风308A和308B。麦克风阵列可以包括在图5中不可见的在装置300侧面的麦克风，以提供多方向声音/语音检测。在一些实施例中，装置300包括：扬声器阵列310，被配置为多方向并且可调节以根据感测到的本地环境的信息在不同方向上播放声音。在一个实施例中，球形装置可以悬吊在天花板上以在多个方向上捕捉图像。作为示例，装置300可以放置在保险库中，以对贵重物品进行监视。摄像机306A-F可以捕捉保险库的360°竖直和水平方向的图像。在入侵者进入时，扬声器阵列310可以生成报警输出，显示器304可以显示入侵者的实时图像，并且相关联的处理器可以向紧急人员发送通知。

装置300可以被配置为提供环境的多方向检测。由于捕捉的内容可以是多方向的，远程用户可以使用虚拟现实设备实时地观看由装置300感测的音频和视频数据。此外，图3的弧形显示器204和304可以被配置为显示虚拟现实视频数据。弧形显示器204适于显示广角视图或全景图像。例如，弧形显示器204可以被配置为显示城市的虚拟游览或播放电影。图1的装置100、图3的200以及300被配置为捕捉、发送和接收多方向和虚拟现实内容。

图6是根据一些实施例的用于控制和协调图1和图2的装置100、图3和4的装置200或图5的装置300的多个元件的操作的示例性系统500的框图。系统500包括控制器510，例如能够控制图1和2的装置100执行某些操作的电子设备。特别地，控制器510可以被配置为控制装置100的显示器104、扬声器阵列106、摄像机阵列108和麦克风阵列110的操作的定时，以同步装置100的这些部件中的一些或所有部件的操作。在各种实施例中，控制器510可以包括本地装置100的处理器、远程装置、远程控制器、移动电话、平板计算机、个人计算机、个人数字助理(PDA)、MP3(运动图像专家组音频层III)播放器、MP4播放器等。控制器510可以被配置为与装置100中的每个组件形成无线和/或有线通信。控制器510可以包括用户界面，通过用户界面，用户可以输入各种命令和数据。例如，用户可以使用用户界面来控制装置100的一些或全部组件来同时执行一个或多个操作。例如，装置100的所有组件可以由控制器510控制，以作为安全和监视系统监控房间或者作为家庭护理系统来操作。

在示例性实施例中，控制器510可以生成和发送多个无线信号。在一个实施例中，控制器510可以以预定的时间间隔周期性地发送多个信号。在另一个实施例中，控制器510可以非周期地发送多个信号。

在示例性实施例中，控制器510可以以任何合适的方式发送无线信号。在一个实施例中，控制器510可以经由连接控制器510和本地装置100两者的本地网络发送无线信号。在另一个实施例中，控制器510可以在某些广播信道中广播无线信号，并且装置100可以扫描并接收广播信号。在另一个实施例中，控制器510可以与装置100形成对等(P2P)连接，并通过P2P连接发送无线信号。

在本公开的上下文中，同步并不一定意味着所有设备同时动作；相反，如果它们基于公共时间参考或以协调的方式动作，则设备是同步的。因此，在一个方面，接收到指示时间延迟的一个无线信号的图1和图2的装置100可以选择在从当前时刻起延迟某时间延迟量的时刻激活一个或多个组件。备选地，装置100可以基于在所接收的无线信号中指示的时间延迟来选择在另一时刻激活一个或多个组件。

图7是包括通过网络404连接的图1的装置100和远程装置402的示例性系统400的框图。如下面更全面地描述的，在系统400中处理器执行指令以通过网络404在无线通信信道上在本地装置100和远程装置402之间接收和发送音频和视频数据。

本地装置100包括处理器406、存储器408、通信端口410、输入412、显示器104、摄像机阵列108、麦克风阵列110和扬声器阵列106。远程装置402可以包括相应的元件，例如处理器414、存储器416、通信端口418、输入420、显示器422、摄像机阵列424、麦克风阵列426、扬声器阵列428。在操作中，处理器406执行指令(程序代码)并根据本文描述的技术执行功能。该指令包括例程、程序、对象、组件、数据结构、过程、模块和功能，这些使处理器406执行本文所述的特定功能。例如，处理器406接收和分析由摄像机阵列108的摄像机捕捉的视频。处理器406包括一个或多个已知处理装置(例如微处理器)，或者是其一部分。在一些实施例中，处理器406包括任何类型的单核或多核处理器、移动设备微控制器、中央处理单元等。处理器406还控制显示器104呈现视频和/或图像，并控制和声器阵列106发射音频数据。

存储器408被配置为存储要由处理器406执行的一组或多组指令(程序代码)，以执行本文公开的示例性方法。例如，存储器408被配置为存储由处理器406执行的指令，以向远程装置402发送和从远程装置402接收视频和音频数据。远程装置402是任何类型的计算设备。例如，远程装置402可以是智能电话、平板电脑、个人计算机、可穿戴设备(例如，GoogleGlass^TM或智能手表和/或附属组件)等，或其组合。在一些实施例中，如图7所示，远程装置402可以包括与本地装置100的硬件和软件元件相对应的硬件和软件元件。

存储器408还被配置为存储在本公开中描述的方法中由处理器406使用的数据和/或参数。例如，存储器408存储用于检测包括在视频中的事件的一个或多个声音和视觉模型。处理器406可以访问存储在存储器408中的声音和视频模型，并且基于包括在视频中的声音或视觉信号以及所访问的声音或视觉模型来检测一个或多个事件，如本文别处所描述的。在一些实施例中，存储器408被配置为存储从摄像机阵列108的摄像机接收的一个或多个版本的视频。

存储器408可以包括一个或多个存储器，所述存储器是易失性或非易失性、磁、半导体、磁带、光、可移除、不可移除或其它类型的存储设备或有形(即非暂时性)计算机可读介质，包括但不限于ROM、闪存、动态RAM和静态RAM。

通信端口410被配置为通过网络404向远程装置402和其他设备发送数据并从远程装置402和其他设备接收数据。网络404是允许发送和接收数据的任何类型的有线或无线网络。例如，网络404是有线网络、本地无线网络(例如，蓝牙^TM、WiFi、近场通信(NFC)等)、蜂窝网络、因特网等，或其组合。提供用于在分离的元件之间传输数据的介质的其它已知的通信方法也是可以想到的。

在一些实施例中，摄像机阵列108的摄像机108A-D还被配置为经由网络404将捕捉的视频(或其不同版本)发送到处理器406、远程装置402和/或任何用户设备。另外，处理器406还可以被配置为经由网络404从摄像机阵列108的摄像机108A-D、远程装置402和/或任何用户设备接收视频(或其不同版本)。备选地，摄像机108A-D可以被配置为将视频流实时地发送到处理器406和远程装置402。此外，处理器406和远程装置402可以被配置为实时地从摄像机108A-D接收视频流。

在一些实施例中，摄像机阵列108、麦克风阵列110、扬声器阵列106、处理器406、存储器408、通信端口410和输入412可以容纳在被配置为执行本公开中描述的每个元件的功能的单个设备中。在一些实施例中，处理器406和存储器408可以被配置为执行本公开中描述的一个或多个处理。例如，摄像机阵列108可以被配置为生成具有多方向(例如，360°)视场的视频，并且将生成的视频发送到远程装置402，如本公开的其他部分所述。

在一些实施例中，摄像机阵列108的摄像机捕捉视频数据，该视频数据与由麦克风阵列110的麦克风捕捉的音频数据耦合。处理器406通过网络404将捕捉的视频和音频数据无线发送到远程装置402。作为示例，远程装置402的显示器422和扬声器阵列428由处理器414控制以呈现从本地装置100接收的所捕捉的视频和音频数据。在一些实施例中，摄像机阵列424和麦克风阵列426由处理器414控制以捕捉视频和音频数据。

本地装置100被配置为经由网络404从远程装置402接收实时数据(例如，图像和/或视频数据和音频数据)。本地装置100还被配置为将从远程装置402接收的图像和/或视频数据经由显示器104呈现给本地用户。显示器104是被配置为基于由处理器406馈送的显示数据来在显示器104中显示视频和/或图像等的任何设备。

输入412被配置为从远程装置402接收输入并将与所接收的输入相关的数据/信号发送到处理器406用于进一步处理。

处理器406被配置为执行软件指令以接收来自麦克风阵列110的本地音频数据和来自摄像机阵列108的本地视频数据。处理器406还基于摄像机阵列108的视场和麦克风阵列110的拾取场，生成将来自麦克风阵列110的本地音频数据与来自摄像机阵列108的相应摄像机的相对应的本地视频数据相关联的本地相关信息。处理器406还将本地音频数据、本地视频数据和本地相关信息发送到远程装置402。此外，处理器406根据从远程装置402接收到的远程音频数据和远程相关信息，从远程视频数据生成显示器104上的多个图像并且生成与所显示的图像相对应的扬声器阵列106的输出。

远程装置402的存储器416被配置为存储要由处理器414执行的一组或多组指令(程序代码)，以执行本文公开的示例性方法。例如，存储器416被配置为存储由处理器414执行的指令，以向/从本地装置100发送/接收视频和音频数据。

远程装置402的通信端口418被配置为通过网络404向本地装置100和其他设备发送数据并从其接收数据。

远程装置402的输入420被配置为从本地装置100接收输入，并将与所接收的输入相关的数据/信号发送到处理器414用于进一步处理。

图8是根据一些实施例的用于识别预定事件并生成警报的示例性过程600的流程图。在一些实施例中，传感器检测环境中的一个或多个对象并将检测到的对象的信息传送到远程设备。例如，远程设备可以是监控服务器，并且传感器可以被包括在装置100中。如图8所示，在步骤602，麦克风阵列110的麦克风110A-D用作感测声学信号并生成音频数据的传感器。在步骤604，处理器406将生成的音频数据与保存在存储器408中的声音模型进行比较。在步骤606，基于生成的音频数据和声音模型之间的比较，可以由处理器406识别预定的声音事件。在步骤608，扬声器106A-D生成输出警报。在步骤610，处理器406发送通知。通知可以发送到指定的电话号码、电子邮件地址或紧急人员。在一些实施例中，系统将预定的声音识别为来自窗户破碎、报警系统振铃、婴儿哭泣、呼救的人或房间中的任何异常声音的噪声。

如图8所示，在步骤612，摄像机108A-D用作捕捉图像并生成视频数据的传感器。在步骤614，处理器406将视频数据与保存在存储器408中的视觉模型进行比较。在步骤616，基于视频数据和视觉模型之间的比较，可以识别预定的视觉事件。在步骤608，如果已经识别了预定的视觉事件，扬声器106A-D生成输出警报。在步骤610，处理器406发送通知。通知可以发送到指定的电话号码、电子邮件地址或紧急人员。

在一些实施例中，摄像机108A-D和麦克风110A-D使得系统能够提供多方向视图和声音检测，例如360°，以跟随小孩在房间中四处运动并检测事故或安全危险。在一些实施例中，系统可以将预定的视觉事件识别为入侵者进入、火、跌落的人、或者房间中的异常运动或外来对象。在一些实施例中，基于图9所示的示例性过程700，执行步骤602至610(识别预定的声音事件)和步骤612至610(识别预定的视觉事件中)9。

如图9所示，在步骤701处，处理器406接收视频数据，如本公开中其他部分所描述的。处理器406可以基于从视频数据提取的视频帧来检测一个或多个事件。例如，在这种检测的情况下，在步骤702，处理器406从视频数据中提取多个视频帧。在一些实施例中，处理器406连续地从视频数据中提取视频帧。备选地，在一段时间内提取一个视频帧。作为示例，处理器406可以从视频数据的每秒或每分钟提取一个视频帧。在一些实施例中，提取视频帧的速率是可调节的。例如，最初针对视频数据的每分钟提取一个视频帧。可以在视频数据的某个时间点处检测到事件(例如，检测到移动对象)。从该检测时间点起(和/或时间点之前的某个时间段)，提取视频帧的速率从每分钟一帧的先前速率增加到例如每分钟30帧。如果随后在一段时间内不再检测到更多事件，则速率降低。例如，如果先前检测到的移动对象不包括在例如10分钟内的视频数据中，则速率降低回到每分钟一帧。

在步骤704，处理器406分析所提取的视频帧。例如，处理器406分析视频帧以识别包括在图像中的对象。在步骤706，处理器406可以基于视频帧的分析来检测一个或多个事件。要检测的示例性事件可以包括运动事件(例如，检测到移动对象)、对象识别(例如，犯罪嫌疑人被识别)、事件识别(例如，婴儿站在婴儿床中)、紧急事件(例如，检测到火情)等。例如，处理器406通过确定视频帧的像素值与前一视频帧的像素值的差异来检测包括在视频数据中的运动事件。如果差异超过阈值，则识别出运动事件。备选地，如图8所示，捕捉的视频数据可以与存储在存储器中的视觉模型进行比较。基于该比较，可以识别预定的视觉事件。

在步骤708，处理器406确定是否检测到任何事件。如果没有检测到事件(708-否)，则在步骤710，过程700结束，或备选地进行到步骤701，并且基于与视频相关联的数据的分析来检测事件(步骤716至722)，如下所描述。附加地或备选地，处理器可以通过同时分析视频数据和音频数据或通过以任何顺序分析数据来确定是否检测到任何事件。

另一方面，如果检测到一个或多个事件(708-是)，则在步骤712，处理器406生成警报，例如扬声器106A-D的输出。处理器406还识别与所识别的事件相关联的一个或多个视频帧。在步骤714，处理器406向指定的电话号码、电子邮件地址或紧急人员发送通知。在一些实施例中，处理器406可以获得与所识别的事件有关的信息和/或与所述事件相关联的所识别的视频帧有关的信息。例如，处理器406可以获得检测到的事件的时间戳(例如事件的开始时间)和/或时间窗口(例如，事件的开始时间和结束时间)。处理器406还可以获得事件的起点和终点。在一些实施例中，处理器406还识别与检测到的事件相关联的视频帧(例如，事件期间以及在事件之前和/或之后的时间段内的视频帧)。获得的信息可以经由网络404无线地传送到远程装置402。

例如，在这种检测的情况下，在步骤716，处理器406从音频数据中提取多个音频帧。在一些实施例中，处理器406连续地从音频数据提取音频帧。备选地，在一段时间内提取一个音频帧。作为示例，处理器406可以从音频数据的每秒或每分钟提取一个音频帧。在一些实施例中，提取音频帧的速率是可调节的。例如，最初针对音频数据的每分钟提取一个音频帧。可以在音频数据的某个时间点检测到事件(例如，检测到声音)。从该检测时间点起(和/或时间点之前的某个时间段)，提取音频帧的速率从每分钟一帧的先前速率增加到例如每分钟30帧。如果随后在一段时间内不再检测到更多事件，则速率降低。例如，如果先前检测到的声音不包括在例如10分钟内的声音数据中，则速率降低回到每分钟一帧。在步骤718，处理器406分析所提取的音频帧。例如，处理器406分析音频帧以识别声音。

在步骤720，处理器406基于音频数据的分析来检测一个或多个事件。例如，处理器406可以基于在音频数据中检测到的破碎玻璃(例如，窗户)的声音来检测闯入事件。在步骤722，处理器406确定是否检测到任何事件。如果没有检测到事件(722-否)，则在步骤724，过程700结束，或备选地进行到步骤701，并且可以基于对视频数据的视频帧的分析来检测事件(步骤702至708)，如上所述。此外，处理器406可以通过同时分析视频数据和音频数据或通过以任何顺序分析数据来确定是否检测到任何事件。作为示例，处理器406可以确定包括在音频数据中的任何语音或任何特定声音(例如，笑声、哭泣、尖叫、掌声、玻璃破碎等)。

另一方面，如果检测到一个或多个事件(722-是)，处理器406在步骤712生成警报。在步骤714，处理器406发出通知。例如，可以将通知发送到指定的电话号码、电子邮件地址或紧急人员。在一些实施例中，基于视频帧的分析的检测到的事件与视频数据的音频数据交叉参考，以确认检测到的事件，反之亦然。

图10是用于识别事件并在用户界面上显示产品的示例性过程800的流程图。本文所用的术语“产品”是指可以出售给可能满足需求或需要的市场的任何东西，例如，小玩意或服装。如图10所示，在步骤802，麦克风110A-D感测声学信号并生成音频数据。在步骤804，处理器406将生成的音频数据与保存在存储器408中的声音模型进行比较。在步骤806，基于音频数据和声音模型之间的比较，可以识别声音事件。在步骤808，显示器104基于在步骤806中识别的声音事件显示图像。在步骤810，显示器104显示用户界面。

如图10所示，在步骤812，摄像机108A-D捕捉图像并生成视频数据。在步骤804，处理器406将生成的视频数据与保存在存储器408中的视觉模型进行比较。在步骤814，基于视频数据和视觉模型之间的比较，可以识别视觉事件。在步骤808，显示器104基于在步骤814中识别的视觉事件显示图像。在步骤810，显示器104显示用户界面。

如图10进一步所示，在步骤816，摄像机108A-D捕捉一维或二维码的图像并生成图像数据。本文所用的术语“码”是指包含关于其所附着的物品的信息的任何机器可读光学标签，例如矩阵条形码、快速响应(QR)码。在步骤804处，处理器406将生成的图像数据与保存在存储器408中的视觉模型进行比较。在步骤818，基于图像数据和视觉模型之间的比较，可以识别码。在步骤808，显示器104基于在步骤818中通过网络404识别的码来显示图像。在步骤810，显示器104显示用户界面。

在其他实施例中，装置100检测环境中的一个或多个对象并将检测到的对象的信息传送到远程设备。远程设备可以是供应商系统，其允许基于所感测的信息发出产品的订单。在一些实施例中，声音事件可以包括命令，例如，用于搜索指定产品的命令。作为另一示例，装置100识别由用户执行的手势，其可以切换到在线购物模式并且接收关于购物需求的用户输入。在一些实施例中，装置100可以从QR码识别产品，并经由网络404显示产品。系统可以显示用户界面来购买产品或搜索类似的产品。

在一些实施例中，摄像机108A-D可被配置为捕捉真实产品的图像，并且处理器406识别产品。显示器104可以呈现用户界面，用于用户对产品重新订购或自动搜索相同产品的在线供应商或呈现类似产品的搜索结果。

虽然本文已经描述了说明性实施例，但是如本领域技术人员基于本公开将认识到的，任何和所有实施例的范围具有等同的要素、修改、省略、(例如，跨越各实施例的方面的)组合、适应性变化和/或改变。权利要求中的限制要根据权利要求中使用的语言进行宽的解释，而不限于本说明书中或在申请的检查期间描述的示例。这些示例被解释为非排他性的。此外，所公开的过程的步骤可以以任何方式进行修改，包括通过重新排序步骤和/或插入或删除步骤。因此，要将说明书和实施例仅视为说明性的，其真实范围和主旨由所附权利要求及其等同物的全部范围表示。

Claims

1.一种用于感测环境的装置，包括：

传感器，用于感测所述装置的环境；

扬声器；以及

显示器，能够在多个方向上显示视频信息，其中所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息，并且所述扬声器被配置为在多个方向上生成与所述视频信息相关联的声音。

2.根据权利要求1所述的装置，其中，所述装置具有圆柱形或球形形状。

3.根据权利要求1所述的装置，其中，所述传感器包括音频检测器、视觉检测器或两者。

4.根据权利要求3所述的装置，其中，所述传感器包括麦克风，所述麦克风检测所述环境中的语音和所述语音的方向。

5.根据权利要求3所述的装置，其中，所述传感器包括围绕所述装置布置的麦克风阵列。

6.根据权利要求3所述的装置，其中，所述传感器包括具有所述环境的多方向视图的摄像机。

7.根据权利要求3所述的装置，其中，所述传感器包括围绕所述装置布置的摄像机阵列。

8.根据权利要求1所述的装置，其中，所述传感器被配置为感测所述环境中的人。

9.根据权利要求8所述的装置，其中，所述传感器被配置为感测所感测到的人的信息，该信息包括所述人的语音、所述人相对于所述装置的位置、命令、触摸和/或手势。

10.根据权利要求1所述的装置，其中，所述扬声器是多方向的，并且能基于所感测的所述环境的信息来调整不同方向上的声音的播放。

11.根据权利要求1所述的装置，其中，所述装置是会议装置，并且所述显示器被配置为显示远程会议参与者的信息。

12.根据权利要求11所述的装置，其中，所述显示器被配置为在所述装置的本地用户的方向上显示另一参与者的信息。

13.根据权利要求12所述的装置，其中，所述远程参与者的信息包括所述远程参与者的图像、所述远程参与者的位置或所述远程参与者与所述本地用户共享的视频数据。

14.根据权利要求1所述的装置，其中，所述装置是虚拟现实设备，并且所述传感器检测所述环境中的一个或多个对象，并将检测到的对象的被感测的信息传送到远程设备。

15.根据权利要求14所述的装置，其中，所述远程设备是监控服务器。

16.根据权利要求14所述的装置，其中，所述远程设备是供应商系统，所述供应商系统允许基于所感测的信息来发出产品的订单。

17.一种用于感测环境的方法，包括：

利用传感器感测环境；

利用扬声器生成输出；以及

利用显示器在多个方向上显示视频信息，其中所述显示器被配置为基于由所述传感器感测到的对象的信息在不同方向上显示视频信息，并且所述扬声器在多个方向上生成与所述视频信息相关联的声音。

18.根据权利要求17所述的方法，还包括：检测所述环境中的语音和所述语音的方向。

19.根据权利要求17所述的方法，还包括：感测所述环境的多方向图像。

20.根据权利要求17所述的方法，还包括：利用所述传感器感测所述环境中的人。

21.根据权利要求20所述的方法，其中，所述传感器感测所述人的信息，该信息包括所述人的语音、所述人相对于所述传感器的位置、命令、触摸和/或手势。

22.根据权利要求17所述的方法，其中，所述扬声器是多方向的，并且能够基于由所述传感器感测到的所述环境的信息来调整不同方向上的声音的播放。

23.根据权利要求20所述的方法，还包括：显示远程参与者的信息。

24.根据权利要求23所述的方法，其中，所述远程参与者的信息被呈现在所述环境中的所述人的方向上。

25.根据权利要求23所述的方法，其中，所述远程参与者的信息包括所述远程参与者的图像、所述远程参与者的位置或所述远程参与者与所述人共享的视频数据。

26.根据权利要求17所述的方法，还包括：

检测所述环境中的一个或多个对象；以及

将检测到的所述一个或多个对象的信息传送到远程设备。

27.根据权利要求26所述的方法，其中所述远程设备是监控服务器。

28.根据权利要求26所述的方法，其中，所述远程设备是供应商系统，所述供应商系统允许基于所传送的信息来发出产品的订单。

29.一种非暂态计算机可读介质，存储可执行的指令，所述指令被配置为使处理器执行如下处理：

利用传感器感测环境；

利用扬声器生成输出；以及