CN114972727A

CN114972727A - 用于多模态神经符号场景理解的系统和方法

Info

Publication number: CN114972727A
Application number: CN202210184892.XA
Authority: CN
Inventors: J·弗朗西斯; A·奥尔特拉马里; C·谢尔顿; S·穆尼尔
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2021-02-26
Filing date: 2022-02-28
Publication date: 2022-08-30
Also published as: US20220277217A1; DE102022201786A1

Abstract

一种用于图像处理的系统包括被配置为捕获至少一个或多个图像的第一传感器、被配置为捕获声音信息的第二传感器、与第一传感器和第二传感器通信的处理器，其中处理器被编程为接收一个或多个图像和声音信息，利用编码器提取与图像和声音信息相关联的一个或多个数据特征，经由解码器向时空推理引擎输出元数据，其中利用解码器和一个或多个数据特征导出元数据，利用时空推理引擎和元数据确定一个或多个场景，以及响应于一个或多个场景输出控制命令。

Description

用于多模态神经符号场景理解的系统和方法

技术领域

本公开涉及利用诸如相机、雷达、麦克风等之类的传感器的图像处理。

背景技术

系统可以是能够执行场景理解的。场景理解可以指代系统在对象与环境中的其他对象的语义关系和/或环境本身的地理空间或时间结构的基础上来推理对象及其参与的事件的能力。用于场景理解任务的基本目标是在给定场景中的上下文的一些观察的情况下，生成可以预测（例如，分类）高级语义事件的统计模型。可以通过使用放置在各种位置的传感器设备来使能实现对场景上下文的观察，所述传感器设备允许传感器以传感器模态的形式从场景获得上下文信息，诸如视频记录、声学模式、环境温度时间序列信息等。给定来自一个或多个模态（例如，传感器）的这样的信息，系统可以对由场景中的实体发起的事件进行分类。

发明内容

根据一个实施例，一种用于图像处理的系统包括：第一传感器，被配置为捕获至少一个或多个图像；第二传感器，被配置为捕获声音信息；与第一传感器和第二传感器通信的处理器，其中处理器编程为接收一个或多个图像和声音信息，利用编码器提取与图像和声音信息相关联的一个或多个数据特征，经由解码器向时空推理引擎输出元数据，其中利用解码器和一个或多个数据特征导出元数据，利用时空推理引擎和元数据确定一个或多个场景，以及响应于所述一个或多个场景输出控制命令。

根据第二实施例，一种用于图像处理的系统，该系统包括：第一传感器，被配置为捕获指示环境的第一信息集；第二传感器，被配置为捕获指示环境的第二信息集；与第一传感器和第二传感器通信的处理器。处理器被编程为接收指示环境的第一信息集和第二信息集，利用编码器提取与图像和声音信息相关联的一个或多个数据特征，经由解码器向时空推理引擎输出元数据，其中利用解码器和一个或多个数据特征导出元数据，利用时空推理引擎和元数据确定一个或多个场景，以及响应于所述一个或多个场景输出控制命令。

根据第三实施例，一种用于图像处理的系统，该系统包括：第一传感器，被配置为捕获指示环境的第一信息集；第二传感器，被配置为捕获指示环境的第二信息集；以及与第一传感器和第二传感器通信的处理器。处理器被编程为接收指示环境的第一信息集和第二信息集，提取与指示环境的第一信息集和第二信息集相关联的一个或多个数据特征，输出指示一个或多个数据特征的元数据，利用元数据确定一个或多个场景，以及响应于所述一个或多个场景输出控制命令。

附图说明

图1示出了监视设置的示意图；

图2是根据本公开实施例的无线系统的概览系统图；

图3A是计算流水线的第一实施例；

图3B是利用传感器数据的融合的计算流水线的替代实施例；

图4是从一个或多个视频相机和传感器捕获的示例场景的图示。

具体实施方式

本文中描述了本公开的实施例。然而，应当理解，公开的实施例仅仅是示例，并且其他实施例可以采取各种形式和替代形式。各图不一定是按比例的；一些特征可以被放大或最小化以示出特定组件的细节。因此，本文中公开的具体结构和功能细节不应被解释为限制性的，而仅仅是作为用于教导本领域技术人员以各种方式采用实施例的代表性基础。如本领域普通技术人员应当理解的，参考各图中的任何一个图示和描述的各种特征可以与一个或多个其他图中图示的特征相组合，以产生未被明确图示或描述的实施例。图示的特征的组合提供了典型应用的代表性实施例。然而，对于特定的应用或实现，可能期望与本公开的教导一致的特征的各种组合和修改。

根据实施例，实施例包括用于多模态神经符号场景理解的框架。该框架也可以被称为系统。该框架可以包括硬件和软件的合并。从硬件方面来说，来自各种传感器设备的数据（“模态”）经由无线协议流向软件组件。从那里开始，初始软件过程组合并变换这些传感器模态，以便为进一步的下游软件过程提供预测上下文，所述下游软件过程诸如是机器学习模型、人工智能框架和用于用户定位和可视化的web应用。系统的这些组件共同使能实现场景理解，环境事件检测和推理范式，其中在较低级别处检测和分类子事件，在较高级别处推理更抽象的事件，并且使在两个级别处的信息对操作员或最终用户可用，尽管事件的可能性跨越任意时间段。因为这些软件过程将多个传感器模态融合在一起，可以包括神经网络（NN）作为事件预测模型，并且可以包括符号知识表示和推理（KRR）框架作为时间推理引擎（例如，时空推理引擎），所以可以说该系统执行了用于场景理解的多模态神经符号推理。

图1示出了监视设施或设置1的示意图。监视设施1包括监视模块布置2和评估设备3。监视模块布置2包括多个监视模块4。监视模块布置2被布置在监视区域5的天花板上。监视模块布置2被配置用于监视区域5的视觉的、基于图像的和/或基于视频的监视。

在每种情况下的监视模块4包括多个相机6。特别地，在一个实施例中，监视模块4可以包括至少三个相机6。相机6可以被配置为彩色相机，并且尤其被配置成紧凑型相机，例如智能手机相机。相机6可以具有查看方向7、视角和视场8。监视模块4的相机6以类似对准的查看方向7布置。特别地，相机6被布置成使得在每个情况下相机6在逐对的基础上具有视场8的重叠。监视相机6可以布置在监视模块4中的固定定位和/或彼此之间以固定相机间隔布置。

在一个实施例中，监视模块4可以用机械方式和经由数据通信连接彼此耦合。在另一个实施例中，也可以利用无线连接。在一个实施例中，监视模块布置2可以通过监视模块4的耦合来获得。监视模块布置2的一个监视模块4被配置为集合传输模块10。集合传输模块10具有数据接口11。数据接口特别地可以形成通信接口。所有监视模块4的监视数据被供应到数据接口11。监视数据包括由相机6记录的图像数据。数据接口11被配置为将所有图像数据共同地供应到评估设备3。为此，数据接口11可以耦合到评估单元3，特别是经由数据通信连接耦合到评估单元3。监视模块可以经由无线数据连接（例如，Wi-Fi、LTE、蜂窝等）进行通信。

通过利用监视设施1，可以在监视区域5中检测和/或跟踪移动对象9。为此，监视模块4向评估设备3供应监视数据。监视数据可以包括相机数据和从对环境进行监视的各种传感器获取的其他数据。这样的传感器可以包括硬件传感器设备，包括以下各项中的任何一个或组合：生态传感器（温度、压力、湿度等）、视觉传感器（监控相机）、深度传感器、热成像仪、定位元数据（地理空间时间序列）、无线信号接收器（WiFi、蓝牙、超宽带等）和声学传感器（振动、音频）或被配置为收集信息的任何其他传感器。相机数据可以具有通过利用相机6对监视区域5进行监视的图像。评估设备3例如可以立体地评估和/或监视监视区域5。

图2是根据本发明实施例的无线系统200的概览系统图。在一个实施例中，无线系统200可以包括无线单元201，该无线单元201用于生成和传送信道状态信息（CSI）数据或任何无线信号和数据。在监视情形下，无线单元201可以与雇员215或客户207的移动设备（例如，蜂窝电话、可穿戴设备、平板计算机）通信。例如，雇员215的移动设备可以向无线单元201发送无线信号219。在接收到无线分组时，系统单元201获得分组接收的相关联CSI值或任何其他数据。此外，无线分组可以包含关于设备ID的可标识信息，例如用于标识雇员215的MAC地址。因此，系统200和无线单元201可以不利用从雇员215的设备交换的数据来确定各种热点。

虽然WiFi可以用作无线通信技术，但也可以利用任何其他类型的无线技术。例如，如果系统可以从无线芯片组获得CSI，则可以利用蓝牙。如无线单元201和无线单元203所示，系统单元可以能够包含被附接到多达三个天线的WiFi芯片组。无线单元201可以包括监视在POI周围行走的各种人的相机。在另一个示例中，无线单元203可以不包括相机，并且仅与移动设备通信。

系统200可以覆盖各种过道（在其他环境之中），诸如209、211、213、214。过道可以被定义为货架205或店面墙壁之间的行走路径。在各种过道209、211、213、214之间收集的数据可以用于生成热图并关注商店的流量。该系统可以分析来自所有过道的数据，并利用该数据来标识商店其他区域的流量。例如，从各种客户207的移动设备收集的数据可以标识商店接收高流量的区域。该数据可以用来放置某些产品。通过利用该数据，商店经理可以确定高流量不动产的位置相对于低流量不动产的位置。

CSI数据可以在无线信号中发现的分组中传送。在一个示例中，无线信号221可以由客户207和他们相关联的移动设备生成。系统200可以利用在无线信号221中发现的各种信息来确定客户207是否是雇员或其他特性。客户207也可以经由信号222与无线单元203通信。此外，在无线信号221中发现的分组数据可以与无线单元201或单元203这二者通信。无线信号221、219和217中的分组数据可以用于提供与运动预测相关的信息和与雇员、客户的移动设备相关的流量数据等。

虽然无线收发器201可以传送CSI数据，但是也可以利用其他传感器、设备、传感器流和软件。这些硬件传感器设备包括以下各项中的任何一个或组合：生态传感器（温度、压力、湿度等）、视觉传感器（监控相机）、深度传感器、热成像仪、定位元数据（地理空间时间序列）、无线信号接收器（WiFi、蓝牙、超宽带等）和声学传感器（振动、音频）或被配置为收集信息的任何其他传感器。

所描述的各种实施例可以以分布式消息传递和应用平台为基础，该分布式消息传递和应用平台促进硬件传感器设备和软件服务之间的相互通信。该实施例可以通过网络接口卡（NIC）或其他类似硬件的方式与硬件设备对接。这些硬件传感器设备包括以下各项中的任何一个或组合：生态传感器（温度、压力、湿度等）、视觉传感器（监控相机）、深度传感器、热成像仪、定位元数据（地理空间时间序列）、无线信号接收器（WiFi、蓝牙、超宽带等）和声学传感器（振动、音频）或被配置为收集信息的任何其他传感器。来自这些设备的信号可以作为时间序列数据、视频流和音频分段跨平台流动。该平台可以通过应用编程接口（API）的方式与软件服务对接，使得这些软件服务能够消耗传感器数据并将其变换成跨多个平台理解的数据。一些软件服务可以将传感器数据变换成元数据，然后该元数据可以作为传感器信息的辅助“视图”或信息提供给其他软件服务。建筑信息模型（BIM）软件组件举例说明了该操作，将用户位置信息取作输入，并提供上下文化的地理空间信息作为输出；这包括用户与场景中感兴趣的对象的接近度，这对于由符号推理服务执行的时空分析是至关重要的（如下面更详细描述的）。其他软件服务可以消耗原始数据和变换的数据这二者，以便对场景事件做出最终预测或生成环境控制命令。

可以在各种实施例中使用提供这样的流式传输设施的任何通信平台。该系统可以允许操纵所得的传感器数据流、基于那些传感器数据流的预测建模、可行动信息的可视化以及场景事件的空间和时间上鲁棒的分类和消歧（disambiguation）。在一个实施例中，对于作为系统基础的通信平台，可以使用“安全和保障事项（Security and Safety Things ，SAST）平台”。除了上述实用程序之外，SAST平台还可以是移动应用生态系统（Android），连同将这些移动应用与传感器设备和软件服务相对接的API。其他通信平台也可以用于相同的目的，包括但不限于RTSP、XMPP和MQTT。

系统中软件服务的子集可以负责消耗和利用关于传感器的元数据、原始传感器数据和关于总体系统的状态信息。在收集了这样的原始传感器数据之后，可以进行预处理以滤除噪声。附加地，这些服务可以变换传感器数据，以便（i）生成可预测场景事件的机器学习特征和/或（ii）生成将直接影响环境状态的控制命令、警报或通知。

预测模型可以利用一个或多个传感器模态作为输入，例如，视频帧和音频分段。预测模型的初始组件（例如，“编码器”）可以对每个模态输入执行单峰信号变换，产生与输入模态开始时存在的一样多的中间特征。这些特征是由数值组成的状态矩阵，每个状态矩阵表示从观察到特征表示的函数映射。总之，输入的所有特征表示可以被表征为统计嵌入空间，其将高级语义概念表达为统计模式或聚类。图3A和图3B示出了对这样的计算流水线的描绘。

单峰映射的嵌入空间可以在统计上协调（即，服从条件），以便将两个模态对准或将一个模态的约束强加于另一个模态。

可替代地，可以将来自模态的特征矩阵相加在一起、连结或用于寻找它们之间的外积（或等同物）；然后，这些操作的结果经受进一步的功能映射——这一次，映射到联合嵌入空间。图3B示出了这样的方法的计算流水线。使用预测模型的最终组件（即，“解码器”），来自这些嵌入空间的样本（协调特征、联合特征等）然后与标签配对，并用于下游统计训练和推断，诸如事件分类或控制。

可以利用实施例的感测、预测和控制技术的示例，诸如利用基于深度的传感器的占用估计、使用深度传感器的对象检测、使用身体形状信息的室内占用者热舒适度、基于占用轨迹的HVAC控制、基于局部能量使用和电网的恒温控制负载的协调，以及未来室内热环境条件的时间序列监测/预测。所有这些技术都可以集成到神经符号场景理解系统中，以便使能基于分类的事件进行场景表征或实现环境的改变。许多这样的统计模型作为系统内的软件服务存在，其中输入、输出和中间变换性质由预测的目标事件类型来确定。

为了使能在所述系统中实现时间上鲁棒的场景理解，所述系统可以包括语义模型，所述语义模型包括（1）室内场景（“DoORS”）的领域本体，和（2）用于预测人类活动的可扩展推理规则集。诸如Apache Jena Fuseki服务器之类的服务器可以被利用并在后端运行以维护（1）和（2）：从各种传感器（例如，SAST Android相机）接收基于传感器的数据，其包括建筑信息模型（BIM）信息，合适地实例化DoORS知识图并将预定义的SPARQL查询的结果发送到前端，其中预测的活动覆盖在实况视频馈送上。

首先，该系统可以构建在感兴趣的场景上下文中执行的动作的数据集。该系统可以分析对各种各样的场景上下文不可知的某些活动，所述场景上下文诸如是机场、商场、零售空间和餐饮环境。感兴趣的活动可以包括“吃饭”、“在膝上型计算机上工作”、“从架子拾取对象”、“在商店中检查物品”等。

一个实施例中的中心概念可以是事件-场景的概念，其被定义为场景的子类型，集中于相同时空窗口内发生的事件。例如，“可以从冰箱取汽水罐”可以被建模为场景，该场景包括以人类为中心的事件，像（1）“面对冰箱”，（2）“打开冰箱的门”，（3）“伸出其手臂”和（4）“抓住汽水罐”。清楚地，这些事件在时间上是有联系的：（2）、（3）和（4）顺序地发生，而（1）持续前一序列的整个持续时间（面对冰箱是与冰箱中放置的物品进行交互的条件）。以该方式，系统可以能够联合地将场景建模为个体原子事件的有意义的序列（或组合）。

除了表示事件场景之外，使能实现人类活动预测的关键是在本体中包括基于传感器数据的观察。特别是，用例的关键观察类型是基于距离的概念；给定场景中的家具集——其相应的位置根据对应的BIM模型是先验已知的——以及场景中的人的实时位置，DoORS可以用于在接近度基础上来推断人类活动。例如，一个人站在咖啡机旁，伸出手臂，（可能）正在做咖啡，并且肯定不是正在在远处的水槽中洗碗。

距离观察典型地涉及至少两个物理实体（由感兴趣的类特征在场景本体中定义）和一个度量。因为OWL/RDF的表达能力不足以定义n元关系，所以在DoORS中，系统可以具体化“距离”关系。例如，系统可以创建类“Person_CoffeeMachine_Distance”，其实例将人和咖啡机作为参与者（这两者都被提供有唯一的ID），并且其度量与精确的数值相关联，标示米数。具体化是一种广泛使用的方法，用于实现在领域的复杂性和本体语言的相对表达能力之间的折衷。在DoORS中，对在给定时间处谁是离咖啡机最近的人或者人距离咖啡机是否比距离室内空间的其他已知元素更近的评估，转化为标识在给定的人和家具元件或限定的对象之间具有最小值的距离的观察。注意，人和环境元素之间的最短距离是“0”，这意味着对象的（经变换的）2D坐标落入所考虑的人的边界框的坐标内。

如上面说明的，在人和环境元素（像家具或对象）之间的距离被观察，以米为单位测量，并在特定时间发生。当多个人和环境元素出现在场景中时，距离总是被表示为成对的观察。自然，观察的时间属性对于对活动进行推理是关键的：观察是事件的部分，并且场景典型地包括事件序列。在该上下文中，像“人x喝咖啡休息”这样的场景可以包括“做咖啡”、“喝咖啡”、“在水槽中洗杯子”和/或“将杯子放入洗碗机”，其中这些事件中的每一个将取决于人x相对于“咖啡机”、“桌子”、“水槽”和“洗碗机”的不同接近度。距离以人的相对位置为中心，并且典型地在每个时刻处改变；在DoORS中，如在上面的示例中根据观察到的距离序列，或者根据观察到的距离的持续时间来预测事件/活动。

结果示出，通过利用两个传感模态（视频和空间环境知识），该系统可以构建软件服务，该软件服务提供超出来自视频分析的基本人员检测的场景理解设施。因此，利用更多的传感器创建了附加的场景理解。通过直接在具有这样的设置的系统上工作，例如在SAST相机平台上，该系统可以使能实现快速原型制作和将结果快速传递到各种用例。虽然一个实施例关于智能建筑用例，但是该方法仍然适用于许多其他领域。图3A和图3B示出了所提出的方法的两个可能的计算流水线。

图3A是被配置用于理解多模态场景的计算流水线的第一实施例。图3B是利用传感器数据融合的计算流水线的替代实施例。如图3A中所示，系统可以包括用于多模态场景理解的计算流水线。该系统可以从多个传感器接收信息。在下面所示的实施例中，利用了两个传感器，然而，可以利用多个传感器。在一个实施例中，传感器301可以获取声学信号，而传感器302可以获取图像数据。图像数据可以包括静止图像或视频图像。传感器可以是任何传感器，诸如Lidar传感器、雷达传感器、相机、视频相机、声纳、麦克风或上述任何传感器或硬件等。

在框305和框307处，系统可以涉及数据的预处理。数据的预处理可以包括将数据转换成统一的结构或类。预处理可以经由板载处理或非板载处理器进行。数据的预处理可以通过更新某些数据、数据结构或被认为是准备用于处理的其他数据来帮助促进与系统相关的处理、机器学习或融合过程。

在框309和311处，系统可以利用编码器对数据进行编码，并应用特征提取。在框317，编码的数据或特征提取可以被发送到时空推理引擎。编码器可以是取得输入（例如，各种传感器数据或预处理的传感器数据）并输出特征图/向量/张量的网络（FC、CNN、RNN等）。这些特征向量可以保存表示输入的信息、特征。通过将字符转换成独热（one-hot）向量表示，输入的每个字符可以作为输入馈送到ML模型/编码器中。在编码器的最后一个时间步处，所有先前输入的最终隐藏表示将作为输入传递给解码器。

在框313和315处，系统可以利用机器学习模型或解码器对数据进行解码。解码器可以用于向时间推理引擎317输出元数据。解码器可以是网络（通常与编码器具有相同的网络结构，但是定向相反），它从编码器取得特征向量，并给出与实际输入或预期输出的最佳接近匹配。解码器模型可以能够解码状态表示向量，并给出每个字符的概率分布。可以使用softmax函数来生成每个字符的概率分布向量。这进而帮助生成完整的直译词。元数据可以用于通过指示从几个传感器捕获的信息来促进多模态场景中的场景理解，所述信息可以一起促进指示场景。

时空推理引擎317可以被配置为捕获多模态传感器的关系，以帮助确定各种场景和情景。因此，时间推理引擎317可以利用元数据来捕获这样的关系。时间推理引擎317然后可以向模型馈送当前事件，并执行预测和输出预测事件集和似然概率。因此，时间推理引擎可以使得能够将大数据集（例如，带有时间戳的原始数据）解释成不同抽象级别的有意义概念。这可以包括将个体时间点抽象为纵向时间间隔，从一系列结果测量中计算趋势和梯度，以及检测不同类型的模式，否则所述模式可能隐藏在原始数据中。时间推理引擎可以与领域本体319一起工作（可选）。领域本体319可以是包含概念、数据和实体的类别、属性和它们之间的关系的表示、正式命名和定义的本体，所述概念、数据和实体对一个、多个或所有公开领域进行实体化。因此，通过定义表示主题的概念和类别集，本体是一种示出主题领域的属性以及它们如何相关的方式。

接下来，时间推理引擎317可以在框321输出场景推理。场景推断可以识别活动，确定控制命令，或者对传感器拾取的各种事件进行分类。场景的一个示例可以是“从冰箱取汽水罐”，这可以通过由各种传感器收集的几个以人类为中心的事件来概括。例如，先前的示例“从冰箱取汽水罐”可以被建模为场景，该场景包括以人类为中心的事件，像（1）“面对冰箱”，（2）“打开冰箱的门”，（3）“伸出手臂”和（4）“抓住汽水罐”。清楚地，这些事件在时间上是有联系的：（2）、（3）和（4）顺序地发生，而（1）持续前一序列的整个持续时间（面对冰箱是与冰箱中放置的物品进行交互的条件）。通过该方式，系统可以能够将场景联合建模为个体原子事件的有意义的序列（或组合）。因此，该系统可以鉴于阈值时间段来分析和解析不同的事件，与被标识的其他事件进行比较和对比，并且鉴于该事件来确定场景或序列。因此，当某事持续整个持续时间时，系统要求可能是相机和传感器利用传感器数据来标识第一事件（“面对冰箱”），与其他事件（事件2-4）相比，该第一事件（“面对冰箱”）必须发生整个时间段。更进一步地，系统可以分析事件序列来标识某个场景。

在框323处，系统可以输出可视化和控制。例如，如果系统标识特定类型的场景，则它可以生成环境控制命令。这样的命令可以包括基于所标识的场景类型提供警报或开始记录数据。在另一个实施例中，可以输出警报，可以开始记录，等等。

图3B是计算流水线的替代实施例。替代实施例可以包括例如允许融合模块320从特征提取或解码器获得特征的过程。然后，融合模块可以融合所有数据，以生成要馈送到单个机器学习模型/解码器中的数据集。

图4是包括多个人的场景理解的示例。在图4中，该场景可以包括多个人（例如，在DoORS类“客户”的实例中），一个人走过桌子，并且另一个人在水槽中清洗他的手。系统可以正确地标识其边界框包括水槽的边界框的人（距离=“0.0”）是“清洗（DoORS类“活动”的实例）”，并且它还可以推断因为没有检测到对象（DoORS类“产品”的实例），所以这种类型的清洗活动被DoORS类“CustomerActivityNoPRoduct”归并（例如，在底部）。推理过程由查询发起，该查询比较场景中的人和对象之间的基于距离的度量，并触发基于规则的推理来预测最可能的活动（例如，在右上角）。注意，该示例是从该系统的演示中生成的，在该上下文中，示出了该系统可以通过桌子将正在“行走”的人分类为不相关，并且可以在不需要基于知识的推理的支持的情况下，而是通过利用机器学习，来在场景中识别这样的活动。

本文公开的过程、方法或算法可以可交付到处理设备、控制器或计算机/由处理设备、控制器或计算机实现，所述处理设备、控制器或计算机可以包括任何现有的可编程电子控制单元或专用电子控制单元。类似地，过程、方法或算法可以以多种形式存储为由控制器或计算机可执行的数据和指令，其包括但不限于永久存储在诸如ROM设备的不可写存储介质上的信息和可更改地存储在诸如软盘、磁带、CD、RAM设备和其他磁性和光学介质的可写存储介质上的信息。过程、方法或算法也可以在软件可执行对象中实现。可替代地，可以使用合适的硬件组件——诸如专用集成电路（ASIC）、现场可编程门阵列（FPGA）、状态机、控制器或其他硬件组件或设备或者硬件、软件和固件组件的组合——来整体或部分地体现所述过程、方法或算法。

虽然上面描述了示例性实施例，但是不旨在使这些实施例描述权利要求所包含的所有可能的形式。说明书中使用的词语是描述的词语，而不是限制的词语，并且应当理解，可以在不脱离本公开的精神和范围的情况下做出各种改变。如先前描述的，各种实施例的特征可以被组合以形成可能未被明确描述或图示的本发明的另外的实施例。虽然各种实施例可能已经被描述为在一个或多个期望的特性方面提供了优于其他实施例或现有技术实现的优点或者比其他实施例或现有技术实现优选，但是本领域的普通技术人员应当认识到，一个或多个特征或特性可以取决于具体的应用和实现被折衷以实现期望的总体系统属性。这些属性可以包括但不限于成本、强度、耐用性、生命周期成本、适销性、外观、包装、大小、适用性、重量、可制造性、组装容易性等。照此，在任何实施例都被描述为在一个或多个特征方面与其他实施例或现有技术实现相比不太合期望的程度上，这些实施例不在本公开的范围之外，并且对于特定应用可以是合期望的。

Claims

1.一种用于图像处理的系统，包括：

第一传感器，被配置为捕获至少一个或多个图像；

第二传感器，被配置为捕获声音信息；

与第一传感器和第二传感器通信的处理器，其中所述处理器被编程为：

接收所述一个或多个图像和所述声音信息；

利用编码器提取与图像和声音信息相关联的一个或多个数据特征；

经由解码器向时空推理引擎输出元数据，其中利用解码器和所述一个或多个数据特征导出元数据；

利用时空推理引擎和元数据确定一个或多个场景；和

响应于所述一个或多个场景输出控制命令。

2.根据权利要求1所述的系统，其中，所述时间推理引擎与领域本体数据库通信，并且利用所述领域本体数据库来确定所述一个或多个场景。

3.根据权利要求2所述的系统，其中，所述领域本体数据库包括指示利用所述元数据的一个或多个场景的信息。

4.根据权利要求2所述的系统，其中，所述领域本体数据库存储在与所述处理器通信的远程服务器处。

5.根据权利要求1所述的系统，其中，所述系统包括被配置为捕获温度信息的第三传感器，并且所述处理器与第三传感器通信，并且接收温度信息并从温度信息提取相关联的一个或多个数据特征。

6.根据权利要求1所述的系统，其中，所述处理器进一步被编程为在输出元数据之前融合与图像和声音信息相关联的一个或多个数据特征。

7.根据权利要求1所述的系统，其中，所述处理器进一步被编程为将与图像和声音信息相关联的一个或多个数据特征分离地提取到多个解码器。

8.根据权利要求1所述的系统，其中，所述解码器与机器学习网络相关联。

9.一种用于图像处理的系统，包括：

第一传感器，被配置为捕获指示环境的第一信息集；

第二传感器，被配置为捕获指示环境的第二信息集；

接收指示环境的第一信息集和第二信息集；

经由解码器向时空推理引擎输出元数据，其中利用解码器和一个或多个数据特征导出元数据；

利用时空推理引擎和元数据确定一个或多个场景；和

响应于所述一个或多个场景输出控制命令。

10.根据权利要求9所述的系统，其中，第一信息集和第二信息集具有不同类型的数据。

11.根据权利要求9所述的系统，其中，第一传感器包括温度传感器、压力传感器、振动传感器、湿度传感器或二氧化碳传感器。

12.根据权利要求9所述的系统，其中，所述处理器进一步被编程为在利用所述编码器提取所述一个或多个数据特征之前，预处理指示环境的第一信息集和第二信息集。

13.根据权利要求9所述的系统，其中，所述系统包括融合模块，所述融合模块用于融合来自第一信息集和第二信息集的融合数据集。

14.根据权利要求13所述的系统，其中，元数据是从融合数据集提取的。

15.一种用于图像处理的系统，包括：

第一传感器，被配置为捕获指示环境的第一信息集；

第二传感器，被配置为捕获指示环境的第二信息集；

接收指示环境的第一信息集和第二信息集；

提取与指示环境的第一信息集和第二信息集相关联的一个或多个数据特征；

输出指示一个或多个数据特征的元数据；

利用元数据确定一个或多个场景；和

响应于所述一个或多个场景输出控制命令。

16.根据权利要求15所述的系统，其中，所述系统包括解码器，所述解码器被配置为利用机器学习网络。

17.权利要求15的系统，其中，第一信息集和第二信息集具有不同类型的数据。

18.根据权利要求15所述的系统，其中，第一传感器包括温度传感器、压力传感器、振动传感器、湿度传感器或二氧化碳传感器。

19.根据权利要求15所述的系统，其中，所述系统包括融合模块，所述融合模块用于融合来自第一信息集和第二信息集的融合数据集。

20.根据权利要求19所述的系统，其中，所述融合数据集被发送到机器学习模型，以输出与所述融合数据集相关联的元数据。