CN110933955B

CN110933955B - 基于对来自摄像机图像的对象的检测的警报事件的改进生成

Info

Publication number: CN110933955B
Application number: CN201880035284.4A
Authority: CN
Inventors: M·费尔希; A·勒布瓦; F·波特; F·德利留
Original assignee: Netatmo SAS
Current assignee: Netatmo SAS
Priority date: 2017-06-02
Filing date: 2018-06-01
Publication date: 2022-03-18
Anticipated expiration: 2038-06-01
Also published as: CN110933955A; US11393210B2; US20200184227A1; EP3410413A1; WO2018220150A1; EP3410413B1

Abstract

本发明涉及一种设备，该设备从一个或多个摄像机接收图像，处理图像并自动检测摄像机视场中的未知人类，例如以防止盗窃。为此，该设备包括处理逻辑，该处理逻辑被配置为检测面部，识别面部并验证面部是否对应于已知人类的面部集合中的面部。如果检测到面部但不对应于已知面部，则触发警报事件。处理逻辑还被配置为在包括至少人类类别的对象类别中对图像中的对象进行分类。如果识别出人类，但针对该人类未检测到面部，则也触发警报事件。因此，在检测到不是已知的、可信赖的人类的任何情况下，都可以触发警报。

Description

基于对来自摄像机图像的对象的检测的警报事件的改进生成

技术领域

本发明涉及对来自摄像机图像的对象的检测的领域。更具体地，本发明涉及基于对摄像机图像中的对象的检测的事件的改进生成。

背景技术

视频监测是通过视频图像监测场所。视频监测提供了通常用于管理场所安全性的灵活性和效率。实际上，视频监测可以不断执行，并且捕获场所的图像允许对图像进行远程和自动处理。尽管可以对图像进行视觉处理(例如通过在控制中心实时显示，在该控制中心中安全代理实时监控来自视频监控摄像机的图像)，但是渐增的视频监测图像源的数量增加了自动处理视频监测图像的需求。

视频监测是防止盗窃的有效解决方案。用于防止盗窃的常规视频监测解决方案依赖于放置在房屋内或房屋周围的一个或多个摄像机。一个或多个摄像机不断捕获图像，并实时自动对其进行处理。如果基于对摄像机图像的分析检测到人类，则发出警报(alert)，除非警报被去激活。该警报可以包括在房屋内发出的告警(alarm)，自动将检测到的人类的照片发送到警察，自动呼叫警察以使得警察能够进行快速干预，或者要采取的用于防止盗窃、限制留给盗贼来执行盗窃的时间、或者允许警察抓获盗贼采取的任何其他相关措施。

在这样的系统中，告警可以由视频监测系统的用户(例如，房屋的所有者)使用数字代码手动地激活或去激活。例如，用户可以在进入或接近房屋时手动去激活告警，并在离开房屋或远离房屋时手动激活告警。因此，仅当不被预期的人(例如盗贼)接近或进入房屋时，才发出告警。

然而，这样的系统给系统的用户带来了手动激活或去激活告警的重要负担。实际上，如果用户忘记在进入房屋之前去激活告警，则可能触发许多错误告警。相反，如果用户忘记在离开房屋时激活告警，则可能错过盗贼。

与普通公共视频监测系统有关的另一挑战是视场的不受限制的性质。实际上，与其中摄像机的视场受到控制的特定视频监测系统(例如机场视频监测系统)相比，普通公共视频监测系统的摄像机可以放置在非常不同的环境中。因此，由于可以针对许多不同的角度或视场执行人的图像，因此难以对来自这种摄像机的图像进行分析。同时，由这种摄像机捕获的图像可能包含许多不同的运动对象(街上的汽车、宠物...)，这使图像的自动分析变得困难。

因此，需要一种设备来自动检测未知人员并相应地触发警报事件，该设备不需要来自用户的繁琐的手动激活或去激活，并且能够在具有许多不同性质的移动对象的环境中进行操作。

发明内容

为此，本发明公开了一种设备，包括：通向图像传感器的通信链路；通向存储器的通信链路，所述存储器存储用于面部的第一集合的面部识别数据；处理逻辑，所述处理逻辑包括执行以下步骤的适配：从所述图像传感器接收图像；在包括人类类别的一组对象类别中对所述图像中的一个或多个对象进行分类；检测所述图像中的一个或多个面部；执行对一个或多个面部的面部识别；验证所述一个或多个面部是否包括在所述面部的第一集合中；如果所述一个或多个面部中的面部或属于所述人类类别的所述一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件。

本发明的设备有利地允许检测入侵者，即使在包括具有不同性质的移动对象的复杂环境中。同时，当检测到已知人员时，在不需要来自用户的手动干预的情况下，本发明的设备不触发警报。

有利地，所述触发警报事件的适配包括如果所述一个或多个面部中的面部未包括在所述面部的第一集合中，则触发警报事件的适配。

如果检测到不属于授权人员列表的人类，则允许触发警报。

有利地，所述触发警报事件的适配包括如果属于所述人类类别的一个或多个对象中的对象与所述一个或多个面部中的任何一个面部不对应，则触发警报事件的适配。

如果检测到人类但不能识别该人类，则允许触发警报。

有利地，所述处理逻辑包括用于检测所述图像中的运动区域的适配，并且所述用于对一个或多个对象进行分类的适配包括用于仅在所述运动区域中对所述一个或多个对象进行分类的适配；所述用于检测一个或多个面部的适配包括用于仅在所述运动区域中检测所述一个或多个面部的适配。

这允许减少处理逻辑上的计算负载而不降低其检测能力。

有利地，所述用于接收图像的适配包括用于从所述图像传感器接收视场的一系列连续图像的适配，所述图像属于所述一系列连续图像；所述用于对所述一个或多个对象进行分类的适配包括用于执行以下步骤的适配：计算图像与所述系列中紧邻的前一个图像之间的像素差；并基于所述像素差检测所述图像中的运动区域。

这允许有效地检测两个连续图像之间的运动区域。

有利地，所述用于检测所述图像中的一个或多个面部的适配包括用于基于所述运动区域的尺寸以及人类的面部与身高之间的预定义比率来定义面部检测区域的尺寸的适配。

这允许以单个窗口尺寸来测试面部检测，并且因此大大减少了由于面部检测而产生的计算负载。同时，如果移动区域表示人类，则人类的身体尺寸与面部尺寸之间的比例对于不同的人类而言基本上相似，则预定义比例允许计算提供最可靠结果的窗口尺寸。因此，这允许大大减少由于面部检测而导致的计算负载，而不显著降低面部检测的效率。

有利地，所述用于检测所述图像中一个或多个面部的适配包括用于确定所述一个或多个面部的相应位置的适配；所述用于对所述图像中一个或多个对象进行分类的适配包括用于确定属于所述人类类别的对象的相应位置的适配；所述处理逻辑包括用于通过将所述一个或多个面部的相应位置与属于所述人类类别的对象的相应位置进行比较来检测属于所述人类类别的所述一个或多个对象中的对象是否与所述面部集合中的所述一个或多个面部中的面部不对应的适配。

这允许验证是否已经针对被分类为人类的每个对象检测到面部。

有利地，所述用于检测所述图像中的一个或多个面部的适配包括仅在其中已检测到属于所述人类类别的对象的所述运动区域中检测面部的适配。

仅在运动区域中的面部检测大大减小了被浏览以检测面部的像素区域的尺寸，因此减少了面部检测的计算负载。同时，所述设备旨在识别移动的人类。因此，仅在移动区域中执行面部检测减少了计算负载，但没有降低检测性能。

有利地，所述处理逻辑包括用于验证是否存在至少一个其中没有检测到面部的运动区域；所述用于对一个或多个对象进行分类的适配包括仅在其中没有检测到面部的运动区域中对一个或多个对象进行分类的适配。

这减少了其中应执行对象分类的运动区域的数量，从而减少了对象分类的计算负载。

有利地，所述用于执行所述面部识别的适配包括用于使用被训练用于面部识别的神经网络来执行对所述一个或多个面部的面部识别的适配。

使用神经网络提供了用于面部识别的有效解决方案，该解决方案特别好地适合于本发明的设备，其中可以用大量不同的视角来捕获面部。此外，神经网络可以由所述用户标记的图像(例如，用户在收到警报通知时接收到的图像)进行连续训练。

有利地，训练神经网络用于面部识别，并且使用由所述设备的用户标记的面部图像来构建面部的第一集合。

使用来自所述设备的用户的标签来训练神经网络允许有效地训练所述神经网络以用于检测所述用户的亲属，并且因此减少不正确警报的数量。

有利地，所述用于对所述图像中的一个或多个对象进行分类的适配包括用于使用被训练用于对象分类的神经网络对所述图像中的一个或多个对象进行分类的适配。

使用神经网络提供了用于对象分类的有效解决方案，其特别好地适合于本发明的设备，其中可以检测不同性质的移动对象。

有利地，所述一组对象类别包括表示所述设备的用户的非人类的动物的类别；所述用于对所述图像中的一个或多个对象进行分类的适配包括用于使用神经网络来对一个或多个对象进行分类的适配，所述神经网络被训练用于基于所述非人类的动物的图像的训练集来对表示所述非人类的动物的对象进行分类；所述处理逻辑包括如果所述一个或多个对象中的对象属于表示所述非人类的动物的类别，则触发特定事件的适配。

这允许有效地检测非人类的动物，例如用户的宠物。因此，可以向用户对他/她的动物的活动发出警报。

有利地，所述存储器存储用于面部的第二集合的面部识别数据；所述处理逻辑包括执行以下步骤的适配：验证所述一个或多个面部是否属于所述面部的第二集合；如果所述一个或多个面部中的面部属于所述面部的第二集合，则触发警报事件。

这特别允许如果检测到被禁止在场的人员，接收警报。同时，具有特定的识别数据允许更有效地检测这种人。

有利地，所述处理逻辑适于在从所述面部的第一集合中的面部识别开始的预定义持续时间内不触发任何警报事件。

这防止了当已知人员伴随有所述设备未知的亲属时可能引起的警报。

本发明还公开了一种方法，其包括：从图像传感器接收图像；在包括人类类别的一组对象类别中，对所述图像中的一个或多个对象进行分类；检测所述图像中的一个或多个面部；执行对所述一个或多个面部的面部识别；验证所述一个或多个面部是否包括在所述面部的第一集合中；如果所述一个或多个面部中的面部或属于所述人类类别的所述一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件。

本发明还公开了一种包括计算机代码指令的计算机程序，所述计算机代码指令被配置为：从图像传感器接收图像；在包括人类类别的一组对象类别中，对所述图像中的一个或多个对象进行分类；检测所述图像中的一个或多个面部；执行对所述一个或多个面部的面部识别；验证所述一个或多个面部是否包括在所述面部的第一集合中；如果所述一个或多个面部中的面部或属于所述人类类别的一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件。

附图说明

通过以下对仅出于说明目的而提供的多个示例性实施例的描述及其附图，将可以更好地理解本发明，并且本发明的各种特征和优点将变得显而易见，在附图中：

图1a、图1b和图1c分别示出了本发明的多个实施例中的用于生成警报事件的两个系统和摄像机；

图2a、图2b、图2c和图2d示出了本发明的多个实施例中的设备的功能架构的四个示例；

图3a、图3b和图3c示出了本发明的多个实施例中的处理逻辑的配置的三个示例；

图4a、图4b和图4c示出了本发明的多个实施例中的用户应用的显示的三个示例；

图5示出了本发明的多个实施例中的方法的示例。

具体实施方式

图1a、图1b和图1c分别示出了本发明的多个实施例中的用于生成警报事件的两个系统和摄像机。

图1a示出了本发明的多个实施例中的用于生成警报事件的第一系统。

系统100a包括配备有处理能力的摄像机110a、一个或多个服务器120a、一个或多个用户设备130a和警笛140a。

摄像机110a和警笛140a大致位于相同的地方，例如，在同一房间或在同一房屋中。可以使用任何适当的通信链路(例如使用诸如Zigbee^TM、Wi-Fi^TM、Bluetooth^TM、NFC等的有线或无线电连接)来将摄像机110a连接到警笛140a。摄像机110a以及一个或多个用户设备130a使用任何适当的连接(例如，通过互联网、网关、3G/4G/5G连接、长距离无线电连接等)来连接到一个或多个服务器。

一个或多个用户设备130a可以是配备有连接、显示和计算能力的任何用户设备，例如计算机、平板电脑、连接的手表、智能电话等。一个或多个用户设备130a可以使用应用通过服务器120a与摄像机110a交互。例如，一个或多个用户设备130a可以通过服务器120a向摄像机110a提供指令。相反，一个或多个用户设备130a可以通过服务器从摄像机110a接收通知和图像。例如，一个或多个用户设备130a可以向摄像机110a发送指令以使视频监测停止或恢复，并且从摄像机110a接收视频监测图像的流和未知的人类的图像。

摄像机110a被配置为检测其视场中未知人类的出现。例如，可以将其放置在门前或房屋中，以防止盗窃。例如，摄像机110a可以是

摄像机，是由本申请的申请人开发的一系列摄像机，这些摄像机是多种功能的(polyvalent)、易于使用的并且可以容易地放置在房屋中的任何地方。如将在下文中更详细地解释的那样，当在其视场中检测到人类时，摄像机110a能够确定该人类是否是被授权接近摄像机110a的位置的已知的人类、未知的人类或者在本发明的多个实施例中，被禁止接近摄像机110a的位置的人类。在后一种情况下，摄像机110a被配置为触发警报事件，以防止未经授权的人类接近摄像机的位置和/或识别这种人类。

根据本发明的各种实施例，在警报事件的情况下，摄像机110a可以被配置为执行许多不同的动作。例如，它可以被配置为激活警笛140a发出的警报，以便使未经授权的人类逃离。摄像机110a还可以将事件的通知以及未经授权的人类的图像发送到一个或多个服务器120a。一个或多个服务器120a可以立即将通知和图像传送到一个或多个用户设备130a。

在某些情况下，被摄像机110a检测到但不能被识别为具有已知面部的人类是未经授权的人类，例如盗贼。在这种情况下，系统100a的用户可以使用用户设备130a上的应用来执行根据情况所需的任何步骤，例如自动报警、将盗贼的图像存储在摄像机和/或云中以便进一步识别等。

在其他情况下，即使他/她是授权人类，也将其识别为未知，因为他/她尚未被摄像机识别(例如，其中放置摄像机110a的房屋的所有者的亲属，该亲属第一次访问该房屋)，或者因为未正确识别他(她)的身份(例如，如果在非常不寻常的情况下捕获了被识别为未知的人类的图像：例如具有非同寻常的视角，或者如果该人类拥有新发型)。在这种情况下，系统100a的用户可以向该应用输入该人类是经授权的人类和/或在由摄像机110a发送的图像上识别该人类。因此，该图像可以用于进一步训练和改进摄像机110a的面部识别，以便该人类下次他/她进入摄像机的视场时被正确识别。

因此，系统100a有利地允许简单、有效和灵活地检测未知的人类。系统100a可以在包括不同性质的移动对象的环境中有效地使用。例如，摄像机110a可以捕获建筑物的入口的图像，或者捕获在背景中具有移动的汽车的街道的图像。而且，系统100a可以在其整个执行过程中被训练和改进。同时，通过摄像机110a进行的人类检测的执行允许尽快地检测未经授权的人类和激活警笛140a的告警。

图1b示出了本发明的多个实施例中的用于生成警报事件的第二系统。

系统100b包括多个摄像机110b、一个或多个服务器120b、一个或多个用户设备130b以及警笛140b。

多个摄像机110b、一个或多个服务器120b、一个或多个用户设备130b和警笛140b以分别与摄像机110a、一个或多个服务器120a、一个或多个用户设备130a和警笛140a相同的方式彼此通信。

多个摄像机110b将视频流发送到一个或多个服务器120b，并且一个或多个服务器120b处理该视频流以检测未知的人类并相应地触发警报事件。因此，根据本发明的不同实施例，基于从一个或多个摄像机110b接收的图像，一个或多个服务器被配置为触发告警并执行许多后续操作，例如激活警笛140b的告警、发送一个或多个用户设备130b的通知。当警报激活警笛140b时，一个或多个服务器被配置为向多个摄像机110b发送激活警笛的通知，该多个摄像机110b又将激活的指令发送到警笛。一个或多个服务器120b可以从一个或多个用户设备130b接收用户指令，例如以激活/去激活告警或识别人类。参照系统100a和图1a讨论的所有实施例可以分别适用于系统100b。由一个或多个服务器120b对人类检测的执行允许对检测方法进行容易的更新。同时，使用同一服务器上的多个摄像机进行检测允许创建面部的大型数据集。

仅通过示例的手段来提供系统100a和100b。根据本领域技术人员的需要，可以使用本发明的其它系统。

图1c示出了在本发明的多个实施例中的用于生成警报的摄像机。

在该示例中，摄像机110c是由申请人开发的Netatmo

摄像机。摄像机110c可以放置在许多不同的环境中。它包括具有宽视场的全高清(高清晰度)图像传感器111c，以捕获其环境的图像或视频。它还包括处理器，该处理器基于图像以及以太网和Wi-Fi连接来检测未知人员，以便连接到本地网络并向用户应用发送警报和通知。图1a和图1b的摄像机110a和110b可以是例如Netatmo

摄像机。

图2a、图2b、图2c和图2d示出了本发明的多个实施例中的设备的功能架构的四个示例。

图2a示出了本发明的多个实施例中的设备的功能架构的第一示例。

设备200a包括图像传感器210a。因此，设备200a包括通向图像传感器210a的内部通信链路，例如数据链路。根据本发明的各个实施例，图像传感器210a可以是数字图像传感器，例如数字摄像机。图像传感器210a可以被配置为捕获其视场的数字图像。在本申请中，术语“图像传感器”通常是指被配置为捕获视场的图像的布置。图像传感器210a可以采取许多不同的形式。例如，图像传感器210a可以是CCD(电荷耦合器件)传感器、CMOS(互补金属氧化物半导体)传感器、APS(有源像素传感器)或任何种类的合适传感器。图像传感器210a也可以通过组合捕获随后级联的图像的多个基本图像传感器来获得。

根据本发明的各个实施例，图像传感器210a的视场是固定的。在本发明的其他实施例中，图像传感器210a的视场是可变的。例如，传感器210a绕轴旋转，或者用户可以移动设备200a就是这种情况。例如，可以定义图像传感器210a的视场，使得如果入侵者进入受限或私有区域，则图像传感器210a能够捕获入侵者的图像。例如，图像传感器210a可以放置在建筑物的入口处、在门前或房间内。

根据本发明的各种实施例，图像传感器210a可以捕获单个图像或一系列图像。例如，图像传感器可以以预定义频率(例如以25fps(每秒帧))捕获图像。根据本发明的各种实施例，可以以多种不同的格式和分辨率来发送图像。例如，它们可以以静止(原始或压缩)图像的形式或以视频流的形式进行传送。可以使用任何合适的格式。

设备200a还包括一个或多个存储器220a，其存储用于面部的第一集合的面部识别数据。

面部的第一集合对应于已知人员的面部，其检测不应触发警报。例如，如果设备200a被配置为检测房屋中的入侵者，则面部的第一集合可以对应于房屋的居民及其亲属或朋友的面部。

根据本发明的各种实施例，一个或多个存储器220a可以是易失性或非易失性存储器。可以使用任何合适类型的存储器，例如DRAM(动态随机存取存储器)、SRAM(静态随机存取存储器)、ROM(只读存储器)、NVRAM(非易失性随机存取存储器)、闪存、固态存储装置、磁带、光盘驱动器。本领域技术人员可以识别任何合适类型的存储器。

根据本发明的各种实施例，面部识别数据可以取决于所使用的面部识别技术的类型而采取多种不同形式。例如，面部识别数据可以在神经网络分类器的输出处采取与面部的第一集合中的面部相对应的向量、矩阵或特征图的形式。

设备200a还包括处理逻辑230a，处理逻辑230a被配置为从图像传感器210a接收图像并基于这些图像触发警报事件。如将在下文中更详细地描述的，处理逻辑230a特别地被配置为检测来自图像传感器210a的图像中的未知人类、可能的入侵者，并相应地触发警报事件。

因此，设备230a是独立的设备，当未知的人类或入侵者进入图像传感器的视场时，它允许发出警报。此外，处理逻辑230a和一个或多个存储器220a在设备200a上的本地化允许在检测到入侵者时由设备200a瞬时触发警报。

图2b示出了本发明的多个实施例中的设备的功能架构的第二示例。

设备200b包括图像传感器210b、一个或多个存储器220b和处理逻辑230b，存储器220b存储用于面部的第一集合的面部识别数据，处理逻辑230b被配置为从图像传感器210b接收图像并基于这些图像触发警报事件，它们分别类似于图像传感器210a、一个或多个存储器220a和处理逻辑230a。

设备200b连接到警笛240b。在警报事件发生时，处理逻辑230b被配置为激活警笛240b的告警。设备200b也连接到一个或多个服务器。设备200b进一步连接到一个或多个服务器250b，服务器250b又连接到一个或多个用户设备260b。参考图1a讨论的摄像机110a、警笛140a、一个或多个服务器120a、一个或多个用户设备130a及它们之间的连接的实施例分别适用于设备200b、警笛140a、一个或多个服务器250b、一个或多个用户设备260b以及它们之间的连接。

因此，设备200b允许在检测到入侵者时激活警笛告警。同时，通过一个或多个服务器250b通向一个或多个用户设备260b的连接允许由用户进行对设备200b的操作的远程控制和监视。此外，处理逻辑230b和一个或多个存储器220b在设备200b上的本地化允许在检测到入侵者时由设备200b瞬时触发警报。

图2c示出了本发明的多个实施例中的设备的功能架构的第三示例。

设备200c包括图像传感器210c和处理逻辑230c，处理逻辑230c被配置为从图像传感器210c接收图像并基于这些图像触发警报事件，图像传感器210c和处理逻辑230c分别类似于图像传感器210a和处理逻辑230a。

设备200b连接到电话241c。设备200c还连接到一个或多个服务器。设备200c进一步连接到一个或多个服务器250c，服务器250c又连接到一个或多个用户设备260c。参考图1a讨论的摄像机110a、一个或多个服务器120a、一个或多个用户设备130a以及它们之间的连接的实施例分别适用于设备200b、一个或多个服务器250b、一个或多个用户设备260b及它们之间的连接。

在发生警报事件时，处理逻辑230c被配置为使用电话241c自动执行对警察的呼叫，并将警报通知发送到一个或多个用户设备260c。

为了触发警报事件，处理逻辑230c依赖于一个或多个存储器220c存储用于面部的第一集合的面部识别数据。一个或多个存储器220c位于一个或多个服务器中。设备200c与一个或多个服务器250c之间的连接允许处理逻辑230c针对相关的面部识别数据对一个或多个服务器进行查询，并接收所述面部识别数据。如果服务器用于向多个用户或用户组提供服务，则每个用户或用户组可以在私有存储器或存储器的私有部分上具有私有面部识别数据。这样可以确保数据的私密性，并且面部识别数据只能由授权人员访问。

因此，设备200c允许在检测到入侵者时激活警笛告警。同时，通过一个或多个服务器250c通向一个或多个用户设备260b的连接允许对设备200c的操作的远程控制和监视。此外，一个或多个存储器在一个或多个服务器200c上的本地化允许在属于相同用户或用户组的多个设备当中共享用于面部的第一集合的面部识别数据。有利地，这允许创建已知的面部的大型数据库。

面部的第一集合可以由单个用户或用户组使用。该用例例如非常适合拥有多个房屋并希望保护他/她的所有房屋免受入侵和盗窃的用户。因此，面部的第一集合可以与用于所有房屋的设备共享，并且可以通过针对房屋当中的多个摄像机执行的图像和识别数据来丰富。

面部的第一集合也可以被多个用户使用。这对于建立受信者的面部的大型数据集很有用。

图2d示出了本发明的多个实施例中的设备的功能架构的第四示例。

设备200d是包括一个或多个存储器220d的计算设备，该存储器220d存储用于面部的第一集合的面部识别数据，并且连接到设备211d，所述设备211d包括图像传感器210d，图像传感器210d类似于图像传感器210a。设备200d包括处理逻辑230d，其被配置为从图像传感器210a接收图像，并基于这些图像触发警报事件。设备200d进一步连接到一个或多个用户设备260d和警笛240d。警笛240d位于设备211d附近，例如在同一房间中。

根据本发明的各种实施例，设备211d可以是例如具有通信能力的摄像机。设备200d可以是具有计算、存储和通信能力的任何种类的计算设备。在本发明的多个实施例中，设备200d是连接到设备211d的服务器、以及用户设备260d中的应用。在未在附图中示出的本发明的多个实施例中，设备200d是服务器集群中的服务器，并且一个或多个存储器220d可以部分或全部位于服务器集群中的其它服务器中。

参考图1b讨论的摄像机110b、一个或多个服务器120b、一个或多个用户设备130b、警笛140b以及它们之间的连接的实施例分别适用于设备211d、设备200d、一个或多个用户设备260d、警笛240d以及它们之间的连接。

在发生警报事件时，处理逻辑230d被配置为自动激活警笛240d的告警，并将警报通知发送到一个或多个用户设备260d。

因此，设备200d允许在检测到入侵者时激活警笛告警。同时，处理逻辑230d以及一个或多个存储器220d在设备200d中的本地化允许检测技术的管理中的更大的灵活性。

通过本发明的实施例的非限制性说明的手段来提供设备200a、200b、200c和200d的功能架构。本领域技术人员可以实现本发明的设备的其他功能架构。

图3a、图3b和图3c示出了本发明的多个实施例中的处理逻辑的配置的三个示例。

根据本发明的各种实施例，处理逻辑可以是根据软件指令、处理器的硬件配置或它们的组合进行操作的处理器。应当理解，本文讨论的任何或所有功能可以以纯硬件实现方式和/或通过根据软件指令、机器学习引擎或神经网络的配置或它们的组合进行操作的处理器来实现。处理逻辑还可以是并行执行操作的多核处理器、一系列处理器或它们的组合。还应该理解，任何或所有软件指令可以存储在非暂时性计算机可读介质中。术语“处理逻辑的配置”是指配置处理逻辑以执行操作的任何手段(例如，硬件配置、软件指令、机器学习、训练或神经网络、或任何其他配置手段或它们的组合)。

在下面的描述中，术语“处理逻辑”表示本发明的任何实施例中的设备的任何处理逻辑，例如，处理逻辑230a、230b、230c或230d。术语“一个或多个存储器”在本发明的任何实施例中表示任何存储器，例如一个或多个存储器220a、一个或多个存储器220b、一个或多个存储器220c或一个或多个存储器220d；术语“图像传感器”适用于本发明的任何实施例中的任何图像传感器，例如图像传感器210a、图像传感器210b、图像传感器210c或图像传感器210d。

图3a示出了本发明的多个实施例中的处理逻辑的配置300a的第一示例。

图3a示出了摄像机110c的处理逻辑的配置300a。然而，这仅是出于说明目的而显示，并且配置300a可以由包括本发明的处理逻辑的任何设备(例如一个或多个服务器120b)执行。

首先将处理逻辑配置310为从图像传感器接收图像。上面关于图像传感器对图像的捕获所描述的所有实施例都适用于由处理逻辑对图像的接收。在本发明的多个实施例中，处理逻辑被配置为接收数字图像。如上所述，可以以任何格式(例如，原始、无损压缩或有损压缩格式)和任何分辨率来接收图像。处理逻辑可以接收单个图像或一系列图像。例如，处理逻辑可以以预定义频率(例如以15或25fps(每秒帧))从图像传感器接收连续图像。在本发明的多个实施例中，图像传感器是固定的，并且处理逻辑被配置为接收相同视场的连续图像。根据本发明的各种实施例，处理逻辑可以以连续的独立静止图像的形式或以视频流的形式来接收图像。

处理逻辑还被配置为在包括人类类别的一组类别中对图像中的一个或多个对象进行分类320。图像中对象的分类主要旨在检测移动对象，诸如人类、宠物或车辆。根据本发明的各个实施例，可以在其中对图像的对象进行分类的一组类别是可变的。它包括至少“人类”类别，并且可以包含诸如“动物”、“其他”和/或更详细的类别(诸如“猫”、“狗”、“汽车”或“卡车”)的类别。

根据本发明的各种实施例，可以使用任何合适的对象分类的方法来对图像中的对象进行分类。例如，可以使用如下公开的方法来执行对象分类：Ren，R.S.，He，K.，和Faster，R.C.N.N.的《借助区域提议网络实现实时目标检测》的arXiv预印本，arXiv预印本:1506.01497或Liu，W.，Anguelov，D.，Erhan，D.，Szegedy，C.，Reed，S.，Fu，C.Y.，&Berg，A.C.2016年10月)通过施普林格国际出版社在欧洲计算机视觉会议上(第21-37页)的《SSD：单发多盒检测器》。(Ren,R.S.,He,K.,&Faster,R.C.N.N.Towards real-time objectdetection with region proposal networks,arXiv preprint.arXiv preprint arXiv:1506.01497,or Liu,W.,Anguelov,D.,Erhan,D.,Szegedy,C.,Reed,S.,Fu,C.Y.,&Berg,A.C.(2016,October).SSD:Single shot multibox detector.In European Conferenceon Computer Vision(pp.21-37).Springer International Publishing)。

在本发明的多个实施例中，使用训练的神经网络在图像中检测人类。例如，可以使用在Szegedy，C.，Liu，W.，Jia，Y.，Sermanet，P.，Reed，S.，Anguelov，D.，&Rabinovich，A.2015年在IEEE计算机视觉和模式识别会议论文集(第1-9页)中的《随着卷积而深入》(Szegedy,C.,Liu,W.,Jia,Y.,Sermanet,P.,Reed,S.,Anguelov,D.,...&Rabinovich,A.(2015).Going deeper with convolutions.In Proceedings of the IEEE Conferenceon Computer Vision and Pattern Recognition(pp.1-9))公开的技术使用神经网络对图像中的对象进行分类。

本发明也可以使用不基于神经网络的人类检测技术。例如，可以使用基于描述符和分类器的方法，例如由以下文献所公开的：Dalal，N.，和Triggs，B 2005年6月在《计算机视觉和模式识别2005》(CVPR2005)中的《用于人类检测的定向梯度直方图》，IEEE计算机学会会议(第1卷，第886-893页)(Dalal,N.,&Triggs,B.(2005,June).Histograms oforiented gradients for human detection.In Computer Vision and PatternRecognition,2005.CVPR2005.IEEE Computer Society Conference on(Vol.1,pp.886-893).IEEE)。

神经网络可以与表示每个类别的参考向量相关联，这些类别例如可以存储在一个或多个存储器中。神经网络通过从图像生成表示对象的向量并将这些向量与参考向量进行比较来对图像中的对象进行分类。在本发明的多个实施例中，用户可以通过向由图像传感器捕获的图像添加分类和标签来改进神经网络的训练。

在本发明的多个实施例中，每个分类的对象与其在图像中的位置相关联。图像中对象的位置可以以任何相关形式(例如图像中的以像素形式的水平和垂直位置、或者对象在图像中占据的区域的描述)表达。

与对象分类320并行，处理逻辑还被配置为检测330图像中的一个或多个面部。可以使用任何已知技术来执行面部检测330，所述已知技术例如，由以下公开的技术：Viola，P.，&Jones，M.在2001在《计算机视觉和模式识别》(CVPR2001)中的《使用简单功能的增强级联进行快速对象检测》，Liao，S.，Jain，A.K.，&Li，S.Z.2016年在IEEE的2001IEEE计算机学会会议论文集(第1卷，第I-I页)《快速准确的无约束面部检测器》，《IEEE模式分析和机器智能交易，38(2)，211-223》，或Chen，D.，Ren，S.，Wei，Y.，Cao，X.，&Sun，J.2014年9月通过施普林格国际出版社在计算机视觉欧洲会议上(第109-122页)的《联合级联面部检测和对准》。(Viola,P.,&Jones,M.(2001).Rapid object detection using a boosted cascade ofsimple features.In Computer Vision and Pattern Recognition,2001.CVPR2001.Proceedings of the 2001IEEE Computer Society Conference on(Vol.1,pp.I-I).IEEE,Liao,S.,Jain,A.K.,&Li,S.Z.(2016).A fast and accurate unconstrainedface detector.IEEE transactions on pattern analysis and machine intelligence,38(2),211-223,or Chen,D.,Ren,S.,Wei,Y.,Cao,X.,&Sun,J.(2014,September).Jointcascade face detection and alignment.In European Conference on ComputerVision(pp.109-122).Springer International Publishing.)

每个检测到的面部可以与位置相关联。图像中面部的位置可以任何相关形式(例如图像中的以像素形式的水平和垂直位置、或者对象在图像中占据的区域的描述)表达。

在面部检测330的输出处，处理逻辑被配置为验证331是否已经检测到一个或多个面部。如果已经检测到一个或多个面部，则处理逻辑还被配置为执行对一个或多个面部的面部识别340。

根据本发明的各种实施例，可以使用任何合适的面部识别方法来对图像中的对象进行分类。面部识别340可以特别地确定面部的特征(面部的对称性、皮肤的颜色、眼睛的宽度……)，并使用统计技术来将面部的特征与面部识别数据的参考特征进行比较。如果在面部识别数据中面部的特征与参考面部的参考特征相匹配或接近，则面部识别可以输出面部与参考面部相对应。否则，面部识别340可以输出面部未知。

在本发明的多个实施例中，可以使用训练的神经网络来识别面部。例如，面部识别340从面部生成向量，并且面部识别数据是与面部的第一集合相对应的一组向量。因此，如果向量与对应于面部的第一集合的一组向量中的至少一个向量之间的距离低于阈值，则可以假定该向量表示面部的第一集合中的面部。面部识别340可以例如使用在Sun Y.，Liang，D.，Wang，X.，和Tang，X 2015在Deepid3《使用非常深的神经网络进行面部识别》arXiv预印本arXiv：1502.00873(Sun Y.,Liang,D.,Wang,X.,&Tang,X.(2015).Deepid3:Facerecognition with very deep neural networks.arXiv preprint arXiv:1502.00873)中公开的技术来执行。

在本发明的多个实施例中，通过从面部的多个参考图像生成面部的模型，然后将图像提供给该模型来执行面部识别340，其确定面部的图像表示的人与参考图像表示的人员是否是同一人员。这样的模型可以提供二进制结果(是同一人员或者不是)。其他种类的模型将面部的图像分类为与多个面部相对应的多个类别。

在本发明的多个实施例中，针对面部识别训练神经网络，并且使用由设备的用户标记的面部的图像来构建用于面部的第一集合的面部识别数据。这允许设备的用户专门训练神经网络，以识别他/她的亲属的面部，或更普遍地，可以识别被授权进入图像传感器的视场的人员的面部。

面部识别340的输出可以采取多种不同形式。例如，面部识别340可以输出识别的面部的ID，或如果面部识别340不能识别任何面部，则其输出空ID。

在面部识别340的输出处，处理逻辑还被配置为验证350一个或多个面部是否属于面部的第一集合。例如，这可以通过验证面部识别340返回的标识符(id)属于与面部的第一集合相对应的一组id来执行。

如果面部不属于面部的第一集合，则处理逻辑被配置为触发360警报事件。实际上，这意味着未被识别的人类因此可能是入侵者，进入了图像传感器的视场。

如果面部属于面部的第一集合，则处理逻辑进一步被配置为使用面部检测330、面部识别340和对象分类320的输出来验证370通过对象的分类320所分类的所有人类是否对应于一个或多个面部中的任何一个面部。例如，这可以通过验证人类的每个位置对应于面部的位置来实现。因此，可以并行地检测人类和面部，并基于其在图像中的位置进行关联。如将在下文中更详细描述的，其他选项可用于验证每个人类是否对应于一个面部。例如，处理逻辑可以被配置为首先检测人类，然后对图像中检测到的每个人类执行面部检测。

如果至少一个分类对象不对应于面部，则处理逻辑被配置为触发361警报事件。实际上，这意味着已检测到人类，但未识别该人类。

如果检测到人类但针对该人类没有检测到面部，或者如果面部未被识别为属于面部的第一集合，则触发警报的双重条件允许在任何可疑情况下触发警报，其中入侵者可能进入了图像传感器的视场。同时，这可以减少误报和无用的警报。例如，对于任何类型的移动都不会触发警报。此外，与被授权进入图像传感器的视场的已知人员相对应的第一组类别的使用消除了使用PIN码手动激活和去激活警报的需要。

应当注意，尽管在图3a中将面部检测330和对象分类320表示为并行执行，但是在本发明的其他实施例中，它们可以顺序执行。

如上所述，警报事件可以采取多种不同形式。更具体地，警报事件可以被定义为以下中的一项或多项：激活警笛、执行对警察的自动呼叫或向设备的用户发送通知和图片。

在接收到警报后，用户可以确认或驳回警报。如果警报是由于检测到用户已知的但未被识别的人员而引起的，或者是因为该图像传感器甚至没有捕获到该人员的图像，或者是因为在不同条件下拍摄了该人员的先前图像，则用户可以反驳警报，并在图像中标记已知人员，以便丰富面部识别数据。

在某些情况下，例如，用户可能不仅希望被警告未知或未被识别的人员的存在，而且在一些实施例中，还希望特定地指定在区域中禁止其存在的人员，例如受该地区驱逐令的人员。

为了获得该结果，一个或多个存储器可以进一步存储用于面部的第二集合(例如，禁止其存在的人员的面部)的面部识别数据。处理逻辑可以被配置为在面部识别的输出处验证面部是否属于面部的第二集合，换而言之，如果已经将面部识别为未授权人员的面部，并在这种情况下，触发警报。

这允许使警报事件对已被识别的人员定制警报事件。例如，如果未授权的人员是已知的窃贼，则可以立即向警察发出警报。类似地，设备的用户可以立即接收定制的警报通知。

在某些情况下，设备的用户可能伴随有尚未被识别的人员。例如，如果设备的用户邀请新的朋友或同事在他/她的家用餐，就属于这种情况。当新朋友或同事进入图像传感器的视场时，他/她的面部不在面部的第一集合中，并且处理逻辑可以触发警报事件。可能不希望出现这种情况，因为它会导致出现许多不必要的警报和警笛。

为了解决该问题，在本发明的多个实施例中，处理逻辑被配置为在从识别面部的第一集合中的面部开始的预定义持续时间内不触发任何警报事件。因此，一旦识别出已知人员，警报事件就被去激活预定义的持续时间(例如，从几秒钟到几分钟)。当未知人员陪伴已知人员时，这允许避免无用的警报。在本发明的多个实施例中，警报被延迟短时间段，并且一旦检测到已知人员就将其去激活。如果未知的人员陪伴已知的人员并被首先检测到，则这可以避免不必要的警报。

在本发明的多个实施例中，处理逻辑被配置为对整个图像执行面部检测330和对象分类320。这允许穷举检测图像上存在的任何感兴趣的面部或对象。这些实施例对于小图像或者在非常强大的计算能力的情况下特别方便。

然而，在本发明的多个实施例中，将以有限的计算能力实时地执行面部检测330、面部识别340和对象分类320。例如，如果图像传感器以25fps(每秒帧)的速度输出图像，则处理逻辑应每秒25次执行配置300a的整个操作，以便实时检测入侵者。已知面部检测330、面部识别340和对象分类320的算法在计算上非常密集。因此，对于标准计算能力而言，可能难以实时执行配置300a，尤其是在图像传感器以高频或高分辨率捕获图像的情况下。

在本发明的多个实施例中，处理逻辑被配置为在图像接收310与面部检测330/对象分类340之间检测311图像中的运动区域，并仅对运动区域执行面部检测330和对象分类320。这允许仅对图像的运动区域执行面部检测330和对象分类320。因此，仅在图像的一部分中执行这些步骤，并且大大降低了配置300a的计算复杂性，这允许在更广泛的计算能力上实时执行它。同时，由于用于检测入侵的感兴趣的对象以及用于检测的面部本质上是可移动的，因此仅在运动区域上执行面部检测330和对象分类320不会削弱用于检测入侵者的本发明的设备的能力。

根据本发明的各种实施例，许多技术可用于检测运动区域。在本发明的多个实施例中，处理逻辑接收相同视场的连续图像，并且被配置为通过比较至少两个连续图像来检测运动区域。

例如，处理逻辑可以被配置为逐像素比较两个连续的图像，执行滤波以去除传感器噪声，并且在存在明显的重要像素差异的区域中检测运动。处理逻辑可以进一步被配置为检测对象在运动区域内的运动是否是相干的(换而言之，对象的所有子部分是否在相同方向上移动)，并且仅在运动是相干的区域中执行后续操作。这允许进一步减轻配置300a的执行的计算负载。实际上，与不具有相干运动的运动区域相反，包括相干运动的运动区域更可能表示移动对象或人类，不具有相干运动的运动区域例如可以表示较少相干运动，例如树木中叶子的运动。

其他技术可以用于检测运动区域，诸如，举例来说，以下公开的技术：T.Aach和A.Kaup的《使用马尔可夫随机场进行图像序列自适配变化检测的贝叶斯算法》；Li，R.，Yu，C.，&Zhang，X年2006年10月发表在《信号处理》7:147-160，1995上的《图像通信》；IEEE(pp.1833-1836)上的2006IEEE国际会议的图像处理中的《可进行前景检测的快速可靠的本征背景更新》，或A.Mittal和N.Paragios在2004年计算机视觉和模式识别国际会议论文集中的《使用自适配核密度估计的基于运动的背景减法》(such as for example thetechniques disclosed by:T.Aach and A.Kaup.Bayesian algorithms for adaptivechange detection in image sequences using markov random fields.SignalProcessing:Image Communication,7:147–160,1995,Li,R.,Yu,C.,&Zhang,X.(2006,October).Fast robust eigen-background updating for foreground detection.InImage Processing,2006IEEE International Conference on(pp.1833-1836).IEEE,orA.Mittal and N.Paragios.Motion-based background subtraction using adaptivekernel density estimation.Proceedings of the international conference onComputer Vision and Pattern Recognition,2004)。

在本发明的多个实施例中，处理逻辑被配置为使用使用了滑动窗口分析的算法来执行面部检测330。这种算法依赖于分析像素窗口的内容以确定在像素窗口中是否存在面部。为了完全测试区域中是否存在面部，此类算法定义了不同尺寸的窗口，并且针对每种窗口尺寸，逐个像素地移动窗口通过整个区域。因此，可以针对每个可能的面部尺寸和面部位置检测面部。尽管提供了非常准确的结果，但此类方法的计算量很大，并且即使仅在运动区域上使用，也可能难以使用标准计算能力实时执行。

在本发明的多个实施例中，处理逻辑被配置为针对每个运动区域基于运动区域的尺寸和预定义的面部尺寸比率来计算面部尺寸，并基于面部尺寸来定义面部检测区域。例如，可以以像素的形式将面部尺寸定义为运动区域的高度的五分之一，并且可以将面部检测区域定义为其尺寸为面部尺寸的正方形区域。处理逻辑还可以被配置为取决于运动区域的形状来适配面部检测区域的形状。

这允许取决于运动区域的尺寸来定义具有先验的、好的形状和尺寸的面部检测区域。实际上，仅在运动区域表示人类的情况下才可以检测到面部。在这种情况下，人类的面部的尺寸应与人类的身高大致成比例。因此，如果运动区域表示人类，则这仅允许使用具有以下尺寸的面部检测区域来检测面部，所述尺寸具有包含面部的高可能性。

处理逻辑可以进一步被配置为取决于运动区域来定义面部检测区域的位置。例如，假设人类通常在他/她的头位于他/她的身体顶部的情况下运动，面部检测区域应首先放置在运动区域的顶部，然后逐像素移动以覆盖运动区域顶部的所有位置，其中面部有合理机会被检测到。

为了使用户避免接收无用的通知和警报，本发明的设备着重于检测入侵者。例如，宠物和动物生成的移动不被期望生成警报。

然而，用户可能希望留意宠物，或简单地接收有关他/她的宠物活动的通知。在本发明的多个实施例中，处理逻辑被配置为在包括表示用户的宠物的类的一组类中对图像中的一个或多个对象进行分类320。可以使用神经网络来执行分类，所述神经网络被训练以基于宠物图像的训练集对表示宠物的对象进行分类。该训练可以在初步训练阶段期间执行，其中，在配置300a的执行期间，如果用户接收到移动的通知，并且在由图像传感器提供的图像中标记他/她的宠物，或其组合则用户提交他/她的宠物的图像。

在检测到表示用户的宠物的对象时，处理逻辑被配置为触发特定事件，该特定事件表示正在检测宠物。在发生这种事件时，可以特定通知例如与宠物的图像一起发送到用户。因此，除了其他通知和警报之外，用户还可以监视他/她的宠物的活动。

应注意，由处理逻辑的配置300a执行的步骤的顺序不是限制性的。仅通过示例的方式提供本发明的处理逻辑的配置。

图3b示出了本发明的多个实施例中的处理逻辑的配置300b的第二示例。

在配置300b中，处理逻辑被配置为接收310输入图像；执行面部检测330；验证331是否检测到面部；如果检测到面部，则执行面部识别340；验证350面部是否属于面部的第一集合；如果它不属于面部的第一集合，则触发警报360。

对相同视场的多个连续图像执行配置300b。如果在验证331的输出处没有检测到面部，则处理逻辑被配置为验证381b在当前或先前图像中是否针对该运动区域没有检测到面部。如果是这种情况，则将处理逻辑配置为380跟踪连续图像的运动区域当中的一个或多个运动对象。

可以使用任何相关技术来执行连续图像的运动区域当中的一个或多个移动对象的跟踪380，例如，通过消除图像与一系列图像中的先前图像之间的全局变化(例如，亮度的全局变化)，并检测是否在当前图像的运动区域中识别了先前检测到的对象。在连续图像当中跟踪运动对象允许避免每个图像中的相同对象的连续分类。因为对象分类通常是非常复杂的技术，所以这减少了配置300a的计算负载。

处理逻辑还被配置为检测382一个或多个相干区域，换而言之，表示连续图像当中的相同对象的一个或多个区域。

在本发明的多个实施例中，处理逻辑被配置为320，针对已检测到的每个相干区域，在至少包括人类类别的一组类别中对对象进行分类。处理逻辑还被配置为验证321至少一个对象是否属于人类类别。替代地，处理逻辑被配置为320仅在其中先前检测的对象尚未被跟踪的区域中对对象进行分类，以便降低要执行的分类的数量。如果至少一个对象属于人类类别，则处理逻辑被配置为361触发警报。

配置300b有利地仅针对没有检测到面部的运动区域执行对象分类320。由于仅针对其中尚未检测到面部的运动区域执行复杂的对象分类320，因此这可以减少配置的计算负载。

同时，警报事件的触发条件总体上类似于配置300a的警报事件的触发条件：如果检测到面部但该面部不属于面部的第一集合，则触发360警报事件，或者，如果检测到人类却在其中没有检测到面部，则触发361警报事件。

图3c示出了本发明的多个实施例中的处理逻辑的配置300c的第三示例。

在配置300c中，处理逻辑被配置为接收输入图像310，并检测运动区域311。

与配置300a和300b相反，在配置300c中，处理逻辑未被配置为始终执行面部检测330。相反，处理逻辑被配置为在检测到运动区域311时，在连续图像的运动区域中跟踪运动对象380，检测相干区域382，在包括人类类别的一组类中对运动对象进行分类320，并验证是否至少一个对象属于人类类别321。

如果对象属于人类类别，则处理逻辑被配置为330在相对应的运动区域中执行面部检测。在本发明的多个实施例中，被分类为人类类别的对象与多个特征相关联，所述多个特征例如，运动区域中的位置、图像中的位置、以像素形式的高度、皮肤的颜色等。这些特性可以被提供作为面部检测330的输入，以便提供可能对面部检测有用的附加信息，从而提高效率和/或降低面部检测的复杂性。

处理逻辑被进一步配置为331验证是否在每个运动区域中检测到面部。如果在运动区域中没有检测到面部，则处理逻辑被配置为触发警报事件361。对于每个检测到的面部，处理逻辑被配置为执行面部识别340，并验证350面部是否在面部的第一集合中。如果至少一个面部不属于面部的第一集合，则处理逻辑被配置为触发警报事件。类似于配置300a和300b，在配置300c中，处理逻辑被配置为如果对象被分类为与没有检测到面部的人类相对应，则触发361警报事件，并且处理逻辑被配置为如果检测到至少一个面部但该面部未被识别为属于面部的第一集合，则触发360警报事件。

同时，在配置300c中，仅针对包括被分类为人类的对象的区域执行面部检测300和面部识别340。这允许减少面部检测的数量，并因此减少警报生成的计算复杂性。

图4a、图4b和图4c示出了本发明的多个实施例中的用户应用的显示的三个示例。

图4a示出了本发明的实施例中的用户应用的显示的第一示例。

在该示例中，盗贼进入用户的房屋。盗贼进入了本发明的设备的视场。本发明的设备的处理逻辑检测未知的面部，触发警报事件，并将通知以及其已检测到盗贼的图像发送到用户设备，例如用户设备130a、130b中的一个。

用户设备配备有安全应用。在接收到通知时，应用显示屏幕410a。屏幕410a包括帧(frame)411a，该帧411a显示由图像传感器捕获的盗贼的图像，该指示表示房屋的警笛发出哔哔声并且在没有来自用户的反馈的情况下将在40秒内开始鸣响。

当用户看到图像时，如果用户已知该人员，则他/她可以决定按下按钮413a来使警报声立即鸣响(在这里应该是这种情况，因为图像清楚地表示了窃贼)，或者在误报的情况下按下按钮414使警笛停止。在该示例中，如果用户在延迟期间按下按钮413a，则在误报的情况下40秒延迟有利地防止了警笛的无用的声音。

当用户按下按钮413a时，警笛立即开始鸣响。应用切换到屏幕420a。来自图像传感器的较新图像一经捕获并发送，就使用较新图像来更新帧421a。文本422a通知用户警笛正在鸣响，并且按钮424a允许用户使警笛停止。如果用户按下按钮424a，则警笛停止鸣响，并且应用切换到屏幕430a，其中用来自图像传感器的较新图像更新帧431a，并且文本432a通知用户警笛停止鸣响。

图4b示出了本发明实施例中的用户应用的显示的第二示例。

在该示例中，用户的儿童与朋友一起进入房屋。先前未被本发明的设备识别的朋友首先进入图像传感器的视场，然后儿童进入图像传感器的视场。当朋友进入图像传感器的视场时，本发明的设备检测未知的面部，使警笛发出延迟警示声，向用户设备发送通知，并从图像传感器实时流式传输视频。用户设备的应用首先显示屏幕410b，屏幕410b指示411b已经检测到人类的和指示412b警笛延迟警示鸣响。

在该实施例中，对任何已知人员的检测允许去激活告警。在本发明的其他实施例中，仅对某些已知人员(例如，成年人)的检测自动去激活告警。在本发明的其他实施例中，可以基于所检测的已知人员和未知人类的特征的组合来去激活告警。例如，当检测到未知人类时，处理逻辑可以被配置为确定未知人类的特征，例如估计未知人类的年龄。因此，告警的激活或去激活可以适配这些特征。例如，如果检测到未知人类和已知儿童，则如果检测到该未知人类也是儿童，则可以去激活告警，并且如果检测到该未知人类是成年人，则可以激活告警。而且，在检测到儿童由未知成人或更普遍地未知用户陪伴的情况下，可以激活告警。

当警笛开始鸣响时，显示屏幕420b，其指示422b警笛鸣响。

当儿童进入图像传感器的视场时，本发明的设备自动检测已知的面部。然后，它使警笛停止鸣响，并向用户设备发送附加通知。该应用显示屏幕430b，该屏幕430b指示431b已经检测到儿童，以及指示432b警笛正在鸣响并且现在停止了。

另外，屏幕410b、屏幕420b和屏幕403b还显示其中已经检测到未知面部的第一图像，并且如果用户单击按钮413，则他/她可以实时查看来自图像传感器的视频流。

图4c示出了本发明的实施例中的用户应用的显示的第三示例。

在该示例中，多个用户同时使用本发明的设备。图像传感器放置在其中用户的儿童在玩耍的房屋的房间中。屏幕410c、屏幕420c、屏幕430c和屏幕440c在用户中的一个的计算设备上执行的应用中显示4个连续的屏幕。在任何时候，用户都可以通过单击按钮411c、按钮421c、按钮431c和按钮441c实时查看来自图像传感器的视频流。

儿童“莉莉”被本发明的设备自动检测，并且相对应的通知被发送到用户，例如由应用显示的412c、422c、432c、442c。屏幕410c、屏幕420c、屏幕430c和屏幕440c分别显示警笛已经在计时器413c上停止，警笛被另一用户423c停止，警笛在进入延迟433c期间停止，并且警笛已经被手动触发443c。

图5示出了本发明的多个实施例中的方法的示例。

方法500包括从图像传感器接收图像510的第一步骤。

方法500包括在包括人类类别的一组对象类别中对图像中的一个或多个对象进行分类的第二步骤520。

方法500包括检测图像中的一个或多个面部的第三步骤530。

方法500包括执行对一个或多个面部的面部识别的第四步骤540。

方法500包括验证所述一个或多个面部是否属于面部的第一集合的第五步骤550。

方法500包括验证一个或多个面部中的面部或属于人类类别的一个或多个对象中的对象是否不对应于一个或多个面部中的任何一个面部，并且包括在一个或多个面部中的面部或属于人类类别的一个或多个对象中的对象不对应于一个或多个面部中的任何一个面部的情况下触发警报事件的第六步骤560。

参考图1至4c讨论的所有实施例分别适用于方法500。

给出上述示例作为本发明的实施例的非限制性说明。它们绝不限制由所附权利要求书限定的本发明的范围。而且，可以将以上讨论的所有非排他性实施例进行组合。例如，摄像机110a或一个或多个服务器110b的处理逻辑可以被配置为执行配置300a、300b和300c中的任何一个配置；设备200a可以被配置为在警报事件发生时发出告警声或呼叫警察。图4a至图4c中显示的应用可以用于从执行配置300a、300b和300c中的任何配置的处理逻辑接收警报；参考配置300a讨论的关于运动检测311、面部检测330、面部识别340、验证面部是否在第一集合350、对象分类320或警报事件360、361中的实施例可以被应用到配置300b和300c。

Claims

1.一种用于对来自摄像机图像的对象进行检测的设备(200a、200b、200c、200d)，包括：

通向图像传感器(210a、210b、210c、210d)的通信链路；

通向存储器(220a、220b、220c、220d)的通信链路，所述存储器存储用于面部的第一集合的面部识别数据；

处理逻辑(230a、230b、230c、230d)，所述处理逻辑包括用于执行以下步骤的适配：

从所述图像传感器接收图像(310)；

检测所述图像中的一个或多个面部(330)；

对所述一个或多个面部执行面部识别(340)；

验证是否存在至少一个其中没有检测到面部的运动区域(381b)；

仅在其中没有检测到面部的运动区域中，在包括人类类别的一组对象类别中对所述图像中的一个或多个对象进行分类(320)；

验证所述一个或多个面部是否包括在面部的第一集合中(350)；

如果所述一个或多个面部中的面部未包括在所述面部的第一集合中，则触发警报事件(360)；

如果属于所述人类类别的所述一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件(361)。

2.根据权利要求1所述的设备，其中，所述处理逻辑包括用于检测所述图像中的运动区域(311)的适配，并且其中：

所述用于对一个或多个对象进行分类(320)的适配包括用于仅在所述运动区域中对所述一个或多个对象进行分类的适配；

所述用于检测一个或多个面部(311)的适配包括用于仅在所述运动区域中检测所述一个或多个面部的适配。

3.根据权利要求1所述的设备，其中：

所述用于接收图像(310)的适配包括用于从所述图像传感器接收视场的一系列连续图像的适配，所述图像属于所述一系列连续图像；

所述用于对一个或多个对象进行分类(320)的适配包括用于执行以下步骤的适配：

计算所述图像与所述一系列连续图像中紧邻的前一个图像之间的像素差；并且

基于所述像素差检测所述图像中的运动区域。

4.根据权利要求2或3中的一项所述的设备，其中，所述用于检测(330)所述图像中的一个或多个面部的适配包括用于基于所述运动区域的尺寸以及人类的面部与身高之间的预定义比率来定义面部检测区域的尺寸的适配。

5.根据权利要求1至3中的一项所述的设备，其中：

所述用于检测(330)所述图像中一个或多个面部的适配包括用于确定所述一个或多个面部的相应位置的适配；

所述用于对所述图像中的一个或多个对象进行分类(320)的适配包括用于确定属于所述人类类别的对象的相应位置的适配；

所述处理逻辑包括用于通过将所述一个或多个面部的相应位置与属于所述人类类别的对象的相应位置进行比较来检测(370)属于所述人类类别的所述一个或多个对象中的对象是否与面部集合中的所述一个或多个面部中的面部不对应的适配。

6.根据权利要求1至3中的一项所述的设备，其中，所述用于检测(330)所述图像中的一个或多个面部的适配包括用于仅在其中已经检测到属于所述人类类别的对象的所述运动区域中检测面部的适配。

7.根据权利要求1至3中的一项所述的设备，其中，所述用于执行面部识别(340)的适配包括用于使用被训练用于面部识别的神经网络执行对所述一个或多个面部的面部识别的适配。

8.根据权利要求7所述的设备，其中，所述神经网络被训练用于面部识别，并且所述面部的第一集合是使用由所述设备的用户标记的面部图像来构建的。

9.根据权利要求1至3中的一项所述的设备，其中，所述用于对所述图像中的一个或多个对象进行分类(320)的适配包括用于使用被训练用于对象分类的神经网络来对所述图像中的一个或多个对象进行分类的适配。

10.根据权利要求9所述的设备，其中：

所述一组对象类别包括表示所述设备的用户的非人类的动物的类别；

所述用于对所述图像中的一个或多个对象进行分类(320)的适配包括用于使用被训练用于对表示所述非人类的动物的对象进行分类的神经网络基于所述非人类的动物的图像的训练集来对一个或多个对象进行分类的适配；

所述处理逻辑包括用于如果所述一个或多个对象中的对象属于表示所述非人类的动物的类别，则触发特定事件的适配。

11.根据权利要求1至3中的一项所述的设备，其中：

所述存储器存储用于面部的第二集合的面部识别数据；

所述处理逻辑包括用于执行以下步骤的适配：

验证所述一个或多个面部是否属于所述面部的第二集合；

如果所述一个或多个面部中的面部属于所述面部的第二集合，则触发警报事件。

12.根据权利要求1至3中的一项所述的设备，其中，所述处理逻辑适于从识别所述面部的第一集合中的面部开始的预定义持续时间内不触发任何警报事件。

13.一种用于对来自摄像机图像的对象进行检测的方法(500)，包括：

从图像传感器接收图像(510)；

检测所述图像中的一个或多个面部(530)；

对所述一个或多个面部执行面部识别(540)；

验证是否存在至少一个其中没有检测到面部的运动区域；

仅在其中没有检测到面部的运动区域中，在包括人类类别的一组对象类别中对所述图像中的一个或多个对象进行分类；

验证所述一个或多个面部是否包括在面部的第一集合中(550)；

如果所述一个或多个面部中的面部未包括在所述面部的第一集合中，则触发警报事件(560)；

如果属于所述人类类别的所述一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件。

14.一种包括计算机代码指令的用于对来自摄像机图像的对象进行检测的计算机程序产品，所述计算机代码指令被配置为：

从图像传感器接收图像；

检测所述图像中的一个或多个面部；

对所述一个或多个面部执行面部识别；

验证所述一个或多个面部是否包括在面部的第一集合中；

验证是否存在至少一个其中没有检测到面部的运动区域；

如果所述一个或多个面部中的面部未包括在所述面部的第一集合中，则触发警报事件；

如果属于所述人类类别的一个或多个对象中的对象与所述一个或多个面部中的任何一个面部都不对应，则触发警报事件。