CN111566612A

CN111566612A - 基于姿势和视线的视觉数据采集系统

Info

Publication number: CN111566612A
Application number: CN201980007738.1A
Authority: CN
Inventors: 吴怡甜; 法提赫·波里克利; 杨磊; 路易斯·比尔
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2018-02-02
Filing date: 2019-01-15
Publication date: 2020-08-21
Also published as: US20190246036A1; WO2019149061A1; EP3740860A4; EP3740860A1

Abstract

提供了一种计算机实现的视觉数据获取方法，包括：一个或多个处理器确定车辆中人员的注视点；所述一个或多个处理器检测所述车辆中的所述人员的姿势；响应于所述姿势的检测，所述一个或多个处理器使得摄像头获取所述人员的注视点对应的视觉数据。

Description

基于姿势和视线的视觉数据采集系统

相关申请案交叉申请

本申请要求于2018年2月2日递交的发明名称为“基于姿势和视线的视觉数据采集系统”的第15/887,665号美国专利申请案的在先申请优先权，该在先申请的内容以引入的方式并入本文。

技术领域

本发明涉及基于姿势和视线的控制，在一个特定实施例中，涉及基于姿势和视线的视觉数据采集系统。

背景技术

随着带有摄像头的智能手机的广泛普及，人们越来越渴望在开车的同时拍照。用智能手机拍照需要解锁屏幕，可能需要输入PIN或特定的滑动图案，找到相机app，打开app，将画面框起来，然后点击快门。驾驶员在进行上述操作时除了会不注意道路以外，还会在拍摄画面的过程中，不断注视要捕获的所述景物，趋向于所述景物的方向行驶。这种分心，以及在驾驶时使用手持设备，为道路上的致命碰撞、死亡和受伤造成了巨大的可能性。这是严重的交通违规行为，可能导致驾驶员被取消驾驶资格。

发明内容

现描述各种示例，从而以简化的形式引入概念的选择，所述概念将在以下具体实施方式中进行进一步的描述。本发明内容的目的不在于识别权利要求书保护的主题的关键或必要特征，也不在于限制权利要求书保护的主题的范围。

根据本发明的一个方面，提供了一种计算机实现的获取视觉数据的方法，包括：一个或多个处理器确定车辆中人员的注视点；所述一个或多个处理器检测所述车辆中的所述人员的姿势；响应于所述姿势的检测，所述一个或多个处理器使得摄像头捕获所述人员的注视点对应的视觉数据。

可选地，在上述任一实施例中，所述车辆中人员的注视点是在所述车辆外部的点。

可选地，在上述任一实施例中，所述确定所述人员的注视点包括确定所述人员的头部姿势。

可选地，在上述任一实施例中，所述确定所述人员的注视点包括确定所述人员的视线方向。

可选地，在上述任一实施例中，所述确定所述车辆中的人员的注视点是基于第一摄像头捕获的图像；其中，捕获与所述人员的注视点对应的视觉数据的摄像头为第二摄像头。

可选地，在上述任一实施例中，所述姿势为手势。

可选地，在上述任一实施例中，所述手势包括一只手彼此靠近的拇指和手指。

可选地，在上述任一实施例中，所述车辆为汽车。

可选地，在上述任一实施例中，所述车辆为飞行器。

可选地，在上述任一实施例中，所述摄像头集成在所述车辆中。

可选地，在上述任一实施例中，所述使所述摄像头捕获所述视觉数据包括向移动设备传输指令。

可选地，在上述任一实施例中，所述方法还包括：检测所述车辆中人员的第二姿势；其中，所述使所述摄像头捕获与所述人员的所述注视点对应的所述视觉数据包括：基于所述第二姿势的检测，使所述摄像头放大所述注视点。

可选地，在上述任一实施例中，所述使所述摄像头捕获与所述人员的注视点对应的所述视觉数据包括：使所述摄像头补偿所述车辆的速度。

根据本发明的一个方面，提供了一种车辆，包括：内存存储器，包含指令；一个或多个处理器，与所述内存存储器通信，其中，所述一个或多个处理器执行所述指令，以执行：确定所述车辆中人员的注视点；检测所述车辆中所述人员的姿势；响应于所述姿势的检测，使得摄像头捕获所述人员的注视点对应的视觉数据。

可选地，在上述任一实施例中，所述确定所述车辆中人员的注视点是基于第一摄像头捕获的图像；其中，捕获与所述人员的注视点对应的视觉数据的摄像头为第二摄像头。

可选地，在上述任一实施例中，所述姿势为手势。

可选地，在上述任一实施例中，该车辆为汽车。

根据本发明的一个方面，提供了一种非瞬时性计算机可读介质，所述非瞬时性计算机可读介质存储用于获取视觉数据的计算机指令。当所述指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：确定所述车辆中人员的注视点；检测所述车辆中所述人员的姿势；响应于所述姿势的检测，使得摄像头捕获所述人员的注视点对应的视觉数据。

在本发明的范围内，以上示例性实施例中的任一个示例性实施例可以与其它示例性实施例中的任意一个或多个示例性实施例相结合，以创建新的实施例。

附图说明

图1是一些示例性实施例提供的车辆内部的示意图；

图2是一些示例性实施例提供的车辆外部的示意图；

图3是一些示例性实施例提供的车辆视图的示意图；

图4是一些示例性实施例提供的姿势示意图；

图5是一些示例性实施例提供的姿势示意图；

图6是一些示例性实施例提供的实现算法和执行方法的计算机系统的电路框图；

图7是一些示例性实施例提供的包括神经网络训练系统的环境示例的框图；

图8是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法流程图；

图9是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法流程图；

图10是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法流程图；

图11是一些示例性实施例提供的视线检测的方法流程图；

图12是一些示例性实施例提供的姿势检测的方法流程图；

图13是一些示例性实施例提供的跟随驾驶员视线的摄像头的示意图；

图14是一些示例性实施例提供的显示获取的视觉数据的用户界面的示意图。

具体实施方式

以下结合附图进行详细描述，所述附图是描述的一部分，并通过图解说明的方式示出可以实施本发明的具体实施例。这些实施例描述充分详细，使本领域技术人员能够实施所述创新性主题，还应理解，可以使用其它实施例并且在本发明范围内可以做出结构、逻辑、电学上的改变。因此，以下描述的示例性实施例并不当作限定，本发明的范围由所附权利要求书界定。

在一个实施例中，本文描述的功能或算法可以在软件中实现。所述软件可包括计算机可执行指令，这些计算机可执行指令存储在计算机可读介质上或者计算机可读存储设备上，如一个或多个非瞬时性存储器或其它类型的本地或联网的硬件存储设备。所述软件可在数字信号处理器、专用集成电路(application-specific integrated circuit，简称ASIC)、可编程数据面芯片、现场可编程门阵列(field programmable gate array，简称FPGA)、微处理器或者其它类型的在计算机系统上运行的处理器上执行，从而使这样的计算机系统变成一个专门编程的机器。

车载系统使用包含人员脸部表征的图像数据来确定所述人员的视线方向。所述视线方向跟随人眼的瞳孔投射的光线，到达所述人员正在注视的点。每只眼睛的所述视线方向可以看作是所述人眼在3D空间中的视轴，其中光线从所述眼睛的中心开始，穿过所述眼睛瞳孔的中心。人员的所述视线方向可以计算为所述人员左眼和右眼视线方向的平均值。

在可替代实施例中，可以使用所述人员的头部姿势和注视点。所述注视点是所述人员正在注视的点，由从所述人眼瞳孔投影的光线会聚点确定。一只眼睛的光线从眼睛的中心发出，穿过瞳孔与另一只眼睛对应的光线相交。通过估计每只眼睛的中心位置以及计算光线相交的地方，可以从描绘眼睛的图像中计算出注视点。在球面坐标系中，所述视线方向可以被认为是所述注视点的角分量(极角和方位角)，所述角分量还具有径向距离的第三分量，此时，径向距离即注视点与眼睛瞳孔中心的距离。

系统使摄像头从所述注视点所标识的区域中捕获视觉数据(例如，拍照等)。例如，集成在所述车辆中的计算机可以通过总线向所述摄像头发送信号。当所述摄像头接收到所述信号时，所述摄像头可以通过捕获视觉数据(例如，通过检测击中电荷耦合器(charged-coupled device，简称CCD)的光等)进行响应。所述视觉数据的捕获可以响应于所述人员检测到的姿势。姿势是用户生成的输入，其中包括所述用户的身体部分(例如，手或眼睛)的运动。在一些示例性实施例中，所述系统集成在了车辆中，所述人员是所述车辆的驾驶员。通过视线方向检测(以及在可替代实施例中，通过头部姿势方向检测或注视点检测)来识别要拍摄的区域和手势，从而引起所述图像的捕获，所述系统使得照片捕获不需要所述驾驶员手持手机，从而减少了对所述驾驶员的分心。

通过使用本文所描述的系统和方法，可以使驾驶员能够轻松拍摄照片的同时，避免了因免提控制系统而导致的交通事故。此外或可替代地，可以使驾驶员在驾驶时参与社交网络(例如，图像共享社交网络等)。现有系统中没有一个采用与本文所述系统相同、非侵入性、舒适的拍摄方法。例如，包含眼睛跟踪的可穿戴眼镜就存在问题，因为所述驾驶员可能需要摘下所述眼镜来清洁眼镜或擦拭其面部。在摘下眼镜的过程中，所述驾驶员将无法访问所述眼镜的功能，而将所述系统内置到所述车辆而不是所述眼镜中可避免这一问题。此外，成像设备的佩戴增加了对所述驾驶员的分心。

此外，在一些现有系统中，在拍摄所述照片之前，所述驾驶员必须关注感兴趣的景物一段时间。此处描述的实施例在不需要时间阈值的情况下，响应手势捕获图像，避免了将所述驾驶员的注意力拓展到所述感兴趣的景物而不是所述道路的危险，从而提高了安全性。

与使用手势的可穿戴系统相比，通过所述用于检测手势的摄像头广角,本文描述的系统进一步提高了安全性。即，安装在车辆内部的摄像头可以在车辆驾驶室中的任意位置捕获手势，而安装在可穿戴设备上的摄像头视场更窄，并要求用户在特定的空间区域内做手势。因此，使用本文描述的系统进行所述做手势的任务将会减少对所述驾驶员的分心。

在将图像捕获系统用于车辆的情况下，本文对所述发明主题进行描述。但可以设想其它实施例，例如，所述系统和方法可以用于手持设备、通用机器人(例如，家庭或娱乐机器人)以及其它行业。

图1是一些示例性实施例提供的车辆内部100的示意图。车辆内部100所示为驾驶员110、座椅120、光源130A和130B(例如，近红外发光二极管(light emitting diode，简称LED))、图像传感器140和150。每个图像传感器可以是摄像头、CCD、图像传感器阵列、深度摄像头或其任意合适的组合。所述光源130A-130B和所述图像传感器140-150可以由计算机系统控制，例如下面结合图6描述的系统。在一些示例性实施例中，不存在所述光源130A-130B。

所述图像传感器140可以是聚焦于所述驾驶员110的近红外(near-infrared，简称IR)摄像头。如果成像系统包括所述光源130A-130B，则所述光源130A-130B提供的光的波长可以由所述图像传感器140接收。所述图像传感器140捕获的图像可用于确定所述驾驶员110的眼睛方向和焦深。一种确定所述驾驶员眼睛方向和焦深的方法是从捕获的图像中直接估计出它们的值。另一种方法是基于所述光源130A-130B产生的光反射到所述驾驶员110眼睛表面产生的角膜反射来确定所述值。头部姿势，即所述驾驶员头部的朝向，也可以从所述图像传感器140捕获的图像中确定。头部姿势可用来确定所述驾驶员眼睛方向和焦深。

所述图像传感器140可包括深度摄像头，其中，所述深度摄像头捕获立体图像以确定物体与所述摄像头之间的距离。例如，可以使用两个近红外图像传感器来确定三维头部姿势。又例如，飞行时间摄像头可以与所述光源130A和130B配合，基于光源发射光与所述飞行时间摄像头接收到光(从物体反射后)之间的时间量来确定深度。

图像传感器150可以检测所述驾驶员110的手势。如果所述成像系统包括所述光源130A-130B，则所述光源130A-130B提供的光的波长可以由所述图像传感器150接收。所述图像传感器150捕获的图像可用于识别驾驶员110执行的姿势。例如，所述图像传感器150可以是用于识别驾驶员双手的位置、朝向和外形的深度摄像头。所述图像传感器150可包括深度摄像头，其中，所述深度摄像头捕获立体图像以确定物体与所述摄像头之间的距离。例如，两个近红外图像传感器可用于检测涉及移向或离开所述图像传感器150的姿势。又例如，飞行时间摄像头可以与所述光源130A和130B配合，并基于光源发射光与飞行时间摄像头接收到光(从物体反射后)之间的时间量来确定深度。

图2是一些示例性实施例提供的车辆外部200的示意图。所述示意图包括车辆210和摄像头220。所述车辆210可以同图1的车辆内部100配置在一起。所述摄像头220安装在所述车辆210的顶部，可以是第二摄像头，由控制所述第一摄像头即，图1的图像传感器140同样的系统来控制，所述摄像头220可以是广角摄像头、360度摄像头、旋转式摄像头或其任何适当的组合。所述摄像头220可以集成在所述车辆210中(例如，由制造商作为所述车辆210的一部分销售，永久附着到所述车辆210的其余部分)，牢固地安装到所述车辆210上(通过平衡环、磁带、胶带、螺栓或螺钉等)，或临时附着到车辆210(例如，置于仪表板上的支架中)。所述车辆210是汽车，但是本发明的主题不限于此。本发明可以与其它车辆如飞行器、水运工具或列车一起使用。如本文所使用的，车辆是任何能够运动的机械装置。

图3是一些示例性实施例提供的车辆视图310的示意图300。所述视图310可以包括距车辆不同距离的多个物体表征。焦点320表示人员(车辆210的驾驶员110等)的注视点。基于使用图像传感器140捕获的一个或多个图像，可以确定所述焦点320。

图4是一些示例性实施例提供的姿势示意图。图像400示出了一只手，其中，拇指和食指伸出并大致平行而其余手指闭合。图像410示出了一只手，其中，拇指和食指彼此更靠近。按照顺序，所述图像400和所述图像410示出了捏合姿势，其中所述姿势包括一只手的拇指和手指彼此靠近。

图5是一些示例性实施例提供的姿势示意图。图像500示出了一只手，其中手指松散弯曲，与手成c形。图像510示出了一只手，其中手指更靠近拇指。按照顺序，所述图像500和所述图像510示出了捏合姿势。图520示出了从所述图像500和所述图像510生成的运动流。图520中的每个箭头示出了所述图像500中描绘的点移动到所述图像510中的新位置的方向和运动幅度。图520可以指示姿势识别中图像处理的中间步骤。使用图4或图5所示的姿势序列来获取视觉数据可以是直观的，因为所述姿势与在传统摄像头上按下快门按钮的物理动作相似。例如，当检测到特定的姿势序列时，车载计算机可以通过总线向摄像头发送信号。响应于所述信号，所述摄像头可以获取视觉数据(例如，将CCD接收到的视觉数据图案保存到存储器中)。

除了图4-5的示例之外，还可以使用其它姿势。例如，可以检测眼睛的姿势，如眨眼、双眨眼、三眨眼等，并用于获取视觉数据。

图6是一些示例性实施例提供的描述实现算法和执行方法的计算机600的电路框图；不需要在各实施例中使用所有组件。例如，客户端、服务器、自治系统、网络设备和基于云的网络资源可以分别使用不同组的组件，或者例如有服务器的情况下，使用较大的存储设备。

一种示例性计算设备计算机600(也称为车载计算机600、计算设备600、计算机系统600)可包括处理器605、内存存储器610、可移动存储器615和不可移动存储器620，所有上述部件通过总线640连接。虽然所述示例性计算设备被图示和描述为所述计算机600，但是所述计算设备在不同的实施例中可以是不同的形式。例如，所述计算设备可以是智能手机、平板电脑、智能手表或者是包含结合图6所示和描述的元件相同或相似的元件的其它计算设备。智能手机、平板电脑、智能手表等设备通常统称为“移动设备”或“用户设备”。此外，虽然各种数据存储元件被图示为所述计算机600的一部分，但是存储器还可以或者可替代地包括通过互联网等网络可访问的基于云的存储器，或者基于服务器的存储器。

所述内存存储器610可包括易失性存储器645和非易失性存储器650，可以存储程序655。所述计算机600可包括或访问计算环境。所述计算环境包括各种计算机可读介质，如所述易失性存储器645和所述非易失性存储器650、所述可移动存储器615和所述不可移动存储器620。计算机存储器包括随机存取存储器(random access memory，简称RAM)、只读存储器(read-only memory，简称ROM)、可擦除可编程只读存储器(erasable programmableread-only memory，简称EPROM)和电可擦除可编程只读存储器(electrically erasableprogrammable read-only memory，简称EEPROM)、闪存或其它存储器技术、只读光盘(compact disc read-only memory，简称CD ROM)、数字多功能光盘(digital versatiledisc，简称DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁存储设备，或者任何其它能够存储计算机可读指令的介质。

所述计算机600可以包括或访问包括输入接口625、输出接口630和通信接口635的计算环境。所述输出接口630可以连接或包括显示设备，例如触摸屏。该显示设备还可以作为输入设备。所述输入接口625可以连接或包括以下一种或多种：触摸屏、触摸板、鼠标、键盘、摄像头、一个或多个设备专用按钮、集成或通过有线或无线数据连接耦合到所述计算机600的一个或多个传感器，以及其它输入设备。所述计算机600可以使用通信接口635在联网环境中工作，以连接到一台或多台远程计算机，如数据库服务器。所述远程计算机可以包括个人计算机(personal computer，简称PC)、服务器、路由器、开关、网络PC、对等设备或其它公共网络节点等。所述通信接口635可以连接到局域网(local-area network，简称LAN)、广域网(wide-area network，简称WAN)、蜂窝网络、Wi-Fi网络、蓝牙网络或其它网络。

虽然示出的计算机600中，每个元件605-675只有一个，但每个元件也可能以倍数存在。例如，可以存在多个处理器605、多个输入接口625、多个输出接口630和多个通信接口635。在一些示例性实施例中，不同的通信接口635连接到不同的网络。

存储在计算机可读介质上的计算机可读指令(例如，存储在内存存储器610上的程序655)可由计算机600的处理器605执行。硬盘驱动器、CD-ROM和RAM是产品的一些示例，所述产品包括非瞬时性计算机可读介质，如存储设备。术语“计算机可读介质”和“存储设备”不包括载波，因为某种程度上来说，载波过于短暂。“非瞬时性计算机可读介质”包括所有类型的计算机可读介质，包括磁存储介质、光存储介质、闪存介质和固态存储介质。应当理解的是，软件可以安装在计算机中与计算机一起销售。可替代地，可以获得该软件，将其加载到计算机中，包括通过物理介质或分配系统获得软件，例如包括从软件创建者拥有的服务器或者从软件创建者未拥有却使用的服务器获得软件。例如，所述软件可以存储在服务器上以便通过互联网分发。

如图所示，所述程序655包括视线检测模块660、姿势检测模块665、图像采集模块670和显示模块675。可以使用硬件(例如，机器的处理器、ASIC、FPGA或其任意合适的组合)来实现本文所述的任何一个或多个模块。此外，这些模块中的任何两个或更多个模块可以组合成单个模块，本文所述的关于单个模块的功能可以在多个模块之间细分。此外，根据各种示例性实施例，本文所述的在单个机器、数据库或设备内实现的模块可以分布在多个机器、数据库或设备上。

所述视线检测模块660基于人员的一个或多个图像确定所述人员的视线焦点。例如，所述图像传感器140可以聚焦于所述驾驶员110，周期性(例如，每隔200ms)地捕获所述驾驶员110的图像。所述图像传感器140捕获的图像可被所述视线检测模块660用于确定所述驾驶员110的视线方向和焦深，例如，通过从捕获的图像中直接估计它们的值，或基于所述光源130A-130B产生的光反射到所述驾驶员110的眼睛表面产生的角膜反射。

可以使用基于外观的方法来执行视线检测，该方法使用多模卷积神经网络(convolutional neural network，简称CNN)从驾驶员的面部提取关键特征来估计驾驶员的视线方向。所述多模CNN可以包括卷积层、池化层和全连接层。卷积层在面部图像上应用一系列不同大小的精心设计的卷积滤波器，以获得驾驶员的头部姿势朝向。结合驾驶员的眼睛图像，将另一个多模CNN应用于眼睛区域，生成3D视线向量作为输出。视线向量的坐标固定在驾驶员头部，根据驾驶员头部移动而移动和旋转。利用驾驶员面部深度图像或摄像头校准，驾驶员头部坐标与近红外摄像头坐标之间的3D关系(例如，变换矩阵)就确定了。相应地，最终注视点可以根据所述确定的头部姿势和眼睛特征计算确定，或者由其它训练过的CNN确定。在一些示例性实施例中，以固定帧速率(例如，每秒30帧)进行视线检测。CNN是人工神经网络的一种形式，下面结合图7进行更详细的讨论。

可基于光源130A-130B(如果适用)产生的光线反射到驾驶员110的眼睛表面产生的角膜反射进行视线检测。基于有关人类眼球的生物医学知识，以及光源位置与摄像头中角膜反射图像之间的几何关系，理论上，驾驶员眼中的角膜反射检测是估计驾驶员视线方向的充分条件。在一些示例性实施例中，以固定帧速率(例如，每秒30帧)进行视线检测。

在一示例性实施例中，残差网络(residual network，简称ResNet)与每个组件CNN中的1×1或3×3个滤波器、校正线性单元(rectified linear unit，简称RELU)激活函数以及每三个卷积层之间的快捷连接一起使用。该ResNet允许提取眼睛和头部姿势特征。三维视线角由两个全连接层计算，其中，每个单元与之前卷积层的所有特征图连接。

基于人手的一个或多个图像，姿势检测模块665检测姿势输入。例如，图像传感器140可以具有足以在单个图像中捕获驾驶员的眼睛和手的视场。又例如，两个摄像头可以放置在车辆内部100中，一个聚焦于驾驶员的眼睛，另一个聚焦于驾驶员的手。基于图像序列，可以检测到姿势，其中，手可以是静态的，也可以是在序列的所有图像中移动的。示例性姿势包括图4和图5的姿势。其它示例性姿势包括滑动(手或手指大致呈直线的运动)、动态扩展(其中两点(例如，指尖)分开的运动)、或静态扩展(其中两点(例如，指尖)在所有帧中静态分开)。所述静态扩展信号可以作为预捕获姿势，以告知系统基于视线方向对所见景物进行拍照的意图。由于比起跟踪静态姿势(例如，可以逐帧跟踪)，跟踪动态姿势可能消耗更多的计算资源(例如，使用帧序列)，因此可以使用逐帧姿势捕获，然后触发动态姿势检测以捕获图片。

可以使用深度学习算法或其它算法执行姿势检测。这些算法可以包括但不限于时间段长短期存储器(temporal segment long-short term memory，简称TS-LSTM)，该时间段长短期存储器将图像序列接收为输入，将姿势(或未检测到姿势的事实)标识为输出。

基于检测到的注视点、检测到的姿势输入或两者，图像采集模块670获取视觉数据。例如，基于驾驶员110的注视点为车辆210外部的点，摄像头220可连续获取车辆210外部区域的视觉数据。又例如，响应于预定姿势检测，摄像头220可以捕获注视点所识别的区域的静止图像。

显示模块675在显示设备(例如，内置于车辆内的屏幕、移动设备的屏幕或投射在风挡上的平视显示器(heads-up display，简称HUD))上显示数据。例如，图像采集模块670获取的视觉数据可以由显示模块675显示。额外的数据和用户界面控件也可以由显示模块675显示。

因此，一种车载系统，包括：至少一个视线/头部姿势近红外跟踪摄像头(图像传感器140)；至少一个手势跟踪深度摄像头(图像传感器150)；至少一个面向车辆外部风景的摄像头(摄像头220)；至少一个与每个上述传感器相连的计算设备(车载计算机600)，其中，所述计算设备收集来自所述传感器的数据，以捕获驾驶员的特定视线/头部姿势和手势，使得所述面向外部的摄像头对车辆外部的风景进行拍照或录制视频。

图7是一些示例性实施例提供的包括神经网络训练系统的环境的示例框图。所述系统包括使用处理节点740训练的人工神经网络(artificial neural network，简称ANN)710。所述ANN 710包括节点720、权重730和输入760。所述ANN 710可以使用训练数据750进行训练，提供输出770，对所述输入760或所述训练数据750进行分类。所述ANN710可以是所述视线检测模块660的一部分、所述姿势检测模块665的一部分或两者的一部分。

ANN是在生物神经元上松散建模的计算结构。一般情况下，ANN通过节点(例如，神经元)之间的加权连接(例如，突触)对信息(例如，数据或决策)进行编码。现代ANN是许多AI应用的基础，例如自动感知(例如，计算机视觉、语音识别、上下文感知)、自动认知(例如，决策、物流、路由选择、供应链优化)、自动控制(例如，自主汽车、无人机、机器人)等等。

许多ANN表现为权重矩阵，对应于建模连接。ANN通过将数据接收到一组输入神经元中来运行，其中，输入神经元通常与其它神经元有许多外向连接。在神经元之间的每次遍历，相应的权重会修改输入，并根据目的地神经元的阈值进行测试。如果所述加权值超过所述阈值，则再次对所述值进行加权，或者通过非线性函数对所述值进行转换，进一步向下传输到ANN图的另一个神经元。如果不超过所述阈值，通常所述值不传输到向下图神经元，且所述突触连接保持非活跃状态。所述加权和测试过程继续进行，直到到达输出神经元为止；输出神经元的模式和值构成ANN处理的结果。

大多数ANN的正确操作依赖于正确的权重。然而，ANN设计者通常不知道哪种权重适用于给定的应用。而是使用训练过程以达到适当的权重。ANN设计者通常选择多个神经元层或层之间的特定连接，包括圆形连接，但ANN设计者通常不知道哪种权重适用于给定的应用。而通常是通过选择初始权重来进行训练过程，其中，初始权重可以随机选择。将训练数据馈入ANN，将结果与提供错误指示的目标函数进行比较。误差指示是对ANN的结果与预期结果相比较其错误程度的测量。然后使用该误差来校正权重。在许多迭代中，所述权重将共同汇聚以将操作数据编码到ANN中。该过程可以称为目标函数(例如，一种成本或损失函数)的优化，其中成本或损失最小化。

目标函数优化常采用梯度下降技术。对于层参数(例如，权重的各个方面)，通过计算梯度(例如，偏导数)以提供校正的方向以及可能是程度，但不会导致将所述权重设置为“正确”值的单一校正。也就是说，通过几次迭代，权重将向“正确的”或操作上有用的值移动。在一些实施方式中，移动的量或步长是固定的(例如，从迭代到迭代是相同的)。小步长往往需要很长时间才能汇聚，而大步长可能围绕正确的值振荡，或者表现出其它不想要的行为。因此，可以尝试使用可变步长以提供更快的汇聚，不会出现大步长的缺点。

反向传播是一种通过ANN前馈训练数据的技术——此处的“前”意味着所述数据从输入神经元开始，跟随神经元连接的有向图直至到达输出神经元——通过ANN反向应用目标函数以校正突触权重。在反向传播过程的每一个步骤中，上一个步骤的结果用于校正权重。因此，输出神经元校正的结果应用于连接到输出神经元的神经元，以此类推，直至到达输入神经元。反向传播已经成为训练各种ANN的一种流行技术。

处理节点740可以是CPU、GPU、现场可编程门阵列(field programmable gatearray，简称FPGA)、数字信号处理器(digital signal processor，简称DSP)、专用集成电路(application specific integrated circuit，简称ASIC)或其它处理电路。在一示例中，可以使用多个处理节点训练ANN 710的不同层，或者甚至各层内的不同节点720。因此，设置了一组处理节点740以执行ANN 710的训练。

所述一组处理节点740设置为接收所述ANN 710的训练集750。所述ANN 710包括一组分层设置的节点720(如各行节点720所示)和所述一组节点中节点之间的一组节点间权重730(例如，参数)。在一示例中，所述训练集750是完整训练集的子集。此处，所述子集可以启用存储资源有限的处理节点参与ANN 710的训练。

所述训练数据可以包括多个表示域的数值，例如图像的红、绿、蓝像素值和强度值，或者离散时间中语音识别的音高和音量值。训练的每个值，或者一旦训练ANN 710后就要分类的输入760，提供给第一层的对应节点720或ANN 710的输入层。这些值通过所述各层传播，被所述目标函数改变。

如上所述，所述一组处理节点被设置为训练所述神经网络，以创建训练后的神经网络。例如，一旦被训练，输入到ANN的数据将产生有效分类710(例如，输入数据760将被分为几类)。所述一组处理节点720进行的训练是迭代的。在一示例中，所述神经网络训练的每个迭代在ANN 710的各层之间独立执行。因此，所述一组处理节点的不同节点可以并行处理两个不同的层。在一示例中，在不同硬件上训练ANN 710的不同层。所述一组处理节点中的不同节点可位于不同的包、外壳、计算机、基于云的资源等。在一示例中，所述训练的每个迭代在所述一组节点的节点之间独立执行。该示例是独立训练单独节点720(例如，神经元)的附加并行化。在一示例中，在不同的硬件上训练所述节点。

在一些示例性实施例中，ANN 710用作视线检测模块660的一部分，其中，ANN 710的训练数据750包括驾驶员图像和对应注视点。通过迭代训练过程，对ANN 710进行训练，以低错误率为训练数据750生成输出770。一旦被训练，一个或多个由面向内部的摄像头140捕获的图像可提供给ANN 710，以生成注视点，作为输出760。

在一些示例性实施例中，ANN 710用作姿势检测模块665的一部分，其中，ANN 710的训练数据750包括驾驶员图像和对应的姿势标识符。通过迭代训练过程，对ANN 710进行训练，以低错误率为训练数据750生成输出770。一旦被训练，一个或多个由面向内部的摄像头140捕获的图像可提供给ANN 710，以生成姿势标识符，作为输出760。

图8是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法800的流程图。所述方法800包括操作810、820和830。作为示例而非限定，将所述方法800描述为由上文结合图6描述的所述计算机600的元件来执行。所述计算机600作为车辆(例如，包括所述车辆内部100和所述车辆外部200的车辆)的一部分运行。所述方法800可用于响应驾驶员的姿势获取视觉数据，其中，基于驾驶员的视线选择获取的视觉数据。

在操作810中，所述视线检测模块660使用内部传感器(例如，所述图像传感器140)来估计驾驶员的注视点。例如，驾驶员的注意力可能集中在将要拍摄的物体上。在操作820中，所述姿势检测模块665使用所述内部传感器来检测驾驶员的姿势。例如，驾驶员可以使用图4、图5所示的姿势或其它姿势模拟按下摄像头快门。

在一些示例性实施例中，支持外形姿势。例如，姿势可以用于放大或缩小注视点，打开或关闭闪光，或者修改摄像头设置。在捕获图像之前，可以根据外形姿势修改摄像头设置。

在操作830中，所述图像采集模块670通过外部传感器(例如，所述摄像头220)获取图像。可以根据估计的注视点控制外部传感器。例如，摄像头220可以聚焦于图3的焦点320，使得所捕获的图像聚焦于中心的动物。在一些示例性实施例中，通过修改摄像头设置以补偿车辆的运动。例如，可以在车辆移动较快时使用较短的曝光，以减少运动模糊，从而补偿车辆的速度。作为另一示例，旋转摄像头可以跟踪识别的注视点，在车辆移动时转动，使得曝光期间注视点保持在图像的中心。可以使用平衡环对车辆的振动进行补偿，以获取稳定的视频或清晰的图像。录制视频后，也可以(或者可替代地)应用电子稳定器。示例性电子稳定技术包括光学图像稳定(optical image stabilization，简称OIS)和电子图像稳定(electronic image stabilization，简称EIS)。

在一些示例性实施例中，所述外部传感器是360度全景图像传感器，响应于所述姿势的检测，捕获所述车辆外部的整个景物。一旦捕获到整个景物，则在检测到姿势时基于驾驶员的预估注视点截取捕获的图像。在本示例性实施例中，可以避免自动对焦，降低系统的成本，提高拍摄图像的速度。即，由于在捕获图像之前，全景摄像头不需要聚焦于特定区域，因此可以更快地拍摄图像。然后，可使用后处理技术去除图像的不必要部分，其中，后处理技术位于单独函数，同时也位于计算单元内部。

在一些示例性实施例中，驾驶员不使用姿势而是按下集成在方向盘中的按钮。因此，在这些示例性实施例中，所述驾驶员通过查看所需区域来识别要在图像中捕获的风景的一部分，并通过按下物理按钮捕获图像。除了方向盘按钮之外，位于车辆无线电面板上的触摸屏显示器或按钮也可以作为拍摄图片的辅助按钮。这些多样的选项允许驾驶员在驾驶时选择拍摄自己最喜欢的风景图片的具体方式，同时避免可能引起分心进而导致交通事故或违规的沉重心理负担。

在另外的示例性实施例中，所述计算机600使用机器学习来决定自己何时拍摄图片或录制视频。当道路上出现有趣的风景时，这些可替代实施例使得驾驶员不必记住拍摄图片。通过使用机器学习，汽车上的计算设备(例如，车辆的计算机)可以了解到驾驶员喜欢哪种风景。例如，如果驾驶员喜欢拍摄山峰的图片，那么每当图像传感器感知到山峰在图像传感器的视场附近时，系统就可以学习自动拍摄山峰的图片。

图9是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法900的流程图。所述方法900包括操作910、920、930、940、950、960、970和980。作为示例而非限定，将所述方法900描述为由上文结合图6描述的所述计算机600的元件来执行。所述计算机600作为车辆(例如，包括车辆内部100和车辆外部200的车辆)的一部分运行。所述方法900可用于响应驾驶员的姿势获取视觉数据，其中，基于驾驶员的视线选择获取的视觉数据。此外，所述方法900允许所述驾驶员控制所获取的视觉数据的处理。

在操作910中，所述视线检测模块660和所述姿势检测模块665监控驾驶员的视线和姿势。例如，图像传感器140可以周期性地生成图像，供所述视线检测模块660和所述姿势检测模块665处理。所述视线检测模块660可以响应于每个处理后的图像，更新驾驶员的注视点。所述姿势检测模块665可以使用一组有限状态机(finite-state machine，简称FSM)，每个已知姿势使用一个，响应于每个处理后的图像更新每个FSM的状态。一旦FSM达到对应姿势检测所对应的结束状态，所述姿势检测模块665可以提供该姿势对应的姿势标识符。例如，左滑动姿势可以具有姿势标识符1，右滑动姿势可以具有姿势标识符2，图4的姿势可以具有姿势标识符3。可将姿势标识符作为姿势数据库中的主键，根据姿势标识符触发相应的动作。

在操作920中，如果所述姿势检测模块665检测到“拍照”姿势(例如，图4或图5的姿势)，所述方法900继续操作930。否则，所述方法900返回操作910，继续监控所述驾驶员的视线和姿势。

在操作930中，所述图像采集模块670跟踪基于所述驾驶员视线所识别的目标物体。例如，可以使用摄像头220捕获第一图像，以供物体识别算法进行处理。如果所述驾驶员的注视点在所描绘的识别物体内，则所述物体可以确定为用于图像采集的目标物体。包括识别出的物体的其它图像可以由摄像头220捕获并处理，以确定物体与车辆之间的相对运动路径。使用确定的相对运动路径，可以调整摄像头220的聚焦方向和深度，使得操作940中获取的后续获取图像聚焦于识别出的物体。所述摄像头方向的调整可以通过伺服系统来完成。

在操作950中，显示模块675在显示设备(例如，车辆内置的屏幕或通过蓝牙固定在车辆上的移动设备的屏幕)上显示获取的图像。在一些示例性实施例中，使用了下面描述的图14的示例性用户界面1400。

基于姿势检测模块665检测到的反馈姿势(例如，基于所述姿势检测模块665生成的姿势标识符)，操作960确定下一个操作。如果所述姿势是“保存”姿势(例如，向下滑动)，操作970(例如，在内置于车辆内的存储设备或通过蓝牙固定在车辆上的移动设备的存储器中)保存所述图像。如果所述姿势是“丢弃”姿势(例如，向左滑动)，丢弃所述图像。如果所述姿势是“发送”姿势(例如，向右滑动)，操作980将所述图像发送到预定目的地(例如，社交网络、电子邮件地址或在线存储文件夹)。基于所述反馈姿势对所述图像进行处理后，所述方法900返回操作910。

所述捕获图像可以修改为包括可见水印，所述可见水印指示所述图像是通过车载图像捕获系统捕获的。接收图像的社交网络可以检测可见水印并相应地处理接收的图像。例如，可以使用可搜索的文本标签对图像进行标记，以便于识别和检索。

在一些示例性实施例中，支持编辑姿势。例如，可以通过姿势放大图像；缩小图像；裁剪图像；左、右、上、下平移；或其任何合适的组合。在保存、丢弃或发送图像之前，可以根据编辑姿势对图像进行修改。额外地或可替代地，可以通过使用触摸屏来支持编辑。例如，驾驶员或乘客可以通过在触摸屏上使用指尖或通过姿势在图像上书写。

图10是一些示例性实施例提供的基于视线和姿势检测获取视觉数据的方法1000的流程图。所述方法1000包括操作1010、1020和1030。作为示例而非限定，将所述方法1000描述为由上文结合图6描述的所述计算机600的元件来执行。所述计算机600作为车辆(例如，包括所述车辆内部100和所述车辆外部200的车辆)的一部分运行。所述方法1000可用于响应驾驶员的姿势获取视觉数据，其中，基于驾驶员的视线选择获取的视觉数据。

在操作1010中，所述视线检测模块660(例如，基于图像传感器140捕获的图像)确定车辆中人员的注视点。例如，所述驾驶员注意力可能集中在将要拍摄的物体上。在所述操作1020中，姿势检测模块665(例如，基于所述图像传感器140捕获的图像)检测所述人员的姿势。

在所述操作1030中，所述图像采集模块670响应于所述姿势的检测，使摄像头获取与所述人员的注视点对应的视觉数据(例如，通过使所述摄像头220聚焦于所述注视点，然后捕获图像)。在一些示例性实施例中，使所述摄像头获取视觉数据包括：向移动设备传输指令。例如，用户可以将手机放在汽车的仪表板上的托盘中，使得手机的摄像头面向前方，能够捕获到汽车前方物体的图像。所述手机可以通过蓝牙连接到所述图像采集模块670。因此，图像采集模块670可以通过蓝牙向所述手机发送命令，所述手机可以通过利用其摄像头捕获图像来响应。

图11是一些示例性实施例提供的视线检测方法1100的流程图。所述方法1100包括操作1110、1120、1130、1140和1150。作为示例而非限定，将所述方法1100描述为由上文结合图6描述的所述计算机600的元件来执行。所述计算机600作为车辆(例如，包括车辆内部100和车辆外部200的车辆)的一部分运行。所述方法1100可用于检测所述驾驶员的视线。

在所述操作1110中，视线检测模块660接收输入图像。例如，可以向所述视线检测模块660提供所述摄像头140捕获的近红外图像。

在所述操作1120中，视线检测模块660对所述输入图像执行人脸和地标检测。例如，可以将所述图像提供给训练后的CNN作为输入，CNN可以提供人脸的限界框和地标坐标作为输出。示例性的地标包括眼角和嘴角。

在所述操作1130中，基于通用人脸模型、检测到的人脸和地标以及摄像头校准，所述视线检测模块660确定3D头部旋转和眼睛位置。在所述操作1140中，视线检测模块660对3D头部旋转和眼睛旋转进行归一化，以确定眼睛图像和头部角度向量。通过使用以所述眼睛图像和所述头部角度向量为输入的CNN模型，所述视线检测模块660生成视线角度向量(操作1150)。

图12是一些示例性实施例提供的姿势检测方法1200的流程图。所述方法1200包括操作1210、1220、1230、1240、1250、1260和1270。作为示例而非限定，将所述方法1200描述为由上文结合图6描述的所述计算机600的元件来执行。所述计算机600作为车辆(例如，包括车辆内部100和车辆外部200的车辆)的一部分运行。所述方法1200可用于识别驾驶员的姿势。

在所述操作1210中，姿势检测模块665从图像传感器(例如，图像传感器140)接收视频流。在所述操作1220中，所述姿势检测模块665确定视频流每帧中的感兴趣区域(region of interest，简称ROI)，所述ROI对应于手(例如，图1所述驾驶员110的手或乘客的手)。例如，可以在所述视频流的每帧上使用图像识别来确定包含手的描述的限界框，所述限界框可以用作所述ROI。在一些示例性实施例中，如果至少一只手触摸方向盘，则所述姿势检测模块665仅进行所述方法1200。响应于来自所述方向盘中传感器的信号，或者使用任意合适的组合，可以通过图像识别确定至少一只手是否接触所述方向盘。

在所述操作1230中，姿势检测模块665检测ROI中视频流的空间特征。例如，所述算法可以确定帧中的手是否正在执行扩展姿势，比如在图4的图像400和图5的图像500中，所述扩展姿势也可以用作静态姿势(不涉及运动)以向系统指示即将拍摄景物的图片。

一旦手被识别并生成手ROI，姿势检测模块665基于视频流和ROI生成运动流视频流(操作1240)。例如，运动流视频流的每帧可能类似于图5的图520，以图形方式描绘帧之间的变化。例如，计算手的运动流(例如，光流)的算法可以获得手的动态特征。动态特征是从图像序列中确定的特征，例如表示手的像素的移动速度和运动方向。因此，在一些示例性实施例中，所述算法可以确定帧中的手是否正在执行C形静态姿势，C形静态姿势是用于向系统指示即将拍摄景物的图片的姿势。此外，还可以使用另一种算法，其中，系统跟踪的手的空间和动态特征相结合。所述算法可以是一个分类器，用于确定所述人员正在进行的姿势类型。所述算法可以将帧序列中的手的上一个位置和当前位置存储在计算设备的存储器中。这可以帮助监控手正在执行的动作顺序。

由于所述操作1230和所述操作1240对在所述操作1210中接收的视频流和在所述操作1220中识别的ROI进行独立操作，因此所述操作1230和所述操作1240可以依次执行或并行执行。

在所述操作1250中，检测运动流视频流的运动特征。在所述操作1260中，姿势检测模块665根据空间特征和运动特征确定时间特征。在所述操作1270中，所述姿势检测模块665根据所述时间特征识别手势。例如，所述姿势检测模块665可以实施分类器算法，该算法确定人员正在执行的姿势类型。所述算法可以在图6中所述计算机600的存储器中存储数据，其中，所述数据与帧序列中的手的上一个位置、当前位置和外观相关。所述存储的数据可用于监控所述手执行的动作顺序(例如，手正在执行的姿势)。

图13是一些示例性实施例提供的跟随驾驶员110视线的摄像头220的示意图1300。基于驾驶员面部的一个或多个图像，视线检测模块660确定注视点1310。通过控制所述摄像头220的方向(例如，间距、偏航、滚动或其任何合适的组合)，所述摄像头220的焦深、所述摄像头220的缩放因子或其任何合适的组合，图像采集模块670设置焦点1320。所述焦点1320可以预先设置为与所述注视点1310相同(例如，通过持续跟踪驾驶员的注视点)，或设置为响应命令以获取视觉数据(例如，响应于特定的姿势或音频命令的检测)。

图14是一些示例性实施例提供的显示获取的视觉数据1410的用户界面1400的示意图。所述用户界面1400还包括控件1420，所述控件1420包括曝光滑块1430A、对比滑块1430B、高光滑块1430C和阴影滑块1430D。

获取的视觉数据1410可以是上述方法800、方法900或方法1000中的操作830、操作940或操作1030获取的图像。所述用户界面1400可以由显示模块675在显示设备(例如，集成在车辆中的显示设备、投射在风挡上的平视显示器或移动设备)上显示。使用所述滑块1430A-1430D，驾驶员或其他用户可以修改图像。例如，乘客可以使用触摸屏移动所述滑块1430A-1430D来修改所述图像。又例如，所述驾驶员可以使用语音控件移动所述滑块1430A-1430D(例如，“设置对比度为-20”的语音命令可以将所述滑块1430B的值设置为-20)。响应于滑块的调整，所述显示模块675修改获取的视觉数据1410，以对应于调整后的设置(例如，增加曝光、减少对比度、强调阴影或其任何合适的组合)。在进行修改(或者如果没有请求修改)后，用户可以触摸触摸屏上的按钮或者做出姿势(例如，上述方法900中的“保存”、“发送”或“丢弃”姿势中的一种)以允许图像处理继续。

虽然上文详细描述了几个实施例但是可能进行其它修改。例如为了获得期望的结果，附图中描绘的逻辑流不需要按照所示的特定顺序或者先后顺序。其它步骤可在所述流中被提供或被删除，其它组件可在所述系统中被添加或被移除。其它实施例可在所附权利要求书的范围内。

Claims

1.一种计算机实现的获取视觉数据的方法，其特征在于，包括：

一个或多个处理器确定车辆中人员的注视点；

所述一个或多个处理器检测所述车辆中的所述人员的姿势；

响应于所述姿势的检测，所述一个或多个处理器使得摄像头捕获所述人员的注视点对应的视觉数据。

2.根据权利要求1所述的方法，其特征在于，所述车辆中人员的注视点是在所述车辆外部的点。

3.根据权利要求1所述的方法，其特征在于，所述确定所述人员的注视点包括确定所述人员的头部姿势。

4.根据权利要求1所述的方法，其特征在于，所述确定所述人员的注视点包括确定所述人员的视线方向。

5.根据权利要求1所述的方法，其特征在于，

所述确定所述车辆中的人员的注视点是基于第一摄像头捕获的图像；

其中，捕获与所述人员的注视点对应的视觉数据的摄像头为第二摄像头。

6.根据权利要求1所述的方法，其特征在于，所述姿势为手势。

7.根据权利要求6所述的方法，其特征在于，所述手势包括一只手彼此靠近的拇指和手指。

8.根据权利要求1所述的方法，其特征在于，所述使所述摄像头捕获与所述人员的注视点对应的所述视觉数据包括调整所述摄像头的方向。

9.根据权利要求1所述的方法，其特征在于，所述车辆为汽车。

10.根据权利要求1所述的方法，其特征在于，所述车辆为飞行器。

11.根据权利要求1所述的方法，其特征在于，所述摄像头集成在所述车辆中。

12.根据权利要求1所述的方法，其特征在于，所述使所述摄像头捕获所述视觉数据包括向移动设备传输指令。

13.根据权利要求1所述的方法，其特征在于，还包括：

检测所述车辆中人员的第二姿势；

其中，所述使所述摄像头捕获与所述人员的所述注视点对应的所述视觉数据包括：基于所述第二姿势的检测，使所述摄像头放大所述注视点。

14.根据权利要求1所述的方法，其特征在于，所述使所述摄像头捕获与所述人员的注视点对应的所述视觉数据包括使所述摄像头补偿所述车辆的速度。

15.一种车辆，其特征在于，包括：

内存存储器，包含指令；

一个或多个处理器，与所述内存存储器通信，其中，所述一个或多个处理器执行所述指令，以执行：

确定所述车辆中人员的注视点；

检测所述车辆中所述人员的姿势；

响应于所述姿势的检测，使得摄像头捕获所述人员的注视点对应的视觉数据。

16.根据权利要求15所述的视觉数据采集系统，其特征在于，所述车辆中人员的注视点是在所述车辆外部的点。

17.根据权利要求15所述的视觉数据采集系统，其特征在于，

所述确定所述车辆中人员的注视点是基于第一摄像头捕获的图像；

18.根据权利要求15所述的视觉数据采集系统，其特征在于，所述姿势为手势。

19.根据权利要求18所述的视觉数据采集系统，其特征在于，所述手势包括一只手彼此靠近的拇指和手指。

20.一种非瞬时性计算机可读介质，其特征在于，所述非瞬时性计算机可读介质存储有用于获取视觉数据的计算机指令；当所述计算机指令被一个或多个处理器执行时，使得所述一个或多个处理器执行以下步骤：

确定车辆中人员的注视点；

检测所述车辆中所述人员的姿势；