CN114929331A

CN114929331A - 用于人工视觉的显著对象检测

Info

Publication number: CN114929331A
Application number: CN202080092036.0A
Authority: CN
Inventors: N·哈比丽; J·奥尔洛夫; N·巴尔内斯
Original assignee: Commonwealth Scientific and Industrial Research Organization CSIRO
Current assignee: Commonwealth Scientific and Industrial Research Organization CSIRO
Priority date: 2019-12-05
Filing date: 2020-11-30
Publication date: 2022-08-19
Also published as: US20230040091A1; AU2020396051A1; EP4069351A4; WO2021108844A1; EP4069351A1

Abstract

提供了一种利用可植入视觉刺激设备创建人工视觉的方法。该方法包括接收图像数据，该图像数据对于图像的多个点中的每个点包括深度值；对输入图像执行局部背景围场计算以确定显著对象信息；以及使用视觉刺激设备生成视觉刺激以使显著对象信息可视化。确定显著对象信息是基于图像的所述多个点中的至少一个点相对于定义输入图像中的表面的表面模型的空间差异。

Description

用于人工视觉的显著对象检测

相关申请的交叉引用

本申请要求于2019年12月5日提交的澳大利亚临时专利申请第2019904611号的优先权，其内容通过引用整体并入本文。

技术领域

本公开的各方面一般而言涉及用于与可植入视觉刺激设备一起使用的人工视觉刺激的创建，并且更具体地涉及用于优化其功效的系统和方法。

背景技术

包括可植入视觉刺激设备的人工视觉系统提供了一种向视力受损用户提供视觉信息的手段。示例性人工视觉系统包括外部数据捕获和处理组件、以及植入在视力受损用户中的视觉假体，使得视觉假体刺激用户的视觉皮层以产生人工视觉。

外部组件包括图像处理器、以及被配置为捕获用户前方视场的图像的相机和其它传感器。其它传感器可以被配置为捕获深度信息、与视场相关的信息或与用户相关的信息。图像处理器被配置为接收这个图像信息并将其转换成电刺激参数，电刺激参数被发送到植入在视力受损用户中的视觉刺激设备。视觉刺激设备具有电极，电极被配置为直接或间接刺激用户的视觉皮层，以便用户感知由表示视场内的对象的闪光(光幻视(phosphene)现象)组成的图像。

视觉解释的关键组成部分是能够快速识别场景内相对于其周围环境突出或显著的对象的能力。经由人工视觉系统提供给视力受损用户的图像的分辨率常常受到刺激探针可以在用户的视觉皮层上再现的分辨率和颜色范围的限制。因此，重要的细节可能消失，因为它们被映射到与其背景相同的强度值。因而，强调在视觉上突显视场中对用户来说是显著的对象。

一些视场包含多个对象或对象的部分，高度显著的对象位于不太显著的对象或表面的前面。因而，对于人工视觉系统来说，准确地确定高度显著对象的位置和形式是重要的，以便可以有效地向用户呈现显著性信息。

对本说明书中包括的文档、行为、材料、设备、物品等的任何讨论都不应因为它存在于每个所附权利要求的优先权日之前而被视为承认任何或所有这些事项构成现有技术基础的一部分或是与本公开相关的领域的常见的一般知识。

在本说明书中，“包括”一词或诸如“包含”或“含有”之类的变型将被理解为暗示包括陈述的元素、整数或步骤，或元素、整数或步骤的组，但是不排除任何其它元素、整数或步骤，或元素、整数或步骤的组。

发明内容

根据本公开的一个方面，提供了一种利用可植入视觉刺激设备创建人工视觉的方法，该方法包括：接收对于图像的多个点中的每个点包括深度值的图像数据；对输入图像执行局部背景围场(local background enclosure)计算以确定显著对象信息；以及使用视觉刺激设备生成视觉刺激以可视化显著对象信息，其中确定显著对象信息基于图像的多个点中的至少一个点与定义输入图像中的表面的表面模型的空间差异(spatial variance)。

表面模型可以是与图像的多个点中的至少一个点在空间上相关联的邻域表面模型。确定显著对象信息的步骤可以包括确定图像的多个点中的至少一个点的邻域表面分数，并且其中邻域表面分数基于图像的多个点中的至少一个点与邻域表面模型的空间差异的程度。

局部背景围场计算可以包括计算图像的多个点中的至少一个点的局部背景围场结果。

用于使用可植入视觉刺激设备创建人工视觉的方法还可以包括基于邻域表面分数调整局部背景围场结果，并且调整局部背景围场结果包括基于空间差异的程度降低局部背景围场结果。

邻域表面模型可以表示由图像的多个点在图像的多个点中的至少一个点的邻域中定义的虚拟表面。邻域表面模型可以是平面或非平面表面模型。

可以将图像数据在空间上分割成多个超像素，其中每个超像素包括图像的一个或多个像素。图像的多个点中的至少一个点可以被包含在多个超像素中的选择的超像素中。在一个示例中，邻域包括与所选超像素相邻的多个相邻超像素。在另一个示例中，邻域包括位于所选超像素周围的半径内的多个相邻超像素。在又一个示例中，邻域包括整个图像。

基于目标超像素的邻域内的超像素的三维位置，可以使用随机样本一致性(random sample consensus)方法来计算目标超像素的邻域表面模型。

用于使用可植入视觉刺激设备创建人工视觉的方法还可以包括对显著对象信息执行后处理，并且后处理包括执行深度衰减、饱和抑制和闪烁减少中的一种或多种。

根据本公开的另一方面，提供了一种用于创建人工视觉的人工视觉设备，该人工视觉设备包括图像处理器，图像处理器被配置为：接收对于图像的多个点中的每个点包括深度值的图像数据；对输入图像执行局部背景围场计算以确定显著对象信息；以及使用视觉刺激设备生成视觉刺激以可视化显著对象信息，其中确定显著对象信息基于图像的多个点中的至少一个点与定义输入图像中的表面的表面模型的空间差异。

附图说明

现在将参考以下附图描述示例，其中：

图1a-1c图示了示例图像和图像的选定区域的局部背景围场结果的计算；

图2是图示包括与视觉刺激设备通信的图像处理器的人工视觉系统的框图；

图3是图示由图像处理器执行的生成视觉刺激的方法的流程图；

图4是图示由图像处理器执行的接收图像数据的方法的流程图；

图5a图示了将图1a的图像分割成多个超像素；

图5b图示了对图1a的图像的表面的LBE调整；

图6是图示了由图像处理器执行的计算局部背景围场结果的方法的流程图；

图7是图示由图像处理器执行的计算邻域表面分数的方法的流程图；

图8是图示由图像处理器执行的确定表面模型的方法的流程图；

图9是图示由图像处理器执行的对光幻视值进行后处理的方法的流程图。

具体实施方式

本公开涉及包括深度通道的图像数据，诸如来自激光测距仪、超声、雷达、双目/立体图像或其它深度信息源。

人工视觉设备可以通过测量对象与其邻居之间的深度对比度(即，局部尺度深度对比度)和对象与图像的其余部分之间的深度对比度(即，全局尺度深度对比度)来确定由包括深度通道的场景的图像表示的视场内的对象的显著性。

视场内的显著对象的特征往往是位于周围区域的局部前方，并且对象和背景之间的距离不如观察到背景围绕对象的大部分边界那么重要。在对象周围的大范围的角方向上，在对象后面的背景的存在指示对象的突显结构，并因此意味着对象的高显著度。相反，视场中的背景区域不太可能表现出突显结构，并且可以被认为不那么显著。

一种基于这些原理确定视场中对象的显著性的技术是计算视场的图像内的候选区域的局部背景围场。这种方法已在“Local background enclosure for RGB-D salientobject detection”(Feng D、Barnes N、You S等人，计算机视觉和模式识别IEEE会议议程，2016年，2343-2350[1])中进行了描述，其通过引用并入本文。

局部背景围场(LBE)技术基于与图像的像素对应的深度信息测量图像内的显著性。具体而言，LBE技术分析对象，并且更具体地分析作为那个对象的一部分的候选区域。候选区域可以是单个像素，或者一起呈现规则或不规则形状的多个像素。

LBE技术定义候选区域周围的局部邻域，并确定那个局部邻域内包含背景的像素的角分段(诸如预定义距离内的像素)的跨度和尺寸，注意背景是相对于候选区域定义的。即，背景前面的第一对象可以是第一对象前面的第二对象的背景的一部分。

LBE计算至少结合两个组成部分。与显著性大致成比例的第一个组成部分是该区域周围背景的角密度。这编码了一种直觉，即显著对象位于其周围大多数事物的前面。与显著性大致成反比的第二个LBE组成部分是仅包含前景的最大角区域的尺寸，因为大的值意味着对象周围有明显的前景结构。

LBE技术提供了一种确定场景内的显著对象的位置和形式的方法；但是，可能存在以下情况：场景包括对用户来说不是很显著的表面，但由于LBE技术计算显著性的方式，LBE技术对其指示高显著性。

当一个显著性高的对象位于一个不太显著的表面之前，而不太显著的表面位于背景的前面时，会发生这种情况。在这种情况下，期望将不太显著的表面的位置和形式与场景内的高度显著的对象的位置和形式区分开来。实现这种区别的技术是在人工视觉刺激中抑制不太显著的表面的视觉表示。

图1a-1c图示了期望抑制不太显著的表面的显著性表示的示例。图1a-1c图示了由具有深度传感器的相机捕获的示意性图像102。为了清楚说明，图像102以单色示出，并省略了自然纹理、辉度和颜色。图像102描绘了从桌子104上方和前面的视点看到的桌子104。桌子包括平坦的桌子表面106和桌腿108、109。在桌子表面106上是对象110。在这个示例中，对象110是笔；但是，应该理解的是，对象可以是位于桌子表面上或前面的另一个显著对象。桌子104后面是背景，诸如远处表面112，其可以是桌子104下方的地板。

在图像102中，笔110是高度显著的对象，并且期望经由人工视觉刺激向用户突出对象110的位置和形式。

人工视觉设备可以对图像102的候选区域执行一系列LBE计算以确定显著对象的位置和形式。确定场景内的显著对象的示例性LBE计算考虑了候选区域周围背景的角密度以及仅包含前景的最大角区域的尺寸。

图1b图示了具有重叠信息的图像102，以图示用于候选区域114b的LBE的示例计算。候选区域114b在这个示例中被示为方形区域，但是应理解的是，候选区域的形状和尺寸可以是单个像素，或规则或不规则形状的像素集合(也称为“超像素”)。

区域114b表示桌子表面106的部分。候选区域114b周围的局部邻域基于固定半径r被确定，并由虚线116b示出。局部邻域涵盖图像102的表示桌子表面106、对象110和远处表面112的部分。

在局部邻域116b内，候选区域114b具有两个大的角分段118、119，它们都包括背景112的部分。这意味着测量候选区域114b周围背景的角密度的LBE角密度分数将是一个中等高的数字。此外，在局部邻域内，候选区域114b具有仅包括桌子表面106的大的角分段120。这意味着测量仅包含前景的最大角区域的尺寸的角间隙分数将是适中的。因而，用于候选区域114b的LBE计算将导致高LBE分数，并且候选区域将经由人工视觉刺激被表示为对用户的显著区域。

图1c图示了具有重叠信息的图像102，以图示用于另一个候选区域114c的LBE的示例计算。再次，候选区域114c被示为方形区域，但应理解的是，候选区域的形状和尺寸不限于此。

区域114c是桌子表面106的部分。候选区域114c周围的局部邻域由虚线116c示出。局部邻域涵盖图像的表示桌子表面106、对象110和背景112的部分。

在局部邻域内，候选区域114c具有近似180度的大的角分段121，其包括背景112的部分。这意味着目标区域114c的角密度分数将高。此外，在局部邻域内，候选区域114c具有近似180度的大的角分段122，其仅包括桌子表面106。这意味着角间隙分数将是适中的。因而，针对候选区域114c的LBE计算将导致中等高的LBE分数，并且候选区域114c将经由人工视觉刺激表示为对用户的中等显著区域。

如关于图1b和1c所描述的，包括仅考虑角密度分数和角间隙分数的LBE计算会导致显著对象110周围的区域被认为具有中等或高显著性。这会导致用户无法从人工视觉刺激清楚地区分位于不太显著对象前面的高度显著对象的形式。

在另一个示例中，如果场景包括位于背景前面的表面，诸如墙壁、地板或桌面，那么LBE算法可以认为这个表面是显著的。因而，该表面将作为人工视觉刺激中的更高强度辉度向用户视觉上突出显示。但是，如果显著对象位于场景中，那么表示表面的区域的突出显示会导致显著对象在视觉上无法与表面区分开，因此对用户而言并不显著。

因而，期望抑制场景中的表面的显著性，以突出场景中的高度显著对象的位置和形式。要注意的是，该表面可以是平面，诸如墙壁或地板，或者是规则表面，诸如曲线墙或球面，或者是不规则表面。

本公开描述了调整图像区域的LBE结果的邻域表面分数的结合，其中人工视觉系统确定该区域是场景内的表面的一部分。将结合以下示例描述人工视觉系统计算和应用相邻表面分数的方法。

人工视觉设备

图2是图示人工视觉设备200的示例性结构的框图，人工视觉设备200被配置为为视力受损用户211生成代表场景204的视觉刺激。特别地，人工视觉设备200被配置为为视力受损用户生成场景204内的对象的对象显著性表示。场景204表示用户的物理环境并且自然是三维的。

视力受损用户211具有植入的视觉刺激设备212，视觉刺激设备212经由电极214直接或间接地刺激用户的视觉皮层216以产生人工视觉。

人工视觉设备可以包括基于微处理器的设备，该设备被配置为穿戴在用户身上。图2中所示的人工视觉设备200包括图像传感器206、深度传感器208和图像处理器202。在其它实施例中，图像和深度传感器可以位于人工视觉设备200的外部。

目的是使视力受损用户能够感知图像传感器206的视场内的显著对象。特别地，目的是生成刺激信号，使得用户将显著对象感知为突出显示的结构。例如，作为刺激的结果，用户可以将显著对象感知为白色图像结构而将背景感知为黑色图像结构，反之亦然。这可以被认为类似于“看到”低分辨率图像。虽然分辨率低，但目的是通过为导航提供足够详细的显著对象和帧速率并避免直接危险，使视力受损用户能够在所公开的人工视觉系统的帮助下导航日常场景。

图像处理器202从图像传感器206(诸如RGB相机)和深度传感器208(诸如激光测距仪)接收表示场景204的多个点(即，像素)的输入数据。图像传感器206可以是从相机的镜头捕获表示场景204的视场的辉度信息以提供场景的二维像素表示的高分辨率数码相机，每个像素具有亮度值。图像传感器206可以被配置为以灰度图像或彩色图像的形式提供场景的二维表示。

深度传感器208捕获场景204中的点与深度传感器的距离的表示。深度传感器以深度图的形式提供这种深度表示，该深度图指示图像中每个像素的距离测量。可以通过计算两个空间分离的平行相机之间的立体视差来创建深度图。在另一个示例中，深度传感器是激光测距仪，其通过测量飞行时间并将测得的飞行时间乘以光速并除以二来计算距离，从而确定场景204中的点与传感器的距离。在其它示例中，深度图的像素直接表示飞行时间，注意对于所有像素都完全相同的变换不应当影响所公开的方法，该方法依赖于深度的相对差异而不是距离的绝对值。

图像传感器206和深度传感器208可以是分离的设备。可替代地，它们可以是单个设备207，被配置为将图像和深度表示提供为分离的表示，或者将图像和深度表示组合成组合表示，诸如RGB-D表示。RGB-D表示是RGB图像及其对应的深度图像的组合。深度图像是图像通道，其中每个像素值表示RGB图像内图像平面与表面上对应点之间的距离。因此，当本文提及“图像”时，这可以是指没有RGB分量的深度图，因为深度图本质上为每个像素位置提供像素值(即，距离)。换句话说，图像中的亮像素表示场景的近点，图像中的暗像素表示场景的远点(反之亦然)。

为简单起见，图像传感器206和深度传感器208在本文中将被描述为被配置为捕获RGB-D图像的单个设备。当然，也可以使用图像捕获的其它替代方案。

在其它实施例中，图像处理器202可以从一个或多个附加传感器210接收附加输入。附加传感器210可以被配置为提供关于场景204的信息，诸如关于场景204内的显著对象的上下文信息或指示场景204的位置的分类信息。可替代地或附加地，传感器210可以被配置为提供关于与用户相关的场景204的信息，诸如运动和加速度测量。传感器210还可以包括提供用户视觉注意力集中在哪里的指示的眼睛跟踪传感器。

图像处理器202处理输入图像和深度信息，并以场景204的输出表示的形式生成视觉刺激。输出表示被传送到植入在用户211中的视觉刺激设备212，视觉刺激设备212经由电极214刺激用户的视觉皮层216。

场景204的输出表示可以采取例如值阵列的形式，这些值被配置为对应于经由植入的视觉刺激设备212的电极214对用户的视觉路径进行电刺激而生成的光幻视。植入的视觉刺激设备212根据由图像处理器202提供的场景204的输出表示来驱动电极的电刺激。

输出数据端口221连接到植入的视觉刺激设备212，视觉刺激设备212包括被布置为电极阵列的刺激电极214。刺激电极刺激视力受损用户的视觉皮层216。通常，电极214的数量明显低于相机206的像素的数量。因此，每个刺激电极覆盖由传感器207的多个像素捕获的场景204的区域。

通常，电极阵列214在其空间分辨率(诸如8x8)和动态范围(即，强度值的数量，诸如3位导致8个不同的值)方面受到限制；但是，图像传感器206可以捕获高分辨率图像数据，诸如具有8位的640x480。

图像处理器202常常被配置为由用户穿戴。因而，图像处理器可以是低功率、电池供电的单元，具有相对简单的硬件体系架构。

在示例中，如图2中所示，图像处理器202包括微处理器219，微处理器219经由输入端217与图像传感器206和深度传感器208通信，并且经由输入端218与其它传感器210通信。微处理器219可操作地与输出接口221相关联，图像处理器202可以经由该输出接口202将场景204的表示输出到视觉刺激设备212。

应理解的是，任何类型的数据端口都可以用于在输入端口217和218上接收数据并在输出端口221上发送数据，诸如网络连接、存储器接口、处理器219的芯片封装的引脚、或逻辑端口，诸如IP套接字或存储在存储器220中并由处理器219执行的功能参数。

微处理器219还与存储器存储装置220相关联，存储器存储装置220可以采用随机存取存储器、只读存储器的形式和/或易失性和非易失性存储形式的其它形式。存储器220在使用中包括存储的程序指令的主体，程序指令可以由微处理器219执行并且被适配成使得图像处理器202被配置为执行各种处理功能并实现各种算法，诸如下文所述，特别是参考图3至9所述。

微处理器219可以从存储器220以及从输入端口217接收数据，诸如图像数据。在一个示例中，微处理器219实时接收并处理图像。这意味着每次从传感器207接收到新图像时，微处理器219执行图像处理以识别显著对象，并在传感器207发送下一个图像(诸如视频流的下一帧)之前完成这个计算。

应该理解的是，在其它实施例中，图像处理器202可以经由执行通用计算机(诸如膝上型计算机或台式计算机)的软件或专用集成设备或现场可编程门阵列来实现。因而，图1中没有附加硬件细节不应当被视为指示其它标准组件不能被包括在本发明的实际实施例中。

用于创建人工视觉的方法

图3图示了由图像处理器202执行的方法300，用于利用可植入视觉刺激设备212创建人工视觉。方法300可以以存储在存储器220中并在微处理器219上执行的软件实现。方法300是通过设置存储在存储器存储装置220中的配置参数来配置的。

在步骤302中，图像处理器202从RGB_D相机207接收图像数据。图像数据包括尺寸为x×y像素的RGB图像以及对应的深度通道。在一个示例中，图像数据仅包括深度通道。

图像处理器202对接收到的图像数据进行预处理，以准备用于后续处理的数据。图4中的方法400图示了对接收到的图像数据进行预处理的步骤。在步骤402中，图像处理器202将阈值掩模应用于深度图像以确保深度图像的每个像素都在定义的可接受深度范围内。可以通过表示最大深度阈值和最小深度阈值的配置参数来定义用于执行视觉刺激处理的可接受深度范围。深度阈值配置参数可以根据正被查看的场景的类型、上下文信息或用户的偏好而变化。深度图像也可以被平滑以减少空间或时间噪声。这里要注意的是，一些或所有配置参数可以在植入设备之前或者植入之后由临床医生、技术人员甚至用户自己进行调整，以便为用户找到最优选的设置。

在步骤404中，可以修改由图像传感器206提供的图像以降低图像的空间分辨率，从而减少随后要处理的像素的数量。根据存储在图像处理器中的配置参数，图像可以在水平和垂直维度上进行缩放。

在一个示例中，通过选择较高分辨率图像数据的每隔一个像素来确定空间分辨率降低的图像数据。因此，降低的空间分辨率是高分辨率的一半。在其它示例中，可以应用其它的分辨率缩放方法。

在步骤406中，图像处理器对由像素网格I(x,y)表示的RGB-D图像进行分割。为了计算效率和减少深度图像的噪声，图像处理器不是直接处理像素，而是根据RGB值将输入的RGB-D图像分割成超像素的集合。在其它示例中，图像处理器根据它们的深度值将输入图像数据分割成一组超像素。这意味着，输入图像不一定必须包括颜色(RGB)或其它视觉分量，而可以是纯粹的深度图像。可以同样使用其它分割方式。换句话说，图像分割是为图像中的每个像素指派标签(超像素ID)的过程，使得具有相同标签的像素共享某些特点(并属于同一个超像素)。

超像素是一组空间相邻的像素，它们具有共同的特点(如像素强度或深度)。超像素可以促进人工视觉算法，因为属于给定超像素的像素共享相似的视觉特性。此外，超像素提供了方便且紧凑的图像表示，可以有利于计算要求高的问题的快速计算。

SLIC超像素分割

在图4的示例中，图像处理器202利用简单线性迭代聚类(SLIC)[2]算法来执行分割；但是，注意可以应用其它分割算法。SLIC分割算法可以通过使用OpenCV图像处理库来应用。SLIC分割过程是通过设置配置参数来配置的，配置参数包括确定返回的分段的超像素尺寸的超像素尺寸参数、以及确定图像内超像素紧凑度的紧凑度参数。

执行SLIC分割所需的处理能力取决于图像的分辨率、以及分割算法要处理的像素数量。分辨率缩放步骤404通过减少需要由分割算法处理的像素的数量来帮助减少步骤406的处理要求。

分割示例

图5图示了图1a的图像102的表示502，示出了作为对图像102执行超像素分割步骤406的结果而将图像102分割成多个超像素。图5中所示的每个超像素都包含图像的一个或多个相邻像素。超像素以分割线为界。例如，包括图示桌子表面106的像素的超像素514由分割线515、516、517和518界定。分割线518与对象110的边缘并置。

可以看出，超像素具有不规则的形状和不均匀的尺寸。特别地，表示远处表面112的超像素在空间上比表示桌子表面106的超像素更大，涵盖更多像素。此外，对象110的超像素在空间上更小并且涵盖很少的像素。这指示示例对象110具有变化的纹理、辉度或色度。

图像处理器202在局部背景围场计算内使用分割步骤406中确定的超像素来识别显著对象的存在和形式。

超像素选择

在一个示例中，为了降低计算复杂度，图像处理器202仅对在分割步骤406中确定的超像素的选定子集执行LBE计算。根据这种示例，在步骤306中执行LBE计算之前，图像处理器202在步骤3408中执行超像素选择。图像处理器可以基于超像素是否与光幻视位置阵列中的光幻视位置并置和/或对应超像素的深度是否在配置的对象深度阈值内来选择超像素子集以执行LBE。

对象深度阈值指示距深度传感器208的距离，在该距离处对象可以被图像处理器认为是显著的。对象深度阈值可以包括最大对象深度阈值和最小对象深度阈值。对象被认为不显著的最大距离可以取决于传感器查看的3D空间场的上下文。例如，如果视场是室内房间，那么超过5米以外的对象不会被认为对用户是显著对象。相反，如果视场在室外，那么对象可以被认为显著的最大深度可以明显更远。

如果与光幻视位置对应的超像素的深度不在定义的对象深度阈值内，那么图像处理器可以不选择超像素用于后续的LBE计算。

在又一个示例中，图像处理器可以访问场景204的对象模型，该对象模型包括表示视场内的一个或多个预定对象的位置和形式的信息。预定对象的位置和形式可以由图像处理器确定。可替代地，可以将对象模型提供给图像处理器。在这个示例中，图像处理器在已执行LBE计算之后将表示一个或多个预定对象的位置和形式的对象模型信息附到显著对象信息，从而减少为特定图像帧执行的LBE计算的数量。

对于一些实施例或一些情况，可以期望或可行的是计算图像内的每个超像素的LBE。在这种情况下，可以设置配置参数以指示可以省略超像素选择过程，并且步骤304的输出将是图像中每个超像素的列表。

计算LBE

在步骤306中，图像处理器202为步骤304提供的所选超像素的列表中的每个超像素计算局部背景围场(LBE)结果。

图6图示了图像处理器202为计算所选超像素的列表的LBE结果所采取的步骤。在步骤602中，图像处理器202为所选超像素的列表中的每个超像素创建超像素对象。在一个示例中，图像处理器通过计算每个超像素的质心和每个超像素中的像素的平均深度来创建超像素对象。在计算平均深度时，图像处理器可以忽略等于零的深度值。

对于每个所选超像素，图像处理器还计算深度的标准偏差、以及由在超像素的定义半径内的超像素组成的超像素邻域。

在步骤604至608中，对于每个所选超像素P，图像处理器102基于超像素的邻域计算每个超像素的角密度分数F、角间隙分数G和邻域平面分数。这些分数结合起来产生超像素的LBE结果S。

角密度分数

在步骤604中，图像处理器计算P周围的深度大于P的区域(称为局部背景)的角密度。P的局部邻域N_P，由P的半径r内的所有超像素组成。即，N_P＝{Q|Pc_P-c_QP₂<r}，其中c_P和c_Q是超像素质心。

P的局部背景B(P,t)被定义为邻域N_P内与P相距的平均深度高于阈值t的所有超像素的并集。

B(P,t)＝∪{P′∈N_P|D(P′)>D(P)+t}, (1)

其中D(P)表示P中的像素的平均深度。

方法600定义函数f(P,B(P,t))，该函数计算B(P,t)包围P的程度的归一化比率。

其中I(θ,P,B(P,t)))是指示符函数，如果通过超像素P质心且角度为θ的线与B(P,t)相交，那么为1，否则为0。

因此，f(P,B(P,t))计算背景方向的角密度。注意，背景的阈值t是未确定的函数。为了解决这个问题，正如概率论中经常使用的那样，我们采用表示为F(P)的分布函数而不是密度函数f来给出更稳健的测量。我们将F(P)定义为：

其中σ是P的局部邻域内的平均超像素深度的标准偏差。

这是由

给出的，其中

这隐含地结合了关于P与其局部背景之间的深度差异分布的信息。

角间隙分数

在步骤606中，图像处理器202计算角间隙分数G(P)。角间隙分数在两个超像素具有相似角密度的情况下提供调整；但是，由于背景方向更加分散，两个超像素之一似乎具有更高的显著性。为了提供这种调整，方法600应用函数g(P,Q)来找到P周围Q的最大角间隙，并将其结合到显著性分数中。

其中Θ表示不包含背景的角区域的边界集合(θ₁,θ₂)：

角间隙统计量被定义为1-g的分布函数：

LBE结果由下式给出：

S(P)＝F(P)·G(P). (7)

在步骤608中，图像处理器202组合角密度分数、角间隙分数以给出超像素的LBE结果。在一个示例中，通过未加权的乘法来组合分数。在其它示例中，加权或条件乘法方法可以被用于组合分数以产生超像素的LBE结果。

邻域表面分数

在步骤610中，图像处理器为每个所选超像素计算第三分数，即，邻域表面分数，以在超像素表示不那么显著的表面的一部分的情况下提供对LBE结果的调整。

为了计算邻域表面分数，图像处理器102确定邻域表面模型，该邻域表面模型定义超像素的邻域中的虚拟表面的位置和形式。超像素的邻域表面分数基于超像素与邻域表面模型的空间差异。如果超像素与邻域表面模型存在高度的空间差异，那么图像处理器提供保留超像素的LBE结果的邻域表面分数。相反，如果超像素与邻域表面模型存在低程度的空间差异，那么图像处理器提供在一定程度上抑制超像素的LBE结果的邻域表面分数。

通过图7中的方法700图示了图像处理器202计算邻域表面分数的示例方法。方法700被配置为计算所选超像素的列表中的每个超像素的邻域表面分数，如在步骤408中确定的。但是，注意，图像处理器可以被配置为针对一组超像素、个体像素或像素的组计算邻域表面分数。

确定3D描述符

在步骤702中，图像处理器202基于每个超像素相对于图像502的x维度、图像502的y维度和基于深度测量的深度维度z的位置，为图像502中的每个超像素计算三维(3D)点描述符。3D点描述符可以是针对每个超像素计算和存储的数字元组的形式。在一个示例中，3D点描述符是超像素的质心，如在步骤602中计算的。在另一个示例中，3D点描述符可以表示三个维度中的每个维度中超像素范围的中点。在一个示例中，使用固有的相机特性来变换点。这样做的原因是：如果相机指向相机前面的平坦墙壁，并且处理器202沿着垂直于相机轴的水平线提取距离，那么值可以是(5，4.5，4(中间)，4.5，5)，因为相机到每个点的距离不一样。这将使利用原始深度数据重建的表面在实际平坦时显得弯曲。变换数据解决了这个问题。因此，处理器202可以基于相机特性变换输入数据以获得准确的3D点。

图像处理器针对每个所选超像素迭代步骤704至710。

确定邻域

在步骤704中，图像处理器202确定目标超像素514周围的邻域。在一个示例中，邻域包括与目标超像素直接相邻的超像素。在另一个示例中，邻域包括位于目标超像素的所设定的或可配置的半径内的超像素，如在步骤602中确定的。关于图5中所示的示例，邻域被配置为包括整个图像502。

获得表面模型

然后，图像处理器202获得704与所确定的邻域相关联的表面模型。表面模型定义虚拟表面，虚拟表面近似于场景的指定区域内的表面的形式和位置。在一个示例中，表面模型是基于图像的x、y和深度维度定义的虚拟表面的数学表示。

由表面模型建模的表面可以是场景内的主要表面，使得它是图像的大多数点所位于或接近的表面。参考图1中所示的示例场景，主要表面是桌子104的顶表面106。其邻域已被定义为整个图像102的邻域表面模型描述桌子顶表面106的形式和位置。

在另一个示例中，场景可以包括挂在墙上的带框图片。在那种情况下，主要表面可以是墙壁。取决于确定的邻域，可以为整个场景或场景的部分定义表面模型。因而，可以存在与单个图像相关联的多个表面模型。表面模型可以指示平面表面或非平面表面。

根据一个示例，图像处理器202从存储器220获得表面模型。在另一个示例中，图像处理器从外部源获得表面模型。根据图5至8中所示的示例，图像处理器202基于为与目标超像素514相关联的邻域确定的3D点描述符来计算平面表面模型。

确定平面表面模型

图8图示了由图像处理器202执行的用于为与目标超像素相关联的邻域计算表面模型的示例方法。这个示例的邻域包括整个图像102，但是在其它示例中邻域可以包括图像的子集。

在这个示例中，图像处理器202使用随机样本一致性(RANSAC)方法来计算与目标超像素相关联的邻域的合适表面模型。从广义上讲，RANSAC方法是用于从包含离群值的观察到的数据的集合中估计数学模型的参数的迭代方法。在方法800所示的实施例的上下文中，RANSAC方法可以通过应用以下步骤来应用。

在步骤802中，图像处理器202选择与目标超像素的邻域内的超像素相关联的多个样本3D点描述符。在一个示例中，图像处理器伪随机地选择3D描述符。在另一个示例中，图像处理器选择与目标超像素大致等距离的3D描述符。

如果图像处理器试图确定平面表面模型，那么选择三个3D点描述符。三个3D点描述符定义由图像的x维度、图像的y维度和深度维度z定义的虚拟空间中的候选平面表面。图像处理器相对于图像502的维度在数学上定义候选平面。

如果图像处理器试图确定非平面表面模型，那么图像处理器可以被配置为选择多于三个3D描述符。例如，对于多项式表面模型，处理器可以至少选择描述符的数量，因为模型中存在未知数。处理器可以执行最小二乘优化以使模型适合描述符。可以同样使用其它表面模型，诸如小波或样条模型。另外，可以使用非数学或非分析方法，诸如统计模型或由经验数据集定义的模型，诸如使用经训练的机器学习模型进行的分类。

在步骤806中，图像处理器通过考虑邻域内的作为候选表面的离群值的超像素来确定候选表面模型是否是表示邻域的合适表面模型。

在被认为是表面的离群值之前，超像素可以在空间上与候选表面不同的程度可以通过配置参数的设置来配置。在一个示例中，定义了定义可接受空间差异比的表面差异配置参数。例如，如果超像素的3D点描述符位于大于表面差异乘以超像素距候选表面的深度的距离，那么该超像素被视为离群值。

图像处理器针对邻域内的每个剩余超像素重复离群值确定，注意被确定为候选表面模型的离群值的超像素的数量、以及每个超像素与候选表面的空间差异(即，距离)。

图像处理器多次重复选择样本3D描述符802、确定候选表面模型804和计算候选表面模型的离群值806的步骤。在一个示例中，可以预先配置步骤802至806的迭代次数。在另一个示例中，在步骤802至806的每次迭代完成时，图像处理器202可以基于离群值的数量或离群值的空间差异来确定是否需要进一步的迭代。

在步骤802至806的迭代完成时，图像处理器202确定在步骤804中确定的多个候选表面模型中的哪个是目标超像素的邻域的最佳拟合。为了确定最佳拟合，图像处理器可以考虑在步骤806中被认为是离群值的超像素的数量，和/或超像素与候选表面模型的增量距离。在一个示例中，最佳拟合被认为是具有最少数量的被认为是离群值的超像素的候选表面模型。在另一个示例中，最佳拟合表面模型是其中所有外围超像素的增量距离之和最小的候选表面模型。

一旦图像处理器选择了808最佳拟合候选表面模型、最佳拟合候选表面模型，图像处理器就获得目标区域的邻域表面模型，如步骤706所示。

计算差异

在步骤708中，图像处理器202根据获得的邻域表面模型计算目标超像素的3D点描述符的空间差异。

与表面模型具有高差异的目标超像素指示该超像素未与相邻表面对准，并且该超像素表示与其相邻表面分开设置的区域。因而，由目标超像素表示的区域可以是显著对象的一部分。在这种情况下，期望保留LBE结果，以便向用户突出显示显著对象。

相反，与表面模型具有低差异的目标超像素指示超像素与相邻表面对准，并且该超像素可以表示相邻表面的一部分。因而，由超像素表示的区域可以不是显著对象的一部分。在这种情况下，期望抑制LBE结果，以便不向用户突出显示表面。

在步骤710中，图像处理器基于目标超像素的3D点描述符与所获得的邻域表面模型的空间差异计算邻域表面分数。

空间差异对邻域表面分数的影响可以经由差异阈值配置参数进行配置，该差异阈值配置参数指示与表面的空间差异，该空间差异被认为指示对象显著性。在一个示例中，图像处理器经由以下函数确定邻域表面分数：该函数在空间差异低于差异阈值配置参数时提供结果0，并当空间差异超过差异阈值配置参数时提供急剧弯曲至1的结果。

图5b图示了图像处理器基于超像素与图像502的邻域表面模型的差异为图像502的超像素计算的邻域表面分数。如上所述，在图5a和5b所示的示例中，邻域是整个图像502，并且邻域表面模型代表桌子104的顶表面106。

在图5a和5b所示的示例中，图像处理器还被配置为区分深度维度z中的正空间差异与负空间差异，使得相比于与表面模型具有相同空间差异但深度更近的超像素，位于比表面模型深的空间差异的超像素具有更低的邻域表面分数。

因而，图像处理器已确定用于距离表面112的高负空间差异，因此图像处理器已确定这些表面112的邻域表面分数接近0。因而，这些远处表面112的LBE结果将被显著抑制，并且这些表面在人工视觉刺激中不会被指示为对用户显著。

图像处理器已确定桌子表面106的邻域表面分数接近0，因此表示桌子表面106的超像素的LBE结果将被显著抑制，并且桌子表面106将不会被指示为在人工视觉刺激中对用户显著。

最后，图像处理器已确定表示对象110的超像素的邻域表面分数接近1。因而，表示对象110的超像素的LBE结果将被保留，并且这个对象的显著性将通过人工视觉刺激向用户指示。

调整LBE结果

在步骤612中，图像处理器202通过结合超像素的邻域表面分数来调整该超像素的LBE结果。在一个示例中，LBE结果和邻域表面分数通过未加权的乘法进行组合。在其它示例中，加权或条件乘法或求和方法可以被用于将LBE结果与邻域表面分数组合以产生超像素的经调整的LBE结果。

对每个超像素重复

图像处理器对步骤304中提供的所选超像素列表中的每个超像素重复步骤604至612，以便确定每个所选超像素的经调整的LBE结果。

确定光幻视值

在确定每个所选超像素的经调整的LBE结果之后，图像处理器102确定光幻视位置阵列中的每个光幻视位置的光幻视值。对于与所选择的超像素之一并置的光幻视位置，光幻视值被确定为那个超像素的经调整的LBE结果。对于与未选择的超像素并置的光幻视位置，光幻视值被确定为零。

光幻视值的阵列表示关于由图像和深度传感器捕获的视场的显著对象信息。这个显著对象信息可以由视觉刺激设备用户可视化为表示显著对象的形式和位置的光强度的阵列。

后处理

可选地，并且根据示例要求和操作参数，图像处理器可以对光幻视值阵列执行后处理，以提高显著对象信息的有效性。

后处理方法的示例实施例在图9中进行说明。应该理解的是，方法900是图像处理器可以在确定光幻视位置的光幻视值之后执行的后处理步骤的非限制性示例。在一些实施例中，图像处理器202以图9中所示的次序执行所有步骤902至912。可替代地，图像处理器可以仅执行步骤902至912的子集和/或以图9中所示的替代次序执行方法900的步骤。

执行深度衰减

在步骤902中，图像处理器202可以根据深度衰减配置参数来衰减每个光幻视值。例如，该方法可以根据以下公式计算缩放因子：缩放＝1-(当前光幻视深度*(1–深度衰减百分比))/最大距离，然后将其应用于当前的光幻视值。

深度衰减调整导致越近的对象越亮，越远的对象越暗。例如，如果深度衰减百分比被设置为50％，并且最大距离为4.0m，那么表示4.0m距离的光幻视值将变暗50％，2.0m处的光幻视值将变暗25％。

执行饱和抑制

在步骤904中，图像处理器可以通过取所有光幻视值的平均值来计算全局光幻视饱和度以执行饱和度抑制。如果平均值大于定义的饱和度阈值配置参数，那么图像处理器对图像执行归一化以降低一些光幻视值的值，从而消除某些饱和度。移除光幻视值的饱和度具有在视觉刺激内绘制细节的效果。

闪烁减少

图像处理器还可以被配置为执行闪烁减少的步骤906。闪烁减少是一种时间特征，以提高图像稳定性并减轻深度相机数据和经调整的LBE结果中的噪声。闪烁增量配置参数限制了光幻视值可以从一帧到下一帧变化的最大量，这可以通过查看最后一帧的数据并确保光幻视值的变化不超过这个量来实现。闪烁减少旨在减轻闪烁噪声并增强光幻视亮度的平滑变化。

此外，图像处理器可以被配置为在光幻视的深度值近于最小深度的情况下将光幻视值设置为1。此外，图像处理器可以被配置为裁剪或调整光幻视值以适应植入的视觉刺激设备的输入参数限制。

生成视觉刺激

一旦图像处理器计算出每个所选超像素的经调整的LBE结果，确定了每个光幻视位置的光幻视值并执行了为特定实施例配置的任何后处理功能，图像处理器就生成视觉图像刺激。图像处理器202然后经由输出端221将视觉刺激传送到视觉刺激设备212。

视觉刺激可以是光幻视值的列表的形式，光幻视位置的网格上的每个光幻视位置都有一个光幻视值。在另一个示例中，视觉刺激可以包括差异值，指示每个光幻视位置的值与先前图像帧处的对应光幻视值相比的差异。在其它示例中，视觉刺激是每个电极的信号并且可以包括每个电极的强度，诸如刺激电流，或者可以包括实际刺激脉冲，其中脉冲宽度定义刺激强度。

在一个示例中，光幻视位置与空间布置的植入电极214对应，使得由光幻视的网格形成的低分辨率图像可以在用户的视觉皮层内被再现为真实的光幻视。真实的光幻视是由电刺激视觉假体上的电刺激引起的感知伪影的名称。

在一个示例中，模拟的光幻视显示器可以被用于验证本文所述的方法，并且可以包括按图像尺寸缩放的35x30矩形网格。每个光幻视都有圆形高斯轮廓，其中心值和标准偏差由那个点处的亮度调制。此外，当光幻视重叠时，光幻视将它们的值相加。在一个示例中，以每个光幻视的8位动态范围执行光幻视渲染，这是理想化的表示。在不同的示例中，假设电刺激的最大神经元辨别更接近3位渲染。在另一个示例中，每个光幻视有不同数量的表示位数，这可以随时间而改变。

响应于从图像处理器202接收到视觉刺激输出，植入的视觉刺激设备212经由电极214以与为每个电极提供的值对应的强度刺激视网膜。电极214刺激视力受损用户211的视觉皮层，触发以与刺激值大致对应的强度产生真实的光幻视伪影。这些真实的光幻视向用户提供具有传感器207的视场204的显著对象的人工视觉。

在一个示例中，方法300和相关联的子方法400、600、700、800和900被应用于视频数据的帧，并且图像处理器基于每帧生成视觉刺激，以周期性地应用于电极。

在一个示例中，进一步调整视觉刺激以适应特定视力受损用户的需要或该用户的视力受损特点。此外，由于诸如神经元的极化之类的因素，视觉刺激的调整可以随时间而改变。

在一个示例中，图像处理器在逐帧的基础上适应用户的感知，其中视觉刺激基于用户的各个方面(诸如用户眼睛的注视方向)进行调整。

本领域技术人员将认识到的是，可以对上述实施例进行多种变化和/或修改，而不背离本公开的广泛的一般范围。因此，本实施例在所有方面都被认为是说明性的而不是限制性的。

参考文献：

[1]Local background enclosure for RGB-D salient object detection，FengD、Barnes N、You S等，计算机视觉和模式识别IEEE会议议程，2016，2343-2350。

[2]SLIC superpixels compared to state-of-the-art superpixel methods，Achanta R，Shaji A，Smith K等人，PAMI，34(11):2274–2282，2012。

Claims

1.一种利用可植入视觉刺激设备创建人工视觉的方法，该方法包括：

接收对于图像的多个点中的每个点包括深度值的图像数据；

对输入图像执行局部背景围场计算以确定显著对象信息；以及

使用视觉刺激设备生成视觉刺激以可视化所述显著对象信息，

其中确定显著对象信息基于图像的所述多个点中的至少一个点相对于定义输入图像中的表面的表面模型的空间差异。

2.如权利要求1所述的方法，其中所述表面模型是与图像的所述多个点中的所述至少一个点在空间上相关联的邻域表面模型。

3.如权利要求2所述的方法，其中确定显著对象信息包括确定图像的所述多个点中的所述至少一个点的邻域表面分数，并且其中所述邻域表面分数基于图像的所述多个点中的所述至少一个点与邻域表面模型的空间差异的程度。

4.如权利要求3所述的方法，其中所述局部背景围场计算包括计算图像的所述多个点中的所述至少一个点的局部背景围场结果。

5.如权利要求4所述的方法，其中该方法还包括基于所述邻域表面分数调整局部背景围场结果。

6.如权利要求5所述的方法，其中调整局部背景围场结果包括基于空间差异的程度降低局部背景围场结果。

7.如权利要求6所述的方法，其中所述邻域表面模型表示由图像的多个点在图像的所述多个点中的所述至少一个点的邻域中定义的虚拟表面。

8.如权利要求2至7中的任一项所述的方法，还包括将图像数据在空间上分割成多个超像素，其中每个超像素包括图像的一个或多个像素。

9.如权利要求8所述的方法，其中图像的所述多个点中的所述至少一个点被包含在所述多个超像素中的选择的超像素中。

10.如权利要求9所述的方法，其中所述邻域包括与所选择的超像素相邻的多个相邻超像素。

11.如权利要求9所述的方法，其中所述邻域包括位于所选择的超像素周围的半径内的多个相邻超像素。

12.如权利要求9所述的方法，其中所述邻域包括整个图像。

13.如权利要求2至12中的任一项所述的方法，其中所述邻域表面模型是平面表面模型。

14.如权利要求13所述的方法，还包括基于目标超像素的邻域内的超像素的三维位置，使用随机样本一致性方法来计算目标超像素的邻域表面模型。

15.如前述权利要求中的任一项所述的方法，其中所述方法还包括对显著对象信息执行后处理，并且后处理包括执行深度衰减、饱和抑制和闪烁减少中的一种或多种。

16.一种用于创建人工视觉的人工视觉设备，所述人工视觉设备包括图像处理器，所述图像处理器被配置为：

接收对于图像的多个点中的每个点包括深度值的图像数据；

使用视觉刺激设备生成视觉刺激以使显著对象信息可视化，

17.如权利要求16所述的人工视觉设备，其中所述表面模型是与图像的所述多个点中的所述至少一个点在空间上相关联的邻域表面模型。

18.如权利要求17所述的人工视觉设备，其中确定显著对象信息包括基于图像的所述多个点中的所述至少一个点与邻域表面模型的空间差异的程度来确定图像的所述多个点中的所述至少一个点的邻域表面分数。

19.如权利要求18所述的人工视觉设备，其中所述局部背景围场计算包括计算图像的所述多个点中的所述至少一个点的局部背景围场结果。

20.如权利要求19所述的人工视觉设备，其中所述方法还包括基于所述邻域表面分数调整局部背景围场结果。