CN109074487B

CN109074487B - 使用神经学读数将场景分割成语义分量

Info

Publication number: CN109074487B
Application number: CN201780029091.3A
Authority: CN
Inventors: J·C·戈唐; C·科斯金
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-05-11
Filing date: 2017-05-05
Publication date: 2022-10-21
Anticipated expiration: 2037-05-05
Also published as: EP3455786A1; WO2017196640A1; US9886621B2; US20170330023A1; CN109074487A

Abstract

用于将场景分割成语义分量的计算机视觉系统标识来自用户的生理读数内的差异。该差异对应于与用户的注视相关联的语义边界。基于由注视跟踪设备收集的数据，计算机视觉系统标识在所标识的差异的时间处用户的注视的相关位置。计算机视觉系统然后将用户的注视的相关位置与语义边界相关联。

Description

使用神经学读数将场景分割成语义分量

技术领域

本公开的实施例涉及总体上涉及计算机领域，并且更具体地涉及使用神经学读数将场景分割成语义分量的系统和方法。

背景技术

因为处理和机器已经变得更加自动化，所以计算机视觉系统已经获得了更大的重要性和兴趣，两者都在工业和消费空间内。例如，蔬菜工厂可以利用计算机视觉系统来沿着装配线监测和控制蔬菜的质量。类似地，机器人或无人驾驶车辆可以利用计算机视觉系统来帮助从一个地方导航到另一个地方。

因为计算机视觉系统和支持的计算机技术已经进步，所以智能地标识真实世界内的对象的能力已经变成高度感兴趣的话题。为了标识真实世界内的对象，计算机视觉系统必须将图像内的对象彼此区分开。例如，计算机视觉系统可以被指派有将椅子与包含椅子的房间的背景图像区分开的问题的任务。另外，除了简单地标识图像内的对象以外，标识对象的实际类型将提供重要益处。例如，期望计算机视觉系统标识图像中的对象是椅子。

除了计算机视觉系统的各种其他工业和消费用途，最近计算机视觉系统已经被并入到虚拟现实和增强现实系统中。计算机视觉系统可以用于将信息叠加在增强现实系统内的用户的视场中。例如，可能期望使增强现实系统自动地显示关于用户正在关注的对象的信息。然而，包括虚拟现实和增强现实系统的各种计算机系统具有确定用户正在关注的实际对象的困难。例如，难以确定用户是正在关注另一个人、此人的头部、此人的脸部还是此人的鼻子。这些可能的关注点中的每个可能严重地影响增强现实系统将通常显示什么信息。因此，存在对能够标识用户正在场景内关注的具体对象的改进的计算机视觉系统的持续需求。

本文中要求保护的主题不限于解决任何缺点或仅仅操作于例如以上描述的环境的环境中的实施例。相反，该背景仅仅被提供以说明本文中描述的一些实施例可以被实践在其中的一个示例性技术领域。

发明内容

本文中公开的实施例包括被配置为将场景分割成语义分段的系统、方法和装置。具体地，本发明的实施方式包括用于测量来自用户的生理读数的生物识别设备和用于跟踪用户的注视的注视跟踪设备。计算机视觉系统可以分析生理读数和用户的注视以确定用户的注视何时关注语义边界。计算机视觉系统可以然后基于在特定场景内标识的语义边界的集合来标识语义分段。

所公开的实施例包括一种用于将场景分割成语义分量的计算机视觉系统。计算机视觉系统包括处理单元，其与生物识别跟踪设备和注视跟踪设备进行通信，生物识别跟踪设备被配置为收集来自用户的生理读数，注视跟踪设备被配置为跟踪用户的注视。计算机视觉系统标识来自用户的生理读数内的差异。该差异对应于与用户的注视相关联的语义边界。基于由注视跟踪设备收集的数据，计算机视觉系统标识在所标识的差异的时间处用户的注视的相关位置。计算机视觉系统然后将用户的注视的相关位置与语义边界相关联。

所公开的实施例还包括用于定义场景内的分段之间的语义关系的另一种或另外的计算机视觉系统。计算机视觉系统包括一个或多个处理器和其上存储有可执行指令的一个或多个计算机可读介质。可执行指令当被执行时使计算机视觉系统执行各种动作。

例如，计算机视觉系统标识第一数字捕获场景内的多个分段。计算机视觉系统还创建定义数字捕获场景内的不同分段之间的相关性的相关性数据结构。分段至少部分地由一个或多个边界定义。另外，计算机视觉系统标识第一数字捕获场景中的多个分段之间的多个语义边界，语义边界中的每个分割至少两个相邻分段。计算机视觉系统基于在用户正在注视一个或多个边界中的一个时来自用户的生理读数内的差异来标识语义边界中的每个。计算机视觉系统然后基于分割相邻分段的语义边界与包围相邻分段的其他语义边界之间的关系来确定相邻分段之间的相关性的概率。计算机视觉系统然后在相关性数据结构内创建描述相邻分段之间的相关性的概率的语义关系条目。

所公开的另外的实施例还包括一种用于利用计算机视觉系统将场景分割成语义分量的计算机实现的方法。方法包括标识来自用户的检测到的生理读数内的差异的动作。检测到的生理读数从生物识别跟踪设备来获得。差异对应于与从注视跟踪设备检测到的用户的注视相关联的语义边界。方法还包括基于由注视跟踪设备收集的数据来标识在所标识的差异的时间处用户的注视的相关位置的动作。方法还包括将用户的注视的相关位置与语义边界相关联的动作。

本发明的示例性实施方式的额外的特征和优点将被阐述在随后的描述中，并且部分将从描述显而易见，或者可以通过对这样的示例性实施方式的实践来习得。这样的实施方式的特征和优点可以借助于在所附权利要求中特别指出的装置和组合来实现和获得。这些特征和其他特征将从下面的描述和所附权利要求变得更完整地显而易见，或者可以通过对如在后文中阐述的这样的示例性实施方式的实践来习得。

附图说明

为了描述能够获得本发明的以上所述的优点和特征以及其他优点和特征的方式，将通过参考在附图中示出的其具体实施例来呈现以上简单描述的本发明的更具体的描述。在理解这些附图仅仅描绘本发明的典型实施例并且因此不被认为是对其范围的限制的情况下，利用在对附图的使用中的额外的特异性和细节来描述并解释本发明，在附图中：

图1示出了计算机视觉系统内的各种计算机视觉部件的实施例的语义。

图2示出了计算机视觉系统的实施例的语义。

图3示出了用户查看场景的实施例的语义。

图4示出了与来自机器学习算法的输出在时间上同步的跨场景的用户的注视的实施例的描绘。

图5示出了用户正在关注的对象的实施例的语义。

图6示出了与来自机器学习算法的输出在时间上同步的跨场景的用户的注视的另一实施例的描绘。

图7示出了与来自机器学习算法的输出在时间上同步的跨场景的用户的注视的又一实施例的描绘。

图8示出了用于利用计算机视觉系统将场景分割成语义分量的方法的实施例的流程图。

图9示出了用于利用计算机视觉系统将场景分割成语义分量的方法的另一实施例的流程图。

具体实施方式

本发明扩展至被配置为将场景分割成语义分段的系统、方法和装置。具体地，本发明的实施方式包括用于测量来自用户的生理读数的生物识别设备和用于跟踪用户的注视的注视跟踪设备。计算机视觉系统可以分析生理读数和用户的注视以确定用户的注视何时关注语义边界。计算机视觉系统可以然后基于在特定场景内标识的语义边界的集合来标识语义分段。

因此，本文中公开的计算机视觉系统的实施例准确地标识用户正在查看的场景内的语义边界。如本文中所使用的，语义边界是场景内的对用户有意义的视觉边界。语义边界的位置和/或存在可以基于用户与场景的交互而变化。例如，当用户正在关注图画时，图画的整个轮廓可以包括语义边界。对比之下，如果用户关注图画中描绘的特定个体，则该描绘的特定个体的轮廓包括语义边界。因此，语义边界可以基于用户的关注而随时间变化和调整。在更一般的意义上，语义边界也被定义为图像内的定义逻辑上分离的对象的边界。例如，装满书的书架可以包括分别定义书架和每个分离的书的多个语义边界。

计算机视觉系统的实施例标识场景内的在用户的视觉和精神关注的中心的具体对象。例如，使用来自用户的生理读数，计算机视觉系统能够确定用户是正在关注另一个体、该个体的脸部还是甚至该个体的鼻子。

准确地分割场景内的对象的能力向许多不同的领域提供重要益处，包括但不限于无人驾驶汽车、机器人视觉、虚拟现实以及增强现实。例如，如本文中将更完全地公开的，计算机视觉系统的实施例能够在桌面上的一张纸与桌面本身之间进行区分。尽管在语义对象之间进行区分的这种过程可能对于人脑而言很自然地出现，但是常规计算机视觉系统确定纸是与桌面分离的对象还是仅仅桌面本身内的图画或设计可能很费劲。

一旦语义对象被正确地标识出，计算机视觉系统就能够对语义对象的至少部分进行分类和标记。例如，代替将桌面和纸两者都标记为单个“桌子”实体，计算机视觉系统将纸标记为与桌子接触的单个实体，桌子也被标记为单个分离的实体。

除了能够分割场景内的对象，所公开的计算机视觉系统的实施例标识用户正在场景内关注什么。例如，如将在本文中更完全地公开的，计算机视觉系统的实施例能够确定用户是正在关注灯、灯罩还是灯的主体上的设计。

一旦计算机视觉系统正确地标识了在用户的关注的中心的特定对象，计算机视觉系统就可以恰当地与用户进行关于对象的界面交互。例如，计算机视觉系统可以被配置为向用户显示与用户正在关注的对象有关的信息。确定用户是正在关注灯还是灯罩的能力确保恰当的信息被显示给用户。

现在转到附图，图1示出了计算机视觉系统100内的各种计算机视觉部件的实施例的与场景150有关的语义。具体地，图1描绘了处理单元110，其与生物识别跟踪设备120和注视跟踪设备130进行通信，生物识别跟踪设备120被配置为收集来自用户的生理读数，注视跟踪设备130被配置为跟踪用户的注视。所描绘的处理单元110包括独立计算机，但是在额外的或备选的实施例中，处理单元110包括嵌入式处理设备、片上系统部件、FPGA或任何其他处理设备。

在各种实施例中，生物识别跟踪设备120包括收集来自用户的生理读数的一种或多种类型的传感器。例如，在至少一个实施例中，生物识别跟踪设备120包括监测来自用户的神经学活动的一个或多个神经学传感器。神经学传感器可以包括监测与用户的大脑相关联的电活动的脑电图设备(“EEG”)。其他实施例利用通过除了EEG或作为其备选的其他装置(诸如脑磁图(MEG)、功能磁共振成像(fMRI)、或用于收集基于上下文的神经学数据的其他技术)收集的神经学数据。在本文优选的实施例中，还使用非侵入式EEG技术。然而，将认识到，本公开内容的范围还涵盖所描述的/所要求保护的EEG传感器利用MEG、fMRI和/或其他基于上下文的神经学数据替代和/或补充的实施例。在备选的或额外的实施例中，生物识别跟踪设备120包括以下中的一个或多个：脉搏血氧计、皮肤电反应传感器、神经学植入物、超声传感器、血压传感器以及能够收集来自用户的生理读数的任何其他生物识别传感器。以上描述的生物识别跟踪设备120中的任何还可以被实施为传感器290。

在各种实施例中，注视跟踪设备130包括眼睛跟踪设备、眼睛附接的跟踪、光学追踪、电势测量或能够确定用户的注视方向的任何其他技术。注视跟踪设备130可以被嵌入用户穿戴的可穿戴设备内、从安装的位置跟踪用户的注视的安装的设备内、或者以其他方式安装的设备内。

可选地，在至少一个实施例中，计算机视觉系统100还包括成像设备140。成像设备140接收与用户的视场相对应的数字捕获场景的图像。如图1中所描绘的，用户的视场与场景150相对应。在各种备选的或额外的实施例中，成像设备140包括视频相机、静态帧相机、LIDAR、深度相机、紫外线相机、或能够捕获场景的视觉图像的任何其他设备。取决于使用的设备的类型，成像设备140可以能够收集关于场景的深度信息。

在至少一个实施例中，计算机视觉系统100被包含在包括处理单元110、生物识别跟踪设备120、注视跟踪设备130以及成像设备140的单个设备内。例如，计算机视觉系统100可以被集成到可穿戴形状因子中。因此，在至少一个实施例中，各种部件110、120、130、140被封闭在单个壳体内并且共享诸如功率、结构支撑件和通信线路的资源。

图2示出了计算机视觉系统200内的实施例的语义。所描绘的实施例包括表示处理单元110的处理和功能的各种示例性模块。计算机视觉系统200包括接收计算机可执行指令的处理器204，计算机可执行指令当由处理器204执行时能操作用于实施用于分割语义分量的方法。

在各种实施例中，计算机视觉系统200可以在分布式系统内执行。例如，计算机视觉系统200可以在本地系统284和远程系统280两者处执行。本地系统284和远程系统282通过网络280进行通信。在至少一个实施例中，本地系统284整体被设置在可穿戴设备内，并且远程系统282是为计算机视觉系统200存储信息并且执行计算的云服务器。尽管远程系统282被描绘为单个服务器，但是在至少一个实施例中远程服务器282包括通过网络280进行通信的地理上分离的系统。将理解，计算机视觉系统200的所描绘的和所描述的模块和结构仅仅为了清楚性起见，并且不将所公开的计算机视觉系统200限制于任何具体配置。

所描绘的输入/输出设备212、214、216、218、290与计算机视觉系统200进行通信。例如，所描绘的输入/输出设备212、214、216、218、290包括生物识别跟踪设备212、注视跟踪设备214、成像设备216、用户界面显示器218以及各种传感器290。各种输入/输出设备212、214、216、218、290通过传感器输入接口220和输出接口260与计算机视觉系统200进行通信。在至少一个实施例中，传感器输入接口220和输出接口260包括实施一个或多个不同通信标准的硬件接口，一个或多个不同通信标准包括但不限于通用串行总线(USB)标准、串行通信标准、并行通信标准、蓝牙通信标准或Wi-Fi通信标准。

使用来自传感器输入接口220的信息，语义处理模块240标识来自用户的生理读数内的差异。例如，生理读数可以由被附接到用户的EEG生成。如本文中所使用的，生理读数内的差异包括任何可检测到的生理变化。

在至少一个实施例中，语义处理模块240执行已经被训练为基于用户的生理读数(例如，EEG读数)来标识用户何时已经注视语义边界的机器学习算法。例如，机器学习算法可以通过分析来自要求其从第一语义对象看到第二语义对象的大量个体的EEG读数来训练。因为对象之间的语义边界的位置是已知的，所以机器学习算法可以被训练为标识在用户的相应注视跨过边界时用户的EEG读数中的差异。使用来自机器学习算法的输出，语义处理模块240标识对应于与用户的注视相关联的个体语义边界的生理读数内的一个或多个差异。

当机器学习算法被训练时，机器学习算法将数据存储在位于存储器202中的语义标识数据库254内。例如，在至少一个实施例中，在语义标识数据库254内存储的数据包括标识语义边界的一个或多个差异内的阈值。例如，打碎玻璃的声音可以引起不一定与视觉语义边界相对应的用户内的差异响应。语义标识数据库254内的数据包括用于在语义边界与不一定与边界相对应的其他差异之间进行区分的阈值。在至少一个实施例中，边界通过在机器学习算法正在被训练时引起对用户的各种刺激来标识。

除了确定用户的注视跨过语义边界，计算机视觉系统200还可以确定语义边界的相对位置。例如，基于通过注视跟踪设备214提供的数据，语义处理模块240标识在所标识的差异的时间处用户的注视的相关位置。语义处理模块240然后将用户的注视的相关位置与语义边界相关联。在关于成像设备216的实施例中，语义处理模块240将语义边界的相关位置与由成像设备216在差异被检测到的同时捕获的图像内的用户的注视的相关位置相关联。

另外，在至少一个实施例中，成像设备140通过传感器输入接口220将图像数据传递到计算机视觉系统200。边缘/分段检测模块230标识场景150的图像内的边缘或分段。如本文中所使用的，边缘与图像内的视觉线相对应并且可以使用本领域中已知的任何数量的不同边缘检测方法来标识。另外，如本文中所使用的，分段包括图像的定义的封闭区域。

在给定图像内，检测到的边缘的至少部分形成分段周围的边界。例如，分段可以包括超像素并且超像素的边界可以包括边缘。因此，边缘(或者在这种情况下可以为语义边界)分割至少两个相邻分段。例如，在图1的场景150内，桌面包括定义桌面的外边界的边缘。另外，整个桌面是分段。然而，在各种实施例中，边缘和分段可以以其他方式被确定使得桌面的边界包括多个不同的边缘并且桌面的顶部包括多个不同的分段。

返回图2，当语义处理模块240检测到用户的生理读数内的差异时，语义处理模块240将用户的注视的相关位置与最靠近在所标识的差异的时间处用户的注视的相关位置的特定边缘相关联。语义处理模块240然后将特定边缘与语义边界相关联。如先前所陈述的，“边缘”是图像内可视觉地检测到的线。语义边界是处理单元110通过注视跟踪和生理读数中的差异的组合检测到的边界。语义边界可以与边缘相关联，但是不一定必须与边缘相关联。例如，语义边界可以利用仅仅关于用户的注视的信息和用户的生理读数中的差异来创建，不一定必须将语义边界映射到边缘或图像。

当标识了下面更完全地描述的各种语义边缘和相关联的语义分段时，语义处理模块240创建定义数字捕获场景内的不同分段之间的相关性的相关性数据结构252。在至少一个实施例中，相关性数据结构252包括定义数据库内的不同条目之间的相关性的概率的关系数据库的至少部分。语义处理模块240将相关性数据结构252存储在存储器202内的相关性数据库250内。如下面将更完全地描述的，相关性数据结构252定义场景内的各种对象之间的关系。

现在转到一个示例，图3示出了用户查看场景的实施例的语义。用户的视角300连同注视位置310一起描绘。如以上所描述的，注视方向由计算机视觉系统100使用注视跟踪设备130来跟踪。用户正在注视包括灯320、桌子330以及纸340的场景150。灯320包括具有设计326的底座324、灯罩322以及圆形上部分328。桌子包括围绕桌面的内周长延伸的蚀刻的边界332。纸340平放在桌子330上。

用户的注视在这种情况下朝向灯320。然而，在其他情况下，用户的注视可以朝向灯的底座324、底座324上的设计326、灯罩322、圆形上部分328、桌子330、桌子330上的蚀刻332、或者纸340。简单地跟踪用户的注视不足以确定用户关注的关注对象。例如，用户的注视可以最精确地被映射到灯罩322，然而，用户可能最感兴趣的是灯本身。相反，用户的注视可以朝向底座324的设计326，而非灯320整体。

标识用户正在注视的关注对象允许计算机视觉系统100将信息通过(图2中示出的)用户界面显示器218正确地显示给用户。例如，计算机视觉系统200可以确定用户正在寻找关于灯整体的信息，并且计算机视觉系统200可以提供该信息以用于显示给用户界面显示器218。

图4示出了与来自机器学习算法的输出440在时间上同步的跨场景150的用户的注视的实施例的描绘。具体地，图4描绘跨场景的用户的注视的路径460。为清楚和便于描述起见，所描绘的注视路径460被描绘为是笔直的，将理解，用户的注视的路径将通常更复杂得多。例如，在至少一个实施例中，成像设备140包括深度相机并且注视跟踪设备130跟踪用户的注视的位置的相对深度。因此，语义边界还可以关于深度来创建。

场景150被描绘为主要由虚线构成。虚线用于指示由图2的边缘/分段检测模块230检测到的边缘410。在备选的或额外的实施例中，边缘/分段检测模块230可以将超像素或某种其他分割230绘制到场景150上。

来自机器学习算法的输出440描绘指示响应的符号图400，其中响应是检测到的差异。在实践中，机器学习算法的输出可以包括不同的形式和复杂度。简化的描绘的输出440出于说明和清楚起见而被提供。所描绘的输出440还与用户的注视460在时间上同步，使得输出440指示与用户的注视460的位置在时间上同步的差异。

如所描绘的，当用户的注视到达桌子的左边缘时，输出440示出检测到的差异响应450a。类似地，当用户的注视到达桌子的右边缘时，输出440示出检测到的差异响应450b。线420a和420b被绘制以描绘检测到的差异响应与桌子的边缘的对齐。

如以上所描述的，语义处理模块240从用户的生理读数标识指示用户注视语义边界的差异。语义处理模块240还从注视跟踪设备130接收关于用户的注视的位置的数据。使用该信息并且可选地使用来自成像设备140的信息，语义处理模块240确定桌子的左边缘包括第一语义边界430a并且桌子的右边缘包括第二语义边界430a。

在至少一个实施例中，语义处理模块240然后确定用户正在查看的关注对象。例如，图5示出了用户正在关注的对象的实施例的语义。具体地，图5描绘了已经被处理以基于先前标识的语义边界430a、430b来标识语义分段500的来自图4的场景150的桌子。语义处理模块240将先前标识的语义边界430a、430b扩展到相邻边缘以便形成语义分段510。

在至少一个实施例中，语义处理模块240通过标识与所标识的语义边界430a、430b相邻的并且形成环形的边缘来扩展语义边界。语义处理模块240可以偏好将语义边界扩展到包括与所标识的语义边界430a、430b相关联的边缘类似的重量和/或强度的相邻边缘。因此，语义处理模块240基于与所标识的语义边界430a、430b相关联的特定边缘来创建基本上包含桌子(除了与灯320有关的部分)的语义分段500。

一旦语义处理模块240标识了语义分段500，语义处理模块240就将与语义分段500有关的数据传递到(图2中示出的)对象识别模块270。对象识别模块270然后基于其视觉外观来标识对象并且将对象标记为桌子。在至少一个实施例中，对象识别模块270当标识对象时还依赖于在(图2中示出的)语义标识数据库254内存储的信息。语义标识数据库254包括帮助标识语义边界和标识对象类型的数据。例如，在至少一个实施例中，机器学习算法被训练以不仅基于神经学读数中的差异来标识语义边界，而且基于神经学读数本身来标识用户正在查看的对象的类型。用户界面显示器218然后显示与桌子有关的任何必要输出。

在至少一个实施例中，语义处理模块240通过确定与最近标识的语义边界相关联的语义分段来标识关注对象。例如，图6示出了与来自机器学习算法的输出620在时间上同步的跨场景150的用户的注视610的另一实施例的描绘。

在所描绘的实施例中，语义处理模块240标识在纸340的左边缘和右边缘处的差异响应640a、640b。线630a和630b描绘纸的边缘与差异响应640a、640b在时间上的对齐。基于来自生物识别跟踪设备120的差异响应640a、640b和来自注视跟踪设备130的注视跟踪，语义处理模块240将语义边界650a、650b与纸340的相应的左边缘和右边缘相关联。使用以上描述的处理，语义处理模块240然后创建包含纸的语义分段。

使用图5和图6作为示例，当标识关注对象时，语义处理模块240确定与最近标识的语义边界相关联的语义分段。例如，当确定关注对象是纸还是桌子时，语义处理模块240确定哪个语义分段是最近标识的。如果与纸相关联的语义边界是最近标识的，则语义处理模块将纸标识为关注对象。相反，如果与桌子相关联的语义分段是最近标识的，则语义处理模块将桌子标识为关注对象。如本文中所使用的，语义边界是每次差异被检测到时被“标识”的。因此，特定语义边界可以被标识多次。

为了标识关注对象，语义处理模块240还基于分割相邻分段的语义边界与包围相邻分段的其他语义边界之间的关系来确定相邻分段之间的相关性的概率。如应用到图5和图6的，语义处理模块240确定桌子500与纸340的相邻语义分段之间的相关性的概率。换言之，例如，相关性数据结构定义灯320、灯座324、灯座设计326、灯罩322和圆形上部分328之间的关系。

概率基于分割相邻分段的语义边界420a、420b、650a、650b与包围相邻分段的其他语义边界之间的关系。在图5和图6中，定义纸340的语义边界由定义桌子的语义边界完全包围。语义处理模块240可以在每次其在桌子的边缘和纸的边缘两者处在用户的注视扫过两者时检测到差异响应时增大关系的概率。相反，语义处理模块240可以在每次其在桌子的边缘和纸的边缘中的仅仅一个处在用户的注视扫过两者时检测到差异响应时减小关系的概率。当语义处理模块240标识到相关性的增大的或减小的概率时，语义处理模块240在相关性数据库250中的相关性数据结构内创建描述相邻分段之间的相关性的概率的语义关系条目。

图7示出了与来自机器学习算法720的输出在时间上同步的跨场景150扫描的用户的注视710的又一实施例的描绘。图7的场景150描绘与图6相同的场景，但是从不同的视角。在所描绘的实施例中，语义处理模块240标识在灯罩320和衣帽架750的顶部的左边缘和右边缘处的差异响应740a、740b、740c、740d。线730a、730b、730c、730d描绘在灯罩320和衣帽架750的顶部的边缘与各自的差异响应740a、740b、740c、740d在时间上的对齐。

基于来自生物识别跟踪设备120的差异响应740a、740b、740c、740d和来自注视跟踪设备130的注视跟踪，语义处理模块240将语义边界760a、760b、760c、760d与灯罩320和衣帽架750的顶部的相应的左边缘和右边缘相关联。语义处理模块240标识针对灯罩320的语义分段和针对衣帽架750的顶部的不同的语义分段。

因为用户处于不同的位置中并且具有场景的不同视图，所以现在很清楚的是，先前被标识为灯320的圆形上部分328的内容实际上不是灯320的部分，而是相反为衣帽架750的顶部。使用来自场景150的该新视角的信息，语义处理模块240基于分割两个分段的语义边界与包围两个分段的其他语义边界之间的关系来确定第二数字捕获场景内的两个分段(即，灯罩320与衣帽架750的顶部)之间的相关性的更新的概率。在所描绘的情况中，语义处理模块240确定灯罩320和衣帽架750的顶部相关的概率是低的。语义处理模块240然后在相关性数据结构内更新描述两个分段之间的相关性的概率的语义关系条目。

使用在相关性数据结构内存储的信息，语义处理模块240可以标识语义分段和各种语义分段之间的关系。例如，语义处理模块240可以标识衣帽架750和灯320是分离的对象。另外，基于在相关性数据结构内存储的概率信息，语义处理模块240标识与语义边界相关联的语义分段。

转到图7作为示例，在标识了语义边界760a和760b后，语义处理模块240可以从相关性数据结构访问各种概率。例如，相关性数据结构指示语义边界760a和760b具有与灯罩320和/或灯整体相关的高概率。语义处理模块240可以确定最高概率是语义边界760a、760b与表示灯罩320的语义分段相关。

如以上所描述的，在至少一个实施例中，相关性数据结构帮助语义处理模块240标识语义分段。例如，图5的灯罩320包括跨灯罩320的垂直长度延伸的多个边缘。多个边缘可以包括灯罩中的皱褶、灯罩上的线，或者仅仅包括视觉伪影。在任何情况下，灯罩320的语义分段可以包括可以是语义的或可以不是语义的多个分段。例如，灯罩上的线不是任何语义分段的部分；然而，灯座324上的设计326可以包括灯座324的子语义分段。子语义分段是由另一语义分段完全包含并且与另一语义分段高度相关的语义分段。当用户注视子语义分段时，语义处理模块240基于相关性数据结构内的信息来确定关注对象是子语义分段还是包含语义分段。

将认识到，本文中公开的实施例还可以根据包括用于实现特定结果的一个或多个动作的流程图来描述。例如，图8和对应的文本描述用于执行用于将场景分割成语义分量的方法和/或独立方法的各种系统中的动作。下面描述图8的动作。

例如，图8示出了用于利用计算机视觉系统将场景分割成语义分量的方法的实施例的流程图包括标识生理读数中的差异的动作800。动作800包括标识来自用户的生理读数内的差异，其中差异对应于与用户的注视相关联的语义边界。例如，如在图4、6和7以及伴随的描述中描绘和描述的，语义处理模块240使用机器学习算法的输出来标识差异。

另外，图8示出了方法包括标识用户的注视的位置的动作810。动作810包括基于由注视跟踪设备收集的数据，标识在所标识的差异的时间处用户的注视的相关位置。例如，如在图1和2以及伴随的描述中描绘和描述的，计算机视觉系统100、200包括与计算机视觉跟踪系统200内的注视跟踪设备214进行通信的注视跟踪设备130。注视跟踪设备214使用以上描述的方法或任何其他常规方法标识用户的注视的相关位置并且将该信息传递到注视跟踪设备214。

图8还示出了方法包括将语义边界与位置相关联的动作820。动作820包括将用户的注视的相关位置与语义边界相关联。例如，如在图4、6和7以及伴随的描述中描绘和描述的，语义处理模块240将语义边界420a、420b、650a、650b、760a、760b、760c、760d与在差异被检测到的时间处用户的注视的位置相关联。

将认识到，本文中公开的实施例还可以根据包括用于实现特定结果的一个或多个动作的备选或额外流程图来描述。例如，图9和对应的文本描述用于执行用于将场景分割成语义分量的方法和/或独立方法的各种系统中的动作。下面描述图9的动作。

例如，图9示出了用于利用计算机视觉系统将场景分割成语义分量的方法的另一实施例的流程图可以包括标识多个分段的动作900。动作900包括标识第一数字捕获场景内的多个分段。例如，如在图2、4、6和7以及伴随的描述中描绘和描述的，边缘/分割检测模块230可以检测接收到的场景的数字图像内的边缘和/或分段。检测到的边缘可以包括可视觉标识的线，并且分段可以包括图像内的封闭空间，例如如由超像素所封闭的。

另外，图9示出了方法包括确定创建相关性数据结构的动作910。动作910包括创建定义数字捕获场景内的不同分段之间的相关性的相关性数据结构，其中分段至少部分地由一个或多个边缘定义。例如，如在图2和伴随的描述中描绘和描述的，语义处理模块240可以创建存储相关性数据结构的信息的关系数据库。

图9还示出了方法包括标识多个语义边界的动作920。动作920包括标识第一数字捕获场景中的多个分段之间的多个语义边界，语义边界中的每个分割至少两个相邻分段，其中语义边界中的每个基于在用户正在注视一个或多个边缘中的一个时来自用户的生理读数内的差异来标识。例如，如在图4、6和7以及伴随的描述中描绘和描述的，语义处理模块240标识在差异被检测到的时间处用户的注视的位置处的语义边界420a、420b、650a、650b、760a、760b、760c、760d。

另外，图9示出了方法包括确定相关性的概率的动作930。动作930包括基于分割相邻分段的语义边界与包围相邻分段的其他语义边界之间的关系来确定相邻分段之间的相关性的概率。例如，如在图7和伴随的描述中描绘和描述的，语义处理模块240基于分割两个分段的语义边界与包围两个分段的其他语义边界之间的关系来计算场景内的两个分段(即，灯罩320与衣帽架750的顶部)之间的相关性的概率。在所描绘的情况中，语义处理模块240确定灯罩320与衣帽架750的顶部相关的概率是低的，因为从图7的视图来看，很明显，灯760a、760b的语义边界与衣帽架的顶部760c、760d的语义边界被分开很大距离。因此，语义处理单元240确定存在分割相邻分段的语义边界与包围相邻分段的其他语义边界之间的相关性的低概率。

另外进一步地，图9示出了方法包括创建语义关系的动作940。动作940包括在相关性数据结构内创建描述相邻分段之间的相关性的概率的语义关系条目。例如，如在图7和伴随的描述中描绘和描述的，语义处理模块240在相关性数据结构内创建/更新描述灯罩320与衣帽架750的顶部之间的相关性的概率的语义关系条目。

尽管已经以对结构特征和/或方法动作特定的语言描述了本主题，但是应理解在所附权利要求中限定的主题不必限于所描述的特征或以上描述的动作、或者以上描述的动作的顺序。相反，所描述的特征和动作被公开为实施权利要求的示例形式。

本发明的实施例可以包括或利用包括计算机硬件的专用计算机系统或通用计算机系统，计算机硬件例如是一个或多个处理器和系统存储器，如下面更详细地讨论的。本发明的范围内的实施例还包括用于承载或存储计算机可执行指令和/或数据结构的物理介质和其他计算机可读介质。这样的计算机可读介质能够是能够由通用计算机系统或专用计算机系统访问的任何可用介质。存储计算机可执行指令和/或数据结构的计算机可读介质是计算机存储介质。承载计算机可执行指令和/或数据结构的计算机可读介质是传输介质。因此，通过举例而非限制性的方式，本发明的实施例能够包括至少两种截然不同的种类的计算机可读介质：计算机存储介质和传输介质。

计算机存储介质是存储计算机可执行指令和/或数据结构的物理存储介质。物理存储介质包括计算机硬件，诸如RAM、ROM、EEPROM、固态驱动器(“SSD”)、闪存、相变存储器(“PCM”)、光盘存储装置、磁盘存储装置或其他磁存储装置，或者可以用于存储以计算机可执行指令或数据结构的形式的程序代码的任何其他(一个或多个)硬件存储装置，程序代码可以由通用计算机系统或专用计算机系统访问并且执行以实施本发明的所公开的功能。

传输介质能够包括能够被用于承载以计算机可执行指令或数据结构的形式的程序代码并且能够由通用计算机系统或专用计算机系统访问的网络和/或数据链路。“网络”被定义为实现在计算机系统和/或模块和/或其他电子设备之间的电子数据的传输的一个或多个数据链路。当通过网络或另外的通信连接(硬接线的、无线的或硬接线或无线的组合)将信息传输或提供到计算机系统时，计算机系统可以将连接视为传输介质。以上的组合还应当被包含在计算机可读介质的范围内。

另外，在到达各种计算机系统部件时，以计算机可执行指令或数据结构的形式的程序代码能够自动地从传输介质被传输到计算机存储介质(或者反之亦然)。例如，通过网络或数据链路接收到的计算机可执行指令或数据结构能够被缓冲在网络接口模块(例如，“NIC”)内的RAM中，并且之后最终被传输到计算机系统RAM和/或被传输到在计算机系统处的非易失性计算机存储介质。因此，应当理解，计算机存储介质能够被包含在也(或甚至主要)利用传输介质的计算机系统部件中。

计算机可执行指令包括例如当在一个或多个处理器处执行时使通用计算机系统、专用计算机系统、或用于执行特定功能或功能组的专用处理设备的指令和数据。计算机可执行指令可以例如为二进制、诸如汇编语言的中间格式指令或甚至源代码。

本领域技术人员将认识到可以在具有许多类型的计算机系统配置的网络计算环境中实践本发明，许多类型的计算机系统配置包括个人计算机、台式计算机、膝上型计算机、消息处理器、手持设备、多处理器系统、基于微处理器的或可编程的消费电子设备、网络PC、微型计算机、大型计算机、移动电话、PDA、寻呼机、路由器、交换机、等等。还可以在分布式系统环境中实践本发明，在分布式系统环境中通过网络(通过硬接线数据链路、无线数据链路、或通过硬接线数据链路和无线数据链路的组合)链接的本地计算机系统和远程计算机系统两者都执行任务。因此，在分布式系统环境中，计算机系统可以包括多个组成计算机系统。在分布式系统环境中，程序模块可以被定位在本地存储器存储设备和远程存储器存储设备两者中。

本领域技术人员还将认识到本发明可以被实践在云计算环境中。云计算环境可以是分布式的，但是并不要求如此。当为分布式时，云计算环境可以被国际性地分布在组织内和/或具有跨多个组织处理的部件。在本说明书和以下权利要求书中，“云计算”被定义为用于实现对可配置计算资源(例如，网络、服务器、存储装置、应用、以及服务)的共享池的按需网络访问的模型。“云计算”的定义不限于可以当恰当地部署时从这样的模型获得的其他许多优点中的任何。

云计算模型能够包括各种特性，诸如按需自服务、宽泛网络访问、资源池、快速弹性、可度量的服务、等等。云计算模型还可以以各种服务模型的形式出现，诸如例如软件即服务(“SaaS”)、平台即服务(“PaaS”)以及基础设施即服务(“IaaS”)。云计算模型还可以使用诸如私有云、社团云、公共云、混合云、等等的不同的部署模型来部署。

一些实施例(诸如云计算环境)可以包括一种系统，该系统包括均能够运行一个或多个虚拟机的一个或多个主机。在操作期间，虚拟机仿真操作计算系统，从而支持操作系统并且可能也支持一个或多个其他应用。在一些实施例中，每个主机包括管理程序，管理程序使用从虚拟机的角度抽象的物理资源仿真针对虚拟机的虚拟资源。管理程序还提供虚拟机之间的恰当隔离。因此，从任何给定虚拟机的角度，管理程序提供虚拟机与物理资源对接的幻觉，即使虚拟机仅仅与物理资源的外观(例如，虚拟资源)对接。物理资源的示例包括处理能力、存储器、磁盘空间、网络带宽、介质驱动器、等等。

本发明可以在不脱离其精神或必要特性的情况下以其他具体形式来实现。所描述的实施例应在所有方面仅仅被认为是说明性的而非限制性的。本发明的范围因此由所附权利要求而非由前述描述指示。在权利要求的等价性的意义和范围内出现的所有改变应被包含在其范围内。

Claims

1.一种用于将场景分割成语义分量的计算机视觉系统，包括：

处理单元，其与生物识别跟踪设备和注视跟踪设备进行通信，所述生物识别跟踪设备被配置为收集来自用户的生理读数，所述注视跟踪设备被配置为跟踪所述用户的注视；以及

一个或多个有形存储介质，其上存储有计算机可执行指令，所述计算机可执行指令当由所述处理单元执行时可操作用于通过至少使所述处理单元进行以下操作来实施用于分割语义分量的方法：

标识来自所述用户的所述生理读数内的差异，所述差异对应于所述用户的可检测到的生理变化，其中所述差异对应于与所述用户的注视相关联的语义边界，并且所述语义边界对应于所述场景内的至少一个边缘，

基于由所述注视跟踪设备收集的数据，标识在标识的所述差异的时间处所述用户的注视的相关位置，以及

将所述用户的注视的所述相关位置与语义边界相关联。

2.根据权利要求1所述的计算机视觉系统，其中所述生理读数来自正在接收来自所述用户的读数的脑电图设备。

3.根据权利要求1所述的计算机视觉系统，其中计算机可执行指令当由所述处理单元执行时还可操作用于：

从成像设备接收与所述用户的视场相对应的图像；以及

标识所述图像内的边缘，其中所述边缘与所述图像内的视觉边界相对应。

4.根据权利要求3所述的计算机视觉系统，其中所述成像设备包括深度相机并且所述图像包括深度信息。

5.根据权利要求3所述的计算机视觉系统，其中所述边缘的至少部分形成所述图像内的分段周围的边界。

6.根据权利要求5所述的计算机视觉系统，其中所述分段至少部分地勾勒出所述场景内的对象的轮廓。

7.根据权利要求5所述的计算机视觉系统，其中计算机可执行指令当由所述处理单元执行时还可操作用于：

将所述用户的注视的所述相关位置与最靠近在标识的所述差异的所述时间处所述用户的注视的所述相关位置的特定边缘相关联；以及

将所述特定边缘与语义边界相关联。

8.根据权利要求7所述的计算机视觉系统，其中计算机可执行指令当由所述处理单元执行时还可操作用于标识包括所述特定边缘的分段作为语义分段。

9.根据权利要求7所述的计算机视觉系统，其中标识来自所述用户的所述生理读数内的差异包括：

将来自所述用户的所述生理读数提供到机器学习算法，其中所述机器学习算法已经被训练为基于所述用户的生理读数来标识所述用户何时已经注视语义边界。

10.一种用于定义场景内的分段之间的语义关系的计算机视觉系统，包括：

一个或多个处理器；以及

一个或多个有形计算机可读介质，其上存储有可执行指令，所述可执行指令当由所述一个或多个处理器执行时将所述计算机系统配置为执行至少以下操作：

标识第一数字捕获场景内的多个分段；

创建定义所述数字捕获场景内的不同分段之间的相关性的相关性数据结构，其中所述分段至少部分地由一个或多个边缘定义；

标识所述第一数字捕获场景中的所述多个分段之间的多个语义边界，所述语义边界对应于所述数字捕获场景内的所述一个或多个边缘，所述语义边界中的每个语义边界分割至少两个相邻分段，其中所述语义边界中的每个语义边界基于在用户正在注视所述一个或多个边缘中的一个边缘时来自所述用户的生理读数内的差异而被标识，所述差异对应于所述用户的可检测到的生理变化；

基于分割所述相邻分段的所述语义边界与包围所述相邻分段的其他语义边界之间的关系来确定所述相邻分段之间的相关性的概率；以及

在所述相关性数据结构内创建描述所述相邻分段之间的相关性的所述概率的语义关系条目。

11.根据权利要求10所述的计算机视觉系统，其中所述一个或多个计算机可读介质还在其上存储有指令，所述指令当被执行时将所述计算机系统配置为：

标识所述数字捕获场景内的关注对象，其中所述关注对象包括所述用户最近注视的语义分段。

12.根据权利要求11所述的计算机视觉系统，其中标识所述关注对象包括：

标识最近标识的语义边界；以及

基于在所述相关性数据结构内存储的概率信息，标识与所述语义边界相关联的语义分段。

13.根据权利要求12所述的计算机视觉系统，其中所述语义分段包括多个分段。

14.根据权利要求10所述的计算机视觉系统，其中所述多个分段中的至少一个分段包括非语义分段。

15.根据权利要求13所述的计算机视觉系统，其中所述语义分段中包括的所述多个分段中的至少一个分段包括子语义分段。

16.根据权利要求11所述的计算机视觉系统，其中所述一个或多个计算机可读介质还在其上存储有指令，所述指令当被执行时将所述计算机系统配置为：

利用对象识别模块分析所述语义分段，其中所述对象识别模块被配置为基于所述对象的视觉外观来标识所述对象。

17.根据权利要求10所述的计算机视觉系统，其中所述一个或多个计算机可读介质还在其上存储有指令，所述指令当被执行时将所述计算机系统配置为：

标识第二数字捕获场景内的多个分段，其中所述第二数字捕获场景包括所述第一数字捕获场景的不同视角；

基于所述不同视角，基于分割所述第二数字捕获场景内的两个分段的所述语义边界与围绕所述两个分段的其他语义边界之间的关系，确定所述两个分段之间的相关性的更新概率；以及

更新所述相关性数据结构内的语义关系条目，所述语义关系条目描述所述两个分段之间的相关性的所述概率。

18.根据权利要求17所述的计算机视觉系统，其中更新所述相关性数据结构内的语义关系条目包括降低所述两个分段相关的所述概率。

19.根据权利要求11所述的计算机视觉系统，其中所述生理读数来自正在接收来自所述用户的读数的脑电图设备。

20.一种用于利用计算机视觉系统将场景分割为语义分量的计算机实现的方法：

标识来自用户的检测到的生理读数内的差异，所述差异对应于所述用户的可检测到的生理变化，所述检测到的生理读数是从生物识别跟踪设备获得的，其中所述差异对应于与用户的注视相关联的语义边界，并且所述语义边界对应于所述场景内的至少一个边缘，所述用户的注视是从注视跟踪设备检测到的，

基于由所述注视跟踪设备收集的数据，标识所述用户的注视在标识的所述差异的时间处的相关位置，以及

将所述用户的注视的所述相关位置与所述语义边界相关联。