CN111291746B

CN111291746B - 影像处理系统及影像处理方法

Info

Publication number: CN111291746B
Application number: CN201911049810.5A
Authority: CN
Inventors: 杨东庭; 王钧立; 林政宪; 杨宏毅
Original assignee: HTC Corp
Current assignee: HTC Corp
Priority date: 2018-12-06
Filing date: 2019-10-31
Publication date: 2024-01-26
Anticipated expiration: 2039-10-31
Also published as: US11615549B2; CN111291746A; TWI703348B; US20200184671A1; TW202036091A

Abstract

一种影像处理方法，包括：分离分割一二维影像中的一物体区块；辨识一瞳孔注视的方向角度所对应到的观看视野中的至少一视角热点；接收至少一视角热点，并接收来自一控制器的一指标信号，指标信号用以指定到物体区块；以及依据至少一视角热点产生对应该物体区块的一遮罩区块，及指标信号决定遮罩物体区块的一标示(label)。

Description

影像处理系统及影像处理方法

技术领域

本发明有关于处理系统，特别是有关于一种影像处理系统及影像处理方法。

背景技术

一般而言，透过已知的模型，例如为卷积神经网络(Convolutional NeuralNetworks，CNN)模型，可将二维影像进行区块性的分割(Segmentation)，以分割二维影像中的多个物体，并将各个物体以不同颜色进行上色，以输出遮罩图，由遮罩图可得知二维影像中各物体的分布位置及区块。得知物体的分布位置及区块后，可进行透过已知的三维重建方法，例如纹理恢复形状法(Shape From Texture，SFT)、阴影恢复形状法(Shape FromShading)、立体视觉法(Multi-View Stereo)、结构光法(Structured Light)…等等，以建构三维物体。此些三维物体可以对如文物保护、游戏开发、建筑设计、临床医学等研究起到辅助的作用。

然而，在分割出二维影像中的多个物体后，系统不一定能分辨出特定物体为何，或特定物体的形状难以被分辨，例如系统难以精准判断特定物体为门或窗，亦难以分辨艺术造型座椅。

因此，要如何使系统正确的标示各个物体，已成为本领域待解决的问题之一。

发明内容

本发明实施例提供一种影像处理系统，包括一处理器以及一视点追踪器。处理器用以分割一二维影像中的一物体区块。视点追踪器用以辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点。其中，处理器接收至少一视角热点与一指标信号，指标信号用以指定到物体区块，处理器依据至少一视角热点产生对应该物体区块的一遮罩区块，及指标信号决定遮罩区块的一标示(label)。

本发明实施例系提供一种影像处理方法，包括：分割一二维影像中的一物体区块；辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点；接收至少一视角热点与一指标信号，指标信号用以指定到物体区块；以及依据至少一视角热点产生对应该物体区块的一遮罩区块，及指标信号决定遮罩区块的一标示(label)。

综上所述，本发明实施例系提供一种影像处理系统及影像处理方法，在标示二维影像中的物体区块的遮罩区块的过程中，透过视角热点及指标信号的应用，例如，在分割出二维影像中的多个物体后，透过影像处理系统及影像处理方法能分辨出特定物体，应用视角热点及指标信号可精准标示特定物体，即使是艺术造型物体或各种特殊形状的物体，亦可以应用视角热点及指标信号进行标示，因此本发明的影像处理系统及影像处理方法达到更精准的标示遮罩区块的效果。

附图说明

图1为根据本发明的一实施例绘示的一种影像处理系统的示意图。

图2为根据本发明的一实施例绘示的一种影像处理方法的流程图。

图3A为根据本发明的一实施例绘示的一种初始影像的示意图。

图3B为根据本发明的一实施例绘示的一种遮罩图的示意图。

图4为根据本发明的一实施例绘示的一种影像处理方法的示意图。

图5为根据本发明的一实施例绘示的一种显示画面的示意图。

具体实施方式

以下说明为完成发明的较佳实现方式，其目的在于描述本发明的基本精神，但并不用以限定本发明。实际的发明内容必须参考之后的权利要求范围。

必须了解的是，使用于本说明书中的”包含”、”包括”等词，系用以表示存在特定的技术特征、数值、方法步骤、作业处理、元件以及/或组件，但并不排除可加上更多的技术特征、数值、方法步骤、作业处理、元件、组件，或以上的任意组合。

于权利要求中使用如”第一”、"第二"、"第三"等词系用来修饰权利要求中的元件，并非用来表示之间具有优先权顺序，先行关系，或者是一个元件先于另一个元件，或者是执行方法步骤时的时间先后顺序，仅用来区别具有相同名字的元件。

请参照图1～图5，图1为根据本发明的一实施例绘示的一种影像处理系统100的示意图。图2为根据本发明的一实施例绘示的一种影像处理方法200的流程图。图3A为根据本发明的一实施例绘示的一种初始影像IMGI的示意图。图3B为根据本发明的一实施例绘示的一种遮罩图IMGR的示意图。图4为根据本发明的一实施例绘示的一种影像处理方法的示意图。图5为根据本发明的一实施例绘示的一种显示画面的示意图。

于一实施例中，影像处理系统100可以应用于一虚拟现实系统中的辨识物体部分。通常而言，藉由输入一张影像至卷积神经网络(Convolutional Neural Networks，CNN)模型后，可以得到该图片属于何种类别的结果，这过程称作分类(Classification)，但在真实世界的应用情境通常要从一张图片中辨识所有出现的物体，并且标示位置(ObjectLocalization)，此可透过CNN模型、R-CNN(Regions with CNN)模型或其他可应用于分割影像的演算法将影像进行基于图像的影像分割(Graph Base Image Segmentation)。然而，本领域具通常知识者应能理解，本发明不限于采用CNN模型，只要是可以达到场景分割的其它神经网络模型亦可应用。

于一实施例中，处理器10应用一场景分割模型(scene segmentation model)以分割二维影像中的物体区块，并产生物体区块的遮罩区块(mesh)。其中，场景分割模型(scenesegmentation model)可以由CNN模型、R-CNN(Regions with CNN)模型或其他可应用于分割影像的演算法实现。

举例而言，在处理器10应用CNN模型分析一张室内影像时，CNN模型辨识15种物体(如床、墙、衣橱、窗户、拖把…等家具)出现在此室内影像中各区块的机率，例如针对图3B所示CNN模型的辨识结果为物体区块A1是床的机率为10％、是墙的机率为20％、是衣柜的机率为90％...等等15种物体的机率，在此些机率中，物体区块A1是衣柜的机率最高，因此将物体区块A1视为衣柜。

于一实施例中，处理器10依据此些机率将产生一遮罩图，遮罩图中的每个区块代表一种物体。

举例而言，如图3A所示，增强现实眼镜20拍摄的初始影像IMGI为室内影像，此室内影像中包含物体区块A1～A3，接着，处理器10应用CNN模型分析此室内影像，如图3B所示，假设CNN模型辨识室内影像中的一物体区块A1是衣橱的机率最高，则将物体区块A1标示成遮罩区块A1’，辨识室内影像中的物体区块A2是窗户的机率最高，则将物体区块A2标示成遮罩区块A2’，辨识室内影像中的物体区块A3是拖把的机率最高，则将此物体区块A3标示成遮罩区块A3’。此遮罩图的区块分布可视为影像分割，即每个遮罩区块都对应到一个物体区块。

于一实施例中，当分割出影像中各个物体后，处理器10将物体区块进行一三维重建(three-dimension reconstruction)以产生一三维物体。例如将被标示成衣橱区块的遮罩区块进行三维重建，以产生衣橱的三维重建影像，供应用软件后续的使用。三维重建方法可以应用已知的演算法例如纹理恢复形状法(Shape From Texture，SFT)、阴影恢复形状法(Shape From Shading)、立体视觉法(Multi-View Stereo)、结构光法(StructuredLight)…等等实现，此处不赘述。

为了进一步提升辨识出影像中物体的正确性，以下提出一种影像处理系统及一种影像处理方法。

于图1中，在一观看视野中(例如室内空间的一部分)包含物体OBJ1～OBJ3。使用者穿戴一增强现实眼镜20，朝向物体OBJ1观看，增强现实眼镜20中的视点追踪器用以辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点Pn(以空心圆圈表示的)，视角热点Pn代表使用者透过增强现实眼镜20于观看视野中的注视位置。更仔细地说，增强现实眼镜20为具有向外拍摄环境物体的相机，以及具有向内侦测使用者注视的方向视点追踪器(Gaze detector)的头戴显示装置。

于一实施例中，增强现实眼镜20可以随着使用者的移动，撷取多张二维影像，以将此些二维影像一并或分别进行后续处理。

于一实施例中，增强现实眼镜20与处理器10之间以有线或无线方式建立通讯连结LK1，增强现实眼镜20可以藉由通讯连结LK1将视角热点Pn及/或增强现实眼镜20撷取到的影像传送到处理器10。

于一实施例中，处理器10与一控制器CR之间以有线或无线方式建立通讯连结LK2。

于一实施例中，处理器10用以执行各种运算，可由集成电路如微控制单元(microcontroller)、微处理器(microprocessor)、数位信号处理器(digital signalprocessor)、专用集成电路(application specific integrated circuit，ASIC)或一逻辑电路来实施。

于一实施例中，使用者可手持控制器CR，透过控制器CR操作游戏或应用程序，与虚拟现实世界中的物体或增强现实中的物体进行互动。本发明不限于使用控制器CR，只要是可以操作游戏或应用程序的装置或任何可以控制显示指标信号的方法(例如运用手势或电子手套)，皆可以应用。

请一并参阅图2～图5，以下详述影像处理方法。

于步骤210中，处理器10分割二维影像中的一物体区块A1。例如，增强现实眼镜20将撷取到的二维影像IMGO(二维影像IMGO例如为初始影像IMGI的一部分或全部)传送到处理器10，处理器10应用场景分割模型15以分割二维影像IMGO中的物体区块A1，并将物体区块A1的区域产生遮罩。

于此步骤中，处理器10可直接一次分割出二维影像中的所有物体区块A1、A2及A3，以产生各对应的遮罩区块A1’、A2’及A3’(如图3B所示)。

为方便说明，由于后续实施例以物体区块A1做代表，物体区块A2、A3可以以相同方式进行对应遮罩区块A1’、A2’及A3’的标示(label)，故后续仅就物体区块A1进行举例说明。

于步骤220中，视点追踪器辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点Pn。

如图4所示，增强现实眼镜20将多个视角热点Pn(以空心圆圈表示)标示在撷取的二维影像上，产生一热点图IMGE。

于一实施例中，增强现实眼镜20包含一红外线摄相机，红外线摄相机用以撷取一眼球影像，增强现实眼镜20依据眼球影像辨识出瞳孔形状，并侦测使用者所注视的方向，藉由使用者注视的方向与增强现实眼镜20画面显示的位置以辨识瞳孔注视角度所对应到的观看视野中的该至少一视角热点Pn。

于步骤230中，于一实施例中，处理器10接收至少一视角热点Pn与一指标信号PT，指标信号PT用以指定到物体区块A1。于一实施例中，该指标信号PT亦可以由增强现实眼镜20产生，例如根据视点追踪器侦测使用者的注视点停留时间长短产生。

于一实施例中，场景分割模型15是以CNN模型以实现的。

于一实施例中，如图4所示，处理器10接收到至少一视角热点Pn后，依据视角热点Pn产生一热点图IMGE，并将热点图IMGE及二维影像IMGO输入CNN模型，以辨识二维影像IMGO中的物体区块A1，并产生物体区块A1的遮罩，以产生遮罩图IMGR。

换言之，热点图IMGE是由将视角热点Pn标示在二维影像IMGO后所产生，二维影像IMGO为增强现实眼镜20将撷取到的原始影像，遮罩图IMGR是场景分割模型15的输出影像，其包含将辨识出物体区块A1的遮罩A1’。

藉此，由于输入CNN模型的不仅是二维影像IMGO，更包含热点图IMGE，可以使CNN模型辨识出的物体区块A1的位置及形状更精准。

于一例子中，增强现实眼镜20或其他提示装置(例如为耳机)可以提示使用者观看特定物体(例如增强现实眼镜20上显示「请观看衣橱」及/或耳机发出「请观看衣橱」的提示)，则使用者会往衣橱的方向看，增强现实眼镜20藉此取得对应到衣橱的视角热点Pn，并依据至少一个视角热点Pn产生热点图IMGE。

因此，当热点图IMGE及二维影像IMGO输入CNN模型时，可以使CNN模型辨识出的物体区块A1(即对应于衣橱的影像区块)的位置及形状更精准。

于一实施例中，处理器10将物体区块A1进行一三维重建以产生一三维物体，例如为三维衣橱。

于步骤240中，处理器10依据至少一视角热点Pn产生对应物体区块A1的遮罩区块A1’，及指标信号PT决定遮罩区块A1’的一标示。

在一实施例中，如图5所示的增强现实眼镜20的显示器的显示画面，显示画面中包含至少一部分的遮罩图IMGR及一选单LST、遮罩区块A1’及一指标信号PT。其中，红色区块A1’可以选择性的显示，原始影像(即二维影像IMGO)中的物体区块A1对应于遮罩区块A1’。

在一实施例中，处理器10可以直接针对物体区块A1的遮罩区块A1’进行标示，亦可选择性地将物体区块A1标示成遮罩区块A1’后，控制器CR传送指标信号PT到增强现实眼镜20，增强现实眼镜20依据指标信号PT显示选单LST，选单LST列出多个候选项目，候选项目例如为衣橱(Closet)、墙(Wall)、门(Door)，处理器10将至少一视角热点Pn所落在的候选项目的其中之一者视为遮罩区块A1’的标示，例如，视角热点Pn落在衣橱(Closet)，则处理器10将遮罩区块A1’标示成衣橱。

于一实施例中，处理器10可以直接针对物体区块A1进行标示，亦可选择性地将物体区块A1标示成遮罩区块A1’后，使用者可以直接用控制器CR点选后选项目的其中之一，例如，使用者用控制器CR点选后选项目中的衣橱(Closet)，则处理器10将遮罩区块A1’标示成衣橱。

综上所述，本发明实施例提供一种影像处理系统及影像处理方法，在标示二维影像中的物体区块的遮罩区块的过程中，透过视角热点及指标信号的应用，例如，在分割出二维影像中的多个物体后，透过影像处理系统及影像处理方法能分辨出特定物体，应用视角热点及指标信号可精准标示特定物体，即使是艺术造型物体或各种特殊形状的物体，亦可以应用视角热点及指标信号进行标示，因此本发明的影像处理系统及影像处理方法达到更精准的标示遮罩区块的效果。

本发明虽以较佳实施例揭露如上，然其并非用以限定本发明的范围，任何所属技术领域中具有通常知识者，在不脱离本发明的精神和范围内，当可做些许的更动与润饰，因此本发明的保护范围当视后附的申请专利范围所界定者为准。

【附图标记说明】

100：影像处理系统

10：处理器

LK1、LK2：通讯连结

20：增强现实眼镜

CR：控制器

Pn：视角热点

OBJ1、OBJ2、OBJ3：物体

200：影像处理方法

210～240：步骤

A1、A2、A3：物体区块

IMGI：初始影像

IMGR：遮罩图

A1’、A2’、A3’：遮罩区块

IMGE：热点图

IMGO：二维影像

15：场景分割模型

LST：选单

PT：指标信号

Claims

1.一种影像处理系统，包括：

一处理器，用以分割一二维影像中的一物体区块；

一视点追踪器，用以辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点；

其中，该处理器接收该至少一视角热点与一指标信号，该指标信号用以指定到该物体区块，该处理器依据该至少一视角热点产生对应该物体区块的一遮罩区块，及该指标信号决定该遮罩区块的一标示；以及

一控制器，用以传送该指标信号到一增强现实眼镜，该增强现实眼镜依据该指标信号显示一选单，该选单列出多个候选项目，该处理器将该至少一视角热点所落在的所述多个候选项目的其中之一视为该遮罩区块的标示；

该控制器可被手持操作与增强现实中的物体进行互动，并且可点选所述多个候选项目的其中之一。

2.如权利要求1所述的影像处理系统，其中该处理器依据该至少一视角热点产生一热点图，并将该热点图及该二维影像输入一卷积神经网络模型，以辨识该二维影像中的该物体区块。

3.如权利要求1所述的影像处理系统，其中该处理器应用一场景分割模型以分割该二维影像中的该物体区块，并遮罩该物体区块。

4.如权利要求1项所述的影像处理系统，其中该处理器还用以将该遮罩区块进行一三维重建以产生一三维物体。

5.如权利要求1所述的影像处理系统，其中该视点追踪器包含于一增强现实眼镜，该增强现实眼镜包含一红外线摄相机，该红外线摄相机用以撷取一眼球影像，该增强现实眼镜依据该眼球影像辨识出一瞳孔形状，并侦测出一使用者注视方向，藉由该使用者注视方向与该增强现实眼镜的一画面显示的位置以辨识一瞳孔注视角度所对应到的观看视野中的该至少一视角热点。

6.一种影像处理方法，包括：

分割一二维影像中的一物体区块；

辨识一瞳孔注视的方向所对应到的观看视野中的至少一视角热点；

接收该至少一视角热点与一指标信号，该指标信号用以指定到该物体区块；

依据该至少一视角热点产生对应该物体区块的一遮罩区块，及该指标信号决定该遮罩区块的一标示；

传送该指标信号到一增强现实眼镜，

通过该增强现实眼镜依据该指标信号显示一选单，该选单列出多个候选项目；

将该至少一视角热点所落在的所述多个候选项目的其中之一视为该遮罩区块的该标示；以及

与增强现实中的物体进行互动，点选所述多个候选项目的其中之一。

7.如权利要求6所述的影像处理方法，还包括：

依据该至少一视角热点产生一热点图，并将该热点图及该二维影像输入一卷积神经网络模型，以辨识该二维影像中的该物体区块。

8.如权利要求6所述的影像处理方法，还包括：

应用一场景分割模型以分割该二维影像中的该物体区块，并遮罩该物体区块。

9.如权利要求6所述的影像处理方法，还包括：

将该遮罩区块进行一三维重建以产生一三维物体。

10.如权利要求6所述的影像处理方法，还包括：

撷取一眼球影像；

依据该眼球影像辨识出一瞳孔形状；

侦测出一使用者注视方向；以及

藉由该使用者注视方向与一增强现实眼镜的一画面显示的位置以辨识一瞳孔注视角度所对应到的观看视野中的该至少一视角热点。