CN112540672A

CN112540672A - 智能投影方法、设备和存储介质

Info

Publication number: CN112540672A
Application number: CN202011240964.5A
Authority: CN
Inventors: 樊华; 沈珈靓
Original assignee: Shenzhen International Graduate School of Tsinghua University
Current assignee: Shenzhen International Graduate School of Tsinghua University
Priority date: 2020-11-09
Filing date: 2020-11-09
Publication date: 2021-03-23

Abstract

本发明涉及智能投影方法、设备和存储介质，属于投影技术领域。智能投影方法包括：获取待投影环境的语义地图；接收控制指令，根据所述控制指令从所述语义地图中确定被投影物体和待投影图像，所述语义地图包括所述被投影物体的轮廓点；根据所述被投影物体的轮廓点处理待投影图像，并生成投影图像；将所述投影图像投射至所述被投影物体表面。通过获取被投影物体所在环境的语义地图，可以得到被投影物体轮廓点的坐标信息，从而自动生成投影图像，并进行投影，方便用户使用，简化操作过程，并提高用户在人机交互上的体验感。

Description

智能投影方法、设备和存储介质

技术领域

本发明涉及投影技术领域，尤其是涉及一种智能投影方法、设备和存储介质。

背景技术

当下智能投影仪是众多智能电子设备中的热门产品。市场上的智能投影仪，是指基于无线连接技术，有内置操作系统和UI界面的投影设备。但常用的智能投影机需要固定投影到幕布或白墙上，并且通过遥控器或遥控APP来控制投影仪的界面；这样的投影方式在不规则物体上成像效果差；且这种智能投影机主要的应用功能局限于影视播放和文档演示。随着人工智能的发展和人类文明的进步，对智能产品在人机交互以及辅助工作和生活的需求逐渐增加。

为了解决在不规则物体上成像效果差的缺陷，市场上有一部分光雕投影的产品，利用立体光雕投影，可以将物体(多半是不规则外形的物体)作为投影的显示表面。但相关技术的光雕投影产品需要在电脑软件上手动框出被投影物体的位置并调节轮廓，来形成光雕投影的遮罩面，从而生成投影内容，复杂的软件操作以及费时的轮廓调节，大大降低了智能产品在人机交互上的体验感。

发明内容

本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种智能投影方法，能够自动识别被投影物体的轮廓，并生成合适的投影图像进行投影，方便用户使用，提高人机交互的体验感。

根据本发明的第一方面实施例的智能投影方法，包括：获取待投影环境的语义地图；接收控制指令，根据所述控制指令从所述语义地图中确定被投影物体和待投影图像，所述语义地图包括所述被投影物体的轮廓点；根据所述被投影物体的轮廓点处理待投影图像，并生成投影图像；将所述投影图像投射至所述被投影物体表面。

根据本发明实施例的智能投影方法，至少具有如下有益效果：通过获取周围环境的语义地图，可以得到被投影物体的轮廓点的坐标信息，并生成合适的投影图像进行投影，方便用户使用，简化操作过程，并提高用户在人机交互上的体验感。

根据本发明的一些实施例，所述获取待投影环境的语义地图包括：采用基于RGB-D的SLAM算法构建待投影环境的场景地图；将所述场景地图进行语义分割，得到所述语义地图。

根据本发明的一些实施例，所述语义分割包括：采用Point Net网络对所述场景地图进行语义分割，得到所述语义地图。

根据本发明的一些实施例，所述根据所述被投影物体的轮廓点生成投影图像包括：将所述语义地图的点云信息转换为世界坐标信息，其中，所述被投影物体的轮廓点的点云信息转换为世界坐标信息；通过立体视觉匹配将所述被投影物体轮廓点的世界坐标信息转换为对应点的投影的图像坐标信息；根据所述对应点的投影的图像坐标信息形成投影遮罩面；根据所述投影遮罩面生成所述投影图像。

根据本发明的一些实施例，所述控制指令包括：语音指令、动作指令、距离指令中的至少一种。

根据本发明的一些实施例，所述控制指令为所述动作指令，所述接收控制指令，包括：采用基于YOWO的神经网络结构实时分析人体行为动作，得到所述动作指令。

根据本发明的一些实施例，所述控制指令为所述距离指令，所述接收控制指令，包括：根据所述被投影物体的位置与人体位置的距离，得到所述距离指令。

根据本发明的一些实施例，所述控制指令为所述语音指令，所述接收控制指令，包括：根据接收到的语音信息得到所述语音指令。

根据本发明的第二方面实施例的智能投影设备，包括：图像采集模块，所述图像采集模块用于采集待投影环境的图像信息；处理模块，所述处理模块用于接收所述图像采集模块采集的图像信息，并根据所述图像信息生成语义地图，根据控制指令从所述语义地图中确定被投影物体，根据所述被投影物体的轮廓点生成投影图像；投影模块，所述投影模块用于接收所述投影图像，并将所述投影图像投射至所述被投影物体表面。

根据本发明的第三方面实施例的计算机可读存储介质，包括：所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行第一方面实施例所述的智能投影方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

下面结合附图和实施例对本发明做进一步的说明，其中：

图1为本发明实施例智能投影方法的流程图；

图2为本发明实施例获取语义地图的流程图；

图3为本发明实施例生成投影图像的流程图；

图4为本发明实施例智能投影设备的模块图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

术语定义：

RGB-D：RGB三通道彩色图像+深度图像。

SLAM(Simultaneous Localization And Mapping，同步定位与地图构建)：实时完成定位和制图功能。

Harris角点：基于灰度图像，在水平与竖直方向上亮度变化均较大的点，以此作为图像处理时的特征点。

光流算法：利用图像序列中像素在时间域上的变化以及相邻帧之间的相关性来找到上一帧跟当前帧之间存在的对应关系，从而计算出相邻帧之间物体的运动信息的一种方法。

RANSAC(RANdom SAmple Consensus，随机抽样一致)算法：可以从一组包含“局外点”的观测数据集中，通过迭代方式估计数学模型的参数。是一种不确定的算法，有一定的概率得出一个合理的结果，为了提高概率必须提高迭代次数。

ICP(Iterative Closest Points,迭代最近点)算法包括两部分：对应点搜索和位姿求解,它的目的是寻求点集之间的匹配关系，求解的结果是两点集之间的平移及旋转量。

ORB(Oriented FASTand Rotated BRIEF)算法是一种快速稳定的特征点检测和提取算法，许多图像拼接和目标追踪技术利用ORB特征进行实现。

Point Net网络：用于对三维点云数据进行语义分割。

YOWO(You Only Watch Once)神经网络结构：一种快速实时的视频动作定位的方法，用于人体检测与行为识别。

参照图1，本发明的智能投影方法包括：

110，获取待投影环境的语义地图；

120，接收控制指令，根据控制指令从语义地图中确定被投影物体和待投影图像；

130，根据被投影物体的轮廓点处理待投影图像，并生成投影图像；

140，将投影图像投射至被投影物体表面。

在一些实施例中，本发明的智能投影方法应用于室内的人机交互场景。示例，系统首先获取周围环境的语义地图，对环境中的物体进行识别与定位。当用户准备外出时，系统自动检测到用户外出的动作(换鞋，挎包等)，或者用户通过声音主动说出“外出”等预设的语音控制词汇，系统根据检测结果获取相应的控制指令，控制指令用于使系统确定待投影的图像内容与需要接收图像内容的被投影物体，被投影物体为接收投影图像并充当显示界面的物体。本示例中投影的图像内容为天气、时间等图像信息，被投影物体为门。确定被投影物体后，系统根据门的外围轮廓点在语义地图中的坐标信息，将待投影的图像信息进行处理，改变图像信息的大小与形状，生成处理后的投影图像，使投射至被投影物体表面的图像大小与门的实际大小相吻合，达到光雕投影的效果。本示例中，当用户即将外出，在门口进行准备动作的时间内，系统将实时的天气与时间信息投影在门上，方便用户根据外界天气状况调整自己的着装等。

在其它的一些实施例中，投影图像可以为静态的图像，或者为动态的视频图像，被投影物体可以根据与用户的互动需求任意设置，可以为墙面、地面、桌子、椅子等不规则物体，以完成不同的与用户交互的效果。

本发明通过获取周围环境的语义地图，可以得到不同的被投影物体轮廓点的坐标信息，并根据控制指令自动生成与被投影物体的表面契合的投影图像，简化用户的操作过程，提高用户在人机交互上的体验感。

在本发明的一些实施例中，获取周围环境的语义地图包括：采用基于RGB-D的SLAM算法构建周围环境的场景地图；将场景地图进行语义分割，得到语义地图。

为了实现实时环境的三维重建，利用RGB-D相机采集RGB-D图像并进行拼接，同时计算相机在三维空间中的位姿，并采用基于RGB-D的SLAM算法构建场景地图。在一些实施例中，通过深度相机旋转采集室内的RGB-D图像，采用图像特征点和ICP算法进行帧间对齐。具体为，首先计算Harris角点，并通过光流算法跟踪Harris角点，再经过RANSAC算法筛选特征点对，采用点到点的ICP算法解析计算帧间的变换矩阵。如果帧间距离过小，说明场景重复，不会计算入场景地图中，当帧间距离大于一定的值时，则认为是主帧。如果主帧内用于跟踪的Harris角点数目不够，再计算ORB特征点，使用Harris角点与ORB特征点共同计算特征点对匹配，通过RANSAC算法过滤掉不好的匹配后，通过ICP优化计算最终的旋转变换矩阵。最终根据旋转变换矩阵将该主帧图片放到场景地图中。若内存空间有限，可以将图片通过点云稀疏化处理后放到场景地图中，节省内部的存储空间。

在构建场景地图的过程中，位姿的估计会存在累积误差，此时需要通过回环检测消除误差。在一些实施例中，采用词袋模型(Bag-of-Words，BOW)通过特征点结合词袋的方式，检测新帧图像与之前相对应的最相似的图像。通过计算旋转变换矩阵，作为环约束放入位姿图的SLAM全局优化中。在最后场景的点云表示中，采用八叉树进行点云稀疏化从而完成场景地图的构建，最后采用语义分割技术，对场景地图进行语义分割。

在本发明的一些实施例中，语义分割包括：采用Point Net网络对场景地图进行语义分割，得到语义地图。Point Net网络可以直接将输入的无序点云进行处理，对点云数据进行语义分割。可以识别场景如：客厅、厨房、卧室、浴室等，识别物体如：墙、地面、桌子、椅子等，便于系统选择并分辨出正确的被投影物体。在一些其他的实施例中，也可以采用Point Net++网络对场景地图进行语义分割。

在本发明的一些具体实施例中，参照图2，获取语义地图的流程为：

111，采集RGB-D图像；

112，基于RGB-D的SLAM算法构建场景地图；

113，采用Point Net网络对场景地图进行语义分割；

114，得到语义地图。

在本发明的一些实施例中，参照图3，根据被投影物体的轮廓点生成投影图像包括：

131，将语义地图的点云信息转换为世界坐标信息；

132，通过立体视觉匹配将被投影物体轮廓点的世界坐标信息转换为对应点的投影的图像坐标信息；

133，根据对应点的投影的图像坐标信息形成投影遮罩面；

134，根据投影遮罩面生成投影图像。

投影图像通常由内容面与遮罩面组成，其中内容面通常为图像、视频等具体的显示信息，遮罩面则起到阻挡内容面投影内容的作用，即在存在遮罩面的位置，投影时无光线投射至被投影物体上，达到被投影物体的显示表面与投影图像契合的效果，即不会有投影图像投射在被投影物体的外部轮廓以外。此时语义地图中被投影物体的轮廓点即为遮罩面中阻挡与不阻挡投影内容的边界点。

在一些实施例中，将语义地图的点云信息转换为世界坐标信息具体为，当系统获取到控制指令后，系统将更新重建三维语义地图，将语义地图中的点云信息转换为世界坐标信息。具体为，首先以相机垂直投影到地面的点为原点，地面为(x，y)平面坐标系，相机垂直于地面的轴为z轴，相机平行于地面且向前的位置为x轴正方向，构建世界坐标系。

控制指令同时也会确定被投影物体，此时根据语义地图的中被投影物体的世界坐标信息，旋转投影设备使得摄相镜头和投影镜头面向被投影物体。当投影设备的位置改变后，获取位置改变后的RGB-D摄相机拍摄的被投影物体的图像。

由于预先获取的被投影物体的轮廓点坐标信息是从语义地图中得到的世界坐标系的内点，为了应用立体视觉匹配确认各轮廓点在待投影图像中的对应点，需要将轮廓点的世界坐标信息转换为投影物体的摄相图像的坐标信息。

这种转换方式可以使用本领域中任何已有方式。这里为了详细描述，采用点从世界坐标系转换到摄相图片坐标下的转换公式。具体公式如下，通过计算相机旋转矩阵R_c和平移向量C作为相机外参，和用于确认相机三维坐标空间到二维图像像素单位的转换关系的相机内参K_c，用如下的表达式(1)来进行转换：

其中

是指在被投影物体的摄相图像上某轮廓点的像素坐标，

是该轮廓点的世界坐标系的坐标。为了提供匹配精度，可以计算转化后被投影物体的图像上各个轮廓点的边缘强度和边缘梯度，与设备位置改变后所获得的被投影物体的图像的各个边缘点的边缘强度和边缘梯度的差方和，并将设备位置改变后所获得的被投影物体的图像中与最小差方和对应的点作为该轮廓点的对应点。

由于确定的对应点是在设备位置改变后所获得的被投影物体的图像中提取的，即为位于摄相的图像坐标系，此时还需要转换为投影的图像坐标系下的坐标，具体公式如表达式(2)：

其中

是轮廓点的对应点在摄相的图像坐标系上的齐次坐标，

是转化为投影的图像坐标系上的齐次坐标，K_p是投影部件的内参，K_c是摄相部件的内参，R_PC和T_PC是投影部件和摄相部件之间的旋转矩阵和平移向量。通过计算出来的投影的图像坐标系下的轮廓点坐标形成遮罩面，得到投影图像。

其中如何计算投影部件和摄相部件的内参，及其之间的旋转矩阵和平移向量，和摄相设备的外参，可以使用一些张正友标定等普遍的标定方法。例如，通过投影部件将一组结构光投射到平面棋盘图像上，并通过摄相部件得到标定信息，多次调整黑白棋盘格位置重复将一组结构光投影到棋盘格图像上并通过摄相部件拍摄标定得到对应的多组标定图像。则可利用每幅标定图像中检测到的棋盘格角点之间的对应关系计算摄相机的内参K_c。而相机的外参旋转矩阵R_c和平移向量C可以通过相机内部的传感器来计算。对于投影部件的内参K_p，首先计算局部单适应矩阵将摄相的图像坐标系上的棋盘格角点转换到投影的图像坐标系上，利用转换到投影的图像坐标系后的各棋盘格角点间的对应关系，计算投影部件的内参。根据各棋盘格角点在摄相的图像坐标系下和投影的图像坐标系下的坐标，以及相机和投影部件的内参，计算投影部件与摄相部件之间的旋转矩阵R_PC和平移向量T_PC。

在本发明的一些实施例中，控制指令包括：语音指令、动作指令、距离指令中的至少一种。控制指令可以单独为其中的一种，或者多种指令的结合，即接收到语音指令或动作指令中的一种，都可以触发投影。

在本发明的一些实施例中，控制指令为动作指令，接收控制指令包括：采用基于YOWO的神经网络结构实时分析人体行为动作，得到动作指令，根据动作指令将投影图像投射至被投影物体表面。YOWO(You Only Watch Once)神经网络为一种快速实时的视频动作定位的方法，用于分辨人体位置并对人体的行为动作进行分析。例如，可以将人体的行为动作分类为：行走、坐着、开门、玩手机、看书、打扫卫生、打开冰箱等。通过整理相应的人体行为数据集并标记人体行为作为训练数据和测试数据，训练YOWO网络，优化网络系数并通过测试结果选择网络最收敛的模型系数。通过训练好的YOWO网络实时识别采集的图像数据中的人体行为动作，通过预先设定的触发动作，得到相对应的动作指令，根据动作指令将预先设置的投影图像投射至预先设定的被投影物体的表面。一个实施例中，当用户正在看书，YOWO网络检测到用户的看书行为，系统即得到对应的看书动作指令，此时会将预设的书架图像投影至墙面，为用户营造一种在图书馆看书的氛围，提高用户看书时的专注程度。

在本发明的一些实施例中，控制指令为距离指令，接收控制指令包括：根据被投影物体的位置与人体位置的距离，得到距离指令，根据距离指令将投影图像投射至被投影物体表面。在YOWO网络检测人体行为动作的同时，设定触发人体定位的人体行为，当识别到触发人体定位的行为，系统将更新重建三维室内语义地图，并标记出人体所在的点云数据，同时三维点云地图将转换为世界坐标系，首先以图像采集装置垂直投影到地面的点为原点，地面为(X，Y)平面坐标系，图像采集装置垂直于地面的轴为Z轴，图像采集装置平行于地面向前的位置为X轴正方向，以此构建坐标系。三维点云重建地图中的像素点的坐标，即可对应到现实的几何空间位置，得到坐标系中标记为人体的像素点坐标。设定的被投影物体的位置定位也同样采用上述方法得到，由此可得人体与被投影物体之间的距离信息，从而得到相对应的距离指令，根据对应的距离指令，将预设的投影图像投射至被投影物体的表面。示例，当系统检测到用户行走的动作时，此时检测用户与冰箱、桌子、椅子等物体间的距离信息，当检测到用户与冰箱之间的距离小于预先设置的距离阈值，此时即判断用户将要打开冰箱，得到相应的打开冰箱的距离指令。此时系统选择冰箱为被投影物体，投影图像可以为与冰箱内的储存物相对应的图像或文字信息，用于提示用户冰箱内是否有需要的存储物，或者用户需要的存储物在冰箱中的位置，为用户提供便利。

在本发明的一些实施例中，控制指令为语音指令，接收控制指令包括：根据接收到的语音信息得到语音指令。通过采集用户的语音信息，与预先设置的语音触发指令相比较，在接收到特定的语音信息后，系统会将预设的投影图像投射至预设的被投影物体表面，方便用户根据自身的不同场景需求，快速选择不同的功能。

本发明还提供了一种智能投影设备，参照图4，包括：图像采集模块210、处理模块220、投影模块230，图像采集模块210用于采集待投影环境的图像信息；处理模块220用于接收图像采集模块210采集的图像信息，并根据图像信息生成语义地图，根据控制指令从语义地图中确定被投影物体，根据被投影物体的轮廓点生成投影图像；投影模块230用于接收投影图像，并将投影图像投射至被投影物体表面。

一个具体实施例中，图像采集模块210为RGB-D深度相机，用于采集RGB-D图像，并将采集的图像发送给处理模块220，图像采集模块210中还包括有传感器，用于监控摄相装置的位置变化。处理模块220用于将采集到的RGB-D图像进行处理并构建语义地图，并根据控制指令从语义地图中确定被投影物体，根据被投影物体的轮廓点生成投影图像。投影模块230用于将处理模块220经过处理后发送的投影图像或视频信息投射至被投影物体。

在本发明的一些其他实施例中，智能投影设备还包括语音采集模块240，语音采集模块240与处理模块220连接，语音采集模块240用于采集语音信息并发送至处理模块220。可以收集用户的语音信息，通过处理模块220的处理与识别，使用户可以通过语音指令来控制系统投影，便于用户根据自身的需求，方便快捷的选择不同的投影效果。

为便于图像采集与投影处理，图像采集模块210与投影模块230可以设置为一体结构，在同一个设备上完成图像的采集与投影的功能，此时图像采集的方向与投影的方向相同，便于处理计算。在其它实施例中，可以为多个分立的图像采集模块210与投影模块230，用于满足多个分立空间的投影需求。

本申请实施例提供了计算机可读存储介质，存储有计算机可执行指令，计算机可执行指令用于执行上述实施例中的智能投影方法。

以上所描述的装置实施例仅仅是示意性的，其中作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本申请的较佳实施进行了具体说明，但本申请并不局限于上述实施方式，熟悉本领域的技术人员在不违背本申请精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims

1.智能投影方法，其特征在于，包括：

获取待投影环境的语义地图；

接收控制指令，根据所述控制指令从所述语义地图中确定被投影物体和待投影图像，所述语义地图包括所述被投影物体的轮廓点；

根据所述被投影物体的轮廓点处理待投影图像，并生成投影图像；

将所述投影图像投射至所述被投影物体表面。

2.根据权利要求1所述的智能投影方法，其特征在于，所述获取待投影环境的语义地图包括：

采用基于RGB-D的SLAM算法构建待投影环境的场景地图；

将所述场景地图进行语义分割，得到所述语义地图。

3.根据权利要求2所述的智能投影方法，其特征在于，所述语义分割包括：

采用Point Net网络对所述场景地图进行语义分割，得到所述语义地图。

4.根据权利要求1所述的智能投影方法，其特征在于，所述根据所述被投影物体的轮廓点生成投影图像包括：

将所述语义地图的点云信息转换为世界坐标信息，其中，所述被投影物体的轮廓点的点云信息转换为世界坐标信息；

通过立体视觉匹配将所述被投影物体轮廓点的世界坐标信息转换为对应点的投影的图像坐标信息；

根据所述对应点的投影的图像坐标信息形成投影遮罩面；

根据所述投影遮罩面生成所述投影图像。

5.根据权利要求1所述的智能投影方法，其特征在于，所述控制指令包括：语音指令、动作指令、距离指令中的至少一种。

6.根据权利要求5所述的智能投影方法，其特征在于，所述控制指令为所述动作指令，所述接收控制指令，包括：

采用基于YOWO的神经网络结构实时分析人体行为动作，得到所述动作指令。

7.根据权利要求6所述的智能投影方法，其特征在于，所述控制指令为所述距离指令，所述接收控制指令，包括：

根据所述被投影物体的位置与人体位置的距离，得到所述距离指令。

8.根据权利要求5所述的智能投影方法，其特征在于，所述控制指令为所述语音指令，所述接收控制指令，包括：

根据接收到的语音信息得到所述语音指令。

9.智能投影设备，其特征在于，包括：

图像采集模块，所述图像采集模块用于采集待投影环境的图像信息；

处理模块，所述处理模块用于接收所述图像采集模块采集的图像信息，并根据所述图像信息生成语义地图，根据控制指令从所述语义地图中确定被投影物体，根据所述被投影物体的轮廓点生成投影图像；

投影模块，所述投影模块用于接收所述投影图像，并将所述投影图像投射至所述被投影物体表面。

10.计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1至8任一项所述的智能投影方法。