CN111258410B

CN111258410B - 一种人机交互设备

Info

Publication number: CN111258410B
Application number: CN202010370008.2A
Authority: CN
Inventors: 冯翀; 郭嘉伟; 马宇航; 罗观洲
Original assignee: Beijing Shenguang Technology Co ltd
Current assignee: Beijing Shenguang Technology Co ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-04
Anticipated expiration: 2040-05-06
Also published as: CN111258410A

Abstract

本发明提供了一种人机交互设备，包括：投影单元、信号发射单元、红外摄像头、广角摄像头、深度摄像头和计算板；所述计算板接收到广角摄像头拍摄每一帧场景图像后判断当前场景是否可以确定边界，如果是，则确定用户操作界面的边界范围；所述投影单元在所述边界范围内投影出所述用户操作界面，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据，所述计算板将所述用户操作数据发送至所述投影单元，所述投影单元接收到所述用户操作数据后基于所述用户操作数据更新所述投影单元在用户操作界面上的显示内容。本发明的设备通过多帧分析对用户动作判断更加准确，通过深度摄像头联合进行红外信号进行手势动作的确定，进一步提高了手势动作的识别精度，并且可以自动边界确定。

Description

一种人机交互设备

技术领域

本发明涉及人机交互技术领域，特别是一种人机交互设备。

背景技术

人机交互是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流，并进行操作，但是，现有人机交互技术中主要存在以下技术缺陷。

现有技术中，交互投影仪使用的触控方案基本上均是红外平扫方案，即在桌面定高位置放置红外发射器，有物体（如手指）遮挡后识别为点击事件。这种方案的缺点在于：必须在交互平面上放置发射器，投影仪形态受限；不能处理水平方向上的遮挡，不能处理有高度的物体；任何物体都有可能误触；精度有待提高；投影仪的界面无法自动校正。

现有技术中，无论是基于红外还是基于视频获取用户动作，都是基于当前帧进行动作的捕捉，识别精度低，且现有技术中都是基于单模态获取用户的动作，无法同时基于两种或以上的信号进行用户动作的捕捉，而单一信号获取用户动作的姿态精度低，因此，如何提高用户动作的识别精度是人机交互的一个重点及难点。

现有技术中，通过投影仪投出用户操作界面时一般通过手工调整用户操作界面的位置、大小等，费事费力，且现有技术难以在非空白界面上投出用户操作界面，比如在，教科书中投出用户操作界面，且现有技术中，无法对操作界面中的显示内容进行自动识别进行初步边界确定，且现有的边界确定模式中，无法根据投影的内容进行自适应确定边界确定的方式，导致了人机交互效率低下，现有技术更不能根据边界确定物体的大小自适应调整投影仪与投影界面的距离，导致投影模糊，影响了用户体验。

现有技术中，特别在是在人机交互的教学系统中，特征点的识别一直是一个难点，由于识别精度的不准确，导致获取的学习内容错误，影响了学生学习效率及积极性。且现有技术中，一般仅针对固定的特征点进行识别，用户无法自定义详细的特点，现有技术中，识别出来的特征点也是仅仅用于获取相应的内容，而没有把用户获取的一系列特征点进行记忆存储，便于后续使用。

发明内容

本发明针对上述现有技术中的一个或多个缺陷，提出了如下技术方案。

一种人机交互设备，所述设备包括：投影单元、信号发射单元、红外摄像头、广角摄像头、深度摄像头和计算板；

所述广角摄像头实时拍摄场景图像，并将拍摄的每一帧场景图像发送至计算板，所述计算板接收到所述每一帧场景图像后基于获取的每一帧场景图像判断当前场景是否可以确定边界，如果是，则确定用户操作界面的边界范围；

所述投影单元被配置为在所述边界范围内投影出所述用户操作界面，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据，所述计算板将所述用户操作数据发送至所述投影单元，所述投影单元接收到所述用户操作数据后基于所述用户操作数据更新所述投影单元在用户操作界面上的显示内容。

更进一步地，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据的操作包括：所述信号发射单元被配置为产生一个与用户操作界面平行的红外光栅，所述红外光栅与所述用户操作界面相临近；所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板；所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板；所述计算板将将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据。

更进一步地，所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板包括：当用户通过手在用户操作界面上进行操作时，信号发射单元发射的红外光被手指遮挡后反射的红外光形成光斑，红外摄像头持续拍摄光栅状态，通过滤波处理得到形成光斑的信息后，将每一帧光斑的信息传输至计算板进行存储分析，当计算板在判断当前帧光斑的信息为用户操作为按压事件后，从计算板中获取存储的该当前帧光斑的信息的前N帧的光斑的信息，计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据并发送至所述计算板。

更进一步地，所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板包括：深度摄像头利用双目摄像头对用户操作界面的场景进行拍摄并将拍摄的场景图像发送至计算板并存储，所述计算板通过两个摄像头拍摄的场景图像计算出所述用户操作界面的场景中各部分的深度信息，使用计算板获取用户的手部在场景图像中的位置，计算板基于所述深度信息和所述手部位置确定用户手部的动作，当计算板在判断当前帧场景图像中所述用户手部的动作为用户按压事件后，从计算板中获取存储的该当前帧场景图像的前N帧的场景图像，计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据并发送至所述计算板。

更进一地，所述将所述第一操作数据和第二操作数据进行融合得到用户操作数据为：所述计算板将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据。

更进一地，所述用户操作数据为用户标记数据或用户调用其他功能。

更进一步地，所述计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据的操作为：计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定用户的手指动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第一操作数据，所述按压位置为利用均值计算出光斑中心点位置。

更进一步地，所述计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据的操作为：计算板通过该当前帧场景图像和前N帧的场景图像中用户的具体手部动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第二操作数据，所述按压位置为指尖位置。

更进一地，所述更新所述投影单元在用户操作界面上的显示内容包括：计算板将所述用户操作数据发送至投影单元，投影单元在获取用户操作数据后确定用户操作数据的类型，如果用户操作数据为用户标记数据则直接在投影内容上绘制出相应的标记；如果用户操作数据为用户调用其他功能则调用计算板中存储的应用或功能以获取更新到用户操作界面上的显示内容，并将所述显示内容在用户操作界面上进行显示。

更进一步地，所述计算板接收到所述每一帧场景图像后基于获取的每一帧场景图像判断当前场景是否可以确定边界，如果是，则确定用户操作界面的边界范围包括：

所述计算板接收广角摄像头实时传输的每一帧场景图像，并对当前场景的物体分布利用mobilenet-ssd检测网络进行处理确定各物体的形状和各物体相应的类别；

所述计算板基于所述场景图像和确定的物体形状计算出各物体在场景图像的空间中的位置，将各物体的位置和相应的类别合并后生成物体数据集；

所述计算板从物体数据集中读取位置信息，基于所述位置信息从所述场景图像中减去所有的物体分布信息得到空白区域信息，然后所述计算板将根据用户设置进行是否可以进行边界确定，如果是，则将可边界确定的区域位置信息进行计算以确定边界范围，并对所述边界范围进行存储；

所述计算板将存储的边界范围传输至投影单元，同时传输一个边界确定成功的信号，当所述投影单元收到边界确定成功的信号后从所述计算板中获取存储的当前用户的设置信息；

所述计算板确定是否在空白区域进行投影，如果是，则根据所述边界范围和所述设置信息确定投影区域，在所述投影区域投影出用户的操作界面；如果不是，则由用户选择出要投影的物体，然后所述计算板在所述物体数据集中读取所述物体的位置信息，基于所述物体的位置信息投影出所述用户的操作界面。

更进一步地，所述对象为用户操作界面时，所述计算板以第一时间间隔对广角摄像头传输的场景图像进行处理后与之前的已确定边界的场景图像相比较，如果比较结果不一致，则重新进行边界确定。

更进一步地，所述对象为用户操作界面时，所述计算板以第一时间间隔对广角摄像头传输的场景图像进行处理后与之前的已确定边界的场景图像相比较，如果比较结果不一致，则重新进行边界确定包括：

所述计算板每隔一秒再次从所述广角摄像头中获取一帧场景图像，并使用所述mobilenet-ssd检测网络获取该帧场景图像中的所有物体的分布状态；

所述计算板获取当前投影单元的设置信息，并与所述物体的分布状态相比较，如果比较结果误差大于第一阈值，则不可进行边界确定，则将投影单元更新至不可边界确定的警告状态，并将所述计算板状态调整为实时判断是否可边界确定的状态；如果比较结果误差小于所述第一阈值，则将确定新的边界范围，并与之前存储的边界范围进行比较，如果比较结果小于第二阈值，不进行更新，否则，则将新的边界范围进行存储并传输至所述投影单元，所述投影单元根据新的边界范围，将投影区域进行相应的调整。

更进一步地，对显示在所述用户操作界面上的显示内容进行边界确定，包括：

所述广角摄像头实时拍摄场景图像并以第二时间间隔传输至所述计算板，所述计算板将所述场景图像传输至云端服务器；所述云端服务器使用深度学习学习网络预测所述内容中文字的位置，并同时将包含所述文字的图片进行裁剪后得到第一子图片并进行存储；

所述云端服务器对所述第一子图片使用ctc算法进行文字内容的识别，识别后将所述文字和相应的位置生成内容数据集；

所述服务器将所述内容数据集传输至所述计算板，所述计算板将所述内容数据集中的位置的信息传输至所述投影单元；

所述投影单元投影出所述计算板得到的内容数据集，并由用户选择需要进行边界确定的内容。

更进一步地，所述投影单元投影出所述计算板得到的内容数据集并由用户选择需要进行边界确定的内容包括：

所述投影单元实时监听到所述计算板，当接收到所述计算板发送的识别出的文字及位置后在投影区域中对所述内容进行浅色的显示；

所述用户根据显示出的已识别内容进行选择，选择后会将在对应内容的位置处的边界进行明显化，表示已经选定了当前处的内容。

更进一步地，所述明显化为添加外框显示。

更进一步地，所述对象为显示的内容时，所述计算板对用户已选择的内容进行深入识别，得到所述内容的具体信息后更新到所述投影单元并进行投影显示。

更进一步地，所述计算板对用户已选择的内容进行深入识别，得到所述内容的具体信息后更新到所述投影单元并进行投影显示包括：

当所述用户选择一个已经识别出的区域时，所述计算板获取用户的选择区域，并记录所选区域的位置；

所述计算板基于所选区域的位置将用户选择的区域裁剪为第二子图片，并使用智能识别API对所述第二子图片中的文字或者图片信息进行分析；

所述计算板将分析出的文字或者图片的具体信息和位置信息相结合得到所选区域的详细信息，并提取出所述详细信息中的有效部分进行规范化后得到规范数据传输至所述投影单元；

所述投影单元接收到来自所述计算板的规范数据后，在投影区中的用户操作区域进行更新相应的显示。

更进一步地，用户在使用所述设备进行阅读时，所述设备用于识别读物中的特征点，包括：

所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上；

所述广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。

更进一步地，所述特征点为页码、和/或用户选择的内容，其中，所述页码为基础特征点，所述用户选择的内容为扩展特征点。

更进一步地，所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括：

使用所述投影单元投影出一个输入表单，所述输入表单包括多个输入项，其中所述输入项为：读物的类型、读物名称、读物页数和/或文章标题；

所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板；

所述计算板接收到所述用户提交的信息后，将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID；

所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元，所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。

更进一步地，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置，同时将图片裁剪后进行临时存储，所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别，识别后将所述文字内容和对应的位置结合生成内容数据集；所述云端服务器将所述内容数据集传输至所述计算板，所述计算板对所述文字内容进行检测以判断是否存在基础特征点，如果不存在，则将无特征点的信息传输至所述投影单元，所述投影单元投影出警告信息，如果存在，所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。

更进一步地，在识别出基础特征点后，根据用户的操作判断是否处于内容记录状态，如果是，则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。

更进一步地，所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为：

所述计算板将识别出的页码值传输至所述投影单元进行显示，并提供输入框由用户进行更正；

所述计算板将更正后的页码值作为第一属性，并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性，同时再将第一、二属性生成的时间作为第三属性；

所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录，并按照第三属性排序；

所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元，并基于所述第一属性进行升序排序，然后为该特征点识别记录添加增加一个记录生成时间的第四属性，并将所述第四属性记录在该特征点识别记录中，所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。

更进一步地，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。

更进一步地，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

所述计算板使用所述基础特征点对读物内容进行检索，将检索到的读物内容传输至投影单元；所述投影单元实时获取读物内容上的标记，并同时获取当前投影的区域范围；所述投影单元根据所述区域范围对所述标记的读物内容进行的调整，使其与所述区域范围大小一致，将调整后的标记的读物内容投影至用户操作界面。

更进一步地，所述扩展特征点的识别操作为：所述计算板获取所述内容数据集，并将所述内容数据集中的页码值去除；所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界；所述用户从显示出的所述边界的区域中选择若多个子内容作为当前页面详细特征点的内容；所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。

本发明的技术效果为：

本发明的设备在动作分析过程中不仅针对当前帧进行，而是结合此前的多帧状态进行联合分析，通过这种“动态效果”的分析，能够保证对用户动作的判断更加准确，从而实现更加精确的控制；本发明采用获取的深度图像基于先进的深度判断模型获取丰富的手势动作，而基于用户的手势便可实现更多更丰富的交互方法，便有后续功能的扩展；通过深度摄像头联合进行红外信号进行手势动作的确定，进一步提高了手势动作的识别精度，此外，还可以实现投影仪的自动校正。

本发明在对场景图像判断后，通过去除场景图像中物体的方式得到空白区域的位置，使得边界确定准确度，进而使投出的用户操作界面十分清晰；且本发明支持用户操作界面的边界确定与显示内容边界确定的自由切换，因此，有助于在投影边界确定时增添其他的操作，例如还能对其内容进行进一步的提取，例如提取出具体的文字、检索图片的深层信息，而且信息还可直接借助投影进行展示，对于内容边界确定，投影自动给出识别的区域，并且附带有文字和边框的提醒，而且再加上投影的实时跟踪效果，使得边界确定后，无论是投影的区域显示还是面板的显示情况都有很好的视觉效果，且边界确定实时更新，从而实现了在移动物体上的投影用户操作界面，且可以实现基于物体大小进行投影仪与界面距离的自动调整，大大提高了用户的体验。

本发明还借助云端服务器进行特征点的识别，提高了识别精确度，并且将特征点在云端按照一定的次序构成特征点数据集进行存储，使得用户上传内容的实时更新，便于对内容的检索及获取；且用户可根据对某页具体内容的识别需求，选择基本特征点识别：只针对页码识别内容，或者详细特征点识别：增添其他的文字或图片作为特征点，实现某一页面内容更精确的标记定位；且识别特征点后能够自动更新投影的标记内容，从而实现更智能的显示；借助识别的详细特征点便可对习题讲解时的标记信息进行精确的显示，从而可以实现用户对各种题目的讲解录制以及检索；基于特征点的标记跟踪显示，此时即使调整了投影显示，标记相对锚点的位置也不会改变，实现了更加智能的标记跟踪。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例之一的一种人机交互设备的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种人机交互设备，所述设备包括：投影单元、信号发射单元、红外摄像头、广角摄像头、深度摄像头和计算板；

所述投影单元被配置为在所述边界范围内投影出所述用户操作界面，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据，所述计算板将所述用户操作数据发送至所述投影单元，所述投影单元接收到所述用户操作数据后基于所述用户操作数据更新所述投影单元在用户操作界面上的显示内容。所述用户操作数据为用户标记数据或用户调用其他功能。

本发明的设备可以为智能台灯，所述智能台灯具有投影单元，即投影仪、广角摄像头、深度摄像头、红外摄像头等等，其内部具有计算板，计算板至少具有处理器和存储器，用于完成数据的处理等等，当然，其也必然具有电源、电源控制器等等。投影单元可以是投影仪，信号发射单元设置在台灯的底部，这样，投影单元在桌面上投出一个操作界面，信号发射单元（比如是红外激光器）产生一个与用户操作界面平行的红外光栅，所述红外光栅与所述用户操作界面相临近，相邻近一般是指距离为1-2mm。

通过本发明，可以确定投影单元在桌面上投出一个操作界面的边界。当用户在操作界面上操作时，还可以确定显示内容的边界，至于对何种对象进行边界确定，计算板根据当前投影单元所投影的内容进行判断，根据判断结果确定是对用户操作界面边界确定还是对显示内容进行边界确定，然后再进行相应的边界确定操作，比如初始化时，是对投影的用户操作界面进行边界确定，当具有了用户操作界面后，用户在操作界面上进行操作时，对操作界面上的显示内容进行边界确定，即本发明支持用户操作界面的边界确定与显示内容边界确定的自由切换。

在一个实施例中，所述投影单元被配置为在一个平面上投影一个用户操作界面，所述信号发射单元被配置为产生一个与用户操作界面平行的红外光栅，所述红外光栅与所述用户操作界面相临近，具体可通过以下操作实现：

第一步：投影仪初始化，进行对焦，梯形校正，进行画面信号的重合和校准判断，直到投影清晰，显示加载中的用户操作界面。

第二步：位于设备底端的红外激光器以散射方式将红外光束发射出，各光束距离平面的规定距离为1mm。

第三步：红外摄像头拍摄光栅状态并处理得到光斑的信息，如光斑的信息被计算板判断为非平面则更新投影内容为错误状态，提醒用户调整位置直到成为正常的平面光栅。

第四步：投影仪从计算板中获取当前用户的设置，并依据当前用户的设置投影出正式的用户操作界面。

通过上述操作，实现了投影仪的自动校正，并且基于用户的设置投出相应的用户操作界面，方便了用户操作，且将信号发射单元放置在智能台灯的底部，解决了现有技术中必须在交互平面上放置发射器导致投影仪形态受限的问题，从而可以处理水平方向上的遮挡，也可以处理有高度的物体，这是本发明的重要发明点之一。

在一个实施例中，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据的操作包括：所述信号发射单元被配置为产生一个与用户操作界面平行的红外光栅，所述红外光栅与所述用户操作界面相临近；所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板；所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板；所述计算板将将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据。

在一个实施例中，所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板包括：当用户通过手在用户操作界面上进行操作时，信号发射单元发射的红外光被手指遮挡后反射的红外光形成光斑，红外摄像头持续拍摄光栅状态，通过滤波处理得到形成光斑的信息后，将每一帧光斑的信息传输至计算板进行存储分析，当计算板在判断当前帧光斑的信息为用户操作为按压事件后，从计算板中获取存储的该当前帧光斑的信息的前N帧的光斑的信息，计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据并发送至所述计算板。

优选地，信号发射单元发射的红外光被手指遮挡后反射的红外光形成光斑具体为：使用者利用手指（或其他遮挡物）对需要进行交互的位置进行按压，当距离小于1mm便可遮挡住红外光束。红外光束被遮挡，遮挡部分便会作为反射面将发射的红外光进行反射，形成所谓的光斑，并且能够被红外摄像头捕获光斑的位置。红外摄像头持续拍摄光栅状态，通过滤波处理得到形成光斑的信息具体为：红外摄像头持续不停的拍摄当前平面的红外光分布情况并进行记录；红外摄像头获取分布情况后对拍摄场景图像利用多种滤波算法进行处理，处理后得到红外线被遮挡部分的位置和形状；红外摄像头对得到的光斑的信息进行规范化调整，利用相连的数据导线将传输至计算板并进行存储。

在一个实施例中，所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板包括：深度摄像头利用双目摄像头对用户操作界面的场景进行拍摄并将拍摄的场景图像发送至计算板并存储，所述计算板通过两个摄像头拍摄的场景图像计算出所述用户操作界面的场景中各部分的深度信息，使用计算板获取用户的手部在场景图像中的位置，计算板基于所述深度信息和所述手部位置确定用户手部的动作，当计算板在判断当前帧场景图像中所述用户手部的动作为用户按压事件后，从计算板中获取存储的该当前帧场景图像的前N帧的场景图像，计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据并发送至所述计算板。

本发明中，所述计算板将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据。卡尔曼滤波法用于融合低层次实时动态多传感器冗余数据，利用测量模型的统计特性递推，决定统计意义下的最优融合和数据估计。将第一操作数据和第二操作数据进行融合的操作过程如下：

利用设备上的传感器（即红外摄像头和深度摄像头）获取到红外与深度两种观测目标的数据（即第一操作数据和第二操作数据）；

使用计算板对这两种输出数据（即第一操作数据和第二操作数据）（离散或连续的时间函数数据、输出矢量、成像数据或一个直接的属性说明）进行特征提取的变换，提取代表两种数据的特征矢量Yi；

对特征矢量Yi进行模式识别处理，完成各传感器关于目标的说明；将各传感器关于目标的说明数据按同一目标进行分组，即关联（即第一操作数据和第二操作数据的关联）；利用随机类算法——卡尔曼滤波法将目标的各传感器数据进行合成，得到该目标的一致性解释与描述，从而实现了通过深度摄像头联合进行红外信号进行手势动作的确定，进一步提高了手势动作的识别精度，这是本发明的重要发明点之另一。

在一个实施例中，所述计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据的操作为：计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定用户的手指动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第一操作数据，所述按压位置为利用均值计算出光斑中心点位置。

在一个实施例中，所述计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据的操作为：计算板通过该当前帧场景图像和前N帧的场景图像中用户的具体手部动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第二操作数据，所述按压位置为指尖位置。

具体地，计算板如何通过该当前帧光斑的信息和前N帧的光斑的信息息确定所述第一操作数据，这里以红外信息、摄像头帧率为50帧对具体流程进行描述：

当计算板对当前的反射光位置判断为用户的按压行为时，便需要对一个持续时间进行判断，这里假设持续100ms（即5帧）算是一个真正的按压事件，并进一步去调用相应的处理方法；

当仅检测到某一帧用户为按压行为时，计算板会开始查询操作，首先会获取前一帧用户的行为类型，如果为同一位置的按压行为，则计算板继续获取前一帧的用户行为类型。当遇到非法行为（非同一位置的按压行为或者非按压行为），会进行特殊处理：跳过这一帧再向前读一帧。

此时有两种情况：1.再向前的一帧仍为非法行为则本次查询终止，直到当前帧不能算作真正的按压事件，多帧判断结束，此时计算板开始等待下一帧的用户行为并判断。2.再向前的一帧是同一位置的按压行为，那么之前遇到的非法行为被标记为错误数据，并当作一个同一位置的按压行为来进行处理。在经过查询和特殊处理之后，如果计算板判断此时已经有连续五帧同一位置的按压行为，则会将其视为真正的按压事件，多帧判断结束。深度图像中多帧判断的方式与前面描述的红外图像的多帧判断方式相同，不在赘述。

优选地，使用计算板获取用户的手部在场景图像中的位置具体为：深度摄像头利用双目摄像头对场景进行拍摄，利用光反射获取一级距离，两个摄像头信息进一步汇总处理的计算方式计算出场景中各部分的详细深度信息，即获取到当前场景的场景图像以及完整的RGB-D信息，并利用白平衡、直方图均衡的方法对信息进行预处理以及略微的矫正；在得到整体的深度信息后，计算板对采集的场景图片利用部署好的mobilenet-ssd检测网络进行处理，得到用户手部的粗略位置；将手部位置与深度信息结合，进一步利用hourglass结构的卷曲神经网络进行骨关节点位置的预测，进而便可得到用户当前的手部姿势，进而得到手部的动作并储存。

在确定得到手部的动作式首先利用hourglass得到的标注J_k生成手部关节点k的热力图（热力图是一个概率图，和场景图像的像素组成一致，不过每一个像素位置上的数据是当前像素是某个关节的概率，基于概率分析出进一步的关节信息）：

然后根据预测得到的热力图H_k，进一步地得到手关节点k在场景图像中的位置P（基于预测的位置进行进一步的矫正，已得到更准确的位置信息）

然后关于对姿势进行分类，并对每一类给出每个关节点的位置区域，只要各个关节点在相应取余就判定为当前动作，这些对手部动作的过程及相应的公式也称为先进的深度判断模型。

计算板在判断当前帧场景图像中所述用户手部的动作为用户操作为按压事件的操作为：在得到手部动作分析后，如果判断出手部与投影平面距离相差小于1mm，则判定用户动作为按压平面；在判断出为按压事件后，为了分析用户的具体动作，从存储中获取前几帧的用户动作信息，将这些信息同样也作为下一步分析的源数据。

本发明中，在动作分析过程中不仅针对当前帧进行，而是结合此前的多帧状态进行联合分析，通过这种“动态效果”的分析，能够保证对用户动作的判断更加准确，从而实现更加精确的控制；本发明采用获取的深度图像基于先进的深度判断模型获取丰富的手势动作，而基于用户的手势便可实现更多更丰富的交互方法，便有后续功能的扩展，这是本发明的重要发明点之另一。

本发明中，所述用户操作数据为用户标记数据或用户调用其他功能。在一个实施例中，更新实现过程为：计算板将所述用户操作数据发送至投影单元，投影单元在获取用户操作数据后确定用户操作数据的类型，如果用户操作数据为用户标记数据则直接在投影内容上绘制出相应的标记；如果用户操作数据为用户调用其他功能则调用计算板中存储的应用或功能以获取更新到用户操作界面上的显示内容，并将所述显示内容在用户操作界面上进行显示。

本发明的操作面板（即用户操作界面）在设计时提供了多种方案、多种风格以供用户选择，从而可以满足不同类型用户在交互时的不同需求，设置后，会自动加载，更灵活的区域选取（基于画笔、范围选取工具划定区域后，对其中的内容进行保存、识别、传输等操作），交互轨迹的自动化执行，比如在后期教学或者展示，可以在计算板保存操作流程后，首先利用投影显示出操作时的轨迹，并在恰当的时间执行相应的操作，从而实现自动化的展示与执行，这属于本发明的另一个重要发明点。

在一个实施例中，所述计算板接收到所述每一帧场景图像后基于获取的每一帧场景图像判断当前场景是否可以确定边界，如果是，则确定用户操作界面的边界范围包括：所述计算板接收广角摄像头实时传输的每一帧场景图像，并对当前场景的物体分布利用mobilenet-ssd检测网络进行处理确定各物体的形状和各物体相应的类别；所述计算板基于所述场景图像和确定的物体形状计算出各物体在场景图像的空间中的位置，将各物体的位置和相应的类别合并后生成物体数据集；所述计算板从物体数据集中读取位置信息，基于所述位置信息从所述场景图像中减去所有的物体分布信息得到空白区域信息，然后所述计算板将根据用户设置进行是否可以进行边界确定，如果是，则将可边界确定的区域位置信息进行计算以确定边界范围，并对所述边界范围进行存储；所述计算板将存储的边界范围传输至投影单元，同时传输一个边界确定成功的信号，当所述投影单元收到边界确定成功的信号后从所述计算板中获取存储的当前用户的设置信息；所述计算板确定是否在空白区域进行投影，如果是，则根据所述边界范围和所述设置信息确定投影区域，在所述投影区域投影出用户的操作界面；如果不是，则由用户选择出要投影的物体，然后所述计算板在所述物体数据集中读取所述物体的位置信息，基于所述物体的位置信息投影出所述用户的操作界面。

边界确定方式有两种主要有两种，一为空白区域的投影（投影在空白区域上），如果区域大小满足用户设置的投影范围大小则说明可边界确定，这是比较传统的方式；另一种方式为基于识别后物体的投影，即投影在特定的书籍或者纸张上，如果有可投影的物体，例如书籍、纸张等，则说明可边界确定，本发明通过上述确定的具体操作去除场景图像中物体的方式得到空白区域的位置，然后再进行边界确定，使得边界确定准确度，进而使投出的用户操作界面十分清晰，这是本发明的一个重要发明点。

在一个实施例中，所述对象为用户操作界面时，所述计算板以第一时间间隔对广角摄像头传输的场景图像进行处理后与之前的已确定边界的场景图像相比较，如果比较结果不一致，则重新进行边界确定，本申请中，所有的“如果比较结果不一致”的含义为前后两次检测后场景中物体分布情况相差较大，这表明有物体的位置被较大幅度的改变。

具体地，所述对象为用户操作界面时，所述计算板以第一时间间隔对广角摄像头传输的场景图像进行处理后与之前的已确定边界的场景图像相比较，如果比较结果不一致，则重新进行边界确定包括：

通过上述更新操作，本发明使得边界确定实时更新，从而实现了在移动物体上的投影用户操作界面，即投影可以跟踪物体的移动，方便了用户的操作，即通过实时刷新实现的跟踪效果，使得边界确定的能力进一步提升，使得用户在非大范围移动设备时能够保证投影区域的自动跟踪，大大提高了用户的体验，这是本发明的另一个重要发明点。

在一个实施例中，对显示在所述用户操作界面上的显示内容进行边界确定，包括：

具体地，所述投影单元投影出所述计算板得到的内容数据集并由用户选择需要进行边界确定的内容包括：所述投影单元实时监听到所述计算板，当接收到所述计算板发送的识别出的文字及位置后在投影区域中对所述内容进行浅色的显示；所述用户根据显示出的已识别内容进行选择，选择后会将在对应内容的位置处的边界进行明显化，表示已经选定了当前处的内容。所述明显化为添加外框显示。

通过上述内容的边界确定，可以对显示的内容进行进一步的提取，例如提取出具体的文字、检索图片的深层信息，而且信息还可直接借助投影进行展示，对于内容边界确定，投影自动给出识别的区域，并且附带有文字和边框的提醒，而且再加上投影的实时跟踪效果，并且让用户能够再次获取（赋值），使得用户在获取信息时有了全新的感受，这属于本发明的另一个重要发明点。

在一个实施例中，所述计算板对用户已选择的内容进行深入识别，得到所述内容的具体信息后更新到所述投影单元并进行投影显示包括：当所述用户选择一个已经识别出的区域时，所述计算板获取用户的选择区域，并记录所选区域的位置；所述计算板基于所选区域的位置将用户选择的区域裁剪为第二子图片，并使用智能识别API对所述第二子图片中的文字或者图片信息进行分析；所述计算板将分析出的文字或者图片的具体信息和位置信息相结合得到所选区域的详细信息，并提取出所述详细信息中的有效部分进行规范化后得到规范数据传输至所述投影单元；所述投影单元接收到来自所述计算板的规范数据后，在投影区中的用户操作区域进行更新相应的显示。

显示内容的边界确定是为了更好的记录和文字图片相关的标记位置而实现的方法，同时边界确定后也有助于进行信息的采集进行下一步的应用，通过上述更新操作，本发明使得显示内容实时更新，方便用户对显示内容的操作，大大提高了用户的体验，这是本发明的另一个重要发明点。

此外，在一个实施例中，为了保证投影在不同大小不同距离的物体上都有优秀的投影效果，本发明采用以中心点距离为基础调节投影仪焦距的方法，具体操作如下：计算板已经基于用户的选择确定了要边界确定的物体（比如，图书），并计算出边界在将要投影在场景中的位置；基于边界确定的边界，计算板以物体的四个边界为基础计算出边界确定区域对角线的交点，即中心点的位置，再次进行存储；然后计算板启用深度摄像头对场景进行拍摄，在获取到场景完整的RGB-D信息后进行临时存储；计算板基于获取到的RGB-D信息，从中提取出深度信息后，与边界确定区域中心点的位置结合，进而得到中心点与摄像头的距离，再基于摄像头与投影仪的位置微调后得到投影仪与边界确定区域中心的距离；进而计算板调用投影仪的初始化方法，将该距离作为原始的焦距，在经过初始化过程中投影仪自身的梯形校正处理，便可基于距离实现相应位置的清晰投影显示。通过该操作，在边界确定时，实现了基于边界确定物体的大小自动调整投影单元的与边界确定区域中心，使得投影出来的界面更加清晰，这是本发明的另一个重要发明点。

在一个实施例中，用户在使用所述设备进行阅读时，所述设备用于识别读物中的特征点，包括：

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。例如，所述特征点为页码、和/或用户选择的内容，其中，所述页码为基础特征点，所述用户选择的内容为扩展特征点。

在一个实施例中，所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括：使用所述投影单元投影出一个输入表单，所述输入表单包括多个输入项，其中所述输入项为：读物的类型、读物名称、读物页数和/或文章标题；所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板；所述计算板接收到所述用户提交的信息后，将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID；所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元，所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。通过上述操作，构建了一个特征点识别点的记录，便于后续的查找使用，这是本发明的基础，属于本发明的一个发明点。

在一个实施例中，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：

具体地，在识别出基础特征点后，根据用户的操作判断是否处于内容记录状态，如果是，则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。

优选地，所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为：所述计算板将识别出的页码值传输至所述投影单元进行显示，并提供输入框由用户进行更正；所述计算板将更正后的页码值作为第一属性，并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性，同时再将第一、二属性生成的时间作为第三属性；所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录，并按照第三属性排序；所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元，并基于所述第一属性进行升序排序，然后为该特征点识别记录添加增加一个记录生成时间的第四属性，并将所述第四属性记录在该特征点识别记录中，所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。

通过上述操作，借助云端服务器进行特征点的识别，提高了识别精确度，并且将特征点在云端按照一定的次序构成特征点数据集进行存储，使得用户上传内容的实时更新，便于对内容的检索及获取，这是本发明的重要发明点之一。

在一个实施例中，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。具体地，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

通过上述操作，识别特征点后能够自动更新投影的标记内容，从而实现更智能的显示，基于特征点的标记跟踪显示，此时即使调整了投影显示，标记相对锚点的位置也不会改变，实现了更加智能的标记跟踪，这属于本发明的另一个重要发明点。

在一个实施例中，所述扩展特征点的识别操作为：所述计算板获取所述内容数据集，并将所述内容数据集中的页码值去除；所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界；所述用户从显示出的所述边界的区域中选择若多个子内容作为当前页面详细特征点的内容；所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。

通过上述操作，用户可根据对某页具体内容的识别需求，选择基本特征点识别：只针对页码识别内容，或者详细特征点识别：增添其他的文字或图片作为特征点，实现某一页面内容更精确的标记定位，比如在学生学习时，借助识别的详细特征点便可对习题讲解时的标记信息进行精确的显示，从而提高下学习效率，这属于本发明的另一个重要发明点。

在一个实施例中，本发明的设备包括：设备外壳、投影仪光机（投影单元）、广角摄像头、RGB高清摄像头或深度摄像头、红外摄像头、DMD控制板、计算板、激光器、扬声器和电池。

整个设备由以上十个组件组成，其中设备外壳为保护内部组件的不透明外壳，位于最外层，为描述方便，正面具有T型开口，另一面为背面；投影仪光机配置在设备的正面，并且利用T型开口进行内容的投影；广角摄像头、RGB高清摄像头或深度摄像头和红外摄像头分别位于投影仪光机正上方，固定在设备外壳的T型开口上方，同样利用T型开口进行不同类型内容的拍摄；DMD控制板与投影仪光机平行配置，位于其下方，用于驱动投影仪光机；计算板直接安装于设备外壳背面，进行牢靠的固定，与其他组件利用导线连接，以提供服务，并且在计算板上方安装有麦克风，用于直接接收场景的声音信息；激光器有三个，分别安装于投影仪光机下方的三个圆型开口处，形成激光器阵列进行激光、红外光的发射，与摄像头配合以获取更丰富的场景信息；扬声器位于背面的矩形开口处，用于将设备的声音没有阻拦的传输出去；电池则是安装于设备中上方，位于投影仪光机与计算板之间，提供电力的支持，本领域技术人员可根据实际需要，比如价格因素选择恰当的配置，以实现前述的设备的各项功能。

在选配RGB高清摄像头时，这一摄像头可以用于协助进行深度信息的判断，此外，还可以基于RGB摄像头高清能力，还会在对一定范围的文字内容识别时起到作用，即当确定具体识别区域后，会使用RGB高清摄像头替换广角摄像头去拍摄其中的内容并进行处理，以达到更好的识别效果。广角摄像头一般拍摄范围更广，如前面描述的一样，多用于场景的拍摄，大范围动作的拍摄等等。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种人机交互设备，其特征在于，所述设备包括：投影单元、信号发射单元、红外摄像头、广角摄像头、深度摄像头和计算板；

所述投影单元在所述边界范围内投影出所述用户操作界面，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据，所述计算板将所述用户操作数据发送至所述投影单元，所述投影单元接收到所述用户操作数据后基于所述用户操作数据更新所述投影单元在用户操作界面上的显示内容；

其中，所述计算板接收到所述每一帧场景图像后基于获取的每一帧场景图像判断当前场景是否可以确定边界，如果是，则确定用户操作界面的边界范围包括：

所述计算板确定是否在空白区域进行投影，如果是，则根据所述边界范围和所述设置信息确定投影区域，在所述投影区域投影出用户的操作界面；如果不是，则由用户选择出要投影的物体，然后所述计算板在所述物体数据集中读取所述物体的位置信息，基于所述物体的位置信息投影出所述用户的操作界面；

其中，所述计算板将所述红外摄像头采集的第一操作数据和深度摄像头采集的第二操作数据融合处理得到用户操作数据的操作包括：所述信号发射单元被配置为产生一个与用户操作界面平行的红外光栅，所述红外光栅与所述用户操作界面相临近；所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板；所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板；所述计算板将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据；

所述红外摄像头通过红外光栅获取用户在用户操作界面上的第一操作数据并发送至所述计算板包括：当用户通过手在用户操作界面上进行操作时，信号发射单元发射的红外光被手指遮挡后反射的红外光形成光斑，红外摄像头持续拍摄光栅状态，通过滤波处理得到形成光斑的信息后，将每一帧光斑的信息传输至计算板进行存储分析，当计算板在判断当前帧光斑的信息为用户操作为按压事件后，从计算板中获取存储的该当前帧光斑的信息的前N帧的光斑的信息，计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据并发送至所述计算板；

其中，所述深度摄像头获取用户在用户操作界面上的第二操作数据并发送至所述计算板包括：深度摄像头利用双目摄像头对用户操作界面的场景进行拍摄并将拍摄的场景图像发送至计算板并存储，所述计算板通过两个摄像头拍摄的场景图像计算出所述用户操作界面的场景中各部分的深度信息，使用计算板获取用户的手部在场景图像中的位置，计算板基于所述深度信息和所述手部位置确定用户手部的动作，当计算板在判断当前帧场景图像中所述用户手部的动作为用户按压事件后，从计算板中获取存储的该当前帧场景图像的前N帧的场景图像，计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据并发送至所述计算板；

其中，所述将所述第一操作数据和第二操作数据进行融合得到用户操作数据为：所述计算板将所述第一操作数据和第二操作数据进行卡尔曼滤波法处理得到用户操作数据；

其中，所述用户操作数据为用户标记数据或用户调用其他功能；

其中，所述计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定所述第一操作数据的操作为：计算板通过该当前帧光斑的信息和前N帧的光斑的信息确定用户的手指动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第一操作数据，所述按压位置为利用均值计算出光斑中心点位置；

其中，所述计算板通过该当前帧场景图像和前N帧的场景图像确定所述第二操作数据的操作为：计算板通过该当前帧场景图像和前N帧的场景图像中用户的具体手部动作以获得用户的手部轨迹信息；获取当前投影单元的用户操作界面上的投影内容，基于所述轨迹信息对按压位置所涉及的功能进行判断以确定所述第二操作数据，所述按压位置为指尖位置。

2.根据权利要求1所述的设备，其特征在于，对显示在所述用户操作界面上的显示内容进行边界确定，包括：

3.根据权利要求1所述的设备，其特征在于，用户在使用所述设备进行阅读时，所述设备用于识别读物中的特征点，包括：

4.根据权利要求3所述的设备，其特征在于，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：