CN111258409B

CN111258409B - 一种用于人机交互的特征点识别方法及设备

Info

Publication number: CN111258409B
Application number: CN202010369998.8A
Authority: CN
Inventors: 冯翀; 马宇航; 李国豪; 罗观洲; 郭嘉伟
Original assignee: Beijing Shenguang Technology Co ltd
Current assignee: Beijing Shenguang Technology Co ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-08-04
Anticipated expiration: 2040-05-06
Also published as: CN111258409A

Abstract

本发明提供了一种用于人机交互的特征点识别方法及设备，所述方法包括：计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上使用广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。其借助云端服务器进行特征点的识别，提高了识别精确度，并且将特征点在云端按照一定的次序构成特征点数据集进行存储，使得用户上传内容的实时更新，便于对内容的检索及获取，能够自动更新投影的标记内容，从而实现更智能的显示，更加智能的标记跟踪。

Description

一种用于人机交互的特征点识别方法及设备

技术领域

本发明涉及人机交互技术领域，特别是一种用于人机交互的特征点识别设备方法及设备。

背景技术

人机交互是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器，也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。

伴随着人机交互技术的发展，众多人机交互与现实技术相结合，尤其增强现实技术已经广泛应用于娱乐、工程等方面，让现实世界中的人们能够近距离的解决一些虚拟事物，其中涉及到的技术有多媒体、三维建模、实时跟踪、智能交互、传感等多种技术手段，且人工交互技术在现代教育中也有了广泛应用。

现有技术中，特别在是在人机交互的教学系统中，特征点的识别一直是一个难点，由于识别精度的不准确，导致获取的学习内容错误，影响了学生学习效率及积极性。且现有技术中，一般仅针对固定的特征点进行识别，用户无法自定义详细的特点，现有技术中，识别出来的特征点也是仅仅用于获取相应的内容，而没有把用户获取的一系列特征点进行记忆存储，便于后续使用。

发明内容

本发明针对上述现有技术中的缺陷，提出了如下技术方案。

一种用于人机交互的特征点识别方法，所述方法包括：

获取步骤，计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上；

截取步骤，使用广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；

特征点识别步骤，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。

更进一步地，所述特征点为页码、和/或用户选择的内容，其中，所述页码为基础特征点，所述用户选择的内容为扩展特征点。

更进一步地，所述获取步骤包括：

使用所述投影单元投影出一个输入表单，所述输入表单包括多个输入项，其中所述输入项为：读物的类型、读物名称、读物页数和/或文章标题；

所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板；

所述计算板接收到所述用户提交的信息后，将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID；

所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元，所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择。

更进一步地，所述特征点识别步骤包括：

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置，同时将图片裁剪后进行临时存储，所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别，识别后将所述文字内容和对应的位置结合生成内容数据集；所述云端服务器将所述内容数据集传输至所述计算板，所述计算板对所述文字内容进行检测以判断是否存在基础特征点，如果不存在，则将无特征点的信息传输至所述投影单元，所述投影单元投影出警告信息，如果存在，所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中。

更进一步地，在识别出基础特征点后，根据用户的操作判断是否处于内容记录状态，如果是，则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。

更进一步地，所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为：

所述计算板将识别出的页码值传输至所述投影单元进行显示，并提供输入框由用户进行更正；

所述计算板将更正后的页码值作为第一属性，并将当前页面中所有的标记内容以位置、轨迹的形式分别作为一个子元素在一个队列中进行存储作为第二属性，同时再将第一、二属性生成的时间作为第三属性；

所述计算板将得到的第一、二、三属性组合后作为一个特征点识别子单元存储至所述特征点识别记录，并按照第三属性排序；

所述计算板获取当前特征点识别记录的ID下所有的特征点识别子单元，并基于所述第一属性进行升序排序，然后为该特征点识别记录添加增加一个记录生成时间的第四属性，并将所述第四属性记录在该特征点识别记录中，所述计算板将具有第四属性的该特征点识别记录存储至所述云端服务器。

更进一步地，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。

更进一步地，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

所述计算板使用所述基础特征点对读物内容进行检索，将检索到的读物内容传输至投影单元；所述投影单元实时获取读物内容上的标记，并同时获取当前投影的区域范围；所述投影单元根据所述区域范围对标记的读物内容进行的调整，使其与所述区域范围大小一致，将调整后的标记的读物内容投影至用户操作界面。

更进一步地，所述扩展特征点的识别操作为：所述计算板获取所述内容数据集，并将所述内容数据集中的页码值去除；所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界；所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容；所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。

本发明还提出了一种用于人机交互的特征点识别设备，所述设备包括：投影单元、广角摄像头和计算板，所述设备与云端服务器通过网络相连接；

所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上；

所述广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。

更进一步地，所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括：

更进一步地，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：

本发明的技术效果为：本发明的一种用于人机交互的特征点识别方法，所述方法包括：获取步骤，计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上；截取步骤，使用广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；特征点识别步骤，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。本发明的主要优点在于：借助云端服务器进行特征点的识别，提高了识别精确度，并且将特征点在云端按照一定的次序构成特征点数据集进行存储，使得用户上传内容的实时更新，便于对内容的检索及获取；且用户可根据对某页具体内容的识别需求，选择基本特征点识别：只针对页码识别内容，或者扩展特征点识别：增添其他的文字或图片作为特征点，实现某一页面内容更精确的标记定位；且识别特征点后能够自动更新投影的标记内容，从而实现更智能的显示；借助识别的扩展特征点便可对习题讲解时的标记信息进行精确的显示，从而可以实现用户对各种题目的讲解录制以及检索；基于特征点的标记跟踪显示，此时即使调整了投影显示，标记相对锚点的位置也不会改变，实现了更加智能的标记跟踪。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显。

图1是根据本发明的实施例之一的一种用于人机交互的特征点识别方法的流程图。

图2是根据本发明的实施例之一的一种用于人机交互的特征点识别设备的示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了本发明的一种用于人机交互的特征点识别方法，所述方法包括：

获取步骤S101，计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上。

截取步骤S102，使用广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；具体地，广角摄像头将实时拍摄到的场景信息传输至计算板，计算板按照当前识别的读物边界位置，将接收到的图片进行相应的裁剪，得到一个页面大小的子图片，页面大小可以是用户自己定义。

特征点识别步骤S103，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。

本发明的方法可以应用在智能台灯上，台灯的上部或下部（如果是下部，则需要透镜组件进行光路转换）安装有投影单元，即投影仪、红外摄像头、深度摄像头，其内部具有计算板，计算板至少具有处理器和存储器，用于完成数据的处理等等，投影单元可以是投影仪。

在一个实施例，所述特征点为页码、和/或用户选择的内容，其中，所述页码为基础特征点，所述用户选择的内容为扩展特征点。

在一个实施例中，所述获取步骤S101包括：

使用所述投影单元投影出一个输入表单，所述输入表单包括多个输入项，其中所述输入项为：读物的类型、读物名称、读物页数和/或文章标题；比如，投影仪在当前投影区域内首先投影出一个简易表单，包含了书的类型、名称、页数等等基础信息等待用户填写。

所述用户通过虚拟键盘在所述输入项中进行填写后提交信息至所述计算板；用户分别点击相应的输入框，借助出现的虚拟键盘将信息填写完整后提交。

所述计算板接收到所述用户提交的信息后，将所述信息构建成一条基础数据记录存储在数据库中得到一个特征点识别记录及对应的ID；即构建了一个特征点识别点的记录，便于后续的查找使用。

所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元，所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择，此时，投影仪将输入表单(也可以称为问卷页面)清除，让用户随意添加标记。

通过上述操作，构建了一个特征点识别点的记录，便于后续的查找使用，这是本发明的基础，属于本发明的一个发明点。

在一个实施例中，所述特征点识别步骤S103包括：

具体地，在识别出基础特征点后，根据用户的操作判断是否处于内容记录状态，如果是，则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器。

优选地，所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为：

通过上述操作，借助云端服务器进行特征点的识别，提高了识别精确度，并且将特征点在云端按照一定的次序构成特征点数据集进行存储，使得用户上传内容的实时更新，便于对内容的检索及获取，这是本发明的重要发明点之一。

在一个实施例中，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。

优选地，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

通过上述操作，识别特征点后能够自动更新投影的标记内容，从而实现更智能的显示，基于特征点的标记跟踪显示，此时即使调整了投影显示，标记相对锚点的位置也不会改变，实现了更加智能的标记跟踪，这属于本发明的另一个重要发明点。

在一个实施例中，所述扩展特征点的识别操作为：所述计算板获取所述内容数据集，并将所述内容数据集中的页码值去除；所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界；所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容；所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。

通过上述操作，用户可根据对某页具体内容的识别需求，选择基本特征点识别：只针对页码识别内容，或者扩展特征点识别：增添其他的文字或图片作为特征点，实现某一页面内容更精确的标记定位，比如在学生学习时，借助识别的扩展特征点便可对习题讲解时的标记信息进行精确的显示，从而提高下学习效率，这属于本发明的另一个重要发明点。

图2示出了本发明的一种用于人机交互的特征点识别设备，所述设备至少包括：投影单元、广角摄像头和计算板，还可以包括红外摄像头和深度摄像头，所述设备与云端服务器通过网络相连接；还可以使用RGB高清摄像头替代深度摄像头，在选配RGB高清摄像头时，这一摄像头可以用于协助进行深度信息的判断，此外，还可以基于RGB摄像头高清能力，还会在对一定范围的文字内容识别时起到作用，即当确定具体识别区域后，会使用RGB高清摄像头替换广角摄像头去拍摄其中的内容并进行处理，以达到更好的识别效果。广角摄像头一般拍摄范围更广，如前面描述的一样，多用于场景的拍摄，大范围动作的拍摄等等。

所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上；所述广角摄像头实时拍摄当前用户操作界面上的场景图像，并实时将所述场景图像传输至所述计算板，由计算板截取出相应读物处的子图片；具体地，广角摄像头将实时拍摄到的场景信息传输至计算板，计算板按照当前识别的读物边界位置，将接收到的图片进行相应的裁剪，得到一个页面大小的子图片，页面大小可以是用户自己定义。所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点。

本发明的设备可以为智能台灯上，台灯的上部或下部（如果是下部，则需要透镜组件进行光路转换）安装有投影单元，即投影仪、红外摄像头、深度摄像头，其内部具有计算板，计算板至少具有处理器和存储器，用于完成数据的处理等等，投影单元可以是投影仪。

在一个实施例中，所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括：

在一个实施例中，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：

在一个实施例中，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。具体地，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

本发明的方法和设备可以使用在智能学习中，比如书籍互动视频录制，识别到特征点后自动更新投影的标记内容，从而实现更智能的显示；一些习题的详细讲解短视频，首先对题目信息进行提取作为检索标题，借助识别的扩展特征点便可对讲解时的标记信息进行精确的显示，从而可以实现用户对各种题目的讲解录制以及检索；基于特征点的标记跟踪显示，即不再以边界为锚点，而是将基础或者扩展特征点作为锚点，用户再次选择锚点后添加标记，此时即使调整了投影显示，标记相对锚点的位置也不会改变，实现了更加智能的标记跟踪。使得学习设备具有智能性、精确性，方便用户的使用。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本申请各个实施例或者实施例的某些部分所述的方法。

最后所应说明的是：以上实施例仅以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应当理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种用于人机交互的特征点识别方法，其特征在于，所述方法包括：

特征点识别步骤，所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点；

所述特征点为页码、和/或用户选择的内容，其中，所述页码为基础特征点，所述用户选择的内容为扩展特征点；

所述获取步骤包括：

所述计算板基于所述用户提交的信息获取读物的内容后发送至所述投影单元，所述投影单元将所述读物的内容投影处理以供用户阅读、标记和/或选择；

所述特征点识别步骤包括：

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器利用深度学习检测系统在所述子图片中预测分析出文字的位置，同时将图片裁剪后进行临时存储，所述云端服务器基于所述文字的位置对所述子图片使用ctc算法进行文字内容的识别，识别后将所述文字内容和对应的位置结合生成内容数据集；所述云端服务器将所述内容数据集传输至所述计算板，所述计算板对所述文字内容进行检测以判断是否存在基础特征点，如果不存在，则将无特征点的信息传输至所述投影单元，所述投影单元投影出警告信息，如果存在，所述计算板则存储识别出的基础特征点对应的页码值至特征点识别记录中；

在识别出基础特征点后，根据用户的操作判断是否处于内容记录状态，如果是，则基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器；

所述基于页码值进行内容顺序的调整后将所述特征点识别记录存储至云端服务器的操作为：

2.根据权利要求1所述的方法，其特征在于，在识别出基础特征点后，根据用户的操作判断是否处于内容获取状态，如果是，则基于所述基础特征点获取相应的读物内容进行投影显示。

3.根据权利要求2所述的方法，其特征在于，所述基于所述基础特征点获取相应的读物内容进行投影显示的操作为：

4.根据权利要求1所述的方法，其特征在于，所述扩展特征点的识别操作为：所述计算板获取所述内容数据集，并将所述内容数据集中的页码值去除；所述计算板将去除页码值后的所述内容数据集中的可使用区域的位置信息传输至投影仪进行投影显示出文字内容的边界；所述用户从显示出的所述边界的区域中选择多个子内容作为当前页面的内容；所述计算板依次对选择的子内容利用深度神经网络进行识别出具体信息作为扩展特征点存储该特征点识别记录中。

5.一种用于人机交互的特征点识别设备，其特征在于，所述设备包括：投影单元、广角摄像头和计算板，所述设备与云端服务器通过网络相连接；

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点；

所述计算板基于用户的输入获取用户需要的读物并通过投影单元将所述读物投影在用户操作界面上的操作包括：

所述计算板将截取的所述子图片发送至云端服务器，所述云端服务器对所述子图片进行识别得到特征点的操作包括：