CN110941367A

CN110941367A - 一种基于双摄的识别方法及终端

Info

Publication number: CN110941367A
Application number: CN201811119861.6A
Authority: CN
Inventors: 胡宏波; 熊伟; 郑先木
Original assignee: Fuzhou Rockchip Electronics Co Ltd
Current assignee: Fuzhou Rockchip Electronics Co Ltd
Priority date: 2018-09-25
Filing date: 2018-09-25
Publication date: 2020-03-31

Abstract

本发明公开一种基于双摄的识别方法和终端，获取双摄像头拍摄的包含一预设特征点的待测区域的两张图片；基于神经网络分别定位出所述预设特征点在两张图片中的位置；根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位，根据所述相对移位判断所述预设特征点是否与所述待测区域接触；直接根据神经网络定位出预设特征点的位置，无需借助预设的特征纹理，能够实现自然交互，并且基于相对移位确定所述预设特征点是否与待测区域接触，相较于现有技术中的投影集合算法，不仅适用平面的待测区域的是否接触的识别，也适用曲面的待测区域的是否接触的识别，通用性更高。

Description

一种基于双摄的识别方法及终端

技术领域

本发明涉及图像识别领域，尤其涉及一种基于双摄的识别方法及终端。

背景技术

现有技术中，一般的点读装置采用点读笔或手指点读方式，点读笔或手指有一个共同的特征就是点读笔或手指具有预先设定的特征纹理，进行识别时，通过对所述特征纹理的识别进而确定点读笔或手指所在的点读位置，从而实现点读。

但是，这种方式通用性较差，点读笔或手指必须具有预先设定的特征纹理，才能够实现点读，无法实现自然交互。

发明内容

本发明所要解决的技术问题是：提供一种基于双摄的识别方法及终端，能够实现自然交互。

为了解决上述技术问题，本发明采用的一种技术方案为：

一种基于双摄的识别方法，包括步骤：

S1、获取双摄像头拍摄的包含一预设特征点的待测区域的两张图片；

S2、基于神经网络分别定位出所述预设特征点在两张图片中的位置；

S3、根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位，根据所述相对移位判断所述预设特征点是否与所述待测区域接触。

进一步的，所述待测区域包含一移动体，所述预设特征点设置在所述移动体的一端或为所述移动体的一个端点。

进一步的，所述步骤S2包括：

S21、基于神经网络分别定位出两张图中所述移动体所在的区域；

S22、基于神经网络分别在两张图中的所述移动体所在的区域识别出预设特征点；

S23、分别根据识别出的预设特征点定位出所述预设特征点在两张图片中的位置。

进一步的，所述步骤S21之后还包括：

判断神经网络返回的所述移动体所在的区域的响应值是否大于第一阈值，若是，则执行步骤S22，否则，进行下一帧图片的识别。

进一步的，所述步骤S2之前包括步骤：

采用包含所述移动体的图片对所述神经网络进行训练，所述移动体上具有标注数据，所述标注数据包括所述预设特征点。

进一步的，所述步骤S22中基于神经网络在图中的所述移动体所在的区域识别出预设特征点包括：

S221、使用多尺度处理输入神经网络的图片，所述图片为所述移动体所在的区域的图片；

S222、分别计算各个尺度下图片输入所述神经网络后得到的预设特征点的响应图；

S223、将得到的各个尺度下的响应图加权平均，识别出所述预设特征点。

进一步的，所述步骤S222之后还包括：

判断得到的各个尺度下的预设特征点的响应图的响应值是否均大于第二阈值，若是，则执行步骤S223，否则，进行下一帧图片的识别。

进一步的，所述步骤S3中根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位包括：

在两张图片中分别以所述预设特征点的位置作为参照点，基于相同的参照规则确定一预设大小的第一区域；

根据两张图片中的第一区域之间的相对移位确定所述预设特征点在两张图中的相对移位。

进一步的，所述步骤S3中根据所述相对移位判断所述预设特征点是否与所述待测区域接触包括：

判断所述相对移位是否小于第三阈值，若是，则所述预设特征点与所述待测区域接触，否则，所述预设特征点与所述待测区域不接触。

为了解决上述技术问题，本发明采用的另一种技术方案为：

一种基于双摄的识别终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

进一步的，所述步骤S2包括：

进一步的，所述步骤S21之后还包括：

进一步的，所述步骤S2之前包括步骤：

进一步的，所述步骤S222之后还包括：

本发明的有益效果在于：基于神经网络分别定位出预设特征点在通过双摄像头拍摄的包含待测区域的两张图片中的位置，根据所述预设特征点在两张图片中的相对移位确定所述预设特征点是否与待测区域接触，直接根据神经网络定位出预设特征点的位置，无需借助预设的特征纹理，能够实现自然交互，并且基于相对移位确定所述预设特征点是否与待测区域接触，相较于现有技术中的投影集合算法，不仅适用平面的待测区域的是否接触的识别，也适用曲面的待测区域的是否接触的识别，通用性更高。

附图说明

图1为本发明实施例的一种基于双摄的识别方法的步骤流程图；

图2为本发明实施例的一种基于双摄的识别终端的结构示意图；

图3为本发明实施例的识别手所在区域的示意图；

图4为本发明实施例的用于训练神经网络的训练数据的示意图；

图5为本发明实施例的识别成功的示意图；

标号说明：

1、一种基于双摄的识别终端；2、存储器；3、处理器。

具体实施方式

为详细说明本发明的技术内容、所实现目的及效果，以下结合实施方式并配合附图予以说明。

双摄像头组件由发射光源、光学透镜、成像传感器和图像处理单元等组成。双摄像头组件包含双目立体视觉、结构光、TOF三种技术解决方案。得益于图像处理器和双摄处理算法的进步，双摄像头技术在夜拍降噪、快速对焦、光学变焦、景深利用等方面已展现出了较好的效果。

本发明提出的基于双摄的识别方法及终端可以实现在任意表面上自然交互，能够适用于任何需要实现自然交互的场景，比如点读机、虚拟键盘、虚拟鼠标、互动投影、VR场景、AR场景、MR场景、交互游戏等，下面结合具体的应用场景来说明。

请参照图1、图5，一种基于双摄的识别方法，包括步骤：

其中，通过双摄像头拍摄得到的是针对同一待测区域的不同视角的两张图片；

在获取到所述两张图片后，可以对两张图片进行增强处理，具体的增强处理方式可以根据实际情况需要确定；

所述待测区域包含一移动体，所述预设特征点设置在所述移动体的一端或为所述移动体的一个端点，比如在点读机场景中，所述移动体可以为手指或笔，相应的预设特征点为手指指尖或笔尖，所述待测区域即为书本；在交互游戏场景中，所述移动体也可以为游戏手柄，相应的预设特征点可以为手柄的端点，所述待测区域即为交互游戏场景；在虚拟键盘或虚拟鼠标中，所述移动体可以为手指，相应的预设特征点为手指指尖，所述的待测区域即为虚拟键盘或虚拟鼠标；

具体的，包括如下步骤：

基于神经网络，能够实现对移动体所在区域的动态监测，可以选出一个候选区域框；图3所示为识别出手所在区域的示意图，当识别到手所在区域时，可选的有候选区域框提示。

S23、分别根据识别出的预设特征点定位出所述预设特征点在两张图片中的位置；

其中，所述神经网络可以为针对所述移动体上的预设特征点的定位任务而采用监督、半监督或无监督等方式预先训练完成的神经网络，所述神经网络的网络结构可以根据对所述移动体上的预设特征点的定位任务的需要进行灵活设计，本实施例并不做限制，比如，神经网络可以包括但不限于卷积层、非线性Relu层、池化层、全连接层等，网络层数越多，则网络越深；又如，运动体所在区域的检测所用的神经网络的网络结构可以采用但不限于SSD(Singer Shot MultiBox Detector)、YOLO，Faster_rcnn等网络结构；预设特征点的检测所用的神经网络的网络结构可以采用但不限于Mobilenet、深度残差网络(DeepResidual Network，ResNet)或VGGnet(Visual Geometry Group Network)等网络的结构；

在执行步骤S2之前先对神经网络进行训练，训练的具体方式本实施例不做具体限定，本领域技术人员可以根据实际情况需要进行选择，比如，神经网络可以采用监督的方式预先训练完成；

具体训练时，采用包含所述移动体的图片对所述神经网络进行训练，所述移动体上具有标注数据，所述标注数据包括所述预设特征点，如图4所示，每张图片中包含了移动体手，并且手上具有标注数据，手上的一个个点即为标注点，即特征点，包括指尖及指关节，在所述标注数据中包含了预设特征点其中，指尖即为预设特征点；

在训练完成后，将要识别的图片输入训练完成的神经网络后，即能够得到图片中对应的特征点，因为是按照预设的顺序得到图片中各个特征点的响应图，因此，能够明确知道预设特征点响应图的索引，从而可以直接获取到预设特征点在图片中的位置；

在图4中进行训练的是食指的标注数据，根据实际情况需要，也可以添加其它的标注数据，比如拇指、无名指等，从而使得神经网络能够识别出拇指、无名指上的特征点；

S3、根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位，根据所述相对移位判断所述预设特征点是否与所述待测区域接触；

其中，所述预设特征点在两张图片中的相对移位指的是两张图片中的预设特征点沿着双摄像头之间的连线方向的偏移，比如，如果双摄像头中两个摄像头相对于所述待测区域是左右排列的，则相对移位是沿着左右方向，如果双摄像头中两个摄像头相对于所述待测区域是上下排列的，则相对移位是沿着上下方向；

如果确定了预设特征点与待测区域接触，则根据所述预设特征点所在的待测区域的位置，将所述预设特征点与待测区域中对应的内容源(比如交互图书、交互游戏、交互键盘、交互鼠标等)进行关联，并作出一致的关联行为，比如点读发声、实现游戏互动、实现键盘的输出、实现鼠标的点击等。

在另一个可选的实施例中，可以使用CNN对移动体上的预设特征点(比如手指指尖)进行检测识别，使用级联的卷积结构来表达空间信息和纹理信息，空间信息指的是特征点之间的距离关系，可以通过高层的神经网络来获取各个特征点之间的关联性，纹理信息指的是神经网络在其感受野内获取到的图片的纹理信息；

其中，级联的卷积结构是将网络分为多个阶段，每个阶段都进行相应的训练，前面阶段使用原始图片作为输入，后面阶段使用之前阶段的特征图作为输入，从而实现了空间信息、纹理信息和中心约束的融合，中心约束指的是在进行训练时会对要识别的预设特征点进行标注，这样神经网络获取的响应值会针对这个标注点进行回归。

在另一个可选的实施例中，为了保证预设特征点定位的精度，并且考虑图片中各个物体之间的远近距离关系，在基于神经网络在图中的所述移动体所在的区域识别出预设特征点时，使用多尺度处理输入神经网络的图片，所述图片为所述移动体所在的区域的图片；

分别计算各个尺度下图片输入所述神经网络后得到的预设特征点的响应图；

将得到的各个尺度下的响应图加权平均，识别出所述预设特征点；

其中，多尺度指的是不同的输入分辨率，级联网络会针对不同的输入分辨率的输入提取特征，得到不同分辨率的预设特征点的响应，这样能够避免目标尺度变换对识别效果带来的影响；

神经网络得到的响应图是将认为是预设特征点的坐标给一个概率，比如指尖，得到坐标坐标(x1,y1)为指尖的概率是n1,(x2,y2)为指尖的概率是n2，(x3,y3)为指尖的概率为n3，最终确定一个坐标是指尖的位置(x,y):

x＝(x1*n1+x2*n2+x3*n3)/(n1+n2+n3)

y＝(y1*n1+y2*n2+y3*n3)/(n1+n2+n3)。

在另一个可选的实施例中，为了保证识别的可靠性，所述步骤S21之后还包括：

在另一个可选的实施例中，在得到各尺度下预设特征点的响应图后，判断得到的各个尺度下的预设特征点的响应图的响应值是否均大于第二阈值，若是，则执行后续的加权平均，识别出预设特征点的步骤，否则，进行下一帧图片的识别。

在另一个可选的实施例中，所述步骤S3中根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位包括：

具体的，所述预设特征点在两张图片中都有对应的位置，在两张图片中分别以所述预设特征点的位置作为参照点，沿着相同的方向移动相同的距离，确定出一预设大小的第一区域，也就是说在两张图片中确定出的第一区域与相应图片中的预设特征点的位置之间的相对位置关系是相同的，比如在点读机应用场景中，双摄像头中的摄像头呈左右并列方式排列，左图片中是在笔尖正下方距离笔尖3个像素点处画出70*20像素点区域，作为左图片的第一区域，相应的，在右图片中也是在笔尖正下方距离笔尖3个像素点处画出70*20像素点区域，作为右图片的第一区域；

其中，所述第一区域的大小、形状以及相对所述预设特征点的位置均是可以根据实际情况的需要进行调整的，优选的，所述第一区域不要包括所述预设特征点在内以提高后续进行区域比较以确定相对移位时的准确度；

根据两张图片中的第一区域之间的相对移位确定所述预设特征点在两张图中的相对移位；

其中，为了保证两张图片处于相同的坐标系中，可以先对所述两张图片进行极线标定；

由于是基于区域的相对移位来判断预设特征点是否与待测区域接触，相较于现有技术中通过投影来判断是否接触具有更高的通用性和准确性，不仅适用于平面接触，也适用于曲面接触。

在另一个可选的实施例中，所述步骤S3中根据所述相对移位判断所述预设特征点是否与所述待测区域接触包括：

判断所述相对移位是否小于一预设值第三阈值，若是，则所述预设特征点与所述待测区域接触，否则，所述预设特征点与所述待测区域不接触；

由于两张图片是从不同视角获得的，因此，如果预设特征点与待测区域接触，则预设特征点在两张图片中的相对移位很小，如果预设特征点与待测区域不接触，则预设特征点在两张图片中的位置的相对移位将会比较大，因此，通过设置合理的预设值，当所述相对移位小于所述预设值时，即可以判断预设特征点与待测区域接触，当所述相对移位大于或等于所述预设值，则可以判断预设特征点与待测区域不接触。

在另一个可选的实施例中，如图2所示，一种基于双摄的识别终端1，包括存储器2、处理器3及存储在存储器2上并可在所述处理器3上运行的计算机程序，所述处理器3执行所述计算机程序时实现上述各个方法实施例的步骤。

综上所述，本发明提供的一种基于双摄的识别方法及终端，基于训练好的神经网络先分别确定出移动体在通过双摄像头拍摄的包含待测区域的两张图片中所在的位置，再分别定位出预设特征点在两张图片中的位置，根据所述预设特征点在两张图片中的位置确定的两张图片的第一区域之间的相对移位确定所述预设特征点是否与待测区域接触，无需在移动体上预先设定特征纹理，直接根据训练好的神经网络定位出预设特征点的位置，能够实现自然交互，并且基于区域的相对移位确定所述预设特征点是否与待测区域接触，相较于现有技术中的投影集合算法，不仅适用平面的待测区域的是否接触的识别，也适用曲面的待测区域的是否接触的识别，通用性更高。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等同变换，或直接或间接运用在相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种基于双摄的识别方法，其特征在于，包括步骤：

S3、根据所述预设预设特征点在两张图片中的位置确定其在两张图片中的相对移位，根据所述相对移位判断所述预设预设特征点是否与所述待测区域接触。

2.根据权利要求1所述的一种基于双摄的识别方法，其特征在于，所述待测区域包含一移动体，所述预设特征点设置在所述移动体的一端或为所述移动体的一个端点。

3.根据权利要求2所述的一种基于双摄的识别方法，其特征在于，所述步骤S2包括：

4.根据权利要求3所述的一种基于双摄的识别方法，其特征在于，所述步骤S21之后还包括：

5.根据权利要求2至4中任一项所述的一种基于双摄的识别方法，其特征在于，所述步骤S2之前包括步骤：

6.根据权利要求3或4所述的一种基于双摄的识别方法，其特征在于，所述步骤S22中基于神经网络在图中的所述移动体所在的区域识别出预设特征点包括：

7.根据权利要求6所述的一种基于双摄的识别方法，其特征在于，所述步骤S222之后还包括：

8.根据权利要求1至4、7中任一项所述的一种基于双摄的识别方法，其特征在于，所述步骤S3中根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位包括：

9.根据权利要求1至4、7中任一项所述的一种基于双摄的识别方法，其特征在于，所述步骤S3中根据所述相对移位判断所述预设特征点是否与所述待测区域接触包括：

10.一种基于双摄的识别终端，包括存储器、处理器及存储在存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现以下步骤：

11.根据权利要求10所述的一种基于双摄的识别终端，其特征在于，所述待测区域包含一移动体，所述预设特征点设置在所述移动体的一端或为所述移动体的一个端点。

12.根据权利要求11所述的一种基于双摄的识别终端，其特征在于，所述步骤S2包括：

13.根据权利要求12所述的一种基于双摄的识别终端，其特征在于，所述步骤S21之后还包括：

14.根据权利要求11至13中任一项所述的一种基于双摄的识别终端，其特征在于，所述步骤S2之前包括步骤：

15.根据权利要求12或13所述的一种基于双摄的识别终端，其特征在于，所述步骤S22中基于神经网络在图中的所述移动体所在的区域识别出预设特征点包括：

16.根据权利要求15所述的一种基于双摄的识别终端，其特征在于，所述步骤S222之后还包括：

17.根据权利要求10至13、16中任一项所述的一种基于双摄的识别终端，其特征在于，所述步骤S3中根据所述预设特征点在两张图片中的位置确定其在两张图片中的相对移位包括：

18.根据权利要求10至13、16中任一项所述的一种基于双摄的识别终端，其特征在于，所述步骤S3中根据所述相对移位判断所述预设特征点是否与所述待测区域接触包括：