CN117075730A

CN117075730A - 一种基于图像识别技术的3d虚拟展厅控制系统

Info

Publication number: CN117075730A
Application number: CN202311042648.0A
Authority: CN
Inventors: 张秋玲; 苏浩聪; 张夺
Original assignee: Guangdong Morning Good Culture Development Co ltd
Current assignee: Guangdong Morning Good Culture Development Co ltd
Priority date: 2023-08-18
Filing date: 2023-08-18
Publication date: 2023-11-17
Anticipated expiration: 2043-08-18
Also published as: CN117075730B

Abstract

本发明属于图像识别领域，公开了一种基于图像识别技术的3D虚拟展厅控制系统，包括第一摄像头、第二摄像头和滤波装置；第一摄像头和第二摄像头的分辨率相同、主光轴平行且主光轴均平行于地面，两条主光轴之间的距离小于设定的距离阈值S；第一摄像头和第二摄像头分别用于获取包含用户的手部的深度图像和平面图像；滤波装置用于对深度图像进行滤波处理，包括：获取平面图像中用户的手部区域所对应的像素点的第一集合；根据第一摄像头和第二摄像头之间的映射关系，在深度图像中获取第一集合所对应的像素点所组成的第二集合；在深度图像中对第二集合中的像素点进行滤波处理，得到滤波后的深度图像。本发明提高了滤波处理的速度。

Description

一种基于图像识别技术的3D虚拟展厅控制系统

技术领域

本发明涉及图像识别领域，尤其涉及一种基于图像识别技术的3D虚拟展厅控制系统。

背景技术

3D虚拟展厅指的是在虚拟现实空间中进行展示的对真实的展厅进行建模所得到的展厅模型。当用户戴上虚拟现实设备之后，便需要通过手势识别的方式来获取用户的操作指令，然后虚拟现实系统根据操作指令来对展厅模型进行相应的变化，从而实现对3D虚拟展厅的控制。

现有技术中在通过手势识别的方式对3D虚拟展厅控制时，需要通过获取手势的深度图像来实现对手势的识别，在进行识别之前需要先对深度图像进行滤波处理，现有技术是直接对深度图像中所有的点进行滤波处理，显然，这样会导致对深度图像中不属于用户的手部的点也进行滤波处理，降低了获得用户的手势所对应的操作指令的效率，从而影响了3D虚拟展厅控制系统的对用户所发出的操作指令进行响应的速度。

发明内容

本发明的目的在于公开一种基于图像识别技术的3D虚拟展厅控制系统，解决通过手势识别的方式对3D虚拟展厅进行控制时，如何提高手势的识别速度，从而提高3D虚拟展厅控制系统的对用户所发出的操作指令进行响应的速度的问题。

为了达到上述目的，本发明提供如下技术方案：

本发明提供了一种基于图像识别技术的3D虚拟展厅控制系统，包括第一摄像头、第二摄像头和滤波装置；

第一摄像头和第二摄像头的分辨率相同，第一摄像头的主光轴和第二摄像头的主光轴平行，第一摄像头的主光轴和第二摄像头的主光轴均平行于地面，第一摄像头的主光轴和第二摄像头的主光轴之间的距离小于设定的距离阈值S；

第一摄像头用于获取包含用户的手部的深度图像；

第二摄像头用于获取包含用户的手部的平面图像；

滤波装置用于对深度图像进行滤波处理，包括：

获取平面图像中用户的手部区域所对应的像素点的第一集合；

根据第一摄像头和第二摄像头之间的映射关系，在深度图像中获取第一集合所对应的像素点所组成的第二集合；

在深度图像中对第二集合中的像素点进行滤波处理，得到滤波后的深度图像。

可选的，还包括手势识别装置；

手势识别装置用于对滤波后的深度图像进行识别，获得滤波后的深度图像中所包含的手势的类型。

可选的，对滤波后的深度图像进行识别，获得滤波后的深度图像中所包含的手势的类型，包括：

对滤波后的深度图像进行分割，获得深度图像中的用户的手部所对应的像素点所组成的分割图像；

获取分割图像的图像特征；

将分割图像的图像特征分别与每种类型的手势的图像特征进行匹配，从而确定滤波后的深度图像中所包含的手势的类型。

可选的，还包括响应装置和显示装置；

响应装置用于根据手势的类型所对应的操作指令，在虚拟现实空间中控制展厅模型进行变化，得到变化后的展厅模型；

显示装置用于显示变化后的展厅模型。

可选的，在深度图像中对第二集合中的像素点进行滤波处理，得到滤波后的深度图像，包括：

根据第二集合中的像素点的滤波处理系数，将第二集合分成一类点集合和二类点集合；

采用预设的第一滤波算法对一类点集合中的点进行滤波处理，得到第一滤波集合；

采用预设的第二滤波算法对二类点集合中的点进行滤波处理，得到第二滤波集合；

由第一滤波集合和第二滤波集合中的点组成滤波后的深度图像。

可选的，滤波处理系数的计算函数为：

noired_a表示第二集合中的像素点a的滤波处理系数，w₁、w₂、w₃表示设定的权重值，depth_a表示深度图像中像素点a的深度值，judgnei_a表示像素点a的判断值，rnda表示以像素点a为中心的，半径为D的范围内的像素点的集合，midepth表示rnda中的像素点的深度值的中值，depth_i表示像素点i的深度值，depth_ave表示rnda中的像素点的深度值的均值，nfrnda表示rnda中的像素点的总数。

可选的，judgnei_a的获取过程为：

用(x_a,y_a)表示像素点a的坐标，则若像素点a的8邻域的像素点符合如下任一种情况，则judgnei_a的值为1，否则，judgnei_a的值为0.5；

第一种情况，像素点a的8邻域中有且仅有坐标为(x_a-1,y_a+1)和(x_a+1,y_a-1)的像素点与像素点a之间的深度值的差值的绝对值小于设定的绝对值阈值；

第二种情况，像素点a的8邻域中有且仅有坐标为(x_a-1,y_a)和(x_a+1,y_a)的像素点与像素点a之间的深度值的差值的绝对值小于设定的绝对值阈值；

第三种情况，像素点a的8邻域中有且仅有坐标为(x_a-1,y_a-1)和(x_a+1,y_a+1)的像素点与像素点a之间的深度值的差值的绝对值小于设定的绝对值阈值；

第四种情况，像素点a的8邻域中有且仅有坐标为(x_a,y_a+1)和(x_a,y_a-1)的像素点与像素点a之间的深度值的差值的绝对值小于设定的绝对值阈值。

可选的，根据第二集合中的像素点的滤波处理系数，将第二集合分成一类点集合和二类点集合，包括：

若像素点a的滤波处理系数大于设定的滤波处理系数阈值，则将像素点a分到一类点集合；

若像素点a的滤波处理系数小于等于设定的滤波处理系数阈值，则将像素点a分到二类点集合。

在本发明中，先获取平面图像中的手部区域的像素点的第一集合，然后根据映射关系获取深度图像中的第二集合，从而使得仅需要对第二集合中的像素点进行滤波处理，大幅度减少了需要进行滤波处理的像素点的数量，从而提高了滤波处理的速度，提高了手势的识别速度，从而提高3D虚拟展厅控制系统的对用户所发出的操作指令进行响应的速度。

附图说明

从下文给出的详细描述和附图中将更充分地理解本公开，附图仅以说明的方式给出，因此不限制本公开，并且其中：

图1为本发明一种基于图像识别技术的3D虚拟展厅控制系统的第一种示意图。

图2为本发明一种基于图像识别技术的3D虚拟展厅控制系统的第二种示意图。

图3为本发明一种基于图像识别技术的3D虚拟展厅控制系统的第三种示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

如图1所示的一种实施例，本发明提供了一种基于图像识别技术的3D虚拟展厅控制系统，包括第一摄像头、第二摄像头和滤波装置；

第一摄像头用于获取包含用户的手部的深度图像；

第二摄像头用于获取包含用户的手部的平面图像；

滤波装置用于对深度图像进行滤波处理，包括：

上述实施过程，先获取平面图像中的手部区域的像素点的第一集合，然后根据映射关系获取深度图像中的第二集合，从而使得仅需要对第二集合中的像素点进行滤波处理，大幅度减少了需要进行滤波处理的像素点的数量，从而提高了滤波处理的速度，提高了手势的识别速度，从而提高3D虚拟展厅控制系统的对用户所发出的操作指令进行响应的速度。

具体的，第一摄像头与第二摄像头的主光轴的高度相同。在安装时，将第一摄像头安装于第二摄像头的右边或将第一摄像头安装与第二摄像头的左边。

具体的，映射关系的确定过程为：

根据上述位置关系安装好第一摄像头和第二摄像头后，在第一摄像头和第二摄像头的拍摄范围重叠的区域放置一个易于进行识别的物体，如与背景之间的灰度值差异大于设定灰度值阈值的物体；

分别启动第一摄像头和第二摄像头对该物体进行拍摄，得到第一图像和第二图像；

在第一图像中获取属于该物体的第一区域，获取第一区域的中心的坐标(x_1,mid,y_1,mid)；

在第二图像中获取属于该物体的第二区域，获取第二区域的中心的坐标(x_2,mid,y_2,mid)；

则对于第一图像中的像素点(x₁,y₁)，其与第二图像中的像素点(x₂,y₂)之间的关系为：

将K作为第一摄像头和第二摄像头之间的映射关系。

具体的，第一摄像头由于与第二摄像头的分辨率相同，拍摄角度也相同，但是拍摄的位置不同，因此，对于同一个物体，其中心在第一图像和第二图像中的坐标并不相同，因此，通过获取中心点的坐标的差别，便可以知道属于同一个点的像素点在第一摄像头和第二摄像头获得的图像中的位置的差异，通过这种差异，可以在其中一个摄像头拍摄得到的图像中识别出需要进行识别的物体，然后利用映射关系找到另一个摄像头拍摄得到的图像中，该需要就行识别的物体的像素点。

可选的，获取平面图像中用户的手部区域所对应的像素点的第一集合，包括：

使用基于HSV空间的肤色检测模型对平面图像进行检测，获取平面图像中符合肤色检测模型的像素点的集合faceA；

基于faceA获取需要再次进行检测的像素点的集合facedl；

使用椭圆肤色模型对facedl中的像素点进行检测，将符合椭圆肤色模型的像素点保存到集合faceB；

在平面图像由faceA和faceB中的像素点组成区域C；

获取区域C的最小外接矩形；

将处于最小外接矩形范围内的像素点作为第一集合中的像素点。

具体的，本发明先使用计算速度最快的肤色检测模型来对平面图像中所有的像素点进行检测，然后再在前一次检测的结果的基础上获得需要进行第二次检测的像素点的集合，从而大幅度减少了需要进行第二次检测的像素点的数量，有效地提升了获得第一集合的效率。

由于基于HSV空间的肤色检测模型仅需要一个分量便可以判断出结果，因此，运算速度非常快。但是，此时faceA中的像素点所组成的区域依然存在部分的边缘的断裂，即部分属于手部边缘的像素点未能被正确检测为用户的手部的区域所对应的像素点，此时，本发明通过二次检测，能够有效地降低边缘的断裂的出现概率，从而提高获得的第一集合中的包含属于用户的手部区域的像素点的比例，使得后续得到的最小外接矩形更加准确，从而在保留完整的手部区域的同时，尽可能地减少第一集合中不属于手部区域的像素点的数量。有效地减少了第二集合中的像素点的数量。

可选的，使用基于HSV空间的肤色检测模型对平面图像进行检测，获取平面图像中符合肤色检测模型的像素点的集合faceA，包括：

基于HSV空间的肤色检测模型如下：

0.04≤H≤0.13

将平面图像中符合上述肤色检测模型的像素点保存到集合faceA。

可选的，基于faceA获取需要再次进行检测的像素点的集合facedl，包括：

对于faceA中的像素点j，计算像素点j的检测半径：

dtcred表示像素点j的检测半径，nblt_k表示像素点k的8邻域中不属于集合faceA的像素点的数量，k表示faceA中的像素点，miretc表示由faceA中的像素点所对应的最小外接矩形中的像素点的总数；itR表示预设的数值；itR大于等于3；

对于像素点j，将与像素点处于同一列的且属于集合faceA的像素点保存到集合arr_j，将与像素点处于同一行的且属于集合faceA的像素点保存到集合row_j；

若像素点j的横坐标大于等于row_j中的像素点的横坐标的最大值或像素点j的横坐标小于等于row_j中的像素点的横坐标的最小值或像素点j的纵坐标大于等于row_j中的像素点的横坐标的最大值或像素点j的纵坐标小于等于row_j中的像素点的纵坐标的最小值，则将以像素点j的为圆心的，检测半径为dtcred的圆形区域中的像素点保存到集合nei_j，将nei_j中不属于集合faceA的像素点保存到集合facedl。

在本发明中，将处于faceA中的像素点所形成的区域的边缘的像素点作为facedl中的像素点的判断基础，能够避免将处于faceA中的像素点所形成的区域的中间的像素点进行作为facedl中的像素点的判断基础，从而大幅度减少了无效的运算，因为后续需要获取最小外接矩形，而处于该区域的中间的像素点并不会对最小外接矩形的大小造成影响，这样的计算方式不仅减少了facedl中的像素点的数量，而且，也获得了更加准确的最小外接矩形。

另外，本发明的检测半径与faceA中的像素点的8邻域中不属于集合faceA的像素点的总数相关，当越大时，表示faceA中的像素点分布得越分散，在faceA之外的像素点中，属于用户的手部的区域的像素点的数量越多，此时，本发明的检测半径也越大，从而增加facedl中的像素点的数量，从而使得faceB中包含更多的属于用户的手部的区域的像素点，进而使得区域C中更为完整地包含用户的手部的区域。当/>越小时，表示faceA中的像素点分布得越密集，在faceA之外的像素点中，属于用户的手部的区域的像素点的数量越少，此时，本发明的检测半径也越小，从而减少facedl中的像素点的数量，有利于提高减少进行二次检测的数量，提高二次检测的效率。

由于基于HSV空间的肤色检测模型并不能将所有的属于用户的手部的像素点识别出来，因此，本发明通过对facedl中的像素点进行再次识别，从而提高了获得完整的手部边缘的概率。有利于提高手势识别的准确率。

可选的，如图2所示，还包括手势识别装置；

获取分割图像的图像特征；

具体的，由于第二集合中依然包含小部分的不属于用户的手部区域的像素点，此时，本发明通过进一步的图像分割来进一步确认用户的手部所对应的像素点，有利于在后续进行图像特征的提取过程中，得到更加准确的图像特征。

具体的，可以通过计算分割图像的图像特征分与每种类型的手势的图像特征之间的相似度来确认分割图像的图像特征所对应的手势的类型。

当有且只有一种类型的手势的图像特征与分割图像的图像特征的相似度大于设定相似度阈值时，则该种类型为分割图像的图像特征所对应的手势的类型。

手势的类型包括举手、五指张开、四指张开等。

可选的，如图3所示，还包括响应装置和显示装置；

显示装置用于显示变化后的展厅模型。

具体的，操作指令可以是对展厅模型中的灯光进行控制的指令、对展厅模型中进行展出的物体进行控制的指令等。

响应装置在获取到操作指令后，例如获取到对展厅模型中的灯光进行控制的指令时，根据指令的内容对展厅模型中用户的视觉所指向的灯具进行控制。指令的内容可以是开灯、关灯、提升亮度等。

具体的，基于滤波处理系数来为像素点选择相应的滤波算法进行滤波处理，能够在确保得到足够准确的滤波结果的同时，减少整体的滤波时间。

可选的，滤波处理系数的计算函数为：

具体的，滤波处理系数主要是从像素点a的深度值与rnda中的像素点的深度值之间的差别程度以及像素点a的属于手部区域的边缘的概率两个方向计算得到，差别程度越大，属于手部区域的边缘的概率越大，则滤波处理系数越大，此时，表示像素点a越重要，越需要得到准确的滤波结果。因此，本发明的滤波处理系数能够为重要的像素点赋予更大的滤波处理系数数值，有利于在后续的计算中得到更加准确手部的边缘的识别结果。

可选的，judgnei_a的获取过程为：

具体的，当像素点a符合上述任一种情况时，表示像素点a属于用户的手部的边缘的概率比较大，此时，本发明对judgnei_a赋予更大的值，使得滤波处理系数能够正确地表示像素点a的重要程度。

可选的，第一滤波算法是NML算法、条件滤波算法等滤波能力较强，但是滤波所需要的时间较长的算法；

第二滤波算法是中值滤波算法、高斯滤波算法等滤波能力稍差，但是滤波所需要的时间较短的算法。

一类点集合中的像素点所处的区域的深度值分布较为复杂，需要滤波能力较强的算法来进行滤波处理，因此，本发明将其分类到一类点集合中，二类点集合中的像素点所处的区域的深度值分布较为简单，因此，一些简单的滤波算法便能够得到足够准确的滤波结果，本发明将其分类到二类点集合中。

这种滤波方式，能够在保证获得足够准确的滤波结果的同时，进一步缩短滤波所需要的时间，有利于更快地识别出用户的手势所对应的指令。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，包括第一摄像头、第二摄像头和滤波装置；

第一摄像头用于获取包含用户的手部的深度图像；

第二摄像头用于获取包含用户的手部的平面图像；

滤波装置用于对深度图像进行滤波处理，包括：

2.根据权利要求1所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，还包括手势识别装置；

3.根据权利要求2所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，对滤波后的深度图像进行识别，获得滤波后的深度图像中所包含的手势的类型，包括：

获取分割图像的图像特征；

4.根据权利要求2所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，还包括响应装置和显示装置；

显示装置用于显示变化后的展厅模型。

5.根据权利要求1所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，在深度图像中对第二集合中的像素点进行滤波处理，得到滤波后的深度图像，包括：

6.根据权利要求5所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，滤波处理系数的计算函数为：

7.根据权利要求6所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，judgnei_a的获取过程为：

8.根据权利要求5所述的一种基于图像识别技术的3D虚拟展厅控制系统，其特征在于，根据第二集合中的像素点的滤波处理系数，将第二集合分成一类点集合和二类点集合，包括：