CN116959121B

CN116959121B - 一种基于图像识别的3d立体拍摄的计算机智能控制系统

Info

Publication number: CN116959121B
Application number: CN202311224939.1A
Authority: CN
Inventors: 杨秋芬; 陆燕; 蔡离离; 李晓琼; 周尚宽; 罗友晟; 刘玉萍
Original assignee: Hunan Open University Hunan Network Engineering Vocational College Hunan Cadre Education And Training Network College
Current assignee: Hunan Open University Hunan Network Engineering Vocational College Hunan Cadre Education And Training Network College
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-01-30
Anticipated expiration: 2043-09-21
Also published as: CN116959121A

Abstract

本发明公开了一种基于图像识别的3D立体拍摄的计算机智能控制系统，涉及计算机智能控制系统领域。本发明图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块，通过获取到一个没有运动目标的背景模型，再将其与目标对应位置的像素进行求和运算取均值获得背景模型，并进行运动区域检测，其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景，采用平均值的处理方式来进行相应帧图像的处理，将处理后的结果作为平均背景模型，通过获取时间特征，学习时空特征来更好的辅助网络识别用户姿势动作，使用户的姿势动作的有效空间特征不会被背景环境变化所影响，提高识别精度。

Description

一种基于图像识别的3D立体拍摄的计算机智能控制系统

技术领域

本发明涉及计算机智能控制系统领域，特别是涉及一种基于图像识别的3D立体拍摄的计算机智能控制系统。

背景技术

随着人工智能的快速发展，作为机器学习最重要的一个分支，深度学习近年来发展迅猛，在国内外都引起了广泛的关注，深度学习的相关算法在医疗、金融、艺术、无人驾驶等多个领域均取得了显著的成果，所以，就有专家把 21 世纪看作是深度学习甚至是人工智能发展最为突飞猛进的年代，特别是图像、视频处理和分类等方面，它是从现有数据中获取规则并使用规则来预测未知数据。

在公开号“CN102905076A”公开的“一种3D立体拍摄智能控制的装置、系统及其方法”，包括3D立体拍摄智能控制单元，其包括：主摄像机参数获取模块、副摄像机参数获取模块、图像识别模块、微处理器电路模块，图像识别模块获得的视差数据如果不在预设的视差范围内，图像识别模块则向微处理器电路模块发出信号，微处理器电路模块接收信号并向电动机驱动模块发出需要移动电动机的命令，电动机实现移动，以致使重新获得的视差数据在预设的视差范围内。

但是，在实际的应用过程中，智能控制系统在对用户动作进行识别时，在图像采集的环境中，不止发送指令的用户一人，有时还会有多人进入画面，造成用户动作识别困难，而且，同时还存在环境明暗光线交替，对用户轮廓的识别造成影响。

发明内容

本发明的目的在于提供一种基于图像识别的3D立体拍摄的计算机智能控制系统，解决智能控制系统在对用户动作进行识别时，在图像采集的环境中，不止发送指令的用户一人，有时还会有多人进入画面，造成用户动作识别困难，而且，同时还存在环境明暗光线交替，对用户轮廓的识别造成影响的问题：

本发明为一种基于图像识别的3D立体拍摄的计算机智能控制系统，包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块；

所述图像收集模块用于收集用户各个角度的图像信息，所述图像信息包括背景以及前景，其中，所述图像收集模块包括若干个摄像头、图像采集单元以及分类单元；

所述图像处理模块用于对所述图像信息进行降噪处理，得到降噪后的图像信息；其中，所述图像信息在进行降噪处理之前，先进行图像的灰度转换以及图像的平滑处理；

其中，图像平滑处理是一个面积大小为 N×N 的窗口内，中心像素点和其他相邻像素点之间的梯度绝对值的倒数是作为其他相邻像素点灰度平均值的权重，故处于区域内部的邻点权重将大于处于区域边沿附近或区域外邻点的权重；

设点（j，k）的灰度值为P（j，k），对于它的33邻域，定义梯度倒数为：；

其中，，且不同时为0，建立归一化权重矩阵：；

设w（j，k）=0.5，其余8个系数为0.5，即：；其中，计算出了权重w。

所述特征提取模块用于对降噪后的图像信息进行特征提取；

所述特征提取模块包括：

第一计算单元，用于对图像的背景进行建模，通过获取到一个没有运动目标的背景模型，再将其与目标对应位置的像素进行求和运算取均值获得，计算公式如下：；

其中，为不同时间序列下的背景模型，/>为平均建模帧数的个数，表示当前方法包含1-A帧作为平均对象；

第一更新单元，用于对所述背景模型进行不断地更新迭代，更新公式如下：

；

所述特征处理模块用于通过平均背景建模的方式来进行运动区域检测；

所述特征处理模块包括：

第二计算单元，用于计算图像集合的平均值来作为初始背景，再计算帧与帧之间的平均值与标准差；

所述平均值为：；

所述标准差为：；

其中，，/>为/>处的像素值，t为时间，d是两帧间隔；

在获取到平均值和标准差时，第二更新单元使用下列公式对背景模型进行更新：

；

其中，，/>，/>为更新后的参数，/>为学习率，提高了网络算法的鲁棒性；

姿势提取单元，用于对用户姿势进行提取，将姿势动作转换为命令图像集合；

所述姿势提取单元包括：

第三计算单元，用于根据数据项能量以及平滑项能量计算数据项和平滑项的总能量，检测用户的完整轮廓；

；

其中，为空间梯度；

所述数据项能量表示公式为：；

所述平滑项能量表示公式为：

；

其中，为t时刻的空间梯度；

所述数据项和平滑项的总能量表示公式为：

；

其中，α是正则化参数，γ代表亮度恒定和灰度梯度之间的权重，式中的，/>；

所述3D识别模块，用于通过提取的特征，利用多尺度姿势动作识别框架，对姿势动作进行识别；

所述3D识别模块包括：

姿势识别单元，用于通过对RGB信息结果和光流信息结果进行求和操作得到全新的特征向量，达到姿势识别结果；

姿势分类单元，用于对识别后的用户姿势进行分类；

所述控制模块，用于根据用户姿势模型与预设的姿势模型进行匹配，对计算机进行智能控制；

其中，通过设置图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块，通过获取到一个没有运动目标的背景模型，再将其与目标对应位置的像素进行求和运算取均值获得背景模型，并进行运动区域检测，其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景，采用平均值的处理方式来进行相应帧图像的处理，将处理后的结果作为平均背景模型，通过获取时间特征，学习时空特征来更好的辅助网络识别用户姿势动作，使用户的姿势动作的有效空间特征不会被背景环境变化所影响，提高识别精度，并且建立了一种结合光流、视频输入的多尺度用户姿势动作识别框架，能够很大程度上降低复杂度，同时还可以对突出的姿势行为的运动特征有更好的识别效果，这样，其中光流数据特征的提取可以很大程度上降低复杂度，也同时去除跟相关行为无关的背景干扰信息，可以使整体的网络对用户的姿势动作更容易识别。

优选地，所述若干个摄像头分别设置在用户的身侧，所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息，所述分类单元用于对若干个摄像头拍摄的图像信息进行分类；其中，所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。

优选地，所述图像的灰度转换的公式如下：

；

其中，f表示人眼所观察到的一幅彩色的图像；r，g，b分别表示红色、绿色、蓝色在f彩色图像的色彩分量值；

其中，灰度转换是对图像的预处理，改善画质，使图像的显示效果更加清晰。

优选地，所述3D识别模块还包括：

训练单元，用于训练标准图像指令，将标准图像指令与指令文本匹配变为计算机指令；

第一输入单元，用于将带有标准图像指令的图像输入至训练单元；

第二输入单元，用于将指令文本输入至训练单元；

其中，将文本样本和与所述文本样本对应的标准图像指令样本输入至待训练语音转换网络模型中，进行迭代训练。

优选地，所述控制模块包括：

指令接收单元，用于接收3D识别模块处理后的指令；

指令整理单元，用于将指令接收单元接收的指令进行标记后完成定位储存；

指令输出单元，用于对指令整理单元整理后的指令，根据预设的控制指令算法进行对应的控制指令的输出；

执行单元，用于根据指令输出单元输出的指令，计算机进行相应的指令执行；

控制模块主要是根据指令使计算机执行不同的行动，指令接收单元主要是接收指令，这时，图像信息已经被处理为准确的指令信息了，输入的指令信息与预设的指令进行比对，最后，根据比对结果，使计算机实现不同的行动。

优选地，所述降噪处理使用梯度倒数加权平均法。

优选地，所述对识别后的用户姿势进行分类的公式如下：

；

其中，为第 i 个动作类别的值， C为当前用户的所有姿势动作个数；

通过 Softmax函数可以把每个输出的动作类别的值取到[0,1]这个范围内，并且所有的用户姿势类别值之和为 1。

优选地，所述控制模块还包括报警单元，所述报警单元包括：

语音报警单元，用于进行语音报警；

灯光报警单元，用于驱动灯光进行报警；

其中，报警单元的设置，能够在控制模块的工作过程中，使控制模块或者其他模块发生故障时，能够进行语音报警，灯光报警单元外接灯光模组，使灯光模组闪烁进行报警。

本发明具有以下有益效果：

本发明通过设置图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块，通过获取到一个没有运动目标的背景模型，再将其与目标对应位置的像素进行求和运算取均值获得背景模型，并进行运动区域检测，其数据来源于采集的不含运动目标的背景或者指令动作结束后的背景，采用平均值的处理方式来进行相应帧图像的处理，将处理后的结果作为平均背景模型，通过获取时间特征，学习时空特征来更好的辅助网络识别用户姿势动作，使用户的姿势动作的有效空间特征不会被背景环境变化所影响，提高识别精度，并且建立了一种结合光流、视频输入的多尺度用户姿势动作识别框架，能够很大程度上降低复杂度，同时还可以对突出的姿势行为的运动特征有更好的识别效果，这样，其中光流数据特征的提取可以很大程度上降低复杂度，也同时去除跟相关行为无关的背景干扰信息，可以使整体的网络对用户的姿势动作更容易识别。

当然，实施本发明的任一产品并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的系统框图；

图2为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统主要流程示意图；

图3为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统进行姿势动作识别的框架图；

图4为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的3D识别模块框图；

图5为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的控制模块框图；

图6为本发明一种基于图像识别的3D立体拍摄的计算机智能控制系统的报警单元框图。

实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“中”、“外”、“内”等指示方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的组件或元件必须具有特定的方位，以特定的方位构造和操作，因此不能理解为对本发明的限制。

如图1-6所示，本实施列包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块；

其中，，且不同时为0，建立归一化权重矩阵：

；

设w（j，k）=0.5，其余8个系数为0.5，即：

；

其中，计算出了权重w。

所述特征提取模块用于对降噪后的图像信息进行特征提取；

所述特征提取模块包括：

第一计算单元，用于对图像的背景进行建模，通过获取到一个没有运动目标的背景模型，再将其与目标对应位置的像素进行求和运算取均值获得，计算公式如下：

；

所述特征处理模块包括：

所述平均值为：；

所述标准差为：；

其中，，/>为/>处的像素值，t为时间，d是两帧间隔；

在获取到平均值和标准差时，使用下列公式对背景模型进行更新：

；

所述姿势提取单元包括：

；

其中，为空间梯度；

所述数据项能量表示公式为：；

所述平滑项能量表示公式为：

；

其中，为t时刻的空间梯度；

所述数据项和平滑项的总能量表示公式为：

；

所述3D识别模块包括：

姿势识别单元，用于通过对RGB信息结果和光流信息结果进行求和操作得到全新的特征向量，达到姿势识别结果。

姿势分类单元，用于对识别后的用户姿势进行分类；

在本实施例中，通过在原有的 2D 卷积上添加一个时间维度，这样可以使模型不仅仅只能提取图片特征，同时也可以对视频进行时序特征提取，而RepVGG网络是在原有的VGG网络的基础上进行改进，如图3所示；

所述若干个摄像头分别设置在用户的身侧，所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息，所述分类单元用于对若干个摄像头拍摄的图像信息进行分类；其中，所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。

所述图像的灰度转换的公式如下：

；

如图4所示，所述3D识别模块还包括：

第二输入单元，用于将指令文本输入至训练单元；

如图5所示，所述控制模块包括：

指令接收单元，用于接收3D识别模块处理后的指令；

所述降噪处理使用梯度倒数加权平均法。

所述对识别后的用户姿势进行分类的公式如下：

；

如图6所示，所述控制模块还包括报警单元，所述报警单元包括：

语音报警单元，用于进行语音报警；

灯光报警单元，用于驱动灯光进行报警；

传统3D模型识别姿势动作的方法有：C3D以及RepVGG，使用本方法与这些方法进行实验，训练批次为19，实验结果如下表：

模型	精准率	错误率	漏检率
				C3D	0.52	0.48	0.55
RepVGG	0.83	0.17	0.32
				本专利方法	0.92	0.08	0.20

从以上数据对比图可看出，训练批次达到一定值后，三种模型在精确率、误检率和漏检率出现明显差别，精确率（P）分别提升了9%和40%；误检率（FDR）分别降低了9%和40%；漏检率（MDR）分别降低了12%和36%。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于，包括图像收集模块、图像处理模块、特征提取模块、特征处理模块、3D识别模块以及控制模块；

所述特征提取模块用于对降噪后的图像信息进行特征提取；

所述特征提取模块包括：

其中，M_a为不同时间序列下的背景模型，A为平均建模帧数的个数，(f_a+f_a+...+f_a-A+1)表示当前方法包含1-A帧作为平均对象；

所述特征处理模块包括：

所述平均值为：

所述标准差为：

其中，F_t(x,y)＝|N_t(x,y)-N_t-d(x,y)|，N_t(x,y)为(x,y)处的像素值，t为时间，d是两帧间隔；

所述姿势提取单元包括：

L(x,y,t)＝L(x+u,y+v,t+1)

其中，为空间梯度；

所述数据项能量表示公式为：

所述平滑项能量表示公式为：

其中，为t时刻的空间梯度；

所述数据项和平滑项的总能量表示公式为：

E_total(u,v)＝E_pic(u,v)+αE_som(u,v)；

其中，α是正则化参数，γ代表亮度恒定和灰度梯度之间的权重，式中的x＝(x,y,t)^T，w＝(u,v,l)^T。

2.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述3D识别模块包括：

姿势分类单元，用于对识别后的用户姿势进行分类；

所述控制模块，用于根据用户姿势模型与预设的姿势模型进行匹配，对计算机进行智能控制。

3.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述若干个摄像头分别设置在用户的身侧，所述图像采集单元用于采集所述若干个摄像头拍摄后图像信息，所述分类单元用于对若干个摄像头拍摄的图像信息进行分类；其中，所述分类单元将图像信息分为正前方、正后方、左侧、右侧、前左侧、前右侧、后左侧以及后右侧。

4.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述图像的灰度转换的公式如下：

f(a,b)＝(0.229×r+0.587×g+0.114×b)

其中，f表示人眼所观察到的一幅彩色的图像；r，g，b分别表示红色、绿色、蓝色在f彩色图像的色彩分量值。

5.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述3D识别模块还包括：

第二输入单元，用于将指令文本输入至训练单元。

6.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述控制模块包括：

指令接收单元，用于接收3D识别模块处理后的指令；

执行单元，用于根据指令输出单元输出的指令，计算机进行相应的指令执行。

7.根据权利要求2所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述对识别后的用户姿势进行分类的公式如下：

其中，K_i为第i个动作类别的值，C为当前用户的所有姿势动作个数。

8.根据权利要求1所述的一种基于图像识别的3D立体拍摄的计算机智能控制系统，其特征在于：所述控制模块还包括报警单元，所述报警单元包括：

语音报警单元，用于进行语音报警；

灯光报警单元，用于驱动灯光进行报警。